Documente Academic
Documente Profesional
Documente Cultură
referinŃă a lui Richard Meili (Manual psihodiagnostic, 1964), dar nici pe aceia de testare-evaluare,
în accepŃiunea americană a termenilor utilizaŃi de numeroşi autori (Anastasi, Cronbach, Gregory,
Aiken, Kaplan şi Saccuzzo etc.) pentru a-şi numi lucrările lor.
În DicŃionarul encilcopedic de psihologie din 1997, coordonat de Ursula Şchiopu, reŃinem
definiŃia termenului care exprimă chiar viziunea autoarei, după care „Diagnoza psihică se referă la
omul viu şi concret şi constă dintr-o cunoaştere complexă a acestuia prin tehnici psihologice,
aplicate conform unei strategii, ce permit colectări de informaŃii organizate privind persoana dată.”
(op. cit., p. 542). Termenul de psihodiagnostic este prezent şi la Mariana Roşca (Metode de
psihodiagnostic, 1974) şi la alŃi autori clujeni care, în deceniul al optulea au editat un valoros
Îndrumător psihodiagnostic, în mai multe volume. Acesta a fost un foarte preŃios ghid pentru
psihologul practician, căci conŃinea nu numai elemente de natură teoretică despre exigenŃele
examinărilor psihologice, ci prezenta o diversitate de instrumente practice, adaptate şi etalonate pe
populaŃie românească.
Lucrările mai noi, din România de după revoluŃia din 1989, par a evita însă termenul de
psihodiagnostic, ele vorbind de Construirea şi utilizarea testelor psihologice (Albu, 1998), despre
Cunoaşterea psihologică a persoanei (Havârneanu, 2000), despre Evaluarea în actul educaŃional
– terapeutic (Vlad, 1999) sau despre Testarea psihologică a copilului mic (Mitrofan, 1997). Doar
Valentina Horghidan mai conservă un concept care pare să devină inactual, cel de psihodiagnostic,
în lucrarea intitulată chiar Metode de psihodiagnostic (1997). În această lucrare autoarea include o
multitudine de metode, pe lângă clasicele test şi chestionar apărând şi observaŃia, convorbirea,
ancheta, experimentul, scalele de evaluare a abilităŃilor, metoda aprecierii obiective a
personalităŃii, fişa de caracterizare psihopedagogică a elevului şi chiar metodele sociometrice. Se
produce astfel o lărgire nepermis de mare a cadrului metodologic al acestei discipline ce tinde
astfel să-şi subsumeze prin înglobare întreaga metodologie a ştiinŃei psihologice, cu deschidere
chiar şi spre sociologie.
Opinăm că termenul tradiŃional de psihodiagnostic poate fi totuşi păstrat, pentru că el
include şi pe cel foarte tehnic şi consacrat de testare (testing), destinat determinărilor cantitative,
dar şi pe cel de evaluare (assessment), desemnat să completeze şi să nuanŃeze diagnosticul cu
elemente calitative. Dar, pentru că testul psihologic rămâne instrumentul său cel mai tehnic şi cel
mai puternic, cu o evoluŃie neegalată de niciuna dintre celelalte metode, generând o adevărată
ştiinŃă legată de construcŃia şi aplicarea sa, credem că centrul de greutate al acestei discipline a
pihologiei aplicate, psihodiagnoza, trebuie să rămână testarea psihologică.
17
Utilizarea evaluării psihologice pe terenul educaŃiei are funcŃii complexe:
• Depistarea copiilor cu o dotare intelectuală submedie (debilitate mintală, intelect de
limită), sau cu particularităŃi neuropsihiatrice distincte, pentru a li se crea condiŃii
favorabile de tratament psihopedagogic diferenŃiat, prin includerea în şcoli speciale sau
prin integrarea lor în învăŃământul de masă.
• Depistarea supradotaŃilor, pentru instituirea unei pedagogii a excelenŃei (curriculum
diferenŃiat).
• Diagnosticarea problemelor de învăŃare şi a celor comportamentale, pentru a stabili
programe educaŃionale adecvate.
• SelecŃia educaŃională prin teste standardizate la colegii sau universităŃi (nu ca o procedură
unică şi exclusivă, ci în asociere cu alte metode, cum ar fi scrisorile de recomandare,
mediile din timpul anilor de studiu la anumite discipline şcolare, interesele elevului din
afara şcolii etc.).
• Testele educaŃionale (docimologice sau de cunoştinŃe), pentru a verifica fie gradul de
atingere a obiectivelor preliminate, fie pentru a face un diagnostic – local, regional sau
naŃional – al învăŃământului însuşi ca sistem, fie pentru a detecta cunoaşterea minimă prin
posesia căreia se poate face o certificare a educaŃiei primite într-un ciclu sau tip de şcoală.
Exemplu
Printre sarcinile consilerului şcolar este şi aceea de a face orientarea şi ghidarea
vocaŃională a elevilor, atât la ciclul gimnazial, cât şi la cel liceal. Pentru aceasta veŃi
utiliza un arsenal larg de metode şi instrumente, care va transforma testarea elevilor
într-o formă de evaluare complexă:
• teste, cel mai adesea de aptitudini, dintre care cele mai importante sunt cele de
aptitudini cognitive;
• chestionare, pentru a determina structura intereselor de carieră şi cea a factorilor
de personalitate prezumaŃi a avea legătură cu cariera aleasă;
• datele factuale, pentru a avea acces la variabile demografice importante;
• discuŃiile cu cadrele didactice şi studiul documentelor şcolare pentru a avea o
idee despre experienŃa de învăŃare acumulată de elevi;
• interviul şi focus-grupul;
• discuŃiile individuale şi cele de grup sau cu părinŃii şi cu reprezentanŃi ai
diferitelor profesii pentru informaŃii suplimentare sau pentru consilierea efectivă.
18
Credem că zona celei mai vaste şi mai fructuoase întâlniri dintre ştiinŃa testelor
(psihometria) şi ştiinŃa examinării (docimologia, doxolgia sau docimastica) este cel al evaluării.
Chiar randamentul şcolar, ca raport dintre aptitudinile cognitive ale elevului şi gradul de acoperire
a obiectivelor operaŃionale, exprimate prin calificative, note sau medii şcolare, este locul unde
testarea psihologică şi evaluarea educaŃională se întâlnesc în modul cel mai fericit.
U1.5.2.Domeniul sănătăŃii
Domeniul sănătăŃii, în general, şi cel al sănătăŃii mintale în special, presupune o fericită
sinteză între funcŃia de psihometrician a psihologului clinician şi cea de diagnostician, unde
contribuŃia lui rămâne „esenŃială şi fundametală” (Ionescu, 1985, p. 55), cu cea de psihoterapeut şi
de cercetător. În echipa medic-psiholg, cel din urmă pare a avea o „... situaŃie privilegiată în
cercetare, unde el nu face, asemenea medicului, un examen, nu acordă o consultaŃie, ci întreprinde
o investigaŃie, el desfăşoară o activitate de explorare, ceea ce îi asigură un statut special în
cercetere.” (idem, p. 59). Locul psihologului nu este numai în clinica de boli nervoase, deoarece
prezenŃa sa în sănătate duce la o reconsiderare a actului medical în ansamblul său prin repunerea
în drepturi a subiectivităŃii bolnavului. De aceea asistăm la o extindere progresivă a ariei de
competenŃă a acestui tip de specialist, şi simultan a calităŃii prestaŃiei sale, motiv pentru care în
multe dintre Ńările vestice stagiile de formare pentru psihologul clinician sunt pe deplin
comparabile cu cele ale medicului, pentru a nu aduce în discuŃie şi importanŃa acordată pregătirii
psihologice a medicului însuşi.
Psihologul clinician intervine diagnostic şi terapeutic în:
• aprecierea normalităŃii/anormalităŃii dezvoltării neuropsihice a copilului şi adolescentului
(clinica pediatrică);
• în investigarea dezordinilor de personalitate, a stărilor reactiv-anxioase, a tentativelor de
suicid sau a stărilor de criză;
• în comportamentul deviant, asocial, antisocial sau delictual;
• în diagnoza şi tratamentul tulburărilor alimentare (anorexie, obezitate, bulimie);
• în evaluarea dezordinilor neurologice sau psihiatrice, prin calculul indicelui de deteriorare,
ca şi în recuperarea unor funcŃii mintale deteriorate parŃial sau total;
• în diagnoza şi recuperarea problemelor produse de involuŃie, sau de patologia asociată
îmbătrânirii;
• în expertizarea capacităŃii de muncă sau a deficienŃelor de intelect pentru acordarea
certificatelor de persoană handicapată.
19
preŃioasă în prevenŃie şi în terapie, oriunde intervine o disfuncŃie, sau acolo unde ea încă nici nu
există, pentru a face posibilă personalitatea optimală, integrată şi adaptată.
În toate aceste domenii s-a conturat o zonă de elecŃie a muncii psihologului, cea de
consiliere psihologică, a sfatului avizat, pentru o tot mai mare diversitate de situaŃii. Cum ar putea
fi acest copil mai puŃin conflictual în grup? Ce carieră ar fi cea mai potrivită pentru persoana X?
Ce activităŃi i s-ar putea recomanda după pensionare lui Y, pentru a se potrivi cu structura sa
cognitivă şi cu interesele sale? Cum ar putea depăşi solicitările prea stresante o personalitate de tip
A, pentru a preveni un infarct? Dar diabeticul sau hemofilicul – ce şanse au să coabiteze cu aceste
boli cronice? Sau ce risc există pentru un cuplu care are un copil cu o boală genetică (sindrom
Down, de exemplu) de a avea un al doilea copil cu aceeaşi afecŃiune? (sfat genetic).
20
creaŃie şi artă beneficiază de câştigurile din zona diagnosticului şi a evaluării psihologice. Nu
există nici un domeniu al activităŃilor umane, nici un fel de manifestare a umanului care să nu
poată servi ca punct de plecare pentru diagnoza psihică. Remarcabil este faptul că în acest
domeniu experienŃa practică şi cercetarea ştiinŃifică, ce duce la cristalizări teoretice, se presupun
permanent. Iată cuvintele generoase ale promotoarei psihodiagnosticului în România, Ursula
Şchiopu: „Prin diagnoza psihică se pune naturii umane o întrebare, se caută un răspuns care devine
într-un fel valabil pentru mai ample probleme esenŃiale privind personalitatea umană. Actul
diagnozei psihice este doar momentul prim al unei activităŃi mai complexe, aceea de recuperare şi
de recondiŃionare psihologică a capacităŃii umane şi a dimensiunilor funcŃionale optime ale
personalităŃii umane.” (1974, p. 45).
Aceasta înseamnă că un bun specialist în evaluare psihologică nu iese ca atare de pe
băncile facultăŃii, unde i se oferă doar cadrul general al pregătirii sale. El se formează în timp, prin
acumulare de experienŃă practică diversă (diagnostică, formativă şi terapeutică), de cunoaştere
teoretică pentru a putea pune ordine şi extrage informaŃia relevantă din datele culese. Un bun
psihodiagnostician are în spate ani de muncă, fişiere cu mii de cazuri care îi oferă baza de date
pentru construcŃia de bareme şi etaloane aduse la zi, dispune de un arsenal de instrumente diverse,
ce dispun de cacteristici psihometrice ridicate, cu care poate să abordeze o gamă largă de
probleme concrete. Formarea sa prin zeci de ore de practică pe lângă un psiholog experimentat şi
certificarea competenŃei sale sunt alte aplicaŃii practice importante ale evaluării psihologice.
21
1954, fiind precedate de Standardele etice ale psihologilor (1953) şi urmate de
Standarde pentru testele educaŃionale şi psihologice şi manualele lor în 1966.
Acestea vor fi urmate de Principiile etice ale psihologilor (1981) şi de o Casetă
cu principiile psihologilor (1987) sau de un Cod al practicilor de testare în
educaŃie (1988). Recomandări speciale au fost făcute în legătură cu testarea
membrilor minorităŃilor culturale şi lingvistice, a persoanelor cu dizabilităŃi, ca şi
în legătură cu nou apăruta ramură a administrării, scorării şi interpretării
computerizate a testelor.
22
• Autonomia tehnică obligă psihologul să rezilieze orice angajament pentru care nu se simte
apt prin tehnicile pe care le deŃine, el având în întregime responsabilitatea alegerii
metodelor pe care le foloseşte.
• IndependenŃa profesională, care nu neagă munca de echipă a psihologului, ci prevede doar
faptul că acesta nu trebuie să accepte condiŃii care ar putea să atingă independenŃa sa
profesională, adică să aplice corect principiile deontologiei profesionale.
Să ne reamintim...
ConsecinŃă a legii 213/2004 care reglementează profesia de psiholog în România,
a fost elaborat şi un Cod deontologic al profesiei de psiholog cu drept de liberă
practică care instituie regulile de conduită profesională ale practicianului sau
cercetătorului din acest domeniu de activitate. Codul deontologic este destinat în
mod expres orientării şi reglării doar a acelor activităŃi în care psihologii sunt
angajaŃi profesional, şi nu se referă la viaŃa particulară a acestora, care poate fi
luată în discuŃie doar atunci când aceasta ar aduce prejudicii profesiei de psiholog.
Codul deontologic se sprijină pe următoarele principii fundamentale:
• Respectarea drepturilor şi demnităŃii oricărei persoane: prin activitatea lor
profesională psihologii respectă trăirile, experienŃele, valorile, opŃiunile
celorlalŃi. Ei nu prejudiciază imaginea publică a clienŃilor lor şi vor utiliza un
limbaj care indică respectul autentic al demnităŃii umane. Utilizarea informaŃiilor
obŃinute pe cale profesională nu se va face niciodată în detrimentul drepturilor
fundamentale ale omului, fie el beneficiar de servicii psihologice, participanŃi la
cercetare, angajaŃi sau studenŃi.
• Principiul responsabilităŃii profesionale şi sociale: psihologii vor încuraja
starea de bine a clienŃilor lor şi vor respecta dreptul acestora de a sista, fără nici o
justificare, participarea la serviciul furnizat sau la activităŃile de cercetare, în
calitate de subiecŃi. Psihologii vor participa direct la dezvoltarea psihologiei ca
ştiinŃă, prin menŃinerea celor mai înalte standarde în materie, dar şi la
dezvoltarea societăŃii în general. Ei vor respecta legile şi reglementările societăŃii
sau comunităŃii în care trăiesc şi vor face tot posibilul pentru a fi impuse şi
respectate standardele şi principiile etice.
• Principiul integrităŃii profesionale: potrivit acestui principiu psihologul nu va
practica nici un fel de discriminare. El va promova acurateŃea, obiectivitatea şi
onestitatea sau buna credinŃă în raporturile cu clienŃii lor. De asemenea, el va
evita recompensele exagerate, conflictele de interese care i-ar reduce
imparŃialitatea sau care ar putea aduce atingeri profesiei sale sau imaginii
celorlalŃi psihologi. El va fi deschis şi va recunoaşter cu onestitate limitele
propriilor competenŃe.
În mod foarte explicit, codul deontologic analizează câteva categorii de standarde etice
generale, cum ar fi cel al competenŃei, standardele cu privire la relaŃiile umane, standardele de
23
confidenŃialitate, standardele de conduită colegială, standardele de înregistrare, prelucrare şi
păstrare a datelor, standardele relative la onorarii şi taxe, ca şi standardele pentru declaraŃii publice
şi reclamă.
O categorie specială o constituie standardele specifice, care se referă în mod explicit la
educaŃie şi formare profesională, la evaluare şi diagnoză, la cercetarea ştiinŃifică şi la valorificarea
rezultatelor acesteia. Astfel, pentru evaluare şi diagnoză sunt formulate prevederi exprese despre
prezentarea caracteristicilor psihologice, condiŃiile de utilizare a testelor psihologice, obŃinerea
consimŃământului pentru evaluare şi diagnoză, construcŃia instrumentelor, interpretarea
rezultatelor, calificarea necesară pentru a dezvolta o testare/evaluare, responsabilităŃile legate de
administrarea instrumentelor şi prezentarea rezultatelor pentru cei evaluaŃi, ca şi respectarea
dreptului de proprietate intelectuală.
Codul deontologic furnizează indicaŃii la fel de detaliate pentru cercetarea ştiinŃifică şi
valorificarea rezultatelor acesteia, în acord cu standardele internaŃionale existente relative la
obŃinerea acordului de a dezvolta o cercetare, obŃinerea consimŃământului, utilizarea suporturilor
de înregistrare audio-video, evitarea unor categorii de subiecŃi, utilizarea animalelor în cercetare,
plagiat, abuz de status, transmiterea şi protejarea datelor, onestitatea ştiinŃifică şi regulile de bună
conduită în cercetarea ştiinŃifică.
U1.7. Rezumat
Testarea psihologică reprezintă dimensiunea datorită căreia specificitatea şi
autonomia psihologului sunt de necontestat, indiferent de domeniul de activitate
în care se aplică testele.
Termenului de psihodiagnostic, bine înrădăcinat în psihologia românească şi
francofonă, i se substituie tot mai mult cel de evaluare psihologică.
Evaluarea psihologică este un termen integrator mai generos, fiind concepută ca
o rezolvare de probleme ce include o mare varietate de metode adiŃionale.
Aceasta deoarece evaluarea psihologică mută problema clientului în cadrul ei
ecologic, vizează o relaŃie de tip faŃă în faŃă şi are în mod expres în vedere
beneficiul acestuia.
În acest sens testarea psihologică rămâne elementul cel mai tehnic al evaluării,
care poate fi efectuată doar de specialişti certificaŃi în domeniu.
Marile domenii de aplicare al evaluării psihologice sunt şcoala, domeniul
sănătăŃii (clinic), al muncii şi ocupaŃiilor, al transporturilor, justiŃiei şi armatei.
Pentru îndeplinirea rolurilor sale, specialistul care face o evaluare psihologică
trebuie să se supună unor standarde şi reglementări etice foarte stricte.
Unele prevederi sunt de ordin mai general, fiind reglementate de un cadru legal
elaborat în fiecare din Ńările cu tradiŃie a testării şi evaluării psihologice.
În România acest cadru general este stipulat de Legea psihologului din 2004.
În mod specific, Codul psihologului cu drept de liberă practică instituie regulile
de conduită profesională ale psihologului cu drept de liberă practică din
România.
24
U1.8. Test de evaluare a cunoştinŃelor
1. InvocaŃi cinci motive pentru care termenul de testare a fost înlocuit treptat cu
cel de evaluare psihologică.
2. AnalizaŃi comparativ termenul de diagnostic din context medical şi cel de
psihodiagnostic din contextul profesiunii de psiholog.
3. IerarhizaŃi componentele evaluării psihologice în contextul şcolar românesc
contemporan, acordând ponderi procentuale fiecărei categorii de atribuŃii.
ArgumentaŃi ierarhia propusă.
4. EfectuaŃi acelaŃi demers în contextul psihologiei clinice sau a muncii (la
alegere).
5. ComentaŃi trei dintre cele mai importante reglementări legale a profesiei de
psiholog, regăsibile în majoritatea legislaŃiilor de resort.
6. IdentificaŃi în Legea psihologului din 2004 trei standarde specifice care să se
refere la formarea profesională, evaluarea şi testarea psihologică.
7. AnalizaŃi comparativ standardele americane şi franceze în materie de
testare/evaluare psihologică, indicând suprapunerile dar şi diferenŃele specifice.
25
___________________________________________________________________
Modulul M1. Unitatea de învăŃare 2
TESTUL PSIHOLOGIC, INSTRUMENTUL DE BAZĂ
AL PSIHOLOGIEI APLICATE
_________________________________________________________________
Cuprins
U2.1. Introducere ............................................................................................................ 26
U2.2. CompetenŃe ........................................................................................................... 26
U2.3. Scurt istoric al apariŃiei şi dezvoltării testelor ....................................................... 27
U2.4. Definirea testelor ................................................................................................... 28
U2.4.1. Eşantionul de comportament .................................................................... 29
U2.4.2. Standardizarea .......................................................................................... 30
U2.4.3. Fidelitatea ................................................................................................. 31
U2.4.3 Validitatea .................................................................................................. 31
U2.5. Administrarea testelor ........................................................................................... 32
U2.5.1. Îndatoririle psihologului înainte de administrarea testelor ..................... 33
U2.5.2 Faza de administrare a testelor ................................................................. 34
U2.5.3. Faza post-test ............................................................................................ 35
U2.6. Examinatorul şi variabilele situaŃionale ................................................................. 35
U2.7. Rezumat ................................................................................................................. 36
U2.8. Test de evaluare a cunoştinŃelor ............................................................................ 37
U2.1. Introducere
Nicio altă metodă a psihologiei aplicate nu a avut o contribuŃie mai efectivă în
impunerea ei în aproape toate domeniile de activitate umană, dar şi în declanşarea
unor dispute care au culminat cu o puternică „atitudine antitest”, iniŃial în fosta
U.R.S.S., apoi în Statele Unite ale Americii (Ńara în care practica testelor a luat cea
mai mare amploare), dar şi în łările de Jos, ulterior. Este de aceea întemeiată
metafora Ursulei Şchiopu, care consideră testul psihologic „... copilul scandalos al
psihologiei, ce mai tulbură şi astăzi spiritele” (1976, p. 104).
U2.2. CompetenŃe
După parcurgerea acestei unităŃi de curs, studenŃii vor şti:
• să descrie pe scurt apariŃia conceptului de test psihologic;
• să definească testul psihologic ca măsură standardizată a unui eşantion de
comportament;
• să identifice şi să descrie trei dintre caracteristicile de bază ale testelor
psihologice, standardizarea, fidelitatea şi validitatea;
• să identifice şi să definească corect îndatoririle psihologului înaintea
26
administrării, în timpul administrării şi după administrarea unui test sau baterii
de teste;
• să identifice variabilele situaŃionale care pot interveni într-o situaŃie de testare;
• să definească şi să proiecteze o şedinŃă de testare psihologică.
27
extinderea aplicaŃiilor psihologiei şi consolidarea pe bază experimentală a psihologiei diferenŃiale”
(Holban, 1973, p. 142). Aceasta deoarece testele au o valoare practică dovedită, generată mai ales
de precizia, obiectivitatea şi relevanŃa informaŃiilor obŃinute. Testele psihologice au un mare
randament, căci, în condiŃii de costuri materiale şi de timp scăzute, oferă o informaŃie care ar fi
greu de obŃinut prin alte metode. Astăzi este tot mai evident că nu testele înseşi trebuie
incriminate, deoarece la capătul unei lungi evoluŃii au standarde foarte înalte relative la elaborare,
utilizare şi interpretare, incomparabile cu oricare altă metodă, ci modul lor de utilizare. Testele
sunt doar instrumentele perfecŃionate ale psihologiei aplicate, dar maniera lor de utilizare depinde
în principal de utilizator, şi nu de caracteristicile lor intrinsece.
28
• Instrument al metodei experimentale, organizat sub forma unor probe standardizate din
punct de vedere al conŃinutului, al condiŃiilor de aplicare şi al modalităŃii de apreciere a
rezultatelor, care este folosit în stabilirea unei anumite variabile (Holban, 1973).
Să ne reamintim...
Din această multitudine de definiŃii elementele sintetice cele mai semnificative,
esenŃiale pentru înŃelegerea specificului unui test psihologic sunt:
• este probă, procedură, procedeu sau instrument standardizat;
• care serveşte drept stimul pentru producerea şi măsurarea unui eşantion de
comportament;
• care va fi apreciat prin raportarea şi compararea cu o populaŃie de referinŃă,
testată în condiŃii identice, în raport cu care s-a construit sistemul de apreciere
(barem, etalon, norme, categorii tipologice);
• funcŃia lui fiind în acelaşi timp diagnostică (apreciază starea de fapt), dar şi
prognostică (anticipează categorii viitoare de comportamente mai importante
decât cele măsurate efectiv);
• pentru îndeplinirea acestor funcŃii ele trebuind să aibă calităŃi psihometrice
specificate (fidelitate, validitate, sensibilitate sau forŃă de discriminare).
Să ne reamintim...
În rezumat, standardizarea testelor presupune identitatea de procedură, de
aplicare/administrare şi de cotare a unui test. În mod mai explicit standardizarea se
referă:
• la conŃinut (proba va fi identică cu ea însăşi);
• la materiale şi la modul de manipulare a acestora;
• la instructaj şi la aplicarea efectivă a probei;
• la modul de corectare, cotare, scorare sau apreciere a probei;
• la existenŃa unor bareme sau norme prin care performanŃa brută a subiectului
capătă relevanŃă statistică.
30
U2.4.3. Fidelitatea
Dacă cineva şi-ar determina greutatea citind pe cadranul unui cântar 80 de kg, iar pe al
altuia 92 de kg, la distanŃă de câteva secunde, nu ar şti nici care este greutatea sa reală, nici care
dintre cântare este cel bun (dacă este vreunul). Cu atât mai mult ne vom îndoi de indicaŃiile
cântarului respectiv cu cât, la două măsurători succesive ale aceleiaşi persoane, el va indica valori
diferite. Un test, ca oricare altă dispozitiv de măsurare, trebuie să fie fidel, adică egal cu sine însuşi
(consistent), rezultatele unor măsurători repetate trebuind să fie cel puŃin stabile, dacă nu identice.
Cu cât fidelitatea unui test este mai mare, cu atât mai mare siguranŃă avem că rezultatele lui sunt
reale, nefiind în mod semnificativ afectate de schimbări aleatoare, cum ar fi contextul, situaŃia de
testare, starea subiectului sau particularităŃile examinatorului. „Utilizat în psihometrie, termenul de
fidelitate (reliability în engleză) întotdeauna înseamnă consistenŃă”, afirmă Anastasi (1972, p. 27).
Să ne reamintim...
Există câteva modalităŃi speciale de determinare a fidelităŃii. În principiu acestea
sunt toate metode corelaŃionale:
• Procedura test – retest (corelaŃia dintre rezultatele aplicării aceluiaşi test, în
aceleaşi condiŃii, aceloraşi subiecŃi, eventual de către acelaşi examinator, în
două momente de timp diferite, la distanŃă relativ scurtă, pentru a nu apărea
modificări în structura parametrului investigat).
• Calculul corelaŃiei dintre rezultatele unui test şi forma sa paralelă, alternativă
(în cazul în care ea există), aplicată în condiŃii identice.
• Tehnica înjumătăŃirii (split-half), prin care jumătatea pară a unui test (itemii cu
număr par) este pusă în corelaŃie cu jumătatea lui impară. Există şi alte metode
de înjumătăŃire.
• CorelaŃia între modul în care psihologi diferiŃi scorează acelaşi test, aplicat
aceloraşi persoane, în aceleaşi condiŃii (fidelitatea interscoreri).
U.2.4.4. Validitatea
Un test poate să fie fidel fără a fi însă şi valid, însuşire care se referă la faptul că el măsoară
efectiv ceea ce şi-a propus. Nici un test nu are validitate scăzută sau ridicată în mod absolut,
deoarece aceasta depinde de scopul şi maniera în care testul este utilizat.
Exemplu
Galton a încercat să determine într-o manieră corectă acuitatea perceptivă sau
sensibilitatea la durere, dar acestea s-au dovedit a nu fi determinări valide ale
inteligenŃei, aşa cum el a presupus.
Spre deosebire de fidelitate, care se poate determina relativ uşor, validitatea are nevoie de
acumulări graduale de informaŃie, rezultate din diferite tipuri de investigaŃii. Deoarece este un
proces progresiv, dependent de timp, este mai potrivit să se spună că un test se validează,
validitatea fiind acea determinare care permite să spunem în ce măsură el îşi îndeplineşte funcŃiile
pentru care a fost proiectat, în raport cu diversele sale domenii de aplicaŃie. Prin validitate, testul
se testează pe sine, făcând apel la diverse criterii externe, pentru a determina dacă predicŃiile sale
au fost valabile şi în ce măsură, în funcŃie de care se va şti ce încredere poate să îi fie acordată.
31
Să ne reamintim...
Ca şi fidelitatea, validitatea este o corelaŃie, care se poate stabili în câteva feluri:
1. Măsura în care un test acoperă un domeniu, adică validitatea de conŃinut. Un
test de cunoştinŃe poate acoperi un mic sector al matematicii, sau unul mai larg,
caz în care el devine mai valid în raport cu acest domeniu.
2. Măsura în care scorurile la un test sunt în acord cu teoria care susŃine trăsătura
sau constructul măsurat, adică validitatea de construct.
3. Măsura în care testul corelează cu un alt test independent, recunoscut ca un
bun instrument de măsură al aceluiaşi domeniu (inteligenŃă, memorie,
personalitate etc.), ceea ce reprezintă validitatea relativă la criteriu. Când
scopul testului este predicŃia unui anumit comportament, criteriul va fi
măsurarea viitoarei performanŃe şi corelarea ei cu testul iniŃial, în acest caz
vorbind de validitatea predictivă. Aceasta este o formă fundamentală de
validitate, pentru că de cele mai multe ori psihodiagnoza are în vedere
prognoza, adică anticiparea rezultatelor.
Unii detractori ai metodei testelor susŃin că cea mai bună predicŃie a rezultatelor
unei munci sau a unei activităŃi ar fi rezultatele obŃinute într-o perioadă de timp în
chiar munca sau activitatea respectivă. Aceasta ar face inutilă chiar activitatea de
selecŃie pe bază de teste, dar această modalitate nu este utilizabilă practic din cauza
marilor cheltuieli de timp şi bani presupuse de punerea ei în aplicare.
32
U2.5.1. Îndatoririle examinatorului înainte de administrarea testelor
Pentru a preîntâmpina efectul de surpriză (neindicat), testele psihologice vor fi programate
şi anunŃate din timp. Se va evita plasarea şedinŃei de testare după masă, în timpul programului de
joacă sau în concurenŃă cu alte activităŃi mai interesante. În acord cu particularităŃile de vârstă,
dacă şedinŃa de testare ar putea depăşi o jumătate de oră la grădiniŃă, o oră în primul ciclu şcoalar
şi o oră şi jumătate în cel de al doilea ciclu şcolar, atunci se vor organiza mai multe şedinŃe. În
cazul testelor educaŃionale elevii vor fi anunŃaŃi din timp, pentru a se putea pregăti fizic (odihnă),
emoŃional şi intelectual. Acolo unde este cazul, se va cere consimŃământul scris, care este un acord
de principiu al examinatului sau al reprezentantului legal al acestuia că el consimte să fie
examinat. În Ńările avansate în materie, consimŃământ informat este reglementat prin lege.
Tot ca o fază preparatoare este şi pregătirea prealabilă a examinatorului, care trebuie să fi
parcurs el însuşi testul o dată, memorând la nuanŃă şi în detaliu instrucŃiunile de aplicare, pentru a
nu avea nesiguranŃă şi ezitări în aplicarea acestuia. Pentru a crea o atmosferă informală, calmă şi
destinsă (importantă mai ales în examinările individuale) psihologul trebuie să pregătească şi să
verifice cu minuŃiozitate materialele necesare, reducând la minimum căutarea şi organizarea lor
chiar în timpul şedinŃei de testare. Dacă vor fi folosite aparate, verificarea bunei lor funcŃionări şi
calibrarea lor periodică devin obligatorii. În examinările colective (de grup), fiecare caiet de test,
foaie de răspuns, creioane sau instrumente adişionale necesare trebuie atent verificate.
Familiarizarea cu procedurile de examinare presupune practica asistată de specialistul calificat,
care poate merge de la simpla observaŃie, până la peste un an de instruire supervizată.
Asigurarea condiŃiilor satisfăcătoare de testare obligă psihologul să verifice condiŃiile de
ordin fizic (aşezare, iluminare, ventilare, temperatură, nivelul zgomotului) şi psihice, prin care
examenul să se desfăşoare confortabil. AnunŃul: Se testează! Vă rugăm, nu deranjaŃi! va descuraja
pe cei din exterior să inoportuneze, deşi prezenŃa unui supraveghetor la uşă, şi chiar încuierea ei pe
perioada sesiunii de testare, ar fi mai de dorit. Dacă în cazul examenelor individuale (mai
costisitoare, dar şi mai edificatoare) se pot controla mai uşor variabilele externe, examinatorul
alegând o cameră liniştită, potrivită scopului şi lucrând singur cu subiectul (chiar dacă uneori
prezenŃa părintelui, a reprezentantului legal sau a poliŃistului se impune), în examinările colective
precauŃiile vor fi mult mai mari, în special datorită larg răspânditei tendinŃe de a trişa sau de a fi
incorect, care poate vicia semnificativ rezultatele. Prezentăm câteva măsuri de siguranŃă:
distribuirea de teste cu acelaşi conŃinut, dar aşezate în forme diferite, prezenŃa unui număr
suficient de supraveghetori atent instruiŃi, care vor descuraja activ sau prin simpla lor prezenŃă
tendinŃa spre fraudă. Aceştia sunt cu atât mai necesari cu cât grupul este mai mare, iar miza testării
este mai ridicată, fiind de mare ajutor în distribuirea şi colectarea materialelor, în secretizarea
foilor de răspuns (când se impune) şi la supraveghere pentru prevenŃia oricărei situaŃii nedorite.
Detalii aparent nesemnificative cum ar fi forma pupitrului, tipul de foi de răspuns utilizate
(indicate a se folosi pentru subiecŃi de peste 11 ani, pentru că ele încetinesc considerabil viteza de
parcurgere a testului), prezenŃa sau nu a încurajărilor sau a comentariilor examinatorului, pot
afecta performanŃa la un test şi de aceea standardizarea procedurii de aplicare a acestuia trebuie să
meargă până la cele mai mici nuanŃe. Orice modificare a acesteia trebuie notată şi luată în calcul la
interpretarea rezultatelor.
33
Ca psiholog începător în domeniul muncii şi recrutării de personal, aŃi fost
invitat să oraganizaŃi o şedinŃă destinată selecŃiei de vânzători pentru o
companie din domeniul respectiv. DescrieŃi pe o pagină toate elementele
necesare pregătirii atente a aceste şedinŃe de selecŃie, care se va desfăşura în
sala de conferinŃe a unui hotel important.
34
Exemple
Aiken (1997) face câteva recomandări valabile pentru aceste categorii speciale:
psihologul să asigure timp suficient celui examinat pentru a înŃelege şi răspunde;
să permită suficient antrenament la itemii simpli, pregătitori;
să folosească perioade mai scurte de testare;
să observe oboseala şi anxietatea şi să le ia în calcul;
să sesizeze şi să noteze deficienŃele perceptiv-motrice (defectele de auz, văz,
motrice, lateralizarea inversă);
să folosească generos încurajarea şi întărirea pozitivă;
să nu forŃeze subiectul să răspundă când acesta nu mai doreşte.
Toate recomandările de mai sus nu trebuie să vină în conflict cu cerinŃa de bază a
oricărei testări psihologice, care este standardizarea şi uniformitatea de procedură.
În timpul testării, mai ales la testele cu răspunsuri la alegere din mai multe posibilităŃi sau
variante, este posibil ca o parte dintre răspunsurile bune să poată fi efectiv ghicite, sau determinate
prin ceea ce Aiken (1997) numeşte „deşteptăciunea în test” (test wiseness). Prin aceasta se elimină
opŃiunile nepotrivite, prin semne adiŃionale scăpate în formularea itemilor, ce permit judecăŃi
comparative între opŃiuni. Există tehnici speciale de ameliorare a performanŃelor la anumite teste,
nu prin pregătirea specifică în domeniu, ci prin respectarea unor reguli.
35
SituaŃia de examinare are şi alte faŃete. Anne Anastasi arată că recruŃii abia încorporaŃi dau
rezultate mai slabe dacă sunt examinaŃi imediat după încorporare, fără să fi avut timp să se
acomodeze cu noul mediu. Uneori activităŃile imediat precedente îşi pun amprenta asupra
performanŃei la test. Feedback-ul pozitiv sau negativ dat de examinator pe parcursul desfăşurării
testului poate ameliora sau diminua rezultatele finale. Chiar dacă ponderea acestor factori nu este
foarte mare, într-un program de testare bine conceput examinatorul trebuie să fie foarte atent la ei
pentru a le minimiza influenŃa.
Probleme suplimentare apar şi atunci când o şedinŃă de testare este precedată de un
antrenament practicat cu teste similare. Deoarece practica testelor a luat o amploare extrem de
mare în toată lumea şi deoarece multe decizii importante se bazează pe rezultatele obŃinute la
teste, edituri specializate sau firme de profil îşi oferă „serviciile” în antrenarea candidaŃilor. Într-o
manieră similară cu a iluzioniştilor care fac publice secretele confraŃilor, sau cu a informaticienilor
care introduc viruşi în programele calculatoarelor, psihologii au căzut în propria cursă, ceea ce îi
obligă la precauŃii suplimentare ce fac din psihodiagnoză un domeniu tot mai tehnicizat.
U2.7. Rezumat
Testul este considerat “copilul scandalos al psihologiei, care mai tulbură şi
astăzi spiritele”.
Aceasta pentru că, încă de la început utilizării sale, testul a creat posibilitatea
rezolvării unor probleme practice, fiind instrumentul ce a generat apariŃia
psihologiei aplicative, educaŃionale şi diferenŃiale.
Testul este un instrument economic şi cu mare randament de utilizare.
În acelaşi timp, testul a făcut posibile şi utilizări inadecvate, ceea ce a avut drept
consecinŃă apariŃia unor reglementări legale stricte privind utilizarea.
Testul psihologic este o probă sau procedură standardizată ce serveşte drept
stimul pentru producerea unui eşantion de comportament (Anastasi).
Acesta va fi apreciat prin raportarea la un etalon sau tabel de norme, obŃinut pe
populaŃia de referinŃă utilizată drept eşantion normativ.
Prima dintre cele trei însuşiri esenŃiale ale unui test psihometric este
standardizarea, adică uniformitatea de conŃinut, de aplicare şi de interpretare.
Fidelitatea unui test, determinată prin calculul corelaŃional, indică consistenŃa
sa, adică stabilitatea sa în timp.
Validitatea unui test este o caracteristică esenŃială mai greu de probat, dar
obligatorie pentru fiecare extindere a utilizării testelor spre noi populaŃii sau
spre noi utilizări.
În principiu, validitatea arată dacă testul măsoară efectiv ceea ce şi-a propus să
măsoare, pentru aceasta existând mai multe tipuri de demersuri de validare.
36
U2.8. Test de evaluare a cunoştinŃelor
1. DaŃi trei exemple de proastă utilizare a testelor care au generat rezerve sau
neîncredere legate de utilizarea acestora.
2. FurnizaŃi trei contraexemple pentru a sublinia importanŃa practică şi teoretică a
testelor.
3. ArgumentaŃi în legătură cu cerinŃa uniformităŃii şi a identităŃii de prcedură dintre
testarea pe eşantionul normativ şi oricare altă aplicare particulară a unui test.
4. PrecizaŃi semnificaŃia termenului de consistenŃă în calitatea lui de atribut esenŃial
pentru fidelitatea testelor psihometrice.
5. DefiniŃi pe scurt cele trei tipuri de validitate.
6. InventariaŃi şi analizaŃi elementele necesare pregătirii atente a unei şedinŃe de
testare colectivă, organizată în scopul unei selecŃii pentru un curs de reconversie
profesională la sediul unei firme.
7. În calitatea dvs. de psiholog într-un penitenciar, indicaŃi care ar putea fi
categoriile de persoane vulnerabile şi precizaŃi ân ce va consta managementul
acestor cazuri speciale.
8. Cum poate fi prevenită apariŃia “deşteptăciunii în test” în şedinŃele de testare
colectivă?
9. InventariaŃi cinci categorii de variabile situaŃionale care ar putea deveni
importante surse de distorsiune a rezultatelor obŃinute prin şedinŃe de testare
individuală.
37
MODULUL 2. DIFICULTATEA ŞI SENSIBILITATEA TESTELOR
FIDELITATEA ŞI VALIDITATEA TESTELOR
___________________________________________________________________
Cuprins
M2.1. Introducere ………………………………………………………………………... 38
M2.2. CompetenŃe …………………………………………………………………........... 38
M2.1. Introducere
Modulul 2 are un caracter general teoretic, el prezentând caracteristicile cele mai
importante ale testelor psihologice, legate de dificultatea şi sensibilitatea lor, de
problematica fidelităŃii şi validităŃii lor. De asemenea, sunt prezentaŃi factorii care
intervin în fidelitatea şi validitatea testelor, ca şi a modul de interpretare şi control al
acestora.
Modulul 2 este alcătuit din patru unităŃi de curs. Prima unitate de învăŃare precizează
în ce constă dificultatea şi sensibilitatea unui test şi care este relaŃia dintre aceste
două caracteristici complementare ale testului psihologic.
Cea de a doua şi a treia unitate de curs dezvoltă problematica fidelităŃii testelor
psihometrice, prezentând principalele modalităŃi de determinare a acestei calităŃi
metrice a unui test, ca şi factorii care afectează direct sau indirect fidelitatea.
Ultima unitate de curs este dedicată exclusiv validităŃii testelor, prin prezentarea a
trei modalităŃi de determinare a acesteia (relativă la conŃinut, la criteriu şi la
construct), urmată de prezentarea modalităŃilor actuale avansate de determinare a
acesteia (validitatea diferenŃială şi teoria deciziei aplicată la testele psihologice).
Suplimentar, sunt prezentate precauŃiile necesare evaluării fidelităŃii şi modul de
interpretare practică a acesteia.
Ca pentru toate cele trei module, acest al doilea modul poate fi (auto)evaluat prin
parcurgerea sarcinilor de lucru incluse în structura cursului (Do it), prin testul de
autoevaluare prezentat la sfârşitul fiecăreia dintre cele patru unităŃi de curs, ca şi prin
testul de evaluare de la sfârşit de modul.
M2.2. CompetenŃe
După parcurgerea acestui modul, studenŃii vor fi capabili:
să definească şi să analizeze dificultatea şi sensibilitatea unui test, ca şi relaŃiile
dintre cele două caracteristici corelative;
să definească şi să opereze practic cu cele trei modalităŃi de determinare a
fidelităŃii prezentate în curs;
să identifice factorii care intervin în problema determinării fidelităŃii, indicând
modul de operare al acestora şi felul cum pot fi controlate de constructorul testului;
38
să definească şi să exemplifice în ce constă validitatea unui test;
să precizeze modul de determinare a validităŃii de conŃinut, de criteriu şi de
construct a unui test;
să indice şi să opereze cu modalităŃile avansate ale determinării validităŃii
(factorială şi diferenŃială) şi să interpreteze validitatea predictivă în termenii teoriei
deciziei;
să cunoască condiŃiile şi precauŃiile legate de determinarea validităŃii şi să ştie
cum se interpretează principalii coeficienŃi de valditate.
Durata medie de parcurgere a fiecăreia din cele patru unităŃi de învăŃare, incluzând
rezolvarea sarcinilor propuse şi a temelor de evaluare, este de 4 ore.
39
___________________________________________________________________
Modulul M1. Unitatea de învăŃare 3
DIFICULTATEA ŞI SENSIBILITATEA UNUI TEST PSIHOLOGIC
_________________________________________________________________
Cuprins
U1.1. Introducere ............................................................................................................. 40
U1.2. CompetenŃe ............................................................................................................ 40
U1.3. Dificultatea testelor ................................................................................................ 41
U1.4. Sensibilitatea testelor ............................................................................................. 41
U1.5. ConstrucŃia unui test psihologic ............................................................................. 45
U1.6. Rezumat .................................................................................................................. 47
U1.7. Test de autoevaluare a cunoştinŃelor ...................................................................... 48
U1.1. Introducere
Aplicarea unui test psihologic sau educaŃional ridică o problemă tehnică foarte
importantă şi anume dacă el este adecvat, ca şi grad de dificultate, populaŃiei sau
grupului respectiv. Dacă este prea uşor, majoritatea scorurilor la test vor fi mari şi
curba rezultată, în formă de „j”, va fi asimetrică spre dreapta; dacă va fi prea greu,
curba în formă de „i” va fi asimetrică spre extrema stângă. Se apreciază că testul
este adecvat unei populaŃii doar în cazul în care repartiŃia scorurilor sale este
simetrică, generând o curbă de tip gaussian.
Problema dificultăŃii unui test se pune şi în funcŃie de tipul acestuia. Dacă el este
un test de aptitudini, capacităŃi, deprinderi sau cunoştinŃe, această problemă este
mult mai relevantă decât pentru testele de personalitate sau chestionarele de opinii,
atitudini, interese, valori, caz în care termenul de dificultate ar putea fi înlocuit cu
cel de accesibilitate.
U1.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să pună în relaŃie forma distribuŃiei scorurilor unor probe psihologice cu
dificultatea testului;
• să facă conexiunea dintre scopul testării şi nivelul de dificultate optim al unui
test sau baterii de teste;
• să definească conceptual de sensibilitate a unui test şi să îl pună în legătură cu
forma distribuŃiei;
• să identifice şi să analizeze rolul lungimii testului, a manierei sale de scorare şi a
tipului de norme utilizate în problema sensibilităŃii testelor;
• să analizeze corelativ problema sensibilităŃii şi dificultăŃii unui test;
• să prezinte etapele şi specificul fiecărei etape din construcŃia unui test.
40
Durata medie de parcurgere a fiecăreia din cele patru unităŃi de învăŃare,
incluzând rezolvarea sarcinilor propuse şi a temelor de evaluare, este de 4 ore.
41
această caracteristică în funcŃie de numărul claselor de scor pe care le pot delimita în interiorul
unui grup. Cu cât numărul valorilor de scor este mai mare, cu atât mai bine testul discriminează
(diferenŃiază) între indivizi.
În afara acestei accepŃiuni, Kline (1993) leagă sensibilitatea unui test de capacitatea sa de a
produce scoruri diferite pentru subiecŃii care diferă între ei în ce priveşte caracteristica măsurată.
Deoarece sensibilitatea conjugă caracteristicile testului cu cele ale populaŃiei măsurate, vom
remarca faptul că testele mai lungi, cu itemi mai bine gradaŃi ca dificultate sunt mai sensibile,
pentru că ele produc mai multe clase, şi deci mai multe valori ale scorurilor posibile. Prin contrast,
testele scurte sau cu itemi foarte omogeni ca grad de dificultate, generează mai degrabă categorii
de scor dihotomice, foarte contrastante, fiind puŃin discriminative. Depinzând de forma repartiŃiei
pe care o dă scorurilor sale, testul cu curbe atipice (în i, j sau bimodală) sunt mai puŃin sensibile în
zonele de mare aglomerare a scorurilor şi mai sensibile în rest. Curba lui Gauss este tot mai
discriminativă spre extreme, şi tot mai puŃin sensibilă pe porŃiunea sa centrală, unde aglomerarea
rezultatelor produce un număr mai mic de scoruri.
Există o legătură foarte puternică între dificultatea unui test şi sensibilitatea sa. La fel cum
în fotografie filmele foarte sensibile (care se impresionează la cantităŃi mici de lumină) plătesc un
preŃ în ceea ce priveşte calitatea imaginilor (mai puŃin nete, deoarece imaginea este tradusă pe
peliculă prin grupuri mai mari de puncte), sau la fel ca în metrologie, unde balanŃa analitică îşi
dovedeşte utilitatea pentru greutăŃile mici, dar nu şi pentru kilograme sau tone, testele psihologice
trebuie să stabilească un raport optim între dificultate şi sensibilitate.
Sensibilitatea presupune, pe de o parte, o cât mai bună acoperire a domeniului de conŃinut
al variabilei, pentru care testul trebuie să aibă grade diferite ale dificultăŃii, pe de altă parte -
discriminarea de fineŃe la nivelul fiecărui palier de dificultate considerat. Pentru a exemplifica,
bateria de inteligenŃă WISC este operaŃională de la 5-6 ani la 17-18 ani, pentru fiecare an
furnizându-se etaloane din 4 în 4 luni. Dar, în timp ce anumite subteste ale bateriei (InformaŃii,
Comprehensiune) produc un larg evantai de scoruri, încât etaloanele nu au „goluri”, alte subteste
(Cifrele, Labirinturile), discriminează grosier pe anumite porŃiuni ale scalei, la anumite vârste, din
cauza numărului mic de itemi care le compun.
Subtestul Cuburilor, o foarte validă expresie a inteligenŃei concret-spaŃiale, compus din 10
pattern-uri ce pot da (în forma iniŃială) 55 de puncte de scor, are un prag înalt de intrare în probă la
vârstele mici (5-6 ani), unde nu distinge fin performanŃa vizuo-spaŃială a celor cu coeficienŃi de
inteligenŃă mai mici de 80, şi un prag jos la vârste mari (peste 13 ani), unde nu mai distinge bine
supradotaŃii (IQ > 125/130). Pentru bateria WISC, combinarea optimă a celor două caracteristici
(dificultatea cu sensibilitatea) se face pentru vârstele de 11-13 ani, unde subtestele care o compun
au cea mai mare forŃă discriminativă şi deci cele mai bune calităŃi psihometrice (Zimmerman şi
Woo-Sam, 1973). În mod similar, testul PM 38 (Matricile Progresive Standard ale lui Raven) are
un prag înalt de intrare în probă la 5-6 ani şi unul jos după vârsta de 14 ani, deci nu distinge bine
insuficienŃa ori supradotarea mintală, la vârstele mici, respectiv mari.
42
Să ne reamintim...
Sensibilitatea testelor depinde de mulŃi factori, dintre care amintim:
• Numărul itemilor: progresiv cu creşterea sa se creează posibilitatea creşterii
numărului de clase de scor. Numărul maxim de clase de scor este chiar
numărul de itemi, atunci când ei nu sunt echivalenŃi sau intercorelaŃi. Dacă
luăm exemplul testelor de inteligenŃă, acestea ar trebui să măsoare IQ-uri de la
40 la 160, având o lungime a amplitudinii scorurilor (cea care trebuie să
acopere întreg spectrul de variaŃie) de 120 de unităŃi. Dacă subtestul are 40 de
itemi, înseamnă că cea mai fină rezoluŃie este de 3 unităŃi de IQ pentru un item;
dacă am avea, ca la subtestul Cifre, 8 itemi pentru prezentarea directă şi 7
pentru prezentarea inversă, înseamnă că 120/(8+7) = 8, deci fiecare item
acoperă 8 unităŃi de IQ. Aceasta înseamnă o discriminare grosieră, căci orice
eroare de aplicare are consecinŃe însemnate asupra scorului la acest subtest. Pe
de altă parte, este aproape imposibil a genera un test cu sensibilitate maximă
(un punct de IQ să fie dat de câte un item separat), nu numai din cauza
extensiei amplitudinii împrăştierii la 120 de unităŃi, dar şi datorită numărului
de vârste distincte pe care testul trebuie să le acopere (de la 5 la 16 ani sunt 12
vârste successive ce trebuie evaluate). Aceasta ar da subteste neobişnuit de
lungi şi de greu aplicabile (nemaniabile). De aceea, teste de inteligenŃă cu o
rezoluŃie de până la 5 unităŃi de IQ pentru un item sunt încă acceptabile, deşi
cele mai bune valori ale discriminării sunt cele cuprinse între 2 şi 3.
43
• Tipul de norme utilizate în etalonare este a treia caracteristică ce poate
contribui la ameliorarea semnificativă a sensibilităŃii unui test. SelecŃia tipului
de norme depinde de precizia dorită în utilizarea testului. Dacă la normele
exprimate în centile se poate determina în principiu fiecare punct percentil (caz
foarte rar, pentru că testul ar trebui să fie foarte lung şi eşantionul foarte
extins), sau măcar punctele decile, la care se mai adaugă percentilele 3, 5, 25,
75, 95 şi 97, dezavantajul constă în inegalitatea unităŃilor de măsură (mai mici
pe porŃiunea centrală a seriei de variaŃie şi mai lungi spre extremele acesteia).
În consecinŃă, rezultatele unei baterii de teste etalonate în centile nu pot fi
adunate pentru a fi integrate într-un scor unic, prin determinarea mediei.
Cuartilele dau o împărŃire şi mai grosieră (4 clase), foarte largă, nepermiŃând
discriminările de fineŃe. Testele moderne sunt etalonate în note z
(standardizate), sau în norme derivate din acestea, cum sunt notele C, T, Hull,
stanine, stens etc. Dintre acestea, pentru chestionarele de personalitate foarte
utilizate sunt notele T (cu media de 50 şi abaterea standard de 10). Pentru
testele de inteligenŃă foarte utilizate sunt scalele de IQ, ce au media de 100 şi
abaterea standard de 15 sau 16. Ca regulă generală menŃionăm că, cu cât o
scală va avea mai puŃine intervale (11, 10, 7, 5, 3), cu atât mai mare va fi
pierderea de varianŃă, consecinŃa fiind scăderea sensibilităŃii testului. Dacă un
test de memoria cuvintelor este etalonat în stanine şi stanina 5, la 10 ani,
corespunde scorurilor 48-52, înseamnă că diferenŃa de performanŃă de 5 puncte
dintre subiecŃi este practic anulată. Fie că scorul este 48, 49, 50, 51 sau este 52,
se obŃine aceeaşi stanină 5, sensibilitatea discriminării având de suferit.
Aceasta nu înseamnă însă că scalele cu mai puŃine intervale nu sunt foarte utile
în practică: multe baterii au subteste foarte diferite ca putere de discriminare şi
atunci se alege o scală cu 9-10-11 trepte standardizate (stanine, stens sau note
C), care integrează bine toate subtestele bateriei. În plus, unii psihologi s-au
acomodat mai bine cu proprietăŃile matematice ale unui tip de scală şi îl preferă
în virtutea obişnuinŃei. EsenŃialmente acordajul dintre scorurile la test şi gradul
de extensie al scalei utilizate trebuie să ne conducă la alegerea unor scale foarte
discriminative, atunci când testul are mai mulŃi itemi (peste 30-40) eterogeni,
nu din punctul de vedere al conŃinutului sau al performanŃei măsurate, ci al
gradului de dificultate. Testele ce acoperă mai multe vârste, diferenŃiate între
ele prin performanŃe ce au ambitusul amplitudinii împrăştierii mare (între 40 şi
160 la testele de inteligenŃă) au nevoie de scale discriminative. Pentru scopuri
practice, dar şi de cercetare, celelalte teste pot fi normate pe scale mai puŃin
extinse, chiar dacă aceasta înseamnă o scădere a puterii discriminative a
testului în cauză. Pentru subtestele bateriilor sale de inteligenŃă Wechsler a
optat pentru o scală standardizată în 19 trepte, cu o abatere standard de 3, care
integrează bine aceste subteste.
44
Exemplu
Cum dificultatea şi sensibilitatea unui test depind de mărimea şi de caracteristicile
lotului particular de subiecŃi cărora li se aplică testul, înseamnă că este necesar să
se determină valorile tendinŃei centrale ale populaŃiei respective. Aceasta oferă o
imagine privitoare la gradul de suprapunere a lotului testat cu eşantionul normativ,
prezentat de manualul testului. Când media grupului testat este semnificativ diferită
de cea a eşantionului normativ din manual înseamnă că testul este prea uşor sau
prea greu, iar concluziile trase prin raportarea valorilor brute la etalon pot fi
distorsionate sau chiar greşite. Dacă abaterea standard indică o valoare mult
diferită (mai mică sau mai mare decât cea a lotului normativ), înseamnă că lotul
testat este fie prea omogen, fie prea eterogen în raport cu eşantionul normativ. În
prima situaŃie forŃa de discriminare a testului este mai scăzută, în a doua mai
ridicată, dar în ambele situaŃii va trebui avută în vedere construcŃia unui etalon mai
adecvat populaŃiei respective.
„Trebuie observat că nici un test nu poate fi atât de sensibil încât totdeauna, două persoane
deosebite în privinŃa variabilei măsurate de test să obŃină scoruri diferite”, afirmă Albu (1998, p.
189). Aceasta pentru că, în timp ce trăsăturile psihice sunt variabile continue, scorurile la test sunt
variabile discontinue şi de aceea o corespondenŃă biunivocă între variabila testată şi scorul la test
este un fapt imposibil de realizat practic. Scorul la test fiind afectat de diverse tipuri de erori
(generate de testul însuşi, de subiect, de examinator sau de situaŃia de examinare), este posibil ca
aceeaşi variabilă, măsurată la acelaşi individ, să aibă mai multe valori de scor. Întrucât
performanŃa la un test se raportează la un număr de intervale mai mic decât numărul valorilor de
scor pe care el le poate înregistra, înseamnă că indivizii plasaŃi pe acelaşi interval de scor nu sunt
discriminaŃi. Deci un test va fi cu atât mai discriminativ cu cât va separa mai bine indivizii ce
prezintă diferenŃe mai mici în privinŃa variabilei măsurate.
45
ratingul unor comportamente, în care punctele de început şi de sfârşit sunt foarte clar definite.
Tehnica Q-Sort, folosită în studiul personalităŃii, cere unui subiect să facă evaluări asupra măsurii
în care anumiŃi itemi îl descriu pe el sau pe altcineva (a se vedea capitolul ultim, despre crearea şi
statisticile scalelor psihologice). După ce au fost creaŃi şi li s-a stabilit formatul, itemii vor fi
administraŃi unui grup pentru pilotarea formei iniŃiale a testului. Caracteristicile itemilor vor fi
apreciate printr-o evaluare sistematică a dificultăŃii şi forŃei lor de discriminare, prin determinarea
curbelor caracteristice ale acestora, prin studierea consistenŃei interne sau a validităŃii relative la
criteriu etc. Abia după aceasta se face definitivarea formei finale a testului care va fi aplicat,
urmând procedurile de standardizare stabilite (condiŃii de aplicare, instructaj, limite de timp şi mod
de prelucrare a rezultatelor). Analiza tehnică a testului (fidelitate, validitate şi etalonare) încheie
un ciclu care se poate relua ori de câte ori constructorul doreşte să-şi perfecŃioneze sau să
reetaloneze testul, ori să-l îmbunătăŃească din punctul de vedere al fidelităŃii sau al validităŃii prin
eliminarea sau adăugarea de itemi.
Stabilirea scopului testului
STABILIREA SCOPULUI
Revizuirea şi redactarea
itemilor
46
U1.6. Rezumat
Analiza unui test se poate face la nivel molar (global) sau la nivel molecular
(analiza itemilor testului).
La nivel global se are în vedere determinarea dificultăŃii şi sensibilităŃii unui test
care măsoară aptitudini, capacităŃi, priceperi, deprinderi sau cunoştinŃe.
Pentru chestionare (de interese, opinii, valori sau atitudini) problema dificultăŃii
nu se pune, acestea trebuind să aibă o largă accesibilitate.
Dificultatea testului cuplează caracteristicile sale intrinsece, care Ńin de conŃinut,
cu cele extrinsece, care Ńin de populaŃia şi de scopul testării.
Dificultatea testului se determină prin tipul de curbă care rezultă din aplicarea sa
pe populaŃia Ńintă.
Sensibilitatea unui test este sinonimă cu puterea sa de discriminare şi este
definită prin numărul claselor de scor pe care le poate produce în interiorul unei
distribuŃii de scoruri.
Sensibilitatea unui test depinde de trei factori esenŃiali: de numărul itemilor, de
maniera de scorare a testului şi de tipul de norme utilizat în etalonarea sa.
Astfel, un test cu mai mulŃi itemi gradaŃi ca dificultate, poate produce mai multe
clase de scor, fiind deci mai sensibil.
Maniera de scorare poate capta mai mult sau mai puŃin din variabilitatea
performanŃelor la test. Este de preferat să se utilizeze acea manieră de scorare
care, fără a fi complicată, nu produce pierdere de variabilitate.
Timpul de lucru şi bonusurile de viteză, de precizie, de calitate sau alte elemente
pot furniza maniere de scorare mai mult sau mai puŃin discriminative.
OpŃiunea pentru un anumit tip de scală poate fi foarte importantă: scalele cu
număr mic de trepte reduc din variabilitate, iar cele foarte discriminative
reclamă un număr prea mare de itemi.
Sunt preferabile scalele care realizează cel mai bun echilibru între aceste
constrângeri şi cele care integrează cel mai bine itemii unei baterii.
Deoareace dificultatea şi sensibilitatea testelor depinde de conŃinutul lor
intrinsec, conjugat cu caracteristicile populaŃiei Ńintă şi cu scopul testării, este de
dorit să se compare tendinŃele centrale ale acestei populaŃii cu valorile lotului
normativ publicate de manualul testului.
Deşi rezervată experŃilor, construcŃia unui test este o secvenŃă circulară de faze
ale unui algoritm ce debutează cu identificarea constructului de măsurat, cu
operaŃionalizarea sa, cu redactarea formei iniŃiale a testului şi cu pilotarea sa,
pentru a continua cu analiza şi selecŃia itemilor în funcŃie de calităŃile lor
psihometrice, cu stabilirea formatului final al testului şi standardizarea sa, cu
publicarea manualului prin includerea datelor tehnice necesare (fidelitate şi
validitate). Algoritmul este unul circular pentru că fazele anterioare sunt urmate
de reelaborarea testului pentru a integra informaŃiile reieşite din utilizarea sa şi
a-l aduce la zi în raport cu schimbările ce au loc la nivelul populaŃiei.
47
U1.7. Test de evaluare a cunoştinŃelor
1. ArgumentaŃi în legătură cu nivelul optim al dificultăŃii pe care va trebui să o aibă
un test de aptitudini utilizat pentru o selecŃie de tipul cinci candidaŃi pe un post.
2. În urma aplicării unui test de cunoştinŃe s-a obŃinut o distribuŃie bimodală (cu
două “cocoaşe”). Cum interpretaŃi această distribuŃie în termeni de dificultate a
testului?
3. Care este distribuŃia tipică pentru un test foarte dificil? Dar foarte uşor?
4. ArgumentaŃi în privinŃa legăturii dintre dificultatea şi sensibilitatea unui test de
inteligenŃă luând în calcul factorul vârstă.
5. Când este sensibilitatea unui test un lucru pozitiv şi când unul negativ?
6. Care din cele trei modalităŃi de creştere a sensibilităŃii unui test, prezentate în
curs, este mai accesibilă constructorului unui test de evaluare educaŃională şi de ce?
7. Care sunt considerentele de care trebuie să Ńină cont un constructor de teste
pentru a utiliza un anumit tip de norme? (ArgumentaŃi alegerea făcută).
8. În algoritmul construcŃiei unui test psihologic, care sunt fazele de rutină şi care
cele de creativitate ? (ArgumentaŃi alegerea făcută).
9. ArgumentaŃi în legăturtă cu rolul pe care îl poate avea experienŃa în utilizarea
unui test în privinŃa sensibilităŃii şi dificultăŃii acestuia.
48
___________________________________________________________________
Modulul M2. Unitatea de învăŃare 2 FIDELITATEA TESTELOR
_________________________________________________________________
Cuprins
U2.1. Introducere ............................................................................................................ 49
U2.2. CompetenŃe ........................................................................................................... 49
U2.3. Problematica generală a fidelităŃii testelor ............................................................ 50
U2.4. Fidelitatea test-retest ............................................................................................. 51
U2.5. Coeficientul formelor paralele ............................................................................... 51
U2.6. Coeficientul de consistenŃă internă ........................................................................ 52
U2.6.1. Metoda înjumătăŃirii (split-half) ............................................................... 52
U2.6.2. Metoda Kuder-Richardson ........................................................................ 53
U2.6.3. Coeficientul alfa al lui Cronbach .............................................................. 53
U2.6.4. Fidelitatea interscoreri ............................................................................. 54
U2.7. CondiŃii pentru determinarea fidelităŃii .................................................................. 55
U2.8. Rezumat .................................................................................................................. 56
U2.9. Test de autoevaluare a cunoştinŃelor ...................................................................... 56
U2.1. Introducere
Testele sunt concepute ca instrumente de măsură perfecŃionate, în consecinŃă ele
trebuie să aibă calităŃile psihometrice presupuse de acest fapt. Dacă pentru
lungime, masă, volum, timp sau temperatură există atât instrumente perfecŃionate
de măsură, cât şi unităŃi metrice bine definite, inteligenŃa, memoria, personalitatea,
motivaŃia, iubirea sau sănătatea, agresivitatea, toleranŃa la frustrare sunt
caracteristici psihologice foarte complexe, ce nu pot fi văzute şi atinse în sens fizic,
fiind deci greu cuantificabile.
U2.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să definească eroarea standard de măsurare (SEM) şi să argumenteze în legătură
cu rolul ei în problema determinării fidelităŃii testelor psihometrice;
• să definească conceptual de fidelitate a testelor psihologice;
• să indice modul de determinare a coeficientului de stabilitate al unui test;
• să definească modul de determinare al coeficientului formelor paralele;
• să indice modul de obŃinere a coeficientului de fidelitate prin metoda
înjumătăŃirii (split-half);
• să analizeze adecvat formulele Kuder-Richardson şi Cronbach în calitatea lor de
măsuri consacrate ale consistenŃei interne a unui test;
49
• să precizeze care este utilitatea practică a fidelităŃii interscoreri;
• să identifice condiŃiile de bază ce trebuie luate în calcul la determinarea
fidelităŃii.
O altă supoziŃie a teoriei clasice a testului este că această eroare este una aleatoare,
deci scorul adevărat va fi media unei distribuŃii în care dispersia reprezintă erorile
aleatoare de măsurare. Cum aceste distribuŃii pot avea dispersii mai largi sau mai
înguste, înseamnă că şi erorile de măsurare vor fi mai mari sau mai mici. În felul
acesta teoria clasică a folosit abaterea standard a erorilor ca măsură de bază a erorii
de măsurare, numită şi SEM1.
Fidelitatea unui set de scoruri este exprimată de un număr zecimal cuprins între 0,00 şi
1,00, indicând absenŃa fidelităŃii, respectiv fidelitatea perfectă. Deoarece nu poate fi determinată
direct, fidelitatea se estimează prin analiza efectelor variatelor condiŃii de administrare şi a
conŃinutului testului asupra scorurilor finale. Ea va fi influenŃată doar de erorile nesistematice care
vor avea diferite efecte asupra celor examinaŃi. Fiecare din multiplele metode de estimare a
fidelităŃii va lua în calcul diferitele condiŃii ce pot produce asemenea schimbări nesistematice în
scorul testului, ce vor afecta în consecinŃă mărimea erorii de măsurare. În funcŃie de condiŃiile
concrete în care a fost administrat testul şi în funcŃie de ceea ce acesta măsoară, se calculează unul
sau mai mulŃi coeficienŃi de corelaŃie ca o aproximare a fidelităŃii testului.
1
SEM = Standard Error of Measurement, adică eroarea standard a măsurătorii.
50
U2.4. Fidelitatea test-retest
Numit şi coeficient de stabilitate, acesta este obŃinut prin corelarea scorurilor obŃinute de
un grup de persoane la o administrare a testului cu scorurile înregistrate la o administrare
ulterioară a acestuia, după un interval de timp. Procedeul încearcă determinarea erorilor legate de
condiŃiile de aplicare. Cum testul aplicat este acelaşi, inconstanŃa scorurilor nu poate fi imputată
itemilor săi, ci diferenŃei dintre condiŃiile de aplicare, cu atât mai mari cu cât intervalul dintre test–
retest este mai lung (luni sau ani). Aceasta presupune însă că trăsătura măsurată este ea însăşi
stabilă în timp, deci procedeul nu este adecvat pentru unele probe cum sunt tehnicile proiective de
exemplu, dar nici pentru chestionarele de motivaŃii, opinii, dispoziŃii afective sau sănătate.
Deoarece pot interveni efectele practicii (unele abilităŃi se îmbunătăŃesc prin exerciŃiu) sau
ale învăŃării (conŃinuturile testului pot fi memorate spre a fi rezolvate ulterior), se pune problema
alegerii atente a intervalului dintre cele două examinări. Aceste efecte sunt mai accentuate pentru
intervalele scurte (de ore sau zile), dar un interval mai lung are dezavantajul de a produce
modificări în chiar structura aptitudinii prin efectul de creştere sau de maturare, foarte evident mai
ales la testele educaŃionale. Intervalul optim pentru retest pare a fi de câteva săptămâni până la o
lună. Acolo unde este posibil este recomandabil să se calculeze coeficienŃi de fidelitate pentru
intervale de timp diferite (de săptămâni, luni sau ani), ceea ce va oferi o informaŃie mult mai
nuanŃată legată de stabilitatea temporală a constructului măsurat.
51
Exemplu
Chestionarul de personalitate HSPQ al lui Cattell are două forme paralele, A şi B,
generate în acelaşi fel şi măsurând aceleaşi constructe psihologice. Prin urmare este
posibil să calculăm un coeficient de stabilitate şi echivalenŃă pentru cele două forme,
utilizând un interval de la două săptămâni până la o lună între cele două testări.
52
U2.6.2. Metoda Kuder-Richardson
Kuder şi Richardson au dezvoltat în anul 1937 o metodă de evaluare a fidelităŃii dintr-o
singură aplicare a unui test, ceea ce a însemnat un mare progres, deoarece această metodă nu mai
depindea de maniera arbitrară în care se făcea înjumătăŃirea testului. Scorarea separată a
jumătăŃilor crea o altă problemă, pe lângă cea legată de dificultatea obŃinerii unor forme realmente
echivalente. Formula de mai jos se poate aplica doar testelor ai căror itemi sunt scoraŃi dihotomic
(zero sau unu, adică fals sau adevărat):
N s − ∑ pq
2
KR20 = R =
N − 1 s2
unde KR sunt iniŃialele celor doi psihologi, R este fidelitatea estimată, N numărul de itemi ai
testului, s2 varianŃa scorului la test în ansamblul său, p este proporŃia (calculată pentru fiecare item
în parte) în care un item este rezolvat corect, q este complementul acestei proporŃii, adică (1 – p),
Σpq este suma produselor pq pentru fiecare item al testului. Studiind formula, vom vedea că partea
ei din dreapta comportă o analiză din care rezultă că pentru a avea o fidelitate mai mare ca zero,
varianŃa testului trebuie să fie mai mare ca suma varianŃelor individuale ale fiecărui item (s2 >
Σpq). Acest lucru este posibil doar în cazul în care itemii, în calitatea lor de măsură a aceluiaşi
construct, sunt intercorelaŃi.
Pentru situaŃia când itemii celor două jumătăŃi sunt aproximativ egali ca nivel de dificultate
(cazul echivalenŃei), cei doi autori au propus o altă formulă, mai uşor de calculat, dar care nu se
poate aplica jumătăŃilor neechivalente, întrucât le va subevalua fidelitatea:
x
x 1 −
N N
KR 21 = 1−
N −1 s2
unde toate notaŃiile sunt aceleaşi ca în formula precedentă, iar x reprezintă media scorurilor totale
la test.
N s − ∑ si
2 2
R =α =
N − 1 s2
53
Se observă o mare similitudine cu formula KR20 chiar şi în notaŃii, termenul nou fiind si2 .
Termenul Σsi2 înlocuieşte în această formulă Σpq şi reprezintă suma varianŃelor individuale ale
fiecărui item. Singura diferenŃă constă deci în maniera în care este exprimată varianŃa.
Deoarece si2 exprimă varianŃa itemilor care nu sunt rezolvabili doar prin Da/Nu, coeficientul alfa
este considerat a fi soluŃia cea mai generală pentru determinarea fidelităŃii pentru consistenŃa
internă.
Kaplan şi Saccuzzo (1993) sesizează foarte întemeiat că toate măsurile care evaluează
consistenŃa internă determină de fapt gradul în care fiecare item diferit măsoară aceeaşi trăsătură
sau abilitate. Acest lucru presupune implicit că testul este omogen, în caz contrar acesta neavând
consistenŃă internă ridicată. Pentru testele neomogene, procedeul cel mai indicat este efectuarea
prealabilă a unei analize factoriale, prin care se vor putea subîmpărŃi itemii pe grupe omogene
(factori), subtestele ce rezultă având fiecare o consistenŃă internă ridicată, dar fiind relativ
independente unul în raport cu celelalte, ca în cazul subscalelor testului de prsonalitate 16 PF
Cattell. Aiken (1997) sesizează de asemenea că cele trei procedee de determinare a fidelităŃii
amintite anterior supraestimează valoarea acesteia pentru testele în care este implicată viteza
execuŃiei. În acest caz procedurile de apreciere a fidelităŃii trebuie modificate, recomandarea
făcută fiind aceea de a administra cele două jumătăŃi ale testului în momente diferite, dar cu limită
de timp egală. După aceasta se calculează fidelitatea, operându-se corecŃia ei prin formula
Spearman–Brown.
54
Cinci tehnicieni de la o şcoală de tehnică dentară evaluează pentru examenul de
finalizare a studiilor două tipuri de produse ale absolvenŃilor: dinŃi sculptaŃi în
ipsos (prin eliminare de material) şi dinŃi modelaŃi în ceară (prin adăugare de
material). Un psiholog aplică în paralel o baterie de teste de aptitudini vizuo-
spaŃial-motrice pentru toŃi absolvenŃii. Ce tipuri de fidelitate pot fi determinate
pentru cele două modalităŃi de evaluare folosite de cei cinci tehnicieni separat,
apoi combinat cu examenul psihologic? ArgumentaŃi răspunsul furnizat.
Creşterea nivelului de fidelitate a unui test până la limita dorită sau cerută de situaŃia de
utilizare concretă este posibilă prin creşterea numărului de itemi (care trebuie să fie de acelaşi
format şi să măsoare aceeaşi trăsătură sau acelaşi construct). Decizia aceasta angajează un proces
lung şi costisitor, pentru că testul nou generat trebuie reevaluat de la început şi uneori se dovedeşte
a fi sub nivelul de fidelitate aşteptat.
Ca o concluzie a acestor consideraŃii despre fidelitatea testelor, se relevă faptul că aceasta
este mai bună pentru teste unidimensionale şi cu număr mai mare de itemi, cât şi pentru testele
cognitive şi că ea angajează un studiu analitic al itemilor (analiza de itemi) pentru a determina cu
exactitate forŃa lor de discriminare. În multe situaŃii analiza factorială este metoda cea mai
eficientă prin care se pot construi subteste omogene şi unidimensionale. „Fidelitatea este una din
fundamentările de bază ale cercetărilor asupra comportamentului. Dacă un test nu este fidel, nu va
fi posibil să demonstrăm că el are vreun înŃeles”, afirmă Kaplan şi Saccuzzo (1993, p. 131).
55
Aşadar, deşi validitatea pare a fi o caracteristică psihometrică mai importantă, din punct de
vedere tehnic studiul ei poate începe numai cu teste care îşi dovedesc o fidelitate minimă
acceptabilă, care depinde de scopul în care ele vor fi utilizate.
U2.8. Rezumat
Teoria clasică asupra fidelităŃii testelor este construită în jurul erorii standard de
măsurare (SEM).
Fidelitatea este o corelaŃie, adică un număr zecimal cuprins între valorile de ± 1.
Fidelitatea estimează doar erorile nesistematice pe care variatele condiŃii de
aplicare a unui test le poate avea asupra scorurilor la respectivul instrument.
ConsistenŃa testului cu sine însuşi, adică constanŃa scorurilor sale pe scara
timpului este dată de coeficientul de stabilitate.
Acesta se obŃine prin metoda test-retest, intervalele dintre cele două faze
trebuind sa nu fie prea mici (pentru a nu apărea efectul de practică sau cel de
învăŃare) şi nici prea mari (pentru a nu se produce modificări importante în
structura constructului măsurat, prin efectul de creştere şi maturare).
Coeficientul de echivalenŃă determină consistenŃa a două forme paralele ale
aceluiaşi test şi poate fi determinat prin aplicarea lor simultană.
Când aplicarea se face la un interval de timp şi pe jumătăŃi înccrucişate, se
obŃine un coeficient de echivalenŃă şi stabilitate.
ConsistenŃa internă poate fi determinată prin metoda înjumătăŃirii: dacă toŃi
itemii unui test măsoară un acelaşi construct, trebuie să existe o echivalenŃă între
prima şi a doua sa parte sau între itemii cu soŃ şi cei fără soŃ.
Crearea celor două jumătăŃi este singura problemăm tehnică importantă a acestei
metode de determinare a fidelităŃii.
Kuder şi Richardson au propus o formulă de determinare a fidelităŃii unui test
dintr-o singură aplicare a acestuia, exprimată prin formula KR20.
Cronbach a generalizat această formulă pentru a fi aplicabilă şi itemilor scoraŃi
nedihotomic (cu mai mult de două variante de răspuns), prin coeficientul alfa.
Fidelitatea interscoreri este importantă doar acolo unde scorarea unui test
implică un grad de subiectivitate: teste proiective, judecăŃi apreciative sau
evaluarea produselor unor activităŃi.
CondiŃiile cele mai importante pentru determinarea fidelităŃii sunt legate de
mărimea suficient de mare a eşantionului, de nivelul său (ridicat) de
reprezentativitate, de independenŃa măsurătorilor şi de identitatea de procedură
între fazele de test şi retest.
56
3. Care sunt avantajele şi dejavantajele formelor paralele ale aceluiaşi test?
4. IndicaŃi care sunt punctele comune şi diferenŃele specifice dintre coeficientul de
echivalenŃă şi cel de stabilitate şi echivalenŃă.
5. PrecizaŃi care este specificul metodei split-half şi care sunt procedeele curente de
înjumătăŃire a unui test.
6. Care este condiŃia de bază ca formula KR20 să de valori cât mai ridicate?
7. În ce constă specificul formulei coeficientului alfa Cronbach prin comparaŃie cu
KR20?
8. O clasă de elevi este evaluată prin observaŃie participativă, efectuată de o colegă,
prin metoda produselor activităŃilor de bază (citit, scris, socotit), efectuată de 5
experŃi, şi printr-un test de inteligenŃă generală, aplicat, scorat şi interpretat de un
psiholog. PrecizaŃi modul de determinare a fidelităŃii pentru fiecare dintre cele trei
modalităŃi de evaluare.
9. ArgumentaŃi în legătură cu condiŃia de bază pentru determinarea fidelităŃii este
aceea ca eşantionul să fie suficient de extins numeric şi cât mai reprezentativ pentru
populaŃia respectivă.
10. De ce testele unidimensionale şi cele cognitive au şi trebuie să aibă o fidelitate
mai mare decât alte categorii de teste?
57
___________________________________________________________________
Modulul M2. Unitatea de învăŃare 3
FACTORI CARE AFECTEAZĂ FIDELITATEA TESTELOR
_________________________________________________________________
Cuprins
U3.1. Introducere ............................................................................................................. 58
U3.2. CompetenŃe ............................................................................................................ 58
U3.3. Întinderea diferenŃelor individuale ......................................................................... 59
U3.4. Lungimea testului ................................................................................................... 60
U3.5. Dificultatea testului ................................................................................................ 61
U3.6. Testele cu limită de timp ........................................................................................ 61
U3.7. Fidelitatea şi erorile de măsurare ........................................................................... 62
U3.7.1. Eroarea standard a măsurării .................................................................. 62
U3.7.2. Eroarea tip a estimării .............................................................................. 64
U3.8. Interpretarea fidelităŃii ............................................................................................ 65
U3.9. Generalizabilitatea .................................................................................................. 65
U3.10. Analiza de varianŃă şi planul de optimizare ......................................................... 66
U3.11. Rezumat ................................................................................................................ 67
U3.12. Test de autoevaluare a cunoştinŃelor .................................................................... 68
U3.1. Introducere
Dincolo de condiŃiile bazale necesare pentru determinare corectă a fidelităŃii
testelor psihometrice au fost evidenŃiate o mulŃime de factori adiŃionali care pot
interveni în această problemă. Unii dintre aceşti factori sunt extrinseci testului, alŃii
Ńin efectiv de structura şi lungimea acestuia. Asfel, fidelitatea unui test este în
strânsă legătură cu mărimea şi gradul de reprezentativitate a eşantionului, cu
întinderea diferenŃelor individuale, cu lungimea şi dificultatea testului cercetat.
Efectele acestor factori externi şi interni se regăsesc în erorile de măsurare, cum
sunt eroarea standard a măsurătorii şi eroarea tip a estimării. Cunoaşterea ambelor
tipuri de erori este foarte utilă, fie prin faptul că ele fundamentează măsurile de
creştere a fidelităŃii unui test, fie că fac posibilă construirea intervalelor de
încredere necesare interpretării mai acurate a scorurilor testelor psihometrice.
U3.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor şti:
• să explice argumentat care este rolul diferenŃelor individuale în problema
fidelităŃii;
• să manevreze adecvat formula de profeŃie a lui Spearman-Brown pentru a scurta
un test pera lung sau a creşte fidelitatea unui test;
58
• să explice importanŃa practică a determinării dificultăŃii unui test în conexiune cu
problema fidelităŃii;
• să explice modalitatea practică în care poate fi depăşită problema determinării
fidelităŃii testelor cu limită de timp;
• plecând le la SEM, să determine şi să interpreteze intervalele de încredere ale
scorurilor unui test;
• să explice care este eroarea tip a estimării în determinarea intervalelor de
încredere;
• să explice legătura dintre fidelitatea unui test şi acurateŃea predicŃiilor făcute de
acesta;
• să interpreteze adecvat şi nuanŃat fidelitatea unui test;
• să definescă pe scurt conceptele de generalizabilitate, de univers al scorurilor, de
dispozitiv de măsurătoare şi de plan de optimizare
Exemple
Aplicarea testului pe o categorie populaŃională foarte omogenă (clase de elită sau de
subdotaŃi intelectual, clase vocaŃionale etc.) ar putea furniza o corelaŃie mai mică
decât cea existentă la clasele normale, unde extremele (subdotaŃi, supradotaŃi
intelectual) sunt reprezentate normal.
VarianŃa – şi implicit fidelitatea – poate fi crescută în mod artificial prin folosirea de
eşantioane cu grad mare de eterogenitate. Agregarea într-un eşantion comun a unor
clase de elită (supradotaŃi), normale şi de integrare (subdotaŃi) va accentua mărimea
corelaŃiei, ca şi reunirea în acelaşi eşantion a unor niveluri de pregătire şcolară aflate
la mare distanŃă unele de altele.
59
Pentru situaŃia în care eşantionul a fost prea omogen, diminuând astfel varianŃa totală a
scorurilor la test, şi deci fidelitatea sa, Magnuson a propus o formulă de corecŃie:
1 − σ x (1 − rxx ' )
2
ruu’ =
σu2
în care ruu’ este fidelitatea estimată pentru noul eşantion, σx² este varianŃa noului eşantion iar σu²
este fidelitatea calculată între vechiul şi noul eşantion.
Pentru utilizatorul unui test precauŃiile legate de întinderea diferenŃelor individuale sunt:
• utilizarea tabelelor de norme, care aduc distribuŃiile la „un numitor comun” prin raportarea la
notele standardizate z, ca în cazul în care există diferenŃe foarte mari ale scorurilor brute ca
urmare a prezenŃei în eşantion a unor niveluri de vârstă foarte diferite;
• studiul pilot al fidelităŃii pe propriul eşantion de lucru pentru a ne asigura că populaŃia pe care
se aplică testul corespunde ca raport de omogenitate/eterogenitate populaŃiei pe care s-a
determinat fidelitatea raportată de autor în manualul testului.
Formulele de mai sus pot fi folosite şi în sensul scurtării unui test prea lung (cu scăderea
corespunzătoare a fidelităŃii sale), dar fie într-o situaŃie, fie în alta, itemii trebuie să aibă acelaşi
conŃinut şi acelaşi grad de dificultate, fiind consistenŃi cu itemii de plecare. Acest fapt presupune
parcurgerea prealabilă a fazei analizei de itemi, căci itemii foarte diferiŃi ca nivel de dificultate sau
ca şi conŃinut nu vor avea o bună corelaŃie cu cei deja existenŃi, scăzând omogenitatea de
ansamblu a testului.
Formula de profeŃie a lui Spearman-Brown nu poate preciza care sunt caracteristicile
itemilor ce vor fi adăugaŃi – în termeni de format şi de conŃinut al acestora – pentru a face să
crească fidelitatea testului până la o precizie antecalculată acceptabilă. Dacă în testele de aptitudini
itemii ce vor fi adăugaŃi vor fi definiŃi în acelaşi fel ca şi ceilalŃi, pentru a fi corelaŃi cu constructul
măsurat, în testele educaŃionale ei vor viza aceleaşi obiective pedagogice ca şi testul iniŃial. Acesta
nu este un lucru dificil, căci itemii paraleli se creează uşor dacă va fi folosită din start tehnica
specificării domeniului. Principalul inconvenient al metodei este utilizarea unui demers empiric în
crearea setului de itemi. Fidelitatea poate fi mai bine ameliorată atunci când un test a fost construit
după demersul criterial, în care însă caracteristicile itemilor trebuie să fie cunoscute în avans.
61
crea o creştere artificială a corelaŃiei prin care se pune în evidenŃă fidelitatea, deoarece vor intra în
corelaŃie multe perechi de rezultate identice (0 - 0).
„InflaŃia” fidelităŃii poate crea imaginea distorsionată a unui test cu itemi ce vor apărea ca
mai omogeni decât sunt de fapt în realitate. De fapt, la testele de viteză nu toate formele de
determinare a fidelităŃii sunt afectate. În timp ce în cazul jumătăŃii vii (split-half) aceasta va fi
afectată (itemii scoraŃi zero se distribuie aproximativ egal în cele două jumătăŃi ale testului,
crescând artificial fidelitatea), consistenŃa internă prin indicele alfa al lui Cronbach sau prin
metoda test-retest nu va fi afectată semnificativ în acest caz.
Pentru a determina totuşi şi celelalte forme de fidelitate se dau testul şi retestul cu limita de
timp convenită de autor, se marchează ultimul item (de aceea itemii trebuie pasaŃi în ordine, şi nu
„pe sărite”) apoi se continuă până la capăt testul, fără limită de timp. Scorurile din prima categorie
vor servi pentru determinarea mediilor, a abaterilor standard şi a formei distribuŃiei, necesare
scopurilor avute în vedere (cercetare, crearea de etaloane), în timp ce scorurile brute obŃinute fără
limită de timp vor da o mai bună expresie a fidelităŃii prin metodele split-half şi alfa Cronbach.
Exemple
La Testul Cuburilor, aplicabil de la 5 ani la vârsta adultă, fiecare pattern are o limită
de timp, mai mică iniŃial şi mai mare pentru modelele mai complexe. Limita de timp
nu poate fi modificată pentru că ar apărea un masiv efect de învăŃare. Mai mult,
proba se opreşte automat după trei eşecuri consecutive. În această situaŃie este de
preferat determinarea fidelităŃii testului doar pentru vârstele mari, unde marea
majoritatea participanŃilor rezolvă integral fiecare model, cea care face diferenŃa
fiind rapiditatea execuŃiei.
62
În care: rxx' este coeficientul de fidelitate iar σx este abaterea standard de la care s-a plecat în
calculul coeficientului de fidelitate rxx'.
Exemplu
Pentru o fidelitate de 0,93 şi o abatere standard de 12, σ e = 12 1 − 0,93 = 3,17 .
Plecând de la premisa că eroarea de măsurare este normal distribuită, 68% din
scoruri se vor situa între un interval de ± 1σe în jurul scorului adevărat, 95% la ±
1,96σe iar 99% la ± 2,58σe. Nu ne rămâne decât să definim aceste intervale.
Exemple
Scorul x al unui subiect la un test de inteligenŃă este de 121, eroarea standard a
măsurătorii este de 3,17 şi vrem să construim intervalul de încredere pentru p ≤
0,05 şi p ≤ 0,01. Pentru prima situaŃie avem 121 ± 1,96·3,17 = 121 ± 6,21. Deci
pentru un p ≤ 0,05, intervalul este [115; 127], adică sunt 95% şanse ca scorul
adevărat al subiectului să cadă între 115 şi 127.
Pentru cea de a doua situaŃie avem: 121 ± 2,58·3,17 = 121 ± 8,18, deci pentru un
prag de încredere p ≤ 0,01, intervalul definit este [113; 129], existând 99% şanse ca
scorul subiectului să cadă între aceste limite.
Se observă de aici faptul că:
a. cu cât fidelitatea este mai mare, cu atât mai mult limitele intervalelor de
încredere pentru orice nivel de încredere calculat sunt mai mici (mai strânse);
b. cu cât dorim să ştim cu o precizie mai mare în ce zonă vor cădea scorurile cuiva,
cu atât mai larg va fi intervalul de încredere rezultat, şi reciproc.
Aceste intervale de încredere fie sunt adesea neluate în seamă de practicieni, fie sunt rău
interpretate. De fapt noi nu avem nicicum certitudinea că scorul adevărat al subiectului va cădea în
intervalul de încredere determinat, căci există doar o probabilitate de a fi aşa. În al doilea rand – şi
aceasta pare a fi defiecienŃa majoră a acestei metode – intervalele de încredere astfel determinate
se sprijină pe postulatul homoscedasticităŃii, adică pe prezumŃia că eroarea tip este aceeaşi pe toată
scara nivelurilor succesive ale performanŃei. În al treilea rând, corelaŃia dintre scorul observat şi
cel estimat nu este niciodată una perfectă (Nunnally şi Bernstein, 1994). În consecinŃă, prezicerea
scorului adevărat plecând de la cel observat produce fenomenul de regresie spre medie al
63
scorurilor adevărate. Luând în consideraŃie această problemă, Glutting, McDermott şi Stanley
(1987) au propus o modalitate de construcŃie a intervalului de încredere mult mai riguroasă, după
formula:
ω
 = x + rxx ' ( x − x )
ω
în care  este scorul adevărat estimat, x scorul observat, x media scorurilor observate, iar rxx' este
coeficientul de fidelitate. Eroarea tip a estimării se va calcula şi ea după o formulă modificată:
σ eu = (σ x 1 − rxx ' )rxx '
în care σx este eroarea standard a distribuŃiei de la care s-a calculat rxx' iar rxx' este chiar coeficientul
de fidelitate calculat.
Exemple
Pentru exemplul anterior, în care un subiect obŃinea 121 la un test de inteligenŃă cu
media 100 şi cu abaterea standard de 15, testul având fidelitatea de 0,93,
determinarea scorului adevărat devine: 100 + 0,93(121 - 100) = 100 + 0,93·21 = 100
+ 19,53 = 119,53, rotunjit 120. Calculul erorii standard a estimaŃiei este următoarea:
(15√1-0,93)·0,93 = 15·0,26·0,93 = 3,69. Intervalul de încredere pentru p = 0,05 este
egal cu 1,96·3,69 = 7,23 în jurul scorului adevărat estimat, adică 120 ± 7. Acesta este
intervalul [113-127]. Pentru pragul de p ≤ 0,01, eroarea va fi 2,58 · 3,69 = 9,52, iar
intervalul va fi 120 ± 9,52, adică ≈ [110-130]. Aşa cum se observă în raport cu
scorul observat de 121 intervalul nu mai este unul simetric în jurul valorii obŃinute
de subiect: în prima situaŃie de la 121 – 113 = 8 puncte de scor, pentru limita
inferioară, şi în a doua situaŃie sunt 127 – 121 = 6 puncte, pentru limita superioară.
Această asimetrie provine din centrarea intervalelor de încredere diferite nu pe
scorul observat, ci pe cel estimat ca adevărat, ceea ce face din această procedură cea
mai riguroasă metodă de determinare a intervalelor de încredere.
64
U3.8. Interpretarea fidelităŃii
Răspunsul la întrebarea „Cât de mare trebuie să fie fidelitatea unui test?” depinde de
utilitatea practică care se dă acestuia.
• Fidelitate de 0,70–0,80 este suficient de bună atunci când testul este folosit în scopuri de
cercetare.
• Se acceptă niveluri scăzute ale fidelităŃii atunci când testele se utilizează pentru a lua
decizii preliminare şi niveluri ridicate pentru decizii finale, sau când ele sunt folosite
pentru împărŃirea grupului în subgcategorii, pe baza unor diferenŃe interidividuale mari.
• Dacă testul serveşte la compararea grupurilor de persoane între ele, coeficienŃii de fidelitate
de 0,60–0,70 sunt suficienŃi, dar când testul devine o bază de comparaŃie între persoane
individuale, fidelitatea lui trebuie să fie de la 0,85 în sus.
• Când se iau decizii importante pe bază de teste, prin care se împart persoanele în categorii,
în virtutea unor diferenŃe mici (ca în selecŃia profesională), fidelitatea trebuie să fie de
peste 0,90.
• Când decizia priveşte destinul unei persoane, fidelitatea testului trebuie să fie de cel puŃin
0,95.
Testele cognitive, şi în special cele de inteligenŃă, au de regulă o fidelitate foarte mare
(peste 0,90), în timp ce chestionarele de personalitate rareori depăşesc 0,80. Aplicate colectiv,
chiar şi testele cognitive furnizează coeficienŃi de fidelitate mai scăzuŃi (în jur de 0,80). Testele
cotate subiectiv, ce măsoară aptitudini, şi testele de cunoştinŃe (educaŃionale) rareori depăşesc
valori ale fidelităŃii de 0,80 (Traub, 1944). Testele cu alegere multiplă, utilizate colectiv, sunt
considerate a avea o fidelitate bună când aceasta atinge 0,75.
U3.9. Generalizabilitatea
Potrivit paradigmei clasice relativă la fidelitate, O = A+E, prezentată în partea introductivă
a capitolului anterior, fidelitatea unui instrument psihometric este în funcŃie de întinderea
spectrului diferenŃelor individuale, de lungimea testului însuşi, de limita de timp acordată şi de
dificultatea testului. Cu toate acestea condiŃiile de observare şi de măsurare sunt mult mai
complexe decât cele enumerate anterior, ceea ce a condus la conturarea unei noŃiuni noi şi anume
cea de generalizabilitate. Aceasta presupune studiul fidelităŃii în familii de situaŃii similare, ceea
ce face ca scorul adevărat (A, din formula de mai sus) să fie înlocuit cu termenul de univers al
scorului aşteptat de la un subiect, într-un anumit ansamblu de condiŃii de observare şi de
măsurare.
Teoria generalizabilităŃii a fost elaborată în 1963 de către Cronbach, Gleser şi Rajaratnam
cu scopul de a reuni într-un concept unitar diferitele definiŃii ale fidelităŃii. Astfel, pentru a
cuantifica importanŃa fiecărei surse de varianŃă dintr-o situaŃie de măsurare ei au folosit analiza de
varianŃă. Scorul adevărat îşi lărgeşte înŃelesul pentru că ia în calcul toate observaŃiile posibile,
împreună cu erorile aferente rezultate din fluctuaŃiile de eşantionaj legate de momentele de
evaluare, de forma itemilor sau de „ecuaŃia personală” a fiecărui evaluator în parte. Din această
cauză generalizabilitatea este un concept mai cuprinzător decât cel de fidelitate, căci el descrie
situaŃia de măsurare într-un cadru mai complex şi mai apropiat de realitate. În esenŃă,
65
generalizabilitatea indică măsura în care un rezultat obŃinut se poate generaliza în anumite
condiŃii.
NoŃiunea de univers al scorului se numeşte astfel pentru că are în vedere fidelitatea
scorurilor într-un întreg univers de condiŃii care alcătuiesc sau definesc tot atâtea faŃete ale
planului de observaŃie. Iată definiŃia dată universului scorului de Cardinet şi Turneur (1985):
„Universul scorului unei persoane p, dată ideal, reprezintă media scorurilor persoanei p calculată
pe toate observaŃiile admisibile. Ori observatorul utilizează scorul observat, sau o funcŃie a
scorului observat pentru a estima valoarea universului scorului. El generalizează astfel de la
eşantion către populaŃia de ansamblu.” (op. cit., p. 23).
O paralelă cu fidelitatea se impune şi pentru generalizabilitate. Dacă în primul caz, cu cât
corelaŃia dintre scorul observat şi cel adevărat este mai mare, şi deci fidelitatea este mai bună, în
generalizabilitate aceasta este cu atât mai mare cu cât scorul observat la un subiect este mai
asemănător cu cel pe care el l-ar fi obŃinut în ansamblul de condiŃii pentru care vrem să
generalizăm. Cum universul scorului nu poate fi obŃinut direct, ceea ce ne rămâne de făcut este
eşantionarea sa. Aici problema cheie este cea legată de rezolvarea unei contradicŃii:
generalizabilitatea este cu atât mai mare cu cât Ńine sub control mai multe faŃete ale dispozitivului
de măsurare, ceea ce înseamnă sporirea numărului de itemi (de teme) investigate, al numărului de
corectori şi de grile de corecŃie, dispozitivul devenind astfel foarte costisitor. Ar trebui găsit deci
un echilibru între economicitatea şi eficacitatea dispozitivului de măsurare, ori pentru aceasta ar
trebui determinată ponderea fiecărei faŃete a examinării, doar astfel putând să le reunim într-un
model eficace.
Pentru a Ńine cont de multitudinea variaŃiilor ce se produc între diversele faŃete ale unui
dispozitiv de măsurare, ca şi de diversele interacŃiuni posibile dintre acestea, studiul
generalizabilităŃii presupune în mod expres utilizarea analizei de varianŃă.
66
1. Plan de observaŃie: se procedează la alegerea faŃetelor şi a numărului de niveluri ale fiecărei
faŃete, precizându-se şi inter-relaŃiile dintre ele.
2. Plan de estimare: se determină care faŃete reprezintă un ansamblu de niveluri finite şi care
dintre ele sunt eşantionate aleator sau exhaustiv.
3. Plan de măsurare: se identifică ce faŃete sunt legate de planul de măsurare (faŃete ale
diferenŃierii) şi care sunt sursele de eroare ale măsurării (faŃetele de instrumentaŃie). Cu alte
cuvinte, abia acum varianŃa calculată în faza a doua se atribuie fie varianŃei adevărate, fie varianŃei
erorii, permiŃând calculul coeficientului de generalizabilitate şi calculul marjei de eroare aplicabilă
scorurilor observate.
4. Plan de optimizare: acesta permite modificarea oricăruia din planurile precedente, ca şi a
combinaŃiilor dintre ele, cu scopul de a maximiza generalizabilitatea observaŃiilor (măsurătorilor).
Este faza în care cercetătorul caută acel echilibru dintre precizia măsurătorii şi întinderea
universului generalizării: cu cât acesta este mai restrâns, cu atât este mai uşor de obŃinut
măsurători adecvate ale acestui univers, fapt care este mai dificil în situaŃia inversă.
U3.11. Rezumat
Fiind exprimat printr-un coeficient de corelaŃie Pearson, fidelitatea are aceleaşi
limite ca şi acesta.
În principiu determinarea fidelităŃii trebuie să se facă pe un eşantion care prezintă
acelaşi raport omogenitate/eterogenitate ca şi populaŃia indicată de autor.
Extinderea sau restrângerea diferenŃelor individuale contribuie la accentuarea sau
la diminuarea eterogenităŃii şi deci la inflaŃia sau deflaŃia coeficientului de
fidelitate.
Lungimea unui test este elementul cel mai strâns asociat cu fidelitatea unui test.
Utilizând adecvat formula de profeŃie a lui Spearman-Brown, un test poate fi
scurtat sau lungit după anumite reguli, consecinŃa fiind descreşterea, respectiv
creşterea fidelităŃii sale.
Atunci când se adaugă itemi noi unui test sau scale, aceştia trebuie definiŃi şi
generaŃi astfel încât să măsoare acelaşi construct, pentru a fi compatibili cu itemii
preexistenŃi.
Dificultatea itemilor presupune cercetarea formei distribuŃiei scorurilor pentru a
adăuga sau elimina itemii care distorsionează repartizarea gaussiană a scorurilor.
În plus, cunoaşterea distribuŃiei scorurilor este importantă în studiul fidelităŃii
pentru a corela forme paralele sau retesta distribuŃii de acelaşi tip.
Determinarea fidelităŃii pentru testele cu limită de timp presupune o precauŃie
suplimentară: nu este indicat să rămână itemi nepasaŃi la test sau retest pentru că
perechile scorate zero contribuie la o creştere inflaŃionistă a fidelităŃii.
Determinarea fidelităŃii este esenŃială pentru interpretarea rezultatelor la un test.
Astfel, coeficientul de corelaŃie care exprimă fidelitatea intră în determinarea
erorii standard a măsurătorii, element de bază pentru determinarea intervalelor de
încredere ale scorurilor.
67
Eroarea tip a estimării este utilă când se doreşte să se determine intervalul de
încredere al valorii prezise plecând de la o regresie liniară.
Cunoaşterea şi interpretarea fidelităŃii este aspectul practic cel mai important al
acestui curs.
łinînd cont de destinaŃia testului, acesta trebuie să aibă o fidelitate minimă de .70
pentru scopuri de cercetare, de .80 pentru grupuri, de .85 pentru comparaŃii între
persoane, de .90 pentru decizii luate pe bază de teste şi de .95 pentru decizii ce
angajează destinul unor persoane;
Elaborată în 1963, teoria generalizabilităŃii ia în calcul un adevărat univers al
scorurilor reieşite dintr-un univers de condiŃii ce definesc tot atâtea faŃete ale
planului de observaŃie.
Presupunând un dispozitiv de cercetare extrem de complex, generalizabilitatea şi
planul de optimizare rămân un fief al experŃilor în materie de psihometrie.
68
__________________________________________________________________
Modulul M2. Unitatea de învăŃare 4
VALIDITATEA TESTELOR
_________________________________________________________________
Cuprins
U4.1. Introducere ............................................................................................................. 69
U4.2. CompetenŃe ............................................................................................................ 69
U4.3. Validitatea de faŃadă ............................................................................................... 70
U4.4. Validitatea relativă la conŃinut ............................................................................... 71
U4.5. Validitatea relativă la criteriu ................................................................................. 71
U4.6. Validitatea relativă la construct .............................................................................. 73
U4.6.1. Validitatea convergentă şi divergentă ....................................................... 75
U4.6.2. Matricile multitrăsătură-multimetodă ....................................................... 76
U3.6.3. Studiul trăsăturilor latente......................................................................... 77
U4.7. Validitatea diferenŃială ........................................................................................... 79
U4.8. Teoria deciziei aplicată la testele psihologice,
asociată validităŃii predictive .................................................................................. 80
U4.9. PrecauŃii legate de evaluarea coeficienŃilor de validitate predictivă ...................... 81
U4.10. Interpretarea coeficienŃilor de validitate .............................................................. 82
U4.11. Rezumat ................................................................................................................ 83
U4.12. Test de autoevaluare a cunoştinŃelor .................................................................... 84
U4.1. Introducere
Orice student la psihologie ştie că meritele unui test psihologic încep să fie
judecate prin fidelitate, dar sfârşesc prin aprecierea validităŃii sale. Aceasta şi
datorită faptului că, în timp ce fidelitatea se judecă simplu, prin sumarizarea unor
coeficienŃi de corelaŃie, validitatea presupune demersuri interpretative mai
complicate şi de mai lungă durată. Însuşi conceptul de validitate este unul evolutiv,
aflat în plină dezvoltare şi „... de aceea stârneşte mult mai multă controversă decât
mai stabilul şi mai bine aşezatul său văr, fidelitatea” (Cronbach, apud Gregory,
1996, p. 106). Spre deosebire de fidelitate, care este influenŃată numai de erorile de
măsurare nesistematice, validitatea unui test este afectată atât de erorile
nesistematice, cât şi de cele sistematice (constante). Din această cauză, „Un test
poate să fie fidel, fără a fi valid, dar nu poate fi valid fără să fie fidel“, afirmă
Aiken (1993, p. 94).
AccepŃiunea clasică a validităŃii se referă la gradul în care un test măsoară ceea ce
şi-a propus să măsoare, ceea ce sugerează că ar exista doar un singur tip de
validitate. Actualmente este unanim acceptat faptul că un test poate avea diferite
forme de validitate, dependente de scopurile specifice în care el a fost utilizat. De
69
aceea ni se pare de mare actualitate afirmaŃia lui Şchiopu (1974) potrivit căreia un
test este bidimensional, axat pe doi factori, adică pe diagnoză şi pe validarea ei,
concepuŃi ca axele unui sistem de coordonate: „În acest sistem axa X reprezintă o
diagnoză cuantificabilă (test – comportamen), axa Y reprezintă criteriul de
valabilitate al diagnozei.” (p. 156).
În acest sens poate fi înŃeleasă sintagma că un test se validează continuu. Făcând o
analogie cu justiŃia, unde operează prezumŃia de nevinovăŃie (fără dovezi concrete,
cel trimis în instanŃă este nevinovat), „Psihologul trebuie să se supună unor reguli
specifice de probare, în stabilirea faptului că un anumit test are o însemnătate
specială pentru un scop specific” (Aiken, 1997, p. 133). Deci validitatea ar putea fi
definită mai corect ca o extindere progresivă, pe măsură ce testul primeşte noi
utilizări, a cunoaşterii noastre în legătură cu ceea ce măsoară el de fapt.
U4.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să definească termenul de validitate de faŃadă, indicând utilitatea sa practică;
• să definească principalele tipuri de validitate: relativă la conŃinut, la criteriu şi la
construct;
• să indice modalităŃile concrete prin care se determină cele trei tipuri
fundamentale de validitate;
• să indice secvenŃa de paşi prin care se determină validitatea relativă la construct.
Exemple
„Adesea spunem că un test are validitate de faŃadă dacă itemii lui sunt relaŃionaŃi
rezonabil cu scopurile percepute ale testului”, afirmă Kaplan şi Saccuzzo (1993, p.
135). Uneori acest tip de validitate poate contribui la o mai bună valoare de piaŃă
pentru un test.
70
U4.4. Validitatea relativă la conŃinut
Aşa cum reprezentativitatea eşantionului de populaŃie permite generalizări asupra
populaŃiei Ńintă pe care o reprezintă, itemii testului – prin maniera lor de construcŃie şi de selecŃie –
pot acoperi într-o mai mare sau mai mică măsură domeniul sau universul trăsăturii sau al
aptitudinii măsurate. În felul acesta răspunsurile la un eşantion de itemi dintr-un test cu validitate
de conŃinut sunt reprezentative pentru răspunsurile pe care subiectul le-ar fi dat dacă întreg
universul trăsăturii ar fi fost măsurat. Acest tip de validitate este decisiv în testele educaŃionale şi
de achiziŃii, ridicând probleme specifice evaluatorului. Se va genera deci o bancă sau set de itemi
care să acopere bine întregul domeniu investigat (cunoştinŃele la un obiect şcolar, gradul de
elaborare a unor deprinderi, nivelul de cristalizare a unor atitudini), din care vor fi selecŃionaŃi şi
agregaŃi într-un test doar un număr limitat de itemi, reprezentativi pentru întregul domeniu.
Unele date de personalitate, obŃinute prin chestionare (de opinii, atitudini, interese,
motivaŃii sau valori), beneficiază mai mult de acest tip de validitate decât celelalte. În testele de
achiziŃii itemii sunt creaŃi Ńinând cont simultan de obiectivele, finalităŃile procesului instructiv, dar
şi de mecanismele proceselor cognitive la care se face apel în elaborarea răspunsului la itemi.
Aceasta presupune încă din start prezenŃa experŃilor care vor judeca şi hotărâ care itemi vor fi
incluşi în test. De aceea putem spune că dintre formele fundamentale de validitate, cea de conŃinut
este singura care are o susŃinere mai degrabă logică, decât statistică.
Exemplu
Pentru a da validitate de conŃinut unui test, constructorul se angajează într-un
proces de durată, ce presupune o foarte bună cunoaştere a domeniului, raŃionament
logic, intuiŃie şi perseverenŃă, căci itemii trebuie continuu revizuiŃi. Pentru a face
generalizări întemeiate plecând de la scorurile la test, constructorul trebuie să
cunoască bine toŃi factorii care ar putea afecta performanŃa subiecŃilor.
Să ne reamintim...
După maniera în care sunt colectate datele la test şi la criteriu distingem două
situaŃii, care produc două subcategorii ale validităŃii relative la criteriu:
• Când scorurile la test şi la criteriu se obŃin simultan, este vorba de validitate
concurentă.
• Când între obŃinerea scorurilor la test şi cele la criteriu se interpune o perioadă de
timp, vorbim de validitate predictivă.
71
Fiecare dintre aceste tipuri presupune strategii de validare diferite, care vor fi detaliat
analizate în capitolul următor. De exemplu, un test de anxietate are validitate concurentă dacă
scorurile la testul psihologic îşi găsesc confirmarea, în aceeaşi perioadă de timp, prin diagnosticul
psihiatric. Atunci când criteriul se „maturează” după un timp (luni sau ani) şi scorurile lui nu pot fi
determinate simultan cu cele de la test, folosim o a doua strategie de validare, cea predictivă. În
selecŃia profesională, de exemplu, se va calcula coeficientul de corelaŃie liniară dintre scorurile la
testul aplicat iniŃial şi măsuri (exprimate prin note sau calificative) ale performanŃelor obŃinute de
aceleaşi persoane în activitatea sau profesia pentru care au fost selecŃionate.
Deoarece o funcŃie fundamentală a testului este aceea de a face diagnoza în scopul unei
prognoze (adică faptul de prezice), validitatea predictivă capătă o importanŃă specială în acest
context. Întrucât pentru a determina cu exactitate limitele predicŃiei măsurile la test şi cele la
criteriu intră în corelaŃie, acest fapt impune ca ambele categorii corelate să satisfacă standarde
înalte de fidelitate şi de validitate. Cu alte cuvinte, o măsură criteriu este pertinentă dacă şi ea este
fidelă şi validă. Acest fapt introduce problema validităŃii într-o relaŃie circulară cu criteriul ales.
Aceasta înseamnă că factorii de eroare care afectează criteriul vor fi controlaŃi în aceeaşi manieră
ca şi predictorii (testele). Atunci când controlul lor nu dă rezultatele scontate, se poate spori
fidelitatea criteriului, fie luând mai multe eşantioane de măsurători ale acestuia (măsuri mai dese),
fie adăugând noi tipuri de măsuri, incluse într-un criteriu compozit, pentru a spori fidelitatea lui în
aceeaşi manieră în care procedăm cu un test căruia îi adăugăm itemi suplimentari. O caracteristică
importantă a criteriului este absenŃa contaminării, adică necunoaşterea rezultatelor la test de către
cel care evaluează măsurile–criteriu. Un psiholog va obŃine independent de diagnosticul medicului
psihiatru scorurile la testul său de anxietate, deci va face o analiză oarbă. Prin efectul de halo,
indulgenŃă, predicŃia pentru sine sau profeŃia care se autoîmplineşte, rezultatele prezise pot fi
produse într-o oarecare măsură de predictorul însuşi, caz în care comparaŃia nu mai este validă.
Exemple
Havârneanu (2000) apreciază că cele mai bune măsuri–criteriu sunt cele care
prezintă mai multe avantaje practice, care sunt mai simplu de folosit, mai
disponibile şi mai puŃin costisitoare. Dintre acestea se pot enumera:
• măsurarea directă a producŃiei sau a randamentului muncii;
• evaluările performanŃelor angajaŃilor făcute de către şefii lor sau de către
serviciile de personal ale întreprinderilor.
Măsura–criteriu poate aparŃine unui grup, în sensul că testul care reuşeşte să clasifice
persoanele în grupuri bine precizate, sunt valide. Strategiile de validare predictivă cele mai
utilizate calculează fie un indice de eficacitate, fie scoruri de separare a categoriilor, indici de
separare a grupurilor sau indicele de utilitate (vezi Havârneanu, 2000, pp. 113-126). Dintre factorii
care afectează validitatea relativă la criteriu, Aiken (1997) indică diferenŃele de omogenitate ale
grupurilor (validitatea tinde să fie cu atât mai mică cu cât grupurile sunt mai eterogene), lungimea
testului (testele mai lungi sunt mai valide) şi contaminarea criteriului, de care am amintit deja.
72
Creşterea validităŃii unui test, în calitatea lui de instrument diagnostic sau prognostic,
presupune costuri ce trebuie atent evaluate, căci uneori metode mai puŃin costisitoare (observaŃia,
interviul sau inventarul biografic) pot aduce plusul de informaŃie necesar în atingerea scopurilor
propuse.
73
Validitatea relativă la construct se mai numeşte şi validitate conceptuală, care este cu
siguranŃă tipul de validitate care necesită cea mai mare cantitate de efort în vederea probării ei
pentru un instrument psihometric. Deşi se admite faptul că soarta unei ştiinŃe este dependentă de
nivelul cuantificărilor sale, adică de capacitatea sa de a măsura adecvat ceea ce intră în domeniul
obiectului său de studiu, şi reciproca este valabilă. Astfel, nu am putea spune nimic concret despre
variabile complexe ca inteligenŃa, memoria, stilurile de evaluare sau cele cognitive dacă nu am
avea şi posibilitatea să le testăm, adică să le supunem măsurării. Dar, pe de altă parte, măsurarea
lor este departe de a fi posibilă fără o cunoaştere teoretică prealabilă a acestor constructe.
Exemplu
Raportul dintre teorie şi măsurare este cel mai bine surprins prin conceptul de
validitate de construct care este chiar elementul cheie al operaŃionalizării
variabilelor. A operaŃionaliza înseamnă a aduce un construct teoretic în situaŃia de
putea fi surprins şi evidenŃiat prin măsurare. În cazul în care operaŃionalizarea unei
teorii bune a fost făcută adecvat, printr-un instrument corect elaborat, capabil să o
surprindă, atunci putem formula predicŃii sub forma ipotezelor ce rezultă din teoria
respectivă. Dacă ipotezele se verifică, atunci şi teoria, dar şi operaŃionalizarea ei
sub forma instrumentului de măsură respectiv sunt în regulă.
Dacă ipotezele nu se verifică, sunt posibile două explicaŃii alternative:
• instrumentul este bun, dar deoarece teoria nu se verifică, aceasta trebuie
schimbată;
• teoria este una valabilă, dar instrumentul nu o operaŃionalizează corespunzător şi
atunci nu putem dovedi ce ne-am propus şi deci trebuie schimbat chiar
instrumentul de măsură.
De exemplu, cercetările lui Witkin şi ale colaboratorilor săi au evidenŃiat mai multă
diferenŃiere şi mai multă independenŃă de câmp pentru genul masculin. Studiile
neuropsihologice actuale despre lateralizarea funcŃiilor corticale şi asimetria
emisferelor cerebrale indică de asemenea o specializare emisferică mai accentuată
pentru genul masculin, ca şi un acces bicerebral la limbă pentru genul feminin, de
unde superioritatea bărbaŃilor pentru sarcinile spaŃiale şi a femeilor pentru cele
legate de limbă şi comunicare. Faptul că la un test spaŃial ca cel al Cuburile Kohs,
băieŃii obŃin performanŃe superioare comparativ cu fetele, în timp ce acestea au
performanŃe superioare la un test de inteligenŃă verbală, este consistent cu teoriile
anterior menŃionate.
În alte situaŃii se aşteaptă ca itemii unui test să se organizeze într-o ordine progresivă, ceea
ce ar corespunde unei structuri ierarhice, rezultată din chiar dezvoltarea funcŃiei sau abilităŃii
respective. De exemplu, dacă vom operaŃionaliza teoria psihogenetică piagetiană într-o scală de
itemi, aceasta va fi una ierarhică, pentru că orice stadiu îl înglobează pe cel precedent, făcându-l
posibil pe cel care urmează. Validitatea conceptuală va fi serios pusă la îndoială în cazul în care un
subiect pasează itemii pentru stadiul operaŃiilor formale şi nu-i trece pe cei din stadiul operaŃiilor
concrete, fapt care ar contrazice chiar ideea de dezvoltare stadială şi ierarhică. În mod sporadic s-
ar putea întâmpla să existe şi itemi de acest fel, care vor constitui însă erori.
74
Se poate deci afirma că rezultatele la acest tip de test sunt reproductibile: pornind de la
scorul total la test, putem să prezicem care itemi vor fi pasaŃi şi care vor fi eşuaŃi. Pentru aceasta
însă trebuie să ştim ordinea de dificultate a itemilor, iar această ordine să fie aceeaşi la toŃi
subiecŃii. Cazurile (cât mai puŃine!) în care ierarhia itemilor este încălcată produc erori de
reproductibilitate, căci ele limitează posibilitatea predicŃiei corecte a itemilor care vor fi pasaŃi şi al
celor ce vor fi eşuaŃi.
Exemplu
Guttman (1950) a propus ca rezultatele la un test să fie considerate ierarhice atunci
când mai puŃin de 10% din rezultate nu sunt reproductibile. El a propus o formulă
de calcul pentru coeficientul de reproductibilitate:
Ne
CR = 1 −
N jNp
în care:
CR = coeficientul de reproductibilitate;
Ne = numărul erorilor de reproductibilitate (numărul de itemi care încalcă
ierarhia, adică furnizează rezultate în dezacord cu scorul total obŃinut şi cu
ordinea de dificultate a ansamblului itemilor);
Nj = numărul de itemi;
Np = numărul de persoane (subiecŃi).
Aceasta poate fi considerată o bună metodă de validare conceptuală pentru probele
piagetiene, condiŃia recomandată de Guttman fiind un CR de peste 0,90, deoarece
peste această valoare invarianŃa ordinii de reuşită se consideră a fi bine
demonstrată.
75
U4.6.2. Matricile multitrăsătură-multimetodă2
Procedeul descris aici a fost pus la punct încă din 1959 de Campbell şi Fiske, el fiind în
acelaşi timp şi o metodologie importantă pentru înŃelegerea procesului de validare. Acestă
procedură este un design ce ia simultan în considerare validitatea convergentă şi pe cea divergentă
(discriminantă). Se cheamă multidimensională pentru că ia în evaluare două sau mai multe
trasături, evaluate prin două sau mai multe metode.
În exemplul de mai jos (preluat din Gregory, 1996, p. 122), trei trăsături A, B şi C
(Interesele, Creativitatea şi DominanŃa) sunt măsurate cu metodele 1, 2 şi 3 (recte inventar
autoaplicat, evaluarea covârstnicilor şi un test proiectiv). Deoarece fiecare dintre cele 3 trăsături
sunt măsurate prin toate cele 3 metode, rezultă de fapt 9 teste, exprimate prin coeficienŃii de
corelaŃie din triunghiurile cu linie continuă de pe diagonala mare. Când fiecare dintre aceste teste
este administrat a doua oară aceluiaşi grup de subiecŃi şi scorurile fiecărei perechi de teste
rezultate prin test-retest sunt corelate, rezultă o matrice multitrăsătură-multimetodă, care devine o
sursă extrem de bogată de informaŃii atât despre fidelitatea, cât şi despre validitatea convergentă şi
divergentă testelor analizate.
Metoda 1 A1 (.89)
B1 .51 (.89)
C1 .38 .37 (.76)
2
Multitrait-Multimethod Matrix, în limba engleză.
76
• coeficienŃii boldaŃi de pe cele trei diagonale mici reprezintă dovezi ale validităŃii
convergente: aceeaşi trăsătură fiind măsurată prin diferite metode, corelaŃia trebuie să fie
una pozitivă şi puternică;
• în triunghiurile cu linie continuă sunt incluse corelaŃiile dintre diferitele trăsături măsurate
cu aceeaşi metodă: acestea trebuie să aibă valori medii sau ridicate;
• cele şase triunghiuri din linii punctate includ corelaŃiile dintre diferitele trăsături măsurate
cu diferite metode; acestea trebuie să fie cât mai mici în fiecare triunghi, deoarece ele sunt
dovezi importante relative la validitatea discriminantă (divergentă).
77
întotdeauna valabil faptul ca structura cea mai simplă să fie mai plauzibilă decât
structura mai complexă. Oricum, în funcŃie de tipul de analiză ales ajungem la
soluŃii factoriale diferite, iar soluŃia finală pe care o alegem nu este una de natură
matematică, ci mai degrabă de natură teoretică.
Prin crearea analizei factoriale, Charles Spearman (1907) a dezvoltat de fapt o metodă
capabilă să pună în evidenŃă existenŃa unui factor general al inteligenŃei, prezent în orice tip de
sarcină mintală (şi de aceea numit şi factor g), în combinaŃii diferite cu un factor specific numit s.
Procedeul dezvoltat de el, numită metoda componentelor principale, i-a permis să producă dovezi
în favoarea ipotezei sale, numită modelul bifactorial al inteligenŃei.
În 1928, Thurstone, un creator american de marcă în domeniul analizei factoriale, a utilizat
aceeaşi metodă ortogonală (două axe aflate în unghi drept, adică independente între ele) dar cu un
mic amendament: în loc ca o axă să explice varianŃa factorului major şi cealaltă varianŃa reziduală
(varianŃa rămasă neexplicată de factorul major), el a propus rotirea celor două axe ortogonale până
la obŃinerea structurii celei mai simple, ameliorând astfel gradul de adaptare a datelor la structura
factorială. Metoda se mai numeşte şi Varimax deoarece ea caută ca pe fiecare dintre cele două axe
ortogonale varianŃa explicată să fie una maximală. Aceasta face ca fiecare factor să explice un
grup de rezultate şi doar atât, căci prin această metodă nu mai poate fi identificat factorul general,
ceea ce pune în discuŃie chiar modelul propus de Spearman pentru definirea inteligenŃei umane.
Din punct de vedere matematic ambele metode sunt valide, dar fiecare are propriile posibilităŃi şi
limite: una ajută la identificarea factorului general, pe care cealaltă îl neagă; cealaltă ajută la mai
buna identificare, înŃelegere şi numire a factorilor rezultaŃi. De aceea utilizarea celor două metode
este corelativă.
Analiza factorială permite doar verificarea faptului dacă datele sunt consistente cu structura
factorială postulată. Când datele sunt compatibile cu mai multe structuri latente posibile, analiza
factorială nu ne poate ajuta să alegem una singură, această alegere fundamentându-se pe baza unei
teorii prealabil elaborată. Într-un demers de validare, analiza factorială va aduce deci informaŃiile
necesare, dar nu şi suficiente luării unei decizii.
Exemple
Analiza factorială pune nu numai probleme de interpretere, ci şi câteva importante
probleme metodologice, rezumate mai jos.
Mărimea eşantionului: cu cât eşantionul pe care se face analiza factorială este
mai mic, cu atât mai mult coeficienŃii de corelaŃie din matrice pierd din
semnificaŃia statistică, soluŃiile factoriale obŃinute trebuind examinate cu mai
multă prudenŃă. Deşi nu poate fi indicată o mărime ideală, cercetătorii au căzut de
acord cu raportul de 5 la 1 între numărul subiecŃilor din eşantion şi numărul
variabilelor supuse factorizării. Dar şi acest lucru trebuie luat cu rezervă, pentru
că corelaŃiile mici (sub 0,30) pun în discuŃie nu mărimea eşentionului, ci chiar
necesitatea desfăşurării unei analize factoriale, după cum corelaŃiile mai mari de
0,50 se pot desfăşura cu rezultate bune şi pe eşantioane mai mici decât cele ce ar
rezulta din raportul 5/1. Deci, înainte de a efectua o analiză factorială, obligatoriu
78
vom inspecta cu atenŃie matricea de intercorelaŃii a variabilelor factorizate.
Normalitatea multivariată: aceasta semnifică faptul că toate variabilele şi toate
combinaŃiile lor se distribuie normal. Cum nu putem testa toate combinaŃiile de
variabile, ceea ce ne rămâne de făcut este faptul de a aprecia normalitatea fiecărei
variabile în parte din coeficientul de asimetrie şi de boltire (skewness şi kurtosis).
Liniaritatea: relaŃia dintre variabile trebuie să fie liniară, în caz de curbiliniaritate
rezultatele analizei factoriale fiind de pus la îndoială. Liniaritatea dintre variabile
se poate verifica prin scatter-ul cu norul de puncte pentru fiecare combinaŃie de
câte 2 variabile.
79
U4.8. Teoria deciziei aplicată la testele psihologice, asociată validităŃii predictive
MulŃi psihologi susŃin că scopul testării psihologice nu este măsurarea în sine, ci măsurarea
în serviciul luării unei decizii optime. Astfel, managerul vrea să ştie pe cine să angajeze,
examinatorul pe cine să admită, iar psihiatrul pe cine să interneze. Testele psihologice joacă în
mod frecvent un rol important în aceste tipuri de decizii instituŃionale. Deşi în luarea unei decizii
adesea sunt luate în considerare mai multe puncte de separaŃie a grupurilor, numite şi puncte de
tăietură (cutoff), pentru a simplica lucrurile vom pleca de la exemplul unui singur test. În realitate,
scorurile la un test se dispun pe ceea ce în statistică numim amplitudinea împrăştierii (R = range).
Cu toate acestea este posibil să identificăm punctul care desparte jumătatea căreia i se prezice
succes de cea căreia i se prezice nereuşită. Să presupunem de asemena că cei cărora li s-a prezis
succes au fost şi selectaŃi sau angajaŃi într-o oarecare proporŃie, ce poate varia de la 0 la 1, după
numărul de persoane considerate a fi susceptibile să reuşească în funcŃie de criteriul de măsură
adoptat. Dacă procedăm foarte reducŃionist, succesul poate fi împărŃit într-o variabilă dihotomică –
„predicŃie succes” versus „predicŃie eşec”, în timp ce criteriul prin care se va determina succesul
ulterior poate fi împărŃit la rândul său în „a reuşit” şi „a avut eşec”. Aşadar, orice studiu de
validitate predictivă poate produce o matrice cu două intrări de tipul celei de mai jos.
PerformanŃa la criteriu
PredicŃia la test
Figura 7.2. Rezultatele posibile ale unui test de selecŃie utilizat pentru a preciza un criteriu-măsură.
Dacă un test a avut o bună validitate predictivă, atunci diagonala stânga-sus – dreapta-jos
se maximizează: cele mai multe persoane cărora li s-a prezis succes au şi avut succes, iar cele mai
multe persoane cărora li s-a prezis eşec au şi eşuat, deci ambele predicŃii s-au adeverit. Dar cum
nici un test de selecŃie nu este un predictor perfect, sunt posibile şi celelalte două situaŃii: s-a
prezis succes unor persoane care au eşuat (falşii pozitivi), ori s-a prezis eşec şi acesta nu a avut loc
(falşii negativi). Ambele categorii de falşi (pozitivi şi negativi) sunt considerate în egală măsură
eşecuri ale predicŃiei, deoarece ambele au făcut predicŃii inacurate. Se poate astfel calcula
următoarea proporŃie:
Rata de reuşită = reuşite / (reuşite + eşecuri)
În lumea reală fals-pozitivii şi fals-negativii sunt evitaŃi, dar nu până la eliminare, pentru că
aceasta ar presupune un test care are o corelaŃie perfectă (r = +1,00) cu criteriul prezis. Cum acest
lucru nu este posibil, ceea ce rămâne de făcut pentru a minimiza erorile de decizie este dezvoltarea
unor teste cu o mare valoare predictivă.
80
Exemple
În luarea deciziilor, adepŃii teoriei deciziei se sprijină pe două asumpŃiuni:
1. Dezvoltarea unei scale de utilitate, astfel încât indicatori importanŃi ai instituŃiei
să poată fi exprimaŃi în profituri sau pierderi. De exemplu, dacă după un chestionar
de tipul EPI al lui Eysenck, prin care se poate determina şi introversia/extraversia,
o companie poate identifica pierderile asociate cu vânzătorul de maşini introvert,
comparativ cu câştigurile aduse de vânzătorul extravert. Astfel, falşii pozitivi sunt
cei ce aduc pierderi instituŃiei (vând mai puŃine maşini decât ar fi necesar pentru
plata propriului salariu), ca şi falşii negativi (cei care, dacă ar fi fost încadraŃi, ar fi
contribuit la creşterea profiturilor companiei). Acesta este un exemplu de
operaŃionalizare a testului şi a selecŃiei pe o scală de utilitate.
2. În deciziile de selecŃie instituŃională strategia cea mai satisfăcătoare este aceea
de a maximiza câştigul scalei de utilitate şi de a minimiza pierderile. Scala trebuie
să răspundă la întrebarea: „La ce proporŃie de selecŃie se produce cel mai mare
câştig mediu al scalei?”
Tabelele Taylor-Russell, publicate prima dată de aceşti autori americani în 1939, permit
unui utilizator de teste să determine proporŃia expectată pentru aplicanŃii selectaŃi, dacă se
specifică trei elemente: 1. validitatea predictivă a testului, 2. rata (proporŃia) selecŃiilor şi 3.
proporŃia bazală pentru aplicanŃii de succes.
Ce sunt aceste elemente?
• validitatea predictivă este determinată anterior prin studii şi se exprimă printr-o corelaŃie
de tipul rxy;
• proporŃia selecŃionaŃilor este cea rezultată din numărul de aleşi supra numărul de aplicanŃi,
înmulŃit cu 100;
• rata de bază este proporŃia celor ce ar fi fost selecŃionaŃi prin metodele curente, fără
beneficiul adus de noul test. Cum acest lucru este mai greu de determinat, la extrem se
foloseşte pentru rata de bază proporŃia aplicanŃilor de succes, dacă ei ar fi fost aleşi aleator.
Cunoaşterea celor trei factori de mai sus face posibilă utilizarea unor tabele special
construite prin care se determină cu cât îmbunătăŃeşte noul test selecŃia, comparativ cu metoda
anterioară. Pe lângă faptul că leagă testul psihologic de aspecte economice foarte pragmatice,
determinând efectiv valoarea practică a unui test, tabelele Taylor-Russell evidenŃiază şi aspecte
care intrigă, cum ar fi creşteri substanŃiale ale acurateŃei selecŃiei, chiar şi la validităŃi foarte mici,
în anumite condiŃii.
81
succes într-o primă fază, când grupul era demixtat (numai femei), dar nu ia în consideraŃie
situaŃia actuală în care grupul de muncă este unul mixt.
• Ce însemană criteriul ales? Coeficientul de validitate contra criteriului obŃinut poate să nu
însemne nimic dacă criteriul nu este el însuşi fidel şi valid. A corela un test cu un altul despre
care nu ştim prea multe lucruri sub aspectul validităŃii nu ne ajută prea mult în determinarea
validităŃii convergente a primului test.
• LuaŃi întotdeauna în consideraŃie populaŃia pe care s-a obŃinut o anume validitate: o
validitate ridicată pe o populaŃie de albi se păstrează ea oare şi pe o populaŃie de negri?
• AsiguraŃi-vă că mărimea eşantionului populaŃional este suficientă şi adecvată: cu cât este
mai mare grupul iniŃial pe care s-a studiat validitatea, cu atât mai bună este validitatea
încrucişată.
• Niciodată să nu confundaŃi criteriul cu predictorul.
• VerificaŃi spectrul de valabilitate atât pentru predictor, cât şi pentru criteriu: deoarece corelaŃia
depinde de mărimea variabilităŃii, ea este subestimată sever atunci când predictorul sau criteriul
au un spectru de variabilitate foarte îngust.
• GeneralizaŃi cu prudenŃă o validitate găsită: cu alte cuvinte trebuie demonstrat că validitatea
descoperită într-un studiu nu este dependentă de situaŃie.
• LuaŃi în calcul şi validitatea diferenŃială: relaŃiile descoperite pentru o populaŃie demografică
s-ar putea să nu fie deloc aceleaşi pentru toate subgrupurile care o compun.
Exemplu
La o corelaŃie de 0,60 dintre o baterie de teste şi media şcolară generală a unei
clase de elevi, vom şti că 0,60 2 = 0,36, adică 36% din variabilitatea mediei şcolare
depinde de inteligenŃă, aşa cum am măsurat-o cu bateria noastră, restul depinzând
de alte cauze, printre care şi de factorii de eroare.
82
Educational and Psychological Testing, 1985) o listă de probleme ce pot apărea în interpretarea
coeficienŃilor de validitate. Redăm mai jos câteva dintre acestea:
• Validitatea nu se măsoară, ci se deduce. Deşi autorul testului trebuie să dea mai mulŃi
coeficienŃi de validitate, indicând procedura urmată, utilizarea lui pe alte grupuri, sau în
alte scopuri, necesită studii de validare suplimentare. Aceasta deoarece validitatea testului
depinde simultan de scopul testării şi de populaŃia căreia i se administrează. Toate aceste
determinări ale validităŃii care vin din studii ulterioare, desfăşurate în scopuri specifice şi
pe alte eşantioane de populaŃie, vor fi considerate doar dovezi ale unui anumit tip de
validitate.
• Studierea validităŃii testelor angajează metode elaborate de analiză (analiza de itemi,
calculul corelaŃiei, analiza factorială, regresia simplă şi multiplă) care combinate, dau
strategii de validare mai bine definite. Utilizarea lor se face în funcŃie de scopul şi de
exigenŃele beneficiarului.
• Strategiile de validare se aplică odată cu construirea testului şi se repetă de câte ori este
nevoie pentru a obŃine un test bun ca lungime, mod de aplicare, forŃă discriminativă,
uşurinŃă în administrare, cotare şi interpretare, care alături de fidelitate şi validitate, dau o
imagine mai adecvată despre valoarea sa.
Utilizarea testului impune repetarea periodică a procesului de cercetare a validităŃii,
întrucât validarea unui test nu se încheie niciodată, datele nou acumulate din diverse domenii
conducând la ameliorarea şi rafinarea sa, dar nu şi la o soluŃie definitivă. Cu atât mai mult se pune
problema reluării studiului validităŃii unui test atunci când i se schimbă formatul (prin aplicarea pe
calculator, de exemplu), conŃinutul, instructajul sau modul de cotare.
U4.11. Rezumat
• Valoarea unui test începe prin a se judeca plecând de la fidelitatea sa dar sfârşeşte
prin evaluarea validităŃii sale.
• Validitea unui test un este niciodată pe deplin dovedită. Ea este un proces care un
se încheie practic niciodată.
• Cercetarea validităŃii este un proces continuu, ce se reia odată cu fiecare
modificarea testului şi cu fiecare extensie a utilizării sale spre noi aplicaŃii sau
populaŃii.
• Validitatea de faŃadă (ceea ce pare a măsura un test) este cea mai slab definită
formă de validitate.
• Validitatea relativă la conŃinut indică gradul în care testul acoperă domeniul
măsurat, fiind definitorie mai ales pentru testele de achiziŃii şi educaŃionale.
• Validitatea relativă la criteriu este cea mai importantă formă de validitate pentru
că exprimă măsura în care testul poate face predicŃii acurate.
• După maniera în care se culeg datele de testare şi de criteriu (simultan sau la
distanŃă în timp) se pot identifica validitatea concurentă şi validitatea
predictivă.
83
• Criteriul intră în relaŃie de circularitate cu testul şi de aceea trebuie el însuşi să fie
fidel şi valid.
• Validitatea relativă la construct (numită şi conceptuală) determină măsura în
care o teorie se regăseşte reflectată într-un test. Determinarea ei cere cel mai mare
efort, în acest proces analiza factorială având un rol însemnat.
• Acest tip de validitate are legătură cu modul de operaŃionalizare a variabilelor
pentru a surprinde cât mai corect teoria subiacentă.
• Formele avansate de determinare a validităŃii conceptuale o constituie metodele
corelaŃionale simple, matricile multitrăsătură-multimetodă şi studiul trăsăturilor
latente.
• O formă specială de validitate este cea diferenŃială.
• Teoriea deciziei aplicată la testele psihologice determină aportul practic adus de
acestea în selecŃie, prin aprecierea gradului de acurateŃe a predicŃiei succesului şi
eşecului (tabelele Taylor-Russell).
• Interpretarea validităŃii nu este uniformă şi constă din aprecierea unui coeficient
de corelaŃie, totdeauna dependent de circumstanŃele în care el a fost obŃinut.
84
MODULUL 3.
DEMERSURI APLICATIVE ALE TEORIEI TESTELOR PSIHOMETRICE
___________________________________________________________________
Cuprins
M3.1. Introducere ………………………………………………………………………… 85
M3.2. CompetenŃe …………………………………………………………………........... 85
M3.1. Introducere
Modulul 3 este alcătuit din patru unităŃi distincte de curs, dedicate prezentării unor
aspecte de ordin practic-aplicativ a problematicii legate de testul psihologic. Astfel,
prima unitate de curs a acestui modul transferă analiza caracteristicilor testului
psihologic de la nivelul molecular (unitatea de bază este testul însuşi), la nivel molar
(este analizat itemul în calitatea sa de cea mai mică unitate a unui test, ce poate fi
abordată independent). Plecând de la principiul că un test bun este alcătuit din itemi
buni, sunt analizate dificultatea şi discriminabilitatea itemilor, dar şi raportul dintre
aceste două categorii terminologice. Ulterior, sunt prezentaŃi indicii corelaŃionali ai
capacităŃii de discriminare a unui test şi curba caracteristică a itemului (CCI).
Cea de a doua unitate de curs este probabil cea mai importantă din toată lucrarea
deoarece, plecând de la câteva consistente consideraŃii teoretice privitoare la normele
şi etalonarea testelor, sunt prezentate o multitudine de metode de etalonare. Fiind un
capitol dublu ca şi conŃinut, cea de a doua sa parte abordează problema clasificării
testelor după mai multe criterii, furnizând câteva exemple urmate de o aplicaŃie
practică.
Cel de al treilea capitol este unul extrem de relevant practic şi se referă la construirea
scalelor psihologice. Este prezentat un demers complet, cu exemplificări concrete ale
celor şase paşi ce sunt de regulă urmaŃi în procesul de construcŃie a unei scale. Sunt
furnizate criterii practice de selecŃie a itemilor în scală şi sunt prezentate cele mai
utile analize statistice pentru determinarea fidelităŃii acesteia. Evaluarea acestui
capitol se face printr-un proiect aplicativ cu pondere însemnată în nota finală.
Ultimul capitol furnizează “reŃeta” de construcŃie a unui raport psihologic de calitate,
prin indicarea structurii acestuia, a funcŃiilor fiecărei componente, a modului de
rezovare corectă, a celor mai frecvente erori şi a modului de prevenire a acestora.
Evaluarea acestui capitol este de asemenea de ordin practic, constând din întocmirea
unui raport psihologic pe date fictive.
M3.2. CompetenŃe
După parcurgerea acestui modul, studenŃii vor fi capabili:
85
să analizeze calitatea unui test psihometric în conjuncŃie cu dificultatea şi
discriminabilitatea itemilor care îl compun;
să analizeze relaŃia dintre caracteristicile amintite şi să precizeze în ce constă
curba cacarcteristică a itemilor;
să definească şi să utilizeze adecvat conceptele de eşantion, normă şi etalonare;
să etaloneze un test psihologic prin transformări liniare şi de arie;
să selecteze minimum cinci criterii prin care să analizeze şi să clasifice un test
psihologic;
să indice paşii urmaŃi în construcŃia unei scale psihometrice;
să construiască o scală psihologică utilizând datele semnificative pentru fiecare
dintre cei cinci paşi indicaŃi în curs;
să folosească programul SPSS pentru a determina fidelitatea scalei obŃinute, dar şi
pentru alte prelucrări necesare;
urmând paşii indicaŃi în curs, să construiască un raport psihologic de calitate.
Durata medie de parcurgere a fiecăreia din cele patru unităŃi de învăŃare, incluzând
rezolvarea sarcinilor propuse şi a temelor de evaluare, este de 4 la 8 ore, primul fiind
un curs simplu iar ultimele două unitaŃi fiind de mărime dublă.
86
_________________________________________________________________
Modulul M3. Unitatea de învăŃare 1
ANALIZA DE ITEMI
Cuprins
U1.1. Introducere ............................................................................................................. 87
U1.2. CompetenŃe ............................................................................................................ 89
U1.3. Dificultatea itemilor ............................................................................................... 90
U1.4. Discriminabilitatea itemilor ................................................................................... 96
U1.5. Raportul dintre dificultatea şi discriminabilitatea itemilor ................................... 97
U1.6. Indici corelaŃionali ai discriminabilităŃii itemilor .................................................. 99
U1.7. Rezumatul metodelor corelaŃionale …………………………………………….. 101
U1.8. Curba caracteristică a itemului ............................................................................. 101
U1.9. Test de autoevaluare a cunoştinŃelor .................................................................... 103
U1.1. Introducere
Într-o manieră similară cu cea din fizică, în care interesul iniŃial pentru lumea
macroscopică s-a recentrat ulterior pe cea microscopică, atomică şi subatomică, în
evaluarea psihologică această schimbare se manifestă prin mutarea centrului de
greutate al analizei de pe testul psihologic ca unitate de bază, pe analiza de itemi,
adică pe cele mai mici unităŃi care compun un test şi care pot fi analizate
independent. Fundamentarea măsurării în psihologie se face prin psihometrie iar
unitatea fundamentală a acesteia a devenit itemul. EvoluŃia şi rafinarea domeniului
testelor este astăzi tot mai dependentă de analiza de itemi, căci – pentru a-i cita pe
Laveault şi Grégoire (2002) – „analiza de itemi seamănă cu repetiŃia unei
orchestre. Într-o orchestră instrumentele trebuie să cânte într-o manieră
armonioasă.” (p. 199)
O definiŃie mai largă a itemilor este aceea că aceştia reprezintă „... orice tip de
enunŃ din alcătuirea unui test obiectiv care urmează a fi cotat ca o valoare.”
(Băiceanu, 2004, p. 191) Elementul fundamental al acestei definiŃii este partea care
stipulează că itemul va fi cotat ca o valoare cifrică, permiŃând deci determinări
cantitative ale unor caracteristici ale sale. Acest lucru nu este specific doar testelor
obiective, ci oricărui tip de test, inclusiv celor educaŃionale. Merită subliniată şi
precizarea lui Stan (2002, p. 259): itemul este componenta informaŃională a unui
test „... care se întâlneşte la chestionarul de personalitate, la testele de cunoştinŃe
şcolare, la testele verbale şi neverbale de inteligenŃă. Nu trebuie deci confundate
noŃiunile de sarcină a testului cu cea de item al testului”, deosebirea fundamentală
fiind aceea că „itemul are o autonomie informaŃională care permite efectuarea unor
prelucrări statistice proprii asupra rezultatelor sale, ceea ce permite evidenŃierea
altor indicatori” (idem). Individualitatea sau autonomia funcŃională a unui item
este acea caracteristică a sa de a contribui la scorul total al testului şi de a produce
87
rezultate care pot fi prelucrate independent sau pot fi intercorelate cu rezultatul
final la test. În consecinŃă, cea mai bună definiŃie a itemului este cea potrivit căreia
acesta reprezintă cea mai mică unitate informaŃională a unui test care poate fi
analizată independent.
La modul foarte general, analiza de itemi a unui test sau chestionar are scopul de a
evalua fidelitatea şi validitatea fiecărei unităŃi componente, pentru a surprinde în
termeni cantitativi „cât de efectiv contribuie fiecare item la fidelitatea şi validitatea
de ansamblu a testului” sau chestionarului respectiv (Reber, 1985, p. 378).
În sens foarte strict, analiza de itemi nu se va confunda cu analiza itemului,
deoarece scopurile lor sunt distincte. Analiza de itemi vizează evidenŃierea
dificultăŃii itemilor, a puterii lor discriminative, a calităŃilor psihometrice de tipul
fidelităŃii şi validităŃii, dar şi al altor caracteristici ca simetria şi boltirea (excesul),
omogenitatea şi specificitatea sa ori raportul item-distractor. Analiza itemului se
referă mai ales la procedurile corecte de prelucrare informaŃională, la procedurile
semantice de formulare sau de modificare a conŃinutului itemilor, la limita de timp
necesară rezolvării sale, la ambiguitatea formulării.
Analiza de itemi este greu de desfăşurat pentru testele de viteză sau pentru cele în
care factorul rapiditate intervine masiv, cum ar fi testele de atenŃie, testele de
performanŃă cu limită de timp. Acest fapt apare deoarece o condiŃie a analizei de
itemi presupune parcurgerea integrală a tuturor itemilor testului, de către toŃi
subiecŃii, fără de care indicele de dificultate nu poate fi determinat. Deşi această
condiŃie nu este formulată explicit la testele de putere, în care factorul timp
contează, problema se poate rezolva dându-se testul spre rezolvare în limita de
timp prevăzută, când itemii se rezolvă în ordine, se marchează ultimul item pasat la
expirarea timpului, după care testul se continuă până la rezolvarea sa în întregime
de către toŃi subiecŃii.
Dificultatea majoră a analizei de itemi este aceea că există o legătură evidentă între
caracteristicile itemilor unui test şi caracteristicile eşantioanelor populaŃionale care
sunt măsurate cu ajutorul acestuia. Noua direcŃie în psihometria modernă aspiră la
degajarea parametrilor testului de caracteristicile eşantioanelor cercetate, dar
aceasta complică destul de mult datele problemei. În cazul în care analiza se face
plecând de la un singur eşantion, acesta ar trebui să aibă într-o cât mai mare
măsură caracteristica de a fi reprezentativ, pentru a putea extrapola caracteristicile
degajate de pe acest eşantion pe alte grupuri sau subgrupuri populaŃionale pe care
urmează a fi aplicat.
Analiza de itemi este o operaŃie de neevitat în construcŃia unui test sau chestionar
bun, fie pentru a genera unităŃi de măsură valide ale unui singur construct
(unidimensionalitatea scalei de măsură), fie pentru a selecta itemii care au cele mai
bune combinaŃii dintre dificultate şi forŃă de discriminare, pe de o parte, şi
omogenitate şi specificitate, pe de altă parte. Aceasta este raŃiunea pentru care
analiza de itemi pleacă de la un set iniŃial mai mare de itemi (cu până la o treime
88
sau chiar dublu), din care vor rămâne cei care corespund cel mai bine exigenŃelor
de construcŃie a unui test modern. Numărul minim recomandat de itemi care vor
rămâne în urma acestei selecŃii este de 10, sub care nici o scală nu mai
discriminează suficient de nuanŃat între diverse subcategorii, fiecare item având o
pondere mult prea mare în scorul final. De regulă, scalele unidimensionale reŃin
între 20 şi 30 de itemi pentru a împăca criteriul economiei cu cel al sensibilităŃii şi
al forŃei de discriminare a testului. Cu toate acestea, multe scale actuale au un
număr de itemi mai mic de 10, consecinŃa fiind o consistenŃă internă mnai scăzută.
Elementul tehnic necesar pentru analiza caracteristicilor de dificultate şi
discriminabilitate ale itemilor este matricea lui Stern (Stern, 1912), care plasează
pe fiecare coloană itemii ce vor fi supuşi analizei şi pe fiecare linie câte un subiect,
ultimele linii şi coloane fiind necesare sumarizării rezultatelor şi calculării unor
indici. Analiza de pe coloană se numeşte ipsatizare (rezultatele tuturor subiecŃilor
la un anumit item), iar cea de pe linie obiectivare (rezultatele unui singur subiect la
toŃi itemii). ÎmpărŃirea scorului total pentru toŃi subiecŃii la numărul acestora dă o
medie pe subiect, iar împărŃirea scorului total pentru fiecare item la numărul de
subiecŃi dă o medie a reuşitelor. În concluzie, se poate determina o medie pentru
fiecare subiect, o medie pentru fiecare item şi o medie pentru testul total.
U1.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să definească conceptul de dificultate a itemului;
• să analizeze importanŃa practică a cunoaşterii dificultăŃii itemilor;
• să identifica factorii care pot afecta indicele de dificultate a unui test;
• să stabilească relaŃiile dintre dificultatea itemilor şi forma distribuŃiilor pe care
aceştia le produc (simetria şi boltirea);
• să analizeze dificultatea itemului corelativ cu varianŃa itemului;
• să determine cât de dificili trebuie să fie itemii unui test;
• să determine dificultatea optimă a unui test, corelativ cu numărul variantelor de
răspuns utilizate;
• să definească concepul de discriminabilitate şi să determine practic această
caracteristică a itemului prin metoda grupurilor de contrast a lui Findley;
• să analizeze raporturile dintre dificultatea şi discriminabilitatea itemilor;
• să utilizeze adecvat schema lui Ebel pentru selectarea itemilor unui test, simultan
după dificultatea şi puterea lor de discriminare;
• să cunoască principalele metode corelaŃionale pentru determinarea forŃei
discriminative a itemilor;
• să definească CCI şi modul ei de utilizare în raport cu tipul testului şi scopul
testării.
89
Durata medie de parcurgere a acestei unităŃi de învăŃare, incluzând rezolvarea
sarcinilor propuse şi a temelor de evaluare, este de 5 ore.
p= ∑x
N ⋅n
în care Σx este suma scorurilor obŃinute fiecare subiect, N este numărul de subiecŃi iar n este scorul
maxim.
Exemplu
Pentru a avea o imagine mai clară asupra dificultăŃii itemului, prin comparaŃie cu un
alt indicator care este media itemului, dăm tabelul de mai jos, în care sunt calculate
mediile şi dificultăŃile a trei itemi, scoraŃi pe o scală de 5, 3 şi 1 punct.
Subiect Item (/5) Item (/3) Item (/1) Total (/9)
1 4 3 1 8
2 5 2 0 7
3 1 0 0 1
4 3 1 1 5
5 4 2 1 7
6 2 1 1 4
7 2 3 0 5
8 0 3 1 4
9 5 2 1 8
10 1 1 1 3
11 3 1 0 4
12 3 2 1 6
Media (Σx/N) 33/12 = 2,75 21/12 = 1,75 8/12 = 0,67 62/12 = 5,17
Dificultatea p 2,75/5 = 0,55 1,75/3 = 0,58 0,67/1 = 0,67 5,17/9 = 0,57
Complement q (1-p) 1-0,55 = 0,45 1-0,58 = 0,42 1-0,67 = 0,33 1-0,65 = 0,43
CorecŃie p' 0,44 0,37 0,34 -
Aşa cum se observă din exemplul de mai sus, media itemului nu permite comparaŃia
directă a itemilor, deoarece numai pentru scala dihotomică cei doi indici - media şi
procentul de reuşită - coincid. Pentru a fi direct comparabile, rezultatele trebuie
aduse la acelaşi tip de scală, prin împărŃirea mediei la valoarea maximă a fiecărei
scale şi în felul acestea ele vor indica dificultatea itemilor ca şi când toŃi itemii ar fi
scoraŃi dihotomic.
90
În exemplul analizat valoarea medie a dificultăŃii celor trei itemi este de 0,57, dar se
observă că itemul cel mai dificil este pe scala de 5 puncte (p = 0,55), apoi cel pe scala de 3 puncte
(p = 0,58), cel mai uşor fiind cel de pe scala dihotomică (p = 0,67). Dificultatea medie a itemilor
sumarizaŃi pe ultima coloană este de 0,57, valoare care poate fi considerată media itemilor
întregului test, care se poate obŃine împărŃind media de 5,17 la 5+3+1 = 9. Aşa cum reiese din
acest exemplu, itemul care se apropie ca proporŃie p de rezolvare de valoarea 1 este unul extrem
de uşor, deoarece majoritatea sau chiar toŃi subiecŃii îl rezolvă, pe când itemul al cărui p care se
apropie de 0 este unul extrem de dificil, fiind rezolvat de extrem de puŃini subiecŃi, poate de
niciunul. Dificultatea medie a unui item este de 0,50. De regulă, itemii aflaŃi spre valori p extreme
– 0 şi 1 – se recomandă să fie înlocuiŃi, ei aducând puŃine servicii psihometrice testului, pentru a se
reŃine prioritar itemii de dificultate medie (p = 0,40 – 0,60). În scopul de a da o gradaŃie mai fină
scalei, limitele de acceptabilitate ale dificultăŃii itemilor se plasează de fapt între 0,20 şi 0,80.
Să ne reamintim...
Cunoaşterea dificultăŃii itemilor este importantă din mai multe motive:
• permite eliminarea itemilor mult prea uşori ori mult prea dificili;
• permite selecŃia şi organizarea itemilor pe scale ierarhice de dificultate, de la
uşor la greu, acestea dând gradaŃii cu atât mai fine cu cât numărul itemilor este
mai mare şi diferenŃele de dificultate dintre itemii progresivi sunt mai mici, p
acoperind însă spectrul de la 0,20 la 0,80, dar depăşindu-l dacă faptul se impune;
• permite crearea unor seturi mari de itemi, cunoaşterea caracteristicilor privitoare
la dificultate şi la indicele de discriminare, ca şi curba caracteristică a fiecărui
item. Acest fapt creează posibilitatea asamblării automate a seturilor de itemi ce
vor fi administraŃi în examenul adaptat computerizat;
• stă la baza creării formelor paralele ale unor teste.
Exemplu
Decizia de a elimina un item dintr-un set de itemi ai unuui test se poate lua mai
uşor sau mai greu, deoarece acelaşi item care la o categorie superioară de vârstă
este prea uşor, devine dificil sau foarte dificil la categorii de vârste mai mici.
Astfel, itemul capătă valenŃe diagnostice noi funcŃie de particularităŃile
eşantionului pe care se face analiza de itemi. Mai mult, un item foarte uşor, chiar
dacă nu are calităŃi psihometrice ridicate, dă încredere în sine subiectului pentru că
îl ajută să intre în examen cu o reuşită, ridicându-i motivaŃia pentru testare, pe când
un item foarte dificil poate discrimina spre extrema excepŃionalităŃii. Aşadar,
păstrarea sau respingerea itemilor se face în funcŃie de utilitatea care se va da
testului respectiv.
Problema dificultăŃii itemilor este importantă în mod special pentru testele de randament
sau pentru cele educaŃionale (de cunoştinŃe şi de achiziŃii). La testele de personalitate indicele de
dificultate va fi înlocuit cu un indice de proeminenŃă, capabil să evidenŃieze măsura în care un
91
item reliefează sau nu un anumit comportament rezultat din operaŃionalizarea unei trăsături de
personalitate.
Dintre factorii care pot afecta indicele de dificultate al unui test, Laveault şi Grégoire
amintesc numărul de răspunsuri omise ca urmare a existenŃei unei limite de timp şi probabilitatea
reuşitei prin şansă (hazard). În prima situaŃie, din cauza presiunilor legate de timp, un mare număr
de persoane nu au putut rezolva rezolva un item amplasat de regulă spre zona finală a testului
(atunci când itemii au fost asamblaŃi ierarhic), indicele de dificultate ne mai reflectând acurat
dificultatea itemului respectiv: dacă ar fi existat mai mult timp, cu siguranŃă că acesta ar fi fost
rezolvat de mai mulŃi subiecŃi. În acest caz indicele de dificultate măsoară de fapt două lucruri
distincte, dificultatea itemului în cauză şi rapiditatea respondentului, caracteristici care nu se
regăsesc întotdeauna reunite la acelaşi subiect.
Atunci când dificultatea se calculează pentru itemi la care alegerea răspunsului se face
dintre mai multe posibilităŃi trebuie să se Ńină cont de probabilitatea alegerii răspunsului bun prin
şansă sau hazard, care este cu atât mai mare cu cât numărul variantelor de răspuns este mai mic.
Astfel, la o variantă corectă din 8, răspunsul bun prin şansă are probabilitatea de 12 procente, la 1
din 6 de 17 procente, la 1 din 4 de 25 de procente şi la 1 din 2 de 50 de procente. În scopul de a
corija indicele de dificultate, atunci când distractorii au şanse apropiate de a fi aleşi, Laveault şi
Grégoire propun următoarea formulă de corecŃie:
1− p
p' = p −
M − 1
în care p este indicele de dificultate iniŃial, p' este cel corijat, iar M este numărul variantelor de
răspuns pentru itemul în cauză. Introducând în formula de mai sus datele pentru primul item din
exemplul de la figura 8.1, p' = 0,55 - [(1 – 0,55)/(5 -1)], deci p' = 0,44. Pentru al doilea item, cotat
pe o scală de 3 posibilităŃi, p' devine 0,37, iar pentru itemul dihotomic corecŃia ajunge la 0,34.
Comparând indicile de dificultate iniŃial cu cel corijat se desprinde uşor faptul că corecŃia este cu
atât mai puternică cu cât numărul variantelor de răspuns este mai mic. Se degajă de asemenea
concluzia că atunci când avem de comparat mai mulŃi itemi care, deşi provin din acelaşi test sau
chestionar, sunt exprimaŃi pe scale diferite ca număr de variante de răspuns, aducerea lor la
formatul unic al unei scale dihotomice este o condiŃie necesară, dar nu şi suficientă. Pentru a avea
o bază de comparaŃie comună trebuie să se opereze corecŃia prin formula de mai sus.
92
De aici şi rolurile diferite alocate itemilor în funcŃie de dificultatea lor, cei mai utili fiind
cei de dificultate medie, care diferenŃiază subiecŃii între ei indiferent de scorul obŃinut, fiind utili şi
pentru discriminarea subiecŃilor buni, şi a celor slabi.
Un concept important, derivat din cele arătate mai sus, este acela de varianŃă a itemului,
care informează în legătură cu gradul de împrăştiere a performanŃei la acel item în jurul unei
medii, fiind în acelaşi timp şi un indicator mai grosier al puterii de discriminare a itemului. Pentru
itemii cu mai multe valori de răspuns (polihotomici), varianŃa se determinaă prin metoda clasică,
dar pentru o scală dihotomică există o formulă mult mai simplă pentru a face această determinare:
s2 = pq
în care s2 este varianŃa itemului, p este indicele de dificultate iar q complementul său (1 - p).
Pentru a avea o reprezentare mai clară asupra acestei probleme prezentăm mai jos o situaŃie
ipotetică, constând din 11 itemi propuşi spre rezolvare la 10 subiecŃi.
Din tabelul de mai sus se poate observa faptul că cea mai mare varianŃă o au itemii din
zona centrală a indicelui de dificultate (pentru p = 0,5 s2 = 0,25). Pe măsură ce ne depărtăm
simetric spre zonele extreme, varianŃa itemilor descreşte de asemenea simetric, de la 0,21 la 0,18,
apoi la 0,09 şi 0. Acesta este un argument matematic suplimentar puternic pentru a selecta în test
itemii din zona centrală a dificultăŃii, pentru că aceştia au forŃa discriminativă cea mai mare, atât
spre zona performanŃelor slabe, cât şi spre zona celor bune. Itemii cu varianŃă mică au funcŃii
speciale, fiind destinaŃi fie discriminării performanŃelor slabe (p > 0,90), fie celor bune (p < 0,10),
dar chiar şi în cadrul acestor categorii speciale forŃa de discriminare a acestora este mai scăzută
din cauza varianŃei lor mai mici. Pe de altă parte, din tabelul de mai sus se observă că varianŃa
93
totală a testului (2,872 = 8,25) nu este egală cu suma varianŃelor fiecărui item în parte (Σpq =
1,65).3
Pornind de la datele de mai sus pot fi calculaŃi doi indicatori care regăsesc la nivel de item
caracteristicile de ansamblu ale formei distribuŃiei testului, şi anume simetria (skewness) şi excesul
sau boltirea (kurtosis) itemului, după formulele:
q− p
Simetria = α 3 = , în care α3 este simetria itemului
pq
1
Boltirea (excesul) = α 4 = − 6 , ecuaŃie a cărei valoare normală este 3.
pq
Tabelul 1.2 de mai sus evidenŃiază foarte clar faptul că valorile lui p cuprinse între 0,70 şi
0,30 dau distribuŃii relativ simetrice şi că asimetria este cu atât mai accentuată cu cât ne depărtăm
mai mult spre extreme: pentru valori ale lui p > 0,80 asimetria este puternic pozitivă iar pentru p <
0,20 ea este puternic negativă. Acesta poate fi şi motivul pentru care Guthke, Bötcher şi Spring
(1991, p. 230) fixează limitele inferioară şi superioară pentru selecŃia itemilor testelor de
randament la p = 0, 20, respectiv p = 0,80.
Răspunsul la întrebarea „Cât de dificili trebuie să fie itemii unui test?” depinde, pe de o
parte, de utilizarea testului, pe de altă parte de tipurile de răspunsuri sau de lungimea scalei. Aşa
cum s-a arătat şi anterior, un test în care itemii se scorează adevărat-fals (sau 0 – 1) are o
probabilitate de 50% ca răspunsul să se dea prin şansă (aleator), iar când variantele de răspuns sunt
4, această probabilitate este de 25%. Deci probabilitatea p i , care descrie dificultatea unui item, se
plasează între 0 şi 1 (nici un subiect, respectiv toŃi subiecŃii îl rezolvă). În practică, dificultatea
optimă a unui item se calculează în doi timpi:
1. Se calculează jumătatea diferenŃei dintre 100% succes şi şansa de performanŃă. Pentru un test
cu 4 posibilităŃi de răspuns, probabilitatea unui răspuns corect prin şansă (întâmplare) este de
25%, deci:
1,00 − 0,25 0,75
= = 0,375 .
2 2
3
În mod explicit, varianŃa unui test este egală cu suma varianŃelor fiecărui item, la care se adaugă dublul sumei
valorilor fiecărei covarianŃe posibile în ansamblul itemilor componenŃi. Vezi Stan, 2002, p. 216).
94
2. Se adaugă la valoarea găsită probabilitatea răspunsului prin şansă:
0,375 + 0,25 = 0,625 (dificultatea optimă).
Exemple
Test cu două variante de răspuns: ps = 0,50 + (1 - 0,50)/2 = 0,750
Test cu patru variante de răspuns: ps = 0,25 + (1 - 0,25)/2 = 0,625
Test cu şase variante de răspuns: ps = 0,167 + (1- 0,167)/2 = 0,584
Test cu opt variante de răspuns: ps = 0,125 + (1 – 0,125)/2 = 0,563
Test cu zece variante de răspuns: ps = 0,10 + (1 -0,10)/2 = 0,550.
Să ne reamintim...
Alegerea dificultăŃii optime a itemilor unui test trebuie să rezolve această problemă
complicată: cu cât itemii au mai puŃine variante de răspuns, cu atât mai mare este
probabilitatea de a nimeri prin şansă răspunsul corect, ceea ce obligă la creşterea
dificultăŃii optime la un nivel foarte ridicat, de 0,75. Dificultatea optimă diminuă
progresiv cu mărirea numărului de variante de răspuns spre 0,50, dar cu cât acestea
sunt mai multe, timpul de analiză pentru fiecare item creşte (sunt mai multe
variante de răspuns care trebuie luate în considerare), ceea ce obligă la reducerea
numărului de itemi. Această reducere afectează simultan fidelitatea şi validitatea
testului în ansamblul său, ajungându-se astfel la alternative: variante mai multe de
răspuns versus mai mulŃi itemi. Cel mai adesea dilema se rezolvă alegând între 4 şi
8 variante de răspuns, aceasta fiind zona de echilibru între cele două extreme.
95
U.1.4. Discriminabilitatea itemilor
Deşi forŃa de discriminare a unui item poate fi evaluată grosier şi după varianŃa sa, într-un
mod mult mai specific discriminarea itemului leagă destinul său cu destinul de ansamblu al
testului din care el face parte. Astfel, se consideră că un item este discriminativ atunci când există
un bun paralelism între scorurile la test în ansamblul său şi scorul la itemul în cauză. Aceasta
înseamnă că scorurile mari la test se asociază cu o rată de reuşită ridicată pentru itemul respectiv,
după cum scorurile scăzute la test se asociază cu un nivel scăzut de reuşită la acest item.
Există mai multe metode de a studia dacă destinul itemului este solidar cu cel al testului în
ansamblul său. Indicele de discriminare, pus în circulaŃie de W.G. Findley în 1956, se obŃine prin
metoda grupurilor de contrast sau a grupurilor extreme. Acesta este probabil şi motivul pentru care
metoda s-a bucurat de o mare popularitate printre psihometricieni, dar este şi motivul pentru care
ea este astăzi privită critic, căci uşurinŃa analizei se sprijină pe faptul că lasă pe dinafară aproape
jumătate dintre subiecŃi (46%). Metoda propune pentru comparaŃia itemilor unui test două grupuri
aflate la extremele seriei de variaŃie a scorurilor, 27%4 din cei care au dat răspunsurile cele mai
bune la test fiind comparaŃi cu ceilalŃi 27% care au dat cele mai slabe răspunsuri, pentru a
determina pentru fiecare item în parte dacă reuşita se asociază cu apartenenŃa la grupul superior.
Dacă vom nota cu ps indicele de dificultate pentru grupul superior şi cu pi indicele de dificultate
pentru grupul inferior, formula indicelui de discriminare va fi: D = ps – pi.
Exemplu Concret, indicele de discriminare se calculează astfel:
1. în funcŃie de scorurile obŃinute la test se determină grupul superior, grupul
inferior şi cel neutru;
2. se caută apoi proporŃia în care subiecŃii din grupul superior şi din cel inferior au
răspuns corect la fiecare item;
3. pentru fiecare item se scade proporŃia răspunsurilor corecte ale grupului slab din
proporŃia răspunsurilor corecte ale grupului bun, ceea ce dă indicele de
discriminabilitate, a cărui valoare poate varia între -1 şi +1. Valoarea 0 semnifică
egalitatea rezolvării de către cele două grupuri şi deci absenŃa discriminării;
valorile pozitive indică preponderenŃa rezolvării itemului de către grupul superior,
iar cele negative de către grupul inferior şi de aceea itemul respectiv trebuie
eliminat fără discuŃie, căci în acest caz destinul său nu este solidar cu al testului din
care el face parte.
Să ne reamintim...
Se apreciază că valorile lui D între:
0,00 - 0,10 indică absenŃa discriminării;
0,11 - 0,19 valoare de limită a discriminării;
0,20 - 0,29 valoare scăzută a discriminării;
0,30 - 0,39 valoare bună a discriminării;
0,40 → item cu o foarte bună putere discriminativă.
4
ProporŃia respectivă a fost propusă de Kelley în 1939.
96
Metoda analizată presupune cel puŃin 30 de subiecŃi în grup, pentru a nu avea mai puŃin de
8 subiecŃi în grupurile de contrast. Utilitatea şi popularitatea indicelui D provine şi din uşurinŃa cu
care el poate fi determinat manual, neluând în calcul decât ceva mai mult de jumătate dintre
subiecŃi. Mai mult, în pofida acestui fapt, el dă rezultate întru totul comparabile cu metode de
lucru mai rafinate, cum ar fi cele corelaŃionale. De aceea metoda grupurilor de contrast poate fi
folosită mai ales pentru testele educaŃionale, cu condiŃia ca numărul itemilor şi al subiecŃilor să fie
suficient de mare (peste 30) căci, în caz contrar, valoarea acestui indice este artificial umflată,
fiecare item acoperind o proporŃie prea mare din varianŃa totală. În testele educaŃionale indicele D
poate servi nu numai la selecŃia celor mai discriminativi itemi, pentru a construi o scală puternică,
ci şi ca metodă de analiză a distractorilor şi a erorilor, pentru care indicele de discriminare trebuie
să aibă o valoare negativă. Acesta poate fi informativ şi în legătură cu faptul dacă cheia
răspunsurilor este sau nu este eronată sau dacă răspunsul ales de grupul superior nu este realmente
acceptabil.
97
Tabel 1.3. Analiza capacităŃii de discriminare pentru 10 itemi ipotetici după metoda lui Findley
Item 1 2 3 4 5 6 7 8 9 10
1 1 1 1 0 1 0 1 0 1 0
2 1 1 1 1 0 0 1 1 0 0
3 1 0 1 1 1 0 1 0 1 1
4 0 0 0 0 1 0 1 0 1 1
5 1 1 1 0 1 0 1 0 1 1
6 1 1 1 1 1 1 1 1 0 1
7 1 1 1 0 1 0 1 0 1 1
8 1 1 1 0 1 0 0 0 1 0
9 1 0 0 1 1 0 1 0 1 1
10 1 0 1 1 1 0 1 1 1 0
11 0 0 1 1 1 0 1 0 1 0
...
29 1 1 1 1 0 1 0 0 0 0
30 0 0 0 1 1 1 1 1 1 1
31 0 0 0 0 0 1 1 1 0 0
32 1 0 1 1 0 1 1 0 0 1
33 0 1 0 1 1 1 0 1 0 0
34 1 1 0 1 0 1 1 0 0 1
35 0 1 1 0 0 1 1 1 0 0
36 0 0 0 0 0 1 1 1 1 0
37 1 0 1 1 0 1 1 1 0 1
38 1 0 0 0 0 1 1 0 0 0
39 1 1 1 1 1 1 1 1 0 0
Σ 15 11 14 12 12 12 19 10 11 10
p 0,8 0,1 0,2 0,4 0,5 0,5 0,9 0,3 0,4 0,6
ps 0,8 0,5 0,8 0,5 0,9 0,1 0,9 0,3 0,8 0,5
pi 0,5 0,5 0,5 0,6 0,3 1,0 0,8 0,6 0,1 0,4
∆=(ps- pi) 0,3 0 0,3 0,1 0,6 -0,9 0,1 -0,3 0,7 0,1
98
itemul 8 va fi eliminat: deşi de dificultate optimă, el discriminează negativ;
la itemul 6 eliminarea este cel mai imperios necesară: deşi foarte bun ca
dificultate, are o foarte mare capacitate de discriminare, dar negativă, fiind cel mai
puternic în contratimp cu scorul general la test şi deci cel mai contraproductiv. El
ar putea fi totuşi menŃinut doar prin scorare inversă.
Tabel 1.4. Interpretarea capacităŃii de discriminare pentru cei 10 itemi anteriori după schema lui Ebel
p=dificultatea itemilor
Grup puternic Grup slab Decizia
1,0
0,9
0,8
0,7 9 Acceptarea
0,6 5 itemilor
∆ = capacitatea discriminativă a itemilor
0,5
0,4
0,3 3 1
0,2 Revizia
0,1 4 10 7 itemilor
0 2 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,00
-0,1
-0,2
-0,3 8
-0,4 Respingerea
-0,5 itemilor
-0,6
-0,7
-0,8
-0,9 6
-1,0
99
celei mai potrivite metode corelaŃionale trebuie făcută cu grijă. Laveault şi Grégoire (op. cit., p.
210) fac câteva recomandări sintetizate în tabelul de mai jos:
Scala de măsură Dihotomică Dihotomizată Continuă
Dihotomică Φ (Fi) Φbis rpbis
Dihotomizată rtetrahoric rbis
Continuă r, rs (rho)
Să ne reamintim...
• O variabilă este dihotomică prin natura ei dacă nu are decât două stări posibile,
cum ar fi masculin-feminin, ca apartenenŃă de gen;
• variabila este dihotomizată atunci când ea este adusă la doar două valori, deşi
iniŃial mai multe variante erau posibile, cum ar fi căsătorit-necăsătorit, rural-
urban, introvert-extravert, admis-respins etc., deşi pentru fiecare dintre acestea
există şi alte variante intermediare: pentru starea civilă mai există şi variantele
separat, divorŃat sau văduv, pentru mediu şi varianta preurban, pentru
extraversie/introversie şi varianta ambivert etc.;
• variabilele continue sunt cele de pe scalele de interval sau de raport, care pot
lua în principiu orice valoare pe toată întinderea amplitudinii variabilei.
ϖ ϖ
xs − xi p
(2) rpbis =
Sx q
ϖ σ
unde xs şi xi reprezintă mediile grupului superior şi inferior;
Sx este abaterea standard a întregului grup;
p şi q reprezintă proporŃia reuşitelor la item şi complementul său.
ϖ ϖ
xs − xi p
(3) rbis =
sx q
ϖ ϖ
unde xs este media grupului superior iar xi media întregului grup;
sx este abaterea standard a întregului grup;
100
p
y este este ordonata lui p transformată în note z; de fapt raportul este furnizat de tabele
q
speciale.
pq
(4) rbis =
rpbis
Y
aceasta fiind ecuaŃia de transformare între cei doi coeficienŃi de corelaŃie, biserial şi punct-biserial.
5
Apud Laveault şi Grégoire, op. cit., p. 215.
101
Exemplu
Există o diversitate de modele ale curbei caracteristice a itemului care se sprijină pe
diferite funcŃii matematice, cum ar fi teoria danezului George Rasch (1966),
considerată a fi oferit cel mai simplu şi elegant model pentru CCI. Acesta se
sprijină pe două presupuneri:
itemii testului sunt unidimensionali, ei măsurând o singură trăsătură comună;
itemii testului variază uniform, pe un continuu al nivelului de dificultate.
Atunci când abilitatea de a rezolva un item este distribuită gaussian, CCI are binecunoscuta
formă de S a ogivei lui Galton. Deşi aceasta este preferată de majoritatea psihometricienilor,
pentru că permite deducŃii matematice despre trăsătura în cauză, selecŃia itemilor după curbele lor
caracteristice depinde în mare măsură de scopul testării. De exemplu, atunci când se doreşte
construirea unui test de selecŃie care să evidenŃieze clar un punct de tăietură a scorurilor (cutoff)
sunt de preferat curbele cu prag abrupt (vezi ilustrările de mai jos). Alteori scopul este urmărirea
validităŃii diferenŃiale, caz în care itemii ce dau curbe net diferite după gen, etnie sau cultură sunt
cei care vor fi eliminaŃi sau revizuiŃi, pentru a avea teste nesexiste ori teste corecte cultural.
Exemplu
Cel care şi-a pus problema utilităŃii teoriei răspunsului la itemi, care stă conceptual
în spatele curbei caracteristice a itemilor, a fost Nunnally6 (1978). El a fost cel care
şi-a exprimat mirarea în legătură cu faptul că această teorie nu a fost adoptată mai
de timpuriu în serviciul construcŃiei testelor psihologice, dar tot el este acela care a
dat răspunsul la această întrebare, atunci când a descoperit că presupunerea
unidimensionalităŃii nu se verifică pentru cele mai multe dintre testele analizate.
Conform lui Gregory, marea utilitate a curbei caracteristice a itemilor vine dinspre viitor,
adică dinspre testarea adaptată computerizată, în care fiecare subiect răspunde la un set
individualizat şi unic de itemi, scorat pe o scală uniformă şi unidimensională. Fără CCI, acest tip
de examen adaptat computerizat nici nu ar putea fi imaginat. Dată fiind legătura dintre teoria
răspunsului la itemi şi curba caracteristică a itemilor, rezervăm acestei probleme un capitol
special. Mai jos oferim imaginea grafică a curbelor mai multor tipuri de itemi, cu menŃiunea că pe
abscisă sunt trecute trei niveluri ale dificultăŃii – uşor, mediu şi greu –, iar pe verticală de
asemenea trei niveluri ale probabilităŃii răspunsului la item – mic, mijlociu şi mare (sursa:
Gregory, 1996, p. 143).
6
Nunnally, J. C. (1978). Psychometric Theory (2nd ed.). New York: McGaw Hill.
102
U1.9. Test de evaluare a cunoştinŃelor
1. DefiniŃi noŃiunea de item al unui test.
2. IndicaŃi în ce constă dificultatea analizei de itemi la testele de viteză şi cum
poate ea fi surmontată practic.
3. DefiniŃi modul în care se lucrează cu matricea lui Stern pentru a face analiza
dificultăŃii itemilor.
4. AnalizaŃi motivele pentru care dificultatea itemilor este importantă în
construcŃia unui test psihologic.
5. PrecizaŃi care sunt factorii care pot afecta dificultatea unui test.
6. DefiniŃi conceptual de varianŃă a itemului şi modul său de utilizare în analiza
dificultăŃii itemilor unui test.
7. PrecizaŃi care este dificultatea optimă a unui test cu şase variante de răspuns.
8. DefiniŃi conceptual de indice de discriminare a itemului indicând modul său de
determinare prin metoda grupurilor de contrast propusă de Findley.
9. ArătaŃi care este utilizarea indicelui D în construcŃia unui test educaŃional.
10. AnalizaŃi care este raportul dintre dificultatea şi discriminabilitatea itemilor
unui test şi cum poate fi el analizat şi utilizat practic.
11. AnalizaŃi situaŃiile în care metodele corelaŃionale sunt preferabile determinării
lui D.
12. PrecizaŃi semnificaŃia termenului de curbă caracteristică a itemului (CCI) şi
modul său concret de utilizare în construcŃia unui test psihologic.
103
__________________________________________________________________
Modulul M3. Unitatea de învăŃare 2
NORMELE ŞI ETALONAREA TESTELOR
CLASIFICAREA TESTELOR
__________________________________________________________________
Cuprins
U2.1. Introducere ........................................................................................................... 104
U2.2. CompetenŃe .......................................................................................................... 104
U2.3. Eşantionul normativ şi normele testelor ............................................................... 105
U2.4. Etalonarea testelor ................................................................................................ 108
U2.4.1. Transformări de arie (neliniare) ............................................................. 108
U2.4.2. Transformările liniare ............................................................................. 110
U2.4.3. Normalizarea scorurilor standard .......................................................... 111
U2.4.4. Stanine, stens şi scale C .......................................................................... 113
U2.5. Exemple practice de construire a etaloanelor ....................................................... 114
U2.6. Clasificarea testelor .............................................................................................. 117
U2.6.1. După modul de administrare ................................................................... 117
U2.6.2. După timpul de execuŃie .......................................................................... 118
U2.6.3. După modul de executare a sarcinii de către subiect ............................. 119
U2.6.4. După modul de procesare implicat ......................................................... 119
U2.6.5. După constanŃa conŃinutului de la o aplicare la alta .............................. 122
U2.6.6. După modul de cotare ............................................................................. 122
U2.6.7. După modul de interpretarea a scorurilor .............................................. 123
U2.6.8. După numărul variabilelor implicate ..................................................... 123
U2.6.9. După procesul psihic implicat ................................................................. 123
U2.7. Rezumat ................................................................................................................ 124
U2.8. Test de autoevaluare a cunoştinŃelor .................................................................... 125
U2.1. Introducere
„Nici un test nu are norme pentru întreaga specia umană!” afirmă Anne Anastasi
(1976, p. 90). Aceasta înseamnă că rezultatele la orice test au limite de valabilitate,
generate de populaŃia pe care el a fost aplicat şi în raport cu care s-a obŃinut
sistemul de referinŃă reprezentat de normele sale (baremele sau etaloanele).
U2.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să definească noŃiunea de eşantion şi să indice principalele caracteristici ale
eşantionului normativ;
• să indice importanŃa reprezentativităŃii, volumului eşantionului şi a raportului
104
omogenitate-eterogenitate în construirea normelor şi etalonarea testelor;
• să opereze distincŃia etalon naŃional, etalon zonal, etalon local şi etaloane pentru
grupuri speciale;
• să definească în ce constă activitatea de etalonare;
• să definească specificul principalelor tipuri de etalonare prin transformări de arie
(neliniare), transformări liniare şi prin normalizarea curbelor de distribuŃie;
• plecând de la o distribuŃie dată, să genereze un etalon prin transformări de arie
sau prin transformări liniare;
• să opereze distincŃia cote standard şi cote standardizate, precizând care este
utilizarea practică a fiecărei categorii;
• să furnizeze şi să opereze cu trei criterii valide de clasificare a testelor
psihometrice;
• să utilizeze cel puŃin trei criterii conjugate pentru a identifica şi caracteriza un
test psihometric.
Aceasta din urmă este accepŃiunea pe care o vom da în această unitate de curs conceptului
de eşantion, necesară din două motive: aprecierea performanŃelor unui subiect nu se poate face
decât prin comparaŃie cu un grup de referinŃă; cum această comparaŃie nu se poate face cu întreaga
populaŃie, din ea se extrage un eşantion reprezentativ, pe care se aplică şi se etalonează testul. De
aici rezultă că normele unui test nu au un înŃeles absolut, universal sau permanent (Anastasi, 1974)
şi că pentru a fi relevante ele trebuie raportate la eşantionul construit pe populaŃia de referinŃă,
„...care conferă valabilitate social-istorică testului sau bateriei de teste” (Şchiopu, 1976, p. 151).
Aceasta este şi raŃiunea pentru care un test trebuie revizuit periodic. Deoarece tabelul de norme
este relativ la populaŃia avută în vedere, „... nu se pot utiliza etaloane întocmite în alte Ńări şi în alte
condiŃii, tabelul de norme are o valoare locală, cel mult naŃională” (Radu, 1993, p. 381).
105
Cea mai importantă caracteristică a unui eşantion este reprezentativitatea sa, care
presupune faptul că el va fi construit Ńinând cont de toŃi factorii de variabilitate importanŃi ce pot
produce diferenŃe în scorurile testului: vârsta, apartenenŃa de gen, mediul (rural–urban), la care se
pot adăuga nivelul de instrucŃie, pregătirea profesională, statutul socio-economic şi cultural,
apartenenŃa etnică, distribuŃia geografică şi orice altă caracteristică sau atribut pe care populaŃia de
ansamblu o are şi care ar putea să genereze scoruri diferenŃiate. Eşantionarea este un capitol
important al Statisticii, care şi-a pus la punct procedee bine definite de construcŃie a eşantionului
pentru a creşte reprezentativitatea acestuia: metoda cotelor, procedeul loteriei, al pasului, metoda
eşantionării stratificate, multifazice, a eşantionului fix sau metoda panel.
Raportul omogenitate-eterogenitate este o altă însuşite imporatntă a eşantionului, căci în
funcŃie de numărul şi de ponderea atributelor sale, pot fi construite sub-eşantioane populaŃionale
caracteristice. Acolo unde pot fi puse în evidenŃă diferenŃe legate de vârstă, gen, mediu sau nivel
de instruire, se vor construi etaloane pentru categoriile amintite, în cadrul fiecărei categorii
celelalte elemente importante ce caracterizează populaŃia trebuind să se regăsească în proporŃii
egale sau apropiate.
În cazul în care se intenŃionează ca testul să aibă o aplicabilitate foarte largă, naŃională,
atunci eşantionul normativ va fi suficient de mare şi de cuprinzător pentru a produce valori stabile
şi reprezentative. Pentru aceasta, populaŃia va trebui definită în avans în termenii obiectivelor
testului, după care, prin proceduri statistice specifice, va fi asamblat eşantionul pe care va fi
aplicat testul. În Ńările în care există populaŃii de mai multe tipuri (adică eterogenitate etnică) sau
diferenŃe foarte mari în standardele de viaŃă sau de cultură, este de preferat să se aibă în vedere
elabortarea de etaloane regionale sau locale, etaloanele naŃionale fiind indicate aici doar pentru
studiul opiniilor, atitudinilor sau al intenŃiilor de vot. Studierea erorii de eşantionare (care trebuie
să fie cât mai mică) şi a distribuŃiei scorurilor obŃinute (care trebuie să fie unimodală) sunt repere
statistice importante în construirea eşantionului.
Mărimea (volumul) eşantionului este foarte importantă: dacă eşantionul este prea mare
generează o cantitate de muncă greu de acoperit, dar dacă este prea mic el poate să lase pe dinafară
subgrupuri populaŃionale cu caracteristici importante, ceea ce va diminua reprezentativitatea sa.
Volumul eşantionului generează exigenŃa ca din fiecare clasă sau categorie identificată să se
extragă cel puŃin 300 de persoane (Kline, 1993). Aceasta înseamnă că, generând un număr ridicat
de clase diferite, populaŃiile largi şi eterogene se vor regăsi în eşantioane normative voluminoase,
abordabile cu costuri de resurse umane şi materiale ridicate. În această situaŃie este preferabilă
utilizarea de etaloane pentru populaŃii mai mici şi mai omogene, pentru care se vor obŃine norme
zonale sau locale. Atunci când se pun în evidenŃă diferenŃe însemnate ale mediilor şi abaterilor
standard pentru diferite subgrupuri populaŃionale ale eşantionului normativ este indicată
construirea unor etaloane diferenŃiate, ce vor permite raportarea mai nuanŃată a fiecărui caz nou la
un sistem de referinŃă mai adecvat. Aceste subgrupuri pot fi formate după vârstă, apartenenŃă de
gen, clasă şcolară, tip de curriculum, regiune geografică, mediu rural sau urban, nivel de instrucŃie,
nivel economic etc.
Normele locale, dezvoltate cel mai adesea de înşişi utilizatorii de teste, sunt avantajoase
pentru că definesc mult mai strict subgrupurile menŃionate anterior. Mai mult, pe măsură ce testul
106
este utilizat, el furnizează continuu date pentru subgrupuri tot mai bine definite, de unde şi
posibilitatea de a construi etaloane tot mai diferenŃiate. La limită, se poate face spre exemplu
predicŃia rezultatelor la test ale unui elev în raport cu propriile sale rezultate anterioare. Măsura
progresului unui subiect în timp, predicŃia succesului în achiziŃia şcolară sau a performanŃelor într-
un serviciu sau muncă se bazează mult mai mult pe normele locale, decât pe cele larg
reprezentative naŃional. Baremele naŃionale sunt însă extrem de necesare pentru că oferă cel mai
larg şi mai stabil sistem de referinŃă, necesar pentru a valida, de exemplu, examenele naŃionale.
Deoarece costurile de obŃinere a unor astfel de etaloane sunt foarte ridicate şi deoarece
practicianul are de rezolvat probleme de mai mică anvergură şi mult mai specifice, etalonul local
este cel mai accesibil şi mai util pentru că reproduce cel mai bine şi cu cele mai mici costuri
caracteristicile populaŃiei testate. Etaloanele pentru grupuri speciale tezaurizează şi valorifică în
timp propria muncă a psihologului atunci când acesta se ocupă de categorii ocupaŃionale sau
populaŃionale speciale: electricieni, transportatori, pacienŃi cu sindrom Down, autişti etc.
Să ne reamintim…
• Principalele caracteristicei ale unui eşantion sunt legate de reprezentativitatea şi
de volumul său, dar şi de raportul omogenitate-eterogenitate.
• Asamblarea unui eşantion este o operaŃie laborioasă, care revine de regulă
constructorului testului.
• Această operaŃie presupune luarea în considerare a principalelor surse de variaŃie
identificate la nivelul populaŃiei Ńintă.
• Cele mai importante surse de variaŃie considerate sunt vârsta, apartenenŃa de gen,
mediul sau zona geografică, la care se pot adăuga nivelul de instrucŃie, profesia,
studiile parentale, nivelul socio-economic etc.
• Utilizatorii testelor pot crea ei înşişi etaloane sau bareme pentru categorii
populaŃionale mai restrictiv definite, operaŃie prin care predicŃiile bazate pe un
test sau pe o baterie de teste devin mai acurate.
• Aceste etaloane speciale capitalizează munca şi experienŃa de durată a
practicianului.
• Etaloanele şi baremele trebuie actualizate (upgradate) pe măsură ce
caracteristicile populaŃiei Ńintă se schimbă.
• Deorece nu există bareme sau norme internaŃionale sau universale, pot fi
identificate doar etaloane naŃionale, zonale sau locale, la care se adaugă şi
categoria etaloanelor pentru grupuri speciale.
• Activitatea de etalonare este una prin care cotele brute ale unei distribuŃii sunt
transformate în cote standard.
• Această transformare poate fi una liniară sau una de arie.
107
U2.4. Etalonarea testelor
Pe drept cuvânt novicele îşi poate pune întrebarea de ce nu sunt folosite scorurile brute ca
atare pentru a face comparaŃii între subiecŃi, pentru a stabili categorii sau pentru a-i ierarhiza pe
aceştia în funcŃie de performanŃele obŃinute. Cu alte cuvinte, de ce trebuie să apelăm la cotele
(notele) standard când le avem la îndemână pe cele brute? În plus, prin operaŃia de transformare a
cotelor brute în cote standard, adică prin operaŃia de etalonare, nu se pierd informaŃii importante
cum ar fi cele referitoare la forma distribuŃiei originale sau la păstrarea poziŃiei şi a distanŃelor
dintre performanŃele subiecŃilor?
Exemple
Să ne imaginăm câteva sarcini de comparaŃie directă a performanŃelor.
1. Comparăm performanŃa la matematică a unui elev de clasa a XI-a de la un
reputat liceu de matematică-informatică care obŃine media semestrială de 6,38, cu
aceeaşi medie de 6,38 a unui alt elev umanist de la un liceu mai slab. Rezultatele
par identice, dar comparaŃia directă este incorectă pentru că matematica de la real
este mult mai dificilă decât cea de la uman, iar profesorii de la liceul de specialitate
ar putea fi mult mai exigenŃi decât cei de la un liceu slab. Rezultă de aici că
comparaŃia nu mai este posibilă? Dacă am avea informaŃii mai detaliate despre
poziŃia acestor performanŃe în distribuŃia rezultatelor claselor din care fac parte cei
doi elevi şi dacă am şti care sunt mediile şi abaterile standard ale acestor distribuŃii,
comparaŃia ar deveni posibilă.
2. Un elev obŃine 6 la informatică, 7 la matematică, 9 la română şi 10 la istorie, de
unde am putea trage concluzia că el este bun la disciplinele umaniste şi slab la cele
realiste. Concluzia este eronată pentru că prin compararea directă se face abstracŃie
de faptul că la informatică şi matematică a obŃinut aceste note de la profesori foarte
de exigenŃi, pe când la română şi la istorie de la profesori care rareori dau note mai
mici de 8. ComparaŃia ar putea fi totuşi făcută dacă am deŃine informaŃii mai
detaliate despre valorile tendinŃei centrale şi forma distribuŃiilor pentru cele 4 note
comparate.
3. Cineva care are 70 de kilograme ca greutate şi 163 de centimetri ca înălŃime se
întreabă dacă este prea gras în raport cu statura sa. Dar cum se pot compara unităŃi
de măsură atât de diferite ca kilogramele şi centimetrii? Statistica furnizează cheia
dilemei: dacă am avea un sistem de comparaŃie în care să nu mai intervină unităŃile
de măsură originale, problema ar putea fi rezolvată. Acest lucru este posibil prin
exprimarea înălŃimii şi greutăŃii în unităŃile unei distribuŃii standard cu media 0 şi
abaterea standard 1, adică prin note z. Dacă persoana în cauză ar şti că are -0,65 la
înălŃime şi +1,25 la greutate ar putea trage concluzia întemeiată că este deja
supraponderală.
4. Cineva a obŃinut la un test de memorie 17 puncte iar la altul de motricitate 25 de
puncte. Este el mai bun la îndemânare decât la memorie? Este imposibil de răspuns
corect dacă nu deŃinem informaŃii adiŃionale legate de scorul minim şi maxim la
108
cele două teste şi de poziŃia persoanei în cele două distribuŃii. Dacă am şti, de
exempu, că scorul maxim la testul de memorie a fost de 20, că performanŃa medie a
fost de 10, iar abaterea standard de 3,5, am avea o idee mult mai clară despre
performanŃa sa la acest test, care este una superioară: ea este deasupra mediei cu
două abateri standard. Dacă la testul de motricitate am şti că performanŃa maximă a
fost de 50, cea medie de 30 şi abaterea standard a fost de 5, vom şti că performanŃa
sa a fost sub medie cu o abatere standard. Răspunsul devine acum foarte clar:
performanŃa la memorie a fost mult peste medie, dar la motricitate a fost una slabă.
Din exemplele de mai sus rezultă clar că scorurile brute nu pot fi luate ca bază de
comparaŃie nici ale persoanelor între ele, nici ale aceleiaşi persoane la probe
diferite. Pentru a căpăta un înŃeles cotele brute trebuie transformate, adică trebuie
raportate la un sistem de referinŃă mai precis, în care forma distribuŃiei şi valorile
tendinŃei centrale devin reperele esenŃiale. Această operaŃie de transformare a
scorurilor brute în scoruri standard, cu proprietăŃi matematice dinainte ştiute,
defineşte activitatea de etalonare, la sfârşitul căreia se obŃin tabelele de norme sau
etaloanele.
Aplicarea testului dă scoruri sub forma cotelor brute, care sunt analizate şi tratate statistic
pentru a obŃine cotele standard, adică normele fixate în etalon. În acest scop se folosesc două tipuri
de transformări (Albu, 1998, p. 246):
• transformări de arie (neliniare), prin care se modifică repartiŃia cotelor brute, pentru a semăna
cu o repartiŃie uniformă, ca în cazul quartilelor, decilelor sau centilelor, sau cu una normală,
ca în cazul scalelor normalizate cu 5, 7, 9, 10, 11 sau 19 trepte;
• transformări liniare, prin care se obŃin cotele standard z şi cotele standardizate (păstrând
nemodificată ordinea indivizilor în eşantion, adică repartiŃia nemodificată a cotelor).
Dacă în primul caz se modifică unitatea divizionară a scalei pentru a se lua arii egale în
tranşe succesive (câte 10% în cazul decilelor, 25% în cazul quartilelor şi 1% în al percentilelor), în
al doilea caz unitatea de scală este egală, cea care diferă fiind aria porŃiunii de sub curbă
corespunzătoare unei unităŃi, aceasta în cadrul unei repartiŃii care a fost normalizată.
Pe lângă cele două tipuri de transformări unele etaloane folosesc vârstele echivalente,
vârstele mintale sau clasele echivalente pentru variabile care au o creştere continuă în raport cu
vârsta (înălŃimea, greutatea, inteligenŃa, vocabularul sau cunoştinŃele la o materie şcolară).
Clasele echivalente, folosite mai ales pentru ciclul primar, în construirea testelor de
cunoştinŃe standardizate, exprimă pentru fiecare clasă şi lună de şcoală, mediana cotelor brute la
test, ceea ce permite reperarea unui scor particular al unui elev: citire 4,5 (nivel de clasa a IV-a,
luna a cincea a anului şcolar), aritmetică 3,6, istorie 4 etc.
Vârstele echivalente dau fie vârste mintale, ca la testele de inteligenŃă de tip Binet (unde
raportul vârstă mintală/vârstă cronologică, multiplicat cu 100, dă coeficientul de inteligenŃă), fie
vârste ale citirii sau socotitului, pentru testele de cunoştinŃe. Se pot calcula astfel coeficienŃi de
inteligenŃă (IQ), de dezvoltare (QD, ca în bateriile Gesell) sau de educaŃie (QE).
109
U2.4.1. Transformări de arie (neliniare)
Percentilele (rangurile percentile) reprezintă o transformare de arie care presupune o
împărŃire a suprafeŃei distribuŃiei în 100 de tranşe succesive de arii egale prin operaŃia de centilare.
O percentilă7 exprimă procentajul persoanelor din eşantionul normativ care cad sub un anumit
scor. De exemplu, dacă la testul PM38 Raven sub scorul de 41 cad 10% dintre persoane iar 90%
sunt deasupra acestui scor se poate spune că 41 reprezintă percentilul 10, ceea ce în notarea
standard se scrie ca P10. La fel, scorul de 49, sub care cad 50% dintre persoanele eşantionului
normativ este punctul percentil median, adică P50. A se nota deci că percentilele mai mari
reprezintă scoruri mai mari. În cazul extrem în care o persoană obŃine cel mai mare scor din
eşantionul normativ, scorul său devine percentilul 100, adică P100. Trebuie menŃionat că ar fi o
foarte gravă eroare a se confunda percentilele cu procentaje de performanŃă: percentilul 50 nu
înseamnă că cineva a rezolvat 50% din sarcinile unui test, ci că a obŃinut un scor sub care pică
50% dintre subiecŃi. Percentilele pot fi văzute şi ca rangurile unei distribuŃii ale unui grup de 100
de subiecŃi în care P1 reprezintă cel mai slab scor, P25 scorul sub care cad 25% dintre subiecŃi
(qurtilul 1, adică Q1), P50 mediana, P75 quartilul 3 (Q3), iar P100 cel mai bun scor al acestui grup.
Percentilele reprezintă cea mai comună transformare a scorurilor brute şi aceata pentru că
sunt uşor de calculat şi foarte intuitive, atât pentru persoanele profane, cât şi pentru specialiştii în
domeniu. Mai mult, aproape orice tip de scoruri ale testelor pot fi transformate şi în percentile,
chiar dacă scopul final este un alt tip de transformare. De exemplu un IQ de 123 corespunde
punctului percentil 94 (P94), ceea ce înseamnă că 94% dintre persoane cad sub acest coeficient de
inteligenŃă şi numai 6% au IQ-uri mai mari.
Se poate pune întrebarea: dacă acest tip de transformare este atât de avantajos şi de
popular, de ce totuşi el nu a devenit unul exclusiv? Impedimentul major al transformării percentile
este acela că aceasta distorsionează scala de măsură, mai puŃin pe porŃiunea centrală, dar din ce în
ce mai mult spre extremităŃile scalei8. Cu alte cuvinte, centilarea este o măsurare tipică scalelor
ordinale, dar, neavând o unitate de măsură egală cu ea însăşi pe toată lungimea scalei, mai multe
rezultate exprimate în percentile nu pot fi agregate într-un scor unic prin adunarea lor şi efectuarea
mediei. Aşadar, rangurile percentile nu sunt aditive. Figura 2.1 de mai jos indică clar acest efect de
distorsiune, mai mic pe zona centrală, dar tot mai însemnat spre zonele extreme ale curbei
gaussiene. Figura de mai jos indică în mod elocvent diferenŃa de mărime pentru 10 percentile
aflate pe centrul, respectiv periferia liniei de distribuŃie a scorurilor.
Pentru a facilita operaŃia de centilare, în SPSS există mai multe facilităŃi. După ce se
parcurge secvenŃa Descriptive Statistics→Frequencies→Statistics există opŃiunile de a obŃine
cele trei puncte quartile (prin Quartiles), de a împărŃi distribuŃia în câte tranşe egale se doreşte
(inclusiv în 100 de tranşe, adică în centile, prin Cut points for ... equal groups) şi toate punctele
percentile (prin Percentile(s)). Cazuri particulare ale operaŃiei de centilare sunt operaŃiile de
identificare a celor 9 repere ce permit împărŃirea ariei de sub curbă în 10 tranşe egale, prin
decilare, sau de identificare a celor 3 repere care sunt Q1, Q2 (mediana) şi Q3 ce permit împărŃirea
7
Termenul de percentilă este adesea substituit cu unul mai simplu, care este cel de centilă, cu care este echivalent. O
exprimare mai corectă, dar mai pretenŃioasă, va folosi în loc de percentilă termenii de punct percentil sau de rang
percentil.
8
A se vedea Anexa 2 de la sfârşitul lucrării.
110
în 4 tranşe egale (quartile). Pentru fiecare dintre aceste operaŃii furnizăm aplicaŃii în paginile care
urmează.
111
ExerciŃiu
Într-o colecŃie de scoruri la un test cu media de 50 şi abaterea standard de 7,
persoana A are scorul de 30, persoana B de 50 şi persoana C de 65. Aplicând
formula de calcul a notelor z determinaŃi cotele standard pentru cei trei
subiecŃi şi comentaŃi rezultatele obŃinute.
B. Scorurile standardizate
De la cursul de Statistică se ştie că adunarea unei constante la o colecŃie de date modifică
doar media acelei distribuŃii, dar relaŃiile de ordine şi de mărime, abaterea standard şi forma
distribuŃiei rămân neschimbate. Mai mult, prin înmulŃirea sau împărŃirea tuturor valorilor unei
distribuŃii cu o constantă, acea distribuŃie se dilată sau comprimă proporŃional cu constanta
respectivă, simultan cu abaterea standard. Prin urmare, utilizând cele două perechi de opereaŃii
aritmetice de bază este posibil ca o distribuŃie brută oarecare să fie transformată în una care are o
origine şi o abatere standard convenabile. Prin aceasta se face o transformare liniară asupra
distribuŃiei originare sau asupra cotelor standard ale acesteia, ceea ce se obŃine fiind cotele
standardizate.
Rezolvarea practică a transformării liniare asupra cotelor z şi obŃinerea cotelor
standardizate se face după formula:
z ' = M + sz
unde z ' este cota transformată a cotei standard z, iar M şi s sunt media şi abaterea standard pentru
cotele standardizate obŃinute prin transformare. Valorile z ' se rotunjesc la numere întregi,
proprietăŃile lor fiind aceleaşi cu ale cotelor standard z, exceptând fireşte media şi abaterea
standard, modificate prin transformare.
Deşi mai maniabile, din punct de vedere conceptual scorurile standardizate sunt identice cu
cele standard, deoarece ambele conŃin exact acelaşi tip de informaŃie, iar forma distribuŃiilor
rezultate este identică: reprezentarea grafică a relaŃiei dintre cele două distribuŃii este o linie
dreaptă. Singura diferenŃă notabilă este aceea că scorurile standardizate sunt întotdeauna numere
pozitive întregi, acesta fiind faptul pentru care ele sunt preferate. Dar cel mai important lucru
relativ la distribuŃiile standardizate este acela că orice distribuŃie de scoruri brute poate fi
112
transformată pentru a fi reprezentată pe scara preferată de psiholog, cu valori predeterminate ale
mediei şi abaterii standard. Prezentăm mai jos câteva tipuri de transformări liniare şi scorurile
standardizate rezultate.
Trebuie precizat faptul că de foarte mare utilitate sunt două tipuri de scale standardizate,
scorurile T (introduse de McCall în 1922) şi scorurile H, introduse de Hull, ale căror formule de
complete de transformare a scorurilor brute în scoruri standard sunt următoarele:
10
T = 50 + (x − M )
s
respectiv:
14
H = 50 + (x − M )
s
În cele două formule de mai sus termenul (x + M)/s este echivalentul cotei z, aşa că ele se
pot rescrie ca simple transformări de cote z astfel:
T = 50 + 10z şi H = 50+ 14z .
Acest fapt este în acord cu formula z ' = M + sz prezentată anterior.
Scorurile scalei T sunt extrem de frecvent utilizate pentru marile chestionare de
personalitate ca MMPI, CPI ori NEO PI-R. Familiarizarea psihologului cu acest tip de scală, care
include marea majoritatea a scorurilor între 30 şi 80, este una obligatorie. Mai trebuie adăugat
faptul că, deşi scorurile standardizate pot fi astfel concepute pentru a produce orice tip de medie şi
de abatere standard, practicienii ştiu că, pentru a evita numerele negative, este dezirabil ca media
să fie de cinci ori mai mare decât abaterea standard.
113
distribuŃiilor şi pe eşantioane populaŃionale largi şi reprezentative. Deoarece cel mai adesea aceste
asimetrii rezultă dint-o gradare greşită a dificultăŃii itemilor, prea mulŃi itemi dificili producând
asimetrii pozitive, prea mulŃi itemi uşori – o asimetrie negativă, soluŃie optimă este aceea de
normalizare a distribuŃiei prin eliminarea itemilor inadecvaŃi ca dificultate.
Exemple
Foarte utilizate în psihologia aplicată sunt quartilele, decilele şi centilele. Dacă
primele dau o împărŃire grosieră, în numai patru clase, centilele dau o ierarhie de
fineŃe a rangurilor, din procent în procent, dar aceasta înseamnă teste lungi, cu
mulŃi itemi de putere discriminativă variabilă (între 0,30 şi 0,70 cel mai adesea),
aplicate pe populaŃii foarte mari (de peste 100 de subiecŃi). De aceea mai practice
sunt decilele: „FaŃă de gradul de exactitate al măsurii psihologice, împărŃirea în
decile – ceea ce înseamnă individualizarea a 10 trepte de reuşită la o probă –
reprezintă adeseori limita maximă”, afirmă Radu et al. (1993, p. 376).
114
relative cumulate (fc). Iată rezultatele la testul Raven Standard (PM 38) aplicat pe 448 de
concurenŃi la un examen de admitere, utilizate pentru exerciŃiile noastre de etalonare.
x 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
fa 11 12 15 18 24 20 28 28 36 37 32 29 35 23 23 22 13 4 5 0
fc 44 56 71 89 113 133 161 189 225 262 294 323 358 381 404 426 439 443 448 448
N = 448; Media = 48,63; AS = 6,12; Mediana = 49,50.
d. Etalonul în quartile
Quartilul 1 (inferior) are înaintea sa 25% dintre subiecŃi, adică (448·25)/100 = 112. Căutăm
pe linia frecvenŃelor cumulate (fc) cea mai apropiată valoare de 112, care este 113, corespunzând
cotei brute de 45. Aşadar qurtilul 1 are valorile de scor de la 0 la 45, care se şi trec în tabel.
Quartilul 2 (mediana), împarte pe din două efectivul, deci are înaintea sa 50% din efectiv, adică
(448·50)/100 sau 448/2 = 224. Valoarea cea mai apropiată de aceasta este 225, ceea ce corespunde
cotei brute de 49. Pentru qurtilul 2 se va întabela deci 46 – 49. Quartilul 3 (superior) are înaintea
sa 75% din efectiv, adică (448·75)/100 = 336. Valoarea cea mai apropiată este 353, corespunzând
cotei brute de 53.
Finalmente, etalonul rezultat va arăta astfel:
Q2 46 – 49 25 50
Q3 50 – 53 25 75
Q4 54 – 60 25 100
115
Tabel 2.3. Etalonul în zece clase (decile)
Procente
Decile Clase Teoretice Cumulate
10 0 – 41 10 10
20 42 – 44 10 20
30 45 – 46 10 30
40 47 – 48 10 40
50 49 10 50
60 50 10 60
70 51 – 52 10 70
80 53 10 80
90 54 – 55 10 90
100 56 – 60 10 100
Pentru că etaloane în centile întâlnim rareori, cel mai adesea se calculează reperele pentru
punctele percentile 3, 5, 25, 75, 95 şi 97, celelalte valori (10, 20, 30 etc.) fiind respectiv primul, al
doilea, al treilea decil etc. Modalitatea de calcul este similară: percentilul 3 are 3 procente din
efectiv înaintea sa, deci (448·3)/100 = 13,44 rotunjit la 13, care pe linia frecvenŃelor cumulate are
cea mai apropiată valoare 14, cu cota brută corespunzătoare 35 (reperul pentru percentilul 3).
Similar, percentilul 97 este (448·97)/100 = 434,56, rotunjit 435, care are ca reper scorul brut 57
ş.a.m.d.
116
Etaloane de calitate se obŃin atunci când eşantionul este reprezentativ şi volumul său
depăşeşte 100 de subiecŃi, selecŃionaŃi după criterii (de regulă nu mai mult de 4) de vârstă, sex,
mediu, profesie etc., pentru a fi în acelaşi timp omogene în raport cu criteriul şi eterogene în
aceeaşi proporŃie cu populaŃia mai mare din care a fost extras, adică pentru a avea un grad ridicat
de reprezentativitate. Prezentăm mai jos etalonul rezultat în stanine.
117
Alte exemple de clasificări posibile ale testelor
• Aiken (1997) tratează evaluarea abilităŃilor (inteligenŃa şi abilităŃile speciale) şi
a personalităŃii (interese, atitudini, valori; observaŃia, interviul şi ratingul;
inventarele şi tehnicile proiective).
• Kaplan şi Saccuzzo (1993) disting: tehnicile interviului, testele de abilităŃi
mintale, alte teste de abilităŃi individuale sau de grup, apoi testele pentru
alegerea carierei, testele de personalitate structurate, testele de personalitate
proiective, la care adaugă procedurile de evaluare a comportamentului, de
măsură a anxietăŃii şi a stresului, testarea stării de sănătate şi testele
computerizate.
• Holban (1973) propune o clasificare ce cuprindea testele de randament, de
dezvoltare mintală, de aptitudini, de cunoştinŃe, de comportament, de alegere,
teste proiective, sociometrice, degajând şi alte criterii de clasificare.
• Ursula Şchiopu (1976) propune ca mari categorii de tehnici psihodiagnostice
testele de dezvoltare, de inteligenŃă, de aptitudini, de personalitate şi de
examinare psihologică a sociabilităŃii.
118
U2.6.2. Clasificarea testelor după timpul de execuŃie:
Teste de viteză şi teste de randament
• Testele de viteză pleacă de la presupunerea că există o corelaŃie între viteza de lucru şi
dezvoltarea unei caracteristici (atenŃia, de exemplu). Sarcinile nu sunt organizate ierarhic,
având acelaşi grad de dificultate, dar testul are un număr foarte mare de itemi, pentru a nu
putea fi integral rezolvat de nici un subiect. Evident, primează aspectul cantitativ.
• Testele de randament au itemii de dificultăŃi diferite, aranjaŃi ierarhic, timpul fiind suficient
de mare pentru a permite parcurgerea lor de către toŃi subiecŃii. Cota brută o reprezintă
numărul de probleme corect rezolvate (primează deci aspectul calitativ al rezolvării).
Cele mai multe teste combină aceste două criterii, cum este subtestul Cuburilor WISC, unde
modelele de realizat sunt progresive ca dificultate (utilizează patternuri caroiate, apoi fără caroiaj,
modele de 2x2, apoi de 3x3 cuburi), iar punctele rezultă din rezolvarea corectă a modelului şi din
bonificaŃiile de timp (de viteză, de fapt).
119
Dacă testele de eficienŃă încearcă să surprindă performanŃa maximă a unei persoane, cele de
personalitate vor să surprindă performanŃa ei tipică (Corsini, 1994), primele având itemi de genul
adevărat–fals, prin care se obŃine un scor numeric şi o ierarhizare a indivizilor, în timp ce la a doua
categorie răspunsurile nu sunt dihotomice (bune/rele), deci nu permit o ierarhizare, ci o raportare
tipologică.
• Testele de cunoştinŃe măsoară nu un potenŃial (ca cele de inteligenŃă), ci nivelul efectiv atins
în achiziŃia de informaŃii sau de deprinderi specifice unui domeniu (matematică, istorie,
informatică etc.). Pentru că cel mai bun predictor asupra a ceea ce poate învăŃa cineva este
ceea ce el deja a învăŃat până la un moment dat, testele de cunoştinŃe au în vedere în mod
expres experienŃa anterioară de învăŃare. De fapt, cea mai bună predicŃie este dată de folosirea
concomitentă a testelor de aptitudini generale (inteligenŃă) cu cele de cunoştinŃe, pentru că
combinarea lor este mai informativă (indică şi ceea ce este potenŃial, dar şi ceea ce este
dobândit prin învăŃare). Unele dintre testele de cunoştinŃe sunt de tip informativ (elaborate de
profesorii înşişi pentru a determina nivelul unei clase), sau standardizate (elaborate de
specialişti, destinate utilizării pe scară largă, având un manual care indică strict condiŃiile de
standardizare în aplicare, cotare, raportare la norme elaborate pe eşantioane reprezentative şi
acoperind o mare varietate de conŃinuturi, ce le fac foarte recomandabile pentru evaluări
sumative).
• Probele de lucru sunt extrem de indicative pentru evaluarea nivelului atins într-o profesie,
activitate, dependentă de formarea unor deprinderi motrice, intelectuale sau rezultate dintr-o
experienŃă. Unele dintre elementele implicate într-o muncă devin foarte diagnostice pentru
rezultatele ce se vor obŃine ulterior în munca respectivă. Înaintea unui program de instruire,
deseori se face o astfel de evaluare care, când este bine concepută, are validitate predictivă şi
face o mare economie de timp şi bani, programele putând dura luni sau ani.
120
răspundă la toate solicitările cuprinse în „coş”: telefoane, decizii, scrisori, directive, interviuri
etc. Capacitatea de conducere şi stilul personal în lucrul cu oamenii se evidenŃiază astfel
printr-un test în care „itemii” sunt de aceeaşi natură şi complexitate ca munca efectivă.
Evident că aceste teste se organizează după faza interviurilor preliminare şi după examenele
psihologice cu teste clasice, prin care numărul candidaŃilor cu şanse de a fi selectaŃi pentru
post se reduce drastic.
121
psihodiagnostician bun, specializat în domeniu. Dacă la acestea adăugăm timpul mare, cerut de
aplicare şi interpretarea rezultatelor, faptul că sunt folosite doar scale nominale (raportarea
persoanei la o tipologie sau categorie) şi faptul că măsoară date ce au o mare fluctuaŃie de
moment (dependente de factori dispoziŃionali), vom înŃelege de ce entuziasmul iniŃial pentru
aceste tehnici s-a mai temperat, ele rămânând însă, pentru unele zone, singurele instrumente
diagnostice dezirabile.
• Testele obiective de personalitate sunt, ca şi cele proiective, teste indirecte pentru că-şi
deghizează scopul, dar sunt numite obiective pentru că folosesc stimuli structuraŃi (activităŃi
simple, manipulabile experimental), din execuŃia cărora se deduc aspecte relevante ale
personalităŃii, cu o mult mai mare concordanŃă între evaluatori, comparativ cu cele proiective.
Modificarea vigilităŃii (arous-ului cortical) la introverŃi şi extraverŃi este extrem de diferită,
primii având o descreştere accentuată, ceilalŃi o creştere progresivă, paralel cu concentraŃia de
cofeină. MulŃi constructori de chestionare (inventare) de personalitate s-au lăsat seduşi de
ideea găsirii unor validări externe a acestora prin teste obiective, printre aceştia numărându-se
Eysenck sau Cattell.
122
preformate. Ea se obŃine şi când numărul itemilor este mare şi scorul la test are o formulă de calcul
clar specificată.
Utilizând 3-5 criterii de clasificare dintre cele prezentate în Synopsisul de mai jos
analizaŃi şi descrieŃi următoarele teste: Draw a Man Test (testul OmuleŃului),
testul PM38 (Matrici Progressive Raven), Testul Edinburgh pentru determinarea
dominanŃei manuale, chestionarele de personalitate 16PF Cattell şi CPI
(California), scalele de Depresie Beck, de Anxietate Burns şi Locus of control
Rotter.
123
Tabel 2.5. Synopsis pentru clasificarea testelor psihometrice
Criteriu Categorii de teste
Mod de administrare Idividuale De grup
Timp de execuŃie De viteză De randament
Mod de executare a Orale Scrise De performanŃă
sarcinii (creion-hârtie)
Mod de procesare De eficienŃă De personalitate
De aptitudini Chestionare
De cunoştinŃe Tehnici proiective
Probe de lucru Teste obiective
Teste situaŃionale
ConstanŃă conŃinut ConŃinut fix ConŃinut variabil
Mod de cotare Obiective Subiective
Mod de interpretare a Normative Centrate pe Idiografice Ipsative
scorurilor criteriu
Număr de variabile Analitice Sintetice
Unifazice (chestionare) Multifazice (chestionare)
Proces psihic De inteligenŃă, de memorie, de atenŃie, de creativitate, de percepŃie, de
investigat reprezentări spaŃiale, de temperament, de caracter etc.
Categorii majore de De nivel intelectual De abilităŃi separate De personalitate
teste (Anastasi) general
U2.7. Rezumat
Deoarece scorurile brute ale unui test nu au nici o semnificaŃie prin ele însele,
acestea trebuie raportate la scorurile unui grup de referinŃă prin construirea unui
etalon sau barem.
Etalonul converteşte (transformă) cotele brute în cote standard şi permit
interpretarea unui scor în termenii poziŃiei ocupate de acesta într-o ierarhie.
Deoarece nu au valibilitate universală şi permanentă, testele trebuie revizuite şi
etalonate periodic.
Etalonarea se face pe un eşantion normativ, care trebuie să fie extins numeric,
reprezentativ pentru populaŃia Ńintă şi cu un bun raport omogenitate-eterogenitate.
Etaloanele pot fi naŃionale, zonale sau locale, la care se mai adaugă etaloanele
destinate grupurilor speciale.
Punctul de plecare în construirea unui etalon este distribuŃia scorurilor brute iar
sistemul de referinŃă curba distribuŃiei gaussiene.
Etalonarea se face fie prin transformări de arie (tranşe succesive de mărime egală
din distribuŃie), fie prin transformări liniare (unităŃi egale pe linia de distribuŃie a
scorurilor).
Cele mai tipice transformări de arie sunt operaŃiile de centilare şi decilare prin care
124
se determină punctele percentile şi decilele.
Acestea exprimă poziŃia unui scor (rangul) într-o ierarhie de scoruri.
Prin această metodă se produce şi normalizarea distribuŃiei.
Cele mai tipice transformări liniare sunt cotele standard şi cele standardizate.
Dacă primele se sprijină pe notele z (M=0, AS=1), cotele standardizate pleacă de la
acestea, dar se raportează la o scală alcătuită din numere pozitive întregi, cu o
medie şi o abatere standard predeterminate.
Cele mai utilizate şi cunoscute scale normalizate sunt cele în 9, 10 şi 11 clase
(stanine, stens şi note C) şi scala în 19 trepte.
Cele mai cunoscute scale standardizate sunt scalele T şi Hull şi scala în deviaŃii de
IQ (M=100, AS=15).
În transformările liniare relaŃiile de ordine, distanŃa dintre scoruri şi forma
distribuŃiei obŃinute sunt similare cu distribuŃia originară a scorurilor brute.
Transformările liniare presupun distribuŃii cât mai aproape de normalitate. Când
distribuŃiile largi sunt totuşi asimetrice, ele pot fi normalizate şi apoi transformate
în scoruri standard, dar acestea nu mai conservă forma distribuŃiei originare.
Există o multitudine de criterii de clasificare a testelor psihometrice.
În mare acestea pot fi abordate ca teste de aptitudini generale, aptitudini speciale şi
de personalitate.
Cele mai importante criterii de clasificare a instrumentelor psihometrice se referă
la modul lor de administrare, la timpul de execuŃie, la modul de executare a sarcinii
şi modul de procesare implicat, la constanŃa conŃinutului de la o aplicare la alta, la
modul de cotare şi de interpretare a scorurilor, la numărul de variabile implicate şi
la procesul psihic investigat.
Cea mai largă dihotomie clasificatorie este aceea a testelor de eficienŃă şi de
personalitate, fiecare categorie având mai multe subdiviziuni.
125
__________________________________________________________________
Modulul M3. Unitatea de învăŃare 3
CONSTRUCłIA ŞI DEZVOLTAREA SCALELOR PSIHOLOGICE
Cuprins
U3.1. Introducere .......................................................................................................... 126
U3.2. CompetenŃe ......................................................................................................... 126
U3.3. Paşii de urmat în dezvoltarea scalelor ................................................................. 127
U3.3.1. Pasul întâi ................................................................................................ 127
a. Recursul la o teorie valabilă ................................................................ 127
b. Nivelul de specificitate al scalei ........................................................... 130
U3.3.2. Pasul al doilea .......................................................................................... 131
a. Lungimea şi redundanŃa setului iniŃial de itemi ................................... 131
b. Reguli de scriere a itemilor unei scale ................................................. 133
U3.3.3. Pasul al treilea .......................................................................................... 135
a. Scalele Likert ........................................................................................ 136
b. Scalele Thurstone .................................................................................. 137
c. Scalele Guttman .................................................................................... 138
d. Scala de distanŃă socială Bogardus ...................................................... 139
e. Numărul optim al categoriilor de răspuns ............................................ 140
U3.3.4. Pasul al patrulea ....................................................................................... 143
U3.3.5. Pasul al cincilea ....................................................................................... 144
U3.3.6. Pasul al şaselea ........................................................................................ 145
a. Examinarea iniŃială a setului de itemi .................................................. 145
b. CorelaŃia item-scală ............................................................................. 146
c. Analiza factorială exploratorie ............................................................ 148
d. Scurt raport despre scală ...................................................................... 152
U3.4. Criterii de selecŃie pentru optimizarea lungimii scalei ......................................... 153
U3.5. Analize utile pentru determinarea fidelităŃii scalei .............................................. 154
U3.6. Rezumat ................................................................................................................ 156
U3.7. Evaluare: proiect aplicativ .................................................................................... 157
Lista de termeni .............................................................................................................. 157
U3.1. Introducere
O bună parte din activitatea practică a psihologului se sprijină pe diagnoza unor
aspecte cantitative ale aptitudinilor şi dimensiunilor definitorii pentru personalitate.
În acest scop el utilizează instrumente ale căror calităŃi psihometrice trebuie
construite şi evaluate în cunoştinŃă de cauză. În plus, pentru unele dimensiuni
psihologice, pedagogice sau sociologice specialistul trebuie să dezvolte singur
scale destinate măsurării constructelor respective. Mai mult, literatura domeniului
face adesea referiri la aceste caracteristici, considerându-se implicit valabil că
126
psihologul este avizat în legătură cu aspectele tehnice implicate de construcŃia şi
dezvoltarea scalelor psihologice.
Pe de altă parte, deşi se recunoaşte tacit că statistica este printre cele mai
importante instrumente al profesiunii de psiholog, ea determină încă o reacŃie de
rezistenŃă, sau chiar de respingere din partea novicilor, din cauza caracterului ei
abstract şi formalizat, sau a evoluŃiei sale foarte rapide, prin care demersul
matematic a devenit tot mai sofisticat, parcă anume rezervat unei elite capabile să
Ńină pasul cu ceea ce s-a numit „imperialismul metodologic” al ştiinŃei. Capitolul
pe care îl deschidem demonstrează cum o cunoaştere psihologică abstractă, de tip
statistico-matematic, devine extrem de utilă în contextul psihologic foarte concret
al construcŃiei de scale. El oferă reperele pe care psihologul, pedagogul sau
sociologul trebuie să le aibă în dezvoltarea scalelor destinate măsurării unor
constructe specifice domeniului de activitate propriu.
U3.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să definească paşii şi etapele urmate în construcŃia scalelor psihologice;
• să genereze setul iniŃial de itemi respectând regulile de scriere a acestora;
• să determine formatul scalei, selectând tipul de scală de măsură adecvat;
• să administreze, să piloteze şi să examineze performanŃa iniŃială a itemilor;
• să utilizeze analiza factorială exploratorie şi alte analize statistice pentru selecŃia
itemilor formei finale a scalei;
• să construiască un chestionar pentru o variabilă de personalitate indicată, cu
parcurgerea tuturor paşilor şi a etapelor prezentate în curs.
127
alte direcŃii, de a-i selecta şi reuni pe cei mai reprezentativi într-o scală uni- sau
multidimensională, de a determina gradul de consistenŃă internă (de omogenitate)
al fiecărei subscale, stabilitatea ei în timp sau legătura cu constructul măsurat prin
corelare cu alte scale presupuse a măsura aceeaşi dimensiune. Un astfel de demers
– tipic pentru dezvoltarea unei scale – presupune un mare consum de energie şi el
ar putea să nu fie răsplătit cu rezultatele aşteptate. Aceasta deoarece specialistul
trebuie să aibă o cunoaştere şi o conceptualizare prealabilă a domeniului care
urmează să fie investigat, fie din parcurgerea literaturii şi a teoriilor în legătură cu
problema/ dimensiunea respectivă, fie dintr-o experienŃă prealabilă, fie – şi este
cazul cel mai fericit – din amândouă direcŃiile. Prin aceasta dorim să afirmăm că
aspectele tehnice care vor fi invocate în paginile care urmează nu trebuie
supraestimate în detrimentul înŃelegerii naturii reale a conceptului sau faptului
psihologic care urmează a fi măsurat.
Recursul la teoriile cele mai consistente referitoare la acest construct este fundamentală
pentru că aceasta ne ajută şi ne ghidează în selectarea elementelor sale esenŃiale, care vor fi
ulterior transformate în itemii scalei sau ai chestionarului. Multe dintre dimensiunile şi
constructele care definesc aspecte psihice, comportamentale sau sociale sunt subtile, ambigue şi
nu îşi găsesc o expresie directă sau deplină în experienŃa de practician. De aceea este foarte
important să ne facem o idee cât mai clară despre ceea ce urmează a fi măsurat. În acest sens
teoria este de cel mai mare ajutor, pentru că ea ne ajută să dobândim o imagine consistentă asupra
aspectului ce va fi abordat psihometric. Coroborând mai multe puncte de vedere teoretice despre o
problemă se degajă elementele sale esenŃiale, dar şi neclarităŃile sau ambiguităŃile, fapt care ajută
specialistul să decidă dacă este necesară o nouă direcŃie de abordare şi să construiască o primă
schiŃă a instrumentului de măsură corespunzător.
Exemplu
Să presupunem că suntem preocupaŃi de o problemă practică, cum ar fi cea a
tulburărilor de citit-scris, şi observăm că aceasta este mult mai frecventă la băieŃi
decât la fete. Am remarcat de asemenea faptul că printre disgrafici şi dislexici
proporŃia stângacilor este de câteva ori mai mare decât în restul populaŃiei, ceea ce
ne îndreptăŃeşte să credem că aceste tulburări sunt asociate cu probleme de
lateralizare (manuală şi/sau corticală) a unor funcŃii importante. De aceea am dori
să creăm un instrument care să fie utilizat în tulburările instrumentale pentru a
diagnostica gradul de lateralizare manuală.
Literatura domeniului dominanŃei manuale atrage atenŃia asupra câtorva elemente
importante:
stângăcia poate fi ereditară sau non-ereditară, adică produsă prin alte mecanisme,
decât cel genetic, cum ar fi excesul de testosteron din primele luni de sarcină,
care inhibă dezvoltarea emisferei stângi (cel mai adesea dominantă în populaŃia
de bază) sau stângăcia accidentală, prin scoaterea din uz a mâinii dominante un
128
interval mai lung de 8 luni;
mecanismul asimetriei cerebrale are o transmitere genetică, gena LRRTM1 având
o mare contribuŃie la aceasta, ea fiind însă implicată şi în producerea
schizofreniei;
se pare că există o genă (rs după expresia lui Annett, 19729) care controlează
orientarea levogiră sau dextrogiră a unei persoane;
lateralizarea manuală se asociază strâns cu lateralizarea corticală a limbajului şi
cu dominanŃa cerebrală;
lateralizarea manuală este impusă şi de presiunile socio-culturale enorme pentru
utilizarea mâinii drepte, presiuni evidenŃiabile la aproape toate popoarele, din
toate timpurile, în unele culturi ea având şi importante conotaŃii religioase;
rata stângacilor este aproximativ constantă de-a lungul timpurilor (10% din
populaŃie), deşi de-a lungul vieŃii unei singure persoane ea pare a fi într-o
descreştere accentuată spre vârstele adulte, datorită mortalităŃii mai accentuate a
stângacilor, de unde şi speranŃa de viaŃă mai redusă a acestora;
bolile autoimune, alergiile, tulburările de somn, depresiile şi tentativele de suicid,
alături de problemele de învăŃat, balbism şi enurezis nocturn sunt mult mai
frecvente pentru stângaci;
problema lateralizării nu se pune doar pentru utilizarea preferenŃială a unei mâini,
ci şi pentru picior, hemicorp sau pentru organele de simŃ cele mai performante
(ochi şi urechi), putându-se vorbi de o lateralizare omogenă sau eterogenă
(încrucişată);
problemele de citit-scris-vorbit apar mai frevent la anumite categorii de stângaci
(lateralizare încrucişată, nefamilială, patologică etc.);
s-a avansat ideea că modul de tratare cerebrală a informaŃiei de către stângaci este
mai curând integrat-holistic şi nu analitic-discursiv ca la dreptaci, de unde şi
plusul lor de intuiŃie şi de creativitate;
stângacii se întâlnesc mult mai frecvent printre cei care urmează meserii vizuale,
şi foarte rar în cele dependente de limbă;
măsurarea gradului de lateralizare cunoaşte câteva metode10 de tip chestionar, dar
pot fi gândite şi metode bazate pe acŃiune şi observare (Annett, 1972);
dincolo de stângăcia sau de dreptăcia „tare”, există variantele lor mai moi, o
multitudine de probleme fiind asociate mai curând cu lipsa unei lateralizări
ferme, decât cu stângăcia în sine;
stângăcia pare să aibă efecte dezadaptative şcolar mult mai mari printre elevii de
gen masculin decât printre cei de gen feminin.
9
Annett, M. (1992). Spatial ability in subgroups of left- and right-handers. In British Journal of Psyuchology, 83, pp.
493-515.
10
Oldfield, 1971: Edinburgh Handedness Questionnaire; Annett, 1970: Laterality tests and interests.
129
Din toată această masă de informaŃii şi din altele de acelaşi tip trebuie extrasă cea de
interes pentru scopurile scalei ce va fi construită. OperaŃionalizarea enormei mase de informaŃii
despre stângaci şi stângăcie înseamnă traducerea acesteia într-o formă care să poată fi măsurată, în
cazul de faŃă sub forma itemilor unui chestionar sau a unor probe practice care vor compune itemii
unui test de lateralitate. Aşa cum se observă, unele dintre informaŃiile de mai sus par a fi mai
importante decât altele, având rolul de a ghida întregul demers de construcŃie a scalei. Mergând de
exemplu pe modelul genetic al lui Annett vom putea determina opt categorii referitoare la
lateralitatea manuală. Dacă se are în vedere problema omogenităŃii/eterogenităŃii lateralizătii va
trebui să se generăm şi să se includă în scală itemi legaŃi de preferinŃa pentru membrele
inferioare, pentru ochi, ureche, hemicorp. Dacă se ia în calcul dimensiunea ereditară a stângăciei
vom include itemi legaŃi de frecvenŃa acestei particularităŃi printre rudele apropiate, iar dacă avem
în vedere dimensiunea ei evolutivă pe scala vârstelor vom include itemi care să distingă între
manifestările timpurii şi cele ulterioare ale stângăciei.
130
înregistrare este unul precis. Mai mult, se operaŃionalizează bine problema
lateralizării pentru sarcinile motrice grosiere şi pentru cele de fineŃe, ambele sarcini
putând fi agregate într-un concludent Indice motric.
De această cerinŃă a specificităŃii scalei se leagă şi problema a ce includem în ea
pentru a fi măsurat. În cazul de mai sus distincŃia este evidentă: itemii sunt de tip
autoraportare (primul exemplu), rezultaŃi din observaŃie (al doilea exemplu) sau
rezultaŃi din măsurarea efectivă a unor comportamente induse (al treilea exemplu).
Dacă am alcătui o scală care amestecă cele trei maniere de obŃinere a itemilor ar
rezulta probabil un instrument compozit, eterogen şi deci mai puŃin maniabil.
Problema se referă însă nu numai la cum sunt produşi itemii, ci şi la conŃinutul lor. De
exemplu, dacă concepem anxietatea ca pe un fenomen psihic (o teamă difuză, fără obiect) nu are
rost să amestecăm elemente somatice într-o fenomenologie psiho-comportamentală. Dar dacă am
relevat conotaŃiile psihosomatice ale acesteia, putem concepe şi operaŃionaliza anxietatea mult mai
nuanŃat, dintr-o componentă afectivă, una cognitivă şi una somatică, aşa cum a procedat Burns în
chestionarul său. Acesta şi-a construit Inventarul de anxietate astfel încât indicele global obŃinut
să fie o expresie a sentimentelor anxioase, a gândurilor anxioase şi a simptomelor anxioase de
ordin fiziologic. Această perspectivă asupra anxietăŃii este mult mai nuanŃată şi mai utilă într-o
cercetare despre stres decât una care ar evalua doar aspectele cognitive sau afective ale anxietăŃii.
Pe de altă parte, într-un chestionar de scheme cognitive anxioase ar trebui respectată reŃeta
cognitivistă de abordare, fiind eliminate referirile somatice la anxietate, în favoarea cogniŃiilor
patologice.
131
şcolară sau la locul de muncă, complianŃă, identitate sexuală, satisfacŃie maritală
etc. sunt concepte vagi, care au nevoie de un cadru teoretic care să le clarifice, dar
şi de o bună experienŃă pentru a genera itemii care să le surprindă esenŃa.
Exemple
„Nu am nici un fel de jenă în a aborda persoane necunoscute” şi „Îmi vine uşor să
intru în vorbă cu persoane necunoscute” sunt enunŃuri foarte similare, deoarece au
în vedere dimensiunea inhibiŃiei, definitorie pentru fobia socială. DiferenŃele nu
sunt însă pe sensul principal al enunŃurilor, ci pe conotaŃiile rezultate din modul de
exprimare al ideii: în prima situaŃie propoziŃia începe negativ, în a doua afirmativ;
în prima cuvântul jenă are şi conotaŃii etice („fără ruşine”), ceea ce nu este cazul în
ceade a doua; în prima formulare a aborda este mai pretenŃios decât mai familiarul
a intra în vorbă. Nu ştim însă care dintre cele două formulări este cea mai bună şi
de aceea le putem include în forma iniŃială a scalei, urmând să amânăm decizia
legată de selecŃia celui mai bun item până la prelucrarea datelor rezultate din
aplicarea instrumentului.
O regulă spune că putem tolera o oarecare redundanŃă în faza finală de construcŃie a unei
scale, deşi teoretic este permisă mai multă redundanŃă în faza iniŃială decât în cea finală, pentru a
da ocazia constructorului scalei să-şi manifeste preferinŃele şi să selecteze forma mai bună a
itemilor redundanŃi. Problema redundanŃei angajează direct o problemă la fel de importantă, cea a
numărului de itemi care compun setul iniŃial. Se ştie că un atribut fundamental al unei scale bune
este consistenŃa internă ridicată, aceasta fiind dependentă de două lucruri: de gradul de corelare al
fiecărui item cu scorul final la constructul măsurat şi de numărul de itemi ai scalei. De aceea
putem afirma că, cu cât un set iniŃial de itemi este mai larg, cu atât este mai bine, deoarece avem
de unde selecta. Trebuie ştiut însă şi faptul că un set iniŃial de itemi prea extins, dintre care mulŃi
132
se repetă, poate genera consumuri de timp suplimentare, sau chiar plictiseală, putând compromite
sinceritatea şi autenticitatea răspunsurilor. De aceea cercetătorul poate elimina din start itemii
neclari, cu relevanŃă scăzută sau cu prea multă similaritate, pentru a rămâne în final la un set iniŃial
rezonabil, pe care să-l aplice într-o singură şedinŃă, pentru a nu avea prea multă „moarte
experimentală”.
Deşi nu există reguli fixe, paritatea dintre lotul iniŃial de itemi şi cel final poate fi de de 4/1
sau 3/1 (30-40 de itemi iniŃiali pentru o scală de 10 itemi) sau, cel mai adesea de 2/1, atunci când
itemii sunt construiŃi cu grijă şi cu o bună cunoaştere a constructului măsurat. Deoarece forma
iniŃială depinde de cea finală, cât de lungă trebuie să fie o scală pentru a avea calităŃi psihometrice
bune? Este un răspuns dificil de furnizat, deoarece fiecare item poate fi considerat ca o singură
scală şi există chiar scale alcătuite dintr-un singur item.14 În mod obişnuit, cu cât o scală are mai
mulŃi itemi, cu atât mai mult ea poate dispune de calităŃi psihometrice (fidelitate, validitate,
sensibilitate) mai bune; 50-60 de itemi pentru o scală unidimensională reprezintă limita de sus, iar
10-20 de itemi limita de jos. Scalele sub 10 itemi pot fi utile instrumente de screening, dar nu
diferenŃiază decât grosier între subiecŃi, pe când scalele lungi dau diferenŃieri de mai mare fineŃe.
133
Să ne reamintim...
Deşi este foarte greu de fixat reguli precise dăm mai jos câteva caracteristici ale
itemilor buni şi răi, indicând şi cele mai frecvente erori care pot apărea în scrierea
acestora.
• Deşi nu este indicat să sacrificăm înŃelesul itemilor în favoarea scurtimii lor se
recomandă ca itemii să fie scurŃi şi clari. Putem formula acelaşi item astfel: „La
o petrecere reŃin cu uşurinŃă chipurile şi numele musafirilor”; „Îmi trebuie destul
de mult timp şi am adesea mari probleme în a memora de la prima întâlnire
numele sau chipurile invitaŃilor la o petrecere mai mare”. Al doilea enunŃ este de
evitat pentru că este lung şi neclar, pentru că introduce termenii destul de mult şi
mai mare, care sunt vagi.
• Nivelul de dificultate al citirii la care sunt scrişi itemii este de asemenea
important. Iată doi itemi din Miller Marital Locus of Control: „Adesea găsesc
comportamentul soŃului meu nepredictibil”; „Când suntem în conflict, soŃul meu
este acela care reconciliază cel mai adesea situaŃia”. Cuvintele nepredictibil şi
reconciliază Ńin de un nivel mai ridicat de cultură, fiind pretenŃioase în raport cu
omul comun. Deşi există o mulŃime de metode de a determina vârsta lecturii, s-a
căzut de acord că nivelul de lectură al omului care citeşte ziarul este
corespunzător clasei a şasea (12 -13 ani). Multe chestionare de personalitate
(MMPI, CPI, NEO PI-R) presupun o vârstă a lecturii tipică acestui nivel,
fenomen de care dacă nu Ńinem seama, reducem spectrul de utilizare al unui
instrument doar la anumite categorii de persoane. O propoziŃie de lungime medie
pentru clasa a şasea are între 14 - 18 cuvinte şi 24 de silabe; pentru clasa a şaptea
ea are 18 cuvinte şi 28 de silabe. Pentru majoritatea instrumentelor care aspiră
spre o utilizare extensivă în populaŃie nivelul de lectură anticipat este între clasa
a cincea şi a şasea. Dificultatea citirii şi înŃelegerii unui text provine nu numai
din lungimea sa, ci şi din caracteristicile sintactice şi semantice ale itemului.
• Cele mai frecvente erori de evitat sunt negaŃia, dubla negaŃie şi enunŃurile dublu
încapsulate (cu dublă determinare). De exemplu formularea „Nu-mi place să nu-
mi fac temele” trebuie evitată, pentru că răspunsul solicită un efort de analiză
mare iar rezultatul final este nesigur. De fapt şi negaŃia simplă creează probleme
de claritate: la itemul „Nu-mi plac rromii” răspunsul “Nu” poate să semnifice
simultan acordul (nu, nu-mi plac) sau dezacordul (nu sunt de acord cu propoziŃia
respectivă). Dubla determinare este mai greu de sesizat. „Mă enervează la culme
invidia şi dorinŃa de răzbunare a oamenilor” pune respondentul în dificultate
atunci când sursa enervării sale este ori numai invidia, ori numai dorinŃa de
răzbunare. Scorul pozitiv la acest item nu distinge dacă prima, a doua sau ambele
determinări trebuie să fie prezente pentru a răspunde afirmativ la itemul
respectiv. Alt exemplu: „Sprijin drepturile rromilor pentru că discriminarea este
un păcat pedepsit de Dumnezeu”. Pot să sprijin drepturile rromilor pentru că
134
discriminarea este împotriva valorilor democraŃiei, pe care eu le apăr, şi nu
pentru ea că este un păcat pedepsit de instanŃa divină.
• Trebuie evitate pe cât se poate erorile de formulare care produc ambiguitate.
„ReprezentanŃii noştri din guvern ar trebui să susŃină cu mai mulŃi bani
cercetarea ştiinŃifică” induce confuzie din cauza pronumelui noştri: se referă la
noi ca popor, la noi ca grup de partid sau la noi, cei din sistemul de învăŃământ?
Alteori confuzia pleacă de la utilizarea formei adjectivale în locul substantivului:
„Tratamentul diabetului trebuie să fie o prioritate a sistemului de sănătate” sună
mai bine şi mai clar decât „Tratamentul diabeticilor trebuie să fie o prioritate a
sistemului de sănătate”, pentru că un sistem de sănătate se luptă cu boala la
modul cel mai general, şi abia în secundar cu cei care i-au căzut deja victimă. La
aceste surse de ambiguitate se mai adaugă şi propoziŃiile cu dublu înŃeles.
„Guvernul N. a dat în primire corect gestiunea Ńării” poate produce multă ilaritate
şi confuzie printre respondenŃi din cauza sintagmei a da în primire care în jargon
înseamnă a muri.
• PropoziŃii cu conŃinut pozitiv şi negativ prezente în aceeaşi scală constituie o
precauŃie necesară pentru a evita distorsionarea răspunsurilor subiectului prin
nevoia de conformism, de a fi de acord sau de a consimŃi. În chestionarul de
Stimă de sine (RSE) al lui Rosenberg (1965) propoziŃia „Aş vrea să am mai mult
respect pentru mine” este urmată de „Uneori mă simt inutil”, ambele afirmative
ca formă, dar una cu conŃinut pozitiv, celaltă negativ. Acest lucru obligă
respondentul să evalueze cu atenŃie fiecare item înainte de a da un răspuns, ceea
ce duce la evitarea tendinŃelor de contaminare pe care l-ar produce formularea
exclusiv pozitivă a itemilor. DeVellis şi Callahan (1993)15 remarcă faptul că
această precauŃiune de a introduce itemi cu polaritate inversă, negativă, are un
preŃ, deoarece se poate produce o confuzie (mai ales în cazul chestionarelor
lungi) între gradul de acord al respondentului şi conŃinutul itemului, fără a mai
Ńine cont de polaritatea negativă şi de exprimarea tăriei atributului măsurat.
Concluzia este aceea că itemii formulaŃi în direcŃie opusă au performanŃe mai
slabe decât cei cu orientare directă şi că dezavantajele includerii lor în scală
atârnă mai greu decât presupusele beneficii. SoluŃia este, mai ales pentru
chestionarele mai lungi, ca numărul acestor itemi să fie mai mic decât cei
formulaŃi pozitiv, dar să fie diseminaŃi printre aceştia.
135
ceea ce permite însumarea lor cu scoruri egale, rezultatul fiind chiar indexul. În sens foarte larg, o
scală este un set de numere ori de alte simboluri utilizate pentru a desemna caracteristici ale unei
variabile şi care este utilizată pentru măsurare. Numerele de pe un termometru sau cuvintele „mic”
„mediu” şi „mare” de pe cutia de aer condiŃionat sunt scale. Vogt (1999, p. 256) distinge şi un
înŃeles mai special al cuvântului scală, care este „... un grup de măsuri relaŃionate cu o variabilă.
Itemii dintr-o scală sunt aranjaŃi într-o anumită ordine a intensităŃii sau a importanŃei lor.”16
a. Scalele Likert
Sunt cele mai larg utilizate în ştiinŃele sociale pentru determinarea atitudinilor datorită
faptului că sunt uşor de construit şi tind să aibă o mare fidelitate, ele fiind potrivite şi pentru
construcute multidimensionale. Răspunsurile respondentului sunt gradate de la Puternic de acord,
De acord, Nici acord, nici dezacord, Dezacord, Dezacord puternic. Tipul de expresii verbale
pentru a măsura intensitatea poate varia considerabil, subiecŃii putând fi chestionaŃi dacă aprobă în
totalitate, aprobă parŃial, dezaprobă uşor, dezaprobă în totalitate. Deoarece scalele Likert sunt
destinate opiniilor, atitudinilor şi credinŃelor, apare o problemă legată de alegerea răspunsurilor
potrivite pentru categoriile extreme, care nu trebuie să fie de genul întotdeauna sau niciodată,
pentru că aceste situaŃii se întâlnesc destul de rar în viaŃa reală. În consecinŃă, ele vor fi alese cât
mai rar, pentru a nu contribui prin aceasta la descreşterea variabilităŃii scorurilor pentru itemul
respectiv. De fapt, scalele Likert au o interesantă caracteristică, rezultată din faptul că ele au două
modalităŃi de a grada intensitatea constructului respectiv pentru populaŃia studiată. Una Ńine chiar
de modalităŃile de gradare a acordului/dezacordului din variantele de răspuns propuse, fapt de care
am vorbit deja; o a doua modalitate Ńine de tăria/slăbiciunea modului cum este exprimat itemul
însuşi.
Exemplu
Opinia despre politicienii români post-decembrişti ar putea fi exprimată la trei
niveluri de tărie („duritate”):
1. Dezastrul moral şi economic din România post-revoluŃionară este integral opera
politicienilor incompetenŃi pe care i-am avut.
2. Neavând o clasă politică constituită în timp, liderii politici ai României post-
revoluŃionare au întârziat reformarea economică şi socială a Ńării din cauza greşelilor
provocate de lipsa lor de experienŃă.
3. În pofida unor greşeli cauzate de lipsa de experienŃă, politicienii români sunt pe cale
să construiască o democraŃie reală în România post-revoluŃionară.
Cum tendinŃa obişnuită a majorităŃii oamenilor este aceea de nu fi – din bun simŃ –
prea ofensiv-agresivi, prima afirmaŃie ar putea discrimina doar printre cazurile
extreme, deoarece este una foarte tare. Ultima afirmaŃie, care este cea mai moale şi
mai împăciuitoristă, având un caracter mai agreabil, ar putea conveni majorităŃii
oamenilor, dar ar putea indica mai mult lipsa opiniei, decât prezenŃa ei. Ori o
cercetare caută mai curând ceea ce este şi se manifestă (prezenŃa), decât ceea ce nu
este (absenŃa).
136
Aşadar, este o iluzie să credem că un item poate baleia întreg spectrul unei opinii în unităŃi
de lungime egală. Avem doar posibilitatea ca, din combinarea tăriei/slăbiciunii modului de
formulare a itemilor şi din tipurile de gradaŃii de pe scala de răspuns folosită să „centrăm” itemul
pentru zona populaŃională şi pe problema care ne interesează. Itemul trebuie să răspundă la
întrebarea: „Cum sunt dispuşi să răspundă oamenii la diferitele intensităŃi sau tării ale
constructului măsurat prin acest item?”
Exemple
Prezentăm mai jos două exemple de itemi construiŃi pe scala Likert.
Prin sistemul reformei de la Bologna, învăŃământul românesc s-a integrat bine în
învăŃământul european.
1. Dezacord 2. Dezacord 3. Dezacord 4. Acord 5. Acord 6. Acord
puternic moderat uşor uşor moderat puternic
b. Scalele Thurstone
Modalitate complexă, rafinată şi dificilă de a construi itemii unei scale, iniŃiată de
Thurstone, acest tip de scală şi-a pierdut mult din relevanŃă în favoarea scalelor Likert. În principiu
eleganŃa şi dificultatea metodei vine din pre-calibrarea itemilor şi asamblarea lor pentru a răspunde
la niveluri distincte de prezenŃă în item a atributului sau a constructului măsurat. De regulă, în
acest tip de scală răspunsurile nu mai au o multitudine de nuanŃe, deoarece gradarea intensităŃii
este pe verticală (mai mulŃi itemi asamblaŃi pe o aceeaşi coloană în funcŃie de mărimea progresivă
a atributului măsurat), şi nu pe orizontală (modalităŃi din ce în ce mai accentuate ale intensităŃii
sau frecvenŃei atributului la un singur item, tipic pentru scala Likert). Astfel, pentru aceeaşi idee se
generează mai mulŃi itemi (care au formulări diferite) care să reprezinte intervale egale de-a lungul
unui continuum vertical, ceea ce conferă scalei proprietăŃi matematice remarcabile, pentru că se
pretează la tratamente statistice tipice scalelor de interval. Nunaly (1978) susŃine că este
incomparabil mai uşor să explici principul unei scale Thurstone decât să o construieşti. A găsi
itemi care să „rezoneze” la intervale egale cu constructul măsurat (ca un diapazon acordat pe o
anumită frecvenŃă) este destul de dificil. Acest deziderat exprimat de scalele Thurstone şi-a găsit
totuşi o manieră de rezolvare prin Teoria răspunsului la itemi, unde calibrarea acestora urmăreşte
totuşi un cu totul alt demers. Prezentăm mai jos două răspunsuri tipice pentru scala Thurstone.
Exemplul 1
1. Când un elev are dificultăŃi de învăŃare, profesorii:
Adevărat Fals
Îl insultă
Îl critică sau ironizează
Îi întrerup răspunsul
137
Nu au nici o reacŃie
Îi explică suplimentar
Îl încurajează
Fac cu el pregătire după ore
Exemplul 2
a. Faptul de a termina cu medie mare şcoala şi de a prinde un liceu bun este tot ce-mi
doresc ca răsplată de la copilul meu. Acord ........................ Dezacord ...........................
b. Pentru mine ca părinte cea mai mare răsplată din partea copilului este să fie sănătos şi să
meargă la şcoală. Acord ........................ Dezacord ..........................
c. Fericirea copilului meu nu are nimic de-a face cu ceea ce el dobândeşte prin educaŃia
şcolară. Acord ........................ Dezacord ..........................
c. Scalele Guttman
Acestea sunt un tip de scală creat de Louis Guttman. Original ea a fost destinată să fie
utilizată după ce datele au fost colectate, pentru a vedea dacă itemii dintr-un index pot fi aranjaŃi
într-o scală în funcŃie de tăria sau de puterea lor.
Exemplu
Într-o cercetare despre avorturi itemii unui chestionar pot fi aranjaŃi ierarhic ca
intensitate astfel:
AŃi fi de acord ca femeia să facă avort dacă:
1. Ea nu mai doreşte să aibă copii.
2. Este prea săracă pentru a se putea ocupa în mod adecvat de copil.
3. Fătul are o boală genetică gravă sau este malformat.
4. A nu face avort ar periclita viaŃa proprie a femeii.
138
Scalele Guttman sunt foarte utile şi indicate pentru informaŃiile obiective sau în situaŃiile în
care este logic necesar ca, dacă ai răspuns afirmativ la un anumit nivel dintr-o ierahie, aceasta
înseamnă să faci acelaşi lucru şi pentru nivelurile inferioare ale ierarhiei.
Exemplu
De exemplu, la întrebarea dacă fumaŃi, variantele de răspuns pot fi organizate
ierarhic astfel: nu fumez deloc; fumez sub 10 Ńigări pe zi; fumez sub 20 de Ńigări pe
zi; fumez sub 30 de Ńigări pe zi; fumez mai mult de 30 de Ńigări pe zi. Variantele de
răspuns sunt aranjate astfel că nivelul la care este prezent atributul este indicat de
cel mai de sus item la care subiectul a dat un răspuns afirmativ, cei de sub el fiind
şi ei implicit afirmativi (deoarece reprezintă niveluri mai scăzute ale atributului).
Deci această scală presupune o gradaŃie şi decelarea punctului critic în care răspunsul
afirmativ devine negativ. Dacă pentru informaŃiile obiective scala Guttman este foarte indicată,
pentru alte categorii de fenomene este mai dificil de ordonat răspunsurile într-o manieră uniformă
pentru toŃi indivizii, fapt care limitează utilizarea acestui tip de scală. Pentru situaŃiile în care
ordonarea itemilor este importantă, modelele bazate pe teoria răspunsului la itemi par a oferi
soluŃii mai adecvate.
Exemplu
Prezentă mai jos doi dintre itemii scalei de depresie Beck (BDI), asamblaŃi pe o
scală Guttman.
A. TRISTEłE
1. Nu mă simt trist.
2. Mă simt trist.
3. Sunt trist tot timpul şi nu pot scăpa de tristeŃe.
4. Sunt atât de trist şi de nefericit încât nu mai pot suporta.
B. PESIMISM
1. Viitorul nu mă descurajează.
2. Mă simt descurajat când mă gândesc la viitor.
3. Simt că nu am ce aştepta de la viitor.
4. Simt că viitorul este fără speranŃă şi nimic nu se mai poate îndrepta.
139
PopulaŃiile pot fi comparate simultan trecând pe verticală categoriile de proximitate iar pe
orizontală populaŃiile ce vor fi comparate: negri, latino, europeni, asiatici, sau turci, evrei,
polonezi, spanioli etc., pentru America. Sau români, maghiari, saşi, Ńigani, ruteni etc. pentru
România. Evident, distanŃele studiate sunt unele sociale şi nu fizice, dar exprimarea în termeni
fizici a acestora este judicioasă. Acest tip de scală permite compararea atitudinilor grupurilor faŃă
de alte grupuri deoarece enunŃurile despre obiectul social studiat pot să fie astfel clasate pentru a
indica fie proximitatea, fie distanŃa. „Scalele construite în acest fel dau rezultate în acelaşi timp
interesante şi valide” apreciază Laurens şi Moscovici (op. cit., p. 391).
140
deoarece este strâns legată de oscilaŃiile reale ale prezenŃei constructului măsurat în item, şi dintr-o
parte rea, numită eroare. Deoarece creştarea variabilităŃii pe scalele cu număr mare de variante de
răspuns se face în contul erorii, şi nu al variabilităŃii sistematice, nu este indicat să avem prea
multe valori de scor. Numărul acestora este impus finalmente de abilitatea respondenŃilor de a
discrimina semnificativ între variantele de scor propuse pentru fiecare item. Această capacitate
depinde şi de aranjarea în pagină a variantelor de răspuns asfel încât acestea să sugereze un
continuum.
Exemplu
Astfel secvenŃa de mai jos sugerează bine un continuu temporal, divizat în unităŃi
discrete de tipul frecvenŃei de apariŃie.
Aproape niciodată Rareori Din când în când Deseori Aproape mereu
O problemă importantă este dacă optăm pentru un număr impar de categorii de răspuns,
ceea ce în principiu este bine, pentru că se creează o anumită simetrie în jurul unui punct zero
natural. Acest fapt oferă însă de multe ori indecişilor posibilitatea refugierii în răspunsul evaziv
din mijloc. Numărul par sau impar de opŃiuni este mai puŃin important decât modul cum sunt
aranjate variantele de răspuns astfel ca distanŃele dintre ele să fie aproximativ egale pentru a
exprima gradul de acord sau de dezacord. Aceasta pentru că datele vor fi codificate numeric prin
cifre (1, 2, 3, 4, 5 pentru cinci variante de răspuns, de la foarte puŃin sau deloc, la foarte mult sau
în întregime, ori invers 7, 6, 5, 4, 3, 2, 1 pentru o scală care începe de exemplu cu totdeauna şi se
termină cu niciodată). Se poate construi astfel un continuum divizat într-un număr de trepte (3-7
trepte), de la dezacordul total, la acordul deplin sau invers.
În legătură cu punctul de simetrie din mijloc, el poate avea semnificaŃii diferite. Astfel nici
acord, nici dezacord indică mai curând o atitudine apatică, pe când la fel de mult acord şi
dezacord sugerează o atracŃie egală faŃă de ambele variante de răspuns. Deci, în cazul numărului
impar de variante de răspuns trebuie să controlăm ca subiectul să nu selecteze varianta neutră doar
pentru a evita o alegere, oferind astfel un răspuns echivoc, cu o valoare discutabilă. În majoritatea
situaŃiilor cercetătorul încearcă să evite echivocul punctului central şi să forŃeze o alegere clară,
dar trebuie spus că opŃiunea pentru variante pare/impare de răspuns este funcŃie de întrebare, de
răspus şi de scopul investigaŃiei. Într-o cercetare cu două variante extreme de răspuns (ce situaŃii
preferi: pe cele plicticoase?; pe cele primejdioase?) introducerea variantei de răspuns între cele
două poate fi pe deplin justificată, subiecŃii neputând alege întotdeauna între situaŃii atât de
tranşant delimitate.
141
LiniuŃele (de regulă 7 sau 9) reconstituie un continuu între polii definiŃi de cele două
adjective, subiectul marcând cu un X punctul de pe acest continuu pe care el crede că se află
membrii categoriei respective, după care trece la ratingul următoarei perechi de adjective, până la
epuizarea întregii liste. Prin prelucrarea separată pe fiecare pereche de adjective se poate obŃine un
portret robot al grupului respectiv. Deoarece acest tip de scală are foarte multe din caracteristicile
necesare unor prelucrări matematice riguroase, finalmente itemii valoroşi care au fost selectaŃi pot
fi asamblaŃi într-o scală omogenă (de onestitate, de competenŃă, de moralitate etc.).
Deşi pare seducător, acest tip de scală are destul de multe dezavantaje. De multe ori
precizia sa este o falsă precizie, marcarea punctului pe linie implicând şi o doză de hazard sau de
circumstanŃialitate. Un subiect va distinge cu greu între o frică de 6,7 cm de una de 6,5 cm. Mai
mult, asignarea valorilor scalei poate fi una idiosincratică, adică distanŃele marcate să aibă
semnificaŃii diferite de la un subiect la altul sau la acelaşi subiect la perioade de timp diferite.
Şi totuşi, aceasta poate fi un tip de măsurare foarte utilă atunci când cercetările se fac pe
acelaşi subiect pentru a măsura diferenŃele pe care tratamentul experimental le poate aduce în
tratarea fobiilor, în creşterea nivelului de motivaŃie sau în alte direcŃii. Astfel, dacă scala Likert
împarte un continuu într-un număr finit şi mic de categorii, fiind foarte maniabilă, dar mai puŃin
sensibilă, scala analogului vizual poate fi sensibilă la diferenŃe mici: dacă răspunsurile la post-
manipulare se depărtează semnificativ şi în aceeaşi direcŃie în raport cu faza de pre-manipulare, se
pot detecta diferenŃele mici pe care le-a adus tratamentul experimental. Scala poate fi folosită şi ca
una alcătuită dintr-un singur item, caz în care nu se mai poate distinge cu claritate între
instabilitatea măsurătorii şi instabilitatea fenomenului măsurat. Prin urmare, cea mai bună strategie
ar fi aceea de a dezvolta mai multe măsurătorii de tipul analogului vizual pentru acelaşi fenomen,
de a le asambla într-o scală şi de a-i determina consistenŃa internă (stabilitatea).
O ultimă problemă este cea legată de cadrul temporal la care pot face sau nu referire
itemii unei scale. Preluând distincŃia pe care a făcut-o Cattell în legătură cu unele dispoziŃii de
personalitate care au un caracter situaŃional, în timp ce altele reprezintă structuri stabile de
personalitate numite trăsături, Spielberger a dezvoltat scala STAI, în fapt o măsură a anxietăŃii ca
stare (conjuncturală) şi ca trăsătură de personalitate (stabilă). Se ştie de asemenea că multe
componente ale personalităŃii au mai multă sau mai puŃină stabilitate pe axa timpului:
142
fenomenologia afectivă de exemplu (emoŃie, anxietate, depresie) este mai fluctuantă decât cea
cognitivă (inteligenŃă, memorie).
O scală trebuie să facă referinŃe şi la dimensiunea temporală? Răspunsul este nuanŃat:
dacă constructul măsurat are o variabilitate temporală mare răspunsul este Da, dacă el este stabil în
timp (cazul trăsăturilor de personalitate) răspunsul este Nu. Astfel, chestionarul de depresie Burns
se aplică periodic pacienŃilor depresivi pentru a monitoriza evoluŃia depresiei lor în timp. Multe
chestionare care urmăresc aspecte fluctuante menŃionează în instructaj formule de tipul în ultima
lună, în ultima săptămână, în ultimele zile, în ultimul timp etc. Unele chestionare includ itemi
destinaŃi detectării modificărilor de dispoziŃie apărute recent (un eveniment stresant) sau pe
perioade mai lungi de timp (reforma post-revoluŃie, intrarea Ńării în NATO etc.). Chiar formatul de
răspuns al itemilor poate avea în vedere decuparea continuumului temporal în unităŃi mai mici
(uneori, din când în când, des, în ultimul timp etc.).
Exemple
• Sandra Bem (BSRI, 1976), a inclus o scală de dezirabilitate socială ca tampon
între itemii care măsoară masculinitatea şi cei care măsoară feminitatea. Eysenck
a inclus în EPI (Eysenck Personality Inventory) o scală de minciună, devenită
ulterior o scală de dezirabilitate socială în EPQ (Eysenck Personality
Questionnaire).
• În forma veche, dar şi în cea revizuită a MMPI (Minnesota Multiphasic
Personality Inventory) Hathaway şi McKinley au propus mai multe scale de
validare, care sunt primele ce vor fi evaluate de psiholog pentru a determina de
cât credit se poate bucura profilul unui respondent. Problema validării se poate
rezolva fie construind scale anume destinate acestui scop, fie preluând unele deja
existente pentru a le insera în chestionar pe post de distractor şi de mijloc de
control.
143
scalei, în raport cu constructul măsurat;
• claritatea, conciziunea şi alte elemente legate de modul de formulare al
itemilor;
• evidenŃierea fenomenelor sau a caracteristicilor importante asociate cu
constructul ce va fi măsurat care nu s-au materializat în itemi corespunzători, setul
iniŃial trebuind deci augmentat cu noi itemi.
144
U3.3.6. Pasul al şaselea: evaluarea itemilor din setul iniŃial
OperaŃiunile descrise la acest nivel sunt cele mai tehnice şi constituie inima întregului
proces de construcŃie al scalelor.
Pentru datele introduse în calculator în format de scală Likert, cea mai convenabilă soluŃie
este scorarea inversă a itemilor care ne interesează după formula: Nou = (x+1) - vechi. De
exemplu, aplicând formula de mai sus pentru o scală cu 7 trepte, 7 devine 1, 6 devine 2 etc., iar 1
devine 7. În SPSS există şi opŃiunea Recode into the same variable, prin care vechea variabilă
este înlocuită cu cea rezultată după scorarea inversă. Avantajul este acela că se poate face
transformarea simultană, în bloc, a tuturor variabilelor de acelaşi format (cu acelaşi număr de
categorii de răspuns, definite în acelaşi fel).
Pentru că nu suntem întotdeauna siguri dacă rezultatul obŃinut prin scorare inversă este mai
bun decât cel precedent, este bine să lucrăm pe o copie a fişierului sursă, copie numită de exemplu
„Itemi inversaŃi”. Nu întotdeauna inversarea scorării, urmată de refacerea matricii de intercorelaŃii,
145
rezolvă problema unui item. Este posibil ca el să fie corelat pozitiv cu unii dintre itemi şi negativ
cu alŃii, deoarece el poate fi expresie a unui alt construct. În acest caz soluŃia potrivită este
eliminarea itemului respectiv, pentru a nu periclita omogenitatea de ansamblu a scalei.
b. CorelaŃia item-scală
În SPSS procedeul de lucru pentru acest tip de analiză este relativ simplu, deoarece se
urmează următoarea secvenŃă: Analyse→Scale→Reliability→Alfa→Statistics, de unde se
activează Item, Scale; Scale if item deleted (scala, dacă itemul ar fi înlăturat).
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Mean Std Dev Cases
1. CEDA001 .1500 .3601 60.0
2. CEDA002 .1833 .3902 60.0
3. CEDA003 .1167 .3237 60.0
4. CEDA004 .3833 .4903 60.0
5. CEDA005 .1667 .3758 60.0
6. CEDA006 .5333 .5031 60.0
7. CEDA007 .3500 .4810 60.0
8. CEDA008 .3167 .4691 60.0
9. CEDA009 .4667 .5031 60.0
10. CEDA010 .1500 .3601 60.0
……………………………………………………………………………………………………………
146
Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Alfa
if Item if Item Total if Item
Deleted Deleted Correlation Deleted
CEDA001 28.7500 133.4788 .2944 .8785
CEDA002 28.7167 133.4607 .2712 .8787
CEDA003 28.7833 135.0879 .1149 .8799
CEDA004 28.5167 133.4065 .2128 .8793
CEDA005 28.7333 133.1141 .3231 .8782
CEDA006 28.3667 136.6429 -.0713 .8825
CEDA007 28.5500 132.9975 .2550 .8788
CEDA008 28.5833 132.4845 .3105 .8782
CEDA009 28.4333 132.6226 .2746 .8786
CEDA010 28.7500 131.9534 .4804 .8770
……………………………………………………………………………................................................
Reliability Coefficients
N of Cases = 165 N of Items = 112
Alfa = .8800
……………………………………………………………………………………………………………
Figura U3.2. Outputurile rezultate din comenzile prezentate mai sus.
Fiecare dintre fragmentele de output de mai sus trebuie examinate cu mare atenŃie. Primul
element investigat este varianŃa itemilor, pentru că de aceasta depinde finalmente variabilitatea
întregii scale. Dacă toŃi indivizii investigaŃi ar răspunde doar într-un singur fel la un item, varianŃa
(variabilitatea) sa ar fi zero, el nefiind de nici un folos în surprinderea constructului de măsurat.
Cum unii subiecŃi răspund într-un fel, iar alŃii în altul, fiecare item are variabilităŃi mai mari sau
mai mici: cei mai dezirabili sunt cei cu variabilitate mare. În cazul de mai sus, itemii cu cea mai
mare variabilitate sunt în ordine 6, 9, 4, 7 şi 8, care au o abatere standard în jur de 0,50.
ExperienŃa statistică ne arată că este mai bine să nu examinăm abaterea standard separat,
făcând abstracŃie de medie. În principiu, cu cât aceasta este mai apropiată de centrul intervalului
de răspuns, cu atât este mai bine, pentru că ea va face posibilă mai multă variabilitate a itemului.
În condiŃiile în care la stânga au fost plasaŃi descriptorii pentru dezacord şi la dreapta pentru acord,
dacă media este asimetrică spre dreapta (negativ) înseamnă că majoritatea respondenŃilor au Ńinut
să fie de acord cu conŃinutul itemului respectiv, deci el a fost formulat „moale”; dacă asimetria
este spre stânga (pozitivă) înseamnă că majoritatea şi-a exprimat dezacordul cu conŃinutul itemului
(formulare sa a fost cam „tare”).
În cazurile de asimetrie se ştie de asemenea faptul că puterea discriminativă a itemului este
mai mare pe „coada” (creoda) curbei gaussiene şi mai mică pe ramura sa mai scurtă. Cum o
distribuŃie simetrică (cu media pe centrul seriei de variaŃie) are două cozi lungi, înseamnă că
puterea discriminativă a unui item de acest fel este maximă, el putând distinge la fel de bine în
ambele direcŃii. În cazul nostru, deoarece numărul itemilor destinaŃi depistării dezordinilor
alimentare a fost foarte mare – 112 – am folosit scorarea dihotomică, deci valoarea medie optimă
147
ar trebui să cadă la jumătatea intervalului 0 – 1, adică în jurul lui 0,50, ceea ce se întâmplă doar
pentru itemii 6 şi 9.19 Verificarea simultană a mediei şi abaterii standard este o condiŃie prealabilă
obligatorie pentru o tentativă de selecŃie a itemilor care se bazează în principal pe corelaŃie. Din
această analiză reiese că, la prima vedere, itemii 7 şi 9 au simultan cele mai bune varianŃe şi valori
medii.
Decizia finală se ia însă după ce se analizează atent datele din panoul Item-total Statistics
care are următoarea structură: primele două coloane dau valorile medii şi abaterile standard pentru
valorile totale ale scalei, în situaŃia în care itemul nu participă la scorul total. Pentru scalele cu
număr mare de itemi corecŃia adusă la parametrii scalei prin absenŃa unei singure valori de scor
este neglijabilă, dar ea devine cu atât mai importantă cu cât numărul itemilor scalei este mai mic,
fiind importantă de exemplu pentru scala de 10 itemi. Coloana Corrected Item-Total
Correlation este de maximă importanŃă în luarea deciziei de selecŃie deoarece ea indică gradul de
asociere a fiecărui item cu scorul total, adică saturaŃia sa în variabila latentă măsurată. În cazul
nostru itemul 10 are o corelaŃie excelentă cu scala (.48), în timp ce itemii 3, 4 şi mai ales 6 au
corelaŃii slabe (itemul 6 chiar negativă) cu scorul total.
Dacă scala noastră ar fi unidimensională (adică ar măsura doar un singur construct şi nu
mai multe) o valoare a corelaŃiei item-scală în jur de .30 ar fi suficientă pentru includerea itemului
în scală, iar una de .40 aproape că ne forŃează să facem acest lucru. Aici este cazul să spunem că
nu ne vom concentra atenŃia doar pe numerele de cod ale itemilor, fapt care ne împiedică să ştim
care este conŃinutul lor. Cu foaia de test în mână, după ce am identificat itemii cu formulări foarte
asemănătoare (redundanŃi), luăm în cunoştinŃă de cauză decizia de a-i păstra pe cei cu calităŃile
psihometrice cele mai bune şi de a-i elimina pe cei mai slabi.
Ultima coloană are de asemenea un rol important în luarea deciziei relative la selecŃia
itemilor deoarece ne indică cât ar fi fost coeficientul de consistenŃă internă alfa dacă itemul
analizat ar fi fost eliminat. Prin compararea cu scorul de referinŃă al acestui coeficient (.88 pentru
toată scala iniŃială, adică foarte mare) putem vedea dacă absenŃa itemului ameliorează valoarea lui
alfa (caz în care el trebuie eliminat) sau dimpotrivă, o scade (semn că este unul util). În cazul
nostru itemul 6 este sigur unul condamnat, deoarece el dă o corelaŃie uşor negativă cu scala şi nu
este consistent cu aceasta (absenŃa lui din scală îl măreşte pe alfa).
Şi totuşi nu suntem încă în măsură să luăm decizia finală pentru că nu am răspuns clar la
întrebarea fundamentală dacă itemii testului măsoară sau bat în direcŃia unei singure variabile
(scală unidimensională) sau a mai multora (scală multidimensională, neomogenă). SupoziŃia
implicită pentru indicele de consistenŃă internă alfa al lui Cronbach este aceea că toŃi itemii
măsoară o singură variabilă latentă, fapt ce nu este dat prin definiŃie, ci trebuie atent verificat.
148
deoarece când este desfăşurată pe prea puŃine cazuri, ea poate să dea valori instabile, ce
compromit uneori iremediabil întregul proces de construcŃie a scalei. Să reŃinem deci că, în această
fază de construcŃie a scalei, determinarea prin analiză factorială a variabilei latente care stă în
spatele unui set de itemi este un fapt crucial.
Mergând mai departe cu exerciŃiul nostru prezentăm secvenŃa de lucru pentru a efectua
analiza factorială exploratorie: Analyse→DataReduction→Factor, care produce deschiderea
următoarei fereastre de lucru, în care vom introduce (prima fereastră, panoul din dreapta-sus) toate
datele de analizat, adică toŃi itemii chestionarului nostru.
Pentru un număr aşa de mare de itemi nu vom efectua nici o rotaŃie (butonul din mijloc de
la figura din stânga de mai sus), dar de la Options putem să selectăm Supress absolute values
less than: (suprimarea valorilor mai mici decât:) pentru a pune valoarea de .30 în ferestruica
respectivă, care are din setare valoarea .10, dar neactivată (vezi fereastra din dreapta-jos). În felul
acesta valorile ce indică saturaŃii mici şi nesemnificative în factorii descoperiŃi nu vor mai fi
afişaŃi, fapt ce uşurează inspecŃia vizuală, selecŃia şi luarea deciziilor.
Trebuie precizat că metoda componentelor principale – care este opŃiunea de bază a
programului – este utilă mai ales pentru a vedea dacă există un factor general (cu o varianŃă mai
mare de 50%) ce defineşte variabilă latentă, sau dacă nu cumva există mai mulŃi factori de
magnitudine mai mică, ce acoperă întreaga varianŃă a scorurilor scalei studiate. Vom putea vedea
deci dacă avem de-a face cu o scală uni- sau multi-dimensională.
Atragem de asemenea atenŃia asupra faptului că dacă o singură variabilă inclusă în panoul
de lucru are varianŃa zero, analiza factorială nu mai poate fi efectuată. Deoarece acesta este şi
cazul chestionarului nostru, identificăm variabila sau variabilele cu varianŃă zero prin Frequencies
ori Descriptives. În cazul nostru itemul 66 trebuie eliminat din analiză (şi din scală deoarece,
având varianŃa zero, el nu are nici o utilitate), după care reluăm analiza factorială. Aceasta va
produce mai multe output-uri, din care două sunt esenŃiale.
149
Figura U3.4. Unul dintre outputurile analizei factoriale
indicând factorii selecŃionaŃi şi valorile lor eigen.
Outputul de mai sus indică faptul că itemii iniŃiali nu produc un singur factor general, ci
câteva zeci (fapt curent în construcŃia de scale cu număr mare de itemi), din care primul acoperă
doar 13,36% din varianŃă (deci este foarte departe de a fi un factor general), al doilea 8,21%, al
treilea 4,96% etc. Chiar şi al şaisprezecelea factor produce o valoare eigen peste 2 (2,08%), ceea
ce poate părea un adevărat coşmar statistic. Lucrurile nu stau însă chiar aşa. Dacă analizăm cu
atenŃie outputul al doilea din figura 1.4, observăm că acesta devine o adevărată grilă de selecŃie
pentru factorii mai importanŃi care vor fi reŃinuŃi. Astfel, itemii vor fi alocaŃi la acei factori pentru
care ei au cele mai mari corelaŃii (saturaŃii în factorul respectiv). Atunci când se poate, itemii cu
saturaŃii negative se alocă la factorul cu care corelează pozitiv mai semnificativ, pentru a nu
schimba maniera de scorare; la valori foarte apropiate ale saturaŃiilor, un item se alocă scalei mai
scurte pentru a o fortifica, deoarece ştim că puterea unei scale depinde şi de numărul itemilor care
o compun. Se observă că, după ce încep să fie alocaŃi la primii trei factori, mai rămân foarte puŃini
itemi sau deloc pentru factorii următori, şi această deoarece mulŃi itemi îşi împart varianŃa între
mai mulŃi factori (nu sunt foarte specifici). Alocând itemii factorului pentru care ei au cea mai
mare saturaŃie, celorlalŃi factori le rămân tot mai puŃini itemi, aceasta deoarece primii factori dau
corelaŃii mai mari cu itemii, având deci prioritate în selecŃia acestora. De fapt afişarea în tabel a
factorilor de la stânga la dreapta se face în ordinea magnitudii lor, dată de mărimea corelaŃiilor cu
itemii, dar şi de numărul acestor corelaŃii. Itemii care nu se repartizează în primele 3-4 categorii
vor putea defini şi ei nişte factori de magnitudine mai redusă, dar reunindu-i în scale şi studiind
alfa pentru acestea vom observa că şi consistenŃa internă este din ce în ce mai mică pentru factorii
extraşi ultimii.
150
Figura U3.5. Output al analizei factoriale indicând factorii selecŃionaŃi şi valorile lor eigen.
Cum o scală trebuie să aibă o consistenŃă internă de peste .70 (aceasta fiind foarte bună
peste .80 şi excelentă peste .90) scalele mici neatingând aceste valori trebuie în principiu
abandonate, pentru că ele sunt expresia unor construncte ce au o valoare îndoielnică. În cazul de
mai sus, itemii 5, 7, 8, 10, 13, 16, 17, 20, 21, 22 etc. vor fi alocaŃi primei scale; itemii 3, 9, 19 etc.
celei de a doua, iar itemii 15, 24, 43 etc. celei de a treia. O atenŃie specială impune itemul 3, care
poate fi distribuit şi la factorul 2 şi la 3 (decizia o luăm ulterior, când evaluăm care dintre cele
două subscale are mai mare nevoie de el) sau la itemul 22, care corelează semnificativ şi cu
factorul 1 (pozitiv) şi cu factorul 3 (negativ). În aceste situaŃii se observă cât de importantă este
mărimea lotului pentru luarea unei decizii corecte, bazată pe analiza factorială.
Hotărârea de a aloca itemii într-o scală sau alta poate fi irevocabilă, chiar dacă datele
ulterioare nu confirmă deciziile noastre de acum. Prin mărirea semnificativă a numărului de
subiecŃi, soluŃia factorială poate să aducă o mulŃime de diferenŃe, ceea ce relansează practic întreg
procesul de reconstrucŃie a scalei. Din această cauză vom căuta să luăm decizii importante şi
definitive doar dacă eşantionul pe care s-a efectuat analiza factorială este unul sufiucient de mare
şi de reprezentativ. Finalmente, scala desemnând factorul 1 arată ca în figura de mai jos.
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Mean Std Dev Cases
1. CEDA005 .2000 .4031 65.0
2. CEDA007 .3231 .4713 65.0
3. CEDA008 .3231 .4713 65.0
4. CEDA010 .1538 .3636 65.0
5. CEDA013 .4154 .4966 65.0
6. CEDA016 .5385 .5024 65.0
7. CEDA017 .4154 .4966 65.0
8. CEDA020 .1231 .3311 65.0
9. CEDA021 .4462 .5010 65.0
10. CEDA022 .3385 .4769 65.0
Statistics for Mean Variance Std Dev N of Variables
SCALE 11.9846 86.4841 9.2997 50
151
Item-total Statistics
Scale Scale Corrected
Mean Variance Item- Alfa
if Item if Item Total if Item
Deleted Deleted Correlation Deleted
CEDA005 11.7846 84.0154 .3121 .9203
CEDA007 11.6615 83.3212 .3418 .9202
CEDA008 11.6615 83.4462 .3270 .9204
CEDA010 11.8308 83.3928 .4456 .9192
CEDA013 11.5692 81.3115 .5500 .9180
CEDA016 11.4462 82.5635 .4018 .9197
CEDA017 11.5692 81.7178 .5034 .9185
CEDA020 11.8615 83.4337 .4862 .9190
CEDA021 11.5385 83.8149 .3636 .9202
CEDA022 11.6462 83.1385 .3586 .9201
......................................................................................................................................................................
Reliability Coefficients
N of Cases = 165.0 N of Items = 50
……………………………………………………………………………………………………………..
Figura U3.6. Unul dintre outputurile analizei factoriale
indicând factorii selecŃionaŃi şi valorile lor eigen.
152
U3.4. Criterii de selecŃie a itemilor pentru optimizarea lungimii scalei
Până în acest stadiu de dezvoltare al scalelor de tulburări alimentare cercetătorul are un
număr bun de itemi (72), distribuiŃi pe trei subscale în raport cu care aceştia au o fidelitate destul
de ridicată. Şi totuşi, se observă diferenŃe relativ însemnate între acestea: prima are un alfa de .92,
a doua de doar de .70, iar a treia de .58. Alfa pentru toată scala este de .94. Se pare deci că scalele
2 şi 3 nu sunt suficient de fidele, aceasta probabil şi din cauza scurtimii lor. Se admite că scalele
scurte sunt bune, pentru că se completează uşor şi nu pun prea mare presiune pe subiecŃi. Prin
opoziŃie, scalele mai lungi creează mai mult stres la completare, dar au caracteristici psihometrice
mai bune (consistenŃă internă, alte forme de fidelitate şi de validite, putere de discriminare mai
mari). Este deci de dorit găsirea unui echilibru între scurtimea scalei şi calităŃile sale psihometrice.
Atunci când fidelitatea unei scale este prea mică, scurtimea ei nu este o calitate în sine.
Dacă cercetătorul nu poate asigura nici un înŃeles unei scale scurte, nu s-a câştigat nimic prin
scurtimea ei. În cazul de faŃă există o satisfacŃie legată de calitatea primei scale. Pentru cea de a
doua şi de a treia ar putea reîncepe travaliul de a genera itemi suplimentari, care să surprindă mai
specific bulimia şi anorexia şi care vor trebui aplicaŃi unor populaŃii clinice identificate a avea
aceste afecŃiuni.
Să ne reamintim...
Pentru a clarifica criteriile după care păstrăm unii itemi în scală şi-i eliminăm pe
alŃii, furnizăm în sinteză cele mai importante repere orientative:
• sunt preferabili itemii care au valori medii apropiate de valoarea centrală, au
varianŃă mare, se corelează bine cu ceilalŃi itemi şi – mai ales – corelează la un
nivel ridicat (peste .30, sau chiar peste .40) cu scorul total la scală;
• vor fi primii eliminaŃi itemii care dau varianŃa zero, corelaŃii slabe sau negative
cu scala (chiar după scorarea inversă);
• itemii care corelează slab cu scala vor fi de asemenea printre primii eliminaŃi;
• vor fi eliminaŃi şi itemii a căror prezenŃă în scală nu numai că nu ameliorează
consistenŃa sa internă, ci chiar o coboară;
• itemii care corelează slab cu dimensiunea/dimensiunile latente măsurate, dar
corelează bine cu alŃi factori secundari, vor fi şi ei eliminaŃi din scală, dar vor fi
analizaŃi pentru a dezvolta eventual noi scale, dacă ei par să sugereze existenŃa
altor constructe valide;
• dintre itemii foarte similari ca şi formulare şi conŃinut se păstrează doar aceia
care dau cea mai bună corelaŃie cu scorul total la scală.
Nu putem omite o întrebare legitimă: cât de mic trebuie să fie pragul corelaŃiei item-scală
pentru a reŃine un item în scală? Răspunsul depinde şi de intenŃiile autorului: doreşte el o scală
scurtă şi relativ puternică, sau o scală mai lungă, dar care dă mai multe nuanŃe, fiind mai stabilă şi
mai fidelă? În primul caz pragul de selecŃie este mai ridicat (în principiu peste r = .40), în al doilea
ceva mai scăzut (dar rareori sub r = .30).
153
Efectul eliminării sau includerii unor itemi în scală trebuie şi el bine ştiut. Dacă cunoaştem
corelaŃia medie a scalei rezultate putem aplica o formulă care ne ajută să anticipăm care va fi
efectul adăugării sau eliminării unui item. Această formulă este:
N ⋅r
alpha =
1 + ( N − 1) ⋅ r
în care N este numărul de itemi şi r corelaŃia medie inter-itemi. Putem astfel determina ce se
întâmplă dacă la o scală cu corelaŃia iter-itemi de .30 adăugăm sau scoatem un item: alfa =
[10·.30]/[1+9·.30] = .81 pentru 10 itemi; alfa = [11·.30]/[1+10·.30] = .83 pentru 11 itemi; alfa =
[9·.30]/[1+8·.30] = .79 pentru 9 itemi. Vedem că diferenŃa de doar doi itemi ridică consistenŃa
internă de la .79 la. 83, ceea ce este important. În general, dacă corelaŃia inter-itemi a unui item
este egală sau cu puŃin sub corelaŃia inter-itemi medie, păstrarea itemului în scală are un efect de
creştere a lui alfa; când această corelaŃie este mult sub medie, ea poate să ducă la descreşterea lui
alfa şi deci itemul rău trebuie eliminat.
O soluŃie interesantă pentru a verifica stabilitatea caracteristicilor unei scale este propusă
de DeVellis (2003, pp. 99-100), ea constând în splitarea lotului. Când lotul este unul suficient de
mare el poate fi împărŃit în jumătăŃi. Când lotul nu este suficient de mare, împărŃirea se poate face
în părŃi inegale, partea cea mai mare fiind rezervată pentru determinările principale, pe când cea de
a doua pentru verificarea constanŃei rezultatelor găsite. Deci prima parte din lot foloseşte la
evaluarea şi selecŃia itemilor, la construcŃia scalelor şi la determinarea lui alfa pentru fiecare
subscală; cea de a doua parte este utilă pentru replicarea datelor şi pentru a verifica dacă ele se
regăsesc pe un lot foarte similar. Avantajele acestei metode – care obligă din start la abordarea
unui număr mare de subiecŃi, de peste 500-600 de persoane – sunt însemnate. În primul rând
împărŃirea se poate face aleatoriu, ceea ce asigură echivalenŃa grupurilor, randomizarea generând
două eşantioane echivalente. Dacă acestea ar fi abordate în două momente temporale diferite
există probabilitatea ca factorul timp să aducă modificări (fie şi discrete) la cel de al doilea grup,
sau ca el să difere prin alte caracteristici de primul grup. Apoi, un nou grup presupune expunerea
subiecŃilor la alt personal de cercetare, în altă perioadă a anului, cu instrumente care pot diferi uşor
de primele (forma iniŃială şi forma definitivă a scalei), ceea ce poate introduce alte distorsiuni
nedorite. Dar cel mai însemnat avantaj al splitării grupului original este acela că la ambele
subgrupuri vom avea forma originală a instrumentului, ceea ce permite revenirea la decizia
eliminării unor itemi dacă grupul de control indică necesitatea schimbării acestei decizii. Dacă
pentru primul grup, cel pe care s-a făcut selecŃia itemilor, există posibilitatea ca factori de şansă să
fie confundaŃi cu covariaŃia itemilor, la al doilea – unde itemii sunt deja selectaŃi – o asemenea
posibilitate nu mai există. Finalmente, prin reunirea celor două grupuri în unul singur se obŃin
caracteristici psihometrice mai sigure şi mai aproape de realitate decât pentru fiecare grup luat
separat.
154
creată surprinde sau nu cu adevărat estenŃa constructului căutat, pentru aceasta trebuind
desfăşurate nenumărate studii de validare, pentru oricare nouă extensie legată de utilizarea scalei.
Chiar fidelitatea presupune determinarea prin test-retest a stabilităŃii în timp a rezultatelor
obŃinute, corelaŃia dintre o formă a testului şi forma sa paralelă etc. Cum fidelitatea este cea mai
importantă precondiŃie a validităŃii, trebuie spus că programul SPSS oferă alături de alfa şi
posibilitatea determinării fidelităŃii prin metoda jumătăŃirii (split-half).
Demersurile necesare acestui tip de analiză sunt foarte asemănăroare cu cele presupuse de
determinarea lui alfa (Analyse→Scale→Reliability→Split-half→Statistics), doar că de la
Statistics acum se dezactivează Descriptives for (Item, Scale, Scale if item deleted), deja
determinate anterior.
Output-ul acestei serii de comenzi este un indicator al consistenŃei interne care ia în calcul
o jumătate a testului comparată cu cealaltă, prin două metode: cea a lui Spearman-Brown şi cea a
lui Guttman. EchivalenŃa jumătăŃilor se stabileşte şi prin compararea coeficientului alfa pentru
fiecare jumătate în parte. Cele două jumătăŃi comparate sunt luate de computer ca atare, dar dacă
vrem să determinăm split-half pentru numerele pare şi cele impare, introducem în panoul de lucru
întâi itemii pari, apoi pe cei pari, dăm OK şi vom obŃine analiza dorită.
Exemplu
R E L I A B I L I T Y A N A L Y S I S - S C A L E (S P L I T)
Reliability Coefficients
N of Cases = 165 N of Items = 112
Correlation between forms = .80 Equal-length Spearman-Brown = .89
Guttman Split-half = .89 Unequal-length Spearman-Brown = .89
56 Items in part 1 56 Items in part 2
Alfa for part 1 = .85 Alfa for part 2 = .87
CorelaŃiile obŃinute prin splitare sunt identice prin cele două metode (.89) iar
valorile alfa pentru prima parte (.85) şi pentru cea de a doua (.87) sunt extrem de
asemănătoare, de unde deducem că există o foarte bună consistenŃă internă pentru
fiecare jumătate a testului.20
155
Procesul de construcŃiei a unei scale nu se opreşte aici. Destinul acesteia depinde doar parŃial de
calităŃile psihometrice identificarte preliminar şi mai mult de utilitatea ei reală, de posibilitatea
implicării ei într-o multitudine de aplicaŃii practice sau de cercetări. Cel mai adesea validitatea este
cea care impune în timp o scală ce poate fi probată într-o multitudine de maniere.
Exemplu
Prezentăm matricea de intercorelaŃii dintre cei trei factori rezultaŃi pentru Scala de
tulburări alimentare şi cele trei categorii de mecanisme de apărare decelate de
DSQ (The Defense Style Questionnaire) creat de Andrews, Singh şi Bond.
FACTOR1 FACTOR2 FACTOR3 DSQ Mec. DSQ Mec.
mature nevrotice
FACTOR1 -
FACTOR2 .38** -
FACTOR3 .32** .28** -
DSQ Mec. mature -.09 .16 .01 -
DSQ Mec. nevrotice .23* .10 .18 .19* -
DSQ Mec. imature .51** .31** .29** .21* .53**
Notă: ** CorrelaŃia este semnificativă la pragul de 0,01 (bidirecŃional).
* CorrelaŃia este semnificativă la pragul de 0,05 (bidirecŃional.
Din tabelul de mai sus rezultă că factorul 1 se validează la un nivel foarte ridicat
prin corelare cu mecanismele de apărare imature (r = .53) şi la un nivel mai scăzut
cu cele nevrotice (r = .23). Aceasta atrage atenŃia asupra faptului că factorul 1 are
un conŃinut negativ şi că ar trebui să se numească Stimă de sine negativă legată de
aspectul fizic. Factorii 2 şi 3 se validează şi ei concurent cu mecanismele de
apărare imature, dar la niveluri mai scăzute (r = .31, respectiv r = .29). Evident că
această primă confirmare are nevoie de o mulŃime de alte studii, dar aceasta
presupune ca instrumentul să fie publicat şi lansat pentru a-şi îndeplini rolurile
pentru care el a fost proiectat.
U3.6. Rezumat
ConstrucŃia scalelor psihologice se sprijină pe un algoritm complex care poate fi
rezumat la următoarea secvenŃă: determinarea a ceea ce se doreşte să se măsoare
→ generarea setului iniŃial (mare) de itemi → determinarea tipului de format al
măsurătorii → revizia setului iniŃial de itemi de către experŃi → administrarea
setului iniŃial de itemi → selecŃia itemilor pentru forma finală a scalei →
rafinarea ulterioară a scalei.
În fazele preliminare de construcŃie recursul la teorie este esenŃial.
În fazele finale recursul la procedee avansate de prelucrare este esenŃial.
Partea cea mai creativă a creării unei scale Ńine de identificarea unui construct
valid şi de generarea setului iniŃial de itemi, dar valoarea scalei Ńine de
respectarea unor constrângeri de ordin tehnic: scrierea corectă a itemilor, selecŃia
tipului de scală de măsură care este adecvată, recursul la sfatul experŃilor etc.
156
U3.7. Evaluare
Proiect aplicativ:
Construirea unui chestionar pentru o trăsătură de personalitate
Deoarece o parte însemnată din nota finală depinde de acest proiect, cealaltă
depinzând de activitatea de seminar şi ultima de nota de la examenul final, indicăm
mai jos paşii care trebuie urmaŃi pentru realizarea sa:
• veŃi citi cu atenŃie lista de la sfârşitul paragrafului de faŃă şi veŃi alege o
trăsătură de personalitate, de preferinŃă una care vă interesează personal;
• veŃi efectua un studiu bibliografic detaliat pentru a putea identifica şi defini
detaliat trăsătura/dimensiunea de personalitate aleasă (aceasta este faza de
documentare);
• folosind metoda intuitiv-raŃională veŃi operaŃionaliza această
trăsătură/dimensiune aleasă sub forma unui număr de itemi cuprins între 20 şi
50. În construcŃia itemilor veŃi Ńine cont de toate precizările din cursul de faŃă
legate de caracteristicile de formă, lungime, conŃinut şi cele semantice;
• chestionarul astfel obŃinut va fi aplicat într-un studiu-pilot pe un număr de
minimum 30 de subiecŃi. Dacă optaŃi pentru strategia grupurilor-criteriu
(metoda empirică), acestea vor avea minimum 20 de subiecŃi fiecare;
• utilizând cunoştinŃele de la cursul Bazele teoretice ale psihodiagnosticului veŃi
efectua analiza itemilor (grad de discriminare, curbă caracteristică sau
semnificaŃia statistică a diferenŃei dintre grupurile de contrast) şi veŃi reŃine în
forma intermediară redusă a chestionarului itemii cu caracteristicile
psihometrice cele mai bune. Pentru această formă a chestionarului veŃi urma
procedura descrisă în curs şi veŃi face analiza consistenŃei interne a scalei (din
SPSS →Analyse→Scale→Alfa Cronbach şi apoi Split-half);
• veŃi redacta forma finală a chestionarului;
• opŃional, valoarea proiectului va fi considerată mai bună şi va primi punctaj
superior dacă veŃi corela produsul obŃinut de voi cu un instrument despre care se
ştie că măsoară acelaşi construct, pentru a proba validitatea concurentă a
chestionarului vostru.
Notă: datorită complexităŃii cerinŃei formulate vă puteŃi asocia câte doi sau trei
studenŃi pentru un singur proiect, caz în care numărul va creşte cu câte 30 de cazuri
pentru fiecare. Nota la proiect va fi identică pentru ambii autori, deşi ei îşi pot
împărŃi după dorinŃă atribuŃiile între faza de documentare şi cea de
aplicare/prelucrare a datelor. În cazul asocierii a trei studenŃi ultimul aspect
(validarea concurentă a chestionarului nou creat contra unui instrument deja
consacrat) devine obligatorie. Produsul finit (chestionarul împreună cu o lucrare de
prezentare a fazelor proiectului, de 3-4 pagini – maximum 2000 de cuvinte – în
TNR 12, pe hartie A4) va fi însoŃit de o dischetă sau CD cu baza de date şi
prelucrările aferente. Data predării proiectului este în ziua examenului.
157
Listă de termeni psihologici
Prezentăm mai jos câteva concepte care descriu trăsături de personalitate sau alte domenii
sau teme de cercetare ce pot fi abordate prin secvenŃa metodologică prezentată anterior:
Adaptare (şcolară, universitară, organizaŃională), agresivitate, asertivitate, atitudine faŃă de
(alcoolism, consum de droguri, risc, sexualitate, carieră etc.), altruism/egoism, alimentare
(bulimie, anorexie, bulimi-anorexie), ambiŃie, androginitate, angoasă/anxietate/fobie socială,
aptitudini (didactică, socială, de lider, empatică etc.), ataşament (faŃă de valorile organizaŃiei, faŃă
de tradiŃie), aviditate (ca în chestionarul Gaston-Berger din tipologia franco-olandeză), bătrâneŃe,
bioenergie/bioenergoterapie (atitudine faŃă de), bulimie, cafea, carenŃă afectivă, carismă,
chirologie, cinema, cleptomanie, comandă, competiŃie, complexe (de inferioritate sau de
superioritate), comportament matern/patern, comportament proactiv, comunicativitate, conflict/
conflictualitate (toleranŃă la), conformism/nonconformism, contagiune (afectivă şi mentală),
control (locus of), cooperare, copil/copilărie (atitudine faŃă), creativitate, culpabilitate, decizie
(uşurinŃă/dificultate), diferenŃiere (a Eului, cognitivă), delincvenŃă (tendinŃă la), dependenŃă
(alcoolică, de droguri, emoŃional-afectivă), depresie, dezacord/acord conjugal, didactogenie,
dipsomanie, disforie, dispoziŃie spre (tutun, alcool, droguri, abuz sexual), drog, durere (căutarea
plăcerii/evitarea durerii - Cloninger), educaŃie/ educabilitate, efort (rezistenŃă la),
egocentrism/egoism, emotivitate, empatie, erotism/senzualitate, eşec (toleranŃă/intoleranŃă,
conduită de eşec), Eu ideal, expectaŃie (nivel de), extraversiune/introversiune, fabulaŃie (gândire
magică), familie (fericire/nefericire conjugală sau matrimonială), feminitate, fidelitate (relaŃională
şi în căsnicie), foamea de stimulare, fobii (sensibilitate la), frică, frigiditate, frustrare (toleranŃă la),
furie, gândire (magică, negativă, depreciativă, autodevalorizatoare, creativă etc.), gelozie,
gregarism, grup (atitudine faŃă de), gust, hiperkinezie, homosexualitate/androginitate/sex-rol, idei
(de persecuŃie, prevalente, dominante) şi scheme, identificare, imaginaŃie (reproductivă şi
creatoare), imitaŃie, inadaptare la (mediu, şcoală, serviciu, căsnicie), impulsivitate, inhibiŃie,
instabilitate (emoŃional-afectivă, caracterială), interese, introversie, intuiŃie, isteroidie, iubire,
izolare, joc (disponibilitate pentru), încredere (în sine şi în alŃii), labilitate, lateralitate corticală,
lene socială, lider (aptitudine de), magie (gândire magică), manie, masochism, mecanisme de
apărare ale Eului, melancolie (dispoziŃie spre), minciună (scală de), mitomanie, modă (atitudine
faŃă de), moarte (atitudine faŃă de), motivaŃie (şcolară, profesională, de muncă, creatoare etc.),
narcisism, nebunie (teama de), negativism/încăpăŃânare, nervozitate, neutralitate (neimplicare),
nevroză (nevrozism, tendinŃe nevrotice), nevroză de abandon, nevroză şcolară, obezitate, oboseală
(existenŃială), obsesii, onestitate, opinii (de orice fel), optimism, orgoliu, panică (atacuri de),
paranoia (tendinŃe spre), parapsihologie (atitudine faŃă de), pasiune, pasiv-dependentă
(personalitate), pedeapsă (atitudine faŃă de), pensionare, perfecŃionism/introversie, personalitate
(isterică, astenică, fobică etc.), persuasiune/sugestibilitate, perversiune (atitudine faŃă de), placebo
(susceptibilitate la), pragmatism (la valori/atitudini fundamentale), prejudecăŃi, prestigiu, prezenŃă
socială, privaŃiune (toleranŃă la), pubertate/adolescenŃă, răsunetul reprezentărilor, regresie, relaŃii
umane, relaxare, remuşcare, respingere, responsabilitate, reuşită/succes (şcolar, profesional etc.),
reverie, revoltă, rezistenŃă, rezonanŃă, ritualuri fobice, roluri, sadism, sănătate mintală, schizoidie,
secundaritate, sensibilitate, sentiment, separare (nevroză de), sete (afectivă, de cunoaştere), sfat
158
conjugal, simulare (comportament), suprasolicitare/burnout/brownout, sinucidere, sofrologie,
stîngăcie, stres (toleranŃă la, mecanisme de coping cu), subiectivitate, succes, sugestibilitate,
surmenaj, şoc, talent, tandreŃe, temperament, tensiune, ticuri, timp (atitudine faŃă de, gestiune a),
toleranŃă (la frustrare, socială), trac, tutun, uitare, umor, valenŃe, valori, vârstă (atitudine faŃă de),
veleitarism, virilitate/masculinitate, vis, vocaŃie, voinŃă, vorbire, zvon.
159
__________________________________________________________________
Modulul M3. Unitatea de învăŃare 4
RAPORTUL PSIHOLOGIC
__________________________________________________________________
Cuprins
U4.1. Introducere ........................................................................................................... 160
U4.2. CompetenŃe .......................................................................................................... 160
U4.3. Idei de bază pentru întocmirea unui raport psihologic ......................................... 161
U4.4. ActivităŃi propuse ................................................................................................. 162
U4.4.1. Întocmirea unui raport de examinare psihologică …………………...... 162
U4.4.5. Structura raportului psihologic ............................................................... 161
I. Datele factuale şi de identificare a subiectului ..................................... 163
II. Scopul evaluării psihologice (întrebarea de referinŃă) ….......………. 164
III. Testele administrate şi rezultatele obŃinute (note brute şi standard).. 165
IV. Anamneza sau istoria personală a cazului ......................................... 165
V. ObservaŃiile relevante din timpul examinării ...................................... 166
VI Interpretarea rezultatelor .................................................................... 167
VII. Sumarizarea concluziilor .................................................................. 168
VIII. Recomandări .................................................................................... 169
U4.5. Rezumat ................................................................................................................ 169
U4.6.Test de evaluare a cunoştinŃelor ............................................................................ 169
U4.7. Lecturi recomandate pentru acest curs ……………………………………...….. 170
U4.1. Introducere
Raportul psihologic este expresia condensată a activităŃii de testare/evaluare
psihologică a unei persoane (client, consumator de servicii etc.) de către un
psiholog calificat care răspunde cu instrumentele ştiinŃei sale scopului pentru care
a fost desfăşurată investigaŃia, în termeni profesionişti, dar şi accesibili celui care a
comandat-o.
U4.2. CompetenŃe
După parcurgerea acestei unităŃi cursanŃii vor fi capabili:
• să cunoască elementele de conŃinut ale celor opt capitole ce intră în structura
raportului psihologic;
• să facă diferenŃele care se impun între fişa psihologică (care sintetizează cifric
datele clientului) şi raportul psihologic, care insistă pe interpretarea narativă a
rezulzatelor;
• pentru fiecare dintre cele opt capitole din structura raportului psihologic să
poată opera definirea, indica funcŃiile, selecta elementele necesare realizării
corecte şi evitării erorilor celor mai probabile;
160
• să concretizeze toate informaŃiile dobândite în blancul unei foi de raport-tip,
printr-un exerciŃiu de portofoliu.
Să ne reamintim...
Exemplu
Din cele de mai sus rezultă că nu aspectul formal (standard) dă valoarea unui
raport psihologic, ci:
gradul de acoperire a scopului şi a aşteptărilor clientului;
161
măsura în care s-a operat cea mai potrivită selecŃie a testelor şi a procedurilor
disponibile la un moment dat, în raport cu solicitarea clientului;
faptul de a include datele cele mai pertinente reieşite din observaŃie, care au o
mare valoare diagnostică, acestea fiind cele care transferă examinarea
psihologică din zona nomoteticului în zona idiograficului;
faptul dacă rezultatele sunt confirmate de timp (fidelitatea test-retest), de alŃi
evaluatori (fidelitatea interscoreri sau interspecialişti), de faptele anticipate
(validitatea relativă la criteriu) sau de viaŃa însăşi, aflată dincolo de pereŃii
laboratorului (validitatea ecologică);
faptul de a oferi altor specialişti (profesori, medici, sociologi etc.) puncte de
sprijin solide în deciziile sau în intervenŃiile lor de specialitate;
faptul de a Ńine pasul cu cele mai noi şi avansate standarde din domeniu, furnizate
de Ńările cu mare tradiŃie în testarea psihologică.
162
hipercomplexe (care include inteligenŃa, memoria, motricitatea, atenŃia şi personalitatea), atunci
când vrea să surprindă integral sau multiaxial persoana.
Să ne reamintim...
Structura raportului psihologic va trebui să cuprindă:23
I. Date factuale şi de identificare ale clientului.
II. Întrebarea de referinŃă (scopul) evaluării psihologice.
III. Testele administrate, cu indicarea rezultatelor în note brute şi note standard, ca
şi a scorului final (IQ, Indice de Memorie, Indice de Motricitate).
IV. Datele de anamneză (pacienŃi clinici) sau istoria personală a cazului.
V. ObservaŃiile relevante reieşite pe parcursul examinării.
VI. Interpretarea rezultatelor la teste prin raportarea datelor brute la etaloane,
raportarea unora la altele, a tuturor la o teorie, la un set de ipoteze sau la fapte).
VII. Sumarizarea concluziilor.
VIII. Recomandări.
Mai detaliat, această secvenŃă constă din următoarele opt capitole ale raportului,
fiecare cu o scurtă definiŃie, cu indicarea funcŃiilor implicate, cu precizarea
modului de realizare corectă şi a erorilor cele mai frecvente, dar şi a modului lor
de evitare. În final se propune un exerciŃiu imaginar pe un blanc anume elaborat.
Notă: raportul psihologic se parafează, se datează şi se semnează, pentru că din
momentul emiterii lui devine un document oficial, cu consecinŃe posibile asupra
clientului, el putând fi invocat în instanŃă sau în luarea unor decizii cu privire la
persoana în cauză. Spre deosebire de raportul psihologic computerizat, raportul
psihologic presupune deci asumarea responsabilităŃii prin semnătură şi parafă.
163
- fixează datele cele mai relevante, care permit identificarea şi raportarea clientului la o
clasă;
- datele factuale sunt variabile "naturale" (uneori "etichetă") în prelucrarea computerizată a
seturilor de date similare;
- din prelucrarea bazei de date acumulate în timp se pot extrage sub-eşantioane mai mici,
pentru a genera bareme/etaloane mai fine sau pentru a desprinde regularităŃi tipice (prin
lucrări de cercetare ştiinŃifică).
Realizare corectă
• Dacă este structurată sub forma unei fişe cu o rubricatură adecvată, datele sunt uşor de
strâns, putând avea o multitudine de utilităŃi (vezi funcŃiile).
• Deoarece raportul psihologic selectează doar datele (adevărate) din fişa de test (mai
completă, mai tehnică şi mai analitică), formularea din fişă este diferită de cea din raport.
În primul caz, se completează datele în rubrică, în al doilea li se dă o structură narativă
sintetică.
164
III. Testele administrate şi rezultatele obŃinute (note brute şi note standard)
Descriere: pentru anumite categorii de teste pot exista foi de înregistrare / centralizare şi
asociere a datelor pre-elaborate, în care se folosesc aceleaşi baterii de teste. De exemplu, pentru
orientarea şcolară şi ghidarea vocaŃională bateria va cuprinde teste de aptitudini (generale şi
speciale), teste de memorie, un test de personalitate (HSPQ) şi teste de interese (Strong şi/sau
Holland). În consecinŃă şi pe foaia de raport psihologic ele vor fi trecute ca atare, cu o coloană
pentru note brute şi una pentru note standard, utile pentru a verifica informaŃia de specialitate cînd
raportul circulă printre psihologi sau alŃi specialişti.
FuncŃie: este aceea de a avea un sistem de control extern al elementelor pe care se bazează
interpretările calitative care urmează, pentru a vedea în ce măsura testarea psihologică este
adecvată scopului său declarat.
Greşeli de evitat: adăugarea sau omiterea de teste care nu au fost efectiv utilizate.
165
depărtare” omite chiar elemente dintre cele mai semnificative. Mai jos dăm exemplu de elemente
semnificative din anamneza copiilor cu dificultăŃi şcolare sau cu probleme de dezvoltare care pot
fi incluse în raportul psihologic.
• Probleme antenatale, perinatale şi postnatale importante (de exemplu disgravidie, naştere
precipitată sau înainte de termen, naştere pe uscat, cianoză la naştere, Rh negativ,
prematuritate, imaturitate, circulară de cordon, asfixie albastră sau albă etc.).
• Boli importante ale micii copilării.
• Retarduri legate de vorbit, mers, control sfincterian (primul pas, primul cuvânt).
• Tulburări ale senzorialităŃii (văz/auz) şi gravitatea lor.
• Lateralizare, dominanŃă inversă sau încrucişată.
• EvoluŃia timpurie a limbajului, a comunicării şi socializării.
• Apetitul pentru joc.
• Adaptabilitatea la colectivitate (creşă, grădiniŃă) şi uşurinŃa integrării.
• Evenimentele majore din viaŃa copilului sau a familiei sale (separaŃii, divorŃuri etc.).
• Date de climat familial (relaŃii cu fraŃii, bunicii, rudele, prietenii).
• Rezultatele şcolare actuale şi evoluŃia lor în timp.
Este inutil să spunem că altă categorie de probleme (tumori, accidente neurologice,
devianŃă sau delincvenŃă juvenilă, tulburări instrumentale, deficienŃe caracteriale) au alte „grile de
anamneză”, care se structurează prin acumularea de experienŃă, dar şi prin parcurgerea literaturii
de specialitate. Cu atât mai mult examenul adultului sau investigaŃii mai speciale (avizarea pe
post, de exemplu) au alte tipuri de screening al istoriei personale. Este de asemenea foarte
important de spus că cea mai mare parte din datele consemnate rămân în fişa de examinare (cea
care face sinteza datelor), în raport trecându-se datele filtrate şi cu adevărat concludente în raport
cu problema care face obiectul investigaŃiei.
166
standardizarea observaŃiilor în timpul aplicării probelor sale cognitive. Psihologul obişnuit ştie că
dacă a folosit cum trebuie observaŃia, el poate „agrementa” raportul său cu acele elemente decisive
ce fac diferenŃa dintre examenul lipsit de suflet - computerizat - şi cel efectuat de o fiinŃă umană.
Rezolvarea corectă: problema este aceea că din multitudinea datelor observate şi
consemnate în fişa de examen să selectăm doar acele informaŃii concludente, într-o formă
explicită. De exemplu, în loc să trecem că „Ionel este inhibat, foarte dependent afectiv” (concepte
vagi) putem utiliza formula „Ionel a vrut să fie examinat doar în prezenŃa părinŃilor săi, pe care-i
solicita la cea mai mică neclaritate; la un moment dat el s-a ridicat de pe scaun şi nu a mai vrut să
continue, refugiindu-se în spatele mamei, deşi Ionel are deja şapte ani şi jumătate. A comentat că
şcoala nu este bună la nimic, poate doar să-i chinuie în zadar pe copii. A revenit în examen după
insistenŃe şi rugăminŃi, arătându-se foarte îngrijorat la tot ce ar fi putut însemna eşec sau nereuşită.
La comunicarea rezultatelor a Ńinut neapărat să fie de faŃă, cerând explicaŃii şi întrebând dacă ce a
făcut el este bine. La plecare nu şi-a luat la revedere şi tata a comentat că este foarte puŃin probabil
să mai vină din nou la examen, pentru că examinarea seamănă prea mult cu şcoala.”
Erori posibile
• Contaminarea reciprocă a datelor furnizate de observaŃie şi a celor de anamneză.
• Selectarea datelor de observaŃie care „se potrivesc” cu diagnosticul psihologic sau
psihiatric anterior formulate.
• Contaminarea cu alte surse de informaŃii (de la învaŃătoare, profesori, medici, asistenŃi
sociali).
167
Interpretarea trebuie să fie corectă, completă şi obiectivă. Trebuie să sublinieze minusurile,
dar şi plusurile, dacă se poate după stabilirea de intercorelaŃii între toate datele sau după
conturarea unei scheme explicative ordonatoare.
Erori de evitat
• Suprasimplificarea: interpretarea de genul: „rezultatul la testul cuburilor este peste medie,
deoarece subiectul a obŃinut nota standard 17”. În fond, putem porni de la o privire de
ansamblu a rezultatelor, să vedem gradul lor de omogenitate/heterogenitate, dominantele
etc. De exemplu, cota standard 14 la cuburi poate să însemne coordonare oculo-manuală
foarte bună, susŃinută de un tempo de lucru alert (deoarece a primit bonificaŃii de timp
însemnate), iar la testul Cod B - probă de învăŃare asociativă - subiectul a obŃinut de
asemenea un scor foarte ridicat, cota standard 16. Deoarece şi testul Bender-Gestalt indică
o performanŃă superioară, se poate concluziona că un factor major al inteligenŃei - cel
spaŃial - este supradezvoltat, avem deci de-a face aici cu premisele unei aptitudini ce
trebuie valorificată. Pe de altă parte, testul de vocabular, memoria verbală şi memoria
ritmurilor se află la un nivel mediocru, ceea ce sugerează o puternică asimetrie între
factorul verbal şi cel spaŃial, tipică stângăciei. Aceasta ar putea explica eşecurile elevului la
limbi, biologie şi istorie. Bâlbâiala de la 3 ani, instalarea tardivă a dominanŃei (după 7 ani,
odată cu şcoala, dar cu tendinŃe remanente spre ambidextrie) susŃin ipoteza unei organizări
corticale particulare, cu o dominanŃă emisferică vagă.”
• Interpretările incorecte provenite din necunoaşterea testelor (a instrumentelor
psihometrice), din insuficienta cunoaştere a teoriei psihologice (de unde nevoia informării /
formării continue) sau din supradimensionarea unei singure informaŃii. De exemplu, un
tânăr psiholog de la Laboratorul de sănatate mintală dădea următoarea formulare: „dacă nu
există altă contraopinie, pacientul X este suspect de schizofrenie”, şi aceasta după un
singur test proiectiv, Testul Arborelui! Confuzii de acelaşi tip sunt şi cele care
concluzionează în legatură cu excesul de energie al hiperkineticului (care nu debordează de
energie, cum se creden mod curent, ci doar dă această impresie, din cauza consumului
haotic al rezervelor energetice disponibile).
• Uneori psihologul se rezumă doar la scopul testării, ferindu-se să valorifice date valoroase
care-l depăşesc ca putere explicativă, alteori examenul nu Ńine deloc cont de scopul de
referinŃă, mergând pe acelaşi şablon, stereotip, indiferent de tipologia solicitărilor întâlnite.
168
VIII. Recomandări
Definire: sugestiile oferite sunt date în sensul potenŃării calităŃilor insuficient puse în
valoare de către subiect şi a optimizării sau compensării aspectelor deficitare.
FuncŃii: aceea de a depăşi planul constatativ şi de a oferi soluŃii problemelor diagnosticate,
de a lărgi cadrul de referinŃă prin implicarea altor specialişti (dacă e cazul) şi de a găsi soluŃii
problemelor pe care subiectul le are fără ca acestea să fi fost în mod expres obiectul investigaŃiei.
Greşeli de evitat
• Recomandările să fie pertinente, la obiect şi fezabile.
• Ele să rezulte din datele de investigaŃie, să fie solid susŃinute de datele empirice, dar şi de
teoria din domeniu.
• Să permită constatarea efectelor ameliorative după o perioadă de timp (prin retest).
U4.5. Rezumat
Raportul psihologic condensează întreaga activitate de evaluare psihologică.
Scopul său de bază este acela de a traduce în termeni inteligibili pentru client
informaŃia reieşită şi de a răspunde întrebării de referinŃă care a declanşat
activitatea de evaluare.
Structura raportului psihologic este următoarea: date factuale, scopul evaluării,
teste administrate şi cote brute – cote standard pentru fiecare, anamneza,
observaŃiile reieşite, sumarizarea rezultatelor şi recomandările formulate.
Un raport psihologic de bună calitate este acela care Ńine cont de întrebarea de
referinŃă, ajustând dispozitivul de testare/evaluare pentru a răspunde cât mai
satisfăcător la această întrebare.
În al doilea rând, un raport bun integrează o multitudine de alte surse de
informaŃii şi metode în afara testelor psihometrice, cum ar fi anamneza,
observaŃia sau interviul dirijat.
În plus, un raport psihologic bun traduce în termeni inteligibili pentru client
rezultatele investigaŃiei, formulând concluzii şi propuneri ameliorative.
169
7. PrecizaŃi modul în care trebuie procedat pentru a realiza o bună interpretare a
rezultatelor.
8. IndicaŃi funcŃia sumarizării rezultatelor.
9. ImaginaŃi o şedinŃă concretă de evaluare psihologică, precizând ce tip de
recomandări aŃi formula pentru clientul evaluat.
170
BIBLIOGRAFIE
1. Aiken, L.R. (1997). Psychological Testing and Assessment. 9th ed. Boston, London, Toronto,
Sydney, Tokyo, Singapore: Allyn and Bacon.
2. Albu, M. (1998). Construirea şi utilizarea testelor psihologice. Cluj-Napoca: Editura
„Clusium”.
3. Allport, G.W. (1991). Structura şi dezvoltarea personalităŃii. Bucureşti: Editura Didactică şi
Pedagogică.
4. Anastasi, A. (1974). Psychological Testing. New York: Macmillan Publishing Co.
5. Băban, A., Derevenco, P., Eysenck, S.B.G. (1990). Testul E.P.Q. În: Revista de psihologie, 1,
37-45.
6. Băiceanu, L. (2004). DicŃionar ilustrat de psihologie englez – român. Bucureşti: Editura
tehnică.
7. Bontilă, Gh. (1971). Aptitudinile şi măsurarea lor. Bucureşti: Centrul de Documentare şi
PublicaŃii al Ministerului Muncii.
8. Carroll, J.B. (1993). Human Cognitive Abilities. Cambridge: Cambridge University Press.
9. Constantin, T. (2004). Evaluarea psihologică a personalului. Iaşi: Editura Polirom.
10. Bogáthy, Z. (1978). Îndreptarul psihologului industrial. Bucureşti: Editura ŞtiinŃifică şi
Enciclopedică.
11. Cattell, R.B. (1957), Personality and Motivation. Structure and Measurement. New York:
World Book Co.
12. Cattell, R.B. (1960). Manuel pour l'application de l'Echelle d'Anxieté. Paris: Ed. C.P.A.
13. Cattell, R.B., Beloff, H. (1966). Manuel d'application du H.S.P.Q. Paris: Ed. C.P.A.
14. Clinciu, A.I. (2005). Psihodiagnostic. Braşov: Editura UniversităŃii Transilvania.
15. Clocotici, V., Stan, A. (2000). Statistică aplicată în psihologie. Iaşi: Editura Polirom.
16. Cohen, R.J., Swerdlik, M.E., Smith, D.K. (1992). Psychological Testing and Assessment. An
Introduction to Tests and Measurement. second ed. California: Mayfield Publishing Company,
Mountain View.
17. Cronbach, L.J. (1970). Essential of Psychological Testing. New York: Harper and Row.
18. Deri, S. (2000). Introducere în testul Szondi. Bucureşti: Editura Paideia.
19. Durand, G. (1999). Aventurile Imaginii. ImaginaŃia simbolică. Imaginarul. Bucureşti: Editura
Nemira.
20. Dworetzky, D.J., Davis, N.J. (1989). Human development. A life span approach. St Paul, New
York: West Publishing Company.
21. Enăchescu, C. (1975). Expresia plastică a personalităŃii. Bucureşti: Editura ŞtiinŃifică.
22. Enăchescu, C. (1977). Psihologia activităŃii patoplastice. Bucureşti: Editura ŞtiinŃifică şi
Enciclopedică.
23. Eysenck, H.J. (1953). The Structure of Human Personality. New York: Viley.
24. Eysenck, H.J. (1975). The Measurement of Personality. London: Routledge & Kegan.
25. Eysenck, H.J, Eysenck, S.B.G. (1975). Manual of the Eysenck Personality Questionnaire.
London: University of London Press.
171
26. Eysenck, M.W., Keane, M.T. (1995). Cognitive Psychology. A student's handbook. 3rd edition,
Hove East Sussex, UK: Psychology Press Ltd.
27. Gardner, H. (1985). Frames of mind: The theory of multiple intelligences. New York: Basic
Books
28. Gregory, R.J. (1994). Psychological Testing. History, Principles and Applications, second
edition. Boston, London etc.: Alyn and Bacon.
29. Guilford, J.P. (1959). The Nature of Human Intelligence. New York: Mc Graw Hill Book
Company.
30. Harris, D.B. (1963). Children's drawings as measures of intellectual maturity. New York:
Harcourt, Brace & World.
31. Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei. Iaşi: Editura Polirom.
32. Holban, I (1970). Probleme de psihologia muncii. Bucureşti: Editura ŞtiinŃifică.
33. Horghidan, V. (1992). Metode de psihodiagnostic. Bucureşti: Editura Didactică şi Pedagogică.
34. Kaplan, R.M., Saccuzzo, D.P. (1993). Psychological Testing. Principles, Applications and
Issues, 3th ed. Belmont, California: Brooks Cole Publishing Company, Inc.
35. Kline, P. (1995). La construction des tests. În: J.R., Beech, L., Harding Tests, mode d'emploi.
Guide de psychométrie. Paris: Edition C.P.A.
36. Kulcsar (1976). Testul Raven şi variantele sale. În: Îndrumător psidodiagnostic, vol. II, Cluj-
Napoca: Reprografia UniverităŃii Babeş Bolyai.
37. Laveault, D., Grégoire, J. (2002). Introduction aux théoriex des tests en Psychologie et en
sceeces de l'éducation. 2e edition. Bruxelles: Éditions De Boeck Université, p. 199.
38. Meeker, M.N. (1969). The Structure of Intellect. Its interpretations and uses. Columbus, Ohio:
Charles E. Merrill Company.
39. Meili, R. (1962). Manuel du diagnostique psychologique. Paris: P.U.F.
40. Minulescu, M. (1996). Chestionarele de personalitate în evaluarea psihologică. Bucureşti:
Garell Publishing House.
41. Mitrofan, N. (1993). Testarea psihologică a copilului mic. Bucureşti: Editura Press Mihaela.
42. Mitrofan, N., Mitrofan, L. (2005). Testarea psihologică. InteligenŃa şi aptitudinile. Iaşi:
Editura Polirom.
43. Mitrofan, N. (2001). Psihometria şi direcŃiile ei de dezvoltare la început de mileniu. În M.
Zlate (coord.), Psihologia la răspântia mileniilor. Iaşi: Editura Polirom.
44. Nunnally, J.C. (1978). Psychometric Theory. (2nd Ed.). New York: McGaw Hill.
45. Parot, F., Richelle, M. (1995). Introducere în psihologie. Istoric şi metode. Bucureşti: Editura
Humanitas.
46. Perse, J. (1972). Collaboration du psychologie au dépistage et au diagnostique des maladies
mentales. În: Reuchlin, M. (red.) Traité de psychologie apliquée. Paris, Press Univ. de France.
47. Piéron, H. (coord.) (2001). Vocabular de psihologie. Bucureşti: Editura Univers Enciclopedic.
48. Pitariu, H. (1983). Psihologia selecŃiei şi orientării profesionale. Cluj-Napoca: Editura Dacia.
49. Pitariu H. (1974). Testul Domino 48 (D 48); Testul Domino 70 (D 70). În: Îndrumător
psihodiagnostic, vol. II, Cluj-Napoca: Reprografia UniversităŃii Babeş Bolyai.
50. Popescu Neveanu, P. (1977). Psihologie generală. Tipografia UniversităŃii Bucureşti.
172
51. Radu, I. (coord.) (1991). Metodologie psihologică de analiză a datelor. Cluj-Napoca: Editura
Sincron.
52. Reber, A.S. (1985). Dictionary of Psychology. London, New York etc.: Penguin Books.
53. Reuchlin, M. (1992). Introduction à la recherche en psychologie. Paris: Éditions Nathan.
54. Reuchlin, M. (2000). Psihologie generală. Bucureşti: Editura ŞtiinŃifică.
55. Ribault, C. (1965). Le dessin de la maison chez l’enfant. În: Revue de Neuropsychiatrie
Infantile, 13, nr. 1-2.
56. Rorschach, H (2000). Manual de psihodiagnostic. Bucureşti: Editura Trei.
57. Roşca, M. (1972). Metode de psihodiagnostic. Bucureşti: Editura Didactică şi Pedagogică.
58. Rozorea, A., Sterian, M. (2000). Testul arborelui.Bucureşti: Editura Paideia.
59. Stan, A. (2002). Testul psihologic. EvoluŃie, construcŃie, aplicaŃii. Iaşi: Editura Polirom.
60. Sternberg, R.J. (1985). Beyond IQ: A triarchic treory of human intelligence. New York:
Cambridge University Press.
61. Sternberg, R.J., ed. (1990). Handbook of human intelligence. Cambridge, New York etc.:
Cambridge University Press.
62. Sternberg, R.J. (1993). Intelligence is more than IQ: The practical size of intelligence. In
Jurnal of Cooperative Education, 28 (2), pp. 6-10.
63. Szamosközi, Şt. (1997). Psihometria clasică şi evaluarea formativă. În CogniŃie, creier,
comportament, vol. 1, nr. 2, iunie, Cluj-Napoca.
64. Şchiopu, U. (1974). Introducere în psihodiagnostic. Bucureşti: Tipografia UniversităŃii.
65. Şchiopu, U. (coord.) (1997). DicŃionar enciclopedic de psihologie. Bucureşti: Editura Babel.
66. Ştefănescu-Goangă, Fl. (1946). Măsurarea inteligenŃei. Revizuirea, adaptarea şi completarea
scării de inteligenŃă Binet-Simon. Cluj-Napoca: Editura Institutului de psihologie.
67. Witkin, H.A., Dyk, R.B., Faterson, H.F., Goodenough, D.R., Karp, S.A. (1962). Psychological
differentiation. Studies of development. NewYork, London: John Wiley and Sons, Inc.
68. Zazzo, R., Gilly, M., Verba-Rad, M. (1968). Nouvelle échelle métrique de l'intelligence. Paris:
Librairie Armand, Colin.
69. Zimmerman I.L., Woo-Sam, J.M. (1973). Clinical Interpretation of the Wechsler Adult
Intelligence Scale. New York, San Francisco, London: Grune & Straton.
70. Zlate, M. (1999). Psihologia mecanismelor cognitive. Iaşi: Editura Polirom.
71. Zörgo, B, (1976). Examinările psihologice. În Îndrumător psihodiagnostic. Cluj-Napoca:
Reprografia UniversităŃii Babeş-Bolyai, pp. 1-16.
173
Anexa 1
EchivalenŃele rangurilor percentile în scoruri standard şi standardizate
Per- Cote DeviaŃii Scoruri Scoruri Per- Cote DeviaŃii Scoruri Scoruri
centile z IQ T GRE centile z IQ T GRE
Media 0.00 100 50 500 Media 0.00 100 50 500
AS 1.00 15 10 100 AS 1.00 15 10 100
99 2.33 135 73 733 50 0.00 100 50 500
98 2.05 131 71 705 49 -0.03 100 50 497
97 1.88 128 68 688 48 -0.05 99 49 495
96 1.75 126 68 675 47 -0.07 99 49 493
95 1.64 125 66 664 46 -0.10 98 49 490
94 1.55 123 66 655 45 -0.12 98 49 488
93 1.48 122 65 648 44 -0.15 98 48 485
92 1.41 121 64 641 43 -0.18 97 48 482
91 1.34 120 63 634 42 -0.20 97 48 480
90 1.28 119 63 628 41 -0.23 96 48 477
89 1.22 118 62 622 40 -0.25 96 47 475
88 1.18 118 62 618 39 -0.28 96 47 472
87 1.13 117 61 613 38 -0.31 95 47 469
86 1.08 116 61 608 37 -0.33 95 47 467
85 1.04 116 60 604 36 -0.36 95 46 464
84 0.99 115 60 599 35 -0.39 94 46 461
83 0.95 114 60 595 34 -0.41 94 46 459
82 0.91 114 59 591 33 -0.44 93 46 456
81 0.88 113 59 588 32 -0.47 93 45 453
80 0.84 113 58 584 31 -0.49 93 45 451
79 0.80 112 58 580 30 -0.52 92 45 448
78 0.77 112 58 577 29 -0.55 92 44 445
77 0.74 111 57 574 28 -0.58 91 44 442
76 0.71 111 57 571 27 -0.61 90 44 439
75 0.67 110 57 567 26 -0.64 90 44 436
74 0.64 110 56 564 25 -0.67 90 43 433
73 0.61 110 56 561 24 -0.71 89 43 429
72 0.58 109 56 558 23 -0.74 89 43 426
71 0.55 108 56 555 22 -0.77 88 42 423
70 0.52 108 55 552 21 -0.80 88 42 420
69 0.49 107 55 549 20 -0.84 87 42 416
68 0.47 107 55 547 19 -0.88 87 41 412
67 0.44 107 54 544 18 -0.91 86 41 409
66 0.41 106 54 541 17 -0.95 86 40 405
65 0.39 106 54 539 16 -0.99 85 40 401
64 0.36 105 54 536 15 -1.04 84 40 396
63 0.33 105 53 533 14 -1.08 84 39 392
62 0.31 105 53 531 13 -1.13 83 39 387
61 0.28 104 53 528 12 -1.18 82 38 382
60 0.25 104 53 525 11 -1.22 82 38 378
59 0.23 104 52 523 10 -1.28 81 37 372
58 0.20 103 52 520 9 -1.34 80 37 366
57 0.18 103 52 518 8 -1.41 79 36 359
56 0.15 102 52 515 7 -1.48 78 35 352
55 0.12 102 51 512 6 -1.55 77 34 345
54 0.10 102 51 510 5 -1.64 75 34 336
53 0.07 101 51 507 4 -1.75 74 32 325
52 0.05 101 51 505 3 -1.88 72 31 312
51 0.03 100 50 503 2 -2.05 69 29 295
50 0.00 100 50 500 1 -2.33 65 27 267
174
Anexa 2
EchivalenŃele dintre diferite tipuri de scale normalizate
175
176