Documente Academic
Documente Profesional
Documente Cultură
LUCRARE PRACTICA
LABORATOR DE EVALUARE
PSIHOLOGICA
SEM. II
- PAUL KLINE -
CUPRINS:
CAPITOLUL 1....................................................................................PAG. 3
CAPITOLUL 2 ...................................................................................PAG. 14
CAPITOLUL 1
Coeficientul de siguranta al testelor
2
Rezultate practice
Coeficientul de siguranta, referitor la teste, are doua semnificatii distincte. Unul din
intelesuri se refera la stabilitatea in timp, iar al doilea la consistenta interna. Siguranta
testelor de-a lungul timpului este cunoscuta ca si coeficient de siguranta in testareretestare. Despre aceasta siguranta in testare-retestare vom discuta acum.
Siguranta in testare retestare
Siguranta masuratorilor in testare-retestare
Aceasta este masurata coreland rezultatele de pe un set de subiecti care au
participat la testare in doua ocazii. Se masoara coeficientul de corelare, gradul de
similitudine intre doua seturi de valori. Cu cat coeficientul de corelare este mai mare decat
similaritatea, aceasta variaza intre 1 si -1. O corelare de 1 indica un acord perfect, in timp
ce -1 arata un complet dezacord, cu alte cuvinte, persoana cu coeficientul cel mai ridicat la
un test poate fi la nivelul de jos la alt test, intreaga ordine fiind inversata. Amandoua aceste
eventualitati sunt extrem de rare. O corelare pe 0 indica lipsa absoluta a unei corelari intre
doua seturi de rezultate. In mod natural marea majoritate a corelarilor se situeaza intre
aceste puncte si in intervalul in care coeficientul de corelare indica o intindere a acordului
intre seturile de rezultate. De exemplu o corelatie de 0.7 arata o acceptare intre seturile de
rezultate de 49%.
Rezulta clar ca, cu cat suntem mai aproape de 1 in testare retestare, cu atat este
mai bun testul. Daca avem de cantarit un set de obiecte de doua ori, nu vom fi satistacuti
de scalele noastre daca nu avem o corelare perfecta intre rezultatele celor doua liste de
greutati. Intr-adevar, daca procesele de testare-retestare nu ar fi fost 1, am fi considerat ca
scalele au fost inutile sau am fi suspectat o eroare umana in inregistrarea rezultatelor.
Acest exemplu, desi simplu, este instructiv. In primul rand facem presupunerea
rezonabila ca intre cantariri, greutatea acestor obiecte nu a fost schimbata. In al doilea rand
presupunem ca nu este nici o problema in folosirea scalelor, de aceea rezultatele pot fi
inregistrate cu acuratete. In cazul multor teste psihologice din natura, atat la testul in sine
cat si la variabila care se masoara, nici una din aceste presupuneri nu este necesar sa fie
adevarata iar aceasta ar putea sa influenteze masurarea testarii-retestarii.
1.Schimbarea subiectilor
Daca suntem pe cale sa dam un test de inteligenta pe un grup de subiecti si, imediat
dupa ce ei termina testul, ii vom ruga sa il repete, atunci vom obtine cu siguranta un inalt
rezultat testare-retestare care arata ca subiectii nu au fost prea obositi sau plictisiti. In orice
caz acesta ar fi un test fals deoarece subiectii si-ar aminti raspunsurile lor si astfel
fiabilitatea va fi extrem de inalta.
Pentru a evita acesta dificultate este normal sa lasam cel putin 3 luni pauza intre
doua sesiuni de testare. Oricum, daca sunt examinati copii, este foarte posibil ca in
perioada de 3 luni pauza inainte de retestare sa gasim niste schimbari destul de
semnificative si, atata timp cat copiii se dezvolta in ritmuri diferite, corelatia intre setul de
rezultate poate scadea mult sub unitate si fiabilitatea testarii-retestarii va apare ca fiind
scazuta. A se nota cuvantul apare. Acest cuvant reflecta faptul ca schimbarile in rezultate
care contribuie la scaderea sigurantei sunt presupuse ca fiind erori de masuratori,
nicidecum schimbari reale in variabile. Un exemplu va clarifica acest aspect. Daca am fi
incercat sa masuram o stare sufleteasca trecatoare, ca de exemplu furia sau frica,
siguranta testarii-retestarii, asa cum este masurata prin corelare, va fi obligata sa fie
scazuta. Aceasta pentru ca se vor afla schimbari reale in cele doua ocazii. Astfel, ca sa
masori siguranta testarii-retestarii unui test a unei variabile tranzitorii ca aceasta, va trebui
sa incercam sa provocam spaima si furia in ambele ocazii.
De aici este clar ca desi vrem ca siguranta de testare - retestare a unui test sa fie cat
mai inalta cu putinta - atata vreme cat daca scorurile sunt diferite in cele doua ocazii, nu
exista nici un motiv sa dam mai multa credibilitate oricaruia dintre ele - in practica siguranta
unui test poate sa fie mai scazuta decat 1 din cauza shimbarilor reale care pot avea loc. In
felul acesta pentru evaluarea sigurantei testarii trebuie sa tinem cond de proba de la care a
fost obtinuta si de insasi natura variabilei.
2. Factori care contribuie la erorile de masurare
Trebuie acum sa discutam despre acei factori care contribuie la nivelul scazut al
sigurantei testarii si retestarii, ducand la erorile de masuratoare. Unele sunt clare si
necesita putine discutii. Unii subiecti nu se simt in largul lor atunci cand sunt testati si
aceasta reduce performanta lor. Motivele tipice pentru acestea sunt factorii fizici cum ar fi
racelile, durerile de cap; problemele familiale sau emotionale de asemenea afecteaza
rezultatele. Simpla oboseala dupa o noapte de nesomn... iar lista nu se termina aici. Alti
factori de natura similara de asemenea pot reduce calitatea rezultatelor; un scaun mai putin
4
instructiunile de rezolvare a testelor sarace, in asa fel incat subiectii nu inteleg usor
ceea ce trebuie sa faca. Aceasta poate duce la subiecti care rezolva testele deosebit
de bine la un moment dat fata de alta ocazie. Alta sursa similara de eroare are loc
cand testele necesita o forma complicata de raspuns din partea subiectilor. De
exemplu, daca un subiect trebuie sa bifeze fie a sau b dintre raspunsurile de pe o
foaie sunt sanse foarte mici pentru greseli. Oricum, cateodata raspunsurile testelor
sunt atat de complexe incat asta este sursa dificultatii.
b.
care permit aparitia de diferente intre cei care noteaza, fie ei diferiti, fie aceeasi
persoana care noteaza rezultatelor in diferite cazuri. Bineinteles ca aceasta
dauneaza inaltei sigurante si cele mai multe teste psihologice folosesc elemente
obiective de notare din acest motiv.
c.
Aceasta este cand lasi o foarte mica perioada de timp intre doua testari. In cazul
5
acesta corelatia este crescuta din cauza ca subiectii si-au amintit cateva din
raspunsuri. Cel putin o perioada de 3 luni este recomandata pentru o fiabilitate de
incredere a testarii retestarii.
b.
corelare apare din partea mostrelor de unde au fost obtinute. Cateva exemple vor
clarifica acest punct. Daca avem un test care este creat pentru niste grupuri clinice,
atunci este esential ca coeficientul de testare-retestare sa fie obtinut din grupurile
acelea. De altfel schizofrenicii sunt in mod notoriu recunoscuti ca dificili de evaluat la
teste. Cu un astfel de esantion este inevitabil ca siguranta testului sa fie scazuta.
Psihologul clinic trebuie sa tina seama de aceasta problema atunci cand
interpreteaza rezultatele testului acestor subiecti asa cum am descris pe larg in
capitolul in care se ocupa cu utilizarea si interpretarea testelor psihologice in
domeniul clinic. Astfel, un coeficient de siguranta extras dintr-o mostra normala
pentru un test creat pentru a fi folosit pentru mostre alese aleator va fi inselator.
d.
contin erori standard, indicand cat de demne de incredere sunt rezultatele. Formula
si explicatia erorilor standard pot fi gasite in glossarul statistic de la sfarsitul cartii. In
orice caz, putem spune ca, cu cat numarul de subiecti este mai mare cu atat erorile
standard statistice vor fi mai mici. Acum, aceasta inseamna ca este esential ca
coeficientii de siguranta a testarii-retestarii sa provina dintr-un esantion suficient de
mare care sa reduca erorile statistice. In practica, aceasta inseamna ca mostrele
trebuie sa contina cel putin 100 de subiecti.
In aceasta etapa a discutiei noastre trebuie remarcat un aspect mai general
referitor la esantionare, deoarece aceasta afecteaza multe metode si rezultate in
psihometrie. O deosebire trebuie trasata intre populatii si esantioane. Daca suntem
interesati in inteligenta diferentiala (daca exista) a baietilor si fetelor de 12 ani, atunci
sunt implicate doua populatii: baieti, de 12 ani si fete, de 12 ani. In mod clar este
6
imposibil de masurat aceste populatii in totalitate si din acest motiv se vor alege
esantioane.
Acum, asa cum am aratat, cu referire la erorile standard ale coeficientului de
siguranta, esantioanele trebuie sa fie suficient de mari pentru a minimiza erorile
standard. Oricum, marimea, luata in mod individual, nu este suficient ca sa asigure ca o
esantionare corecta. Marimea doar minimizeaza erorile standard. Daca mostra nu este
reprezentativa pentru populatie, orice statistica derivata din ea va fi distorsionata. Ca sa
folosim exemplul nostru cu inteligenta inca o data, daca obtin o mostra de baieti din
Scoala din Manchester care isi selecteaza copiii dupa criteriul inteligentei, atunci oricat
de mica va fi eroarea standard a statisticii, mostra va fi total nereprezentativa pentru
baietii de acea varsta si astfel testul va fi fara valoare. Aceste esantioane trebuie sa fie
mari
si
reprezentative
pentru
populatia
lor.
Cum
sunt
selectate
mostrele
conditie esentiala a validitatii ridicate a testelor. Aceasta mai departe este realizata de
teoria clasica a psihometriei care este pe larg dezbatuta in Capitolul 3 al acestei carti, si
multi constructori de teste folosesc introducerea consistentei interne ca pe un criteriu de
7
a retine elementele unui test, asa cum de asemenea va fi pe larg descris in capitolul cu
lucruri necesare al acestei carti.
Exista doar o singura voce semnificativ discordanta in aceasta aparent puternica
controversa, si anume: consistenta interna trebuie sa fie ridicata. Catell (Catell si Kline
1977) care este una din marile personalitati in psihometrie, intotdeauna a argumentat
ca o consistenta interna foarte inalta este de fapt contradictorie cu validarea. Cele mai
multe teste masoara variabile de o anumita amploare, de exemplu extrovertirea,
anxietatea sau inteligenta. Fiecare element din oricare din aceste teste trebuie sa fie
mai restrans sau mai specific decat aceste variabile. Astfel, daca toate elementele au o
consistenta ridicata, ele trebuie sa fie si intr-o corelatie ridicata iar testul va fi restrans si
specific si ca urmare nu va fi valid. Este o forta considerabila in aceasta controversa.
Sunt, fara indoiala, multe teste ale caror elemente nu depasesc cu mult stadiul de
interpretari ale celorlalte. In mod nesurprinzator aceste teste au o consistenta interna
ridicata, dar sunt foarte specifice (Catell, 1973, le denumeste a fi specific umflate) si cu
o validitate scazuta. In orice caz nu trebuie sa facem eroarea logica de a asuma ca,
pentru ca in unele cazuri o inalta siguranta precede validitatea, asta se intampla in toate
cazurile. Nu toate testarile valide sunt specific umflate.
Revendicarile lui Catell sunt sustinute de un numar de argumente. In primul rand,
asa cum vom arata mai jos, indicele sigurantei consistentei interne creste odata cu
cresterea corelatiilor intre elemente. In plus, in orice studii cu multe variate, unde dorim
sa maximalizam corelatia sau prognoza criteriilor unui set de teste, aceasta se
realizeaza cel mai bine atunci cand corelatia dintre teste este zero. Un moment de
gandire ne arata de ce trebuie sa fie asa. Sa presupunem ca avem doua teste care
sunt perfect corelate. Ar fi fara sens sa le folosim pe amandoua pentru ca cel de-al
doilea test nu ne va aduce nici o noua informatie. Atunci in mod clar predictia maxima
trebuie sa aiba loc atunci cand corelatiile intre teste sunt zero. Acum, un test poate fi
vazut ca un set de elemente cu care noi intentionam sa previzionam scorul criteriilor
testarii.
Aceasta, in mod similar, se realizeaza cel mai bine cand fiecare element este
corelat pozitiv cu scorul total si zero cu fiecare dintre ceilalte elemente. Un astfel de test
va avea inevitabil o consistenta interna scazuta.
Se pare ca Catell este corect din punct de vedere teoretic si argumentele lui sunt
dificil de dezmintit. Cu toate acestea, dupa stiinta mea, nici un constructor de teste nu a
fost in stare sa realizeze un test in care elementele sunt in corelatie cu scorul criteriilor
dar nu intre ele. Catell a sustinut intotdeauna ca testele lui, in mod particular testul 16PF
de personalitate (Catell 1970) au urmat aceste principii. Cu toate acestea, o investigare
atenta a testelor facuta de Barrett si Kline (1982) arata ca nu a fost un succes in
8
intregime. Exista putine sanse ca acest test poate fi imbunatatit - doar daca scalele lui
ar avea mai multa consistenta interna.
In general, de aceea, in ciuda acestor avertismente, se poate concluziona ca,
asa cum multi psihometristi au sustinut, o inalta consistenta interna a sigurantei este
necesara, dar nu suficienta pentru teste valabile.
Masurarea sigurantei consistentei interne.
Asa cum a fost in cazul masurarii sigurantei testarii-retestarii, toti indicii trebuie sa
fie calculati pe esantioane de subiecti care sunt semnificativi pentru populatia careia
testul a fost alcatuit si sa fie suficient de mare ca sa minimalizeze erorile statistice. Un
numar minim de persoane prelevate trebuie sa fie de 100 de subiecti.
Masurarea sigurantei consistentei interne nu poate fi inteleasa in intregime fara a
se face referire la teoria clasica a testului psihometric (Nunally, 1978) care este descris
in Capitolul 3. Prin urmare vom discuta masurarea ei in acest capitol. Coeficientul alfa
(din formula care poate fi gasita la sfarsitul acestui capitol si in anexa statistica) este cel
mai bun index al consistentei interne dar putem doar descrie pe scurt aici o simpla
aproximare a coeficientului alfa care a fost folosit de constructorii de teste inainte de
epoca calculelor rapide. Aceasta ne ofera o buna indicare a naturii sigurantei
consistentei interne. Aceasta este injumatatirea fiabilitatii.
Injumatatirea fiabilitatii
Aici este un test despartit in doua si cele doua parti sunt corelate. Este posibil sa
impartim testul folosind prima jumatate a sa sau a doua jumatate sau, mult mai comun,
sa folosim rezultatele elementelor pare si impare. Aceasta este important in mod
deosebit la un test de abilitate unde elementele sunt deseori aranjate in ordinea
dificultatii. In mod clar, in cazul acesta exista o slaba corelare intre prima si a doua
jumatate a testului.
Exista un numar de probleme cu estimarea sigurantei separarii in doua jumatati,
ceea ce inseamna ca aceasta este doar o aproximare in mare a validarii fiabilitatii
testului.
1.
Numai una din jumatati este folosita. In mod clar un set de elemente
pot fi injumatatite intr-un numar de feluri. Toate aceste jumatati ne dau estimari
diferite a sigurantei testului iar cele pare-impare si a doua jumatate sunt numai
alegeri arbitrare, alese pentru ca sunt convenabilitatea lor. Acesta este un defect
9
evident al sigurantei testarii prin impartire in doua. In orice caz trebuie spus ca in
experienta mea de constructor efectiv de teste, siguranta testarii prin impartirea in
doua si coeficientul alfa au diferit numai la a treia zecimala, o abatere fara interes
practic sau teoretic.
2.
testul cu atat este mai sigur. Aceasta inseamna ca siguranta testarii prin impartirea in
jumatate
corelat cu nimic altceva mai ridicat decat el insusi. Astfel, siguranta consistentei
interne a unui test limiteza validitatea sa, din moment ce in mod esential, validitatea
unui test este masurata de corelarea acesteia cu un criteriu de un anumit fel. In
ciuda pericolului de marire a sigurantei a unui test prin crearea de elemente foarte
asemanatoare intre ele, in acest caz validitatea testului fiind redusa, siguranta ar
trebui sa fie in mod ideal ridicata, in jurul nivelului 0.9, in mod special pentru testele
de abilitate. Cu siguranta coeficientul alfa nu trebuie niciodata sa cada sub 0.7, o
valoare pe care s-a pus accentul de Guilford (1956) si Nunnally (1978). Explicatiile
rationale si dovezile in favoarea acestui argument sunt aratate in teoria psihomatrica
si sunt date in Capitolul 3.
2.
sunt limitate de fiabilitatile lor este posibil sa fie corectata corelatia pentru aceasta
atenuare. Motivul pentru a face astfel este acela ca in cazul daca investigam, spre
exemplu, corelatia intre abilitatile de citire si inteligenta, dorim sa aflam reala
relationare mai degraba decat cea obtinuta prin masurarea limitata de fiabilitatea
scazuta a masuratorilor. Cu toate ca situatia este asta, aceste cifre sunt estimative si
investigatorii mai prudenti prefera sa se bazeze mai mult pe date. Raspunsul corect
la aceasta problema este sa se dezvolte niste teste cu siguranta ridicata la care sa
nu mai fie necesara aplicarea corectiei. Explicatiile rationale ale acestei corectii
10
folosit pentru realizarea unei zone de acuratete atribuita rezultatelor obtinute dintr-un
test. Daca am fi dat un numar mare de teste cu aceeasi variabila unui subiect vom
obtine o distributie a rezultatelor si valoarea medie a acestei distributii va fi cea mai
buna estimare a starii lui fata de variabila. Aceasta eroare standard de masurare
este deviatia estimata standard a rezultatelor daca unei persoane i se va fi dat un
numar mare de teste. Deviatia standard (S.D. sau sigma) este o masura a variatei
unui set de rezultatelor, variatia lor fata de medie. Formula pentru deviatia standard
se poate gasi in anexa statistica. Intr-o distribuire normala, 68% din rezultate se
situeaza intre medie si o deviatie standard, 95% intre medie si doua deviatii
standard. Astfel eroarea standard de masurare ne permite sa stabilim limite de
acuratete pentru un scorul obtinut, 68 % din rezultate situindu-se intre limita scorului
obtinut si o eroare standard. Daca acest nivel este scazut putem fi siguri ca acest
scor este precis. In orice caz trebuie mentionat ca, asa cum Nunnally (1978) a
subliniat, acesta utilizare a erorilor standarde ale masurarilor, pentru a stabili zonele
de acuratete cu larga utilizare in practica, nu este teoretic total corect, o problema ce
va fi examinata ulterior in Capitolul 3.
Aceasta eroare standard a masuratorilor deriva din siguranta testarii. Cu cat
siguranta este mai crescuta cu atat eroarea standard este mai scazuta. Explicatiile
rationale sunt comentate in Capitolul 3 si formula poate fi gasita in anexa statistica si la
sfarsitul acestui capitol. Evident, acolo unde se iau decizii referitoare la indivizii pe baza
rezultatele testelor acestora, aceasta eroare standard a masuratorilor trebuie sa fie cat
mai mica cu putinta. De aici si motivul ca siguranta trebuie sa fie pe cat posibil ridicata.
Siguranta paralela
Este adeasea de folos, in mod special intr-un cadru aplicat, sa avem diferite
versiuni are aceluiasi test. De exemplu, daca monitorizam psihoterapia, un test de
anxietate sau depresie poate fi de folos, facut la intervale regulate. Pentru a folosi
acelasi test de mai multe ori este evident dificil, forme paralele fiind solutia acestei
problemei. Oricum, ca sa facem comparatii de rezultate reale, corelatia dintre diverse
forme trebuie sa fie ridicata (la fel ca si media, deviatia standard
si distributia
rezultatelor). Aceasta corelatie este fiabilitatea formei paralele. Cand scade sub 0.9 este
dificil sa presupui comparabilitatea scorurilor. Putine teste dau siguranta paralela a
formelor atat de ridicata; desi cu un imens progres in domeniul calculelor, constructia
11
formelor paralele adevarate este mult mai usoara decat era, asa cum se va discuta in
capitolele noastre de construire ale testelor.
12
FORMULE
13
CAPITOLUL 2
VALABILITATEA TESTELOR PSIHOLOGICE
In capitolul precedent am aratat ca fiabilitatea, in ambele sale sensuri, a fost
esentiala daca un test a trebuit sa fie valid, chiar daca in anumite circumstante o foarte
mare consistenta fiabila poate duce la o scadere a validitatii. In acest capitol notiunea de
validitate va fi analizata si descrisa. Ii va fi elucidat intai intelesul si apoi explicate legaturile
in testarea fiabilitatii. Va fi discutat felul in care este evaluata validarea si va fi examinata
importanta acesteia.
SENSUL VALIDARII
Despre un test se spune ca este valid daca masoara ceea ce pretinde ca masoara.
Acest fapt nu este atat de banal precum pare la prima vedere, asa cum se va vedea in
cuprinsul acestei carti, multe teste psihologice avand o validitate surprinzator de scazuta.
Intr-adevar, realizarea unor teste valide, a procedurilor descrise pe larg in capitolele ce
urmeaza, nu este o problema simpla.
Primul lucru care trebuie discutat se refera la masurari. Cat de adevarat putem
spune daca un test este valid sau nu? Un exemplu va ilustra cateva din problemele care
sunt implicate. Sa presupunem ca am realizat un test de constientizare, o variabila care s-a
dovedit a fi de o mare importanta in intelegerea personalitatii (Norman, 1963). Nu este clar
cum un asemenea test poate fi valid. Ce poate face sarcina mai usoara sunt unele
masuratori independente ale constientizarii, dar daca acestea pot fi obtinute cu usurinta, un
test va fi necesar foarte greu. Oricum, nu este absurd sa vorbesti despre oameni mai mult
sau mai putin constienti, si multi dintre noi facem astfel de rationamente in viata de zi cu zi,
o forma de evaluare a acestei variabile fiind posibila. Aprecierea constiintei de catre oameni
care il cunosc pe subiect bine este o solutie de rezolvare a problemei: putem corela scorul
din teste cu evaluarile. Asta insa presupune ca scorurile sunt valide, o supozitie care nu
poate fi facuta in mod obisnuit.
Acest exemplu a fost mentionat doar pentru a arata ca pentru o demonstra
validitatea unui test psihologic, de exemplu masurarea validitatii lui, nu o procedura directa,
spre deosebire de fiabilitate, unde evaluarea fiabilitatii unui test este in esenta o problema
tehnica.
Exista metode variate ca sa se arate daca un test este valid si folosirea lor va fi
discutata acum. In acest moment trebuie sa se sublinieze faptul ca, spre deosebire de
fialbilitate, nu exista un coeficient al validitatii pentru un test. Aceasta pentru ca, asa cum
14
Vernon (1960) comenta, un test este totdeauna valid pentru un scop si astfel este este mai
valid in anumite circumstante fata de altele. Trebuie sa se retina ca aceste abordari diferite
care masoara sau indica validitatea unui test sunt in esenta tipuri difeite de validare.
Validarea prin prezenta
Despre un test se spune ca valideaza prin prezenta daca arata ca masoara ceea ce
pretinde ca masoara. De fapt nu exista o legatura logica intre o confruntare valida si
validitate reala, cu toate ca in anumite conditii poate exista o corelatie pozitiva intre ele, pe
cata vreme in alte circumstante, cum ar fi o selectie, confruntarea valida poate fi un real
dezavantaj ( Cattel and Warburton, 1967).
Avantajul pe care validarea prin prezenta o aduce intr-un test este ca poate sa
creasca motivatia subiectilor; si o motivatie mare, in care toti subiectii incearca sat termine
testele bine si cat mai prcis posibil, este esential pentru o testare valida. De exemplu,
daca incercam sa selectionam piloti dintr-un personal de inalta pregatire, testele validarii
prin prezenta de urmarire a abilitatilor sau a rapiditatii reactiilor vor asigura intreaga
colaborare pentru ca subiectii le considera indicatori valabili ale capacitaii de zbor. Daca, in
schimb, un test le va cere sa faca zgomote ca ale unor animale sau sa adune numere in
timp ce sunt distrasi prin glume (test obiectiv original in Compendiul de acest gen de teste
ale lui Cattel si Warburton, 1967) multi vor refuza, considerandu-le absurde chiar daca ele
erau valide. In general cei mai multi adulti se impotrivesc la completarea testelor care par
sa fie ridicule si consumatoare de timp. Chiar daca sunt fortati sa le faca, ca in procedurile
de selectie, atitudinea lor fata de teste este in antiteza cu validitatea inalta. Singurele
exceptii de la asta sunt elevii si copiii. Copii sunt obisnuiti cu indeplinirea sarcinilor de
neinteles si elevilor, mai ales in Statele Unite, le sunt cerute sa completeze teste si sa ia
parte in alte experimente psihologice ca parti ale cursurilor. Acesti student sunt obisnuiti cu
orice.
Din toate aceste argumente poate reiesi faptul ca validarea prin prezenta este un
aspect foarte necesar testelor, daca ele trebuie sa fie valide. Nu este insa asa. Asta pentru
simplul fapt, din definitie, subiectii doar pot sa ghiceasca ce un test de validare prin
prezenta masoara. Ca urmare este probabil sa se prefaca sau sa distorsioneze in mod
deliberat, mai ales la selectii. In ce masura astfel de distorsiuni afecteaza notarea testelor
depinde foarte mult de ceea ce se masoara. In domeniul abilitatilor face o mica diferenta
faptul ca cineva stie ca un element care masoara inteligenta nu afecteaza abilitatea
respectivului de a-l rezolva corect. In domeniul personalitatii, insa, nu poate fi vorba de asa
ceva. De exemplu, un test de validare prin prezenta de anxietate pentru selectionarea
pilotilor civili, unde toti presupunem de dragul discutiei ca toti pilotii de avioane au anxietate
15
Daca acesti
coeficienti au fost corectati pentru atenuare datorita nefidelitatii, atunci aceste corelatii se
vor apropia de unitate ( de 1 unu) , de exemplu testul va fi identic si validitatea perfecta va fi
confirmata. Rationamentul acestei corectii trebuie gasit in capitolul fiabilitatii iar formulele
sunt date in anexele statistice al acestui manual. Oricum, in practica validitatea de
coeficient 1 este extrem de rara. De aceea trebuie sa ne gandim cat de mare trebuie sa fie
corelatia inainte ca aceasta sa indice ca un test este valid.
Aceasta problema nu are un raspuns simplu din moment ce depinde, intr-o oarecare
masura, de calitatea testului de criteriu, cu care noul test trebuie corelat.Si aceasta
dificultate a testului de criteriu reprezinta mai departe o problema relationala. Daca testul de
criteriu este un test de referinta pentru variabila ce urmeaza sa fie masurata, asa cum ar
16
trebui sa fie daca validitatea concurentiala trebuie sa fie un bun reprezentant al validitatii,
atunci corelatia trebuie sa fie cat mai mare posibil, in jurul a 0.9, care indica, asa cum se
arata mai sus, o identitate virtuala. In practica, corelatia mai mare de 0.75 va fi considerata
ca un bun suport pentru validitatea concurentiala a unui test in care se regasesc criterii de
referinta ale testului. Oricum, in cele mai multe domenii ale psihologiei nu exista asemenea
teste si chiar acolo unde exista, problemele nu sunt atat de simple pe cat ne asteptam.
Probleme care exista in cazul testelor valorilor de referinta
Aproape singurul domeniu in care la teste acceptate exista un asa de inalt grad de
corelatie al validitatii indicate este domeniul inteligentei. Aici doua teste de inteligenta
individuale, Wechsler Scale (Wechsler, 1976) si Stanford Binet (Terman and Merrill, 1960),
sunt general acceptate ca masurand ceea ce psihologii inteleg prin inteligenta. Si aici insa
se intampina unele greutati. Ambele teste, oricat de excelente ar fi, au radacinile mergand
inapoi mai mult de o jumatate de secol iar conceptul modern de inteligenta, atat factorial cat
si cognitiv, nu sunt total in concordant cu ele, desi sunt folosite pe scara larga. Astfel cei
care adopta cea mai moderna si mai sustinuta viziune a inteligentei, respective cei doi
factori: abilitatile fluide si cristalizate (Cantell, 1971) sau cerintele mai recente ale lui
Undheim (Undheim ,1981) conform carora aceasta abilitate fluida reprezinta vechiul factor
g al inteligentei, descries de Spearman (1927), nu vor fi atat de multumiti cu aceste teste
si criterii.
In multe alte domenii troneaza confuzia, desi in zona masurarii personalitatii este un
consens crescut ca doua variabile nevroza sau anxietatea si extraversion au o importanta
particulara (Kline si Barett, 1983). Inca de la chestionarul de personalitate al lui Eysenck
(EPQ) (Eysenk si Eysenck, 1975), este larg acceptat ca o inalta validitate a masurarii a
acestor doua dimensiuni ale personalitatii este posibil sa se folosesca ca un criteriu al
testelor. Testele Benchmark pot de asemenea sa fie folosite in studiile de construire valide,
asa cum va fi descris in ultima parte a acestui capitol.
In orice caz daca acceptam argumentul ca acolo este un numar mic de teste foarte
bine structurate ca masurari valide care concura studiile de validitate sunt semnificative si
in continuare sunt probleme.. In primul rand, daca un test este atat de bun incat sa fie luat
ca fiind standard, care este punctul unui nou test? In mod clar, orice diferenta a testelor
trebuie sa aiba niste calitati speciale care sa le diferentieze de testul de criteriu. In cazul
testelor noastre de inteligenta este o posibilitate originala. Asa ca amandoua aceste doua
teste vor fi administrate individual ceea ce este o pirdere de timp (consumatoare de timp).
Un grup de teste de inalta validitate ar trebui sa fie prin urmare, valoroase. In plus
17
amandoua testele sunt lungi, ele luand cam 45 de minute, o ora. O prezentare scurta de 5
minute a testului grupului ar fi un real ajutor pentru obtinerea unui test bun.
Testul EPQ, pe de alta parte, este un test pentru un grup, de scurta durata. Un test
care a fost mai putin evident si mai putin vizibil valid a necesitat imbunatatiri in construirea
lui, de fapt, este mai potrivit pentru folosirea pe portiuni, de exemplu.
Asa ca vom concluziona ca acolo unde exista criterii de teste acceptate de validitate,
validitatea concurenta este o forma folositoare a unui test de validitate. Corelatiile trebuie
sa fie inalte (0.75 este minimumul) si testul trebuie sa aiba alte avantaje comparativ cu
testul de criteriu.
Probleme care nu sunt acceptate in testele valorilor de referinta
Asa cum a fost stabilit clar, in vasta majoritate a cazurilor testele vor fi masurate
variabil, in care nu exista un criteriu de test cu validitate acceptata. Aici, prin urmare, pentru
a fi stabilita validitatea concurenta este nevoie de o linie diferentiata de rationament.In
cartea lui Buros Mental Measurement Yearbooks, care este publicata la fiecare 5 ani
( Buros, 1978), si care contine descrieri si comentarii ale testelor publicata in Marea Britanie
si in SUA, arata clar ca testele contin aproape toate variabilele care pot fi crezute, asta fiind
si reflectat in dictonul lui Thorndike, iubit de psihometristii adevarati: daca ceva exista,
trebuie sa existe intr-o anumita cantitate si trebuie sa fie masurabil. Este de altfel clar, ca in
aceste publicatii majoritatea testelor sunt de o moderata siguranta si chiar o scazuta
validitate. Prin urmare, in incercarea de a stabili validitatea concurenta a unui test, in
practica normala avem de corelat testele experimentale cu una sau mai multe masuratori
ale unei valabilitati dubioase, o situatie foarte diferita de cele avute in vedere in cele mai
multe relatari teoretice de valabilitate.
Cel mai bine de facut ar fi sa se coreleze noile teste cu orice test care a putut fi
incropit, care are o masurare imperfecta a variabilei si care sa contina corelatii moderate in
jurul datelor 0.4 sau 0.5. Aceasta, prin urmare, este o manifestare nesatisfacatoare ca
indice de valabilitate. De sine singure, corelatii moderate a acestei marimi nu poate atesta
validitatea instrumentului. Ar trebui sa fie luate in considerare alaturi de alte dovezi de
valabilitate. Pe de alta parte daca acest lucru este facut, corelatiile vor deveni parte din
valabilitatea de construct a testului, o abordare a acestei valabilitati va fi examinata mai jos.
In concluzie, valabilitatea concurenta este singura folositoare unde criteriul unui test
bun, exista. Unde nu exista studii concurente de valabilitate este bine sa se considere ca
cele mai bune aspecte ale valabilitatii constructului.
18
Validare anticipativa
Se poate spune despre un test ca are valabilitate anticipativa daca el anticipa
anumite criterii sau altele. In vreme ce anticipatia se cere mereu ca o parte importanta a
metodei stiintifice, anticipatia adeseori este considerata ca un indicativ de intelegere (in
ciuda faptului ca rasaritul soarelui poate fi prevazut in mod empiric, fara sa intelegem),
valabilitatea anticipativa este o buna sustinere a eficientei unui test. Pe de alta parte, ca in
cazul valabilitatii concurentei nu este asa de simplu cum ar parea.
Dificultatile erup din aceeasi problema gasirea unui criteriu clar pentru predictie. In
primul rand voi lua cazul testelor de inteligenta care exemplifica multe dintre dificultati si
solutiile lor. Valabilitatea anticipativa a unui test de inteligenta se poate demonstra coreland
rezultatele testului de inteligenta a unui grup de copii de 5 ani, cu succesul lor academic
ulterior. Aceasta prezumtie de succes academic depinde, in parte cel putin, de inteligenta.
Masurarile succesului academic poate fi functie de anul de invatamant, numarul de subiecti
care au trecut examenele de examinare.Din moment ce, evident, inteligenta este numai un
factor in succesul academic, o corelatie insemnata dar de marime moderata de aproximativ
0.3 sau 0.4 va fi de asteptat. Asa un rezultat nu se poate referi ca fiind o dovada pentru
validitatea anticipativa a testului.
Sunt cateva puncte ce ar trebui punctate despre acest exemplu.
1.
clara. De exemplu: acesta trebuie sa fie cazul in care, chiar daca vom folosi nivelul
claselor ca si criteriu de punctaj, exista probleme considerabile. Intre subiecti exista
diferente. Este foarte probabil ca o diploma in fizica reprezinta intelectual mai mult
decat o diploma in studii de turism, de exemplu. Aceasta cu siguranta poate avea
rezultate care pot uimi. In mod similar chiar intre aceeasi subiecti pot exista diferente
intre institutii. Chiar daca aceasta este negat in Marea Britanie, este un adevar in
SUA. Intre nivelul institutiei Harvard si Colegiul Liberal nu se pot face comparatii.
Astfel, chiar si intr-un domeniu cum ar fi succesul educational in care exista criterii,
este o problema clara de masurare. Aceasta problema dificila este majorata de multe
ori in zona de activitate unde nu este evidenta masurarea in prima instanta.
2.
pot fi un sprijin in stabilirea validitatii unui test. Unii autori (Howe, 1988) a incercat sa
argumenteze ca acel fel de corelare nu sprijina validitatea predictiva a unui test. Mai
degraba corelatiile pot fi mai bine explicate in termenii unei influente comune, ceea
ce afecteaza si testul si succesul academic. De altfel un posibil argument este
contrar evidentei in ceea ce priveste succesul academic unde variabilele
motivationale si variabilele personalitatii sunt separate de IQ (Catell si Butcher, 1968)
si variatia nu a putut fi explicata functie de clasele sociale (Vernon 1961). In orice
caz, adevarul sau neadevarul acestor pretinse numaratori nu este strict relevanta
pentru aceasta sectiune. Ele indica faptul ca chiar si intr-un caz relativ clar, un astfel
de succes educational de valabilitate predictiva inseamna ca nu are echivoc. De
asemenea ele indica ca o analiza atenta statistica, factorizand variabilele, sau
pastrand clasele sociale constante in corelatii, poate raspunde la aceste puncte
empiric. O discutie plina a factorului analizei pot fi gasite in capitolele 7 si 8 ale
acestei carti.
Sa incerci sa stabilesti validitatea predictiva a testelor de inteligenta nu este o
problema dificila in comparatie cu cerintele celor mai multe variabile. Voi examina cum
validitatea testelor anticipative EPQ (Eysenck si Eysenk, 1975) poate fi stabilita.
Nevroza este cel mai dificil dintre variabilele testului pe care acest test o masoara.
Asadar o buna masura a validitatii ei predictive ar putea fi propria ei corelare, dupa un
an sau doi, impreuna cu criteriul de admitere intr-un departament psihiatric
pentru
variabile de personalitate, este dificil de intrevazut cum studiul validitate predictiva poate
fi instituit. In mod clar, pentru o variabila de genul acesta abordarea pentru stabilirea
validitatii nu este folositoare. Asa cum se intampla in multe variabile psihologice de
acest tip chiar si stabilirea validitatii anticipativa convingatoare este imposibil.
Asa cum am vazut in multe teste psihologice se arata o dificultate similara
impreuna cu validitatea concurenta. Este clar ca masurarile alternative de vaiditate se
cer si astea vor fi discutate acum.
Validitatea de continut
Validitatea de continut este aplicabila numai la un nivel redus de teste unde
domeniul elementelor este foarte bine definit. Testele de castigare si abilitati sunt de
felul acesta. Un test de abilitate muzicala este un tip de masura in care este valoroasa
stabilirea validitatii de continut, desi, chiar daca aceasta a fost realizata, anumiti indici
de valabilitate sunt necesari in continuare.
Pentru a demonstra validitatea de continut a unui test musical (probabil pentru
studentii care au studiat subiectul de-a lungul a 3 ani) vom da testul la un numar de
muzicieni si ii vom ruga sa spuna daca testul acopera toate aspectele importante ale
abilitatii muzicale care se asteapta in mod rezonabil de la un student cu o lunga
experienta. Ei pot indica unde cred ei ca testul poate avea niste scapari sau unde
materialul de testat nu este important sau potrivit pentru populatie. In acest fel vom
putea garanta ca continutul testului este pertinent si relevant pentru scopul pe care si l-a
propus.
Motivul pentru care un test de aptitudine muzicala este un candidat potrivit pentru
validarea continutului il reprezinta existenta unei bune masurari ale intelegerii referitoare la
pregatirea de baza si la cunostinte, ca si in cazul limbajului si a abilitatilor matematice.
Intr-un anumit fel putem sa ne gandim ca validarea de continut este putin mai mult
decat o forma elaborata a validarii fata in fata. Oricum, nu este asa. Daca elemental din
textul musical ii cere subiectului sa recunoasca un anumit accord, este de fapt un exemplu
al abilitatii de recunoastere a acordului. Daca elementul, si altele ca el (un test pe un singur
element nu este niciodata de incredere, asa cum este aratat in Capitolul I) au raspunsuri
corecte, rezulta faptul ca subiectul recunoaste acordurile. In cazul validarii de continut asa
se face ca validarea de suprafata si de continut se suprapun. Asa ceva este foarte diferit
fata de un test de personalitate de genul Te simti cateodata nelinistit, fara un motiv
anume? Acesta este un element de validare de fata in fata pentru masurarea anxietatii.
Trebuie insa sa se demostreze in mod empiric ca este, de fapt, valid. Aceasta pentru ca,
21
asa cum va fi pe deplin discutat in manualul de fata in capitolul de realizare de teste, astfel
de element poate fi distorsionat prin minciuna deliberata, de o impresie personala gresita,
de moduri de a da raspunsuri acceptate social sau de a fi de accord cu aceste elemente
fara a tine seama de continut, sau din ignoranta: un subiect temator poate considera un
nivel de anxietate - pe care altii il gasesc intolerabil aproape normal si astfel sa dea un
raspuns negativ. Bineinteles, nimic din toate acestea nu se pot intampla si elementul sa fie
valid. De aceea demostratia empirica este necesara.
Oricum, chiar si atunci cand un test are un continut clar de validitate este
recomandat sa se demostreze ca este valid prin alte mijloace. Cu teste de deprinderi si
abilitati aceasta nu este greu in mod obisnuit: validarea anticipativa fata de criteriile ale unui
examen public sau evaluarea profesorului este de obicei posibila. Un singur punct mai
necesita o scurta discutie. Daca in aceste teste validarea anticipativa este o procedura
viabila este firesc sa ne intrebam de ce validarea de continut trebuie sa fie definita.
Raspunsul este ca validarea anticipativa este necesara doar pentru ca un test de validare
de continut a devenit fals datorita instructiunilor sau a modurilor slabe in care s-a raspuns.
De fapt validarea pe care o cautam este validarea continutului, acolo unde este relevant, si
ar trebui sa fie sustinuta cu dovezi ale validarii anticipative sau convergente.
Validare incrementala (suplimentara) si diferentiala
Aceste sunt forme mai degraba specializate ale validarii (explicate bine de Vernon,
1961), de o importanta particulara in selectarea procedurilor din motive care vor deveni
evidente. Daca am dat o baterie (grup) de teste intr-o procedura de selectie poate duce la
gandul ca un test care s-a corelat doar intr-un mod moderat cu criteriile a fost inutil. Oricum,
daca acest test a avut corelatia zero cu toate celelalte teste din grup, aceasta corelatie
scazuta poata sa aduca noi informatii si astfel sa fie valabila. Cand se intampla asta,
despre test se spune ca are validare incrementala.
Este un lucru important de remarcat la acest exemplu. Primul ilustreaza afirmatia ca
nu exista un coeficient unu al validarii ci ca un test este totdeauna valid pentru unele
scopuri. Astfel, validarea incrementala a acestui test se aplica la selectiile facute pentru un
job specific. Are un grad si mai mare de particularizare. Se aplica la la selectia pentru acest
job impreuna cu grupul (de teste). Daca unele teste din grup au fost schimbate, cele noi pot
corela cu testul si astfel validarea incrementala poate dispare. Metoda statistica folosita sa
se demonstreze validarea incrementala este regresia multipla. Formula pentru aceasta
poate fi gasita in Anexa Statistica si intregul process este dicutat in Capitolul 22.
Merita sa fie ramarcat faptul ca motivul atribuirii importantei validarii incrementale a
unui test, chiar si cand corelatia cu criteriile este scazuta, este identica cu acea refeitoare la
22
elementele ideale discutate in primul capitol. Aici s-a discutat ca in pofida cererii de
omogenitate ridicata, elementele ideale trebuie sa fie in corelanta cu scorul total al testului
dar sa fie in corelanta zero cu fiecare dintre ele. Cu alte cuvinte fiecare element are validare
incrementala.
Validarea diferentiala nu este un concept deosebit si a fost exemplificata prin teste
interesante. Acestea coreleaza moderat cu succesul universitar dar da rezultate atat de
diferite la subiecte diferite. Astfel se poate spune ca poseda validare diferentiala pentru
performante academice. Testele de inteligenta, pe de alta parte, au mai inalta corelare cu
succesul academic la universitate dar nu pot face diferentieri intre subiecti. Este un lucru
foarte putin surprinzator datorita naturii inteligentei si a interesului. Astfel inteligenta este
privita ca un factor implicat in mod virtual in toate performantele intelectuale, datorita
ubicuitatii sale (Kline, 1990). Interesul in stiinta, doar ca exemplu, este greu sa fie corelat cu
performanta in muzica sau istorie, desi ne asteptam la corelatii de success in stiinta.
Validitate structurala
Trebuie sa reiasa clar, din ce s-a spus pana acum despre diverse feluri de validari,
ca este in continuare o mare varietate de teste pentru care nici una dintre aceste metode
nu este potrivita. Pentru a depasi aceasta dificultate importanta, Cronbach si Meehl (1955)
au introdus notiunea de validare structurala. Trebuie intai explicat sensul lui structural .
Termenul structura este practic sinonim cu cel de concept. In stiinta structurile sunt in
mod frecvent obiectul de investigatie sau studiu dar sunt de folos numai atunci cand sunt
foarte bine definite. Un bun exemplu al unei structuri este notiunea de specie. Este de bun
simt sa investighezi aceasta structura si sa vezi cum poate fi definita astfel incat animale
diferite sa fie clasificate in mod corespunzator. Oricum, nu exista asa ceva ca o specie: nu
poate fi studiat sau observant in mod direct. Este o categorie, structurata de minte, care
este folositoare in intelegerea relationarii a diferitelor
concurenta.
3. Rezultatele testului vor fi corelate acum cu performante academice si in viitor
de asemenea. Aceste ipoteze provin direct din inteligenta naturala, asa cum este
descris in cercetarile testelor psihometrice (ex. Catell 1971) ( validitati anticipative, cel
putin o a doua ipoteza).
4. Rezultatele testelor vor discrimina la un nivel inalt importanta de-a lungul a
diferite grupuri profesionale. Aceasta ipoteza isi are tulpina din natura inteligentei si din
studiul muncii. Unele ocupatii, ca de exemplu fizician sau cei care lucreaza in domeniul
administratiei civile, cer un inalt nivel de inteligenta, altele nu. Acest lucru nu este pur i
simplu indiferent fata de clasa sociala inalta sau prestigiu, deoarece multe locuri de
munc bine pltite sunt relativ de rutin i necesit puin mai mult dect inteligenta
medie, dup cum se demonstreaz n analiza locurilor de munc, care a fost complet
discutata n Kline (1975) si in capitolul 22 din acesta carte.
5. Avand un coeficient de studiu analitic al factorilor de abilitate, testul va incarca
din plin primul factor general. Aceast ipotez se bazeaz pe noiunea de g
psihometrice ca un factor general, omniprezent, aa cum este descris iniial de
Spearman (1904) i sprijinit n totalitate de cercetarile moderne (Kline 1990).
6. Cu clasa sociala partial divizata, nu va fi n continuare o corelaie semnificativ
ntre test i performanele academice. Aceast ipotez a fost nfiinata n scopul de a
rspunde criticilor c ipotezele 3,4 i 5 reflect doar diferenele de clas social. Exist
o relaie ntre IQ i clasa social, pur i simplu pentru c exist o tendin de inteligenta
in sus; n timp ce cobori, exista mai puina inteligenta. Totusi acesta migrare este mai
mica decat ar putea parea dezirabil (cel putin pentru aceia din partea de jos), sistemul
claselor sociale nu poate fi usor distrus.
Corelarea partiala ( formula poate fi gasita in anexa statistica) permite corelatia
intre doua variabile care au putut fi procesate in timp ce efectul unei cele de a treia
variabila (in acest caz clasa sociala) este scoasa. Ar trebui sa fie notat ca acelasi
rezultat ar putea fi atins adaugand factorul social ca factor de analiza conform ipotezei
5. Daca efectul clasei sociale este diferit de cel de inteligenta, ca in argument, atunci ar
trebui sa fie doi factori academici de succes; un factor de capacitate generala si un al
24
masurati de Catell (Catell, 1970) in testul 16PF. Acestea pot fi stabilite prin analiza
factorilor cu aceste teste.
Aceasta analiza a factorului a fost construita pentru a face mai mult decat ce era
indicat in testul Ai3Q si nu se suprapune cu factorii de personalitate bine stabiliti. S-a
intentionat de asemenea sa se localizeze factorul obsesiv intr-un factor al spatiului. De
exemplu: se asteapta sa se raporteze la factorii C constienta si la Q4, presiunea
identitatii.
O alta abordare, si mai clinica, a fost de asemenea adoptata. Minnesota
Multiphasic Personality Inventory (MMPI) (Hathaway and McKinley, 1951) masoara
simptomele obsesive care sunt diferentiate fata de personalitatea obsesiva (Pichot and
Perse, 1967) si Dynamic Personality Inventory (Grygier, 1975) masoara cele 33 scale
de personalitate freudiana ale caracterului anal (Freud 1908) care este similar cu
personalitatea obsesiva. Testul Ai3Q a fost corelat si raportat la aceste scale.
In final, in studiul de validare original al acestei scale, rezultatele acestui test au
fost comparate cu scalele evaluarilor elevilor date de profesori. Nu este necesar a se
descrie rezultatele acestui studiu, care, din fericire a venit in intampinarea sustinerii
validitatii testarii Ai3Q si care este prezentat in intregime in manualele de teste (Kline
1971). Ce este important este a se vedea cum este stabilita validitatea construirii unui
test. Ce este de asemenea important este faptul ca, chiar daca toate aceste ipoteze
sunt sustinute, validitatea unui test este inca bazata pe deductie. Un adversar sofisticat
ar putea sa sustina o controversa impotriva validarii acestuia. Validitatea de structura, in
cazul in care exista aceasta, nu poate fi dovedita. Cel mai bine ar fi sa se spuna ca s-a
avut cea mai buna dotare. La ora actuala cele mai moderne cercetari (Kline si Cooper,
1984), in cazurile in care testele au fost incluse intr-un factor de studiu analitic a unei
personalitati autoritare, au sustinut valabilitatea in ceea ce a fost puternic incarcat in
factorul autoritar care s-a dovedit a fi unul dintre cei mai ampli factori de personalitate in
studiul subiectilor normali (Kline si Barett, 1983)
Un punct ar trebui sa fie discutat. Aceasta analiza de validiate a structurii, care
este in prezent un punct de vedere psihometric, a fost recent atacata, in trecere, de
catre Jackson si Maraun (1996, b) in doua documente care au incercat sa atace scalele
pentru cautarea senzoriala a lui Zuckerman (1979). Acest document, in mod intamplator,
va fi abordat din nou in capitolul 10 in sectiunea analizei elementelor.
Jackson si Maraun au sustinut ca notiunea de validitate a structurii este gresita n
msura n care se bazeaz pe analiza corelaiilor. O structura, argumenteaza ei, nu
poate fi, in principiu, identificat prin corelatiile ei. In orice caz , argumentul lor este gresit
desi interesant. Ei demonstraza ca un factor poate fi in intregime identificat gresit prin
corelatiile lui. In orice caz aceasta nu vrea sa spuna ca toate aceste identificari sunt
26
incorecte. In mod clar, greseli pot fi comise. In orice caz, punctul de vedere al validitatii
structurale, asa cum descrierea noastra o arata clar, este bazat pe varietatea surselor
care au fost luate in considerare, din care corelatiile unei scale sunt numai unu.
Discutia lor este si mai pertinenta pentru tema principala, analiza elementelor, si e
discutata si in capitolul 10. Asa cum se prezinta, nu inseamna ca validitatea structurii
este un mod de abordare pentru validitatea unui test care ar trebui sa fie abandonat.
De fapt autorii in atacul lor asupra slabiciunii conceptuale ale elementelor aflate
in scalele cautarilor senzoriale, nu sunt atat de acerbe asa cum ar putea sa fie. Nici un
element inventariat al personalitate nu poate rezista la analiza conceptuala din simplul
motiv ca, spre deosebire de elementele de abilitati, acestea nu sunt exemplare ale
structurii ce este testata. Sunt numai niste rapoarte ale unui comportament relevant, un
paragraf cuprinzator va fi in capitolul 15.
urmatorul capitol a acestei carti, va fi definita teoria psihometrica care subliniaza acest
rationament. In mod similar, cateva teste de personalitate vor contine abateri de
fiabilitate dar vor fi nevalide din moment ce o parte a variatiei fiabilitatii se va datora
raspunsurilor fixate, cum ar oportunitatea sociala, tendinta de a sustine raspunsul social
dezirabil sau aprobarea, tendinta de a fi de acord cu un element indiferent de continut.
Concluzia acestei discutii este ca niciodata nu este suficient a se demonstra cum
ca un test este fiabil si apoi sa presupunem ca trebuie sa fie valid deoarece exista o
mica variatie de eroare. Intotdeauna este necesar a se arata, folosind metodele si
argumentele pe care le-am descris, ca o abatere a fiabilitatii a fost de asteptat;
respectiv, ca testul a masurat ceea ce sustinea ca masoara. Cum aceasta se realizeaza
in practica poate sa fie gasit in capitolele despre realizarea testului.
CONCLUZII IN CEEA CE PRIVESTE VALABILITATEA
Am descris si discutat cateva metode de demonstrare a valabilitatii testelor.
Validitatea structurala este strans legata de definitia noastra a validitatii testului ca fiind
unul ce masoara ceea ce ne-am propus sa masoare. Este probabil cea mai importanta
abordare a validitatii in special acolo unde testele sunt pentru folosirea extinderii
cunostintelor psihologice. Validitatea diferentiala totusi este ceva diferit. Aceasta se
doreste la demonstrarea validitatii unui test pentru un obiectiv specific si este aproape o
definitie operationala a utilitatii unui test. Adevarul este ca in psihologia ocupationala, de
exemplu, acesta este un aspect important al validitatii.
De la aceasta discutie este clar ca nu are nici un sens sa mentionam o cifra ca
fiind un coeficient valid al unui test. Mai degraba vom lua in vedere un set de constatari
daca dorim sa constatam corespunzator validitatea unui test. Asa cum am vazut, nu
este un lucru usor sa arati ca un test este valid. Prin urmare nu este surprinzator faptul
ca relativ doar cateva teste au niste dovezi bune ale validitatii lor. Probabil opusul este
adevarat: faptul ca orice test care s-a dovedit sa fie valid este surprinzator.
PUTEREA DISCRIMINANTA
28
29