Curs 6

Evaluare psihologică – metode psihometrice curs 6
2.4. Validitatea incrementală
Acest tip de validitate se referă la capacitatea instrumentului de a oferi informaţii

suplimentare în comparaţie cu celelalte instrumente deja existente ce evaluează acelaşi construct.
Formele de validitate descrise anterior vizează anumite calităţi intrinseci ale instrumentului
(conţinutul itemilor săi, relevanţa pentru un criteriu exterior, potrivirea cu predicţiile teoretice ale
ariei psihologice din care face parte constructul). Cea incrementală nu se raportează la o altă
faţetă a instrumentului, ci are în vedere plusul faţă de celelalte instrumente pe care îl aduce
instrumentul pe aceste dimensiuni ale validităţii.
Cele mai frecvente evaluări ale validităţii incrementale se realizează asupra a două dintre
faţetele validităţii de criteriu, şi anume cea predictivă şi cea discriminativă. În primul rând, un
instrument nou ar trebui să permită predicţia mai precisă a unor comportamente reale ale
individului (care reprezintă criteriul de validare pe această dimensiune a validităţii predictive). În
al doilea, el ar trebui să indice mai bine diferenţele dintre oamenii care posedă acea caracteristică
psihologică la un nivel ridicat şi cei care nu o posedă (cei de la polul opus) şi, deci, să ofere
diagnostice mai precise, identificând mai corect indivizii din cele două categorii. În sinteză, se
consideră că un instrument are validitate incrementală dacă permite creşterea corectitudinii
diagnosticului şi a predicţiilor făcute pe baza instrumentului.
2.4.1. Validitatea incrementală predictivă este evaluată prin analiza capacităţii

instrumentului de a creşte corectitudinea predicţiilor care pot fi făcute prin utilizarea sa cu privire
la anumite comportamente reale (criterii). Tehnic, instrumentul are validitate incrementală
predictivă dacă el duce la identificarea unei proporţii mai mari a cauzelor diferenţelor dintre
subiecţi în ceea ce priveşte criteriul. Acest aspect este examinat prin metoda statistică a regresiei,
analizând creşterea procentului de varianţă explicată a criteriului prin introducerea respectivului
instrument ca predictor. Dacă el explică un procent mai mare de varianţă decât celelalte
instrumente deja existente, înseamnă că diferenţele dintre oameni la scorurile sale sunt în mai
mare măsură asociate cu diferenţe în privinţa respectivului comportament. Deci, el ajută mai
mult decât celelalte instrumente în predicţia măsurii în care oamenii vor realiza acel
comportament, având astfel validitate incrementală.
b. Validitatea incrementală discriminativă

În cursul despre validitatea de criteriu, cea discriminativă (ca formă a acesteia) a fost
definită ca fiind capacitatea instrumentului de a separa corect oamenii din cele două tipuri
extreme după criteriul trăsăturii măsurate. Dat fiind faptul că în cazul validităţii incrementale
trebuie comparate mai multe instrumente după acest criteriu al separării corecte, simpla diferenţă
dintre grupuri nu mai este suficientă. De aceea, pentru evaluarea diferenţierii între grupurile
cunoscute la mai multe instrumente (cel nou şi cele deja existente), a fost elaborată o abordare
mai complexă a validităţii discriminative în general (cu aplicaţii directe în cea incrementală),
1
care este focalizată pe corectitudinea diagnosticului ce poate fi pus prin folosirea acelui
instrument.
În practică, instrumentele au un etalon ce permite identificarea de niveluri ale acelei
caracteristici psihologice, şi deci diagnosticarea oricărui individ care le completează prin
includerea sa într-o categorie. Decizia cu privire la aceasta se ia prin compararea scorului total cu
etalonul; de exemplu, un instrument care evaluează intensitatea depresiei şi care împarte oamenii
în două categorii (depresie prezentă / absentă) ar putea avea scorul de demarcaţie între cele două
25. În acest caz, toţi subiecţii cu scor mai mare decât 25 ar fi diagnosticaţi ca depresivi, iar cei cu
scor sub 25 – ca non-depresivi. În general, această abordare se aplică pe instrumentele similare
cu cel din acest exemplu, adică cele care oferă o evaluare în termeni bipolari: fie prezenţa
trăsăturii („diagnostic pozitiv”), fie absenţa sa („diagnostic negativ”).
Validitatea discriminativă este analizată, în această abordare, pe baza a două dimensiuni,
şi anume sensibilitatea şi specificitatea instrumentului.
a. Sensibilitatea înseamnă procentul de identificări pozitive corecte; de exemplu, dacă
dintre 100 de depresivi instrumentul ar diagnostica ca depresivi pe 80, atunci sensibilitatea sa ar
fi de 0,8. Termenul de „sensibilitate” sugerează tocmai această idee, a gradului în care
instrumentul poate detecta trăsătura pe care o evaluează (deci, este „sensibil” la ea). Deci,
sensibilitatea se calculează în etapa de pretestare (ce necesită aplicarea instrumentului pe oameni
din cele două categorii diagnostice – de exemplu, depresivi şi non-depresivi) ca raport dintre
numărul de identificări pozitive corecte şi numărul total de indivizi care au trăsătura. În aplicarea
viitoare a acelui instrument, ea indică probabilitatea de a obţine un diagnostic pozitiv corect în
populaţia cu acea trăsătură (“true positives”).
b. Specificitatea înseamnă procentul de identificări negative corecte; de exemplu, dacă
dintre 100 de oameni care nu au depresie, instrumentul ar diagnostica ca non-depresivi pe 40,
atunci specificitatea ar fi de 0,4 (implicit, el ar greşi la 60 dintre ei, diagnosticându-i ca
depresivi). Termenul de „specificitate” sugerează necesitatea ca instrumentul să fie specific în
diagnosticarea trăsăturii, adică diagnosticul pozitiv să fie limitat la oamenii care chiar au acea
trăsătură, să fie „specific” lor, şi să nu fie aplicat şi pe cei de la polul opus. În pretestare,
specificitatea se calculează ca raportul dintre numărul de identificări negative corecte şi numărul
de indivizi care nu au acea trăsătură. În aplicarea viitoare a acelui instrument, ea indică
probabilitatea de a obţine un diagnostic negativ corect în populaţia care nu posedă acea trăsătură
- “true negatives.
Deoarece în psihologie nu există instrumente perfecte, cele două dimensiuni sunt
dependente reciproc, în sensul că creşterea sensibilităţii (prin schimbarea punctului de tăiere, de
separare a celor două categorii, al scorurilor la instrument) duce la scăderea sensibilităţii: cu cât
creştem probabilitatea de a detecta oamenii care posedă acea trăsătură, cu atât mai mult ne
asumăm riscul de a diagnostica pozitiv – ca având acea caracteristică – şi oameni care, în
realitate, nu o posedă. De exemplu, dacă vrem să detectăm toţi oamenii care au acea trăsătură,
mutând punctul de tăiere în jos (de exemplu, la un instrument de evaluare a depresiei ce
generează scoruri de la 1 la 10, am putea stabili linia de demarcaţie între cele două categorii la 2,
2
cei cu scoruri peste aceasta fiind diagnosticaţi ca depresivi), atunci este foarte probabil să
diagnosticăm pozitiv şi mare parte din cei care nu au acea trăsătură.
Analiza validităţii discriminative a unui instrument presupune şi această investigare a
punctului de tăiere optim pentru a respecta obiectivele legate de specificitate şi sensibilitate.
Tehnic, o metodă de examinare a sa este ROC (Receiver Operating Characteristic). Ea
calculează cei doi parametri pentru fiecare scor al testului, considerat ca punct de tăiere:
- Sensibilitatea – indicând procentul de indivizi care posedă acea trăsătură care au scorul
mai mare decât acel punct de tăiere, deci procentul identificărilor pozitive corecte (în exemplul
precedent, procentul de subiecţi depresivi cu scor peste 2);
- 1 – specificitatea – aici, tehnica generează parametrul opus sensibilităţii, aşa cum a fost
definită teoretic; acest parametru indică procentul de indivizi care nu posedă acea trăsătură şi
care au, totuşi, scorul la test mai mare decât acel punct de tăiere (în exemplul anterior, procentul
de depresivi care au şi ei scorul mai mare de 2 şi care ar fi diagnosticaţi greşit de instrument ca
fiind depresivi). Deci, el arată procentul identificărilor pozitive eronate, care este inversul
specificităţii (procentul identificărilor negative corecte): dacă din 100 de indivizi care nu au
depresie, 40 sunt diagnosticaţi (greşit) ca având această caracteristică, atunci instrumentul oferă
un diagnostic negativ corect pentru restul de 60.
Cei doi parametri sunt reprezentaţi grafic, calculându-se “aria de sub curbă”, ce
reprezintă indicatorul de bază al validităţii discriminative a testului. Această arie trebuie să fie
semnificativ mai mare decât linia diagonală de reper, corespunzătoare valorii medii de 0,5, adică
ghicirii la întâmplare a celor care au acea trăsătură. Aplicând această metodă a ghicirii,
probabilitatea de a oferi un diagnostic corect unui individ este de 50% - din moment ce
caracteristica respectivă are 2 posibilităţi (de exemplu depresiv – non-depresiv) -, indiferent dacă
el este sau nu depresiv în realitate.
Linia de reper
Aria de sub curbă
3
Aria de sub curbă este calculată pe baza sensibilităţii şi specificităţii calculate pentru
fiecare scor total la instrument; acestea sunt prezentate comparativ într-un tabel ca cel următor:
Coordinates of the Curve
Test Result Variable(s): scor test 1

Positive if
Greater Than
a
or Equal To Sensitivity 1 - Specificity
1.0000 1.000 1.000
2.5000 1.000 .939
3.5000 .926 .879
4.5000 .721 .576
5.5000 .588 .364
6.5000 .485 .121
7.5000 .368 .121
8.5000 .132 .030
10.0000 .000 .000
The tes t res ult variable(s ): scor test 1 has at least one tie
between the positive actual s tate group and the negative
actual state group.
a. The smallest cutoff value is the minimum
observed test value minus 1, and the largest cutoff
value is the maximum observed test value plus 1.
All the other cutoff values are the averages of two
consecutive ordered obs erved test values .
Prima coloană conţine fiecare dintre posibilele puncte de tăiere ce ar putea face diferenţa
între cele două categorii, derivate din scorurile totale ale instrumentului; a doua conţine
sensibilitatea obţinută dacă punctul de tăiere ar fi stabilit la acea valoare, iar ultima conţine
indicatorul „1 – specificitatea”, rezultat în aceeaşi situaţie. De exemplu, punctul de tăiere ar fi
stabilit la 6,5, atunci sensibilitatea ar avea valoarea 0,485, adică 48,5% dintre subiecţii care au în
realitate depresie ar fi diagnosticaţi ca atare; parametrul 1 – specificitatea ar fi 0,121, deci 12,1%
din oamenii diagnosticaţi cu depresie nu ar avea, în realitate, această trăsătură (specificitatea ar fi
de 87,9%).
Tabelul următor conţine valoarea ariei de sub curbă şi testarea semnificaţiei diferenţei
sale faţă de 0,5 (ghicirea la întâmplare).
Area Unde r the Curve
Test Result Variable(s): scor tes t 1
As ymptotic 95% Confidenc e
As ymptotic Int erval
a b
Area St d. E rror Sig. Lower Bound Upper Bound
.662 .055 .008 .554 .770
The tes t result variable(s): s cor test 1 has at leas t one tie bet ween the
positive ac tual state group and t he negative actual st ate group. S tatis tic
may be biased.
a. Under the nonparametric as sumption
b. Null hy pothesis : true area = 0.5
Valoarea Asymptotic Sig este mai mică decât 0,05, deci instrumentul oferă o clasificare
semnificativ mai bună decât ghicirea. Valoarea ariei de sub curbă este 0,662; ea indică
4
probabilitatea ca un individ care are, în realitate, acea trăsătură să obţină un scor diferit (în acest
caz, mai mare) la instrument decât unul care nu o posedă. Acest indicator sintetizează validitatea
discriminativă a instrumentului, deoarece cu cât el este mai mare, cu atât acesta face diferenţa
mai precis între oamenii din cele două categorii. Dacă valoarea ariei de sub curbă este maximă
(1) atunci ar fi sigur (probabilitate de 100%) că orice subiect depresiv ar obţine un scor mai mare
decât orice non-depresiv. Dacă ea ar fi redusă (apropiată de 0,5), ar înseamna că probabilitatea ca
oamenii care au acea trăsătură să obţină scoruri mai mari decât cei care nu o au este la fel cu cea
ca ei să obţină scoruri mai mici. Aşadar, instrumentul nu ar diferenţia între cele două grupuri şi
nu ar putea fi folosit pentru a decide dacă un individ are sau nu acea trăsătură (validitatea sa de
criteriu ar fi, în consecinţă, una redusă).
Aplicaţii ale tehnicii ROC

1. evaluarea validităţii incrementale, prin compararea validităţii discriminative a noului
instrument cu cea a unui instrument deja existent. Practic, această situaţie presupune alegerea
instrumentul cu cea mai mare arie de sub curbă.
De exemplu, presupunem că folosim două instrumente pentru evaluarea depresiei,
aplicate pe un lot de subiecţi cărora le cunoaştem diagnosticul (ca fiind depresivi sau non-
depresivi).
Procedurile în SPSS sunt: Analyse – ROC Curve; Standard error and confidence
interval; Coordinate points of the ROC curve; Value of state variable: 2 (codul depresivilor în
baza de date).
Rezultatele calculării ariilor de sub curbă indică faptul că testul 2 (al cărui parametru este
0,991, deci există o probabilitate de 99,1% ca un depresiv să aibă scorul la testul 2 mai mare ca
un non-depresiv) are o arie mai mare, şi deci o validitate discriminantă mai bună, chiar dacă
ambele oferă o clasificare semnificativ mai bună decât ghicirea:
Area Under the Curve
As ymptotic 95% Confidence

As ymptotic Interval
a b
Test Result Variable(s) Area Std. Error Sig. Lower Bound Upper Bound
scor test 1 .662 .055 .008 .554 .770
scor test 2 .991 .007 .000 .978 1.005
The tes t res ult variable(s ): scor test 1, scor test 2 has at leas t one tie between the positive actual
state group and the negative actual state group. Statistics may be biased.
a. Under the nonparametric ass umption
b. Null hypothesis : true area = 0.5
2. Identificarea punctului optim de tăiere al scorurilor la test – în funcţie de scopul

utilizării instrumentului (screening sau diagnostic)
- dacă instrumentul urmează a fi folosit în scop diagnostic, atunci este importantă
echilibrarea, pe cât posibil, a celor două dimensiuni (sensibilitatea şi specificitatea)
5
- dacă instrumentul urmează a fi folosit în scop de screening, adică de detecţie a

oamenilor care ar putea avea acea trăsătură, atunci ne putem asuma riscul includerii unora care
nu o au; aceştia vor fi identificaţi de evaluările ulterioare de profunzime. De exemplu, în
populaţia de adolescenţi poate fi importantă detecţia celor care ar putea avea ideaţii suicidare la
orice nivel, indiferent cât de slab ar fi el, chiar dacă am include în această categorie şi un număr
ridicat de adolescenţi care nu au, în realitate, astfel de ideaţii. Deci, pentru a atinge acest obiectiv
al detecţiei maxime, sunt necesare valori mari ale sensibilităţii instrumentelor.
Revenind la exemplul următor, valorile celor doi parametri ai instrumentului 2 sunt:
Test Resul t Variable(s): scor test 2

Positive if
Greater Than
a
or Equal To Sensiti vity 1 - Specificity
.0000 1.000 1.000
1.5000 1.000 .909
2.5000 1.000 .697
3.5000 1.000 .455
4.5000 1.000 .121
5.5000 .926 .030
6.5000 .706 .000
7.5000 .412 .000
8.5000 .103 .000
9.5000 .015 .000
11.0000 .000 .000
actual state group.
a. The sm allest cutoff value is the m inim um
În scop diagnostic, valoarea recomandabilă a punctului de tăiere ar fi aici 5,5, deoarece

astfel am obţine o sensibilitate şi specificitate de peste 0,9 (aproape egale). Deci, peste 90% din
depresivi ar fi identificaţi ca atare, şi peste 90% din non-depresivi nu ar fi diagnosticaţi ca având
depresie (şi ei primind, deci, diagnosticul corect). În scop de screening, valoarea recomandabilă
ar fi de 4,5, deoarece ea ne-ar oferi o sensibilitate maximă (chiar şi cu o diminuare a specificităţii
faţă de pragul anterior de 5,5.
Valorile celor doi parametri ai instrumentului 1 sunt:
6
Test Result Variable(s): scor test 1

Positive if
Greater Than
a
or Equal To Sensitivity 1 - Specificity
1.0000 1.000 1.000
2.5000 1.000 .939
3.5000 .926 .879
4.5000 .721 .576
5.5000 .588 .364
6.5000 .485 .121
7.5000 .368 .121
8.5000 .132 .030
10.0000 .000 .000
actual state group.
a. The smallest cutoff value is the minimum
Aici, scopul diagnostic poate fi urmărit prin stabilirea punctului de tăiere la 5,5, deoarece
el echilibrează cel mai mult cei doi parametri: 0,588 la sensibilitate şi 0,636 la sensibilitate (1-
0,364). În scop de screening punctul de tăiere ar putea fi stabilit la 2,5, ceea ce ar asigura
sensibilitatea maximă, însă specificitatea ar fi extrem de redusă (de doar 0,061, deci peste 90%
din oamenii care nu au depresie ar fi diagnosticaţi greşit ca având). Acest procent extrem de
mare al identificărilor pozitive eronate face ca instrumentul 1 să fie mai puţin recomandat pentru
screening.
Bibliografie
• Aiken, L.R. (2000). Psychological testing and assessment, (10th edition), Allyn and Bacon
• Bohrnstedt G. (1983). Measurement. în Rossi PH, Wright JD, Anderson AB (Eds.) Handbook of Survey
Research. Orlando , FL : Academic Press
• Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological
Assessment, 7, 309-319.
• Cohen, R., Swerdlik, M., & Smith, D. (2009). Psychological testing and assessment: An introduction to
tests and measurements (7th ed.). New York: McGraw-Hill
• Fischer J., Corcoran K. (2007). Measures for clinical practice: A sourcebook. 4nd Ed., New York: Oxford
University
• Havârneanu, C. (2000). Cunoaşterea psihologică a persoanei, Iaşi, Polirom
• Kerlinger, F.N. (1986). Foundations of behavioral research (3rd ed.) New York: Holt, Rinehart and
Winston.
• Nunnally, J., Bernstein, I. (1994) Psychometric Theory. New York: McGraw Hill, 3rd ed.
• Switzer, G., et al. (2000). Measurement issues in intervention research. în R. Schulz (Ed.), Handbook on
dementia caregiving: Evidence-based interventions for family caregivers. New York: Springer
• Urbina. S. (2004). Essentials of Psychological Testing, John Wiley & Sons, Inc.

Curs 6

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 6

Încărcat de

Drepturi de autor:

Formate disponibile

Evaluare psihologică – metode psihometrice curs 6

2.4. Validitatea incrementală

Acest tip de validitate se referă la capacitatea instrumentului de a oferi informaţii

2.4.1. Validitatea incrementală predictivă este evaluată prin analiza capacităţii

b. Validitatea incrementală discriminativă

Aria de sub curbă

Test Result Variable(s): scor test 1

Aplicaţii ale tehnicii ROC

As ymptotic 95% Confidence

2. Identificarea punctului optim de tăiere al scorurilor la test – în funcţie de scopul

- dacă instrumentul urmează a fi folosit în scop de screening, adică de detecţie a

Test Resul t Variable(s): scor test 2

În scop diagnostic, valoarea recomandabilă a punctului de tăiere ar fi aici 5,5, deoarece

Coordinates of the Curve

Test Result Variable(s): scor test 1

S-ar putea să vă placă și