Documente Academic
Documente Profesional
Documente Cultură
Fidelitatea
Fidelitatea
Caracteristicile psihometrice
n msurarea psihologic
Dragos Iliescu
I. FIDELITATEA
Vom vorbi despre...
Definitie
Problematica fidelitatii
Tipuri de fidelitate
Modalitati de masurare
Eroarea Standard de Masurare / de
Predictie
Corecii pentru (lips de) fidelitate
Fidelitatea: Definitie
n orice msurare a fidelitii, referirea se face la consistena i
reproductibilitatea unei observaii (cot, scor, not) sau set de observaii
(distribuia scorurilor). Dac cu acelai instrument de msur se fac
determinri n timpi succesivi i de fiecare dat se ajunge la aceleai valori,
spunem c am obinut o msurare cu o fidelitate mare.
Deci, cu cat eroarea este mai mica, cu atat scorul observat (masurat in
mod efectiv) este mai corect, mai apropiat de realitate (scorul
adevarat)
Fidelitatea: Masurare
Pentru determinarea fidelitii, sunt posibile mai multe proceduri i se
pot folosi metode diferite de evaluare sau chiar de msurare ale
acesteia.
probleme:
esantioane mici, de obicei
esantioane necontrolate, de obicei (dropouts)
efectele invatarii (mai ales la distante de retest mici si la anumite tipuri de teste)
efectele dezvoltarii/evolutiei (mai ales la distante de retest mari)
se raporteaza:
rtt, coeficientul de corelatie intre seturile de date obtinute in test si retest
distanta de retest (2 saptamani, 5 zile etc.)
Fidelitatea: Forme echivalente
metoda foarte puternica, de masurare a fidelitatii (nu estimare)
probleme
este posibila doar la acele teste unde exista forme echivalente
efort foarte mare pentru autor sa genereze forme echivalente
echivalenta nu este niciodata perfecta
se raporteaza:
rab, coeficientul de corelatie intre seturile de date obtinute cu Forma A si
Forma B
Exemplu:
TTCT, Torrance Tests for Creative Thinking, Verbal & Figural, Forms A and B
Fidelitatea: Split-half
metoda mai slaba, de estimare a fidelitatii (nu masurare)
metoda:
se imparte testul in 2 subteste, esantionand itemii sai
esantionarea poate fi facuta ori aleator, ori dupa o regula,
de obicei itemi pari vs. impari
se raporteaza
rxy, coeficientul de corelatie intre cele 2 subteste, de obicei r par-
impar
Fidelitatea: Consistenta interna
metoda mai slaba, de estimare a fidelitatii (nu masurare)
cea mai populara metoda de raportare a fidelitatii
coeficientul Alpha, (Lee Cronbach)
coeficientii KR 20 si KR 21 (Kuder & Richardson)
coeficientii Lambda (1-6) ai lui Guttman, 3 este similar cu Alpha-Cronbach
metoda:
multivariata
se raporteaza media deviatiilor fiecarui item de la valoarea medie, la deviatia
scorului total
NU UITATI SA INVERSATI ITEMII SCORATI INVERS!!!
se raporteaza
/ x /KR20/KR21=[0.00-1.00]
praguri (Bernstein & Nunnaly): .70 / .90
Fidelitatea unor metode de
evaluare diferite
in aceasta evaluare de obicei metodele sunt impartite in
calitative vs. cantitative
observatie
acord interevaluatori, de obicei pe acelasi behavioral sample
= .05 - .25
interviu
acord interevaluatori
= .05 - .50
test/chestionar
toate metodele discutate
= .50 - .90
Cum variaza fidelitatea testelor?
De obicei fidelitatea
unui test creste odata
cu numarul de itemi
Spearman-Brown
prophecy (demonstratia
clasica: Guilford, 1954)
true variance increases
more rapidly than error
variance
rnn = n x rtt / (1+ (n-1) rtt )
Alte forme de fidelitate
(metode calitative)
Fidelitatea estimarilor pentru mai multi
evaluatori (reliability ratings across judges)
acord inter-evaluator
Cauza Efect
se = 3.35
SEM: la ce ne foloseste?
Estimarea erorii de masurare
la fidelitati sub .70, se creste foarte mult si scala nu
mai poate fi utilizata pentru decizii majore
la fidelitati de peste .90, se scade la un nivel la care
putem spune ca se poate lucra coerent cu scala
Probleme de comparatie
comparatia scorului unui individ cu scorul altui individ
comparatia scorului unui individ cu un prag
Test de inteligenta: cu 90%
confidence interval pentru rtt=.50, .
70 si .95
Chestionar de personalitate: NPQ
(Ce ar fi daca fidelitatile ar fi la .50)
Chestionar de personalitate
(contd.)
Chestionar de personalitate
(contd.)
Chestionar de personalitate
(contd.)
Test de aptitudini (Performanta
aritmetica): confidence interval pentru
rtt=.50 (cu rosu) si pentru rtt=.75 (cu gri)
Test de aptitudini (Vanzari):
confidence interval pentru rtt=.50
(cu rosu) si pentru rtt=.90 (cu verde)
Concluzie
A measurement cannot be valid if it is not
reliable
La aceast calitate se mai poate aduga i o alta, dac testul poate fi utilizat n
luarea unor decizii corecte.
Sociabilitate:
masuram fluenta verbala, numarul de glume pe care il poate face; este
valid? (include toti indicatorii relevanti)
Usurinta aritmetica:
masuram capacitatea de a transpune o problema matematica in ecuatie,
de a face calculele si de a explica verbal semnificatia rezultatului la care
s-a ajuns; este valid? (surprinde constructul corect?)
Validitatea de construct (contd.)
Care este perioada asociata cu filosoful Epicur?
a. 341-270 BC
b. 331-232 BC
c. 280-207 BC
d. Nici una din aceste optiuni
metoda:
(1) & (2) se trateaza prin recurs la teorie si se probeaza validitatea de construct
demonstrand ca in testul-tinta conceptul respectiv este tratat asa cum o teorie sau
model anume prescrie
(3) se trateaza empiric & statistic:
analiza factoriala exploratorie (EFA), care reproduce coerent ce zice teoria (de ex. extrage
numarul corect de factori, itemii au tiparul corect de saturatii)
analiza factoriala exploratorie (EFA), cu rotatie Procrustes
analiza factoriala confirmatorie (CFA): the data fits the model? / goodness of fit measures
se raporteaza:
text, blabla, nu exista un coeficient de validitate de construct
Corectitudinea dimensiunilor,
Ex.: TABP
Type A Behavior Pattern
Tiparul comportamental de tip A (=
personalitate de tip A)
Furia (ANG)
Competitivitatea (COM)
Corectitudinea dimensiunilor,
Ex.: TABP (contd.)
Daca am introduce si alte dimensiuni, am putea extinde plaja diagnostica a
testului
De exemplu:
Perseverena
Dominana
Angajamentul in sarcina
Flexibilitatea (-)
Absorbirea in munca (intr-o activitate)
Internalitatea (LOC)
Efortul compensator
Mndria pentru propria perfomana
Preferina pentru dificultate
Autocontrolul i autodisciplina
Orientarea spre status
Orientarea spre competiie
Fixarea de scopuri ambitioase
Gough, McClosky & Meehl (1951) au construit un set de itemi care putea
descrie o persoan dominant i au selectat din acesta, pe baza unui procedeu
experimental-comparativ itemii cu puterea cea mai mare de discriminare.
Procedeul este numit peer nomination i const, n forma sa clasic, din aceea
c, ntr-un eantion de subieci care sunt familiarizai unul cu altul (de exemplu
o clas de elevi, un grup de munc), persoanele care compun eantionul sunt
rugate s-i numeasc pe aceia dintre ei care se potrivesc cel mai bine cu un
anumit criteriu.
Primul factor este compus n principal din itemi care descriu persoana evaluat drept un
leader, cruia i place s conduc, s vorbeasc n faa altor oameni i care are talent
pentru organizarea i controlarea celorlali. Exemple de astfel de itemi sunt Am un talent
nnscut de a influena oamenii (adevrat), Cred c mi-ar plcea s am putere asupra
altora (adevrat).
Al treilea factor ine de controlul i dirijarea celorlali, coninnd itemi precum mi place
s dau ordine i s pun lucrurile la punct, Mi-ar plcea s am autoritate asupra altor
oameni i mi place s planific lucrurile i s stabilesc ce are fiecare persoan de fcut.
Al patrulea factor poate fi descris drept factorul normei sociale; conine doar doi itemi,
ns ambii afirm obligativitatea fiecrei persoane de a participa la activitile grupului sau
naiunii sale i de a se supune consensului comun.
Exemplu validare de criteriu:
Scala Do din CPI (5)
Exemplu validare de criteriu:
Scala Do din CPI (6)
Comportamente asociate
Este nesigur pe sine, are ndoieli privind propriile abiliti. (-.22, -.24);
Are multe griji i probleme. (-.18, -.20);
Este reticent i taciturn. (-.19, -.14);
Are dificulti n a-i exprima ideile. (-.16, -.20);
Validitatea de criteriu: Exemple
(2)
dovezi experimentale:
experiment pentru Sy (militari marsaluind)
comparatii intergrupuri:
AMI; motivatie pentru performanta pe esantioane de sportivi,
artisti, someri
CPI, To; toleranta comparata pe esantioane de hipioti,
neonazisti, calugari
SWS, TABP comparat pe esantioane de bolnavi
uneori aceasta abordare iti documenteaza scala (adica aduce la
lumina noi utilizari sau semnificatii):
CPI, Re: ceasornicari, slefuitori de diamante, controlori de zbor etc.
Validitatea predictiva
cea mai puternica, dar si cea mai rara
se bazeaza pe studii longitudinale, care prezic evolutii sau
comportamente pentru populatii largi, pe perioade de timp relativ
lungi
Exemple:
CPI, modelul cuboid, ca predictor al succesului militar: absolventi de
West Point, promotiile anilor 60 si 70
EPQ: studiu longitudinal pe probabilitatea de recidiva a detinutilor
STAXI: studiu longitudinal pe probabilitatea de a avea un accident auto,
studiu pe accidente de munca
SWS: studiu longitudinal pe probabilitatea de a avea un infarct miocardic
Raven: prezice succesul scolar
Validitatea divergenta
Este importanta mai ales in acele conditii in care
conceptul-tinta este foarte aporpiat de alte concepte
Exemplu:
test de depresie
exista comorbiditate intre depresie si anxietate
ar trebui sa demonstram
nu doar ca testul nostru diferentiaza depresivi de nondepresivi
ci si ca nu coreleaza cu teste de anxietate
si ca diferentiaza mai bine intre high si low scorers de depresie decat
intre high si low scorers de anxietate
Validitatea de aspect
o modalitate (gresita) de a infera validitatea de criteriu (sau validitate in general)
este bazata pe itemii scalei sau pe natura problemei
personalitate:
27. Cnd m contrazic cu cineva am tendina s vorbesc mai tare dect de obicei.
86. Clocotete sngele n mine cnd sunt luat de prost.
105. Deseori nu mi pot stpni suprarea i furia.
113. Am deseori tendina s fiu grbit i repezit, chiar i atunci cnd nu e cazul.
115. Se ntmpl des s m enervez prea repede pe cineva.
135. Pot fi uor scos din srite dac sunt agresat.
-30. Dac ceva mi merge ru, nu m enervez pentru mult timp.
-52. Chiar i atunci cnd sunt prea multe lucruri de fcut, prefer s le fac n ritmul
meu.
-60. Chiar dac ceva m scoate din srite, de cele mai multe ori m calmez
repede.
-93. Nu sunt multe lucrurile care reuesc s m irite sau s m enerveze.
-102. n general sunt o persoan linitit i greu de enervat.
-108. Exist o mulime de mici neplceri ale vieii pe care nu le las s m tulbure.
Validitatea trebuie judecata atat
general cat si situational
general:
un test (measuement) care nu a fost validat nu ar trebui utilizat
poate nu au fost culese date de validare exact in situatia care ma
intereseaza, dar faptul ca ele exista, ma face sa am mai multa incredere
exemplu:
un test de persuasiune a fost validat in contextul unui studiu experimental
(elevi care trebuiau sa convinga clasa sa actioneze intr-un anumit fel)
poate fi utilizat pentru a evalua agenti de vanzari?
situational
daca a fost validat pe situatii similare cu cea la care e folosit
daca e UTIL (uneori e evident)
trebuie sa selectez dintr-o clasa de copii pe cei care sunt susceptibili sa faca
sport de performanta, am la dispozitie un test care masoara Extraversie,
Nevrotismul si Psihotismul e valid?
Validitatea metodelor
Evident, validitatea se refera mai degraba la masuratori specifice (de ex. teste
specifice)
mai specific chiar, vorbim de validitatea scorurilor (adica a informatiilor obtinute)
Totusi se vorbeste despre faptul ca unele metode sunt mai valide decat sunt altele
Cum se poate evalua validitatea unei metode?
evident, prin prisma potentialului sau de a genera informatie valida
1 minut .21
2 minute .30
3 minute .36
5 minute .39
10 minute .41
15 minute .45
20 minute .48
25 minute .51