Sunteți pe pagina 1din 14

Anexa nr.

SISTEMUL DE EVALUARE A METODELOR PSIHOLOGICE STANDARDIZATE


GHID PENTRU SOLICITANI
Sistemul de evaluare a calitii unui test cuprinde cinci criterii:
a) b) c) d) e)

Baza teoretic i soliditatea procedurilor de dezvoltare / perfecionare a testului; Calitatea materialelor pentru testare i claritatea manualului; Reguli / etaloane; Fidelitatea; Validitatea;

Pentru fiecare criteriu a fost ntocmit cte un chek-list cu un numr de itemi. Unii itemi (cel puin cte unul pentru fiecare criteriu) sunt aa numitele ntrebri cheie, care verific dac anumite condiii minimale sunt ndeplinite. Dac o ntrebare cheie este evaluat negativ, evaluarea pentru acel criteriu automat va fi insuficient. Pentru a spori o interpretare uniform a itemilor de ctre evaluatori i pentru a explica sistemul utilizatorilor de teste i celor care dezvolt testele, seciunile cu comentarii furnizeaz informaii detaliate asupra evalurii i aprecierii itemilor. O dat ce itemii au fost evaluai, semnificaiile finale (insuficient, suficient, bun) pentru cele cinci criterii sunt stabilite prin semnificaia regulilor de apreciere. n termenii normelor de avizare a testelor psihologice, dac la unul din cele cinci criterii proba dobndete calificativul insuficient nu va fi avizat de ctre CPR i nu va fi recomandat spre utilizare psihologilor cu drept de liber practic. Dac o prob primete la fiecare criteriu evaluat cel puin calificativul suficient ea va fi avizat de ctre Comisia Metodologic i va fi recomandat spre uz, psihologilor cu drept de liber practic, dup cum urmeaz : - proba primete aviz definitiv dac dintre cele cinci criterii evaluate, cel puin trei sunt evaluate ca fiind bun , celelalte primind calificativul suficient. ntre criteriile care obin calificativul bun trebuie neaprat s se regseasc criteriul validitii probei respective. - n toate celelalte situaii neincluse mai sus, n condiiile n care o prob va primi cel puin calificativul suficient la fiecare criteriu evaluat, se va acorda un aviz temporar probelor respective. Acest document este constituit din dou seciuni. n prima seciune sunt prezentate ntrebrile pentru fiecare din cele cinci criterii. n a doua parte sunt descrise explicaiile generale pentru fiecare criteriu, explicaiile cu referire la fiecare item i regulile de combinare a itemilor evaluativi (pentru a se obine evaluarea pentru fiecare criteriu). I. CRITERII I LISTA DE NTREBRI
1

1.Bazele teoretice ale testului 1.1 1.2 1.3 ntrebare cheie: Sunt specificate scopurile i domeniile de aplicare ale testului? (dac evaluarea acestui item este negativ, se trece direct la itemul 2.1) Este descris motivul care a stat la baza construirii testului i conceptele pe care testul le msoar sunt clar definite? Relevana coninutului testului este justificat fa de conceptele msurate? testului

2.Calitatea materialelor de testare i a manualului

2A. 2.1. 2.2.a. 2.2.b.

Materialele testului ntrebare cheie: Sunt standardizai itemii? ntrebare cheie: Exist un sistem obiectiv de scorare? sau Exist specificat un sistem clar i complet pentru evaluare sau examinare n cazul n care testul trebuie s fie scorat de ctre evaluatori sau examinatori? 2.3. ntrebare cheie: Itemii testului au un coninut fr specificaii rasiste sau alte meniuni ofensive pentru anumite categorii de oameni? (Dac evaluarea unuia din itemii prezentai mai sus este negativ se trece la itemul 2.7) 2.4.a. Itemii, broura testului, scalele de rspuns i foile de rspuns sunt n aa fel nct erorile de completare s fie evitate? 2.4.b. Care este calitatea materialelor folosite pentru testare? 2.5. Sistemul de scorare este gndit n aa fel nct erorile s fie evitate? 2.6. Instruciunile pentru cel care primete testul sunt complete i clare? 2B. Manualul testului 2.7. ntrebare cheie: Este disponibil manualul testului? (dac evaluarea la acest item este negativ se trece la itemul 3.1) 2.8. Instruciunile pentru cel care administreaz testul sunt complete i clare? 2.9. Este specificat n ce gen de situaii poate fi aplicat testul i care sunt limitele testului? 2.10. Exist publicat n manual un rezumat al cercetrii? 2.11. Este ilustrat (de exemplu, prin menionarea ctorva cazuri ) modul n care scorurile testului ar putea fi interpretate? 2.12. Este indicat ce tip de informaii sunt importante pentru interpretarea scorurilor testului? 2.13. Este specificat ce calificri profesionale sunt cerute pentru a administra i interpreta testul? 3.Etaloanele 3.1. ntrebare cheie: Etaloanele sunt prevzute (incluznd tabelele i scorurile fixate) 3.2. ntrebare cheie: Care este calitatea datelor standard i a studiului de etalonare? 3.3. Este indicat pentru care alte categorii de grupuri, etaloanele pot fi generalizate, i dac da, sunt menionate marjele de eroare? 3.4. Sunt explicate semnificaia i limitele tipului de scal sau scorurilor care sunt folosite i scala se dovedete a fi compatibil cu scopul stabilit al testului? 3.5. Exist informaii despre medii, abateri standard i distribuia scorurilor? 3.6. Exist informaii despre erorile standard de msurare i/sau erorile standard de estimare a intervalului de ncredere adecvat al msurrii? 3.7. Exist informaii despre posibilele diferene dintre subgrupuri (de exemplu, referitoare la sexul subiecilor sau apartenena etnic)? 3.8. Este raportat anul n care au fost colectate datele pentru fiecare grup n vederea etalonrii? 4.Fidelitatea
2

4.1. ntrebare cheie: Exist informaii referitoare la fidelitatea testului? (dac evaluarea itemului este negativ se trece la itemul 5.1) 4.2. Rezultatele din cadrul studierii fidelitii sunt suficiente raportat la tipul deciziilor pe care se bazeaz testul? a. Fidelitatea formelor paralele b. Consistena intern c. Fidelitatea test-retest d. Fidelitatea inter-evaluatori 4.3 Care este calitatea investigrii fidelitii? a. Sunt corecte procedurile de calculare a coeficienilor fidelitii? b. Sunt compatibile eantioanele pentru calcularea coeficienilor fidelitii cu scopul stabilit al testului? c. Este posibil s se realizeze o judecat complet a fidelitii testului pe baza informaiilor date? 5.Validitatea 5.A. Validitatea de construct 5.1. ntrebare cheie: Exist informaii referitoare la validitatea de construct a testului? (Dac evaluarea la acest item este negativ se trece la itemul 5.4). 5.2.Rezultatele privind sudierea validitii susin semnificaia propus a conceptelor (sau: Rezultatele privind studierea validitii arat clar ceea ce este msurat)? 5.3. Care este calitatea studiilor de validare a constructului (constructelor) msurate? a. Procedurile folosite pentru obinerea i calcularea datelor privind validitatea de construct sunt corecte? b. Eantioanele folosite n studierea validitii de construct sunt compatibile cu scopul stabilit al testului? c. Care este calitatea altor instrumente folosite n studierea validitii de construct? d. Este posibil luarea unei hotrri corecte privind validitatea de construct a testului pe baza informaiilor date? 5B. Validitatea relativ la criteriu ntrebare cheie: Exist informaii despre relaia test criteriu? (Dac evaluarea la acest item este negativ, itemii 5.5 i 5.6 pot fi srii). 5.5.Rezultatele din cadrul studierii validitii sunt suficiente n ceea ce privete tipul deciziilor pentru care a fost propus testul? 5.6.Care este calitatea studiului validitii de criteriu? a. Procedurile folosite pentru obinerea i calcularea datelor privind criteriul validitii sunt corecte? b. Eantioanele folosite n studierea validitii de criteriu sunt compatibile cu scopul stabilit al testului? c. Care este calitatea studiului validitii de criteriu (predictiv)? d. Este posibil luarea unei hotrri corecte privind validitatea de criteriu a testului pe baza informaiilor date?
5.4.

2.

EXPLICAII I REGULI DE APRECIERE 1. Bazele teoretice ale testului

Explicaii generale Construcia testului solicit o pregtire amnunit. n cele din urm, scorurile testului constituie temeiul n care se elaboreaz judeci referitoare la diferenele intra-individuale (n cadrul unor contexte precum sistemul educaional i consilierea vocaional), diferenele inter-individuale (de exemplu, n selecia personalului), i diferenele ntre grupuri sau situaii (precum cele din diagnozele organizaionale). Informaiile asigurate de autorul testului ar trebui s permit viitorului utilizator al testului s discearn dac testul este potrivit pentru scopul pe care l urmrete. Pornind de la aceasta, primul pas const n a furniza o descriere clar a conceptului teoretic pe care testul i propune s-l msoare. Alegerea coninutului testului i metodele prin care un concept este msurat ar trebui de asemenea, luate n considerare. Aceste aspecte depind doar de viabilitatea teoriei i minuiozitatea descrierii ipotezelor de baz. Problema cu referire la elaborarea cu succes a testului ca o construcie demn de ncredere i valid sunt luate n considerare n cadrul criteriilor 3, 4, 5 focalizate pe calitatea i rezultatele cercetrii. Explicaii / recomandri (explicaii) pentru fiecare item Itemul 1.1 Construcia testului ar trebui s nceap cu o reflectie asupra scopului testului. Scopul este de a prezice anumite comportamente (predictiv) ? Are intenia de a evalua progresul educaional sau efectele unui training (monitorizare)? Este utilizat pentru a aprecia potrivirea pentru un anumit tip de tratament (diagnostic) etc.? Este de asemenea esenial s se menioneze grupul sau grupurile pentru care este realizat testul, detaliind aspecte precum vrsta grupului, ocupaia, nivelul studiilor i dac este vorba de un context luat n considerare este normal sau clinic. Cu ct sunt mai ambiioase scopurile autorului testului, cu att mai mari sunt obligaiile sale de a arta date empirice precum etaloane i dovada validitii instrumentului. Itemul 1.2 Autorul testului ar trebui s clarifice dac testul reflect o teorie existent sau dac acesta este bazat pe o dezvluire nou care poate aduce eventual, schimbri minore sau majore n cadrul altei teorii. Indiferent de teoria pe care se bazeaz testul, aceasta trebuie descris detaliat. Dac testul este o traducere sau adaptare a unui instrument strin, trebuie asigurat o informaie de fond suficient, o list de referine nefiind suficient. Chiar i atunci cnd testul i propune s msoare constructe foarte cunoscute precum inteligena, de exemplu, o definiie a conceptului trebuie dat pentru a se lmuri ce aspecte ale comportamentului aparin domeniului respectiv. De asemenea, trebuie descrise i anumite asemnri sau diferene cu teste similare. Din aceast prezentare, valoarea adugat a noului instrument ar trebui s fie evident. Itemul 1.3 Aceast ntrebare se refer la paii prin care conceptul ce se msoar este operaionalizat. Definirea ariei de coninut trebuie s fac posibil a se stabili care itemi aparin domeniului i care nu. Acest aspect poate fi realizat prin analizarea conceptului ntr-un mod care s clarifice care din faete este luat n considerare. Consideraiile teoretice sau coninuturile asociate pentru greutatea acordat acestor faete ar trebui i ele consemnate, i problema itemilor luai n considerare pentru eantionare ar trebui menionat. Chiar dac itemii sunt eliminai sau modificai n cursul construirii sau adaptrii testului, consecinele acestor schimbri pentru msurarea conceptului
4

original trebuie indicat (domeniul coninut poate fi schimbat, ngustat sau incomplet acoperit ca rezultat al acestor modificri). 2. Calitatea materialelor pentru testare i a manualului testului

Explicaii generale Scorul la un test poate fi interpretat ca o msur de ncredere dac testul este administrat n condiii standardizate. Scopul standadizrii situaiei de testare este s se prentmpine aparia unor factori necontrolai care s afecteze scorul. De exemplu, administrarea i instruirea ar trebui s fie standardizate ntr-o asemenea msur nct influena administratorului de test i a variaiilor n instruciuni s fie eliminat sau minimizat. Explicaii / recomandri pentru fiecare item (Criteriul 2A) Itemul 2.1 Itemii testului sunt standardizai atunci cnd ei sunt aceeai pentru fiecare respondent din punct de vedere al coninutului, formei i succesiune. Standardizarea este o condiie important pentru interpretarea i compararea scorurilor. O excepie, care ine de cerina unei succesiuni uniforme a itemilor testului este acceptat n cazul testelor adaptive. Totui, i pentru acest tip de test, regulile de stabilire a seleciei oricruia dintre itemi trebuie redate explicit. Itemul 2.2.a Un sistem de scorare este considerat obiectiv atunci cnd valoarea scorului acordat pentru toate posibilele rspunsuri la toi itemii testului sunt stabilite n aa mod, nct orice persoan calificat care scoreaz itemii, cu excepia erorilor de redactare, acord exact acelai scor pentru acelai rspuns. Acest aspect este aplicabil n mod particular in cazul testelor de abilitate, creion hrtie i chestionarelor cu itemi cu alegere multipl. Itemul 2.2.b Pentru scalele de observare, testele proiective, subtestele bateriei individuale de inteligen i ntrebrile cu rspunsuri deschise, cotarea nu poate fi strict obiectiv. Pot fi descrise ns dovezile care asigur un nivel ct mai ridicat de obiectivitate n cotare. Itemul 2.3 Coninutul unui test este calificat drept rasist dac conine cuvinte, fraze, imagini sau alte elemente folosite n itemi sau instruciuni aduceau ofense membrilor unuia sau mai multor grupuri etnice minoritare. Coninutul unui test este calificat drept ca discriminatoriu din punct de vedere al grupurilor etnice, atunci cnd testul conine cuvinte, idiomuri sau imagini complicate cu specific cultural. Principiul utilizrii restricionate poate fi aplicat la fel de bine i altor grupuri. Un exemplu, este un inventar de interese care conine imagini cu itemi-stereotipi legai de sexul personajelor. Acest principiu nu se aplic testelor care sunt destinate s msoare concepte raportate la rasism sau sex (aa cum este Scala F a lui Adorno sau scala pentru androgenie). Itemul 2.4.a Concluziile care trebuie avute n vedere n evaluarea acestui item includ: (a) claritatea itemilor sau distribuiile pentru grupurile pentru care testul este stabilit (majoritatea itemilor nu trebui s treac dincolo de restriciile acestor grupuri) i (b) foile de rspuns, dac se folosesc, ar trebui realizate ntr-un mod n care erorile de completare (cum ar fi srirea peste un item) pot fi detectate rapid. Itemul 2.4.b Acest item vizez toate aspectele practice ale materialelor testului care nu au fost acoperite n totalitate de itemii de la criteriul 2A. Acestea include urmtoarele consideraii: Itemii sunt formulai ntr-un limbaj obinuit? Testul este clar? Pot fi deosebite clar culorile sau simbolurile (dac se folosesc) unele fa de altele (chiar i pentru indivizii daltoniti)? Materialele testului sunt durabile? Itemul 2.5 n evaluarea acestui item, atenia trebuie acordat urmtoarelor aspecte:
5

Procedura de cotare trebuie descris n totalitate i clar Dac se folosesc grile pentru calcularea scorului, trebuie s existe instruciuni clare asupra modului n care se plaseaz aceste grile deasupra foilor de rspuns. Dac se folosesc grile pentru calcularea scorului, acestea trebuie s se potriveasc cu acuratee peste foile de rspuns. Dac se folosesc grile pentru calcularea scorului, versiunea testului trebuie imprimat pe grilele de corectare. Acesta este, n mod deosebit, important atunci cnd testul este revizuit. Ar trebui s existe instruciuni clare pentru scorarea itemilor pierdui (srii). Trebuie dat o indicaie asupra a ct de muli itemi pot fi pierdui fr ca testul s i piard valoarea. Dac sunt implicai evaluatori sau observatori, ar trebui s existe instruciuni clare despre cum s se fac fa diferenelor dintre evaluatori i observatori, n general, folosirea de foi de rspuns separate este preferabil, deoarece n urma scorrii unor foi de rspuns vor rezulta mai puine erori dect scoarea unei brouri de test. Itemul 2.6 n acest sistem de evaluare este fcut o distincie ntre instruciunile pentru cel cruia i se administreaz testul i pentru cel care administreaz testul. Calitatea instruciunilor pentru cel testat sunt evaluate n acest item; instruciunile pentru administratorul testului sunt evaluate n itemul 2.8. Instruciunile sau explicaiile pentru cel testat se gsesc n materialele testului i de obicei constituie prima sau primele pagini ale brourii testului sau prima / primele pagini de text atunci cnd testul este administrat pe computer. Instruciunile trebuie s fie standardizate i ar trebui s includ urmtoarele elemente: unul sau mai multe exemple de ntrebri informaii despre cum se nscriu (sau se redacteaz, n cazul testrii computerizate) rspunsurile. O strategie de a presupune sau de a rspunde, cnd alternativele au acelai grad de probabilitate sau aplicabilitate. Limite de timp

Explicaii / recomandri per item (Criteriul 2B) Itemul 2.7 Autorul unui test trebuie s furnizeze un manual care s conin informaii practice (numit n mod obinuit Ghidul utilizatorului) i informaii tehnice (numit n mod obinuit Manualul tehnic). Dezbaterile, articolele de revist sau lucrrile de cercetare nu ar trebui privite ca un manual. Itemul 2.8 Obiectivul principal al recomandrilor pentru administratorul de test n manual este s asigure standardizarea testului. Principiile ar trebui s fie, pe ct de posibil, explicite n descrierea lor, n privina a ceea ce are de spus exact administratorul, ce nu trebui s fac sau s spun i sarcinile pe care acesta trebuie s le ndeplineasc (cum ar fi de exemplu, aranjarea materialelor ntro anumit ordine pentru un test de abilitate). O afirmaie de genul administratorul testului explic scopul testului celui cruia i este administrat este considerat insuficient. Manualul testului trebui s furnizeze de asemenea, un plan detaliat asupra modului cum s se descurce cu ntrebrile obinuite pe care le pot adresa subiecii testai. Itemul 2.9 Un manual trebuie s fie complet, precis i clar n privina aplicabilitii testului. Acesta poate ghida ctre sugestii de utilizare diferit a testului, n funcie de situaii sau aplicaii specifice. Exemple n acest sens ar fi urmtoarele: S-a specificat faptul c deciziile legate de clasificrea educaionale nu ar trebui luate doar pe baza unui singur scor de test? A fost menionat relaia dintre scorul testului i ulterioarele procese de nvare n cazul evalurii progresului?
6

Rezultatele obinute la un test ntr-o situaie clinic pot conduce la concluzii ntemeiate empiric sau ele servesc doar ca ipoteze de cercetare? S-a evideniat faptul c scorurile la un singur test nu ar trebui folosite ca un temei n luarea unor decizii privind consilierea vocaional? n cazul testelor pentru selecie de personal, au fost indicate categoriile ocupaionale pentru care testul a fost destinat i specificate capacitile semnificative pentru aceste ocupaii? Itemul 2.10 Pentru utilizatorii de teste, manualul va constitui principala surs de informaii, deoarece muli dintre acetia nu vor avea acces a dezbateri, raporturi de cercetare sau alte materiale publicate i nu vor avea timp (sau nu vor fi suficient de interesai) s citeasc toate detaliile tehnice. Un sumar al etalonrii, studiilor pentru fidelitate i validitate trebuie aadar prevzute n manual. Dac noi cercetri furnizeaz informaii suplimentare folositoare, utilizatorii ar trebui informai prin mijloace auxiliare sau revizuiri ale manualului. n acest item doar prezena informaiei n manual este solicitat. Caliatea design-ului de cercetare i rezultatele sunt evaluate n Criteriile 3, 4 si 5. Dac acest tip de informaii nu este publicat n manual, acest item va primi o evaluare negativ. Itemul 2.11 n general, includerea unui numr de cazuri descriptive n manual ar trebui s ajute utilizatorul testului n interpretarea scorurilor obinute. Itemul 2.12 A fost dat vreo indicaie dac exist alte variabile care contribuie la prediciie? Itemul 2.13 Meniunile privind competenele utilizatorilor ar trebui s detalieze pregtirea specific, certificarea profesional sau experiena necesar.
3.

Etaloanele

Explicaii generale Luat ca atare, rezultatul brut este puin semnificativ, sau chiar nesemnificativ. n general, scorul brut poate fi neles prin raportarea la un etalon. Etalonul poate deriva dintr-o arie de aptitudini sau aspectele stpnite de subieci (la care se refer coninutul interpretrii) sau poate fi bazat pe distribuia scorurilor prin raportare la un grup (interpretare prin raportarea la un etalon de referin). n interpretarea raportat la o tabl de corecie, rezultatul fiecrui subiect testat este examinat separat, pentru a vedea care rspunsuri sunt corecte i care sunt greite. Rezultatele nu sunt comparate cu cele ale altui subiect. Pe de alt parte, n interpretarea bazat pe etalon, compararea cu ceilali este principiul de baz al acestui proces. Aici, scorul subiectului testat este comparat cu scorurile altor indivizi care pot fi folosite n comparare (adic, pe baza unor similariti de vrst, studii, profesie, etc). Un etalon, fie ntr-un caz, fie n cellalt constituie o cerin de baz a tuturor testelor. ns, pot exista excepii, mai ales n cazurile testelor n care numai interpretarea intra-individual este recomandat. n asemenea situaii, ntrebarea la acest capitol, nu necesit rspuns i calificativul nu este aplicabil poate fi utilizat. Etaloanene sunt susceptibile la degradare. Dintre toate proprietile psihometrice ale unui test, etaloanele sunt cele mai sensibile la factori precum schimbri sociale, educaionale sau profesionale. Prin urmare, fie un test trebuie s fie reetalonat din cnd n cnd, fie autorul testului trebui s arate prin mijloace de cercetare c nu este necesar o reetalonare a testului. Pentru a atrage atenia utilizatorului de teste asupra posibilitii c etaloanele pot fi depite, meniunea Etaloanele sunt depite. este adugat la evaluarea testului, dac datele din etalon sunt completate cu mai mult de 15 ani n urm. Dup trecerea altor 5 ani n care nu a fost realizat reetalonarea, meniunea anterioar se va schimba n Etaloanele nu mai sunt utilizabile, deoarece sunt depite. Aceste specificaii sunt completate o dat pe an.

Explicaii / recomandri pentru fiecare item Itemul 3.1 Etaloanele trebuie s fie valabile la momentul n care testul este publicat pentru uzul actual. Datele de etalonare bazate pe scoruri individuale nu sunt relevante pentru testele proiectate pentru etaloane raportate la evalurile de grup i viceversa. Etaloanele nu mai pot fi folosite atunci cnd au fost fcute modificri ale testului, de exemplu n cazul modificrilor de itemi sau instruciuni. Transformarea unui test creion-hrtie ntr-un test computerizat este de obicei puin influenat din aceast perspectiv n cazul scorurilor la chestionare de personalitate, dar n cazul testelor de performan, de obicei, noi date de etalonare trebuie adunate. Aceasta mai ales, n cazul n care sunt implicate limite de timp. Itemul 3.2 Etaloanele de baz trebuie s fie prezentate pentru toate scopurile i aplicaiile pentru care testul este recomandat de ctre autor (vezi itemul 1.1). Poate reiei faptul c grupurile pentru care etaloanele sunt prezentate s acopere doar o parte din aplicaiile proiectate. De exemplu, cnd autorul unui test indic faptul c un test este stabilit att pentru consilierea vocaional spre colile tehnice, ct i pentru selecia pentru meserii tehnice, etalonul ar trebui s fie furnizat pentru ambele situaii. Totui, nu ar fi realist s se solicite etaloane pentru fiecare profesiune tehnic. Un etalon de grup trebuie s ndeplineasc anumite cerine pentru a atinge scopul su (acesta este de a furniza un set de puncte de referin de ncredere). n primul rnd trebuie s fie reprezentativ pentru grupul de referin i n al doilea rnd eantionul trebuie fie suficient de mare. Pentru a facilita o evaluare a reprezentativitii eantionului pentru etalonare, trebuie date o definiie a populaiei i o descriere complet a structurii eantionului i a procesului de colectare a datelor. Trebuie s fie evident din descrierea populaiei avute n vedere, dac datele sunt colectate local sau naional, dac strngerea datelor acoper media populaiei sau numai a anumitor indivizi cu caliti specifice (de exemplu persoane cu probleme mentale sau cu o anumit pregtire colar de baz), ce reguli de eantionare au existat, .a.m.d. Cel mai adesea, datele sunt colectate prin aa numitele eantioane la ndemn. Asemenea eantion poate consta n clienii care apeleaz la un serviciu de consiliere vocaional, studeni la psihologie sau pacieni din centre medicale de psihiatrie, de exemplu. n general, eantioanele de acest tip ofer un etalon srac deoarece motivul testrii este raportat la scorul testului. De aceea, aceste eantioane nu pot fi considerate reprezentative pentru populaia int (care, n exemplele date mai sus, se refer doar la liceeni, studeni, respectiv persoane cu probleme psihiatrice). Itemul 3.3 Colectarea datelor pentru etalonare este o procedur costisitoare i laborioas, care solicit s nu fie realizat pentru toate grupurile posibile. Etaloanele pentru grupurile cu vrste medii pot fi obinute prin mijloace de extrapolare sau etaloane care pot fi generalizate pentru profesii sau ocupaii similare. Autorul testului trebuie s justifice extrapolarea sau generalizarea etaloanelor prin descrierea punctelor critice ale asemnrii dintre grupuri (de exemplu, n termeni de coninut al profesiei sau al educaiei) sau prin furnizarea de date din cercetare (cum ar fi scorurile la variabile nrudite). Cnd vrsta sau clasele etaloanelor sunt furnizate, amplitudinea vrstei i nivelul intervalului contribuie la erori (bias-uri) n scorurile testului: performana este subestimat la nceputul intervalului i supraestimat la sfritul acestuia. Testele de abilitate pentru copiii mici sunt, n mod particular, mai vulnerabile la acest efect, cu o variaie de 10 sau mai multe puncte QI n cadrul unei perioade de un an. Chiar n primii ani ai colii generale, diferenele dintre doi ani consecutivi pot depi tot att de mult, ct jumtate din deviaia standard. Acest tip de bias poate fi mpiedicat prin extinderea listelor de etaloane. Dac testul este proiectat pentru a fi folosit ntr-o anumit perioad a anului, aceasta trebui menionat clar i datele pentru etalonare trebuie adunate tot n aceeai perioad. n orice caz, vrsta medie n luni sau perioada anului n care etaloanele sunt colectate trebuie s fie menionate pentru vrsta i educaia la care se raporteaz etaloanele.

Itemul 3.4 Pentru transformarea scorurilor brute n scoruri standard exist un sistem numeros de categorii de scale, din care se poate alege. O alegere poate fi fcut ntre scorurile standard, percentile i o scal cu mai multe sau mai puine uniti. Pentru o situaie particular, autorul testului poate decide s proiecteze un nou sistem sau s adapteze unul existent. Cnd scopul testului trece sub categoria important1 este indicat s se aleag un sistem precis cu mai multe uniti. Totui, pentru testele din aceast categorie este recomandat folosirea intervalului de ncredere. A opta pentru un sistem brut, nseamn a sacrifica precizia, dar pot face rezultatele mai uor i rapid de neles (ex. apt vs. inapt). Indiferent de sistemul de scal utilizat, ar trebui s fie descrise i motivele pentru alegerea scalei ar trebui s fie menionate. Itemul 3.5 Aceste date trebuie furnizate pentru fiecare etalon de grup. Aspecte precum boltirea, simetria sau bimodalitatea distribuiei scorurilor sunt relevante, precum i diferenele posibile ntre aceti parametri ntre etaloanele de grup. De exemplu, poate fi cazul n care scorurile la un chestionar sunt mai mult sau mai puin distribuite normal ntr-un grup, n timp ce 50% din participanii dintr-un alt grup obin scoruri sczute. Alte informaii utile ar putea fi existena unor efecte de baz sau de plafon (floor and ceiling effects) obinute ntr-un test de abiliti cognitive. Un utilizator de test are nevoie de astfel de informaii pentru a interpreta corect scorurile la test. Itemul 3.6 n literatura de specialitate, eroarea standard de msurare i eroarea standard estimat nu sunt difereniate. Eroarea standard de msurare d un interval de ncredere care este simetric n jurul scorurilor observate. Aceast indic faptul c scorurile observate difer semnificativ de fiecare scor adevrat care se afl n acest interval. Formula pentru calcularea erorii standard de msurare este: est = x (1-rxx). Intervalul de ncredere este important atunci cnd este cerut utilizarea semnificaiei testelor (scorul unei persoane A difer de scorul persoanei B sau fa de scorul medie X0 ?). Pe baza acestor erori standard se pot calcula intervalele de ncredere ce cuprind cu o probabilitate foarte mare socrul adevrat al subiectului testat. Pentru testele ncadrate n categoria importante, intervalele de probabilitate trebuie s fie prevzute, pentru a obine o evaluare pozitiv a acestui item. Dac este dat doar eroarea standard va fi dat o evaluare +/-. Pentru teste mai puin importante, raportarea erorii standard corecte a msurrii este suficient pentru a se acorda o evaluare pozitiv. Itemul 3.7 Exist diferite motive pentru care diferenele dintre subgrupuri trebuie studiate i raportate: rezultatele pot indica un impact opus; rezultatele pot justifica bias-urile de cercetare raportat la test sau la item; utilizatorul testului primete date care i permit s decid dac s ia sau nu n considerare posibilele diferene; Aceste studii se aplic doar acolo unde subgrupurile sunt relevante pentru scopul testului, aa cum sunt grupurile mprite pe sex, vrst sau apartenena etnic. Itemul 3.8 Menionarea anului n care au fost colectate datele pentru etalonare este important pentru a decide dac etaloanele sunt depite, i dac da, cu ct timp. 4. Fidelitatea Explicaii generale Variana n scorurile unui test const n varian adevrat i varian eroare. Sursele varianei eroare pot fi diferite. Numeroii coeficieni de fidelitate care pot fi calculai reflect aceste surse n diferite grade. De aceea, nu este posibil s vorbim despre fidelitatea definitiv a unui test: diferitele
1

Decizii importante sunt: decizii luate pa baza scorului unui test care sunt eseniale sau n termen scurt, ireversibile i asupra crora cel testat are o mic influen. 9

forme ale fidelitii sunt deosebite n funcie de sursa erorii analizat ntr-un studiu particular. n plus, rezultatele studiului fidelitii vor diferi n funcie de caracteristicile grupului studiat (omogenitatea referitoare la constructele msurate are o puternic influen n calcularea coeficienilor). n practic, coeficientul de fidelitate clasic indic, aa cum a fost menionat a itemul 4.2, msura n care scorurile pot fi generalizate cu privire la form, itemi, timp i evaluatori. Fidelitatea unui test este n general studiat folosind metode clasice i itemii din acest capitol au fost explicai n consecin. n orice caz, este posibil s se foloseasc alte modele, de exemplu utilizarea analizei varianei pentru a estima influena diferitelor aspecte la un moment dat. n general, este menionat evaluarea doar a unui singur coeficient de fidelitate, dei testul poate poate furniza diferite scoruri. De exemplu, acesta este cazul chestionarelor de personalitate i de interese care conin diferite scale, i al bateriilor de aptitudini multiple care conin cteva subteste (chiar dac sunt administrate independent sau nu). Cnd scorurile la subteste sunt adunate pentru a obine un scor total, cum e cazul testelor de inteligen, exist trei posibile presupuneri: Are importan numai interpretarea scorului total. n aceast situaie numai fidelitatea scorului total este nevoie s fie evaluat. Autorul testului afirm c scorul total este ntr-adevr cel mai important, dar c interpretarea scorurilor la subteste este i ea posibil. n aceast situaie fidelitatea scorurilor la subteste ar trebui evaluat cu un criteriu care are un nivel aflat imediat sub nivelul criteriului aplicat pentru scorul total. De exemplu, dac scorul total este categorizat ca fiind important, scorul pentru subteste ar trebui s fie ntr-o categorie mai puin important. n majoritatea cazurilor, scorurile la subteste sunt mai puin fidele dect scorul total, dar cnd este aplicat regula de mai sus, evalurile pot fi aceleai. Autorul testului menioneaz c nu este nici o diferen a importanei, ntre scorurile la subteste i scorul total. n acest caz, cerinele pentru ambele tipuri de scoruri sunt aceleai. Cnd evalurile date pentru coeficienii de fidelitate ale scorurilor la subteste i scorul total difer, acestea ar trebui menionate ntr-o not de subsol, adugat la evaluare. Este de asemenea important s se noteze c numai o singur evaluare este dat cnd autorul unui test furnizeaz coeficieni de fidelitate pentru mai multe grupuri. Explicaii / recomandri pentru fiecare item Itemul 4.1 Unele tipuri de coeficieni de fidelitate vor fi n general furnizai, dar i rezultatele studiilor de generalizare pot fi luate n considerare. Itemul 4.2 Nu pot fi fcute afirmaii generale despre nivelul dorit al coeficientului de fidelitate, cu toate c un test care este folosit pentru decizii importante este recomandat s aib o fidelitate ct mai ridicat. Itemul 4.2.a Consistena intern a diferitelor forme ale testului (forme paralele, de exemplu) poate fi determinat prin tehnici de corelaie prin compararea ntre forme i coninutului itemului i (n mod clasic) prin compararea dificultilor, mediilor i varianei itemului. Corelaia este o evaluare a fidelitii ambelor forme ale testului. Fidelitatea testelor paralele poate fi folosit n cazul testelor cu timp impus. Corelaia dintre dou jumti ale testului, formate fie pe baza njumtirii timpului de testare sau mprirea coninutului testului, poate fi considerat ca i fidelitate a testelor paralele. Ulterior poate fi aplicat o corectare a lungimii testului. Itemul 4.2.b. Consistena intern referitoare la itemii (sau grupurile de itemi) din cadrul unui test este de obicei calculat cu ajutorul coeficientului Alfa Cronbach. Deoarece coeficientul este raportat la numrul itemilor, este important s contientizm c un numr foarte mare de itemi poate duce la un coeficient de fidelitate crescut, i n cazurile n care corelaiile inter-itemi sunt moderate. Din perspectiva zilelor noastre, este nerecomandabil s se foloseasc clasicii coeficieni split-half (de
10

njumtire), deoarece rezultatele depind de mprirea arbitrar a itemilor n jumtile testului. Coeficientul de consistena intern sau indicele de omogenitate nu sunt utili n cazul testelor de vitez. n asemenea situaii, alte metode de calculare a fidelitii se dovedesc a fi utile precum metoda testelor paralele sau metoda test-retest pot fi folosite. Cu toate acestea, multe teste de abilitate au, de asemenea, o limit de timp. Mai ales n cazul n care un procentaj semnificativ din subiecii testai nu au fost capabili s completeze ultimii itemi ai testului, consistena intern nu ar trebui calculat automat, deoarece poate rezulta o fidelitate care poate fi supraestimat. n aceast situaie, o estimare rezonabil a fidelitii poate fi obinut prin: mprirea testului n dou jumti (de exemplu, itemii pari i itemii impari), administrarea subtestelor n timpul de testare njumtit, calcularea corelaiei dintre cele dou jumti i, n final, corectarea corelaiei lundu-se n considerare njumtirea lungimii testului. Cnd viteza nu este un factor principal (aceasta este atunci cnd cel puin 70% din subiecii testai completeaz ultimul item), poate fi aplicat o formul de corectare a coeficientului de consisten intern. Pentru toate tipurile de teste adaptive sau ajustate, consistena intern nu poate fi stabilit fr a se face o difereniere. n acest caz, fidelitatea este estimat, folosindu-se regulile diferitelor puncte de ntrerupere i prin calcularea corelaiilor dintre scorurile obinute i variabila criteriu. Itemul 4.2.c. Consistena intern n timp este estimat prin metode de corelaie test-retest care sunt calculate pentru administrri repetate ale testului la acelai grup. Trebuie fixat intervalul de timp dintre dou aplicri, precum i lista evenimente relevante care au avut loc n acest timp. Dac intervalul de timp este suficient de lung, el poate servi ca un semn al stabilitii scorurilor la test. Itemul 4.2.d Pentru metoda observaiei i scalele de evaluare n particular, este important s se tie dac scorurile pot fi generalizate din punctul de vedere al observatorilor sau evaluatorilor. Indicii care pot fi folosii sunt coeficienii de consisten precum: Cohens kappa, coeficientul lui Gower (Gower, 1971) sau alte msurri care iau n considerare diferenele dintre medii i varianele evalurilor. Itemul 4.3.a Pentru fiecare din cele patru forme ale fidelitii, unele puncte cu o importana deosebit sunt redate mai jos: 1. Perfecionarea testelor sau scalelor, de obicei, i propune s obin consistena intern cea mai ridicat. Aceasta poate rezulta ntr-un coninut al testului foarte specific care msoar un construct foarte limitat. n general, nu este foarte dificil s se obin o consisten intern crescut prin dezvoltarea itemilor care sunt aproape identici, dar asemenea scale sau teste sar putea s nu fie foarte utile. Aceste intercorelaii relativ crescute pot fi datorate faptului c au o varian neintenionat care nu este comun cu ali itemi din test. Aceasta se ntmpl atunci cnd itemii sunt formulai ntr-o manier similar, au un anumit cuvnt n comun .a.m.d. Astfel de variane neintenionate pot contribui la o consisten intern crescut. n general vorbind, punctele menionate mai sus semnific faptul c testul msoar doar parial un construct, altul dect cel stabilit (prin limitarea constructului sau prin introducerea de varian neintenionat) pentru a se obine un grad crescut de omogenitate. Acest aspect poate fi evitat prin testarea unei singure dimensiuni n timpul fazei de perfecionare a testului, folosindu-se analiza LISREL, de exemplu. 2. Nu pot fi date standarde stricte n privina lungimii intervalului test-retest. Ca o regul, un interval de timp foarte scurt (pn la cteva sptmni) nu este adecvat datorit rolului jucat de memorie. Un interval lung de timp (mai lung de un an) poate de asemenea, s nu fie folositor, deoarece evenimente externe sau experiene pot influena personalitatea i abilitile individului, afectnd implicit i scorul la retestare. Corelaia test-retest cu intervale lungi de timp nu este un indicator al fidelitii testui, ci mai degrab o msurare a stabilitii trsturii testate. n orice caz, intervalele menionate mai sus sunt mai degrab stabilite arbitrar. Vrsta grupului testat, natura testului n sine i scopul testului trebui ntotdeauna luate n considerare, nainte de determinarea intervalului potrivit.

11

3. Metoda observaiei i a evalurilor trebuie s fie realizate independent cnd fidelitatea interevalurii este folosit pentru a estima fidelitatea testului. Acest fapt ar trebui s fie clar descris n desig-ul cercetrii. Itemul 4.3.b. Coeficienii de fidelitate trebuie s fie calculai pentru grupurile pentru care testul este folosit. Acesta implic faptul c trebuie s fie calculai pentru fiecare grup etalonat, din moment ce scorurile subiecilor testai sunt comparate cu un astfel de grup i conteaz fidelitatea obinut n cadrul acestui grup de referin. Din moment ce mrimea coeficientului de fidelitate depinde de distribuia scorurilor, coeficientul calculat va fi cu siguran mai mare cnd scorurile ntregului grup sau extremele distribuiei scorurilor sunt folosite n locul coeficientului separat pentru fiecare grup etalonat. Itemul 4.3.c. Mai jos sunt cteva exemple de informaii care trebuie s fie valabile pentru a facilita sensul estimrii calitii pe care o are studiul fidelitii: Deviaiile standard ale scorurilor de la testarea i retestarea grupului sunt date? Pentru testele cu limit de timp, a fost menionat prodentajul subiecilor care au rspuns la fiecare item? Eantioanele pentru care au fost calculai coeficienii de fidelitate au fost descrise n detaliu? A fost menionat numrul observatorilor i evaluatorilor implicai n msurarea coeficientului de fidelitate? Observatorii i evaluatorii, de obicei, sunt instruii pentru sarcina lor. Acest trainig va influena calitatea evalurilor i implicit nivelul fidelitii inter-evalurii. Descrierea programului de instruire ar trebui detaliat suficient de bine ca s dea posibilitatea utilizatorilor de test s se pregteasc n acelai mod nct fidelitatea evalurilor s fie generalizat i n cazul lor. Ar trebui s fie realizabil pentru noii utilizatori s dobndeasc acelai nivel al acestei abiliti. Este de asemenea important s se menioneze dac coeficientul de fidelitate publicat este asociat cu estimarea unui singur observator sau evaluator, sau cu media estimrilor mai multor observatori sau evaluatori. n cazul extrem, n care nu sunt date informaii descriptive de nici un fel, coeficientul de fidelitate raportat poate fi evaluat cu insuficient deoarece calitatea design-ului cercetrii nu poate fi verificat. n majoritatea cazurilor vor fi furnizate suficiente informaii pentru a se cunoate calitatea cercetrii fidelitii. n cazurile limit, n special (insuficient/suficient, suficient/bine), informaii inadecvate pot constitui motiv pentru a se acorda evaluri sczute. 5. Validitatea

Validitatea este msura n care testul i atinge scopul. Pot fi conturate concluziile adecvate pornind de la scorurile testului? Acest sistem de evaluare urmrete clasificarea clasic n trei categorii cu privire la scopul cercetrii validitii (APA, 1985; Evers et al., 1988). Aceste categorii sunt: validitatea de construct, validitatea relativ la criteriu i validitatea de coninut. Validitatea de coninut a fost deja tratat la criteriul 1, deoarece este privit ca o parte din procesul de perfecionare a testului. Validitatea de construct se refer la rspunsul de la ntrebarea: Ce este msurat cu ajutorul testului?, Testul msoar conceptul propus sau parial / n ntregime msoar altceva?. Metodele i tehnicile utilizate frecvent pentru a dovedi caracterul evident al validitii de construct sunt: analiza factorial pentru a demonstra unidimensionalitatea, compararea mediei scorurilor la grupurile care sunt planificate s difere, i calcularea corelaiilor dintre testele care se presupune c msoar acelai construct. n mod esenial, acest tip de cercetare este uor de realizat i rezultatele pot furniza un indiciu iniial al validitii de construct (teoretice). Cu toate acestea, nici unul dintre aceti indicatori nu este suficient pentru a garanta o evaluare de suficient. Numai acumularea unor dovezi privind un studiu
12

mai extins al constructului sau un studiu bine proiectat cu privire la multi-caracteristici ale constructului pot duce la o evaluare de suficient sau bine. Validitatea relativ la criteriu demonstreaz c scorurile la test sunt raportate sistematic la unul sau mai multe criterii. n acest context, este utilizat termenul de predicie. Predicia poate fi focalizat asupra viitorului (validitate predictiv), asupra aceluiai moment din timp (validitatea concurent), sau asupra trecutului (validitate retrospectiv). Este important de menionat tipul criteriului pentru care sunt anticipate relaiile. Aceasta este adevrat, n special, cnd testul const n mai multe subteste sau scale. Totui, demonstrnd validitatea tuturor subtestelor sau scalelor nu este esenial pentru a obine o evaluare suficient sau bine, dac o singur scal valid poate face instrumentul util. Explicaii / recomandri pentru fiecare item (Criteriul 5A) Itemul 5.1 Informaiile cerute aici se refer la structura intern i extern a testului. Structura intern poate fi investigat prin determinarea msurilor asociate ntre (grupuri de) itemi, ntre itemi i test i ntre subteste. Proceduri precum a folosi subieci la testare care gndesc cu voce tare cnd examineaz itemii pot fi de asemena utilizate. Structura extern este de obicei investigat prin determinarea relaiei cu alte teste (validitate convergent sau divergent). Itemul 5.2 Dup cum a fost menionat mai sus, validitatea de construct este un aspect adugat ca dovad a cercetrii. Studierea validitii de construct nu este niciodat complet. Cercetarea bias-ului referitor la itemi pentru grupuri diferite poate fi de dorit. Un avantaj n plus al cercetrii biasurilor n privina itemilor este c furnizeaz informaii privind posibilitatea multidimensionalitii constructului msurat. Itemul 5.3.a. Cnd rezultatele ateptate nu au fost formulate anticipat, rezultatele cercetrii ar trebui nterpretate cu o mare precauie. Fr ateptri clarificate, interpretarea rezultatelor studiului poate fi uor degenerat ntr-o pescuire. Unele dintre corelaiile semnificative vor fi de fapt rodul ntmplrii i nu este posibil s se vad care sunt semnificative i care nu. Itemul 5.3.b. Vezi explicaiile de la itemul 5.6.b. Itemul 5.3.c. Fidelitatea msurtorilor folosite trebuie s fie cunoscut. Va fi evident c validarea scorului unui test cu o fidelitate sczut nu este folositoare, deoarece, rezultatele vor fi ndoielnice (o corelaie sczut poate semnifica faptul c testul msoar ceva diferit sau poate fi rezultatul unei fideliti sczute). Mai mult chiar, a valida un test cu unul asemntor este util numai dac validitatea celuilalt test a fost suficient investigat. Itemul 5.3.d. Trebuie funizate informaii asupra mrimii eantionului i o descriere suficient de detaliat a tehnicilor de analiz. Explicaii / recomandri pentru fiecare item (Criteriul 5B) Itemul 5.4 Exemple viznd criteriile de rapotare n privina validitii predictive includ: corelaia dintre scorurile la un test de inteligen i performana colar, indicele de predicie la un test folosit pentru selecia de personal i datele asupra sensilbilitii i specificacitii testelor pentru un diagnostic clinic. Aceste tipuri de date nu este necesar s fie adunate pentru fiecare test n fiecare situaie nou. Poate fi folosit principiul generalizrii validitii. Itemul 5.5 Dac este suficient unul sau mai muli coeficieni de validitate, depinde de un numr de factori. Elementele cheie includ scopul testului, valoarea coeficienilor de validitate, intervalul de ncredere al coeficienilor, valoarea testului comparabl cu alte instrumente sau alte surse de informaie, corelaia selectrii i analiza cost-beneficiu. Cu ct este mai explicit autorul testului n privina scopului testului, cu att mai bine evaluatorul va judeca dac testul are o contribuie util la scopul propus. Itemul 5.6.a Unele aspecte care trebuie luate n considerare sunt:
13

Scorul predictor i scorul criteriu sunt stabilii independent? De exemplu, acesta nu este cazul cnd supervisor-ul care evalueaz performana unui angajat tie resultatele de la test dinainte de procesul de selectare. Intervalul de timp dintre administratrea testului i examinarea criteriului compatibil cu folosirea propus a testului? Condiiile de testare din studiul de validitate sunt asemntoare cu condiiile n care testul este n realitate folosit? Cnd este folosit gneralizarea validitii, autorul testului expune suficiente argumente pentru similaritatea dintre situaii (sau teste) care sunt obiectul generalizrii? Pentru a demonstra similaritatea testelor n sensul generalizrii rezultatelor validitii, trebuie artat c ambele teste msoar constructe similare i au fideliti identice. Itemul 5.6.b. Cercetarea validitii ar trebui realizat pe o populaie pentru care testul este proiectat. Este cunoscut c indicii validitii pot s descreasc foarte mult cnd este folosit un grup omogen n locul unui grup eterogen (inndu-se seama de variabila msurat). De exemplu, ar fi incorect s se valideze un test proiectat pentru selectarea terapiei pe un eantion general de populaie. Eantionul trebuie s fie descris prin semnificaia variabilelor relevante psihologic i demografic pentru a facilita o evaluare adecvat a acestui item. Itemul 5.6.c. Cteodat alegerea unui criteriu este evident i scorurile criteriu pot fi uor adunate, n timp ce n alte situaii msurile criteriu trebuie s fie n mod special perfecionate i colectate. n toate situaiile criteriul trebuie decris n ntregime i ar trebui indicate care aspecte comportamentale relevante sunt incluse n msura criteriu i care nu. Aceasta este n special adevrat n cazul criteriilor mixte. Cnd intercorelaiile componentelor separate ale unui criteriu sunt sczute, este mai bine s se determine coeficienii de validitate n mod separat pentru fiecare component dect doar pentru criteriul total. - Itemul 5.6.d. Cnd se evalueaz calitatea studiului validitii, ar trebui s fie disponibile cteva informaii, care sunt expuse mai jos: - Sunt oferite rezultatele obinute prin contra-validare? - Dimensiunea eantionului ar trebui menionat. Cu ct acesta este mai mic, cu att mai largi sunt intervalele de ncredere ale coeficienilor de validitate.

Acest sistem de evaluare este o adaptare, la specificul romnesc, a modelului olandez construit de Arne Evers.

14

S-ar putea să vă placă și