Sunteți pe pagina 1din 4

IV.

VALIDITATEA ŞI FIDELITATEA – CRITERII DE BAZĂ PENTRU


APRECIEREA CALITĂŢII MĂSURĂTORILOR

În cadrul măsurătorilor cu ajutorul testelor trebuie să avem neapărat în vedere ca


acestea să prezinte validitate.

4.1. Validitatea măsurării


Validitatea arată gradul în care testul sau instrumentul se adecvează scopului
măsurătorii. Ca atare, validitatea se referă la soliditatea interpretării testului, acesta fiind
considerentul cel mai important al măsurătorii.
O parte integrantă a validităţii o reprezintă fidelitatea, care ţine de consistenţa sau
repetabilitatea unei măsurători.
Un test nu poate fi considerat valid dacă nu prezintă şi fidelitate. Cu alte cuvinte, dacă
testul nu este consistent – deci dacă nu ne putem baza pe alte încercări succesive care să
conducă la aceleaşi rezultate – testul nu poate prezenta încredere.
Desigur, un test poate avea fidelitate, nu şi validitate, dar niciodată nu poate fi valid
dacă nu este şi fidel. De exemplu, cântărirea aceleiaşi persoane în mod repetat pe un cântar
stricat va da rezultate semnificative, dar nu şi valide.

Tipuri de validitate
Conform Asociaţiei Americane de Psihologie şi Asociaţiei Americane de Cercetare
Educaţională, cele patru tipuri de bază ale validităţii sunt:
1. logică;
2. de conţinut;
3. criterială;
4. de construcţie.

1. Validitatea logică
Validitatea logică este menţionată uneori şi drept „validitatea la prima vedere”, deşi
unii specialişti în măsurători se feresc de acest termen.
Validitatea logică este invocată atunci când măsurătoarea cuprinde în mod evident
acţiunea care este măsurată. Cu alte cuvinte, aceasta înseamnă că testul este valid prin
definiţie.
Exemple. Un test de echilibru static care constă în menţinerea echilibrului pe un
picior are validitate logică. Un test de rapiditate a mişcării, la care o persoană este
cronometrată pentru alergare pe o anumită distanţă, trebuie de asemenea considerat ca având
validitate logică.

2. Validitatea de conţinut
Acest tip aparţine aproape exclusiv de procesul de învăţare din situaţiile educaţionale.
Un test are validitate de conţinut dacă va acoperi în mod adecvat cursul.
Exemplu. Un test grilă folosit la un examen la una din disciplinele de studiu ale
Facultăţii de Educaţie Fizică, datorită faptului că acoperă în mare măsură conţinutul esenţial
al cursului, va prezenta validitate de conţinut.

3. Validitatea criterială
Este întrebuinţată în două contexte principale: validitatea concurentă şi validitatea
predictivă.

1
a. Validitatea concurentă se referă la un instrument de măsurare relaţionat cu un
criteriu anume, care este administrat în aproximativ acelaşi timp. Multe măsurători ale
performanţelor fizice sunt validate în acest mod. De obicei, validitatea concurentă este
folosită atunci când se doreşte înlocuirea unui criteriu care de regulă este mai greu de
măsurat, cu un test mai scurt, executat cu mai mare uşurinţă.
Exemplu. Consumul maxim de oxigen este văzut ca măsurătoarea cea mai validă a
condiţiei cardio-respiratorii. Dar, în acest caz, este nevoie de un laborator, de echipament
costisitor şi de timp considerabil pentru testare, în plus putând fi testată în acelaşi timp doar o
persoană.
Să presupunem că un specialist doreşte să treacă în revistă subiecţii pentru nivelurile
de condiţie fizică înainte de a-i îndrepta către procesele experimentale. În loc să utilizeze un
test atât de elaborat cum este consumul maxim de oxigen, el consideră că este mai avantajos
să realizeze o măsurătoare mai uşor de executat. Ar putea dori să folosească un test de urcare
a treptelor (testul Douglas). Pentru a afla dacă acesta reprezintă o măsurare validă a condiţiei
cardio-respiratorii, s-ar putea aplica atât testul de consum maxim de oxigen cât şi cel de
urcare a scărilor unui grup de subiecţi, din aceeaşi populaţie, şi corela rezultatele celor două
teste.
Dacă există o relaţie satisfăcătoare, se poate concluziona că testul de urcare a scărilor
este valid.
Alt exemplu. Notele arbitrilor servesc drept măsurători de criteriu pentru unele teste
(măiestria sportivă este uneori validată în acest mod). De o mare cantitate de timp şi efort este
nevoie pentru a ne asigura: că arbitrii sunt competenţi, că există practică în folosirea scalei de
punctare, realizarea testului de acord între arbitri, subiecţii să fie trecuţi printr-un număr
suficient de încercări etc. În consecinţă, punctajul arbitrilor nu poate fi folosit în mod curent
pentru a evalua performanţele. Întrebuinţarea unor anumite teste de măiestrie este mai
economicoasă. În plus, de regulă, testele de măiestrie (abilităţi) oferă participanţilor
informaţii despre rezultatele şi măsura progresului realizat.
Testele de măiestrie pot fi la început validate prin derularea testului şi având arbitri
care să aprecieze subiecţii în legătură cu această măiestrie. Un coeficient de validitate poate fi
obţinut prin corelarea notelor de la testele de măiestrie cu notele arbitrilor.

Alegerea criteriului este punctul critic în cazul validităţii concurenţiale. Doar corelaţia
în întregime poate să ne spună care este gradul de relaţie între o măsurătoare şi criteriul
respectiv. În cazul în care criteriul nu este corespunzător, validitatea concurentă este scăzută.

b) Validitatea predictivă
Se referă la folosirea criteriului dezirabil ce trebuie anticipat. În multe cazuri criteriul
este reprezentat de comportamentul ulterior, ca atunci când examenele de admitere sunt
folosite pentru a anticipa succesul ulterior.
Exemplu. Să presupunem că facultatea de Educaţie Fizică doreşte să desfăşoare un
test care să poată fi aplicat studenţilor anului I pentru a anticipa succesul în anii superiori.
Testul trebuie aplicat în timp ce aceştia se află în anul I. La sfârşitul cursului pentru anii
superiori aceste rezultate vor trebui să fie corelate cu criteriul reprezentat de succes, adică
note, diplome etc. Când se încearcă să se anticipeze un anumit comportament, trebuie să se
ştie dacă există un „nivel de bază” cunoscut pentru cazul comportamentului respectiv. Dacă
nivelul de bază este foarte coborât sau foarte ridicat, o măsurătoare predictivă poate avea o
slabă valoare practică, deoarece creşterea gradului de anticipare va fi neglijabilă.
Se constată, de asemenea, că validitatea predictivă tinde să descrească atunci când
testul de anticipare este folosit în cadrul unui eşantion nou.

4. Validitatea de construcţie

2
Numeroase caracteristici umane nu sunt observabile în mod direct. Acestea sunt, mai
degrabă, construcţii ipotetice care conţin un număr de sensuri asociate, referitoare la modul în
care o persoană care deţine o trăsătură sau nişte trăsături într-un grad mai mare se va
comporta diferit de cineva care posedă trăsătura sau trăsăturile respective într-un grad mai
redus. Întrucât astfel de trăsături nu sunt direct observabile, măsurarea devine o problemă.
Validitatea de construcţie este gradul în care un test măsoară o construcţie ipotetică şi
este, de regulă, fixată prin relaţionarea rezultatelor testului cu un comportament anume.
Exemplu. Din partea unei persoane cu un înalt grad de măiestrie sportivă sunt de
aşteptat anumite comportamente. Se poate aştepta de la persoana respectivă să laude
loviturile adversarului pe durata unui meci de tenis. Ca indicator al validităţii de construcţie,
se poate compara frecvenţa laudelor aduse adversarului de către un individ care a obţinut un
punctaj ridicat la un test de măiestrie, cu aceeaşi frecvenţă la o persoană cu un scor mai
scăzut.
„Metoda de diferenţiere a grupului cunoscut” este folosită uneori în stabilirea
validităţii de construcţie.
Spre exemplu, validitatea de construcţie a unui test de forţă în regim de viteză poate
fi demonstrată prin compararea rezultatelor de test ale sprinterilor şi săritorilor cu cele ale
alergătorilor fondişti, Sprintul şi săriturile au nevoie de forţă-viteză într-o măsură mai mare
decât alergarea de fond. Prin urmare, se poate afla dacă testul introduce o deosebire între cele
două genuri de sportivi în atletism.
Dacă sprinterii şi săritorii obţin un scor semnificativ mai mare decât alergătorii de
fond, acest lucru poate fi o dovadă că testul măsoară forţa în regim de viteză.
Uneori, pentru a demonstra validitatea de construcţie se face apel la o abordare
experimentală.
De exemplu, un test de condiţie fizică poate fi presupus ca prezentând validitate de
construcţie dacă el reflectă câştiguri de condiţie fizică ca urmare a unui program anume de
condiţie fizică.

4.2. Sursele erorilor de măsurare


Eroarea de măsurare poare proveni, aşa cum am precizat, din patru surse: subiectul,
testarea, punctarea şi instrumentarea.
Eroarea de măsurare asociată cu subiectul cuprinde mai mulţi factori, incluzând starea
emoţională, motivaţia, oboseala, sănătatea, fluctuaţiile de memorie, practica anterioară,
cunoştinţele specifice şi gradul de familiarizare cu testul.
Erorile din testare sunt cele care pot să apară datorită unei lipse de claritate sau
caracterului incomplet al instrucţiunilor, dacă instrucţiunile sunt respectate într-un mod rigid,
dacă se aplică motivări suplimentare, funcţie de momentul aplicării etc.
Erorile din punctare sunt în relaţie cu competenţa şi experienţa scorerului, precum şi
cu natura punctajului însuşi. Gradul în care scorerul este familiarizat cu comportamentul care
trebuie testat şi cu itemii testului poate afecta în mod deosebit acurateţea punctării. Lipsa de
atenţie şi de grijă asupra detaliilor produc eroarea de măsurare.
Eroarea de măsurare datorată instrumentării include cauze evidente cum sunt lipsa de
acurateţe şi de calibrare a echipamentului mecanic şi electronic. Ea are legătură şi cu
caracterul inadecvat al testelor de discriminare a abilităţilor şi cu dificultatea de punctare la
anumite teste.

4.3. Scale de măsură

Pentru a stabili locul fiecărui subiect, prin rezultatul aprecierii numerice a


performanţei sale, în raport cu performanţele întregului colectiv investigat, se folosesc unităţi

3
de măsură ce au rolul unor criterii (de referinţă) pentru mulţimea valorilor unei distribuţii.
Integrate într-o scală, aceste unităţi, numite şi unităţi etalon, servesc la aprecierea gradului de
dezvoltare a unei caracteristici (nivelul acesteia).
Există patru tipuri de bază de scale:
- nominale,
- ordinale,
- de interval,
- de raport.

1. Scalele nominale
Atunci când punctajele sunt grupate în categorii sau clase, se obţine o scală nominală
(sau o clasificare pe nume). Punctajele pentru băieţi şi fete pot fi aplicate pe două grupuri
care se exclud reciproc, ceea ce înseamnă că nici un punctaj nu poate fi încadrat în mai mult
de o clasificare. Având în vedere că scala nominală de clasificare este doar pentru
identificare, nu există diferenţieri pentru a ordona sau majora diferenţe dintre grupuri.
Exemple de scale nominale includ categorii cum ar fi genul şi rasa, zona geografică,
mediul de provenienţă (rural-urban) etc.
În unele cazuri se creează grupuri pe baza criteriilor de măsurare. Spre exemplu,
grupurile cu condiţie fizică ridicată, medie sau scăzută, sau clasificările în abilităţi ridicate şi
abilităţi scăzute. În aceste cazuri, clasificările nu sunt strict nominale datorită faptului că
există o anumită distincţie în ceea ce priveşte ordinea. Astfel de scale ar putea fi considerate
undeva între nominal şi ordinal.

2. Scalele ordinale
Scalele ordinale prezintă gradaţii. Ele oferă mai multe informaţii decât o fac scalele
nominale. Numărul ordinal cel mai înalt este mai bun decât următorul cel mai înalt care, la
rândul său, este mai înalt decât cel de-al treilea.
Aceste scale nu ne oferă date despre mărimea distanţei dintre punctaje.

3. Scalele de interval
Aceste tipuri de scale oferă nu doar ordinea între punctaje, ci şi mărimea distanţei
dintre ele. Un punctaj de 35 genoflexiuni nu este doar mai înalt decât un punctaj de 25: este
cu 10 genoflexiuni mai înalt.
Exemplu. Scara IQ.
Intervalele de punctaj ne dau posibilitatea de a interpreta performanţele având
punctaje standard, prezentate în cursul Elemente de statistică aplicate în educaţie fizică şi
sport.

4. Scalele de raport
Au toate proprietăţile celorlalte trei scale plus o valoare zero de adevăr, care
reprezintă absenţa completă a caracteristicii.
Măsurătorile de forţă, timp şi distanţă sunt scale de raport, deoarece au puncte de zero
real. Un timp de 12 secunde este de 2 ori mai lung decât unul de 6 secunde. O săritură de 1,20
m este de 3 ori mai mare decât una de 40 cm.
O bună parte din măsurătorile folosite de domeniul educaţiei fizice şi sportului, deşi
presupun scale de raport, sunt tratate în acelaşi fel ca şi punctajele de interval. De exemplu,
deşi distanţa presupune o scală de raport, diferenţele relative dintre performanţe pot să nu fie
egale. Diferenţa de 5 cm dintre săritura în înălţime de 2,30 m şi cea de 2,25 m are, cu
siguranţă, o semnificaţie mai mare decât diferenţa de 5 cm la săriturile de 1,50 m şi 1,45 m.

S-ar putea să vă placă și