Sunteți pe pagina 1din 9

Cursul 11.

MASURAREA ORDINALA

Din cele prezentate în subcapitolele anterioare rezultă că, în măsurările pe scări cu


intervale constante, continuue există posibilitatea calculării unor valori (medie, abatere
standard etc.) numite estimatori care, prin analiza varianţei, permit compararea lor cu
valori teoretice obţinute pe baza distribuţiilor normale (parametri), indicând astfel, gradul
de validitate al măsurătorilor (distribuţiilor) empirice. De aceea, aceste tehnici de analiză
a datelor obţinute prin măsurare se numesc parametrice.
Există, de asemenea, tehnici de analiză a măsurătorilor care nu se bazează pe
calcularea unor parametri şi nici nu pornesc de la premiza că datele obţinute din măsurare
se încadrează într-o distribuţie normală. Astfel de tehnici se numesc nonparametrice sau
teste ale nondistribuţiei. A doua denumire este, oarecum, forţată deoarece datele
rezultate dintr-o astfel de măsurare au o anumită distribuţie, dar aceasta nu se încadrează
în cea normală, motiv pentru care tehnica de analiză, pur şi simplu, nu o ia în considerare.

Tehnicile nonparametrice de analiză a datelor se aplică măsurătorilor ordinale în


care nu valoarea propriu-zisă a măsurării interesează ci ordinea acesteia (rangul) în şirul
măsurătorilor efectuate. Pentru exemplificare vom analiza datele tabelului 10.1.1. în care
sunt prezentate preferinţele a cinci loturi de cadastrişti pentru două aparate specifice
meseriei lor (A şi B). Este evident că, în cazul datelor din acest tabel, aplicarea metodelor
parametrice nu dă nici un rezultat, mediile de preferabilitate pentru cele două aparate
fiind, practic identice ( x A = 9,6 şi x B = 9,0), ceea ce face lipsită de sens încercarea de a
stabili semnificaţia diferenţei dintre cele două medii (± d = 0,6) cu ajutorul testului t (tcalc
= 0,7 < tteorP5% = 2,2). De asemenea, distribuţiile celor două şiruri de măsurători sunt
extrem de apropiate ceea ce face inutilă folosirea testului χ2 (χ2calc = 0,73 < χ2teorP5% =
9,49). Şi totuşi, este posibil să se afirme, pe baza acestor date, că unul din cele două
produse (aparate) are, eventual, un grad mai ridicat de preferabilitate decât celălalt.
Tabelul 11.1.1
Preferinţele a cicnci loturi de cadastrişti pentru două tipuri de aparate specifice

Nr. lot Mărime lot Produs A (+) Produs B (-) Semnul


1 15 7 8 -
2 21 11 10 +
3 16 9 7 +
4 14 6 8 -
5 27 15 12 +
Total 93 48 45
1
11.1. TESTUL SEMNULUI
Dacă se notează cu “+” cazurile în care într-un lot chestionat mai mult de 1/2 din
membri acestuia preferă produsul A şi cu “-“ cazurile în care mai mult de 1/2 din
indivizii unui lot preferă produsul B se obţin, aşa cum reiese din datele tabelului 11.1.1,
trei loturi cu “+” şi două loturi cu “-“. Se poate afirma, deci, că produsul A a înregistrat
un grad de preferabilitate superior celui înregistrat de produsul B. Dacă această
superioaritate este sau nu asigurată statistic, se poate calcula cu ajutorul testului χ2,
pornind de la următorul raţionament:

Numărul total al preferinţelor exprimate (np) va fi dat de suma preferinţelor pentru


produsul A (n+) şi a celor pentru produsul B (n-) sau np = n+ + n-. Pornind de la „ipoteza
zero” (între cele două produse nu există diferenţe de preferabilitate) ar fi trebuit să

np np 93
obţinem n+ = n- = (în cazul exemplului analizat = = 46,5 ). Având această
2 2 2
distribuţie teoretică precum şi cea empirică (n+ = 48; n- = 45) se poate calcula, pe baza

(f o − f a ) 2
formulei cunoscute. χ = ∑
2
,
fa

Deoarece GL = 2-1 = 1, este necesar să se aplice corecţia lui Yates:

( 48 − 46 ,5 − 0,5) 2 ( 45 − 46 ,5 + 0,5) 2 12 − 12 2
2
χ = + = + = = 0,043
46 ,5 46 ,5 46 ,5 46 ,5 46 ,5

χ2calc (0,043) < χ2teor.P5% (3,84) pentru GL = 1, deci între valorile n + şi n- empirice şi
cele teoretice nu există diferenţe asigurate statistic, diferenţa de preferabilitate dintre cele
două produse nefiind adevărată, semnificativă. Evident, în cazul în care χ2calc > χ2teor 5%,
diferenţa de preferabilitate între cele două produse poate fi considerată semnificativă.

Se observă că acest test al semnului nu ţine cont de mărimea diferenţelor de


preferabilitate ci doar de sensul lor, diferenţele dintre n+ şi n- din loturile 2, 3 şi 5 fiind
toate notate cu câte un singur semn “+” sau “-“, indiferent de mărimea lor (±d 2 = 1; ±d3 =
2; ±d5 = 3). Din aceste motive se consideră că testul semnului are rareori o semnificaţie
absolută, el având, cel mai adesea, o valoare relativă, orientativă.

11.2. TESTULU WILCOXON

2
Pentru a înlătura neajunsul semnalat la testul semnului, a fost elaborat testul sumei
rangurilor de acelaşi semn sau testul Wilcoxon. Pentru ilustrare vor fi analizate datele
înregistrate într-o ancheta similară cu cea anterioară cu deosebirea că de data aceasta au
fost folosite şase grupe de cagastrişti.
Tabelul 11.2.1
Testul Wilcoxon (suma diferenţelor de acelaşi semn) pentru sx
Lot (+) Aparat 1 (-)Aparat. 2 Diferenţa Rangul Semn Ranguri + Ranguri -
1 7 8 -1 1,5 - 0 1,5
2 11 10 1 1,5 + 1,5 0
3 9 7 2 3,5 + 3,5 0
4 6 8 -2 3,5 - 0 3,5
5 15 12 3 5 + 5 0
6 9 5 4 6 + 6 0
T+ = 15 T- = 5
In cazul aplicării testului Wilcoxon pot apare cazuri în care două
rezultate au aceeaşi valoare, asa cum este ilustrat în tabelul 11.2.1. Este clar că cele două
valori ± d (+1 şi –1) sunt identice şi ar trebui să ocupe rangurile 1 şi 2. Deoarece nu
există nici-un criteriu după care +1 (sau –1) ar trebui să fie încadrat în ragul 1 (sau 2),
ambele valori vor primi rangul 1,5 care reprezintă media celor două ranguri alăturate.
Acelaşi raţionament se aplică şi pentru rangurile 3 şi 4.
Se poate observa că, de data aceasta, analiza nonparametrică a datelor ţine cont şi
de mărimea diferenţei dintre cele şase perechi de rezultate, prin conferirea unei cifre de
rang fiecărei diferenţe (1 pentru cea mai mică, 6 pentru cea mai mare). Rangurile “+” şi
rangurile “-“ se totalizează obţinându-se T+ şi T-. Pentru ca, în cazul analizat, un aparat să
fie considerat semnificativ mai preferat decât cealalt, valorile lui Tcalc se compară cu
valori limită ale lui Tteor pentru P5% şi P1% (tabelul 11.2.2.). In acest caz rţionamentul este
următorul: dacă Tcalc. < Ttabel. pentru P 5% (sau P 1%), „ipoteza zero” nu se verifică, intre
cele două variante (aparate) existând diferenţe semnificative sau distinct semnificative de
preferabilitate; dimpotrivă, când Tcalc. ≥ Ttabel. pentru P 5%, „ipoteza zero” se verifică,
intre cele două variante (aparate) neexistând diferenţe de preferabilitate reale, asigurate
statistic.
Tabelul 11.2.2.
Valori limită pentru testul Wilcoxon, pentru P 5% şi P 1%

Mărimea probei (perechi) 6 8 10 12 14 16 18 20


Valori limită (T) pl. P 5% 1 4 8 14 21 30 40 52
P 1% - 0 3 7 13 19 28 37

3
Exemplul analizat a cuprins şase perechi de date comparate, deci valoarea lui T+
(sau T-) ar fi trebuit să fie cel mult 1 pentru ca diferenţa de favorabilitate între cele două
aparate să poată fi considerată semnificativă la P = 5%. Deoarece, în exemplul dat, T+ =
15 iar T- = 5 (ambele mult diferite de 1), se poate conchide că cele două aparate au
acelaşi grad de favorabilitate pentru cele şase loturi de cadastrişti chestionate.

11.3. TESTUL U (MANN-WHITNEY)

Testul U (Mann-Whitney) se utilizează în analiza nonparametrică a datelor


obţinute în două gupe independente de măsurători. Un exemplu în acest sens sperăm să
fie ilustrativ.
Două metode de măsurare a suprafeţelor (mecanică şi trigonometrică) sunt
utilizate în mărurarea aceleeaşi suprafeţe de teren. Eficacitatea lor este evaluată prin
timpul necesar (exprimat în ore) pentru măsurarea suprafeţei respective. Testarea s-a
făcut de cinci ori, de către aceeaşi echipă, rezultatele fiind prezentate în tabelul 11.3.1.
Tabelul 11.3.1.
Eficacitatea a două metode de măsurare a suprafeţelor (ore necesare mărurării)
Metoda Ore
Mecanică (A) 7,2 4,9 11,2 6,4 7,5
Trigonometrică (B) 6,1 8,6 9,5 5,3 12,8

Testul nonparametric U (Mann-Whitney) presupune aranjarea rezultatelor în


ordine crescătoare, atribuirea unui rang fiecărui rezultat şi apoi însumarea rangurilor
pentru fiecare grupă (metodă) conform datelor din tabelul 18.
Tabelul 11.3.2
Tabel ajutător pentru calculul lui U
Ore 4,9 5,3 6,1 6,4 7,2 7,5 8,6 9,5 11,2 12,8
Rang 1 2 3 4 5 6 7 8 9 10
Grupa (Metodal) A B B A A A B B A B

Ta = 1 + 4 + 5 + 6 + 9 = 26 ore; na = 5 măsurători
Tb = 2 + 3 + 7 + 8 + 10 = 30 ore; nb = 5 măsurători
Formula pentru calculara valorii U este următoarea:
n a (n a + 1) n b (n b + 1)
U = Ta - sau U = Tb -
2 2
Pentru exemplul de mai sus rezultă:

4
5 ×6 5 ×6
U = 26 - = 26 – 15 = 9 sau U = 30 - = 15
2 2

Se consideră U = 9 ca valoarea test deoarece cu cât o grupă are valoarea U mai


mică cu atât există şanse mai mari ca ea să se deosebească real (semnificativ) de cealaltă
grupă care, implicit, va avea valoarea U mai mare. Există tabele (BEYER, 1985) care dau
limitele de semnificaţie ale lui U dar, în lipsa acestora, atunci când cel puţin una din
variante cuprinde mai mult de 20 de masurători, semnificaţia poate fi stabilită prin
calcularea lui “t”, astfel:
na ×nb
U−
2
t= .
n a × n b (n a + n b + 1)
12
Deşi datele prezentate în tabelul 11.3.1. cuprind doar cinci măsurători pentru
fiecare variantă (metodă), pentru exemplificarea calculării şi interpretării lui “t” se vor
folosi valorile U , na şi nb obţinute pe baza datelor respective. Astfel, pentru datele
analizate:
5 ×5
9−
2 −3,5
t= 5 × 5 ×11
= 4,97
= -0,73
12

Valoarea tcalc = 0,73 se compară cu tteor pentru P5%; P1%; P0,1% pentru GL = ∞
(tabelul anexă 6). Rezultă că tcalc (0,73) < tteorP5% (3,4), deci între cele două metode nu
există o diferenţă reală, semnificativă de eficacitate.

11.4. TESTUL KRUSKAL-WALLIS PENTRU COMPARAREA MAI MULTOR


GRUPE INDEPENDENTE

Foarte adesea, măsurătorile ordinale implică mai mult de două grupe de date
independente care trebuie analizate prin metode nonparametrice. În astfel de situaţii se
aplică testul Kruskal-Wallis, prin calcularea valorii H după formula:
12  S12 S2 
H=  + ... + k  - 3(N+1) [44] în care:
N(N + 1)  n 1 nk 
N = numărul total al datelor obţinute din măsurare
n1 … nk = numărul datelor rezultate din măsurare în fiecare grupă (de la 1 la k)
S1 … Sk = suma rangurilor fiecărei grupe (de la 1 la k)
5
Să considerăm exemplul anterior în care, însă, se testează eficacitatea a trei
metode în măsurarea aceleeaşi suprafeţe de teren. Măsurătorile s-au făcut în aceleaşi
condiţii ca în exemplul anterior folosindu-se însă, pentru testare, câte şase măsurări cu
fiecare metodă. S-au obţinut următoarele rezultate:

Tabelul 11.4.1

Eficacitatea (ore) a trei metode de măsurare a suprafeţelor

Metoda Ore
A (mecanică) 7,2 4,9 11,2 6,4 7,5 5,8
B (numerică) 6,1 8,6 9,5 5,3 12,8 6,0
C (satelitară) 8,4 3,2 7,1 2,9 5,5 4,3

Tabelul 11.4.2
Tabel ajutător pentru calcularea lui H

Ore 2,9 3,2 4,3 4,9 5,3 5,5 5,8 6,0 6,1 6,4 7,1 7,2 7,5 8,4 8,6 9,5 11,2 12,8

Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Grupa C C C A B C A B B A C A A C B B A B

Sa = 4 + 7 + 10 + 12 + 13 + 17 = 63; na = 6; N = 18; Σ Rang = 171


Sb = 5 + 8 + 9 + 15 + 16 + 18 = 71; nb = 6;
Sc = 1 + 2 + 3 + 6 + 11 + 14 = 37; nc = 6.
171
Pe baza datelor de mai sus se poate trece la calcularea lui H.
12  63 2 71 2 37 2 
H= 
18 ×19 
+ +
6 
 − (3 ×19 ) = (0,04 × 1729,8) – 57 = 12,2
 6 6 
În cazul testului Kruskal-Wallis, cu cât valoarea lui U este mai mare cu atât există
mai multe şanse ca între grupele de măsurători analizate (metodele de măsurare, în
exemplul considerat) să existe diferenţe reale, semnificative. Există tabele (BEYER,
1985) cu valori limită ale lui U pentru P5%, P1% şi P0,1% dar atunci când numărul
măsurătorilor din fiecare grupă este mai mare de 5, distribuţia H este foarte apropiată de
cea a lui χ2 pentru Gl = k – 1. În astfel de cazuri este suficient să se consulte un tabel cu
valorile χ2 teoretice pentru P5%, P1% şi P0,1% şi GL = k - 1.
Pentru datele de mai sus k = 6 deci GL = 5. Valorile χ2teor, pentru P5% = 11,1; pentru
P1% = 15,1 şi pentru P0,1% = 20,5 (tabelul anexă 8). Comparând χ2calc cu χ2teor rezultă: 15,1
> 18,2 > 11,1. Se poate, deci, afirma că între cele trei metode (grupe) există diferenţe
reale şi semnificative de eficacitate.
6
11.5. TESTUL FRIEDMAN DE ANALIZĂ NONPARAMETRICĂ A
VARIANŢEI
În calcularea şi interpretarea rezultatelor măsurărilor ordinale, tehnicile
nonparametrice permit anumite similitudini cu metodele parametrice aplicate măsurărilor
pe scări cu intervale continuue, constante. O astfel de similitudine reprezintă posibilitatea
oferită de testul Friedman de a efectua o analiză a varianţei pentru date rezultate din
măsurători ordinale. Cel mai adesea, astfel de analize se fac atunci când rezultatele sunt
obţinute în măsurări executate într-o singură repetiţie, fiecare măsurătoare fiind
reprezentată o singură dată în acelaşi bloc.
Să considerăm următorul exemplu: trei metode de irigare (inundarea terenului,
prin brazde şi prin aspersiune) sunt testate, pe şase tipuri de sol diferite, privind
adâncimea (cm) la care pătrunde apa în urma folosirii unei norme fixe de udare (250 m3
apă/ha). Rezultatele sunt prezentate în tabelul 11.5.1.

Tabelul 11.5.1.
Adâncimea (cm) de pătrundere a apei prin trei metode de irigare,
pe şase tipuri diferite de sol

Tipul de Metoda de irigare Media tip


sol 1- inundare 2- brazde 3- aspersiune sol
Solul 1 47,3 46,8 47,9 47,3
Solul 2 39,4 57,2 40,1 45,6
Solul 3 42,6 50,4 53,4 48,8
Solu 4 47,2 27,9 33,8 36,3
Solu 5 34,5 49,3 42,1 42,0
Solul 6 40,8 53,6 49,9 48,1

În vederea efectuării analizei varianţei se întocmeşte tabelul 11.5.2. în care


fiecărei metode de irigare, pe fiecare tip de sol, i se atribuie un rang (1-3) în funcţie de
adâncimea la care a pătruns apa.

Tabelul 11.5.2.
Tabel ajutător pentru testul Friedman
Rangul
Ferma (bloc)
Metoda 1 Metoda 2 Metoda 3
Ferma 1 2 1 3
Ferma 2 1 3 2
Ferma 3 1 2 3
Ferma 4 3 1 2
Ferma 5 1 3 2
Ferma 6 1 3 2
S1 = 9 S2 = 13 S3 = 14
7
Testul Friedman presupune calcularea unei valori χ2 după o formulă modificată
faţă de cea clasică, utilizată până în prezent.
12  S12 S2 
χ2 =  + ... + k  - 3b(k+1) [45]
k(k + 1)  b b 

În acest caz, simbolurile din formulă semnifică:


b = nr. blocurilor (tipurilor de sol);
k = nr. tratamentelor (metodelor).
12  9 2 13 2 14 2 
Rezultă: χ2 = 3 × 4  6 + 6 + 6  − (18 × 4) = 74,3 – 72 = 2,3
 

Dacă se compară χ2calc cu χ2teor pentru P5%, P1%, P0,1% şi GL = 3 – 1 = 2 (tabelul


anexă 8), se observă că χ2calc (2,3) < χ2teorP5% (5,99), ceea ce denotă că între cele trei
metode de irigare nu există diferenţe semnificative în privinţa adâncimii la care pătrunde
apa pe cele şase tipuri de sol analizate.

11.6. CORELAŢIA RANGURILOR (COEFICIENTUL SPEARMAN, rS)

Unul din obiectivele principale ale metodelor de interpretare a măsurătorilor


nonparametrice îl constituie aflarea unui indice care să arate măsura în care ierarhizarea
nonparametrică a unor măsurători este/nu este legată de modul în care sunt ierarhizate
măsurările în altă dimensiune. Un indice de acest fel îl constituie coeficientul de corelaţie
Spearman (rs) care, aşa cum se poate bănui din titlul subcapitolului, nu se stabileşte între
valorile absolute ale celor două variabile, ci între rangurile acestora. Ca şi în alte modele
de calculare şi interpretare a rezultatelor măsurărilor nonparametrice, şi în acest caz
formula de calcul a lui rs este foarte simplă:
6∑d 2
rs = 1 - în care:
n(n 2
−1)

d = diferenţa dintre fiecare pereche de ranguri;


n = nr. de perechi implicate în calculul corelaţiei.
Pentru exemplificare se va considera următorul exemplu: şase parcele a câte zece
hectare, cu sol cernoziom luvic, au fost analizate în privinţa conţinutului în humus şi a
numărului de specii vegetale ce cresc în condiţii naturale (păşune), în şase localităţi cu
astfel de soluri din Câmpia Transilvaniei. Cu ajutorul coeficientului rs se doreşte să se
vadă dacă modul de clasificare al localităţilor după conţinutul în humus este corelat cu
8
clasificarea acestora pe baza numărului speciilor vegetale de pe loturile respective.
Rezultatele sunt prezentate în tabelul de mai jos.
Tabelul 11.6.1.
Corelaţii nonparametrice
Nr. de specii Rangul
Conţinutul în
Loc. vegetale din ±d
humus (%) (x)
păşune (y) x y
1 6,4 26 6 4 +2
2 4,1 13 3 1 +2
3 3,6 17 1 2 -1
4 4,8 31 4 5 -1
5 5,2 44 5 6 -1
6 3,9 22 2 3 -1
Σ d = 12
2

6 ×12
rs = 1 - = 1 - 0,34 = 0,66
6 ×35
- când n < 25, valoarea calculată rs se compară cu valori tabelare rs pentru
probabilităţi P5%; P1%l P0,1% (BEYER, 1985) şi diferite grade de libertate.
- când n > 25, valoarea calculată rs se compară cu valorile r pentru P5%; P1% şi P0,1%
folosite pentru corelaţiile parametrice. GL = n – 1.

PROBLEME TEST 1 TPMG, 2010/2011


Problemele nr. Se referă la : Nota 5 :
Reprezentarea grafică a două şiruri prin poligoane de Reprezentarea
1–2
frecvenţă ; calcularea Me şi Mo pt. cele două şiruri grafică, corect.
Valori corecte
Compararea a două şiruri pe baza valorilor Mo ;
3-4 Mo ; As(P);
As(P); As(J) şi E.
As(J) şi E.
2
5-6 χ pentru frecvenţele din două distribuţii empirice Corect χ2
7–8 s% şi sx pentru şase şiruri Corect s%
9 – 10 Testul « t » pentru şase şiruri cu nr. diferite de măsur. Valori t corecte
Corect rxy ;rxz ;
11 – 12 ; 21 Corelaţii simple, parţiale şi multiple ryz ; semnificaţia
lor ; interpretare
13 – 14 ; 22 Regresia simplă ; bxy : ec. regresie ; reprez. grafică a; bxy; semnific.
Regresia patratică : a; bxy ; cxy: semnificatia; ecuaţia Corect a; bxy ;
15 – 16 - 17
de regresie cxy; ec.regresie
Compararea corelaţiilor nonparametrice cu cele Corect rS şi
18 – 19 - 20
parametrice (rS vs. rxy) semnificatia lui
χ ca indice a legăturii dintre patru variabile din două Corect χ2 gene-
2
23 - 24
clase diferite. Ordinea de clasificare ral ; semnific.