Sunteți pe pagina 1din 25

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 1 din 26

MRIMILE TENDINEI CENTRALE

I ALE DISPERSIEI

Utilizarea distribuiilor de frecvene i a tehnicilor grafice de prezentare a acestora permite relevarea formelor globale ale distribuiilor unor scoruri. Pentru descrierea mai detaliat a unei distribuii de scoruri, statisticienii folosesc dou tipuri de mrimi numerice descriptive. Este vorba despre ideea de caz tipic sau central ntr-o distribuie, redat prin mrimile tendinei centrale, i despre ideea de varietate sau eterogenitate a unei distribuii, redat prin mrimile dispersiei. Determinarea acestor mrimi furnizeaz valori precise care por fi uor interpretate i comparate ntre ele.

3.1 MRIMILE TENDINEI CENTRALE


Mrimile folosite n mod obinuit pentru msurarea tendinei centrale sunt media aritmetic, mediana i modul. Fiecare dintre aceste mrimi rezum o ntreag distribuie de scoruri, descriind cea mai tipic sau central valoare a distribuiei respective sub forma unui singur numr sau a unei singure categorii. 3.1.1 MEDIA ARITMETIC Media aritmetic se calculeaz doar pentru variabile msurate la nivel de interval sau de raport i se definete ca rezultat al mpririi sumei tuturor scorurilor dintr-o mulime de scoruri la numrul total de scoruri din acea mulime. Simbolul folosit pentru media aritmetic a unui eantion este X , iar pentru media aritmetic a unei populaii se folosete litera greceasc (miu). ntruct deocamdat va fi vorba numai despre eantioane, vom folosi simbolul X . Formula matematic a mediei aritmetice este urmtoarea: Formula 3.1 n care = suma scorurilor n = numrul total de scoruri.
i

X =

X
n

S presupunem, de pild, c am nregistrat vrstele pentru un eantion de 11 persoane i c am obinut urmtoarea distribuie de frecvene:

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 2 din 26 Tabelul 3.1 Vrstele pentru un eantion de 11 persoane
Vrsta 16 17 18 19 23 TOTAL
f

1 4 1 2 3 11

S remarcm c avem 11 scoruri, cte unul pentru fiecare persoan din eantion. Pentru a afla media aritmetic a vrstelor persoanelor din eantion sau, pe scurt, vrsta medie, trebuie s nsumm toate cele 11 scoruri i s mprim rezultatul obinut la 11. Pentru a scurta procedura, nmulim fiecare scor cu frecvena cu care apare, adunm rezultatele nmulirilor i mprim suma astfel obinut la 11:
X=

X
n

(1 16) + (4 17) + (1 18) + ( 2 19) + (3 23) 209 = = 19 11 11

Astfel, media aritmetic a vrstelor persoanelor din eantionul considerat este 19. Media aritmetic este mrimea statistic folosit cel mai des n aprecierea tendinei centrale a unei mulimi de scoruri de interval sau de raport deoarece este uor de calculat i n plus are urmtoarele proprieti importante, pe care le vom folosi n unele aplicaii ulterioare. 1. Pentru orice distribuie de scoruri, suma abaterilor scorurilor de la media lor aritmetic este egal cu zero. Abaterea unui scor Xi fa de media aritmetic X este diferena Xi X , astfel c aceast proprietate se exprim simbolic dup cum urmeaz:

( X

X )=0

n cuvinte, suma diferenelor dintre scoruri i media lor aritmetic este egal cu 0. Aceast proprietate, care este folosit n obinerea unor formule statistice mai complicate, poate fi exprimat i spunnd c pentru orice distribuie de scoruri, media aritmetic este punctul n jurul cruia toate scorurile se anuleaz, ceea ce face din media aritmetic o mrime descriptiv adecvat n msurarea centralitii scorurilor. 2. Pentru orice distribuie de scoruri, suma ptratelor abaterilor scorurilor fa de media lor aritmetic este mai mic dect suma ptratelor abaterilor scorurilor fa de oricare alt scor din distribuie, n simboluri:

( X

X )2 <

( X

Xj)2

n cuvinte, suma ptratelor diferenelor dintre scoruri i media lor aritmetic este mai mic dect suma ptratelor diferenelor dintre scoruri i oricare alt scor din distribuie. Aceast proprietate, care este folosit pentru a defini unele mrimi ale dispersiei i pentru a calcula unele mrimi ale corelaiei 1, poate fi exprimat i spunnd c media
1

Vezi capitolul 11.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 3 din 26 aritmetic este punctul n jurul cruia suma abaterilor ptratice ale scorurilor este minim. Tabelul 3.2 ilustreaz cele dou proprieti ale mediei aritmetice pentru distribuia de scoruri din tabelul 3.1, n care X = 19. Tabelul 3.2 Proprieti ale mediei aritmetice pentru datele din tabelul 3.1
Xi Xi X

16 17 17 17 17 18 19 19 23 23 23

3 2 2 2 2 1
0 0 4 4 4 0

( Xi X )2 9 4 4 4 4 1 0 0 16 16 16 74

( X i 17)

( Xi 17)2

1
0 0 0 0 1 2 2 6 6 6

1
0 0 0 0 1 4 4 36 36 36 118

Se poate constata c suma abaterilor ptratice ale scorurilor fa de media aritmetic (74) este mai mic dect suma abaterilor ptratice ale scorurilor fa de scorul 17 (118). Aceast relaie are loc pentru oricare alt scor din distribuie. Este important de reinut c n cazul n care o distribuie are foarte puine scoruri extreme (foarte mari sau foarte mici), media aritmetic poate deveni o mrime neltoare n aprecierea centralitii. De pild, mulimea de scoruri 15, 20, 25, 30, 35 are media aritmetic 25, n timp ce media aritmetic a mulimii 15, 20, 25, 30, 3500 este 718, iar media aritmetic a mulimii 1, 15, 20, 25, 30, este 18,2. Se poate constata c media aritmetic este afectat disproporionat de prezena scorurilor 3500 i, respectiv, 1. Media aritmetic este tras ntotdeauna n direcia scorurilor extreme, mai ales n direcia celor relativ mari2. Acesta este un motiv pentru care se recurge uneori la o alt mrime a tendinei centrale: mediana. 3.1.2 MEDIANA Mediana poate fi determinat att pentru variabile msurate la nivel de interval sau de raport, ct i pentru variabile msurate la nivel ordinal. Ca i n cazul mediei ~ aritmetice, i n cazul medianei vom folosi dou simboluri: X pentru mediana unui ~ eantion i pentru mediana unei populaii. De asemenea, ntruct deocamdat va fi ~ vorba numai despre eantioane, vom folosi simbolul X . ~ Mediana X a unei mulimi de scoruri este punctul de mijloc al acelei ~ mulimi, n sensul c numrul de cazuri cu scoruri mai mici sau egale cu X este egal
2

Aceasta este sursa glumei numite paradoxul statisticii: dac X are 10 paltoane i Y nu are nici un palton, atunci X i Y au n medie cte 5 paltoane.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 4 din 26


~ cu numrul de cazuri cu scoruri mai mari sau egale cu X . Pentru a afla mediana unei mulimi de n scoruri, scorurile respective se aranjeaz mai nti n ordine cresctoare sau descresctoare. Dac n este impar, atunci mediana este, evident, scorul cazului de mijloc. Dac n este par, atunci vor fi dou cazuri de mijloc i orice valoare cuprins ntre cele dou scoruri ale cazurilor de mijloc satisface definiia medianei. ntr-un astfel de situaie, dac scorurile sunt de interval sau de raport, prin convenie, se ia drept median media aritmetic a celor dou scoruri ale cazurilor de mijloc. n exemplu din tabelul 3.1 avem de-a face cu 11 cazuri. Vrsta median este 18, deoarece avem n eantion cinci persoane cu vrste mai mici de 18 ani i cinci persoane cu vrste mai mari de 18 ani. S presupunem acum c am nregistrat vrstele pentru un eantion de 7 persoane i c am obinut urmtoarea distribuie de frecvene:

Tabelul 3.3 Vrstele pentru un eantion de 7 persoane


Vrsta 26 28 29 30 32 60 TOTAL
f

2 1 1 1 1 1 7

~ Pentru datele din acest tabel, X = 29: trei persoane au vrste mai mici de 29 de ani i alte trei persoane au vrste mai mari de 29 de ani. De remarcat c vrsta tipic a persoanelor din acest eantion este mai bine reprezentat de vrsta median dect de media aritmetic a vrstelor, 33, care este tras n sus de scorul 60. Acum, dac adugm la acest eantion o persoan de 31 de ani, avem 8 cazuri cu scorurile 26, 26, 28, 29, 30, 31, 32 i 60. Astfel, apar dou cazuri de mijloc, unul cu scorul 29 i cellalt cu scorul 30, i orice numr cuprins ntre aceste dou scoruri satisface definiia medianei. Ca atare, mediana este media aritmetic a scorurilor celor dou cazuri de mijloc: 29,5. Urmtoarele dou exemple arat de ce este inclus expresia sau egale n definiia medianei. S presupunem c am nregistrat numrul de copii pentru un eantion de 16 familii, rezultatele obinute fiind urmtoarele:

Tabelul 3.4 Numrul de copii pentru un eantion de 16 familii


Numr de copii 0 1 2 3 TOTAL
f

3 4 7 2 16

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 5 din 26 n eantionul considerat n tabelul 3.4, 8 familii au 0, 1 sau 2 copii, iar celelalte 8 familii au cte 2 sau 3 copii, astfel c cea de-a 8-a i cea de-a 9-a familie (cele dou cazuri de mijloc) au acelai numr de copii: 2. Ca atare, mediana aceste mulimi de scoruri este 2: 8 familii au fiecare un numr de copii mai mic sau egal cu 2, iar celelalte 8 familii au fiecare un numr de copii mai mare sau egal cu 2. Tot aa, n mulimea impar de scoruri 1, 2, 3, 5, 5, 5, 7, 10, 12 scorul median este 5, cci avem patru scoruri mai mici sau egale cu 5 (1, 2, 3, 5) i patru scoruri mai mari sau egale cu 5 (5, 7, 10, 12). Urmtorul exemplu ilustreaz determinarea medianei pentru variabile de nivel ordinal. S presupunem c ntr-o cercetare privind modul de petrecere a timpului liber, 11 subieci au fost solicitai s rspund la ntrebarea Ct de des ai fost la cinematograf n ultimele ase luni? Rspunsurile la aceast ntrebare au fost nregistrate pe o scal ordinal cu urmtoarele categorii: 1. Deloc, 2. Foarte rar, 3. Rar, 4. Des, 5. Foarte des. Aranjnd scorurile n ordine descresctoare, datele sunt urmtoarele: Tabelul 3.5 Ct de des mergei la cinematograf?
Subiectul A B C D E F G H I J K Rspunsul Foarte des Foarte des Foarte des Foarte des Foarte des Des Foarte rar Foarte rar Foarte rar Foarte rar De loc

Avnd un total de 11 cazuri, cazul de mijloc este al 6-lea, F, aa nct rspunsul median este scorul celui de-al aselea caz: Des. Dac adugm un subiect care d rspunsul De loc, avem dou cazuri de mijloc: cel de-al 6-lea, F, i cel de-al 7-lea, G. n aceast situaie, teoretic vorbind, orice rspuns ntre Des i Foarte rar satisface definiia medianei. Practic, pe scala menionat, ntre Des i Foarte rar avem rspunsul Rar, pe care l vom considera drept rspuns median: 6 subieci merg la cinematograf foarte des sau des, iar ceilali ase subieci merg la cinematograf foarte rar sau deloc. Dac numrul de cazuri din eantion este relativ mic, identificarea cazului sau cazurilor de mijloc este neproblematic. Pentru eantioane mari, identificarea menionat poate fi nlesnit prin folosirea unor calcule simple. Astfel, dup ordonarea scorurilor, dac n este impar, cazul de mijloc este dat de formula (n +1) 2 ; dac n este par, primul caz de mijloc este dat de formula n 2 , iar cel de-al doilea caz de mijloc de formula (n 2) +1 . Ca exerciiu, determinai mediana scorurilor din tabelul 2.4 din capitolul anterior. (Putei folosi tabelul 2.5? Dac da, cum?) De notat c mediana nu este tras n direcia valorilor extreme, deoarece aceast mrime ia n considerare doar ordinea scorurilor, nu i magnitudinea efectiv a

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 6 din 26 acestora3. Relund un exemplu dat mai sus, mulimea de scoruri 15, 20, 25, 30, 35 are aceeai median ca i mulimea 15, 20, 25, 30, 3500: scorul 25. S mai remarcm c mediana i media aritmetic ale unei mulimi de scoruri pot s coincid, acesta fiind, de pild, cazul mulimii 15, 20, 25, 30, 35. Mediana nu poate fi determinat pentru variabile de nivel nominal, deoarece aceste variabile nu au scoruri care s poat fi ordonate. Mrimea tendinei centrale care poate fi folosit la nivel nominal, ca i la toate celelalte nivele de msur, este modul. 3.1.3 MODUL Modul unei mulimi de scoruri (Mo) este scorul care apare cel mai frecvent n acea mulime. De pild, modul datelor din tabelul 3.4 este 2, deoarece este scorul care apare de cele mai multe ori n eantionul considerat, iar modul datelor din tabelul 3.5 sau, altfel spus, rspunsul modal, este Foarte des, deoarece este rspunsul care apare de cele mai multe ori n raport cu celelalte rspunsuri. Modul este singura mrime care poate fi folosit n msurarea tendinei centrale pentru variabile de nivel nominal. Modul unei astfel de variabile este cea mai mare categorie a sa sau, altfel spus, categoria cu cele mai multe cazuri. De pild, modul variabilei status marital pentru distribuia din tabelul 2.10 din capitolul anterior este categoria Cstorit. Exemplele date pn acum ilustreaz cazul mulimilor unimodale de scoruri, adic a mulimilor n care exist un singur scor care apare mai frecvent dect celelalte. Dac ntr-o mulime de scoruri exist dou astfel de scoruri, ca n exemplul 3, 3, 3, 5, 5, 5, 7, 10, 12, atunci se spune c mulimea respectiv este bimodal. Desigur, este posibil ca o mulime de scoruri s aib trei sau mai multe moduri, dup cum este posibil ca o mulime de scoruri s nu aib mod, fiecare scor din mulimea respectiv aprnd de un numr egal de ori. Pe de alt parte, este posibil ca o mulime unimodal s nu aib modul localizat la mijloc. Fie, de pild, urmtoarea mulime de scoruri: 44, 44, 46, 46, 46, 48, 50, 50, 50, 50, 50. Modul aceste mulimi este 50, n timp ce mediana este 48, iar media aritmetic este aproximativ 47,6. Pretenia c modul este o mrime a tendinei centrale trebuie s fie neleas n sensul c aceast mrime indic localizarea celei mai mari grupri sau concentrri de scoruri dintr-o mulime unimodal, ceea ce se poate dovedi important n special pentru date de nivel nominal. S presupunem c ultima mulime de scoruri de mai sus reprezint o nregistrare a msurilor sacourilor vndute ntr-un magazin timp de o sptmn. Astfel, modul msurilor de sacouri vndute sau, altfel spus, msura modal a acestora este de mai mare interes pentru directorul magazinului dect mediana msurilor de sacouri vndute. Pe de alt parte, s observm c n acest caz, media aritmetic a scorurilor nu este n nici un fel semnificativ: numerele care indic msuri de sacouri sunt convenionale, astfel c ele puteau fi nlocuite, de pild, cu litere.

Acesta este i motivul pentru care mediana se folosete cu precdere pentru date ordinale.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 7 din 26 3.1.4 DISTRIBUII SIMETRICE I DISTRIBUII ASIMETRICE Dup cum am artat, dac lucrm cu date nominale, singura mrime a tendinei centrale pe care o putem folosi este modul, dac datele sunt ordinale, putem folosi att modul, ct i mediana, iar dac datele sunt de interval sau de raport, putem folosi toate cele trei mrimi ale tendinei centrale. Dup cum vom vedea n capitolele dedicate statisticii infereniale, la nivel de interval sau de raport media aritmetic este cu deosebire util pentru trage concluzii despre caracteristicile unei populaii pe baza caracteristicilor corespunztoare ale unui eantion din acea populaie. Pentru scopuri descriptive ns, dac lucrm cu date de interval sau de raport, este recomandabil s folosim toate mrimile tendinei centrale, deoarece, pe de o parte, ele pot furniza informaii relativ diferite i, pe de alt parte, compararea valorilor mediei aritmetice i medianei furnizeaz informaie despre forma unei distribuii. Astfel, media aritmetic i mediana au aceeai valoare numai atunci cnd distribuia este simetric. ntr-un astfel de caz, dac distribuia este unimodal, atunci i modul are aceeai valoare cu celelalte dou mrimi. S considerm urmtorul poligon de frecvene rotunjit, care prezint o distribuie de frecvene simetric:
~ Figura 3.1 O distribuie simetric ( X = X )

Frecvena

~ , X

n aceast distribuie, media aritmetic, mediana i modul apar mpreun n cel mai nalt punct al curbei. Acest punct este modul, deoarece este punctul n care sunt nregistrate cele mai multe cazuri, este mediana, deoarece numrul de cazuri nregistrate la stnga acestui punct este egal cu numrul de cazuri nregistrat la dreapta sa i este media aritmetic, deoarece scorurile aflate n partea dreapt ntrec scorul median n aceeai msur n care scorurile aflate n partea stng sunt mai mici dect scorul median. Atunci cnd o distribuie are doar cteva scoruri foarte mari sau, altfel spus, scorurile relativ mici sunt predominante, media aritmetic este mai mare dect mediana. ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie pozitiv. Figura 3.2 ilustreaz cazul unei distribuii cu asimetrie pozitiv.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 8 din 26 Figura 3.2 O distribuie cu asimetrie pozitiv ( X > X )
~

Frecvena

~ X

X ~ X

Atunci cnd o distribuie are doar cteva scoruri foarte mici sau, altfel spus, scorurile relativ mari sunt predominante, media aritmetic este mai mic dect mediana. ntr-un astfel de caz, se spune c distribuia respectiv prezint o asimetrie negativ. Figura 3.3 ilustreaz cazul unei distribuii cu asimetrie negativ. Figura 3.3 O distribuie cu asimetrie negativ ( X < X )
~

Frecvena

~ X

Dup cum se poate constata, compararea mediei aritmetice cu mediana ne indic imediat dac distribuia respectiv este sau nu simetric i dac nu, ne indic sensul asimetriei. 3.1.5 MEDIA ARITMETIC PONDERAT S presupunem c ntr-o serie de 140 de studeni sunt 86 de biei i 54 de fete. tim c la examenul de statistic, media aritmetic a notelor obinute de fete este 8,45 i media aritmetic a notelor obinute de biei este 7,33. Ne intereseaz media aritmetic a celor dou grupuri combinate. Dac am calcula pur i simplu media aritmetic a celor dou medii, am grei, deoarece grupurile difer n privina numrului de studeni i deci de scoruri. Pentru a afla media aritmetic a celor dou grupuri combinate, vom calcula media aritmetic ponderat. Pentru aceasta, nmulim numrul de scoruri din fiecare grup cu media aritmetic a grupului respectiv, adunm produsele astfel obinute, iar rezultatul l mprim la numrul total de scoruri. n simboluri:

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 9 din 26

Formula 3.2

X =

n X
i

n care ni = numrul de scoruri din fiecare grup X i = media aritmetic a fiecrui grup N = numrul total de scoruri n exemplul nostru avem:
X =

n X
i

(86 7,33) + (54 8,45) 1086,68 = = 7,76 140 140

Dac am fi fcut media aritmetic a valorilor 7,33 i 8,45 am fi obinut 7,89, ceea ce ar fi fost incorect, cci grupurile difer n privina numrului de scoruri. Evident, media aritmetic ponderat poate fi calculat i pentru mai mult de dou grupuri. Este important de remarcat c, aplicate la aceeai mulime de scoruri, formulele 3.1 i 3.2 produc acelai rezultat. Pentru ilustrare, fie urmtoarea mulime de 10 scoruri, mprit n dou grupuri: n1 = {5, 5, 5, 6, 7, 7}, n2 = {7, 8, 9, 10}. Media aritmetic pentru ntreaga mulime este
X

X
n

(5 3) + 6 + (7 3) + 8 + 9 + 10 69 = = 6,90 10 10

Acum, mediile aritmetice ale celor dou grupuri sunt, respectiv, X 1 = 5,83 i X 2 = 8,50, astfel c media aritmetic ponderat a celor dou grupuri este
X =

n X
i

(6 5,83) + (4 8,50) 35 + 34 69 = = = 6,90 10 10 10

nc odat, calculul mediei aritmetice a celor dou medii conduce la un rezultat greit: 7,16. 3.1.6 MRIMILE TENDINEI CENTRALE PENTRU DATE GRUPATE n cele ce urmeaz sunt expuse tehnicile statistice de aflare a mrimilor tendinei centrale pentru date de interval sau de raport grupate n distribuii de frecvene. Aceste tehnici i dovedesc utilitatea n dou situaii. O prim situaie apare atunci cnd trebuie s lucrm cu o mulime mare de scoruri brute i nu dispunem de un calculator sau de un computer sau decidem c valorile aproximative ale acestor mrimi sunt suficiente pentru scopurile noastre. O a doua situaie apare atunci cnd avem de-a face cu date din surse secundare, deja organizate n distribuii de frecvene cu intervale de clas, fr s avem acces la scorurile brute iniiale. ntr-o astfel de situaie, ntruct nu cunoatem modul n care scorurile sunt realmente distribuite, nu putem dect s aproximm mrimile tendinei centrale ale distribuiilor respective. Pentru ilustrare, s considerm exemplul privind scorurile obinute de 180 de subieci la un test de cunotine, pe care am lucrat n capitolul anterior. nainte de a trece

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 10 din 26 mai departe, prezentm valorile calculate pentru scorurile brute, pentru a le putea compara cu cele calculate pentru datele grupate. Astfel, n exemplul nostru avem:
X = 49,22 X = 49 Mo = 56
~

S considerm acum distribuia de frecvene a scorurilor obinute de 180 de subieci la un teste de cunotine: Tabelul 3.6 Distribuia de frecvene a scorurilor obinute la un test de cunotine
Intervale de clas 2024 2529 3034 3539 4044 4549 5054 5559 6064 6569 TOTAL
f

1 2 7 18 22 42 30 37 15 6 180

Media aritmetic pentru date grupate Pentru a calcula media aritmetic a unei mulimi de scoruri trebuie s cunoatem dou valori: suma tuturor scorurilor, Xi, i numrul de scoruri, n. n cazul distribuiei din tabelul 3.6, nu tim dect c n = 180. Deoarece datele au fost grupate, nu cunoatem distribuia exact a scorurilor individuale i deci nu putem determina exact Xi. S considerm primul interval (2024). n acest interval se afl un singur caz, dar nu tim care este scorul acestuia. Pentru a depi aceast lacun, vom presupune c scorul acestui caz este situat n centrul intervalului. Aceast presupunere revine la a spune c scorul cazului din acest interval este 22, acest numr aproximnd scorul su efectiv. n cel de-al doilea interval (2529) se afl dou cazuri. i aici vom presupune c scorurile celor dou cazuri sunt situate n centrul intervalului, presupunere care revine la a spune c fiecare dintre cele dou cazuri are scorul 27. Sub aceast presupunere, suma scorurilor individuale din cel de-al doilea interval este 54 (27 2), acest numr aproximnd suma real a scorurilor individuale din interval. Procednd la fel pentru celelalte intervale i adunnd apoi rezultatele, vom obine un numr care aproximeaz suma real a tuturor scorurilor individuale. n fine, mprind valoarea astfel obinut la numrul de scoruri (180), vom obine media aritmetic aproximativ a scorurilor. n general, supoziia calculului mediei aritmetice pentru date grupate este c n fiecare interval de clas, toate scorurile sunt situate n centrul intervalului respectiv. Sub aceast supoziie, procedura de calcul este urmtoarea:

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 11 din 26 1. Pentru fiecare interval i, se calculeaz centrul mi. 2. Numrul de cazuri din fiecare interval, fi, se nmulete cu centrul intervalului respectiv, mi: fimi. 3. Se calculeaz fimi, iar valoarea astfel obinut se mparte la numrul de scoruri n. ntruct fimi Xi, vom avea: Formula 3.3
X

f m
i

Pentru a aplica aceast procedur la exemplul nostru, vom aduga dou coloane la distribuia de frecvene din tabelul 3.6, una pentru centrele de interval i una pentru produsele dintre centrele de interval i frecvene: Tabelul 3.7 Calculul mediei aritmetice pentru date grupate
Intervale de clas 2024 2529 3034 3539 4044 4549 5054 5559 6064 6569 TOTAL

f
1 2 7 18 22 42 30 37 15 6 180

m 22 27 32 37 42 47 52 57 62 67

fm 22 54 224 666 924 1974 1560 2109 930 402 8865

Totalul ultimei coloane este valoarea pentru fimi. mprind aceast valoare la numrul total de cazuri obinem media aritmetic aproximativ a scorurilor:
X

f m
i

8865 = 49,25 180

Dup cum se poate constata, valoarea obinut n acest fel reprezint o deosebit de bun aproximare a valorii efective a mediei aritmetice.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 12 din 26 Mediana pentru date grupate tim c pentru a afla mediana unei distribuii ordonate de scoruri trebuie s identificm mai nti cazul sau cazurile de mijloc al distribuiei respective. Atunci cnd se lucreaz cu date grupate, se introduce o simplificare: cazul de mijloc este identificat la n/2, indiferent dac n este par sau impar. n exemplul nostru, avnd 180 de cazuri n eantion, cazul de mijloc va fi identificat la 180 /2, i.e. al 90-lea caz. Mai departe, problema este de a localiza acest caz i apoi de a afla scorul asociat lui. Evident, atunci cnd datele sunt grupate, cazul de mijloc se afl ntr-un interval de clas. Supoziia calculului medianei pentru date grupate este c n fiecare interval de clas, toate scorurile sunt distribuite uniform ntre limitele reale ale intervalului. Astfel, dup ce identificm intervalul care conine cazul de mijloc, vom afla scorul respectiv pe baza acestei supoziii. Pentru identificarea intervalului de clas care conine cazul de mijloc, adugm o coloan de frecvene cumulate la distribuia de frecvene iniial: Tabelul 3.8 Calculul medianei pentru date grupate
Intervale de clas 2024 2529 3034 3539 4044 4549 5054 5559 6064 6569 TOTAL
f fc

1 2 7 18 22 42 30 37 15 6 180

1 3 10 28 50 92 122 159 174 180

Inspectnd coloana de frecvene cumulate, constatm c 50 de cazuri s-au cumulat sub limita superioar a intervalului 4044 i c 92 de cazuri s-au cumulat sub limita superioar a intervalului 4549. tim acum c mediana scorul asociat celui deal 90-lea caz este o valoare cuprins ntre limita real inferioar i limita real superioar ale intervalului 4549, adic ntre 44,5 i 49,5. Mai departe, presupunem c toate cele 42 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale ale intervalului, cazul 51 fiind situat la limita real inferioar (44,5), iar cazul 92 la limita real superioar (49,5). n intervalul care conine mediana sunt 42 de cazuri, cazul 92, cumulat n acest interval, fiind al 42-lea; prin urmare, cazul 90 este al 40-lea din cele 42 din interval4. Aceasta revine la a spune c, pentru a afla al ctelea caz este cazul 90, scdem din 90 frecvena cumulat a cazurilor aflate sub intervalul n care se afl mediana: 90 50 = 40. Dac, aa cum am presupus, scorurile sunt distribuite uniform, atunci cazul 90 se afl la 40/42 din distana dintre 44,5 i 49,5. Acum, 40 /42 din 5 (mrimea intervalului) este 4,76, astfel nct putem aproxima mediana la 44,5 + 4,76 sau 49,26.

Cu alte cuvinte, cazul 51 este primul, 52 al doilea, , 90 al 40-lea.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 13 din 26 n general, sub supoziia c n fiecare interval de clas toate scorurile sunt distribuite uniform ntre limitele reale ale intervalului, procedura de calcul a medianei pentru date grupate este urmtoarea: 1. Se afl cazul de mijloc, dat de n/2. 2. Se construiete o coloan de frecvene cumulate i cu ajutorul acesteia se identific intervalul care conine cazul de mijloc. 3. Se afl al ctelea caz din interval este cazul de mijloc, scznd din n/2 frecvena cumulat a cazurilor aflate sub intervalul identificat n pasul2. 4. Numrul obinut n pasul 3 se mparte la numrul de cazuri din interval. 5. Numrul obinut n pasul 4 se nmulete cu mrimea intervalului. 6. Numrul obinut n pasul 5 se adun cu limita de clas real inferioar a intervalului care conine cazul de mijloc. Rezultatul reprezint valoarea aproximativ a medianei. Formula urmtoare rezum aceti pai: n 2 fc i ~ X LCRI X Formula 3.4 + i fi LCRI ~ n care X = limita de clas real inferioar a intervalului care conine al n/2-lea caz n = numrul total de cazuri fci = frecvena cumulat sub intervalul care conine al n/2-lea caz fi = numrul de cazuri din intervalul care conine al n/2-lea caz i = mrimea intervalului care conine al n/2-lea caz Aplicnd aceast formul la exemplul nostru, avem:
n 2 fc i ~ (180 2) 50 X LCRI X i = 44,5 + 5 = 44,5 + 4,76 = 49,26 + 42 f i

Vom spune c aproximativ jumtate din subiecii din eantion au obinut un scor mai mic de 49,26 i jumtate mai mare de 49,26. i de data aceasta se poate constata c valoarea obinut n acest fel reprezint o foarte bun aproximare a valorii efective a medianei. Intervalul modal Atunci cnd datele sunt grupate, scorul modal efectiv al distribuiei de frecvene respective nu poate fi determinat. ntr-o astfel de situaie se poate determina doar intervalul modal intervalul care conine cel mai mare numr de cazuri , centrul acestui interval fiind considerat modul distribuiei. Pentru o mai bun aproximare a

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 14 din 26 modului unei distribuii cu date grupate, n cazul n care distribuia are dou sau mai multe intervale neadiacente n care numrul de scoruri este mai mare dect n intervalele adiacente, atunci distribuia respectiv este considerat multimodal (bimodal, trimodal etc.). n exemplul nostru, conform definiiei stricte, intervalul modal este 45 49, astfel c centrul acestui interval, 47, apare ca mod al distribuiei. Totui, ntruct aici apar dou intervale neadiacente, 4549 i 5559, n care numrul de scoruri este mai mare dect n intervalele adiacente, 42 i respectiv 37, vom considera c distribuia este bimodal, cele dou moduri fiind centrele de interval respective: 47 i 57. Se poate constata c intervalul 5559 conine modul efectiv al distribuiei de frecvene, 56.

3.2 PERCENTILE
Mrimile tendinei centrale furnizeaz informaii despre mulimi de scoruri. n anumite cazuri ns, cercettorul poate fi interesat de descrierea poziiei unui scor individual n raport cu celelalte scoruri dintr-o distribuie. Dac, de pild, un subiect a obinut scorul 47 la un test de cunotine, semnificaia acestui scor poate fi explicat inclusiv n termenii numrului de subieci din eantionul considerat care au obinut scoruri mai mici dect 47. Poziia unui scor individual ntr-o distribuie poate fi determinat cu ajutorul percentilelor. Cea de-a m-a percentil a unei mulimi de scoruri, Pm, este valoarea fa de care cel mult m% din scoruri sunt mai mici dect m i cel mult (100 m)% din scoruri sunt mai mari dect m. ntruct mediana unei mulimi de scoruri este valoarea fa de care cel mult 50% din scoruri sunt mai mici i cel mult 50% din scoruri sunt mai mari, mediana este cea de-a 50-a percentil a acelei mulimi. Tot aa cum exist un nume special pentru cea de-a 50-a percentil a unei mulimi de scoruri, exist nume speciale pentru percentilele care mpart o mulime ordonat de scoruri n sferturi i n zecimi: cuartile5 i, respectiv, decile. Lista urmtoare prezint cele mai utilizate percentile, mpreun cu simbolurile uzuale pentru cuartile i decile (considernd c este vorba despre o mulime de scoruri ordonat cresctor): D1 = Prima decil = P10 Q1 = Prima cuartil = P25 ~ Q2 = A doua cuartil = P50 = X Q3 = A treia cuartil = P75 D9 = A noua decil = P90 Pentru ilustrare, fie urmtoarea mulime ordonat de 15 scoruri: 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 Q1
~ X

Q3

Prima cuartil este valoarea fa de care cel mult 25% din scoruri, i.e. cel mult (15/100)25 = 3,75 scoruri sunt mai mici i cel mult 75% din scoruri, i.e. cel mult (15/100)75 = 11,25 scoruri sunt mai mari. Singurul scor care satisface acest criteriu este 5, deci Q1 = 5. Cea de-a doua cuartil, mediana, este scorul central, i.e. 12. Cea de-a
5

Cuartilele sunt valori care mpart o mulime ordonat de scoruri n patru pri egale. n practic, termenul cuartil se folosete adesea pentru referire la unul dintre aceste sferturi.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 15 din 26 treia cuartil este valoarea fa de care cel mult 75% din scoruri, i.e. cel mult 11, 25 scoruri sunt mai mici i cel mult 25% din scoruri, i.e. 3,75 scoruri sunt mai mari. Singurul scor care satisface acest criteriu este 21, deci Q3 = 21. De notat c (n/100)25 = n(0,25), iar (n/100)75 = n(0,75). Ca atare, pentru Q1 putem folosi formula n(0,25), iar pentru Q3 formula n(0,75) sau, echivalent, n n(0,25). n exemplul nostru, n(0,25) = 3,75 i n(0,75) = n n(0,25) = 11,25. Uneori, percentila cutat cade ntre dou scoruri din mulimea respectiv. ntr-un astfel de caz, prin convenie, se alege media aritmetic a celor dou scoruri pentru a aproxima percentila cutat. S presupunem c ne intereseaz ce-a de-a 20-a percentil din mulimea de mai sus. Aceasta ar fi valoarea fa de care cel mult 3 scoruri sunt mai mici i cel mult 12 scoruri sunt mai mari. ntruct orice numr cuprins ntre 4 i 5 (inclusiv) satisface acest criteriu, vom alege 4,50 drept ce-a de-a 20-a percentil. Procedura de calcul a percentilelor pentru date grupate este asemntoare procedurii de calcul a medianei pentru date grupate. S considerm din nou distribuia de frecvene a scorurilor obinute la un test de cunotine de 180 de subieci i s presupunem c ne intereseaz cea de-a 75-a percentil. Pentru a o afla, vom folosi tabelul 3.8, care include o coloan de frecvene cumulate. Mai nti, identificm intervalul de clas care conine percentila cutat. Avnd 180 de scoruri individuale n eantion, P75 este valoarea fa de care cel mult 135 (180 0,75) de scoruri sunt mai mici i cel mult 45 (180 135) de scoruri sunt mai mari. Ca atare, intervalul de clas care conine percentila cutat este cel care conine valoarea fa de care cel mult 135 (180 0,75) de scoruri sunt mai mici. Inspectnd coloana de frecvene cumulate din tabelul 3.8, constatm c 122 de cazuri sau scoruri s-au cumulat sub limita superioar a intervalului 5054 i c 159 de cazuri sau scoruri s-au cumulat sub limita superioar a intervalului 5559. tim acum c P75 este o valoare cuprins ntre limita real inferioar i limita real superioar ale intervalului 5559, adic ntre 54,5 i 59,5. Mai departe, presupunem c toate cele 37 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale ale intervalului, cazul 123 fiind situat la limita real inferioar (54,5), iar cazul 159 la limita real superioar (59,5). n intervalul care conine P75 sunt 37 de cazuri, cazul 135 fiind al 13-lea: cazul 123 este primul, 124 al doilea, , 135 al 13-lea. Aceasta revine la a spune c, pentru a afla al ctelea caz este cazul 135, scdem din 135 frecvena cumulat a cazurilor aflate sub intervalul n care se afl cazul 135: 135 122 = 13. Dac, aa cum am presupus, scorurile sunt distribuite uniform, atunci cazul 135 se afl la 13/37 din distana dintre 54,5 i 59,5. Acum, 13/37 din 5 (mrimea intervalului) este 1,75, aa nct putem aproxima P75 la 54,5 + 1,75 sau 56,25. Formula urmtoare rezum paii de calcul al percentilelor pentru date grupate:
np fc i Pm LCRIm + i f i n care LCRIm = limita de clas real inferioar a intervalului care conine Pm n = numrul total de scoruri p = proporia corespunztoare percentilei cutate Pm fci = frecvena cumulat sub intervalul care conine Pm fi = numrul de cazuri din intervalul care conine Pm i = mrimea intervalului

Formula 3.5

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 16 din 26 Aplicnd formula 3.5 la exemplul nostru, avem:
(180 0,75) 122 5 = 54,5 + 1,75 = 56,25 P75 54,5 + 37

S presupunem acum c ne intereseaz procentul de subieci care au obinut un scor mai mic sau egal cu 47 i c nu dispunem dect de datele grupate din tabelul 3.8. Procentul de cazuri care au un scor mai mic sau egal cu un scor dat se numete rangul percentilei scorului respectiv. Pentru a afla rangul percentilei pentru scorul 47, notat RP47, observm mai nti c acest scor este cuprins n intervalul 4549 i c 50 de cazuri s-au cumulat sub limita real inferioar a acestui interval, 44,5. Ca i pn acum, vom presupune c toate cele 42 de cazuri situate n acest interval sunt distribuite uniform ntre limitele reale ale intervalului. Sub aceast presupunere, proporia de cazuri din interval care au scoruri mai mici sau egale cu 47 este (47,0 44,5) /5 = 2,5/5 = 0,5. Ca atare, n acest interval sunt 42 0,5 = 21 de scoruri mai mici sau egale cu 47. Prin urmare, numrul total de scoruri mai mici sau egale cu 47 este 50 + 21 = 71, iar rangul percentilei scorului 47 poate fi aproximat la (71/180) 100 = 39,4. Aceasta nseamn c 39,4% din cazuri au un scor mai mic sau egal cu scorul 47. Urmtoarea formul rezum paii de calcul al rangului percentilelor pentru date grupate:
X LCRI X fc i + fi Formula 3.6 RPX i 100 n n care fci = frecvena cumulat sub intervalul care conine scorul X X = scorul pentru care se determin RPX. LCRIX = limita de clas real inferioar a intervalului care conine scorul X i = mrimea intervalului fi = numrul de cazuri din intervalul care conine scorul X n = numrul total de cazuri

Aplicnd aceast formul la exemplul nostru, avem:


47 44,5 50 + 42 50 + 21 100 = 39,4 RP47 = 5 100 180 180

Percentilele i rangul percentilelor pentru date grupate pot fi aproximate i folosind ogivele. Pentru exemplificare, s folosim ogiva construit n capitolul anterior pentru scorurile celor 180 de subieci:

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 17 din 26 Figura 3.4 Ogiv pentru scorurile obinute la un test de cunotine
100 90 80 70 60 50 40 30 20 10 0 19,5 24,5 29,5 34,5 39,5 44,5 49,5 54,5 59,5 64,5 69,5 Scoruri (limite reale)

Pentru a afla, de pild, P58, din punctul 58 de pe axa procentelor trasm o paralel cu axa scorurilor care s intersecteze curba, iar din punctul de intersecie trasm o perpendicular pe axa scorurilor. Punctul de intersecie al acestei perpendiculare cu axa scorurilor este P58. Pentru a afla RP62, din punctul 62 de pe axa scorurilor trasm o paralel cu axa procentelor care s intersecteze curba, iar din punctul de intersecie trasm o perpendicular pe axa procentelor. Punctul de intersecie al acestei perpendiculare cu axa procentelor este RP62.

Descrierea unei distribuii de scoruri cu ajutorul mrimilor tendinei centrale nu epuizeaz informaia relevant statistic despre distribuia respectiv. Pentru descrierea complet a unei distribuii de scoruri trebuie s considerm i mrimile dispersiei. Aceste mrimi furnizeaz informaie despre eterogenitatea sau varietatea unei distribuii de scoruri. De pild, o medie aritmetic de 6,33 poate fi obinut dintr-o mulime de scoruri similare, concentrate n jurul acestei valori precum 6, 6, 7 sau dintr-o mulime de scoruri nesimilare, mprtiate n raport cu aceast valoare precum 1, 8, 10. n cazul unor scoruri similare sau cu variabilitate sczut, media aritmetic este mai adecvat pentru msurarea tendinei centrale dect n cazul unor scoruri nesimilare sau cu variabilitate nalt. Lund un exemplu pur didactic, informaia conform creia media aritmetic a vrstelor dintr-un eantion este de 25 de ani este relevant dac vrstele subiecilor din eantion sunt relativ grupate n jurul aceste valori i este neimportant dac eantionul respectiv este alctuit din dou grupuri, unul cu vrste cuprinse ntre 1 i 10 ani, cellalt cu vrste cuprinse ntre 40 i 50 de ani. n aceast seciune sunt introduse cele mai des folosite mrimi ale dispersiei: indicele variaiei calitative, amplitudinea i amplitudinea intercuartilic, abaterea medie, variana, abaterea standard i coeficientul de variaie. Fiecare dintre aceste mrimi furnizeaz o indicaie precis a eterogenitii unei distribuii de scoruri.

Procente cumulate

3.3 MRIMILE DISPERSIEI

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 18 din 26 3.3.1 INDICELE VARIAIEI CALITATIVE Indicele variaiei calitative (IQV)6 reprezint raportul dintre variaia observat efectiv ntr-o distribuie de scoruri i variaia maxim posibil pentru acea distribuie. IQV poate lua valori cuprinse ntre 0,00 (nici o variaie sau variaie nul) i 1,00 (variaie maxim). Acest indice se folosete n mod obinuit pentru variabile msurate la nivel nominal, putnd fi utilizat i pentru variabile msurate la celelalte nivele, dac scorurile respective sunt grupate n distribuii de frecvene. Pentru ilustrare, s presupunem c un cercettor este interesat n compararea eterogenitii religioase a trei colectiviti A, B i C , datele obinute fiind cele din tabelul urmtor: Tabelul 3.9 Apartenena religioas n trei colectiviti
Denominaia Cretinortodox Catolic Altele TOTAL A 90 0 0 90 Colectivitatea B 60 20 10 90 C 30 30 30 90

Simpla inspecie a datelor din acest tabel arat c, dintre cele trei colectiviti, A este cea mai puin eterogen. Mai exact, eterogenitatea religioas n colectivitatea A este nul, ntruct toi membrii acestei colectiviti sunt cretinortodoci. Apoi, colectivitatea C este cea mai eterogen, B situndu-se ntre A i C. S vedem acum cum sunt reflectate aceste observaii de ctre IQV, a crui formul de calcul este urmtoarea: Formula 3.7 IQV =
k (n 2 f 2 ) n 2 (k 1)

n care k = numrul de categorii n = numrul total de cazuri din cele k categorii f 2 = suma ptratelor frecvenelor din fiecare categorie S aplicm aceast formul la fiecare dintre cele trei distribuii de frecvene. Pentru aceasta, trebuie s calculm mai nti suma ptratelor frecvenelor respective. Astfel, pentru colectivitatea A, avem:

f
IQV =

= 902 + 02 + 02 = 8100

3(90 2 8100) 3(8100 8100) 30 0 = = = =0 2 8100 2 16200 16200 90 (3 1)

ntruct valorile pentru k i n sunt aceleai n toate cele trei distribuii, IQV pentru celelalte dou colectiviti poate fi calculat schimbnd doar valorile pentru f 2 . Pentru colectivitatea B, avem:

f
6

= 602 + 202 + 102 = 4100

Prescurtare de la denumirea acestei mrimi n limba englez: Index of Qualitative Variation.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 19 din 26

IQV = Pentru colectivitatea C:

3(8100 4100) 3 4000 12000 = = = 0,74 16200 16200 16200

f
IQV =

= 302 + 302 + 302 = 2700

3(8100 2700) 3 5400 16200 = = = 1,00 16200 16200 16200

Dup cum se poate constata, IQV reflect cantitativ i precis observaiile de mai sus. Colectivitatea A prezint o variaie nul a variabilei msurate ( IQV = 0), colectivitatea C prezint variaia maxim posibil pentru aceste date (IQV = 1,00), iar colectivitatea B se situeaz ntre A i C, cu o variaie substanial (IQV = 0,74). 3.3.2 AMPLITUDINEA I AMPLITUDINEA INTERCUARTILIC Amplitudinea (A) este o mrime a dispersiei uor de calculat, cu care ne-am ntlnit deja n capitolul anterior, definit drept diferena dintre cel mai mare scor i cel mai mic scor din mulimea scorurilor date: A = Xmax Xmin Pentru datele din tabelul 2.4, de pild, A = 69 24 = 45. n cazul unei distribuii de frecvene cu date grupate, amplitudinea absolut se aproximeaz prin diferena dintre limita de clas real superioar a ultimului interval i limita de clas real inferioar a primului interval7: A = LCRSmax LCRImin Astfel, pentru datele din tabelul 3.6, A 69,5 19,5 = 50. Amplitudinea intercuartilic (Q) se definete ca diferena dintre cea de-a treia i prima cuartil a unei distribuii de scoruri ordonate cresctor: Q = Q3 Q1 S considerm din nou un exemplu prezentat n seciunea 3.2. Fie urmtoarea mulime ordonat de 15 scoruri: 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 Q1
~ X

Q3

n acest exemplu, A = 30 2 = 28 i Q = 21 5 = 16. ntruct ia n considerare doar scorurile extreme dintr-o distribuie, A nu este o mrime suficient de semnificativ a dispersiei. Pot fi ntlnite distribuii n care scorurile extreme sunt foarte deprtate de scorurile intermediare, caz n care aprecierea dispersiei
7

Considernd intervalele de clas n ordine cresctoare.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 20 din 26 pe baza amplitudinii este o greeal. De asemenea, amplitudinea nu ofer informaii despre natura scorurilor dintre cele dou extreme: dac scorurile sunt grupate n centrul distribuiei, dac sunt mprtiate omogen ntre cele dou scoruri extreme, dac sunt concentrate n dou grupe, cte una lng fiecare extrem, distribuia fiind bimodal etc. Q ia n considerare 50% dintre cazurile aflate n centrul distribuiei 8 i astfel evit problema de a fi o mrime bazat pe scorurile extreme. Pe de alt parte, ntruct, ca i A, ia n considerare doar dou scoruri dintr-o distribuie, Q nu ofer informaie despre natura scorurilor dintre cele dou scoruri considerate, astfel c mprtete celelalte dezavantaje asociate cu A. Totui, aceste mrimi sunt utile atunci cnd dorim s obinem rapid o msur a variabilitii unei distribuii i, mai ales, atunci cnd dorim s realizm rapid o comparaie ntre variabilitile a dou distribuii cu un numr egal de scoruri. S presupunem, de pild, c am nregistrat vrstele subiecilor din dou eantioane, obinnd urmtoarele date: Eantionul 1 11, 16, 18, 23, 29, 31, 37 Eantionul 2 18, 19, 21, 23, 24, 26, 29 Mediile aritmetice pentru cele dou eantioane sunt X 1 = 23,57 i X 2 = 22,86 , mediana fiind aceeai pentru ambele eantioane: 23. ntruct amplitudinea vrstelor din primul eantion, 26, este mai mare dect amplitudinea vrstelor din cel de-al doilea eantion, 11, primul eantion este mai eterogen din punctul de vedere al vrstelor.9 3.3.3 ABATEREA MEDIE I VARIANA Mrimile dispersiei expuse n continuare capteaz ideea de variabilitate a unei distribuii de scoruri de interval sau de raport fa de centrul acelei distribuii, mai precis, fa de media sa aritmetic i folosesc toate scorurile distribuiei. tim c ntr-o distribuie de scoruri de interval sau de raport cu media aritmetic X , diferena Xi X reprezint abaterea scorului Xi fa de media aritmetic X . O sugestie pentru a obine o mrime mai adecvat a dispersiei ar fi s nsumm toate abaterile scorurilor individuale fa de medie i s mprim suma astfel obinut la numrul total de scoruri, n. Mai tim, ns, c pentru orice distribuie de scoruri, suma abaterilor scorurilor de la media lor aritmetic este egal cu zero, ( X i X ) = 0, astfel c rezultatul mpririi acestei sume la n ar fi ntotdeauna 0. Pentru a folosi cumva sugestia menionat, avem la dispoziie dou posibiliti: sau neglijm semnele abaterilor, considernd valorile absolute ale acestora10, sau ridicm la ptrat abaterile, ntruct dac se nmulesc dou numere care au semnul minus, produsul este pozitiv. Prima posibilitate conduce la o mrime a dispersiei, numit abaterea medie i notat cu d , a crei formul de calcul este urmtoarea:

8 9

Amintii-v c Q1 = P25 i Q3 = P75. De notat c uneori, mrimea A este numit amplitudine absolut, prin contrast cu amplitudinea relativ (A%), definit ca raportul dintre amplitudinea absolut a unei mulimi de scoruri i media sa aritmetic. De obicei, amplitudinea relativ se nmulete cu 100 i se prezint ca procent. Amplitudinea relativ nu are ntotdeauna sens intuitiv atunci cnd se dorete aprecierea omogenitii unei singure distribuii; de pild, n cazul eantionului 1 din ultimul exemplu de mai sus, A% = 110%. 10 Revedei capitolul 1, seciunea 1.2.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 21 din 26

Formula 3.8

d =

Cea de-a doua posibilitate conduce la o alt mrime a dispersiei, numit varian11, notat cu s2 atunci cnd este vorba despre un eantion i cu 2 atunci cnd este vorba despre o populaie. Formula de calcul a varianei pentru populaii este urmtoarea: Formula 3.9

( X =

n care = media aritmetic a populaiei N = numrul total de scoruri din populaie Formula de calcul a varianei pentru eantioane difer de formula 3.9 sub dou aspecte: n locul mediei aritmetice a populaiei () apare media aritmetic a eantionului ( X ), iar la numitor, n locul numrului total de scoruri din populaie ( N) apare numrul total de scoruri din eantion diminuat cu o unitate (n 1)12. Formula 3.10
s2 =

(X

X )2

n 1

Pentru a ilustra calculul abaterii medii i al varianei, vom folosi datele din tabelul 3.2, adugnd o coloan pentru modulele diferenelor X i X i, pentru o simplificare pe care o vom folosi ulterior, o coloan pentru ptratele scorurilor individuale, Xi2: Tabelul 3.10 Calculul abaterii medii i al varianei ( X =19 )
Xi

Xi

16 17 17 17 17 18 19 19 23 23 23 209

256 289 289 289 289 324 361 361 529 529 529 4045

Xi X 3 2 2 2 2 1 0 0 4 4 4 0

X i X

3 2 2 2 2 1 0 0 4 4 4 24

( Xi X )2 9 4 4 4 4 1 0 0 16 16 16 74

Pentru datele din acest exemplu, avem:

11 12

Uneori, aceast mrime este numit chiar dispersie. Dup cum vom vedea n capitolele dedicate statisticii infereniale, mrimile statistice pentru eantioane servesc drept estimatori ai valorilor respective pentru populaie, unii estimatori fiind nedistorsionai, alii fiind distorsionai. ntruct variana pentru un eantion este un estimator distorsionat al varianei pentru populaie, numitorul n 1 are rolul de a corecta distorsiunea. Aceleai consideraii sunt valabile i pentru abaterea standard. n cadrul statisticii descriptive, unii statisticieni prefer s foloseasc numitorul n, tratnd eantioanele ca i cum ar fi populaii foarte mici.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 22 din 26

d =

n
i

24 = 2,20 11 74 = 7,40 10

(X =

X )2

n 1

De notat c variana calculat cu ajutorul formulei 3.9 reprezint ptratul mediu al abaterilor, i.e. media aritmetic a ptratelor abaterilor scorurilor populaiei de la media lor aritmetic . n cazul eantioanelor mari, aplicarea formulei definiionale 3.10 poate fi greoaie, mai ales dac valoarea pentru X conine zecimale, ceea ce presupune multe rotunjiri. Din formula 3.10 se pot deduce alte formule de calcul care, aplicate la aceleai date, produc aceleai rezultate ca i formula 3.10 i care permit calcularea mai uoar i mai rapid a varianei13. Prezentm n continuare dou astfel de formule, n care nu mai este nevoie de calcularea diferenelor Xi X . Formula 3.11

X =
X

2 i

nX 2

n 1
2 i

Formula 3.12

s =
2

( X )
i

n 1

Aplicnd formula 3.11 la datele din exemplul de mai sus, avem:

X =

2 i

nX 2

n 1

4045 (11 19 2 ) 4045 3971 74 = = = 7,40 10 10 10

Dei pare mai complicat dect formula 3.10, formula 3.12 ne scutete de calcularea mediei aritmetice a scorurilor, astfel nct pentru calcularea varianei cu ajutorul acestei formule este nevoie doar de scorurile individuale. n exemplul nostru:

s2 =

2 i

( X )
i

n 1

4045

209 2 11 = 4045 3971 = 74 = 7,40 10 10 10

Formulele de calcul simplificat al varianei pentru populaii difer de formulele de mai sus prin aceea c X se nlocuiete cu , iar n 1 devine N. 3.3.4 VARIAIE ABATEREA STANDARD I COEFICIENTUL DE

13

Dou formule de calcul care, aplicate la aceleai date, produc aceleai rezultate se numesc echivalente algebric.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 23 din 26 Calculul varianei implic ridicarea la ptrat a abaterilor scorurilor individuale fa de media lor aritmetic (formulele 3.9 i 3.10). n consecin, unitatea ataat varianei este ptratul unitii ataate scorurilor individuale respective. Dac, de pild, este vorba despre scoruri exprimate n ani, variana va fi exprimat n ani la ptrat. Pentru a se obine o mrime a variabilitii care s fie exprimat n aceleai uniti n care sunt exprimate scorurile respective, se ia rdcina ptrat a varianei, s sau . Aceast mrime statistic se numete abatere standard i, n cazul eantioanelor, se definete cu ajutorul urmtoarei formule: Formula 3.13
s=

(X

X )2

n 1

Relaia dintre abaterea standard i varian fiind s = s 2 , valoarea abaterii standard pentru datele din tabelul 3.10 este s = 7,40 = 2,72. Corespunztor formulelor 3.11 i 3.12, avem urmtoarele formule de calcul simplificat al abaterii standard: Formula 3.14

s=

X
X

2 i

nX 2

n 1
2 i

Formula 3.15

s=

( X )
i

n 1

Coeficientul de variaie al unei distribuii de scoruri (CV) se definete ca raportul dintre abaterea standard a distribuiei i media sa aritmetic. De obicei, coeficientul de variaie se nmulete cu 100 i se prezint ca procent. Astfel, avem: Formula 3.16
CV = s 100 X

n exemplul folosit pn acum, CV = (2,72/19) 100 = 143,16. Evident, n cazul populaiilor, s se nlocuiete cu , iar X cu . Coeficientul de variaie este cu deosebire util atunci cnd se dorete compararea variabilitii a dou distribuii de scoruri cu medii aritmetice sensibil diferite. 3.3.5 CALCULUL ABATERII STANDARD PENTRU DATE GRUPATE Formula de calcul a abaterii standard pentru date grupate se obine pe baza formulei 3.15. Pentru a aplica formula 3.15 trebuie s cunoatem trei valori: suma scorurilor, Xi, suma ptratelor scorurilor, Xi2, i numrul de scoruri, n. Atunci cnd datele au fost grupate n distribuii de frecvene nu cunoatem distribuia exact a scorurilor individuale i deci nu putem determina exact primele dou valori. ntr-un astfel de caz, suma scorurilor se aproximeaz, ca i pentru media aritmetic, nmulind numrul de cazuri din fiecare interval, fi, cu centrul intervalului respectiv, mi, i

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 24 din 26 nsumnd aceste produse: fimi. Suma ptratelor scorurilor se aproximeaz ridicnd la ptrat centrele de interval, nmulind fiecare ptrat astfel obinut cu numrul de cazuri din intervalul respectiv i nsumnd aceste produse: fimi2. Avem astfel:

Xi fimi Xi2 fimi2


Formula care d valoarea aproximativ a abaterii standard pentru date grupate se obine fcnd substituiile corespunztoare n formula 3.15. Obinem astfel:

Formula 3.17

fm
i

2 i

( f m )
i i

n 1

Pentru ilustrare, vom folosi datele din tabelul 3.7, n care vom aduga dou coloane: una pentru ptratele centrelor de interval i una pentru produsele dintre ptratele centrelor de interval i frecvene: Tabelul 3.11 Calculul abaterii standard pentru date grupate
Intervale de clas 2024 2529 3034 3539 4044 4549 5054 5559 6064 6569 TOTAL

f
1 2 7 18 22 42 30 37 15 6 180

m 22 27 32 37 42 47 52 57 62 67

fm 22 54 224 666 924 1974 1560 2109 930 402 8865

m2 fm2 484 484 729 1458 1024 8428 1369 24642 1764 38808 2209 92778 2704 81120 3249 120213 3844 57660 4489 26934 452525

Totalul ultimei coloane este valoarea pentru fimi2. Aplicnd formula 3.17 la aceste date obinem:

fm
i

2 i

( f m )
i i

n
=

452525 179

n 1

8865 2 452525 436601,25 = 180 = 179

15923,75 = 88,96 = 9,43 179

De notat c, pentru datele negrupate corespunztoare acestui exemplu, abaterea standard calculat cu ajutorul uneia dintre formulele 3.13 3.15 este egal cu 9,00.

3 MRIMILE TENDINEI CENTRALE I ALE DISPERSIEI Pagina 25 din 26

Pentru a descrie adecvat o distribuie de scoruri trebuie s rspundem la trei ntrebri: Care este forma distribuiei? Care este scorul su mediu? Ct de variate sunt scorurile? Modalitile de rspuns la prima ntrebare au fost discutate n capitolul 2. Rspunsurile la ce-a de-a doua ntrebare au fost abordate n prima parte a acestui capitol. Am vzut c n statistic, scor mediu are trei nelesuri diferite, crora le corespund trei mrimi statistice: media aritmetic, mediana i modul. Media aritmetic, aplicabil numai pentru date de interval sau de raport, exprim scorul tipic al unei distribuii. Mediana poate fi folosit i pentru nivelul ordinal de msur i reflect scorul central al unei distribuii. Modul poate fi folosit la orice nivel de msur i reprezint cel mai ntlnit scor ntr-o distribuie. n plus, am prezentat modaliti de descriere a poziiei scorurilor individuale ntr-o distribuie de interval sau de raport: percentilele i rangul percentilelor. n capitolul urmtor vom prezenta un alt cadru de referin pentru interpretarea scorurilor individuale: scorurile standard. n cea de-a doua parte a acestui capitol am prezentat modaliti de a rspunde la cea de-a treia ntrebare: indicele variaiei calitative, amplitudinea i amplitudinea intercuartilic, abaterea medie, variana, abaterea standard i coeficientul de variaie. Abaterea standard este cea mai des folosit mrime a dispersiei pentru date de interval i de raport, avnd avantajul de a fi exprimat n aceleai uniti de msur ca i scorurile respective. Valoarea abaterii standard este cu att mai mare, cu ct distribuia scorurilor este mai eterogen sau, altfel spus, cu ct variabilitatea distribuiei este mai mare. Reciproc, valoarea abaterii standard este cu att mai mic, cu ct distribuia scorurilor este mai omogen sau, altfel spus, cu ct variabilitatea distribuiei este mai mic. Dac fiecare caz ntr-o distribuie ar avea acelai scor, atunci abaterea standard pentru distribuia respectiv ar fi 0. Astfel, abaterea standard nu are limit superioar, iar limita sa inferioar este 0. Abaterea standard i dovedete utilitatea mai ales atunci cnd se dorete compararea a dou sau mai multe distribuii. De asemenea, dup cum vom vedea n capitolul urmtor, abaterea standard este implicat i n calculul scorurilor standard i n noiunea de distribuie normal standard. GLOSAR

S-ar putea să vă placă și