Sunteți pe pagina 1din 12

I. 2.

Dispersia

Introducere n prima parte a capitolului au fost prezentate modalitile de msurare a tendinei centrale, folosind termenii medie, median sau mod. n partea a doua a capitolului ne vom ocupa de alt modalitate de descriere a datelor i anume dispersia.

Dispersia Fiecare din cei trei termeni ce msoar tendina central au pereche n termeni ce msoar dispersia, adic ne ofer indicaii asupra mprtierii termenilor din setul de date n jurul valorii sale centrale. n cadrul statisticii descriptive, tendina central i dispersia sunt complementare. Deci, pentru a obine o descriere complet a proprietilor setului de date, trebuie luate n considerare amandou.
Dispersia
10 9 8 7 Frecventa 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10

variabila x

Figura 5 Media datelor este: x = 5,5

De exemplu, n figurile 5 i 6, cele dou seturi de date reprezentate au aceeai medie, ns dispersiile lor sunt diferite. Dac am fi folosit numai tendina central (media) pentru a

compara aceste dou seturi de date, am fi tras concluzia (incorect) c cele dou seturi de date sunt identice.
Dispersia
14 12 10 Frecventa 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10

variabila x

Figura 6. Media datelor: x = 5,5

Un argument similar ne ofer i graficul din figura 7, unde seturile de date au aceeai tip de dispersie, ns tendina central este diferit.
14

12

10

Frecventa

0 1 2 3 4 5 6 7 8 9 10 11 12 variabila x

Figura 7 Dou seturi de date cu medii diferite: , x = 5 , x = 8

Din motivele expuse mai sus, deducem c trebuie s folosim att tendina central ct i dispersia pentru a obine o descriere a datelor ct mai aproape de adevr. Figura 7 ne arat dou moduri n care poate fi ilustrat distribuia frecvenei: ca un grafic de bare (bar chart) sau ca o linie (line graph). Astfel, pentru a obine graficul distribuiei de valori n cel de-al doilea mod se traseaz o linie prin mijlocul fiecarei bare. Tabelul 1 arat legtura ntre mrimile caracteristice tendinei centrale i cele caracteristice dispersiei. Tabelul 1 Msura tendinei centrale Media aritmetic Medianul Modul patratic. Dup cum s-a observat n capitolul trecut, fiecare msur a tendinei centrale este folosit n circumstane diferite, n funcie de tipul de date pe care le avem. La fel se folosesc si cele trei tipuri de dispersie. Dac este posibil, se pot folosi toate cele trei msuri ale dispersiei n combinaie cu cele trei tipuri de msuri ale tendinei generale, fiecare evideniind diferite caracteristici ale datelor analizate. Msura dispersiei Deviaia standard Deviaia cvartal (quartile deviation) Domeniul de dispersie*

*Domeniul de dispersie poate fi folosit i n cazul medianului, in plus fa de deviaia

Domeniul de dispersie Domeniul de dispersie este cel mai simplu de calculat. El se calculeaz prin diferena dintre cea mai mic valoare (LL = lower limit) si cea mai mare valoare (UL = upper limit) din setul de date. Dac setul de date conine o valoare izolat (outlier), folosirea domeniul de dispersie ca msur a dispersiei ne ofer informaii eroanate. De exemplu, s considerm urmtorul set de date: 2, 4, 3, 2, 5, 6, 1, 6, 8, 25, 2 care ordonat devine: 1, 2, 2, 2, 3, 4, 5, 6, 6, 8, 25 Domeniul de dispersie (R) este : R = UL-LL adic R = 25 - 1 = 24 Acest domeniu a fost mrit (inflat) datorit existenei n setul de date a valorii izolate 25, care este de aproape 4 ori mai mare dect valoarea precedent. Astfel, folosirea valorii (2)

superioare (UL), definit ca cea mai mare valoare din setul de date, sugereaz o mprtiere medie a datelor mai mare dect este n realitate. Spunem c domeniul este afectat de "inflaie" datorit existenei acestei valori izolate.

Deviaia cvartal O modalitate de a evita problema indus de apariia valorilor izolate o reprezint utilizarea deviaiei cvartale. Valoarea deviaiei cvartale (QD) se obine din urmtoarea formul: QD = (UQ - LQ)/2 unde LQ este valoarea median a jumtii inferioare a setului de valori UQ este valoarea median a jumtii superioare a setului de valori. Termenul (UQ - LQ) este cunoscut sub denumirea de domeniul intercvartal. La fel ca pentru determinarea medianului, mai nti setul de date trebuie aezat n ordine apoi se poate determina valoarea din mijloc (Md). Dup aceea setul de date este mprit n dou pri egale: una mai mic sau egal cu Md, respectiv mai mare sau egal cu Md. Termenul LQ este medianul jumtii inferioare a setului de date, iar termenul UQ este medianul jumtii superioare a setului de date considerat. Ex.: considerm urmtorul set de date coninnd 21 de msurtori individuale (n=21). Fiecrei valori din setul de date i se atribuie un ordin. Deoarece setul conine 25 valori, valoarea cu ordinul 13 este medianul, adic Md = 25. Dup cum se vede n tabel, valorile mediane ale jumtilor inferioare i superioare sunt localizate la ordinele 7 i 19, avnd valorile LQ=20 i UQ =27. n acest caz, conform relaiei (3) deviaia cvartal este: QD = (27+20)/2 =3,5 Tabelul 2 prezint o imagine vizual a modului n care medianul (Md) i valorile mediane ale celor dou jumti (LQ i UQ) mpart irul de date n patru "sferturi" egale (din acest motiv de acum inainte medianul va fi notat cu Q2). Dac setul are un numr impar de date (n= 2k+1) calculul medianului, respectiv a valorilor LQ i UQ se face dup cum a fost descris mai sus (medianul este valoarea corespunztoare ordinului k). Dac setul are un numr par de date (n = 2t), medianul, respectiv LQ i UQ se afl ntre dou valori (valorile corespunztoare ordinelor "t-1" i "t+1"). n acest caz valorile Q2, LQ i UQ se consider ca fiind media aritmetic a celor dou valori implicate. 4 (3)

Se observ c o valoare relativ mare a deviaie cvartale indic prezena unei dispersii relativ mare a setul de date n jurul tendinei centrale. Un avantaj major al folosirii deviaiei cvartale fa de folosirea domeniului de dispersie este faptul c pentru calculul deviaiei cvartale se folosesc 50% din numrul datelor din set (cele din mijlocul domeniului), evitndu-se astfel efectul de inflaie datorat existenei unor valori extreme n setul considerat. Tabelul 2 Ordinul 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Deviaia standard Deviaia standard a populaiei (s) se calculeaz cu ajutorul relaiei (4)
s= unde (x i x ) n
2

Valoarea neordonat 25 27 20 23 26 24 19 16 25 18 30 29 32 26 24 21 28 27 20 16 14 30 19 25 28

Valoarea ordonate 14 16 16 18 19 19 20 20 21 23 24 24 25 25 25 26 26 27 27 28 28 29 30 30 32

LL

LQ sau Q1

Md sau Q2

UQ sau Q3

UL

(4)

x este valoarea unei msurtori individuale din setul de date ale eantionului
x este media aritmetic a setului de date n este numrul de date din setul considerat

este simbolul folosit pentru a indica suma tuturor termenilor din parantez pentru toate valorile x.

Deviaia standard este o msur a deviaiei medii a tuturor valorilor fa de media


aritmetic a eantionului considerat. Calculul deviaiei standard implic urmtorii pai: - calcularea mediei aritmetice ( x ) a setului de date; - calcularea diferenei (deviaiei) dintre fiecare valoare a setului de date si media aritmetic; - ridicarea la patrat a acestor deviaii; - nsumarea deviaiilor ptratice; - obinerea deviaiei ptratice medii; - calcularea rdcinii ptrate a deviaiei ptratice medii pentru a se obine deviaia standard. "Variana" (s2) este definit ca ptratul deviaiei standard.
s2 = (x i x ) n
2

(5)

Utilizarea acestei formule este exemplificat, cel mai bine, n urmtorul exemplu, care arat ce i cte calculele sunt implicate n cazul unui set de date redus. Ex.: Setul de date ce reprezint msurtorile individuale ale populaiei sunt: 4, 7, 6, 3, 8, 6, 7, 4, 5, 3; Media aritmetic: x =

4 + 7 + 6 + 3 + 8 + 6 + 7 + 4 + 5 + 3 53 = = 5,3 10 10 x 4 7 6 3 8 6 7 4 5 3 (x x) 2 1,69 2,89 0,49 5,29 7,29 0,49 2,89 1,69 0,09 5,29

Calculele se ordoneaz n felul urmtor: Nr. 1 2 3 4 5 6 7 8 9 10


(x x)

-1,3 1,7 0,7 -2,3 2,7 0,7 1,7 -1,3 -0,3 -2,3 ( x i x ) 2 = 28,1

se calculeaz diferena:

variana va fi:

(x i x ) 28,1 s = = = 2,81 n 10
2

deviaia standard este: s = s 2 = 2,81 = 1,68 Calculele de mai sus pot fi substanial reduse dac se folosete funcia "deviaia standard" pe care o au majoritatea calculatoarelor stiinifice. Bineneles ca i programul EXCEL are diferite formule pentru calculul deviaiei standard. O alt formul care se folosete ca o alternativ la relaia (5) este urmtoarea:

s=

x i2 x2 n

(6)

Relaia (6) implic calcule mai puine i n final se ajunge la o valoare foarte apropiat de valoarea obinut prin folosirea relaiei (5).

Cnd folosim fiecare tip de dispersie?

Dup cum am mai spus, fiecare msur a dispersiei este asociat unei msuri a tendinei centrale, deci se folosesc pentru acelai tip de date. Deci, dac forma datelor necesit folosirea modului ca msur a tendinei centrale, atunci ca msur a dispersiei trebuie folosit domeniul dispersiei. Acest caz apare dac avem de-a face cu un set de date nominale. Deoarece domeniul dispersiei este dependent de valorile extreme din setul de date, aceast masur a dispersiei nu este la fel de folositoare ca i deviaia standard sau deviaia cvartal.
Deviaia cvartal se folosete mpreun cu medianul (msur a tendinei centrale).

Astfel dac datele nu sunt normal distribuite (asimetric distribuite) atunci cea mai adecvat descriere statistic se obine folosind medianul i deviaia cvartal. Bineineles c cea mai complet imagine despre caracteristicile setului de date se obine folosind toate cele trei tipuri de dispersii.

Diagrama de dispersie

Reprezentarea vizual a setului de date (ntr-o anumit form grafic) ofer de fiecare dat o nelegere mai clar a naturii datelor n discuie. Histogramele frecvenelor prezentate pn acum sunt un exemplu de reprezentare vizual. Un alt tip de reprezentare vizual este diagrama de dispersie (numit i box-plot). Diagramele de dispersie sunt folosite foarte mult n cazul datelor care nu sunt distribuite

normal (adic atunci cnd sunt folosite medianul i deviaia cvartal). Aceste diagrame ne ofer o metod excelent de a compara tendina central i dispersia a dou sau mai multe seturi de date. Figura 8 ilustreaz o diagram de dispersie fcut pentru a compara indicatorul "calitatea vieii" pentru un eantion de populaie din mediul rural cu un esantion din mediul urban. Pentru fiecare set de date, mprtierea punctelor de-a lungul axei ce reprezint indicatorul "calitatea vieii", ne ofer o imagine de ansamblu a dispersiei setului de date. In diagram sunt indicate de asemenea poziiile medianului si a valorilor UQ respectiv LQ. Astfel este evideniat modul n care datele sunt grupate n jurul tendinei centrale n cazul fiecarui set.

Figura 8 Diagrama sugereaz o calitatea a vieii mai mare (n general) pentru persoanele ce traiesc n mediul urban. Dei aceast concluzie poate fi tras din diagrama de dispersie, pentru a emite concluzii definitorii, datele n discuie trebuie supuse unor teste statistice, despre care vom discuta in capitolele urmtoare.

Evaluarea parametrilor populaiei cu ajutorul mediei i deviaiei standard

De obicei colectm esantionul de date n speranta c acesta ne va spune ceva despre populaia int (de care suntem interesai). De obicei, considerm c media i deviaia standard calculate folosind datele eantionului estimeaz "cel mai bine" media i deviaia standard specifice populaiei considerate. Totui trebuie menionat faptul c formula folosit pentru calculul deviaiei standard se modific dac: - dorim s o folosim ca o mrime a deviaiei standard a populaiei; - eantionul folosit este mic (sub 30 de date). n cazurile amintite mai sus, se consider ca este mai bine s se in cont de relaia (7), care conine corecia Bessel i ne d deviaia standard () a populaiei cel mai bine estimat.
) =

(x i x ) n 1

(7)

este deviaia standard a populaiei cel mai bine estimat (calculat folosind corecia unde

Bessel). Folosirea relaiei (7) n locul relaiei (4) duce la obinerea unei valori a deviaiei standard puin mai mare pentru esantioanele mici. Pentru esantioane mari (n>30) cele dou relaii duc la valori similare. S trecem n revist notaiile folosite pentru deviaia standard: - s este deviaia standard a setului de date (eantionului) (relaia 4); - este deviaia standard a populaiei (de obicei nu o cunoatem pentru c nu putem msura fiecare membru al populaiei);
este deviaia standard a populaiei cel mai bine estimat (relaia 7). -

Asimetriile

De multe ori distribuia datelor nu poate fi descris folosind tendina central sau dispersia. n aceste cazuri pentru a descrie statistic datele se folosesc noiunile de parametru
de asimetrie (skewness) i parametru de forma (kurtosis).

n figura 9.a este ilustrat o distribuie de date cu parametru de asimetrie negativ, iar n figura 9.b este figurat o distribuie de date cu parametru de asimetrie pozitiv. Parametrul de asimetrie poate fi cuantificat n acelai mod ca i tendina central i dispersia.

Figura 9.a.

Figura 9.b. Parametrul de asimetrie (1) se calculeaza cu ajutorul formulei (x i x ) n 1 = skew (X ) = s3 deviaia standard i x este media aritmetic. Parametrul de form arat ct de ascuit sau ct de plat poate fi distribuia dup cum se observ n figura 10. Se observ ca o dispersie de date plat este mai lat dect o distribuie normal, n timp ce dispersia ascuit este mai uguiat decat distribuia normal. De remarcat faptul c parametrul de form nu ne spune dac datele sunt distribuite simetric fa de medie. Trebuie remarcat faptul c formula folosit n EXCEL pentru calculul parametrului de form este diferit de cea folosit n majoritatea textelor de statistic. n EXCEL o distribuie normal are un parametru de form egal cu 0,0. n schimb folosind formula din textele uzuale de statistic se obine o valoare egal cu 3,0.

]
(8)

unde X = {x1, x2, x3, ...xn}, xi sunt variabilele, n reprezint numrul de variabile, s este

10

Figura 10. parametrul de forma (2) se calculeaz cu ajutorul formulei:


(x i x ) n 2 = kurt (X ) = s4 x - media aritmetica

]
(9)

unde X = {x1, x2, x3, ...xn}, xi sunt variabilele, n - numarul de variabile, s - deviatia standard,

Coeficientul de variaie (CV)

O msur final a dispersiei l reprezint coeficientul de variaie, notat cu simbolul CV. Pentru a nelege utilitatea acestui coeficient, s considerm urmatorul set de msurtori ale nlimilor unor plante dintr-un lot experimental, i deviaiile lor standard : nlimea (n m) nlimea (in inch) 2.3, 92, 3.1, 124, 3.0, 120, 2.5, 100, 2.7 108 s= 0,3 s= 11,0

x = 2,3 x = 92,7

Avnd aceste dou mostre msurate n uniti diferite, este foarte dificil s le comparm. O modalitatea de comparare ar fi s le convertim n aceleai uniti de msur, dar o soluie mai elegant este s calculm coeficientul lor de variaie (CV) :
CV = s 100(% ) x

(10)

Astfel, calculnd coeficientul de variaie, obinem urmtoarele valori: 12.9% i 12.9%. n acest caz cele dou mostre au acelai coeficient de variaie - datorit faptului c reprezint acelai set de msurtori, exprimate n uniti de msur diferite. n concluzie, coeficientul de variaie msoar dispersia unui set de date fa de media aritmetic a datelor. Folosind coeficientul de variaie, avem posibilitatea de a compara variabilitatea relativ dintre: - uniti de msur diferite; - fenomene diferite (creterea plantelor i densitatea frunzelor);

11

- acelai fenomen, dar pentru cazul n care diferenele dintre mediile aritmetice fac dificil comparaia direct a deviaiilor standard fr a ne referirii la aceste medii. Coeficientul de variaie poate fi exprimat sub forma unei fracii, caz n care formula de calcul are expresia : CV = s x (11)

12