Sunteți pe pagina 1din 66

ANALIZA STATISTIC

A VARIABILITII

Subiecte n discuie
1. Variabilitatea noiuni

generale
2. Clasificarea indicatorilor
variaiei
3. Caracteristica indicatorilor
simpli ai variaiei
4. Caracteristica indicatorilor
sintetici ai variaiei

Caracterizarea
statistice

prin

unei

colectiviti

indicatorii

tendinei

centrale ne ajut s depistm ceea ce


este comun, esenial n

manifestarea

unui fenomen. Orice colectivitate are o


anumit organizare intern, definit prin
felul

care

valorile

individuale

se

mprtie sau se concentreaz n jurul


valorii centrale.

Astfel

se

colectiviti

poate

ntmpla

analizate

dup

ca

dou

aceeai

variabil s fie diferite prin tendina


central, prin dispersie sau prin am bele.
n felul acesta o valoare central poate fi
credibil, o alta nu. Din acest motiv se
impune

ca

analiza

prin

indicatorii

tendinei centrale s fie completat cu


indicatori ai variaiei i ai formei de
distribuie.

Variabilitatea
Reprezint abaterile

msurabile ale valorilor


individuale fa de o
valoare central (tipic).

Exemplu
Urmtoarele 2 serii:
{2, 2, 2, 10, 18, 18, 18}
{9, 9, 9, 9, 10, 11, 11, 11, 11}
au aceeai medie(10) i median(10) dar
dispersie
diferit.
Acest
fapt
este
evideniat de abaterile nregistrate fa
de medie sau median. Seria a doua este
mai
omogen
(nregistreaz
o
variabilitate
mai
mic
a
valorilor
individuale), iar valorile sale tipice sunt
mai reprezentative.

Utilitatea indicatorilor
variaiei
1) Analiza gradului de omogenitate a datelor din
care s-au calculat indicatorii tendinei centrale
i verificarea reprezentativitii acestora;
2) Compararea n timp i (sau) spaii a mai
multor serii de distribuie dup caracteristici
independente i (sau) interdependente;
3) Selectarea obiectiv a factorilor semnificativi
de influen dup care se structureaz
unitile unei colectiviti statistice;
4) Separarea aciunii factorilor eseniali de
factorii ntmpltori;
5)
Concentrarea
valorilor
individuale
ale
caracteristicilor i deplasarea acestora fa de
valorile tipice etc.

Clasificarea indicatorilor
variaiei
I.

Dup numrul variantelor luate n calcul:


a.
indicatori simpli (amplitudinea variaiei, abaterea
valorilor individuale de la medie, abaterea
intercuantilic)
b.
indicatori sintetici (dispersia, abaterea medie
ptratic, coeficientul de variaie)

II.

Dup modul de sistematizare a datelor primare :


a.
indicatori ai variaiei calculai pentru serii de
distribuie unidimensionale
b.
indicatori calculai pentru serii multidimensionale

III.

Dup modul de calcul i exprimare :


a.
indicatori ai variaiei calculai ca mrimi absolute
b.
indicatori ai variaiei calculai ca mrimi relative

Amplitudinea variaiei (A)


-

Se

mai

numete

cmp

de

variaie

sau

amplitudine absolut.
- Se determin prin diferena dintre cea mai mare
i cea mai mic valoare individual nregistrat.
A = xmax - xmin
Exemplu:

Un

grup

de

bolnavi

nregistreaz

urmtoarele durate de tratament n zile:


8, 7, 9, 8, 9, 9, 10, 11, 12, 11, 10, 10, 9, 9, 7, 8,
10,10,11,10
Amplitudinea

variaiei

tratamentului: 12 7 = 5 zile.

pentru

durata

Amplitudinea relativ (A%) este raportul


procentual dintre amplitudinea absolut

x
A
m
a
x
m
i
n
A%x100 x 100

i media aritmetic a valorilor analizate.

n exemplul de mai sus A% = (5/9)*100 =


55,5%

Observaii referitor la amplitudine:


1) Se exprim n unitatea de msur a caracteristicii
studiate

sau

procente

cazul

amplitudinii

relative;
2) Amplitudinea nu ine seama de toate valorile, ci
numai de cele extreme, care adeseori sunt aberante;
3) Este sensibil la valorile aberante, se consider un
indicator

mai

puin

relevant,

nepermind

cunoaterea structurii interne de variaie.

4) n cazul seriei de distribuie pe


intervale

valorice

calculul

amplitudinii este lipsit de sens;


5)

Amplitudinea

se

utilizeaz

frecvent la alegerea numrului de


intervale de grupare a datelor i la
stabilirea mrimii intervalelor.

Abaterea

valorilor

individuale

de

la

medie (di).
Exprim cu cte uniti de msur sau de cte
ori (sau ct la sut) valoarea caracteristicii

dixix

individuale a colectivitii se abate de la


mrimea unui indicator al tendinei centrale.
- n forma absolut:

d
x

x
i
i
d%x100 x 100

- n forma relativ:

Exemplu: considernd aceleai date din exemplul


anterior, bolnavul care s-a tratat 12 zile se abate
de la media grupei cu 3 zile ceea ce reperezint
33,3% din medie iar pacientul care s-a tratat 7
zile se abate de la media semigrupei cu 2 zile
ceea ce reprezint 22,2% din medie.
Cu ct obinem mai multe abateri relative mari n
analiza unui volum de date (ctre 100% sau peste
acest

nivel)

eterogen.

cu

att

colectivitatea

este

mai

Observaii:
1) valorile individuale se compar cu valoarea
lor medie, dar la fel de bine poate fi utilizat
pentru comparare oricare alt indicator al
tendinei centrale (de ex. mediana);
2)

seriile

de

distribuie

pe

intervale

valorice pentru calculul abaterilor individuale


se iau n considerare centrele de interval;

3) Abaterea valorilor individuale nu poate da


informaii dect la nivelul fiecrei variante pierznd
imaginea mprtierii pe ansamblul distribuiei.
4) n analizele statistice se urmresc n mod
deosebit

abaterile

maxime

pozitive

(d +max)

abaterile maxime negative (d -max) calculate n cifre


absolute i relative astfel:
d+max = xmax x sau d+max% = ( d+max/ x ) 100
d-max = xmin x sau d-max% = ( d-max/ x ) 100

Abaterea intercuantilic
Se

calculeaz

cuantila

ca

diferen

superioar

ntre

cuantila

inferioar de acelai ordin. Astfel


pentru r = 4 Q3 Q1 conine 50% din
numrul observaiilor; pentru r = 10
D9 D1 conine 80% din numrul
observaiilor.

Observaii:
1) Acest indicator se exprim n unitatea de
msur a caracteristicii;
2)

Calculul

abaterii

intercuantilice,

spre

deosebire de cel al amplitudinii, prezint


avantajul c evit valorile individuale extreme
sau aberante. Prin calculul acestui indicator
se pierd informaii dar are ctig de cauz
omogenitatea.
3) Ca i amplitudinea, abaterea intercuantilic
nu poate fi utilizat n calcule algebrice.

Dispersia ( 2 )
Se calculeaz ca media aritmetic a ptratelor
abaterilor valorilor individuale de la tendina
central (uzual de la medie).
Pentru o serie simpl formula dispersiei este:
2 = d2 n
Pentru o serie de distribuie pe frecvene formula
dispersiei este:
2 = d2f n

Observaii:
1) Se mai numete varian sau moment centrat
de ordin doi;
2) Este indicatorul care msoar variaia total a
unei

caracteristici

studiate

datorat

att

cauzelor eseniale ct i celor ntmpltoare;


3) Este un indicator cu valoare teoretic, util n
verificri

de

ipoteze

statistice,

mrime

abstract folosit ca baz de calcul pentru


abaterea medie ptratic;

4) Nu are form concret de exprimare;


5)

Cu

ct

valorile

individuale

ale

caracteristicii sunt mai apropiate ntre ele,


cu att mrimea dispersiei este mai mic. La
limit, dac toate valorile individuale sunt
egale ntre ele, dispersia este nul;
6)

Dispersia,

individuale,

ca

este

media

sensibil

valorilor extreme, aberante.

la

valorilor
prezena

Abaterea medie ptratic ( )


Este calculat ca o medie ptratic din
abaterile valorilor individuale de la media
lor.
n seriile statistice simple:
= d2 n
n seriile de distribuie pe frecvene:
= d2f n
Menionm, c n cazul n care numrul de
frecvene este mai mic de 120, numitorul
formulelor deviaiei standard devine n-1.

Deviaia standard este cel mai util i mai


important indicator de dispersie. Ea pune n
eviden intervalul valoric, n jurul mediei,
n care s-au distribuit valorile individuale ale
fenomenului studiat. O deviaie standard cu
valoare mic, pune n eviden strns o
distribuie strns a valorilor frecvenelor
fenomenului cercetat n jurul mediei, deci
evideniaz un eantion omogen.

O valoare mare a deviaiei standard


pune n eviden o dispersie mare a
valorilor individuale n jurul mediei,
dovedind

eantionul

este

neomogen i ca atare rezultatele


obinute pe un aa eantion nu pot
fi generalizarte.

n general, cu ct deviaia standard are


valori

mai

mari,

caracterizeaz
cercetat.
valoare

mai

Deviaia

cu

att

puin

fenomenul

standard

semnificativ

media

atunci

are

cnd

eantionul pe care am lucrat are o


distribuie normal, adic distribuia se
face conform curbei Gauss Laplace.

Pentru o distribuie normal unitile populaiei


statistice sunt repartizate n modul urmtor:

n cadrul unei asemenea distribuii, n


mod normal, ntre valoarea mediei i cea
a deviaiei standard se distribuie 68,2 8%
din

totalul

valorilor

unei

colectiviti

statistice; ntre medie i dou valori ale


sigmei se distribuie 95,45 % din valori, iar
ntre medie i trei valori ale sigmei sunt
cuprinse 99,97% din valori.

De obicei, n practica, datorit variabilitii


mari a fenomenelor biologice, se consider ca
normale

valorile

determinat

de

cuprinse
X

2 .

n
n

intervalul
cercetrile

experimentale, care necesit o exactitate mai


mare, intervalul n care considerm ca normale
valorile frecvenelor fenomenului cercetat este
mai mare, determinat de X 3 .

Observaii:
1) Se mai numete abatere standard, deviaie
standard, abatere tip, standard deviation;
2) Este un indicator important n analiza variaiei,
se folosete la estimarea erorilor de selecie;
stabilirea eantionului; n calcule de corelaie;
3) Se utilizeaz pentru elaborarea standardelor
de dezvoltare fizic, pentru delimitarea strilor
normale de cele patologice;

4) Exprim cu ct se abate n medie fiecare


valoare individual de la media valorilor
evideniind influena abaterilor mari;
5) Se calculeaz ca o medie ptratic simpl
sau

ponderat

ptratelor

abaterilor

valorilor individuale de la media lor;


6) Se exprim n unitatea de msur n care
se exprim i caracteristica.

Coeficientul de variaie (Cv)


Pe lng multiplele utilizri practice, deviaia
standard are i un mare neajuns. Datorit
faptului c deviaia standard este exprimat n
uniti de msur diferite, specifice fenomenelor
pe care le cercetm, ea nu poate fi utilizat n
aprecierea comparativ a dou sau mai multe
eantioane, sub aspectul omogenitii, care se
exprim n uniti de msur diferite.

Spre exemplu, dac am msurat nlimea i


greutatea unui lot de 30 de elevi i am gsit
pentru nlime o medie de 145 cm cu o deviaie
standard de 5 cm, iar pentru greutate am gsit
o medie de 35 de kg cu o deviaie de 3 kg, pe
baza valorilor deviaiei standard, exprimate n
centimetri i kilograme, nu putem aprecia sub ce
aspect, al nlimii sau al greutii, lotul de elevi
este mai omogen, mai uniform dezvoltat.

n aceast situaie se recurge la coeficientul


de variaie, care nu este altceva dect
deviaia standard exprimat procentual.
Ca definiie, coeficientul de variaie este
rapotul

procentual

dintre

valoarea

deviaiei standard i media aritmetic.


Formula de calcul:
Cv = ( X ) 100

Coeficientul de variaie arat ct la sut din


medie

reprezint

deviaia

standard.

Astfel,

exprimnd procentual pe , scpm de influena


unitii de msur, putnd compara ntre ele, sub
aspectul omogenitii, cte eantioane dorim.
n exemplul anterior, coeficientul de variaie pentru
nlime este:
Cv = (5cm 145cm) 100 = 3,4%
Pentru greutate coeficientul este:
Cv = (3kg 35kg) 100 = 8,6%

Din datele obinute rezult, c lotul de


copii

este

aspectul

mai

omogen

nlimii,

dezvoltat

nu

sub

sub

aspectul

greutii, cum eram tentai s apreciem pe


baza valorilor deviaiei standard.
Cu ct valoarea procentual a coeficientului
de

variaie

este

mai

mic,

cu

eantionul cercetat este mai omogen.

att

n general, se consider c un coeficient de


variaie cu valori sub 10% indic o variaie
mic, deci o omogenitate care ne permite s
generalizm rezultatele, dac i din punct de
vedere numeric eantionul este corespunztor.
Un coeficient de variaie cu valori cuprinse ntre

10%

20%

indic

variaie

medie.

Eantionul este mai puin omogen ca n primul


caz, dar totui permite generalizarea rezultatelor
obinute, cu o anumit probabilitate de a grei.

Valorile

peste

20%

ale

coeficientului de variaie indic


o variaie mare, o lips aproape
total de omogenitate, fapt ce
contraindic
rezultatelor

generalizarea
obinute

asemenea eantion.

pe

un

n literatura de specialitate se avanseaz


nivelul de 35 - 40% ca limit maxim
admisibil
pentru
coeficientul
de
variaie. n situaia unor valori mai mari
ale indicatorului, media nu mai este
suficient de reprezentativ. Soluia care
se impune este mprirea colectivitii
n subgrupe omogene.

ESTIMAREA VERIDICITII
PARAMETRILOR

Mrimile

medii

eantioane

obinute

se

numesc

de

noi

pe

indicatori

statistici i valorile lor sunt mai mult


sau mai puin apropiate de valorile
constantelor colectivitilor generale
n

funcie

de

reprezentativitate
cantitativ

al

gradul

de

calitativ

eantioanelor,

ns

niciodat nu sunt identice.

Cu ajutorul indicatorilor de eantion se estimeaz


parametrii

colectivitilor

generale.

Estimatul

rezultat pe baza indicatorilor de eantion poart


un caracter aleator. Ca atare valorile exacte ale
parametrilor

colectivitii

necunoscute.

schimb

generale
se

poate

rmn
preciza

intervalul valoric n care se va situa media


colectivitii generale (MA = media absolut), n
jurul creia, n

acel interval valoric se vor

distribui mediile de eantion, cu o anumit


probabilitate.

Dac ntr-o colectivitate general


extragem mai multe eantioane,
valorile medii ale acestora vor fi
foarte
mediei

apropiate
absolute,

de

valoarea
distribuia

acestora, n jurul mediei absolute,


fcndu-se conform aceleiai curbe
Gauss-Laplace.

Eroarea standard sau eroarea medie a


mediilor.
Constanta care ne permite s stabilim
intervalul valoric n care se gsete media
absolut i n jurul creia se distribuie
valorile medii de eantion, cu o anumit
probabilitate, se numete eroare standard
(ES) sau eroare medie a valorilor medii de
eantion fa de media universului.

Formula de calcul: ES = n,
n care Es eroarea standard; - abaterea
standard; n numrul de uniti statistice
n situaia n care numrul de uniti ale
eantionului este mai mic de 120, atunci
sigma

se

raporteaz

la

numrul

de

frecvene minus 1 (n-1) i formula devine:


ES = n-1.

Dispunem de urmtoarele date n dou eantioane:


Primul eantion (valorile tensiunii arteriale) media
aritmetic

ponderat

este

140,5mmHg,

abaterea

standard 6,25, numrul de uniti statistice 120.


n primul eantion ES = 6,25 120 = 0,57.
Eantionul al doilea (numrul de dini cariai) media
aritmetic ponderat este 5,84 dini, abaterea standard
3,16, numrul de uniti statistice 508.
n cel de-al doilea eantion ES = 3,16 508 = 0,14.

Valoarea erorii standard, adugat


sau sczut din valoarea mediei
eantionului,
obinem

ne

limitele

permite

intervalului

care se gsete valoarea mediei


absolute i n jurul ei distribuite
mediile

eantioanelor,

anumit probabilitate.

cu

Intervalul de siguran
Intervalul

valoric,

determinat

cu

ajutorul

erorii

standard, n care se estimeaz a se afla media


absolut, se numete interval de siguran sau de
ncredere statistic. n acest interval de siguran,
determinat de media eantionului plus/minus eroarea
standard, media absolut se va gsi ntr-o proporie
de 68,26%, deci probabilitatea ca media absolut s
se gseasc n intervalul acestui interval este de
68,26%.
(X ES) ii (X + ES)

n primul nostru exemplu, media ponderat


fiind 140,5 mmHg iar eroarea standard 0,57,
intervalul de siguran va fi 140,5 0,57,
deci va fi cuprins ntre 139,93 i 141,07
mmHg.
n cel de-al doilea exemplu, media fiind de
5,84

dini

iar

eroarea

standard

0,14,

intervalul de ncredere va fi 5,84 0,14, deci


cuprins ntre 5,7 i 5,98.

Pragul de semnificaie
Contraprobabilitatea sau probabilitatea ca mediile
de eantion s depeasc limitele maxim i
minim intervalului de ncredere, situndu-se n
afara lor, se numete prag de semnificaie. n
cazul cnd intervalul de siguran este determinat
de X ES, atunci contraprobabilitatea (pragul de
semnificaie) se obine scznd din 100 valoarea
probabilitii, deci:
P = 100 68,26 = 31,74%

exemplul

nostru,

media

fiind de 5,84 dini iar eroarea


standard 0,14, intervalul de
ncredere va fi 5,84 0,14,
deci cuprins ntre 5,7 i 5,98
dini.

Dac

vrem

ca

valoarea

contraprobabilitii,

posibilitii de a grei, s fie mai mic, atunci trebuie


s mrim intervalul de ncredere, adugnd i scznd
din valoarea mediei valoarea dubl a erorii standard.
X 2ES = 5,84 2(0,14) = 5,84 0,28
Intervalul de ncredere va fi cuprins ntre 5,56 i 6,12.
n acest interval, ceva mai mare, valoarea mediei
absolute se va gsi cu o probabilitate mai mare dect
n primul caz, de 95,45%, iar pragul de semnificaie
sau posibilitatea de a se situa n afara acestui interval
se reduce la 4,55% (P = 100 4,55 = 95,45).

Dac

vrem

reducem

mai

mult

probabilitateade a grei, atunci mrim intervalul


de siguran, adugnd i scznd din valoarea
mediei tripla valoare a erorii standard.
X 3ES = 5,84 3(0,14) = 5,84 0,42
Intervalul de ncredere va fi cuprins ntre 5,42 i
6,26. n acest interval, mult mai mare, media
absolut se va gsi cu o probabilitate de 99,73%,
iar pragul de semnificaie va fi de 0,27% (P = 100
0,27 = 99,73).

Astfel, intervalul de siguran nu are limite


fixe. Ele se modific n funcie de dorina cu
care vrem s asigurm rezultatele noastre.
n cazul n care acceptm un prag de
semnificaie mai mare, atunci intervalul de
ncredere este mai mic. Cu ct vrem s
lucrm mai precis, deci s greim mai puin,
cu att intervalul de siguran crete.

Testul de semnificaie
Mrimea intervalului de ncredere depinde de
faptul dac n jurul mediei lum o singur dat, de
dou ori sau de trei ori valoarea erorii standard.
Multiplul

erorii

standard

(1,

sau

3),

care

determin mrimea intervalului de ncredere, se


numete test de semnificaie i se noteaz cu
litera t. Ca atare, la o probabilitate de 68,26% i
un prag de semnificaie de 31,74% valoarea lui t =
1; la 95,45% i 4,55 prag de semnificaie, valoarea
lui t = 2; la o probabilitate de 99,73% i un prag de
semnificaie de 0,27% valoarea lui t = 3.

n mod obinuit, noi nu garantm


rezultatele sau concluziile, obinute
pe eantion, cu probabilitatea cu care
acestea

se

intervalului

gsesc
de

ncredere

contraprobabilitatea,

interiorul
ci

cu
cu

probabilitatea de a grei, deci cu


pragul de semnificaie.

n medicin i biologie pragurile de semnificaie


de 31,74%, 4,55% i de 0,27% nu se folosesc. n
schimb rezultatele se garanteaz cu pragurile de
semnificaie de 0,05 (5%), 0,01 (1%) i 0,001
(0,1%). Pe baz de calcule s-a stabilit c pentru
aceste

praguri

de

semnificaie

valorile

corespunztoare ale lui t sunt de 1,96, 2,58 i


3,29. La pragul de semnificaie de 5%, intervalul
de siguran va fi X 1,96ES; la 1% prag de
semnificaie - X 2,58ES i la 0,1% prag de
semnificaie X 3,29ES.

Aceste valori ale lui t rmn nemodificate dac


lucrm pe eantioane cu un numr mai mare de
120 de uniti statistice. Dac numrul de uniti
statistice este sub 120, atunci valoarea testului
de semnificaie se modific i se ia din tabelul
testului t. Tabelul menionat este format din 4
coloane: prima pentru gradul de libertate iar
celelalte trei corespund celor trei praguri de
semnificaie: 5%, 1%, 0,1%. Prin grad de libertate
nelegem numrul de uniti ale eantionului
GL = n 1.

Eroarea standard procentual.


Eroarea standard procentual n cazul valorilor
medii este exprimat n uniti de msur
diferite, ca i deviaia standard. Ea nu poate
servi deci la compararea a dou sau mai multe
eantioane,
asemenea

sub

aspectul

situaii

se

omogenitii.

calculeaz

eroarea

standard procentual, pentru a putea scpa de


influena unitii diferite de msur.
ES% = (ES X) 100

n general,

se consider c o eroare standard

procentualcu valori sub 1% este acceptabil, n


jurul lui 2% dubioas i peste 3% inacceptabil,
evideniind

un

eantion

neomogen,

deci

necorespunztor pentru a lucra pe el i a generaliza


rezultatele.
n primul nostru exemplu, ES% va fi:

(0,57

140,5) 100

0,40%,

corespunztoare.
n cel de al doilea exemplu al nostru, ES va fi:
(0,14 5,84) 100 = 2,4%, deci dubioas.

deci

Eroarea maxim admis


Este eroarea pe care o acceptm anticipat n
alegerea eantionului, n funcie de natura
cercetrii,

de

precizia

garantm

rezultatele

cu
i

care

de

volumul

mrimea eantionului.
Formula de calcul: = t ES, n care:
- eroarea maxim admis;
T testul de semnificaie;
ES eroarea standard

vrem

s
sau

Pornind ns de la formula erorii standard,


observm c valoarea erorii limit admis
este direct proporional cu valoarea lui
sigma i invers proporional cu rdcina
ptrat din numrul unitilor. Aceasta
nsemn c urmrind o scdere a erorii
standard de n ori, numrul de uniti n
eantion va trebui s creasc de n 2 ori.

De exemplu, dac am efectuat o cercetare pe


100 de cazuri clinice i am stabilit o =
0,40. eroarea standard va fi 0,04. Pentru a
reduce eroarea standard de dou ori, de la
0,04 la 0,02, numrul de variante trebuie s
creasc de 22 ori, deci de la 100 la 400 cazuri.
Dacvrem s reducem de 4 ori valoarea erorii
standard,

numrul

de

cazuri

trebuie

creasc de 42 ori, deci de la 100 la 1600


cazuri.

general

valoarea

erorii

maxime admise nu trebuie s


fie mare de 1, atunci cnd
lucrm cu valori absolute, sau
de 1%, atunci cnd lucrm cu
valori procentuale.

Compararea a dou valori medii


prin criteriul testului Student
Semnificaia

sau

lipsa

de

semnificaie a dou valori medii,


obinute pe eantioane, se poate
stabili cu ajutorul testului Student:
tcalc. = (X1 X2) ES21 + ES22

Dup

calcul

se

stabilete

valoare

lui

tabelar conform tabelului menionat anterior.


Interpretarea se face n modul urmtor: dac
t calculat este mai mare dect t tabelar
atunci diferena ntre cele dou valori medii
este semnificativ.
Dac t calculat este mai mic dect t
tabelar

diferena

semnificativ.

dintre

valori

nu

este