Documente Academic
Documente Profesional
Documente Cultură
Fenomenele de mas studiate de statistic se manifest prin unitile individuale ale colectivitii cercetate, care prezint o variabilitate (mprtiere) mai mare sau mai mic n funcie de numrul, natura, direcia i sensul aciunii factorilor sistematici i ntmpltori. Parametrii tendinei centrale studiai n capitolul anterior nu pot caracteriza gradul de variabilitate al termenilor seriei de date. Exist serii statistice simple sau de distribuie (frecvene) care, dei au aceeai medie i median, difer foarte mult prin gradul de concentrare sau dispersie al valorilor lor. De exemplu seriile: X: 2, 2, 2, 6, 10, 10, 10 Y: 1, 1, 1, 6, 11, 11, 11 au aceeai medie i median, dar mprtierea valorilor lor fa de indicatorii medii este diferit. Cu ct fenomenele au un grad mai mare de complexitate, cu att variaia valorilor individuale este mai mare, iar utilizarea corect a indicatorilor tendinei centrale n fundamentarea deciziilor, necesit verificarea stabilitii i reprezentativitii valorilor nregistrate de acetia. Astfel, determinarea valorii mediei, ca indicator al tendinei centrale a unei caracteristici studiate trebuie s fie nsoit de verificarea omogenitii valorilor individuale din care ea s-a calculat. Verificarea omogenitii valorilor individuale implic analiza mprtierii datelor individuale fa de valorile centrale calculate. Indicatorii mprtierii (variaiei) utilizai n analizele statistice ofer o mai bun fundamentare a deciziilor statistice rezolvnd unele probleme de analiz i cunoatere statistic dintre care menionm: a) Analiza gradului de omogenitate a datelor din care s-au calculat indicatorii tendinei centrale i verificarea reprezentativitii acestora ca valori tipice a seriei respective. b) Compararea n timp i spaiu a mai multor serii de repartiie dup caracteristici independente sau interdependente. c) Selectarea obiectiv a factorilor semnificativi de influen, dup care se structureaz unitile unei colectiviti statistice, separarea aciunii factorilor eseniali i ntmpltori i identificarea aciunii acestora de la o grup de uniti statistice la alta. d) Concentrarea valorilor individuale ale caracteristicilor fa de valorile tipice.
70 Analiza statistic a variabilitii (mprtierii) valorilor individuale - 4 Indicatorii statistici ai mprtierii (variaiei) utilizai n analizele statistice pot fi clasificai dup mai multe criterii: c1) dup modul de calcul i exprimare, acetia pot fi mrimi absolute sau mrimi relative; c2) dup numrul valorilor individuale luate n calcul acetia pot fi simpli sau sintetici; c3) dup dimensiunea seriei de date pot fi indicatori ai variaiei seriilor unidimensionale, bidimensionale sau multidimensionale.
71
Exemplul 1. S presupunem c pentru caracteristicile X a unei populaii format din 30 de uniti statistice, s-a nregistrat seria de frecvene pe intervale dat n tabelul 4.1. S se calculeze nivelul mediu x i amplitudinea absolut, respectiv relativ a variaiei seriei date.
Tabelul 4.1.
Frecvena de apariie ni 4 6 8 2 20
x=
c) Abaterea intercuantilic se calculeaz ca diferen ntre cuantila superioar i cuantila inferioar de acelai ordin. Astfel: pentru r = 4, pe lungimea de Q3 Q1 sunt mprtiate 50% din numrul observaiilor; pentru r = 10, pe lungimea D9 D1 sunt mprtiate 80% din numrul observaiilor. Dac observaiile asupra unei colectiviti statistice pentru caracteristica X sunt distribuite dup o lege normal, atunci abaterea intercuantilic se reprezint grafic ca n fig.4.1.
Fig.4.1.
Spre deosebire de calculul amplitudinii, calculul abaterii intercuantilice nu utilizeaz valorile individuale extreme, care uneori pot fi ieite din contextul normal. Acest indicator pierde informaiile referitoare la valorile extreme, dar ofer o mai bun reflectare a omogenitii datelor statistice. Att amplitudinea ct i abaterea intercuantilic nu se utilizeaz n calcule statistice pentru obinerea altor indicatori.
d) Abaterile individuale fa de un indicator central exprim cu cte uniti de msur (absolute) sau cu ct la sut, valoarea caracteristicii urmrit la fiecare unitate a colectivitii cercetare se abate de la mrimea unui indicator al tendinei centrale (medie aritmetic, median etc.). Deci abaterile individuale pot fi mrimi absolute sau relative, i pentru o valoare individual xi se calculeaz astfel:
x x di% = i 100 , x (am considerat ca indicator central media aritmetic). Raportat la mediana me avem: x me d i = x i m e sau d i % = i 100 , me di = xi x sau
i = 1, k
i = 1, k
Se cunoate c att pentru o serie simpl, ct i pentru o serie de frecvene suma abaterilor individuale de la media aritmetic este nul, adic:
i =1
(x i x ) = 0
respectiv
i =1
(x i x ) n i = 0
n cazul seriilor de frecvene pe intervale, pentru calculul abaterilor individuale se iau n considerare centrele de interval. n unele analize statistice se urmresc n mod deosebit abaterile maxime pozitive i negative calculate ca mrimi absolute i relative: d d max + = x max x sau d max + % = max + 100 x d d max = x min x sau d max % = max 100 x Pentru seria de frecvene pe intervale din Exemplul 1 abaterile individuale la media aritmetic sunt date n tabelul 4.2. Indicatorii simpli ai mprtierii prezint dezavantajul c unii in seama de un numr redus de valori individuale i permit numai o caracterizare aproximativ a mprtierii valorilor n cadrul seriei statistice. O sintez a mprtierii valorilor n cadrul seriei este oferit de indicatorii sintetici ai mprtierii.
ni 4 6 8 2 20
xi 5 9 13 17 -
15 19
Total
a (X) =
1 n xi x , n i =1
a me (X ) =
1 n xi me n i =1
a (X) =
1 k n i (x i x ), n i =1
a me ( X) =
1 k n i (x i m e ) n i =1 deducem
x fiind media seriei, iar me mediana. Din modul de calcul al abaterilor medii absolute a , a me urmtoarele:
a) Ele se exprim n unitatea de msur a caracteristicilor urmrite. b) n cazul seriilor de frecvene pe intervale, pentru calculul lor se utilizeaz centrele intervalelor. c) Abaterea medie absolut fa de tendina central este minim atunci cnd se calculeaz fa de median, adic a me a . d) Calculul abaterilor medii absolute de la tendina central prezint interes atunci cnd are importan numai mrimea abaterilor nu i semnul lor (pozitiv sau negativ).
Exemplul 1. Se consider seria simpl X: 2, 4, 5, 7, 8, 9, 10, 11, 13; S se determine abaterile medii absolute fa de medie, respectiv median.
Pentru variabila statistic X, valoarea medie x =7,67, iar mediana me = 8. Pentru a determina cele dou abateri medii absolute este util s construim un tabel 4.3.
Tabelul 4.3.
xi xi 7,67 xi 8
2 5,67 6
4 3,67 4
5 2,67 3
7 0,67 1
8 0,33 0
9 1,33 1
10 2,33 2
11 3,33 3
13 5.33 5
Observm c a me < a . Cele dou medii absolute a me i a sunt egale doar n cazul distribuiilor simetrice. n calculul abaterilor medii absolute, abaterile individuale x i x , respectiv x i m e au fost luate fr semn. O situaie asemntoare intervine dac se iau n calcul ptratele abaterilor individuale. n aceast situaie se obin ali indicatori ai variaiei unei serii statistice fa de tendina central i anume variana (dispersia) i abaterea medie ptratic, care sunt cei mai des utilizai n analiza seriilor statistice.
(4.2.1)
2 = i =1
(x i x )
n
(4.2.2)
2 = i =1
n i (x i x )
i =1
ni
(4.2.3)
2 =
k
i =1
f i (x i x )
i =1
ni
asupra unitilor colectivitii cercetate. Se cunoate c de fapt, tipic practicii statistice actuale este cercetarea statistic prin sondaj. Dac n reprezint numrul msurtorilor efectuate asupra unui eantion (dimensiunea de eantioanare), atunci pentru variana datelor seriei obinute prin eantionare cnd n nu este foarte mare, se adopt formula de calcul puin modificat. Variana (dispersia) de sondaj a n msurtori Y: y1, y2,..., yn se definete ca fiind valoarea obinut prin raportarea sumei ptratelor abaterilor individuale fa de media de sondaj y la n-1. Notm aceast dispersie, care este de fapt o aproximaie a dispersiei variabilei X pentru ntreaga populaie cercetat cu s2, i deci vom avea: (4.2.4) s2 = 1 n 2 ( y i y) n 1 i =1
De exemplu, dac n urma extragerii unui eantion de 5 uniti, n urma efecturii msurtorilor s-a obinut seria statistic Y: 1, 2, 4, 5, 7, utiliznd formula 22,80 = 5,70 (4.2.4.) i tabelul 4.4. ( y =3,8) obinem: s 2 = 4
Tabelul 4.4.
(y i y)
yi yi y
1 -2,8 7,84
2
2 -1,8 3,24
4 0,2 0,04
5 1,2 1,44
7 3,2 10,24
19 0,0 22,80
bun a mediei caracteristicii x pentru ntreaga populaie. Cu aceast presupunere s-a constatat c pentru eantioane de dimensiuni mici, s2 reprezint o aproximare mai bun a dispersiei valorilor caracteristicii pentru ntreaga populaie dect dac am folosi formula: (4.2.5) s' 2 = 1 n
i =1
(y i y )
care corespunde relaiei (4.2.1). Dac ns volumul eantionului n este foarte mare, atunci, cum (4.2.5) i (4.2.4) difer doar prin numitor, s2 i s2 vor fi aproximativ egale.
Exemplul 1. Se consider urmtoarea repartiie de frecvene pe intervale egale a intrrilor n contul bancar al unei societi (tabelul 4.5):
Tabelul 4.5.
34 26
45 33
56 64
67 7
7 -8 10
S se determine intrarea medie zilnic i dispersia fa de aceast intrare medie zilnic. Se prezint datele sub form tabelar (tabelul 4.6.). 712 = 5,086 mii lei, iar din linia Pe baza liniilor ni, nixi obinem x = 140
n i x i x obinem dispersia 2 = 1,14. Din modul de calcul a dispersiei observm c, cu ct valorile individuale ale caracteristicii studiate sunt mai omogene, cu att mrimea dispersiei este mai mic. Dac imaginm o trecere la limit n omogenitate, aceasta nsemn c diferenele x i x tind la 0, ceea ce conduce la omogenitatea perfect x i = x i = 1,n i deci 2 = 0.
)2
34 26 3,5 91 -1,58
2,496
7 8 10 7,5 75 2,41
5,808
(x i x )2 2 n i (x i x )
58,08 158,928
Pe baza definiiei dispersiei se pot demonstra urmtoarele proprieti de calcul ale acestui indicator, care n unele situaii mai complicate privind volumul datelor i mrimea lor, pot duce la simplificarea calculului dispersiei. a) Fie o variabil statistic X simpl sau de frecvene lund valorile X: x1, x2,..., xn de varian 2. Atunci variabila statistic X de valori xi = xi u are variana (dispersia) egal cu cea iniial, adic 2(X) = 2(X).
xi 2 = a 0 are dispersia b) Variabila statistic X de valori x " , adic i a a2 1 2 2 (X") = (X ) . a2 c) Variana unei serii statistice poate fi calculat fa de o valoare arbitrar c. ntre variana calculat fa de constanta arbitrar c i cea fa de valoarea medie x se stabilete relaia de legtur:
(4.2.6.)
2 (X ) = 2 (X ) + x c c
)2
Relaia de mai sus arat c dispersia unei variabile statistice X fa de o constant c este minim atunci cnd constanta coincide cu mediana x a variabilei statistice. x1 , x 2 , K , x k , d) Dac valorile seriei de frecvene X : n , n , K, n , se mparte n dou 2 k 1 grupe a i b formnd astfel dou serii componente avnd frecvenele cumulate
2 , respectiv 2 , atunci ntre variana na, respectiv nb(na+nb=0) i dispersiile a b (dispersia) seriei date i a seriilor definite de cele dou grupe de valori exist relaia:
(4.2.7)
2 (X ) =
iniiale. Dac notm cu 2 (X) respectiv 2 (X) cei doi termeni ai membrului drept al egalitii de mai sus, atunci avem: (4.2.8)
2 (X ) = (X ) + 2 (X ) ,
2 (X) sintetizeaz mprtierea din interiorul subgrupelor. Aceasta se datoreaz factorilor specifici aleatori; 2 (X ) sintetizeaz influena factorului sistematic, de structur, a colectivitii asupra mprtierii generale a valorilor individuale. 2 (X ) ca dispersie ntre grupe sintetizeaz variaia dintre subcolectivitile n care s-a structurat colectivitatea general. Coeficientul (4.2.9.) R2 = 2 (X) 2 (X) 100 ,
numit grad de determinaie, exprim msura n care variaia caracteristicii urmrite depinde de factorul sistematic dup care s-a structurat gruparea colectivitii. Coeficientul K2 = 2 (X) 2 (X) 100 = 1 R 2 ,
numit grad de nedeterminare, exprim ct la sut din dispersia general este determinat de factorul care acioneaz n fiecare subcolectivitate a colectivitii generale.
Exemplul 2. S presupunem c societatea comercial M.E. S.A. i desfoar activitatea n dou filiale: M.E.T. S.A. i . M.E.L. S.A. Datele referitoare la numrul de personal i salariile brute, pe categorii de personal i pe filiale sunt date sub form tabelar tabelul 4.7. S se calculeze dispersia salariilor brute pe societatea M.E. S.A., pe cele dou filiale i gradele de determinaie, respectiv de nedeterminare ale dispersiei pe ntreaga societate n raport cu cele corespunztoare celor dou filiale.
Filiala M.E.T. S.A. Filiala M.E.L. S.A. Societatea M.E. S.A. Nr.de Salarii medii Nr.de Salarii medii Nr.de Salarii medii brute brute angajai angajai angajai brute (nb) [mil.lei] x b (n=na+nb) [mil.lei] X (na) [mil.lei] x a
Personal cu studii medii Personal cu studii superioare Personal de conducere Total 50 20 10 80
a
4 6 8 -
30 10 5 45
b
5 7 9 -
80 30 15 125
societii comerciale date i celor dou filiale ale sale. Pentru variabila X obinem Dispersia general 2 ( X) a salariilor pe ntreaga societate se obine prin:
2 (X) =
1 50 4 2 + 20 6 2 + 10 8 2 + 30 5 2 + 10 7 2 + 5 9 2 125
2
de unde rezult c:
Rezultatele arat c dispersia variaiei salariilor n societatea considerat se explic n proporie de 92% printr-o mprtiere a salariilor ca urmare a factorilor specifici care acioneaz n cadrul fiecrei filiale i numai n foarte mic msur, 8%, prin mprtierea salariilor medii ale filialelor fa de salariul mediu pe ntreaga societate. Din modul de calcul al dispersiei rezult c aceasta, ca i media, este sensibil la prezena valorilor extreme. Dispersia, ca indicator sintetic al mprtierii valorilor individuale n jurul tendinei lor centrale (medie, median), aa cum se observ i din relaiile ei de calcul,
( X ) = 2 ( X )
Abaterea medie ptratic se exprim n unitatea de msur a caracteristicii studiate; valoarea sa este cu att mai mare cu ct variaia valorilor individuale din care s-a calculat este mai mare. Comparnd abaterea medie ptratic cu abaterea medie absolut, calculate pentru aceeai serie X, se constat c: 4 a ( X) ( X) sau mai exact a (X) (X ) 5 Cei doi indicatori ai mprtierii valorilor individuale au valori apropiate; totui, abaterea medie ptratic (X) este preferat n analizele statistice, ea fiind un parametru al legii normale, care st la baza majoritii metodelor de prelucrare statistic. n acelai timp, pe lng faptul c abaterea medie ptratic st la baza verificrii omogenitii valorilor individuale i a reprezentativitii mediilor lor, ea intervine n construirea unor intervale centrate n x care conin un anumit procent din masa total a observaiilor. Astfel, tim c, dac o caracteristic X cercetat urmeaz o repartiie normal, atunci intervalul [ x -2(X), x +2(X)], conine 95,44% din msurtori, iar intervalul [ x -3(X), x +3(X)], conine 99,74% din observaiile efectuate. n analizele financiar bursiere abaterea medie ptratic se utilizeaz ca o msur a riscului unor plasamente. De exemplu, riscul unui portofoliu de iniiative de plasare a capitalului este cu att mai mic cu ct abaterea medie ptratic a portofoliului respectiv este mai mic. Acelai indicator este utilizat n studiile de marketing i ale calitii produselor, pentru elaborarea variantelor de prognoz.
4.2. - Indicatorii sintetici ai mprtierii 81 Dac rescriem formula de calcul (4.2.10) pentru abaterea medie ptratic n xi cazul unei serii statistice simple X: (xi), i = 1, n sau de frecvene X : n , i = 1, k cu i
i =1
(x i x )
respectiv, (4.2.12)
( X ) = 2 ( X ) =
1 n
i =1
n i (x i x )
2
i =1
i =1
( X ) = ( X 2 ) =
1 n
i =1
2 1 xi n
n 1 2 x2 , xi = xi n i =1 i =1
()
n cazul calculului abaterii medii ptratice corespunztoare unui eantion de volum relativ mic, ntr-o cercetare prin sondaj, este indicat formula: s( Y ) = s 2 ( Y ) = 1 n 1
i =1
(y i y )
pentru o mai bun aproximare (( X) (Y) ) , n fiind n acest caz volumul eantionului, iar yi datele de sondaj.
Exemplul 1. Se consider seria de distribuie de frecvene pe intervale dat n tabelul 4.8.
S se calculeze abaterea standard (abaterea medie ptratic) i un interval care s ncadreze valoarea medie i s conin aproximativ 93% din msurtorile efectuate.
10 20 20 30 30 40 40 50 50 60 4 7 20 10 5
Total 46
i =1
2 (X) =
+ 10 (13,01)2 + 5 (18,01)2 =
1 5245,75 = 114,06. 46
Cu x i (X) calculai, determinm un interval centrat n x de forma ( x -k, x +k). Am vzut mai sus c n cazul unei repartiii normale, pentru n = 2 sau 3, un astfel de interval conine aproape toate valorile seriei ce urmeaz o astfel de repartiie. n fig.4.2. este reprezentat grafic histograma seriei de distribuie.
Fig.4.2.
4.2. - Indicatorii sintetici ai mprtierii 83 Dac empiric ea poate fi asimilat unui clopot (curba lui Gauss) putem (cu aproximaie) aplica cele cunoscute de la repartiia normal. Conform cu procentul dat s alegem k=2. Intervalul propus va fi: ( x -2, x +2) = (36,09 21,36, 36,09 + + 21,36) = (14,73 , 57,45). Numrul de observaii cuprins n acest interval se determin cu metoda interpolrii. 20 14,37 57,45 50 n 2 = 4 + 7 + 20 + 10 + 5 = 42,84 msurtori, 10 10 ceea ce reprezint 93,10%, adic un procent ce satisface condiia cerut.
100 x x Indiferent dup ce relaie se calculeaz, coeficientul de variaie permite o interpretare mai nuanat a dispersiei. n analizele financiar bursiere este o msur a riscului relativ. Indicatorii simpli i sintetici ai mprtierii valorilor individuale ale caracteristicilor n jurul tendinei centrale ofer informaii utile pentru cunoaterea evoluiei fenomenelor de mas i pentru fundamentarea deciziilor legate de acestea. Pentru o analiz statistic mai profund aceste informaii se completeaz cu altele referitoare la concentrarea valorilor individuale, la deplasarea acestora fa de anumite valori tipice. Prin urmare, prezint importan, pe lng o msur numeric a variaiei valorilor individuale i analiza formelor de distribuire a acestora, ceea ce va face obiectul urmtorului paragraf.
CVa (X) =
a (X)
a (X)
Fig.4.3.
85
Evident, o repartiie de frecvene este asimetric dac frecvenele valorilor caracteristicii urmrite sunt deplasate ntr-o parte sau alta fa de tendina central exprimat prin m0, me sau x , ntr-o msur mai mare sau mai mic. Repartiiile de frecvene avnd graficele din fig.4.4. sunt oblice spre stnga, respectiv spre dreapta.
Fig.4.4.
Yulle i Kendall, Pearson i Fisher au propus anumii coeficieni adimensionali pentru a caracteriza amploarea asimetriei statistice unimodale. innd cont de poziia cuartilelor n raport cu mediana, Yulle i Kendall au recomandat pentru msurarea asimetriei coeficientul: (Q m e ) (m e Q1 ) C ayk = 3 (Q 3 m e ) + (m e Q1 ) Se observ c valorile coeficientului Cayk sunt cuprinse n intervalul (-1, 1). Cayk = 0 este echivalent cu o dispunere simetric a datelor (cuantilele sunt simetrice). Dac Cazk > 0 nseamn c exist o asimetrie la stnga sau etalarea frecvenelor la dreapta, Cayk<0 este echivalent cu o asimetrie la dreapta sau etalarea frecvenelor spre stnga. K. Pearson a propus pentru msurarea asimetriei analizarea poziiilor mediei i valorii modale, relativ la abaterea medie ptratic. Coeficientul pentru msurarea asimetriei propus de Pearson este: C as = x m0 ( X )
Cu ct valorile acestui coeficient sunt mai apropiate de zero, cu att seria este mai simetric, cu ct valorile sale sunt mai apropiate de unu, cu att seria este mai asimetric; valoarea zero a coeficientului Cas indic existena unei simetrii. O repartiie de frecvene X este considerat moderat asimetric dac valorile centrale m0, me i x verific, n mod aproximativ, relaia m0 - x = 3(m0 - x ).
Pe lng coeficienii de asimetrie de mai sus, n practica statistica se utilizeaz i ali coeficieni de asimetrie [1], [16]. n afara asimetriei seriilor statistice de repartiie, prezint importan i caracterizarea aplatizrii (boltirii) repartiiilor de frecven i a concentrrii frecvenelor n seriile de repartiie. Presupunem c o distribuie de frecvene este aplatizat dac o mare variaie a caracteristicii urmrite antreneaz o uoar variaie a frecvenelor i invers. De obicei aplatizarea unei distribuii de frecvene este comparat grafic cu graficul legii normale (Gauss-Laplace). Pentru caracterizarea aplatizrii se utilizeaz de asemenea coeficieni de aplatizare . Concentrarea salariilor, a veniturilor etc. arat c o caracterizare a concentrrii frecvenelor este necesar n fundamentarea deciziilor de politic economicofinanciar.