Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE DREPT
Mihaela JARADAT
Florin URS
STATISTICĂ
JUDICIARĂ
2012
2
CUPRINS
Introducere .................................................................................................. 7
3
2.2.B. Exemple ................................................................... .47
3. Prezentarea seriilor statistice...................................................... .53
3.1.A. Tabelul statistic şi reprezentare grafică ................... .53
3.1.B. Exemple ................................................................... .62
4. Test de autoevaluare II ............................................................... .68
4.1. Enunţ ........................................................................... .68
4.2. Rezolvare .................................................................... .70
4
8. Test de autoevaluare IV .......................................................... ..161
8.1. Enunţ ........................................................................ ..161
8.2. Rezolvare ................................................................. ..162
5
6
INTRODUCERE
7
Cel de-al treilea capitol ţine deja de sfera prelucrării matematice a
datelor culese, prezentând principalii parametrii ai unei repartiţii statistice
precum şi proprietăţile lor.
În capitolul patru se desfăşoară demersul aferent studierii existenţei
şi formei unor legături prezente între diverse variabile. Metodele expuse aici
stau la baza modelării unor fenomene economice prin înţelegerea factorilor
care intervin şi a legăturii acestora cu variabila efect.
Capitolul cinci este un rezumat al câtorva metode de calcul al
indicilor factoriali.
Capitolul şase are ca şi finalitate previzionarea unor mărimi
economice care evoluează în timp.
Capitolul de sinteză, şapte, cuprinde probleme de sinteză rezolvate,
probleme de sinteză propuse precum şi teste de autoevaluare de sinteză şi
doua teste de evaluare.
Însuşirea eficientă a noţiunilor de statistică prezentate în acest curs
contribuie la formarea unui economist complet care este în stare nu doar să
opereze cu indicatorii în care se traduce un fenomen economic ci şi să
înţeleagă şi să controleze prin corelări, modelări şi previziuni, acel fenomen.
8
CAPITOLUL I
1. Concepte de bază
1.1.B. Exemple
9
fie mai mare sau egală cu o anumită limită, stabilită anterior. Pentru
formarea unui eşantion aleator din aceeaşi populaţie i se atribuie fiecărui
student un număr (de exemplu, numărul matricol), din aceste numere
extrăgându-se la întâmplare n = volumul eşantionului.
10
În timp ce o variabilă aleatoare înregistrează valori la întâmplare,
variabila statistică este o însuşire certă a unităţilor statistice din populaţie.
Valorile unei variabile aleatoare sunt probabile şi în strânsă legătură cu un
anumit experiment în timp ce stările unei variabile statistice nu sunt
probabile, ele cuantificând o trăsătură proprie fiecărei unităţi din populaţie.
1.2.B. Exemple
11
1.3.A. Observarea statistică
12
statistice. Aspecte particulare ale demersului statisticii inferenţiale sunt şi
dimensionarea eşantionului şi eşantionarea propriu zisă.
1.3.B. Exemple
Nr.
crt. X Y Z ....
1 2,5 3
2 4,7 4
. . . X=venit
. . . (u.m.)
. . . Y=număr
100 5 3 persoane
Cu alte cuvinte, prima familie din eşantion are un venit de 2,5 u.m. şi
3 membrii, a doua familie, 4,7 u.m. şi 4 membrii, etc.
Un exemplu de observare totală este recensământul populaţiei
României.
13
Controlul de calitate a diverselor tipuri constituie un exemplu de
observare parţială, o observare totală nefiind întotdeauna eficientă din cauza
costurilor ridicate.
14
Frecvenţa absolută cumulată N ( xi ) corespunzătoare stării xi sau
intervalului [xi −1 , xi ) , reprezintă numărul unităţilor populaţiei pentru care
X < xi .
Indicatorul de nivel exprimă volumul, nivelul înregistrat de o
variabilă numerică pentru una sau mai multe unităţi ale unei populaţii.
Diferenţa absolută a unui indicator exprimă diferenţa dintre
nivelul cercetat al indicatorului considerat şi cel luat ca bază de comparaţie.
Grupa indicatorilor relativi cuprinde:
-frecvenţa relativă;
-frecvenţa relativă cumulată;
-greutatea specifică;
-indicatorul relativ de intensitate;
-indicele unui indicator;
-diferenţa relativă a unui indicator.
Frecvenţa relativă corespunzătoare stării χ i sau intervalului
[χ i −1 , χ i ) este raportul dintre frecvenţa absolută N i şi volumul populaţiei N.
Frecvenţa relativă cumulată FN ( xi ) se defineşte ca suma
frecvenţelor relative până la X = xi .
Greutatea specifică a clasei “i”, notată g i , reprezintă raportul dintre
nivelul înregistrat de X în clasa respectivă şi suma nivelelor înregistrate de X
pentru fiecare clasă.
Indicatorul relativ de intensitate se defineşte ca raport între doi
indicatori de nivel şi arată gradul de răspândire a fenomenului cuantificat de
indicatorul de la numărător în raport cu fenomenul cuantificat de indicatorul
de la numitor.
Indicele unui indicator reprezintă raportul dintre nivelul cercetat al
indicatorului respectiv şi cel luat ca bază de comparaţie.
Diferenţa relativă a unui indicator reprezintă raportul dintre
diferenţa absolută a indicatorului respectiv şi nivelul acestuia considerat ca
bază de comparaţie.
La baza algoritmului de calcul al unui indicator oarecare considerat,
poate sta un model matematic determinist sau un model statistic.
Modelul determinist este un model care nu conţine elemente
aleatoare şi care surprinde în mod cert starea sau evoluţia fenomenului
studiat în funcţie de variabilele luate în considerare. Mărimile într-un model
determinist se leagă printr-o relaţie funcţională de forma
Z = H ( X 1 , X 2 ,..., X n ) în care variabila dependentă sau funcţia Z se va numi
15
variabilă exogenă sau explicată iar variabilele independente X 1 , X 2 ,..., X n ,
variabile endogene sau explicative.
Modelul statistic este modelul în care intervin pe lângă variabilele
măsurabile sau observabile una sau mai multe variabile aleatoare. În cazul
modelului statistic, la o valoare a sistemului de variabile explicative, pot
corespunde mai multe valori ale variabilei explicate. Se poate scrie deci:
Z = H ( X 1 , X 2 ,..., X n ) + e , unde e este un factor aleator.
Formulele matematice de calcul precum şi exemple de calcul al
indicilor mai sus menţionaţi se regăsesc în paragrafele 2.2.A şi 2.2.B.
(Capitolul II).
16
indicatori altele decât frecvenţele; din aceste tipuri de serii un rol
important în practică îl au seriile care redau variaţia în timp a
indicatorului, adică seriile cronologice.
Aşadar prin intermediul seriilor se poate reda repartiţia elementelor
populaţiei de cercetat în grupe sau variaţia unui indicator în raport cu două
sau mai multe variabile.
[x , x ) [x1 , x2 ) ... [x R −1 , x R )
X : 0 1
N1 N2 ... NR
x x1 ... x R
X : 0
N0 N 1 ... N R
i1 i2 ... il
y1 y2 ... y l
unde i1 , i2 ,..., il , sunt fie unităţi de timp, fie unităţi de spaţiu sau alte
categorii socio-economici, iar y1 ,..., y l , sunt nivelele înregistrate de către
indicatorul în raport cu care este studiată populaţia.
17
y x [x0 , x1 ) [x1 , x2 ) … [x j −1 , x j ) … [x R −1 , x R ) TOTAL
[ y P −1 , y P ) N P1 N P2 . . . N Pj . . . N PR N P•
. . . . .
.
. . . . .
. . . . . .
[ yi −1 , yi ) N i1 Ni2 . . . N ij . . . N iR N i•
. . . . . .
. . . . . .
. . . . . .
[ y1 , y 2 ) N 21 N 22 . . . N2 j . . . N 2R N 2•
[ y 0 , y1 ) N 11 N 12 . . . N1 j . . . N 1R N 1•
TOTAL N •1 N •2 . . . N• j . . . N •R N
[y , y ) [ y1 , y 2 ) ... [ yi −1 , yi ) ... [ y P −1 , y P )
Y : 0 1
N 1• N 2• ... N i• ... N P•
R P
Avem relaţiile ∑ N • j = ∑ N i• = N .
j =1 i =1
18
Spre exemplu seria în raport cu X condiţionată de clasa [ y i −1 , y i ) a
lui Y , se poate scrie astfel:
[x0 , x1 )
X / Y ∈[ yi −1 , yi ) :
[x1 , x2 ) ... [x , x j ) ...
j −1 [x R −1 , x R )
N i1 N i2 ... N ij ... N iR
P R R P
∑ N ij = N • j , ∑ N ij = N i• , ∑∑ N ij = N .
i =1 j =1 j =1 i =1
1.5.B. Exemple
19
1938 1950 1960
X :
338 1299 3350
[1 − 2 ) [2 − 3) [3 − 4) [4 − 5) [5 − 6)
X :
12 23 12 20 6 u .m.
0 1 2 3 4 5 6 > 6
X :
20 40 100 200 80 40 20 21
20
I II III IV
X :
700 200 50 50
-serie de variaţie (redă variaţia profitului unei firme pe parcursul unui an)
-o serie poate să treacă în acelaşi timp prin mai multe clasificări; de exemplu
seria care redă repartiţia familiilor dintr-un oraş în funcţie de numărul de
camere pe care-l ocupă este o serie de frecvenţe, atributivă, cantitativă,
discretă
0 1 2 3 4 5 6 > 6
X :
20 50 75 100 50 25 15 10
x
y Mate-Fizică Filologie Chimie-Biologie Industrial Alte Profile Total
0 80 2 25 2 7 116
1 18 2 15 5 6 46
2 2 7 7 3 19
3 1 4 5 10
>3 2 7 9
Total 100 12 40 20 28 200
21
MF FILO CB IND ALTE
X :
100 12 40 20 28 = 200
0 1 2 3 > 3
Y :
116 46 19 10 9 = 200
0 1 2 3 > 3
Y :
X = INDUSTRIAL 2 5 7 4 2
= 20
2. Organizarea statisticii
22
În cazul în care statisticile rezultate în faza observării se referă la
întreaga populaţie, tehnicile de prelucrare ale acestora sunt tehnici ale
matematicii deterministe şi avem de-a face cu statistica descriptivă.
Statistica inferenţială se bazează în schimb pe statisticile rezultate
prin observarea unor eşantioane aleatoare deci rezultă în prima fază
informaţii la nivelul eşantionului care se extind apoi prin inferenţă statistică
la nivelul populaţiei univers din care s-a format eşantionul.
23
În consecinţă, la sfârşitul secolului al XVIII-lea, în statistică existau
două curente: după primul curent, statistica era înţeleasă ca o descriere
empirică a caracteristicilor statului (statistica descriptivă), în timp ce
conform celui de-al doilea curent statistica realiza analiza fenomenelor
sociale, în căutarea de reguli şi modelări motivate pe observaţii şi calcule
numerice (aritmetica politică).
Aritmetica politică cunoaşte o puternică înflorire odată cu inventarea
calculului probabilităţilor. Această nouă ramură a matematicii a realizat
fundamentarea ştiinţifică a preocupărilor statistice de până atunci. Printre
primii care au utilizat modelele teoriei probabilităţilor în studiul statistic al
fenomenelor economice şi sociale au fost Bernoulli, Laplace, Gauss, Fourier
şi Poisson. Calculul probabilistic s-a manifestat pregnant în statistică în
secolul al XIX-lea. Reprezentanţi de seamă ai acestei perioade au fost:
Quetelet, Cebâşev, Markov.
În secolul trecut apare o nouă etapă în evoluţia statisticii cunoscută
ca etapa constituirii statisticii moderne. În această etapă statistica evoluează
de la stadiul descriptiv, de prezentare simplistă a fenomenelor la
interpretarea analitică a fenomenelor şi deducerea de concluzii inductive
având la bază datele culese. În acest punct de cotitură apare o
întrepătrundere a statisticii cu matematica în vederea obţinerii celor mai
corespunzătoare metode în atingerea obiectivelor. Printre cei care au adus
un aport considerabil în statistica modernă, amintim aici pe Galton, Pearson,
Fischer.
Vom concluziona prin a spune că statistica modernă prezintă două
aspecte diferite dar complementare: aspectul descriptiv din aşa numita
statistică descriptivă, care permite expunerea informaţiilor aşa cum au
rezultat din prelucrarea datelor din observare şi aspectul inductiv, din
statistica inferenţială, care ne permite o tratare analitică a datelor în vederea
deducerii de concluzii logice, asociate observaţiilor efectuate. În cadrul unui
demers statistic ambele aspecte trebuie luate în considerare.
Statistica, prin metodele şi procedeele pe care le pune la dispoziţia
cercetătorului, permite o abordare ştiinţifică a diferitelor probleme care apar
în studiul cunoaşterii fenomenelor social-economice, generate de cauze
multiple şi complexe. Incursiunile în viitor, prin elaborarea de prognoze şi
strategii de dezvoltare sunt astăzi permise datorită contribuţiei aduse de
metodele statistice. Aceste considerente ne îndreptăţesc să acordăm
statisticii atenţia cuvenită şi în studiul economiei.
24
2.3. Organizarea statisticii
25
Institutul Naţional de Statistică emite periodic şi alte publicaţii care
reflectă stadiul economiei româneşti sub diverse aspecte. “Anuarul Statistic
al României” este una dintre cele mai complexe publicaţii care sintetizează
anual date ce reflectă stadiul de dezvoltare a diverselor ramuri ale economiei
naţionale, aspecte sociale şi demografice ale populaţiei României etc..
Alte publicaţii ce stochează de asemenea diverse date sunt: Mediul
înconjurător în România, Economia mondială în cifre, Conturile naţionale,
Starea socială şi economia României, Breviarul de comerţ exterior, Buxiarul
de turism etc.. În buletinele periodice, Institutul Naţional de Statistică
publică date pe termen scurt, în special evoluţia lunară a principalilor
indicatori economico-sociali şi studii de conjunctură economică. Amintim
aici: Buletin statistic lunar, Studii de conjunctură economică: industria
prelucrătoare, construcţii, comerţ, Buletin statistic de preţuri, Buletin
statistic - industrie, Buletin statistic de comerţ exterior, Buletin statistic
trimestrial.
Publicaţiile editate de Institutul Naţional de Statistică au menirea de
a asigura cititorului o informaţie sistematică relativ la dinamica economiei
precum şi la alte aspecte din sistemul de stat.
3. Test de autoevaluare I
3.1.Enunţ
redând salariul unui muncitor pe primele trei luni ale anului, exprimat în
u.m.. Elaboraţi seriile cu toţi indicatorii derivaţi posibili.
Aceeaşi problemă pentru seria:
S P M
X :
45 43 12
3.2.Rezolvare
Problema 1
27
Variabile statistice:
-volumul vânzărilor pe 1999
-profitul pe 1999
-cheltuielile cu publicitatea pe 1999
d)Populaţia statistică : mulţimea angajaţilor unei firme din localitatea X în
anul 2001
Scopul –stabilirea unei relaţii de comunicare reală a angajaţilor cu
conducerea firmei
Variabile statistice:
-opinia angajaţilor cu privire la modul de salarizare
-opinia acestora privind politica firmei vizavi de promovarea produselor
-salariul pe ultima lună, etc.
e)Populaţia statistică: mulţimea localităţilor din România în anul 1996
Scopul: cercetarea gradului de privatizare în anul 1996 în România
Variabile statistice:
- numărul societăţilor private din fiecare localitate
- numărul celor care doresc să-şi înfiinţeze în decursul anului o societate
privată
Problema 2
28
Citirea tabelului se face astfel : de exemplu a doua gospodărie din eşantion
a recoltat 12,5 kg. grâu,de pe un teren de 5,4 ha.
Gospodăria are un venit de 4,7 u.m. şi a primit un ajutor de la stat în valoare
de 6 u.m. .
Problema 3
0 1 2
t/0 Ian u arie Febr u arie Ma r tie
I :
x
0/0
Ix I 1x / 0 I x2 / 0
x(t )
I xt / 0 =
x(0)
29
x(0) 1,8
I x0 / 0 = = =1
x(0) 1,8
x(1) 1,6
I 1x / 0 = = = 0,88
x(0) 1,8
x(2) 1,95
I x2 / 0 = = = 1,083
x(0) 1,8
I tx/ 0 : Ian u arie Febr u arie Ma r tie
1
0,88 1,083
0 1 2
t / t −1 Ian u arie Febr u arie Ma r tie
I :
x
− I 1x / 0 I x2 / 1
x(t )
I xt / t −1 =
x(t − 1)
x(1)
I 1x / 0 = = 0,88
x(0)
x(2) 1,95
I x2 / 1 = = = 1,21
x(1) 1,6
I tx/ t −1 : Ian u arie Febr u arie Ma r tie
−
0,88 1,21
Se observă că salariul a crescut în luna Martie faţă de luna Februarie de 1,21
ori
Diferenţa absolută cu bază fixă:
0 1 2
∆tx/ 0 : 0 / 0 1 / 0 2 / 0
∆x ∆x ∆x
30
∆tx/ 0 = x(t ) − x(0 )
0 1 2
∆tx/ t −1 :
− ∆ 1/ 0
x ∆2x/ 1
∆tx/ t −1 = x(t ) − x(t − 1)
∆1x/ 0 = −0,2
0 1 2
R tx/ 0 : 0 / 0 1 / 0 2 / 0
Rx Rx Rx
∆tx/ 0
R tx/ 0 = (I tx/ 0 - 1) ⋅ 100 = ⋅ 100
x(0)
31
R 0x / 0 = I 0x / 0 - 1 = 0 sau 0%
0 1 2
R tx/ t −1 :
2 /1
− R1/ 0
x Rx
t / t −1
∆x
R tx/ t −1 = (I tx/ t −1 - 1) ⋅ 100 = ⋅ 100
x(t − 1)
R 1x/ 0 = -12%
Greutatea specifică:
0 1 2
g :
g1 g 2 g 3
32
3
yi
gi = 3
, ∑y i =1,8 + 1,6 + 1,95=5,35
∑y
i =1
i
i =1
1,8
g1= = 0,34 sau 34%
5,35
1,6
g2= ≈ 0,3 sau 30%
5,35
1,95
g3= ≈ 0,36 sau 36%
5,35
Ianuarie Februarie Martie
g :
34% 30% 36%
Din salariul obţinut pe cele trei luni cumulat ,34% îl reprezintă salariul pe
luna Ianuarie, 30% pe Februarie iar 36% pe Martie.
Problema 5
S P M
Seria X: are la bază indicatorul numit frecvenţă absolută şi
45 43 12
anume din cele 100 de SC studiate, 45 sunt cu capital de stat, 43 cu capital
privat şi 12 cu capital mixt. Se pot calcula următorii indicatori derivaţi :
frecvenţa absolută cumulată, frecvenţa relativă, frecvenţa relativă cumulată.
Frecvenţa absolută cumulată:
Notăm N 1 = 45 N 2 = 43 N 3 = 12 , N 1 + N 2 + N 3 = N =100
S S+P S +P+M
X:
N ( X1) N ( X 2 ) N (X3)
N(X i ) = N 1 + N 2 +...+N i
N(X 1 ) = N 1 = 45
N(X 2 ) = N 1 + N 2 = 45 + 43 = 88
N(X 3 ) = N 1 + N 2 + N 3 = 100
S S+P S+P+M
X:
45 88 100
33
Frecvenţa relativă:
S P M
X:
f1 f2 f3
Ni
f i= ⋅ 100
N
45
f 1= ⋅ 100 =45%
100
43
f 2= ⋅ 100 =43%
100
12
f3= ⋅ 100 = 12%
100
S P M
X:
45% 43% 12%
Din totalul societăţilor comerciale sunt 45% cu capital de stat, 43%,cu
capital privat şi 12% cu capital mixt.
Frecvenţa relativă cumulată:
S S+P S+P+M
X:
FN ( X 1 ) FN ( X 2 ) FN ( X 3 )
F N (X i )=f 1 +...+f i
F N (X 1 )= 45%
34
CAPITOLUL II
1. Observarea statistică
35
servească obiectivul cercetării statistice. Programul de observare trebuie să
cuprindă un număr optim de variabile.
Purtătorii de informaţie sunt suporţii materiali pe care se
înregistrează datele din observarea unităţilor statistice. Aceştia se clasifică în
suporţi de informaţie clasici (listele şi fişierele) şi suporţi magnetici de
informaţie (discurile, dischetele, etc.).Alegerea purtătorilor de informaţie se
face în funcţie de volumul datelor.
Selectarea şi pregătirea persoanelor care urmează să fie implicate în
etapa de observare se face mai ales când fenomenul studiat este de
amploare. Un asemenea fenomen îl constituie recensământul, care reprezintă
o observare la scară naţională cu un mare consum de mijloace materiale.
În raport cu gradul de cuprindere a populaţiei considerate avem
observarea totală şi observarea parţială.
Observarea totală reprezintă înregistrarea, în raport cu variabilele
statistice studiate a tuturor unităţilor statistice din populaţie. Acest gen de
observare implică un volum mare de muncă, antrenează un număr mare de
persoane şi durează mult timp favorizând apariţia erorilor de observare, ceea
ce va duce la micşorarea eficienţei observării. Printre observările totale se
regăsesc şi recensămintele populaţiei precum şi controlul de calitate în cazul
produselor de înaltă tehnicitate.
În cazul altor produse, este suficientă realizarea unor observări
parţiale prin care să se asigure că rebuturile nu depăşesc un anumit procent
admis.
Eşantionul, ca şi componentă a observării parţiale, presupune
respectarea principiului reprezentativităţii, în conformitate cu care fiecare
unitate statistică din populaţia generală trebuie să aibă aceeaşi şansă de a
face parte din eşantion. Asigurarea respectării principiului reprezentativităţii
în formarea eşantioanelor de observat presupune o structură a eşantionului
foarte apropiată cu cea a populaţiilor din care este format. Aceasta ne
asigură, cu o anumită probabilitate dinainte fixată, că rezultatele obţinute la
nivelul eşantionului pot fi extinse la nivelul întregii populaţii. Există două
tipuri de eşantioane: de volum mare (peste 30 unităţi), de volum redus (cel
mult 30 unităţi).
O altă formă de observare parţială este observarea prin anchetă în
care unităţile supuse observării se aleg în funcţie de scopul cercetării, iar
înregistrarea lor se face sub formă de răspunsuri scrise pe care persoanele
desemnate în acest sens le dau întrebărilor dintr-un chestionar. Persoanele ce
urmează a fi chestionate primesc chestionarul respectiv şi răspund benevol
la întrebări. În acest caz, populaţia care urmează să fie anchetată nu
formează un eşantion reprezentativ deci rezultatele obţinute sunt doar
orientative pentru toată populaţia.
36
1.1.B. Exemple
Tabelul 1
37
18. 32 Alba construcţii 2.007.911 91.896 976 60 %
19. 3322 Vâlcea construcţii 3.354.625 6.855.127 145.649 60 %
20. 966 Cluj construcţii 7.546.425 9.345.803 225.865 60 %
21. 972 Cluj construcţii 4.116.425 3.720.863 375.052 60 %
22. 1005 Cluj construcţii 4.629.025 8.000.906 400.575 60 %
23. 9 Alba agricultură 6.848.825 176.728 1.960 60 %
24. 26 Alba agricultură 9.709.000 3.864.087 1.087 49 %
25. 2956 Timiş agricultură 520.686 542.748 0 60 %
26. 2959 Timiş agricultură 2.086.534 37.793 0 60 %
27. 3264 Vâlcea agricultură 1.891.958 988.769 62.668 60 %
28. 3290 Vâlcea agricultură 3.114.550 2.812.349 78.300 60 %
29. 3296 Vâlcea servicii 5.389.225 12.456.122 390.659 49 %
30. 964 Cluj servicii 5.874.950 6.240.445 23.583 60 %
39
eşantionului studiat; numitorul fracţiei semnifică de fapt numărul de clase
care rezultă în urma împărţirii domeniului de variaţie.
Odată stabilită lungimea claselor, intervalele de variaţie, deci clasele
vor fi următoarele:
x x2 ... x R
X : 1 .
N1 N2 ... N R
40
R
În ambele cazuri, fiind vorba de frecvenţe vom avea: ∑N
i =1
i =N.
x x1 x2 xj xR TOTAL
y
yp N p1 N p2 N pj N pR N P•
yi N i1 Ni2 N ij N iR N i•
y2 N 21 N 22 N2 j N 2R N 2•
y1 N 11 N 12 N 1R N 1•
N1 j
TOTAL N •1 N •2 N• j N •R N
2.1.B. Exemple
41
industrie agricultura servicii transporturi constructii
X 2 : .
5 9 4 6 6
[0,5 − 2,1) [2,1 − 3,7 ) [3,7 − 5,3) [5,3 − 6,9) [6,9 − 8,5) [8,5 − 10,1]
X 3 :
9 6 4 5 3 3
.
Calculăm lungimea unui interval de variaţie pentru variabila: cifra de
afaceri (în u.m.):
[0,03 − 2,13) [2,13 − 4,23) [4,23 − 6,33) [6,33 − 8,43) [8,43 − 10,53) [10,53 − 12,45] .
X 4 :
11 5 6 3 2 3
[0 − 0,07 ) [0,07 − 0,14) [0,14 − 0,21) [0,21 − 0,28) [0,28 − 0,35) [0,35 − 0,46]
X 5 :
20 3 2 1 0 4
49% 60%
X 6 : .
7 23
42
Seria ( X 2 , X 3 ) :
X2
X3 industrie agricultură servicii transporturi construcţii TOTAL
[0,5-2,1) 0 5 2 1 1 9
[2,1-3,7) 1 1 0 3 1 6
[3,7-5,3) 0 1 0 1 2 4
[5,3-6,9) 0 1 2 1 1 5
[6,9-8,5) 2 0 0 0 1 3
[8,5-10,1) 2 1 0 0 0 3
TOTAL 5 9 4 6 6 30
Seria ( X 3 , X 4 ) :
C.S.
X3
C.A. 1,3 2,9 4,5 6,1 7,7 9,3
X4 [0,5-2,1) [2,1-3,7) [3,7-5,3) [5,3-6,9) [6,9-8,5) [8,5-10,1) TOTAL
[0,03-2,13) 7 1 1 2 0 0 11
[2,13-4,23) 0 2 1 0 1 1 5
[4,23-6,33) 2 2 1 1 0 0 6
[6,33-8,43) 0 1 1 0 0 1 3
[8,43-10,53) 0 0 0 1 1 0 2
[10,53-12,45) 0 0 0 1 1 1 3
TOTAL 9 6 4 5 3 3 30
43
-seria cu diferenţele relative ale unui indicator;
-seria cu indicatori relativi de intensitate;
-seria cu greutăţi specifice.
Vom prezenta mai jos modul de obţinere a acestor indicatori cât şi
simbolizarea seriilor obţinute cu interpretările corespunzătoare semnificaţiei
fiecăruia. Pentru simplitate vom considera doar exemplul când stările sunt
numere sau calităţi, cele sub formă de intervale tratându-se analog.
Fie o serie de repartiţie (de frecvenţă) construită în raport cu
variabila X:
x x 2 ... x R
X : 1 .
N 1 N 2 ... N R
∑N
i =1
i = N unde N este volumul populaţiei.
Ni N
Frecvenţa relativă f i = sau f i = i ⋅ 100 ne arată cât la sută din
N N
populaţie se încadrează în ramura xi . Seria cu frecvenţe relative se scrie
astfel:
x x 2 ... x R
X : 1 .
1
f f 2 ... f R
i
Frecvenţa absolută cumulată N ( xi ) = ∑ N k ne arată numărul de
k =1
şi avem N ( x1 ) = N 1 , N ( x 2 ) = N 1 + N 2 ,…,
N ( x R ) = N 1 + N 2 + ... + N R = N .
44
i
∑N k
Frecvenţa relativă cumulată FN ( X i ) = k =1
⋅ 100 arată cât la sută
N
din populaţie are X = x1 sau X = x 2 . . . sau X = xi . Avem seria:
x x2 ... xR
X : 1
FN ( x1 ) FN ( x 2 ) ... FN ( x R )
N1
cu FN (x1 ) = = f1 ,
N
N1 + N 2 N 1 + N 2 + ... + N R N
FN ( x 2 ) = = f 1 + f 2 ,…, F N (x R ) = = = 1.
N N N
Fie acum o serie de variaţie care are la bază indicatorul de nivel y:
x x2 ... xi ... x R
X : 1 .
y1 y2 ... y i ... y R
x1 x2 ... x ... x
X :
i R
i / i −1 R / R −1
− ∆ ... ∆ ... ∆
2 /1
y y y
cu ∆i y/ i −1 = y i − y i −1 .
45
yk
ne arată de câte ori s-a modificat
Indicele unui indicator I yk / j =
yj
nivelul indicatorului y în clasa k faţă de j. Se obţin deci cele două serii cu
bază fixă respectiv în lanţ:
x1 x 2 ... xi ... x R
X : 1 / 1
Iy I y2 / 1 ... I yi / 1 ... I yR / 1
y2
cu I 1y / 1 = 1 , I y2 / 1 = , etc., şi
y1
x1 x 2 ... xi ... xR
X : i / i −1
R / R −1
− Iy
2 /1
... I y ... I y
yi
cu I yi / i −1 = .
y i −1
( ) ∆ yij
k
arată cu cât la sută din y j se modifică nivelul k a lui y faţă de nivelul j a lui
y. Avem:
x1 x 2 ... x R
X :
0 R y2 / 1 ... R yR / 1
( )
cu R y2 / 1 = I y2 / 1 − 1 ⋅ 100 şi
x1 x 2 ... xR
X :
R / R −1 .
−
2 /1
Ry ... R y
x x2 ... xi ... x R
X : 1
y1 y2 ... y i ... y R
46
x x2 ... xi ... x R
X : 1 .
z1 z2 ... z i ... z R
yi
Indicatorul relativ de intensitate d i = măsoară gradul de
xi
răspândire a fenomenului cuantificat de indicatorul de la numărător în raport
cu cel de la numitor pentru fiecare clasă în parte. Obţinem:
x x2 ... xi ... x R
X : 1 .
d1 d2 ... d i ... d R
yi
Greutatea specifică g i = R
⋅ 100 arată cât la sută din întreg
∑y
i =1
i
0 1 ... t ... T
y0 y1 ... y t ... yT
2.2.B. Exemple
x x2 x3 x4 x5
X : 1 .
8 6 4 0 6
x1 = sub 100.000
47
x2 = 100.01 − 300.000
x3 = 300.001 − 500.000
x4 = 500.001 − 700.000
x5 = peste 700.000 .
Construim o serie cu indicatorul:
-frecvenţă relativă:
x1 x2 x3 x4 x5
X :
33,33% 24,99% 16,66% 0% 25,02%
x x 2 x3 x 4 x5
X : 1
8 14 18 18 24
x1 x2 x3 x4 x5
X :
33,33% 58,32% 74,98% 74,98% 100%
AB AR AG BC
X :
21414,3 23327,1 58398,8 50910,4
Y = Y1 + Y2 + Y3 + Y4
Y = 21414,3 + 23327,1 + 58398,8 + 50910,4 = 154050,6 u.m. (totalul
producţiei marfă industrială din anul 1989, în cele patru judeţe).
48
Serii statistice derivate:
Y1 21414,3
g1 = ⋅ 100; g1 = ⋅ 100 = 13,9%
Y 154050,6
Y2 23327,1
g2 = ⋅ 100; g 2 = ⋅ 100 = 15,14%
Y 154050,6
Y3 58398,8
g3 = ⋅ 100; g 3 = ⋅ 100 = 37,91%
Y 154050,6
Y4 50910,4
g4 = ⋅ 100; g 4 = ⋅ 100 = 33,05%
Y 154050,6
Seria va fi:
AB AR AG BC
Y : ,
13,9% 15,14% 37,91% 33,05%
adică 15,14% din totalul producţiei marfă industriale din cele 4 judeţe,
reprezintă producţia marfă industrială din judeţul Arad (în 1989).
49
- indicatorul statistic: indice cu bază fixă
0 = jud. Argeş
y 21414,3
I YAlba / Arges = 1 = = 0,37
y 3 58398,8
y 23327,1
I YArad / Arges = 2 = = 0,4
y 3 58398,8
y 50910,4
I YBacau / Arges = 4 = = 0,87
y 3 58398,8
Seria va fi:
Alba Arad Arges Bacau
I YK / 0 : .
0,37 0,4 − 0,87
Producţia marfă industrială din judeţul Bacău est mai mică decât
producţia marfă industrială din judeţul Argeş de 0,87 ori (1989).
50
y1 = 129 , y 2 = 141 , y 3 = 144 , y 4 = 100 , y 5 = 84
y = y1 + y 2 + y 3 + y 4 + y 5 = 598 .
y1 129
g1 = ⋅ 100 = ⋅ 100 = 21,57%
y 598
y2 141
g2 = ⋅ 100 = ⋅ 100 = 23,58%
y 598
y3 144
g3 = ⋅ 100 = ⋅ 100 = 24,08%
y 598
y4 100
g4 = ⋅ 100 = ⋅ 100 = 16,72%
y 598
y5 84
g5 = ⋅ 100 = ⋅ 100 = 14,05% .
y 598
Seria va fi:
∆1988
y
/ 1987
= y 2 − y1 = 141 − 129 = 12
∆1989
y
/ 1987
= y 3 − y1 = 144 − 129 = 15
∆1990
y
/ 1987
= y 4 − y1 = 100 − 129 = −29
51
∆1991
y
/ 1987
= y 5 − y1 = 84 − 129 = −45 .
Seria va fi:
Nivelul producţiei de autoturisme din anul 1988 faţă de cel din anul 1987 a
crescut de 1,093 ori sau în proporţie de 109,3%.
52
Seria va fi:
Nivelul producţiei de autoturisme din anul 1989, faţă de cel din 1987
a scăzut cu 22,48%.
Nivelul producţiei din anul 1989 faţă de cel din 1988 a crescut cu 3 mii
bucăţi.
Nivelul producţiei din anul 1991 a scăzut faţă de cel din 1990 de 0,84 ori
sau de 84%.
Nivelul producţiei din anul 1990 faţă de cel din 1989 a scăzut cu 30,56%.
53
fenomenului cuantificat de variabila sau variabilele de la baza seriei
respective.
În continuare se vor prezenta tehnicile de construire a principalele
grafice utilizate în reprezentarea seriilor statistice ce descriu fenomenele
social-economice.
Histograma
Grafice de structură
54
► Dreptunghiul de structură
H1 H H H
= ... = i = ... = R = ,
f1 fi f R 100
► Pătratul de structură
► Cercul de structură
55
Diagrama prin benzi
56
Forma unei diagrame prin coloane ataşate unei serii care împarte
populaţia în R clase arată astfel:
x
X : i
N i i =1, R
57
reprezentarea grafică prin diagrama de pătrate presupune construirea a R
pătrate bazându-se pe principiul proporţionalităţii între aria pătratului “i” şi
nivelul indicatorului corespunzător clasei respective.
N1 N 2 N N
2
= 2 = ... = 2i = ... = 2R = K
l1 l2 li lR
Marimea
indicatorului in Cl.R
clasa R
Marimea
indicatorului Cl.2
in clasa 2
Marime
indicator in
cl. 1 Cl.1
58
Fiecărei clase (sau stări) i se construieşte un pătrat a cărei arie este
direct proporţională cu nivelul indicatorului din clasa (sau starea) respectivă.
Diagrama areală prin cercuri este utilizată pentru aceleaşi tipuri de
serii ca şi diagrama areală prin pătrate.
Pentru a reprezenta grafic o serie de forma:
x
X : i
N i i =1, R
folosind o diagramă areală prin cercuri, se vor construi R cercuri cu aria
proporţională cu volumul claselor respective (sau a nivelului indicatorului în
fiecare clasă).
În cazul reprezentării unei serii de repartiţie, proporţionalitatea
presupune următoarele egalităţi:
N1 N2 Ni NR
= = ... = = ... = =K
π ⋅ R1 π ⋅ R2
2 2
π ⋅ Ri 2
π ⋅ RR2
unde i = 1, R reprezintă raza cercului corespunzător clasei “i”, iar K are
aceeaşi semnificaţie ca şi la diagrama prin pătrate.
Ni
Din relaţia de mai sus rezultă raza cercului: Ri = , i = 1, R . Dacă
π ⋅K
seria este de variaţie, indicatorul de frecvenţă N i se înlocuieşte cu
indicatorul de nivel Y.
O diagramă areală prin cercuri arată astfel:
MARIME
INDICATOR
ÎN CL. 1
59
Diagramele areale se folosesc în special pentru reprezentarea grafică
a seriilor care au la bază o variabilă calitativă.
Cronograma (historiograma)
tk
Yk k =1, R
60
YR
.
.
.
Y2
Y1
Norul statistic
61
Porţiunea în care sunt cuprinse punctele norului statistic se numeşte
corelogramă şi se utilizează în stabilirea legăturii dintre variabile.
3.1.B. Exemple
• ([6]) Tabelul cu două intrări este folosit pentru a reda situaţia unui
fenomen sau proces economico-social în raport cu două variabile. Acest tip
de tabel serveşte prezentării seriilor bidimensionale. Tabelul următor redă
distribuţia agenţilor economici dintr-o localitate dată, în raport cu volumul
desfacerilor şi cheltuielile cu reclama înregistrate pentru trimestrul I al
anului 1995.
Repartizarea agenţilor economici din localitatea X după volumul
desfacerilor ( u.m.) şi cheltuielile cu reclama (u.m.):
Cheltuieli cu
reclama
Volumul
desfacerilor 0-200 200-400 400-600 600-800 TOTAL
45-60 2 10 50 62
30-45 8 40 5 53
15-30 5 60 4 69
0-15 70 5 75
TOTAL 75 75 54 55 259
N1 15
L1 = ⋅g = ⋅ 30 = 15 ,
x1 − x0 30
N2 45
L2 = ⋅g = ⋅ 30 = 45 ,
x 2 − x1 30
N3 80
L3 = ⋅g = ⋅ 30 = 80 ,
x3 − x 2 30
N4 50
L4 = ⋅g = ⋅ 30 = 50 ,
x 4 − x3 30
N5 20
L5 = ⋅g = ⋅ 30 = 20 .
x5 − x 4 30
63
Conform graficului, rezultă că în ultima lună luată în considerare,
cele mai multe societăţi comerciale de desfacere cu amănuntul din
localitatea dată, au practicat un adaos comercial cuprins în intervalul
[60% − 90% ) .
• Reconsiderăm exemplul anterior, construind seria cu frecvenţe
relative:
H 5
H1 = ⋅ f1 = ⋅ 7 = 0,35 ,
100 100
H 5
H2 = ⋅ f2 = ⋅ 21 = 1,05 ,
100 100
64
H 5
H3 = ⋅ f3 = ⋅ 38 = 1,9 ,
100 100
H 5
H4 = ⋅ f4 = ⋅ 24 = 0,35 ,
100 100
H 5
H5 = ⋅ f5 = ⋅ 10 = 0,5 .
100 100
10% Legenda
21%
7%
65
Seria construită cu frecvenţele relative este:
S P M
Y : .
50% 40% 10%
Structura societăţilor comerciale din localitatea dată în raport cu
forma de proprietate:
Legenda
S .C. cu capital in tegral de stat
40%
10%
10%
40%
66
• ([6]) Se reconsideră exemplul seriei bidimensionale care reflectă
repartiţia agenţilor economici dintr-o zonă dată, după volumul desfacerilor
Y (în u.m.) şi cheltuielile cu reclama X (în u.m.).
X
Y 0-200 200-400 400-600 600-800 Total
45-60 2 10 50 62
30-45 8 40 5 53
15-30 5 60 4 69
0-15 70 5 75
Total 75 75 54 55 259
67
4. Test de autoevaluare II
4.1.Enunţ
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
X 1 :
200 230 245 210 194 250 300 320 370 300 350
68
X 1 – profitul unei firme(u.m. lei)
Alba Iulia Blaj Aiud Teiuş Sebeş Abrud Câmpeni Ocna Mureş Zlatna
X 2 :
40 10 16 5 28 4 6 2 3
[1 − 5] [5 − 8] [8 − 10]
X 3 :
8 20 2
X6
X7 [0-20) [20-40) [40-60) [60-80) [80-100] Total
[400-600] 10 38 20 27 95
[200-400) 5 100 30 15 2 152
[0-200) 40 10 2 1 53
Total 45 120 70 35 30 300
69
4.2.Rezolvare
Problema 1
Exemple:
Serie cronologică(de timp)de momente:
(0 − 2] (2 − 4] (4 − 6]
X:
10 28 60
-redă venitul în u.m. lei lunar, pentru un eşantion de persoane care vor să
facă un împrumut la bancă
Serie calitativă:
ZI IDD FR
X:
8 5 2
0 1 2 3 4
X:
10 35 30 20 5
Problema2
Pentru seriile calitative sau cele cantitative discrete se va proceda astfel :pe
prima linie a seriei se scriu toate valorile existente în tabel pe coloana
variabilei corespunzătoare iar pe a doua linie vom trece frecvenţele cu care
apar aceste valori obţinute prin numărare
0 1 2 3 4 0 1 2 3 4 5 6 F M
X 2 : X 4 : X 5 :
3 4 5 2 1 3 2 3 3 2 1 1 7 8
50 − 25
lx ≈ =5
5
71
[25 − 30 ) [30 − 35) [35 − 40) [40 − 45) [45 − 50)
X 1: //// /// // // ////
4 3 2 2 4
5,2 − 1,5
l x3 = = 0,74
5
[1,5 − 2,24 ) [2,24 − 2,98) [2,98 − 3,72) [3,72 − 4,46) [4,46 − 5,2)
X 3: //// //// //// / // .
4 4 4 1 2
X1
[25-30) [30-35) [35-40) [40-45) [45-50) Total
X2
0 ┌┐ 3 3
1 │ 1 ┌ 2 │ 1 4
2 │ 1 │ 1 │ 1 ┌ 2 5
3 │ 1 │ 1 2
4 │ 1 1
Total 4 3 2 2 4 15
72
Tabel bidimensional (X 3 ,X 6 ):
X3
liceale postliceale superioare postuniversitare Total
X6
[4,46-5,2) │1 │1 2
[3,72-4,46) │1 1
[2,98-3,72) ┌2 │1 │1 4
[2,24-2,98) │1 ┌┐3 4
[1,5-2,24) ┌2 │1 │1 4
Total 4 2 7 2 15
Problema 3
40
30
20
Profit
10
0
19901991 19921993 1994 19951996 1997 19981999 2000
40
30
20 Profit
10
0
1988 1990 1992 1994 1996 1998 2000 2002
73
Societăţile comerciale cu capital privat din judeţul Alba înfiinţate în anul
2000, repartizate după domiciliul sediului (diagrama areală cu pătrate)
-latura pătratului: l i
1 . 1
li2 = Ni ⇒ li = ⋅ N i , de exemplu k=1
k k
l 1 = 40 ≈ 6,32, l 2 = 10 ≈ 3,16 ,
l 3 = 16 ≈ 4, l 4 = 5 ≈ 2,23 ,
l 5 = 28 ≈ 5,29, l 6 = 4 ≈ 2
l 7 = 6 ≈ 2,44, l 8 = 2 ≈ 1,41 ,
l 9 = 3 ≈ 1,73.
Seria se mai putea reprezenta şi prin diagrame, prin coloane sau benzi
74
Repartiţia studenţilor unei grupe în funcţie de nota obţinută la un examen
(histograma şi poligonul frecvenţelor)
Ni
-înălţimea dreptunghiurilor h i = ⋅ k unde l i este lungimea intervalului
li
8
corespunzător; vom alege spre exemplu k =12 deci h 1 = .12 =24 ,
4
20 . 2
h2= 12 =80, h 3 = .12=12
3 2
Aceeaşi serie se putea reprezenta şi prin diagrame de structură.
24 %
46 %
18 %
12 %
75
Legendă:
Candidaţii care au obţinut calificativul foarte bine
Ni 20 38
fi = ⋅ 100 , f 1 = ⋅ 100 ≈ 24% , f 2 = ⋅ 100 ≈ 46% ,
N 83 83
15 10
f3= ⋅ 100 ≈ 18% , f 4 = ⋅ 100 ≈ 12%
83 83
Ni N
hi = ⋅ k = i , alegem k=30 ⇒ h i =N i
li 30
76
Repartiţia a 300 de firme în raport cu profitul şi respectiv cu cheltuielile de
publicitate, pe anul 1998 (norul statistic)
Problema 4
Serii marginale:
77
Serii condiţionate:
78
CAPITOLUL III
PARAMETRII REPARTIŢIILOR
EMPIRICE UNIDIMENSIONALE
80
Pornind de la respectarea condiţiei date de relaţia lui Boiarski -
Kisini se determină expresia de calcul a valorii medii. Pentru diverse valori
ale lui k, în strictă concordanţă cu conţinutul şi semnificaţia funcţiei G, se
regăsesc mai multe tipuri de medii:
-media armonică (k = −1) ;
-media geometrică (k = 0 ) ;
-media aritmetică (k = 1) ;
-media pătratică (k = 2 ) ;
-media cubică (k = 3) ;
-media de ordinul k în general.
Dintre toţi aceşti indicatori cel mai utilizat pentru calculul valorii
medii este media aritmetică.
Media aritmetică
Vom considera în cele ce urmează două serii statistice de repartiţie,
cantitative, discrete, una formată din frecvenţe absolute, cealaltă din
frecvenţe relative:
x x 2 ... x R
X : 1
N 1 N 2 ... N R
x x2 ... x R
X : 1 .
f1 f2 ... f R
R R
∑x N = ∑ XN
i =1
i i
i =1
i
de unde rezultă:
R
∑x N i i
X a = X1 = X = i =1
R
(3)
∑N
i =1
i
81
-în cazul seriilor cu frecvenţe relative, avem:
R R
∑ xi f i = ∑ X f i
i =1 i =1
deci:
R
∑x i fi R
X = i =1
R
= ∑ xi f i . (4)
∑f i =1
i
i =1
R R R
∑x c i c ∑ xi ∑x i
X = i =1
R
= i =1
= i =1
, (5)
∑c
cR R
i =1
+∞
E(X ) = ∫ Xf ( X )dX . (6)
−∞
82
Densitatea sa de probabilitate f ( x ) nu se cunoaşte însă, deci o vom
aproxima în fiecare interval de variaţie a variabilei prin raportul dintre
frecvenţa intervalului şi lungimea acestuia, deci prin:
f1 f2 fR
, ,..., .
x1 − x0 x 2 − x1 x R − x R −1
E(X ) = M (X ) = X 1 = X =
xR R xi R xi
fi fi
= ∫ Xf ( X )dX ≅ ∑ ∫ X dX =∑ ∫ XdX =
x1 i =1 xi −1 xi − xi −1 i =1 xi − x i −1 xi −1
xi
R
fi X2 R
fi x 2 − xi2−1 R
f
=∑ ⋅ =∑ ⋅ i = ∑ i ( xi + xi −1 ),
i =1 x i − x i −1 2 xi −1 i =1 xi − xi −1 2 i =1 2
′ x + xi −1
de unde, folosind notaţia xi = i pentru mijlocul intervalului
2
[xi −1 , xi ) , rezultă expresia de calcul a mediei aritmetice:
R
′
X = ∑ xi f i . (7)
i =1
∑x i ⋅ Ni
0 ⋅ N1 + 1 ⋅ N 2 N 2
X = i =1
= = = f2
R
N1 + N 2
∑N
N
i
i =1
83
deci
X = f2 , (8)
adică media aritmetică a unei serii care are la bază o variabilă alternativă (cu
doar două stări) coincide cu frecvenţa relativă a stării notate cu 1 (starea
care ne interesează mai mult în studiul statistic).
X = M ( X ) = M (c ) = c = c . (9)
M (k ⋅ X ) = k ⋅ M ( X ) . (10)
Observaţie:
M ( X + Y ) = M ( X ) + M (Y ) , (11)’
84
x x1 x2 xi xn TOTAL
y
ym N 1m N 2m N im N nm N •m
yj N1 j N2 j N ij N nj N• j
y2 N 12 N 22 Ni2 N n2 N •2
y1 N 11 N 21 N i1 N n1 N •1
TOTAL N 1• N 2• N i• N n• N
Relaţia de mai sus se verifică pe baza acestor date calculând cele trei
medii:
n n
∑x N i i• ∑x N i i•
M (X ) = i =1
n
= i =1
∑N
N
i•
i =1
m m
∑ y j N• j ∑x j N• j
M (Y ) =
j =1 j =1
m
=
∑N
N
•j
j =1
∑∑ (x + y j )N ij
n m
M (X + Y ) =
i =1 j =1
n m
.
∑∑ N
i =1 j =1
ij
85
Observaţie:
Cazul
M ( X ⋅ Y ) = M ( X ) ⋅ M (Y ) (12’)
x1 y1 N 11 + x 2 y1 N 21 + ... + x n y m N nm
M ( XY ) = .
N
M (X + c) = M (X ) + c (13)
sau
M (X − c) = M (X ) − c (13’)
şi mai mult:
M (X ) = M (X − c) + c (13’’)
X −c
M (X ) = M ⋅k + c. (15)
k
86
8. (Proprietatea de adiţiune a mediei aritmetice)
Dacă o populaţie este structurată în raport cu un criteriu X (variabilă)
cantitativ sau calitativ, în n clase x1 , x 2 ,..., x n , atunci media aritmetică a
variabilei Y, în raport cu care este studiată populaţia, se poate obţine ca o
medie a mediilor variabilei din cele n clase.
M (Y ) = M Y X (16) ( )
Observaţie:
Tot pe baza tabelului bidimensional se poate verifica această relaţie
calculând M (Y ) , Y x1 , Y x 2 ,..., Y x n , mediile condiţionate şi în sfârşit
( )
M Y X , astfel obţinându-se,
m
∑y
j =1
j N ij
Y xi = m
∑N j =1
ij
n n
∑Y xi N i • ∑Y xi N i •
(
MY X = ) i =1
n
= i =1
.
∑N
N
i•
i =1
x ∑x N i i
X : i , X = i =1
R
,
N i i =1, R
∑N
i =1
i
′ N
notăm cu N i = i unde d reprezintă o valoare cu care se divid toate
d
frecvenţele.
R
′
xi ∑ xi N i
X ′ : ′ , X ′ = i =1R
i i =1, R ′
∑ Ni
N
i =1
87
Proprietatea spune că X = X ′ .
10. Media aritmetică a unei serii este cuprinsă între valoarea minimă
şi valoarea maximă pe care o înregistrează variabila X, care stă la baza seriei
(
M X − X = 0.) (18)
(
M X−X )
2
≤ M ( X − x0 )
2
Media armonică
x
În cazul unei serii discrete X : i , avem formula mediei
N i i =1, R
armonice ponderate
∑N i
X h = X −1 = R
i =1
(19)
1
∑
i =1 x i
Ni
formulă care pentru frecvenţe egale devine formula mediei armonice simple:
R
X −1 = R
1
∑i =1 x i
[x , x )
iar pentru cazul unei serii continue X : i −1 i , i = 1, R devine:
Ni
88
R
∑N i
X −1 = R
i =1
1
∑x
i =1
Ni
i
′
unde xi este mijlocul intervalului [xi −1 , xi ) .
Media geometrică
valabilă în cazul unei serii discrete, formulă care se poate aplica şi în cazul
′ x + xi
unei serii continue înlocuind pe xi cu xi = i −1 .
2
Media geometrică simplă va fi:
R
X g = N ∏ xi .
i =1
R
X g = ∏ xif i
i =1
∑x k
i Ni
Xk = K
i =1
R
(21)
∑N
i =1
i
89
-pentru serii cu frecvenţe relative
R
X k = K ∑ xik f i
i =1
1.1.B. Exemple
0 ⋅ 10 + 1 ⋅ 8 + 2 ⋅ 50 + 3 ⋅ 25 + 4 ⋅ 4 + 5 ⋅ 2 + 6 ⋅ 0 + 7 ⋅ 1
X = M (X ) = =
10 + 8 + 50 + 25 + 4 + 2 + 0 + 1
216
= = 2,16 ≈ 2
100
1 0
X :
150 850
150
de unde X = = 0,150 = 15% , deci în medie, 15% din agenţii
1000
economici cu capital de stat au înregistrat pierderi în 1995.
-cazul seriei continue
Angajaţii unei societăţi comerciale se distribuie după salariul lunar
cuvenit, conform următoarei serii de repartiţie continuă ([6]):
[160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :
7 13 18 6 4 2
160 + 200
unde 180 = (mijlocul intervalului [160 − 200) ).
2
Salariul mediu se determină astfel:
91
FN (M e ) = sau N (M e ) = .
1 N
(22)
2 2
x x2 ... xi ... xR
X : 1 .
N1 N2 ... N i ... N R
92
În cazul unei repartiţii continue verificarea relaţiei (22) presupune
cunoscută densitatea de repartiţie f ( X ) , ceea ce implică un volum mare de
calcule, motiv pentru care, în calculul valorii mediane se va folosi o formulă
aproximativă.
Să considerăm o repartiţie continuă în raport cu variabila X şi anume:
1
N 1 + N 2 + ... + N i ≥ N,
2
N (M e ) − N X M e( )
M e = xM e + ⋅ lMe , (26)
N Me
unde:
93
Proprietăţi ale valorii mediane
1. Valoarea mediană a unei serii este cuprinsă între cea mai mică şi
cea mai mare valoare a variabilei care stă la baza ei:
X min ≤ M e ≤ X max . (27)
1.2.B. Exemple
0 1 2 3 4 5 6 7
X :
10 53 15 2 1 2 0 2
N = 85
N 85
rM e = = = 42
2 2
10 + 53 > 42 ⇒ x N = 1 ⇒ M e = x N = 2
2 2 +1
deci jumătate din gospodării au cel mult 2 bovine, cealaltă jumătate, mai
mult de 2.
-cazul unei serii discrete şi volum par
94
Se consideră seria care redă repartiţia unui lot de 100 de piese
produse cu o maşină în funcţie de numărul de defecţiuni majore depistate în
urma unui control de calitate.
0 1 2 3 4
X :
45 3 7 44 1
100
N = 100, rM e = = 50
2
x N + x N
2
2 +1
2+3
45 + 3 + 7 > 50 ⇒ x N = 2 ⇒ M e = = = 2,5
2
2 2
[160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :
7 13 18 6 4 2
N 50
rM e = = = 25
2 2
95
N (M e ) − N x M e( ) 25 − 20
M e (x ) = x M e + ⋅ l M e = 240 + ⋅ 40 = 251.111 u.m.
N Me 18
∆ −1
M O ( X ) = xM O + ⋅ lM O (28)
∆ −1 + ∆1
unde
x M O = xi −1 limita inferioară a intervalului modal.
∆ −1 = N i − N i −1 -diferenţa între frecvenţa intervalului modal şi frecvenţa
intervalului precedent.
96
∆ 1 = N i − N i +1 -diferenţa dintre frecvenţa intervalului modal şi frecvenţa
intervalului următor.
l M O - lungimea intervalului modal.
Se observă faptul că o serie poate avea o singură valoare modală, caz
în care seria se numeşte unimodală. Dacă o serie are mai multe valori
modale atunci se numeşte plurimodală şi evidenţiază faptul că populaţia în
cauză este neomogenă.
În cazul unei serii simetrice, valoarea modală coincide cu valoarea
medie şi cu mediana în timp ce pentru serii uşor asimetrice, K. Pearson a
stabilit următoarea relaţie între cei trei parametri:
(
MO = X −3 X − Me ) (29)
1.3.B. Exemple
[160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :
7 13 18 6 4 2
max{7,13,18,6,4,2} = 18 ⇒ M O ∈ [240,280)
∆ −1 18 − 13
⇒ M O ( X ) = xM O + ⋅ l M O = 240 + ⋅ 40 = 251.764 u.m.
∆ −1 + ∆1 (18 − 13) + (18 − 6)
Se poate deci concluziona că cei mai mulţi angajaţi ai societăţii
comerciale respective au un salar lunar în jur de 251.764 lei.
-cazul discret.
97
Să considerăm repartiţia studenţilor unei facultăţi de la o anumită
specializare, din anul I în raport cu nota obţinută la un anumit examen:
1 2 3 4 5 6 7 8 9 10
X :
2 3 10 26 11 13 28 13 12 7
1 2 3 4 5 6 7 8 9 10
X :
2 3 10 28 11 13 28 13 12 5
98
semnificând faptul că jumătate din populaţia supusă studiului a înregistrat
pentru variabila X valori cuprinse între valoarea minimă a lui X şi mediană,
iar cealaltă jumătate din populaţie a înregistrat pentru X valori cuprinse între
mediană şi valoarea maximă a lui X.
Vom da în continuare, algoritmul de calcul al valorilor quartile
(n = 4), Q1 , Q2 , Q3 .
-cazul seriei discrete:
x x 2 ... x R
X : 1
N 1 N 2 ... N R
x − Q1 Q1 − Q2 Q2 − Q3 Q3 − x max
X : min
25% 25% 25% 25%
FN (Q p ) = p N (Q p ) = p
1 N
sau , ∀p = 1,2,3. (1)
4 4
N
rQ1 = N (Q1 ) =
4
2N
rQ2 = . (2)
4
3N
rQ3 =
4
99
Se disting două subcazuri:
-dacă pN ( p = 1,3) se divide cu 4, atunci relaţiile de calcul pentru quartile
sunt:
Q1 = x rQ1 + x(rQ1 +1) , Q2 = x rQ2 + x(rQ2 +1) , Q3 = x rQ3 + x(rQ3 +1) (4)
N
Rangul primei quartile fiind rQ1 = ,
4
N
N 1 + N 2 + ... + N i > = rQi .
4
N (Q1 ) − N xQ1 ( )
Q1 = xQ1 + lQ1 (5)
N Q1
100
Quartila mijlocie Q2 este de fapt mediana, calculul ei fiind deci cel de la
valoarea mediană, iar pentru quartila mare avem rangul:
N
rQ3 = 3
4
şi
N 1 + N 2 + ... + N i > rQ3 .
de unde rezultă intervalul quartilic şi apoi quartila Q3 .
( )
N (Q3 ) − N xQ3
Q3 = xQ3 + lQ3 (6)
N Q3
Semnificaţia simbolurilor folosite în (5), (6) este de aceeaşi manieră
cu cea a simbolurilor din formula medianei.
Q1 ≤ Q2 ≤ Q3 ≤ ... ≤ Qn −1 .
2.B. Exemple
[160 − 200 ) [200 − 240) [240 − 280) [280 − 320) [320 − 360) [360 − 400)
X :
7 13 18 6 4 2
101
N
rQ1 = = 12
4
2N
rQ2 = = 25
4
3N
rQ3 = = 37
4
1 − 5 5 − 7 7 − 8 8 − 10
X : .
25% 25% 25% 25%
102
3.A Parametrii variaţiei
d x =M(|X - X |) (4)
∑ (x
i =1
i − X )Ni
dx = R
(4')
∑N
i =1
i
R
dx = ∑ xi − X f i (4'')
i =1
- în cazul unei serii alternative, de tipul
0 1
X : cu ρ+ q=1
q p
∑x '
i − X Ni R
= ∑ xi' − X f i
xR
∫ X − X f ( X )dX ≈ i =1
dx = R
(4'''')
∑N
x1
i =1
i
i =1
xi −1 + xi
unde xi' = , i= i, R este mijlocul intervalului [ xi −1 , xi ).
2
Sub formă relativă primeşte denumirea de coeficient simplu de
variaţie şi este dat de formula:
dX
VX = × 100 (5)
X
104
Coeficientul simplu de variaţie (V x ) arată cu cât se abate în medie
orice valoare a variabilei X de la valoarea medie echivalentă cu 1 sau 100%.
Calculat pentru două serii diferite el apreciază gradul de reprezentativitate a
celor două medii. Se apreciază mai reprezentativă valoarea medie al cărui
coeficient simplu de variaţie este mai mic.
Abaterea medie liniară nu este totuşi cel mai indicat în calcul din
cauza faptului că nu este suficient de sensibil la abaterile mici.
Abaterea medie pătratică. Acest parametru este utilizat în aceleaşi
scopuri ca şi abaterea medie liniară prin definiţie şi formulă de calcul.
Abaterea medie pătratică, notată σcu x se defineşte ca media
pătratică a abaterilor valorilor variabilei X, de la valoarea medie X , adică:
σX = M X −X [( (6) )] 2
V(X)= D 2 ( X ) = σ X2 = M X − X [( )]
2
(7)
∑ (x )
R 2
i − X Ni
σ X2 = i =1
R
(7')
∑N
i =1
i
( )
R
σ X2 = ∑ xi − X f i
2
(7'')
i =1
xi −1 + xi
unde xi' = , i= 1, R este mijlocul intervalului [x i-1 , x i ).
2
Sub formă relativă, parametrul se mai numeşte şi coeficient de
variaţie a lui Pearson şi este dat de relaţia:
σx
VX = × 100 . (8)
x
D 2 (c ) = 0 . (9)
106
D 2 (Y ) = a 2 D 2 ( X ) . (11)
D 2 ( X + Y ) = D 2 ( X ) + D 2 (Y ) . (13)
D 2 (aX ) = a 2 D 2 ( X ) . (14)
D 2 ( X − Y ) = D 2 ( X ) + D 2 (Y ) . (15)
((
D 2 ( X + Y ) = D 2 ( X ) + D 2 (Y ) + 2 M X − X Y − Y )( )) (16)
[(
cov( X , Y ) = M X − X Y − Y . )( )]
9˚ Formula de calcul simplificat al dispersiei:
X − x0 2 2
D 2 ( X ) = M
2
(
× k − X − x0 . (17) )
k
107
Variaţia lui Y în cadrul populaţiei cercetate numită şi variaţie
totală, se compune din variaţia în cadrul celor n grupe, datorată acţiunii
factorilor neesenţiali (variaţie reziduală) şi variaţia de la o grupă la alta
datorată acţiunii factorilor esenţiali (variaţie explicată).
Notând cu:
σ Y2 - dispersia variabilei Y în grupa “i” care măsoară împrăştierea
xi
∑ (y )
m m
∑ y j ⋅ N. j
2
j −Y ⋅ N. j
j =1 j =1
Y= m
σ =
2
Y m
∑ N. j
j =1
∑N
j =1
.j
2 m
Y −Y ⋅ N
n
∑ x ∑y j ⋅ N ij
i =1
i.
j =1
σ =
i
2 Y =
Y n Xi m
∑ Ni . ∑N
X
ij
i =1 j =1
108
2
y −Y ⋅N
m n
∑ j
j =1
xi ij
2
∑σ 2
Y
xi
⋅ Ni .
σ 2
Y = m
σ Y
X
= i =1
n
.
∑N ∑N .
xi
ij i
j =1 i =1
3.B. Exemple
X: 12
0 1 2 3 4 5
5 1 2 3 2
0 ⋅ 12 + 1 ⋅ 5 + 2 ⋅ 1 + 3 ⋅ 2 + 4 ⋅ 3 + 5 ⋅ 2
X = =1,4 reviste se vând în medie
25
în acel oraş.
în medie numărul revistelor vândute este cu 1,41 mai mult sau mai puţin
faţă de numărul mediu X = 1,4 .
109
σX 1,41
VX = ⋅ 100 = ⋅ 100 ≈ 100% deci media nu e reprezentativă
X 1,4
pentru populaţia formată cu cele 25 de puncte de vânzare.
- cazul continuu
Vom considera seria de repartiţie a agenţilor economici dintr-o
anumită zonă geografică în raport cu profitul realizat:
60, 63 u.m. lei - cu atât se abate în medie profitul fiecărui agent economic
de la profitul mediu considerat de 121,55 u.m..
σX 60,61
VX = ⋅100% = ⋅100% ≈ 49,86%〉30 deci profitul mediu este
X 121,55
relativ reprezentativ.
110
x x 2 xi x R
X : N1 N 2 N i N R
1
1
≤ f ≤ 1. (2)
R
R
E = ∑ fi2 . (3)
i =1
111
În general se calculează E r , iar dacă obţinem o valoare apropiată de
1, populaţia este caracterizată de un grad înalt de concentrare, altfel dacă se
apropie de 0 avem de-a face cu o concentrare minimă.
Entropia informaţională este parametrul definit astfel:
R
1
H = ∑ f i ln (6)
i =1 fi
0 ≤ H ≤ ln R . (7)
H
Forma relativă a entropiei informaţionale este: Hr = iar
ln R
extremele: 0 ≤ H r ≤ 1
4.B.Exemple
Fie seria
E = 0,16 + 0,3 + 0,13 + 0,2 + 0,2 = 0,025 + 0,09 + 0,016 + 0,08 = 0,211
2 2 2 2 2
1
0,211 −
5 0,011 0 01375 0
Er = = = , , ≤ ER ≤ 1
1 0,8
1−
5
ceea ce implică faptul că populaţia este caracterizată printr-o concentrare
slabă.
112
5. Parametrii formei
Parametrii asimetriei
f(X)
X
x
x −σ x +σ
113
Dacă egalitatea (1) nu este verificată pentru cel puţin o pereche de
tipul X − δ , X + δ atunci seria se numeşte asimetrică.
Caracterizarea numerică a gradului de asimetrie se face prin
coeficientul de asimetrie a lui Pearson şi coeficientul de asimetrie a lui
Fisher.
Conform coeficientului de asimetrie a lui Pearson o serie are o
asimetrie cu atât mai pronunţată cu cât diferenţa între valoarea medie şi
valoarea modala este mai mare:
X − M0
α= (2)
σX
f(X)
Mo X X
114
f(X)
X Mo X
α3 =
[
M (X − X )
3
]= [
M (X − X )
3
] (3)
M [(X − X ) ]
σ X3 2
3
Parametrii boltirii
115
x
x=y σx =σy
Nivelul boltirii este dat de parametrul numit coeficient de boltire sau exces
al seriei.
B =
' [(
M X−X ) ]− 3 = B
4
−3. (4)
σ X4
4 4
5. Aplicaţii
Aplicaţia 1
Având în vedere populaţia societăţilor comerciale supusă observării
în exemplul II.1.1.B., se cere[6]:
1. Să caracterizaţi seria ce redă repartiţia unităţilor din populaţie după
variabilele X 3 sau X 4 ;
2. Determinaţi şi interpretaţi parametrii tendinţei centrale pentru
această serie: valoarea medie, valoarea modală şi cea mediană;
116
3. analiza statistică a reprezentativităţii valorii medii (sub forma
absolută şi relativă );
4. analiza statistică a reprezentativităţii valorii mediane (sub forma
absolută şi relativă);
5. analiza statistică a structurii populaţiei, în raport cu această variabilă
(utilizând valoarea mediană, valorile cuartile şi un grafic de
structură);
6. analiza comparativă a gradului de concentrare a unităţilor de
populaţie, în raport cu cele două variabile alese de noi;
7. analiza statistică a asimetriei şi boltirii repartiţiei;
8. calculul valorii medii, respectiv a dispersiei, utilizând formule de
calcul simplificat.
Rezolvare
1.
[0,5 − 2,1) [2,1 − 3,7 ) [3,7 − 5,3) [5,3 − 6,9) [6,9 − 8,5) [8,5 − 10,1)
X 3 :
9 6 4 5 3 3
Această serie unidimensională , ce redă repartiţia unităţilor din
populaţie după variabila X 3 -capital social este o serie atributivă cantitativă
continuă şi are la bază indicatorul frecvenţă absolută.
Valoarea mediană:
n=30 (număr par)
Calculăm rangul medianei:
117
n
rM e = = 15 ⇒ M e ∈ [2 ,1 − 3 ,7 )
2
∆
Me
2,1 3,7
15
M e = 2,1 + ∆
Valoarea modală :
ni
Calculăm rapoartele : ⇒
xi − xi −1
n1 9 n2 6
= = 5,6 = = 3,8
x1 − x0 2,1 − 0,5 x 2 − x1 3,7 − 2,1
118
n3 4 n4 5
= = 2,5 = = 3,1
x3 − x 2 5,3 − 3,7 x 4 − x3 6,9 − 5,3
n5 3 n6 3
= = 1,9 = = 1,9
x5 − x 4 8,5 − 6,9 x6 − x5 10,1 − 8,5
∆0 / −1
M 0 = xM 0 + ⋅ I M0
∆0 / −1 + ∆0 / 1
9−0
M 0 = 0,5 + ⋅ 1,6 = 1,7 u.m.
(9 − 0) + (9 − 6)
Deci, cele mai multe societăţi comerciale au capitalul social în jur de
1,7 u.m. (dar nu mai mult de 9 societăţi ).
3. Analiza statistică a reprezentativităţii valorii medii:
• dispersia :
∑ (x )
6
2
'
1 − x3 ⋅ ni
σ 2
x3 = i =1
n
unde
x i − x i −1
x1' =
2
119
Deoarece dispersia este destul de mare, înseamnă că valoarea medie
nu este prea reprezentativă (adică nu foarte multe variabile sunt apropiate de
ea ).
• abaterea medie pătratică :
[0 ,5 − 2 ,1) [2 ,1 − 3 ,7 ) [3 ,7 − 5 ,3 ) [5 ,3 − 6 ,9 ) [6 ,9 − 8 ,5 ) [8 ,5 − 10 ,1)
X 3 :
30% 20% 13% 17% 10% 10%
360 ……………………..100%
a 2 …………………………20% a 2 = 72
120
360 …………………….. 100%
a 3 ………………………….13% a 3 = 46 ,8
10% [0,5-2,1)
10% 30% [2,1-3,7)
[3,7-5,3)
13% [5,3-6,9)
[6,9-8,5)
17% 20% [8,5-10,1)
Parametrii de structură :
[0 ,5 − 3 ,7 ) [3,7 − 10 ,1)
X :
50% 50%
121
• cuartilele: Q 1 = 1,83 u.m.
Q 2 = Me = 3,7 u.m.
Q 3 = 6,42 u.m.
5. Parametrii concentrării:
5
1
Energia informaţională: E x2 = ∑ f i 2 ; E x2 ∈ ;1
i =1 5
25 + 31 + 16 + 36 + 36
E x2 = ≈ 0 ,22 (concentrare destul de mică)
900
1
E−
E0 = k
1
1−
k
1
E x2 −
E 0 x2 = 5 = 0 ,22 − 0 ,2 = 0 ,025 (concentrare destul de mică )
1 0 ,8
1−
5
1
E x2 ∈ ;1
6
81 + 36 + 16 + 25 + 9 + 9
E x2 = = 0 ,195 ( concentrare destul de mică )
900
122
1
E x3 −
E 0 x3 = 6 = 0 ,195 − 0 ,16 = 0 ,042 (concentrare destul de mică )
1 0 ,84
1−
6
6. Asimetria :
α3 =
(
M X3 − X 3 )3
σ x = 2,7 u.m.
3
X 3 = 4,3 u.m.
(− 3 )3 (− 1,4 )3 53
(X −X3 )
3
:
0 ,2 3 1,8 3 3 ,4 3
3
3
9 6 4 5 3
(
M X −X3 )
− 27 ⋅ 9 − 2 ,7 ⋅ 6 + 0 ,008 ⋅ 4 + 5 ,8 ⋅ 5 + 39 ,3 ⋅ 3 + 125 ⋅ 3
3
=
30
≈ 8 ,76
8 ,76 8 ,76
α3 = 3
= = 0 ,45 ⇒ repartiţia este asimetrică pozitiv faţă de
2 ,7 19 ,683
valoarea medie, deoarece α3 >0.
Boltirea :
β3 =
(
M X3 − X 3 )4
−3
σx 3
4
(− 3 )4 (− 1,4 )4 54
(X −X3 )
4
:
0 ,2 4 1,8 4 3 ,4 4
3
3
9 6 4 5 3
(
M X3 − X 3 )
4
=
81 ⋅ 9 + 3 ,78 ⋅ 6 + 0 ,0016 ⋅ 4 + 10 ,44 ⋅ 5 + 133 ,62 ⋅ 3 + 625 ⋅ 3
30
=`102 ,65
123
102 ,65 102 ,65
β4 = 4
−3 = − 3 = 1,93 − 3 = −1,07 ⇒ repartiţia aceasta este
2 ,7 53 ,14
mai puţin boltită decât repartiţia de la legea normală, deoarece β 4 < 0.
X 3 = 4,286 u.m.
1,3 2 ,9 4 ,5 6 ,1 7 ,7 9 ,3
X 3 :
9 6 4 5 3 3
X3 −c
Alegem c = 6,1 si d = 1,61 => Y =
d
X 3 − 6 ,1 − 3 − 2 − 1 0 1 2
Y= :
1,6 9 6 4 5 3 3
− 3 ⋅ 9 − 2 ⋅ 6 − 4 + 3 + 6 − 27 − 12 − 4 + 9
Y= = = −1,133
30 30
σ x2 = 7,293 u.m.
3
(
σ x2 = d 2 ⋅ M (Y 2 ) − X 3 − c
3
)
2
9 ,9 + 4 ,6 + 4 + 3 + 4 ⋅ 3
( )
M Y2 =
30
= 4 ,13
124
σ x2 = M (X 32 ) − [M ( X 3 )]2
3
Aplicaţia 2
Rezolvare
Repartiţia bidimensională este următoarea:
X
1,3 2,9 4,5 6,1 7,7 9,3
Y [0,5-2,1) [2,1-3,7) [3,7-5,3) [5,3-6,9) [6,9-8,5) [8,5-10,1) TOTAL
1,08 [0,03-2,13) 7 1 1 2 0 0 11
3,18 [2,13-4,23) 0 2 1 0 1 1 5
5,28 [4,23-6,33) 2 2 1 1 0 0 6
7,38 [6,33-8,43) 0 1 1 0 0 1 3
9,48 [8,43-10,53) 0 0 0 1 1 0 2
11,58 [10,53-12,45) 0 0 0 1 1 1 3
TOTAL 9 6 4 5 3 3 30
125
σ Y2 / X = σ Y2 / int ergrupe
1,08 ⋅ 7 + 5 ,28 ⋅ 2
Y 1 = Y / x ∈ [0 ,5 − 2 ,1) = = 2 ,01
9
1,08 ⋅ 1 + 3,18 ⋅ 2 + 5 ,28 ⋅ 2 + 7 ,38 ⋅ 1
Y2 = Y / x ∈ [2 ,1 − 3 ,7 ) = = 4 ,23
6
1,08 + 3 ,18 + 5 ,28 + 7 ,38
Y3 = Y / x ∈ [3 ,7 − 5 ,3 ) = = 4 ,23
4
1,08 ⋅ 2 + 5 ,28 ⋅ 1 + 9 ,48 + 11,58
Y4 = Y / x ∈ [5 ,3 − 6 ,9 ) = = 5 ,7
5
3 ,18 + 9 ,48 + 11,58
Y5 = Y / x ∈ [6 ,9 − 8 ,5 ) = = 8 ,08
3
3 ,18 + 7 ,38 + 11,58
Y6 = Y / x ∈ [8 ,5 − 10 ,1) = = 7 ,38
3
Y1 ⋅9 + Y 2 ⋅ 6 + Y 3 ⋅ 4 + Y 4 ⋅5 + Y 5 ⋅3 + Y 6 ⋅3
Y= =
30
2 ⋅ 9 + 4,23 ⋅ 6 + 4,23 ⋅ 4 + 5,7 ⋅ 5 + 8,08 ⋅ 3 + 7,38 ⋅ 3
= ≈ 4,5 u.m.
30
σ y2 / X = σ Y2 / int ergrupe =
(2 − 4,5)2 ⋅ 9 + (4,23 − 4,5)2 ⋅ 6 + (4,23 − 4,5)2 ⋅ 4 + (5,7 − 4,5)2 ⋅ 5 +
30
+
(8,08 − 4,5) 2
⋅ 3 + (7,38 − 4,5) ⋅ 3
2
≈ 4,5
30
126
Y 1 = 2; σ Y2 / X ∈[0 ,5 − 2 ,1) =
(1,08 − 2 )2 ⋅ 7 + (5 ,28 − 2 )2 ⋅ 2 ≈ 3,05
9
Y 2 = 4,23;
σ Y2 / X ∈[2,1−3, 7 ) =
(1,08 − 4,23)2 ⋅ 1 + (3,18 − 4,23)2 ⋅ 2 + (5,28 − 4,23)2 ⋅ 2 + (7,38 − 4,23)2 ≈4
6
Y 3 = 4,23;
σ 2
=
(1,08 − 4,23) + (3,18 − 4,23) + (5,28 − 4,23) + (7,38 − 4,23)
2 2 2 2
= 5,51
Y / X ∈[3, 7 −5, 3 )
4
Y 4 = 5,7;
σ Y2 / X ∈[5,3−6,9 ) =
(1,08 − 5,7 )2 ⋅ 2 + (5,28 − 5,7 )2 + (9,48 − 5,7 )2 + (11,58 − 5,7 )2 = 18,35
5
Y 5 = 8,08;
σ 2
=
(3,18 − 8,08) + (9,48 − 8,08) + (11,58 − 8,08)
2 2 2
= 12,74
Y / X ∈[6 , 9 −8, 5 )
3
Y 6 = 7,38;
σ Y2 / X ∈[8,5−10,1) =
(3,18 − 7,38)2 + (7,38 − 7,38)2 + (11,58 − 7,38)2 = 11,73
3
127
3. Interpretarea componentelor dispersiei:
σ Y2 / X
4 ,25
⋅ 100 = 34 ,83% - proporţia în care variaţia cifrei de
=
σ 12 ,22
Y
afaceri se datorează variabilei X (capital social)
σ 2
=
(1,08 − 2 ) ⋅ 7 + (5,28 − 2 ) ⋅ 2
2 2
= 3,05
Y / X ∈[0 , 5− 2 ,1)
9
σ Y2 / X ∈[0,5− 2,1) =
(1,08 − 4,23)2 ⋅ 1 + (3,18 − 4,23)2 ⋅ 2 + (5,28 − 4,23)2 ⋅ 2 + (7,38 − 4,23)2 ⋅ 1 = 4
6
σ Y / X ∈[0,5− 2,1) = 1,75 - cifra de afaceri la o societate cu capital social între 0,5
şi 2,1 u.m. se abate de la media de 2 u.m. cu 1,75 u.m..
σ Y / X ∈[2,1−3,7 ) = 2
128
Coeficienţii de variaţie ai lui Pearson:
σ Y / X ∈[0 ,5 − 2 ,1) 1,75
V1 = ⋅ 100 = ⋅ 100 = 87 ,5%
Y / x ∈ [0 ,5 − 2 ,1) 2
σ Y / X ∈[2 ,1−3 ,7 ) 2
V2 = ⋅ 100 = ⋅ 100 = 47 ,28%
Y / x ∈ [2 ,1 − 3 ,7 ) 4 ,23
7.1. Enunţ
Se cere:
a)Determinaţi şi interpretaţi parametrii tendinţei centrale pentru această
serie(venitul mediu,modal şi median).
b)Calculaţi abaterea medie pătratică (şi implicit dispersia) sub formă
absolută . Calculaţi de asemenea abaterea medie pătratică sub formă
relativă(coeficientul de variaţie a lui Pearson). Analizaţi
reprezentativitatea valorii medii.
c)Redaţi din punct de vedere numeric , structura populaţiei în raport cu
variabila X.
d)Calculaţi energia informaţională şi interpretaţi.
e)Analizaţi forma repartiţiei variabilei X (asimetria şi boltirea).
2.Aceeaşi populaţie se observa în raport cu numărul de membri , obţinându-
se astfel seria :
1 2 3 4 5 6
X :
5 7 20 50 10 8
Aceleaşi cerinţe ca la problema anterioară .
129
3.Se consideră populaţia formată cu 100 de angajaţi ai unei firme studiată în
raport cu variabila X – numărul de proiecte în care s-a implicat angajatul în
ultima luna şi Y – salariul pe aceeaşi lună. Rezultatele observării statistice
au fost următoarele:
X
Y 0 1 2 3 Total
[14,5-18,5] 2 4 2 8
[10,5-14,5) 2 30 10 2 44
[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18
Total 15 60 20 5 100
Se cere :
a)Verificaţi proprietăţile M(X+Y) = M(X)+M(Y) ; M(XY) =
M(X).M(Y)
Comentaţi rezultatul .
b)Verificaţi proprietatea de adiţiune a mediei .
c)Verificaţi proprietatea de adunare a variantelor .
d)Precizaţi procentul în care salariul angajatului este explicat prin
numărul de proiecte în care este implicat .
7.2. Rezolvare
Problema 1
m
Χ i' ⋅ N i 2 ⋅ 5 + 6 ⋅ 60 + 10 ⋅ 20 + 14 ⋅ 11 + 18 ⋅ 4
Χ = M (Χ ) = ∑ = = 7,96 u.m.
i =1 N 100
130
În medie o gospodărie are un venit de 7,96 u.m. . Se observă că
rezultatul verifică una din proprietăţile elementare ale mediei şi anume
7,96∈(0,20]
Venitul modal:
5 60 20 11 4 60
max , , , , = deci valoarea modală aparţine intervalului
4 4 4 4 4 4
modal, M 0 ∈ (4 − 8] .
∆ −1
M 0 (X ) = X M0 + ⋅ lM
∆ −1 + ∆1 0
60 − 5
M 0 (X ) = 4 + ⋅ 4 ≈ 5,83 u.m. ∈ (4 − 8] .
(60 − 5) + (60 − 20)
Cele mai multe gospodării au un venit cuprins între 4 şi 8 u.m. , în
jur de 5,83 u.m. .
Venitul median:
131
M e (X ) = X Me +
(
rM e − N X M e )⋅l
Me
N Me
unde - X M e este limita inferioară a intervalului
- rM e este rangul medianei
- N M e este frecvenţa absolută a intervalului median
- l M e este lungimea intervalului median
( )
- N X M e este frecvenţa absolută cumulată până la intervalul median
50 − 5
M e (X ) = 4 + ⋅ 4 = 7 u.m. ∈ (4 − 8]
60
∑ (X i' − X ) ⋅ Ni
m 2
σ2 =M X −X [( ) ]=
2
i =1
N
(forma absolută).
σ2 =
(2 − 7,96)2 ⋅ 5 + (6 − 7,96)2 ⋅ 60 + (10 − 7,96)2 ⋅ 20 + (14 − 7,96)2 ⋅ 11 + (18 − 7,96)2 ⋅ 4 ≈
100
≈ 12,95 ⇒ σ ≈ 3,59 u.m.
σx
vx = ⋅100
x
3,59
vx = ⋅100 = 45,10%
7,96
132
Deoarece v x = 45,10% ∈ ( 30%; 60%) se poate spune că media de
7,96 u.m. este relativ reprezentativă pentru cele 100 de gospodării.
c) O primă imagine despre structura gospodăriilor în raport cu venitul
ne-o dă vectorul de structură
f = ( f1 , f 2 , f 3 , f 4 , f 5 ) .
5
f1 = ⋅100 = 5% , f 2 = 60% , f 3 = 20% , f 4 = 11% , f 5 = 4% .
100
X ≤7 X > 7
X :
50% 50%
d)Energia informaţională:
R
1
- sub formă absolută E = ∑ f i 2 , R = 5, E ∈ ,1
i =1 5
1
E−
- sub formă relativă Er = R, Er ∈ [0,1] .
1
1−
R
1
(0,05) 2 + (0,6) 2 + (0,2) 2 + (0,11) 2 + (0,04) 2 −
Er = 5 ≈ 0,27 ∈ (0,1)
1
1−
5
M ( X − X )3
α3 =
σ x3
(2 − 7,96)3 ⋅ 5 + (6 − 7,96)3 ⋅ 60 + (10 − 7,96)3 ⋅ 20 + (14 − 7,96)3 ⋅ 11 + (18 − 7,96)3 ⋅ 4 1
α3 = ⋅
100 (3,59)3
α 3 ≈ 1,1 > 0
Pe total suma abaterilor cu semnul plus de la valoarea medie este
mai mare decât suma abaterilor cu semnul minus deci seria prezintă o
asimetrie pozitivă.
Coeficientul de boltire al lui Fisher:
M ( X − X )4
β4 = −3
σ x4
(2 − 7,96) 4 ⋅ 5 + (6 − 7,96) 4 ⋅ 60 + (10 − 7,96) 4 ⋅ 20 + (14 − 7,96) 4 ⋅ 11 + (18 − 7,96) 4 ⋅ 4 1
β4 = ⋅ −3
100 (3,59)4
≈ 0,78 > 0
Boltirea corespunzătoare seriei este mai mare. Curba obţinută este mai
înaltă decât clopotul lui Gauss.
Problema 2
1 2 3 4 5 6
X :
5 7 20 50 10 8
1 ⋅ 5 + 2 ⋅ 7 + 3 ⋅ 20 + 4 ⋅ 50 + 5 ⋅10 + 6 ⋅ 8
X= = 3,77 ≈ 4
100
În medie o gospodărie are aproximativ 4 membrii.
M 0 (X ) = 4
Se observă că cele mai multe gospodări au 4 membri deci valoarea
modală este 4.
134
Numărul median de membrii:
N
r = = 50
2
xi + xi +1 4 + 5
5 + 7 + 20 + 50 > 50 ⇒ xi = 4 ⇒ M e ( X ) = = = 4,5
2 2
Observaţie:
Dacă N=51 şi seria se prezintă astfel
1 2 3 4 5 6
X :
5 7 20 6 4 8
51
atunci se obţine r = = 25 , 5 + 7 + 20 > 25 ⇒ xi = 3 ⇒ M e ( X ) = xi +1 = 4
2
b)Dispersia sub formă absolută:
135
c)
1 2 3 4 5 6
x :
5% 7% 20% 50% 10% 6%
x ≤ 4,5 x > 4,5
x :
50% 50%
d)Energia informaţională:
1
(0,05) 2 + (0,07) 2 + (0,2) 2 + (0,5) 2 + (0,1) 2 + (0,08) 2 −
Er = 6 = 0,17 ∈ (0,1) .
1
1−
6
e) Coeficientul de asimetrie:
f)Coeficientul de boltire:
136
Problema 3
X
0 1 2 3 Total
Y
[14,5-18,5) 2 4 2 8
[10,5-14,5) 2 30 10 2 44
[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18
Total 15 60 20 5 100
a) M(X+Y)=M(X)+M(Y)
Vom calcula mediile M(X), M(Y), M(XY)
0 ⋅15 + 1 ⋅ 60 + 2 ⋅ 20 + 3 ⋅ 5
M (X ) = X = = 1,15 (se calculează pe baza seriei
100
marginale a lui X extrase din tabel)
M(XY)=M(X)M(Y).
M ( XY ) =
1
[ (0 ⋅ 4,5) ⋅10 + (0 ⋅ 8,5) ⋅ 3 + (0 ⋅12,5) ⋅ 2 + (1⋅ 4,5) ⋅ 8 +
100
+ (1 ⋅ 8,5) ⋅ 20 + (1 ⋅12,5) ⋅ 30 + (1 ⋅16,5) ⋅ 2 + (2 ⋅ 8,5) ⋅ 6 +
+ (2 ⋅12,5) ⋅10 + (2 ⋅16,5) ⋅ 4 + (3 ⋅ 8,5) ⋅1 + (3 ⋅12,5) ⋅ 2 +
+ (3 ⋅16,5) ⋅ 2 ] = 12,975
137
Verificarea numerică: 12,975 ≠ 1,15 ⋅10,18 = 11,707
Comentariu: Dacă prima regulă se verifică întodeauna cea de-a doua
se verifică numai dacă variabilele sunt independente. Deoarece în
cazul acesta cea de-a d o ua regu lă n u se verifică p u em t trage
concluzia că variabilele nu sunt independente.
(
b) M Y / X = M (Y ) )
adică media variabilei Y este egală cu media mediilor condiţionate
Y / X =0 , Y / X =1 , Y / X = 2 , Y / X =3 .
138
Variaţia totală a variabilei Y:
VTOT = σ y2 =
1
[ (4,5 − 10,18) 2 ⋅ 18 + (8,5 − 10,18) 2 ⋅ 30 + (12,5 − 10,18) 2 ⋅ 44 + (16,5 − 10,18) 2 ⋅ 8 ]
100
VTOT = σ y2 ≈ 12,21 ⇒ σ y ≈ 3,49
X = 0 → Y / X =0 ≈ 6,3
X = 1 → Y / X =1 ≈ 10,23
X = 2 → Y / X = 2 ≈ 12,1
X = 3 → Y / X =3 ≈ 13,3
∑ (Y / Xi − Y ) ⋅ Ni
V EXP = σ 2
Y /X
= i
=
N
1
= [(6,36 − 10,18) 2 ⋅ 15 + (10,23 − 10,18) 2 ⋅ 60 + (12,1 − 10,18) 2 ⋅ 20 +
100
+ (13,3 − 10,18) 2 ⋅ 5] ≈ 3,41
139
(4,5 − 6,36) 2 ⋅10 + (8,5 − 6,36) 2 ⋅ 3 + (12,5 − 6,36) 2 ⋅ 2
σ Y2 / X =0
= ≈
15
σ Y2 / X =1
=
1
60
[ ]
(4,5 − 10,23) 2 ⋅ 8 + (8,5 − 10,23) 2 ⋅ 20 + (12,5 − 10,23) 2 ⋅ 30 + (16,5 − 10,23) 2 ⋅ 2 =
σ Y2 / X =2
=
1
20
[
(8,5 − 12,1) 2 ⋅ 6 + (12,5 − 12,1) 2 ⋅10 + (16,5 − 12,1) 2 ⋅ 4 = ]
σ Y2 / X =3
=
1
5
[
(8,5 − 13,3) 2 ⋅1 + (12,5 − 13,3) 2 ⋅ 2 + (16,5 − 13,3) 2 ⋅ 2 = ]
VEXP 3,41
⋅100 = ⋅100 ≈ 27,92% .
VTOT 12,21
140
CAPITOLUL IV
X x1 x2 x3 x4
Y Total
0 -1 1-2 2-3 3-4
y4 4-5 1 4 5
y3 3-4 1 3 2 6
y 2 2-3 2 2 1 5
y1 1-2 1 1 2
Total 1 4 6 7 18
Din tabelul de mai sus numit şi tabel de corelaţie (care este în fapt o
repartiţie bidimensională) se pot trage anumite concluzii. De exemplu, să
142
observăm că pentru o stare fixată a lui X, X ∈ [2 ,3 ) vom găsi corespunzător
mai multe valori ale variabilei Y căci există societăţi care pentru o cheltuială
între două şi trei sute de u.m. lei cu reclama vor obţine valoarea vânzărilor
cuprinsă între [2 − 3 ) (pentru două unităţi), între [3 − 4 ) (pentru trei unităţi),
între [4 − 5 ) (pentru o unitate). Aşadar nu putem stabili o legătură
funcţională între X şi Y, căci unei valori fixate a variabilei X îi corespunde
nu una ci mai multe valori ale variabilei Y.
Legătura dintre cele două variabile este aşadar o legătură statistică
datorită faptului că un nivel al variabilei independente X determină nu un
singur nivel al lui Y ci mai multe, fiecare cu o anumită probabilitate. Putem
deci să-i asociem lui X ∈ [2 ,3 ) o repartiţie condiţionată:
y y3 y4 y y2 y3 y4
Y : 2 sau Y : 1
X ∈ [2,3) 2 3 1 X ∈ [2,3) 0 2 3 1
X = x1 M (Y X = x1 )
X = x 2 M (Y X = x 2 )
X = x 4 M (Y X = x 4 )
143
Vom folosi termenul de legătură statistică simplă pentru legătura
dintre două variabile Y, X şi legătură statistică multiplă pentru dependenţa
dintre o variabilă Y dependentă şi n variabile factoriale (n ≥ 2 )
X 1 , X 2 ,..., X n .
În funcţie de forma pe care o ia funcţia de legătură f dintre M (Y X )
şi X, vom avea diverse tipuri de legături: liniare ( f ( X ) = a + bX ) ,
( )
parabolice f ( X ) = a + bX + cX 2 etc.
Pentru studiul legăturilor statistice se folosesc tabelul de corelaţie,
mediile condiţionate şi reprezentarea grafică sub formă de nor statistic.
Pornind de la aceste aspecte se pot emite ipoteze privind existenţa, direcţia
şi intensitatea legăturii pe care o studiem.
Existenţa legăturii se citeşte din tabelul de corelaţie după gruparea
frecvenţelor absolute în jurul uneia dintre curbe pe care o anticipăm.
Intensitatea legăturii o apreciem în funcţie de gradul de concentrare a
frecvenţelor în jurul curbei anticipate, legătura fiind cu atât mai intensă cu
cât frecvenţele sunt mai concentrate într-o fâşie cât mai îngustă străbătută
prin mijloc de curba respectivă.
Dacă Y şi X ar fi variabile independente, atunci frecvenţele nenule ar
trebui să fie distribuite în mod uniform în întregul tabel de corelaţie. În cazul
exemplului prezentat anterior se avansează ideea unei legături directe şi
liniare datorită faptului că odată cu creşterea lui X se obţine o creştere a lui
Y, iar frecvenţele sunt dispuse în jurul unei drepte.
Procedeele descrise cu privire la avansarea unei ipoteze în posibila
dependenţa dintre Y şi X nu mai corespund în cazul unor legături multiple.
Pentru a putea studia legile statistice care apar în populaţiile
statistice cu conţinut economic, e necesar să se cunoască bine legăturile
concrete care se manifestă între variabilele principale ale acestor populaţii.
Cunoaşterea acestor legături presupun construirea unor modele statistice
numite modele regresionale sau econometrice.
Dacă în cazul variabilelor cantitative se pune problema găsirii
modelului ce exprimă legătura dintre variabilele în cauză, în cazul unor
variabile calitative acest lucru nu are sens fiind suficientă studierea
existenţei unei legături şi analiza intensităţii legăturii.
Demersul care trebuie parcurs în cazul unor variabile cantitative este
următorul:
− Analiza statistică a existenţei legăturii;
− Analiza statistică a intensităţii şi gradului de asociere dintre
variabile;
− Formularea unei ipoteze cu privire la forma legăturii;
144
− Determinarea parametrilor funcţiei de regresie;
− Analiza reprezentativităţii modelului statistic.
X
x1 x2 xi xI Total
Y
yJ N 1J N2J N iJ NI J N .J
yj N1 j N2 j N ij NI j N.j
y2 N 12 N 22 Ni2 NI2 N .2
y1 N 11 N 21 N i1 N I1 N .1
Total N1 . N2 . Ni . NI . N
145
Vom asocia tabelului o urnă cu N bile dintre care N ij bile sunt de
tipul (ij ) , i = 1, I , j = 1, J . Se extrage din urnă o bilă la întâmplare.
Probabilitatea de a extrage o bilă de tipul (ij ) este:
pij = P (X = xi ; Y = y j ) =
N ij
(1)
N
pij = P (X = xi ; Y = y j ) = P( X = xi ) ⋅ P (Y = y j ) =
N i . N . j not '
⋅ = pij (2)
N N
N ij' Ni .⋅ N . j
= (3)
N N2
de unde
Ni .⋅ N . j
N ij' = (4)
N
Pe baza relaţiei (4) vom construi acum un tabel imaginar de
frecvenţe N ' ij valabil în cazul în care am avea independenţă totală.
Diferenţa între cele două tipuri de tabele va fi atunci o măsură a abaterii de
la independenţa totală, adică o măsură a legăturii între variabile. Se va
calcula parametrul
χ = ∑∑
2
I J (N ij − N ij' )
2
(5)
i =1 j =1 N ij'
a cărui valoare numerică este pozitivă dacă există legătură şi egală cu zero
dacă nu există legătură, căci în acest caz N ij = N ij' , deci tabelele sunt
identice.
146
3. Analiza statistică a intensităţii şi gradului de asociere dintre variabile
După stabilirea existenţei legăturii se va cerceta intensitatea acesteia.
Pe cale descriptivă se analizează tabelul de corelaţie şi legătura va fi cu atât
mai intensă cu cât fâşia în care sunt situate frecvenţele este mai îngustă.
În analiza statistică a intensităţii şi gradului de asociere dintre
variabile se folosesc două grupe de indicatori: indicatori ai corelaţiei
parametrice şi indicatori ai corelaţiei neparametrice.
Cei mai utilizaţi indicatori ai corelaţiei neparametrice sunt:
− raportul de corelaţie;
− coeficientul de contingenţă (asociere) al lui Pearson;
− coeficientul de contingenţă (asociere) al lui Ciuprov;
− coeficientul de corelaţie al rangurilor lui Kendall;
− coeficientul lui Fechner;
− coeficientul de corelaţie a rangurilor al lui Spearman;
− coeficientul de corelaţie informaţională al lui Onicescu
Dintre indicatorii corelaţiei parametrice amintim:
− coeficientul corelaţiei liniare simple;
− coeficientul corelaţiei liniare multiple;
− coeficientul corelaţiei parabolice.
Deosebirea între cele două grupe de indicatori constă în faptul că cei
din prima grupă se calculează numai pe baza statisticilor rezultate din
observarea statistică, în timp ce indicatorii din a doua grupă presupun
cunoaşterea prealabilă a parametrilor funcţiei de regresie.
Vom da aici formula de calcul doar pentru doi dintre aceşti
coeficienţi şi anume: raportul de corelaţie şi coeficientul de contingenţă a lui
Pearson.
Raportul de corelaţie
Calculul acestui indicator se bazează pe frecvenţele absolute din
tabelul de corelaţie şi pe valorile variabilei dependente; aşadar nu se poate
calcula decât atunci când variabila dependentă este cantitativă.
Pe baza tabelului de corelaţie se pot scrie repartiţiile condiţionate ale
lui Y în raport cu diferite valori ale lui X.
y1 y2 y j yJ
Y : ∀i = 1, I
X = xi N i1
N i 2 N ij N iJ
147
Fundamentarea teoretică a raportului de corelaţie se bazează pe
regula de adunare a dispersiei, conform căreia variaţia unei variabile Y
(măsurată de dispersia totală) se descompune în două componente (dispersia
dintre clase şi dispersia din interiorul claselor), dacă unităţile statistice din
populaţia de studiat sunt repartizate în clase în raport cu valorile variabilelor
factoriale. Conform regulii mai sus amintite, avem:
2
σ Y2 = σ Y2 X + σ Y X
sau
VTOTy = V EXPy + VREZy
unde VTOTy este variaţia totală a variabilei Y cauzată de toţi factorii care o
influenţează, VEXPy măsoară acea parte din variaţia lui Y cauzată doar de
factorul X (în cazul nostru) şi VREZy reprezintă variaţia reziduală a lui Y
cauzată de ceilalţi factori care nu au fost luaţi în considerare (factori
neesenţiali).
Vom nota cu RYX 2
parametrul numit raport de determinaţie definit
ca o mărime direct proporţională cu ponderea variaţiei explicate( VEXPy ) în
variaţia totală ( VTOTy ):
V REZy VEXPy
RYX = 1 − = (2)
VTOTy VTOTy
0 ≤ RYX ≤ 1 .
148
Dacă RYX = 0 se obţine că VREZy = VTOTy şi ca urmare întreaga
variaţie a lui Y este pe seama celorlalţi factori în afara lui X. Deci X nu este
un factor de influenţă a lui Y.
Dacă RYX = 1 rezultă că VREZy = 0 , deci o legătură de intensitate
maximă între Y şi X. În acest caz avem o legătură directă între cele două
variabile.
Dacă RYX = −1 , suntem în cazul legăturii de intensitate maximă dar
inversă. Semnul negativ nu rezultă din calcul ci din analiza tabelului de
corelaţie.
În general cu cât RYX este mai aproape de 1 legătura este mai
puternică, iar cu cât RYX este mai aproape de 0, legătura este mai slabă.
Coeficientul de contingenţă (asociere) a lui Pearson
Acest indicator se calculează pe baza frecvenţelor absolute din
tabelul de corelaţie şi se utilizează pentru determinarea gradului de asociere
a două variabile calitative, dar şi a celor cantitative.
Formula de calcul a indicatorului este:
χ2
C= (3)
N + χ2
Y = f ( X 1 , X 2 , , X n ) + ε
sau
Y ( X 1 , , X n ) = f ( X 1 , , X n ) (1)
Y = Y (X ) + ε = a + b ⋅ + ε ;
1
− forma hiperbolică
X
− forma exponenţială Y = Y ( X ) + ε = ab + ε .
X
150
cu ε = Y − Y ( X ) .
Determinarea funcţiei de regresie se face pe baza condiţiei ca media
pătratelor abaterilor valorilor observate şi înregistrate pentru Y la fiecare
unitate a populaţiei de la nivelul calculat prin modelul Y ( X 1 , X 2 , , X n ) să
fie minimă, adică:
[ ] ( )
M Y − Y ( X 1 , X 2 , , X n ) = M ε 2 - minimă
2
(1)
Y ( X 1 , X 2 , , X n ) = a0 + a1 X 1 + + a n X n (2)
condiţia:
∂G (a0 , a1 , , a n )
= −2 M [Y − (a0 + a1 X 1 + + a n X n )] = 0
∂a0 (3)
∂G (a0 , a1 , , a n ) = −2 M [Y − (a0 + a1 X 1 + + a n X n )] ⋅ X j = 0 ∀j = 1, n
∂a j
151
Sistemul de condiţii (3) conduce la sistemul de ecuaţii liniare:
a0 + a1 M ( X 1 ) + + a n M ( X n ) = M (Y )
a0 M (X j ) + a1 M (X 1 ⋅ X j ) + + a n M (X n ⋅ X j ) = M (Y ⋅ X j ) ∀j = 1, n
Y ( X 1 , X 2 ) = a 0 + a1 X 1 + a 2 X 2 (4)
a0 + a1 M ( X 1 ) + a 2 M ( X 2 ) = M (Y )
( )
a0 M ( X 1 ) + a1 M X 1 + a 2 M ( X 1 ⋅ X 2 ) = M (Y ⋅ X 1 )
2
(5)
( )
a0 M ( X 2 ) + a1 M ( X 1 ⋅ X 2 ) + a 2 M X 2 = M (Y ⋅ X 2 )
2
obţinându-se soluţiile:
[ ]
mij = M ([X i − M ( X i )] ⋅ X j − M (X j ) ) = M (X i ⋅ X j ) − M ( X i ) ⋅ M (X j ) (7)
152
matricea de variaţie şi covariaţie şi cu M 0(3j) , j = 0 ,1,2 , complementul
algebric al elementului m0 j , ecuaţia de regresie se scrie astfel:
(
M 00(3 ) ⋅ Y ( X 1 ⋅ X 2 ) − M (Y ) ) + M (01
3)
)
⋅( X 1 − M ( X 1 )) + M 02(3 ) ⋅ ( X 2 − M ( X 2 )) = 0 (8)
m
n0 m n1 m n2 m nn
( n +1)
M 00 (
⋅ Y ( X 1 , X 2 , , X n ) − M (Y ) + ) (9)
( n +1)
+ M 01 ⋅ ( X 1 − M ( X 1 )) + + M 0(nn+1) ⋅ ( X n − M ( X n )) = 0
( )
m11 Y ( X ) − M (Y ) − m10 ( X 1 − M ( X 1 )) = 0 (10)
a0 + a1 M ( X 1 ) = M (Y )
( )
(11)
a 0 M ( X 1 ) + a 1 M X 1 = M ( X 1 ⋅ Y )
2
de unde rezultă
153
m10
a0 = M (Y ) − m ⋅ M ( X 1 )
11
(12)
a = m10
1 m11
cu
[( )( )]
m10 = m01 = cov( X 1 ,Y ) = M X 1 − X 1 ⋅ Y − Y = M ( X 1 ⋅ Y ) − M ( X 1 ) ⋅ M (Y )
m11 = cov( X 1 , X 1 ) = σ .
2
X1
Y ( X 1 ) = a0 + a1 X 1 + a 2 X 12 (13)
X 2 = X 12 (14)
şi vom obţine:
Y ( X 1 , X 2 ) = a0 + a1 X 1 + a 2 X 2
154
Singurele deosebiri faţă de modelul liniar vor fi:
) ( ( )
m20 = M (Y ⋅ X 2 ) − M (Y ) ⋅ M ( X 2 ) = M Y ⋅ X 12 − M (Y ) ⋅ M X 12 = m02
m12 = M ( X ⋅ X ) − M ( X ) ⋅ M ( X ) = M (X ) − M ( X ) ⋅ M (X ) = m
1 2 1 2
3
1 1
2
1 21
= M (X ) − [M ( X )] = M (X ) − [M (X )]
2 2 4 2 2
m22 2 2 1 1
Y (X ) = a ⋅ b X (15)
şi se fac substituţiile
Z ( X ) = lg Y ( X )
(16)
a0 = lg a a1 = lg b
Z ( X ) = a0 + a1 X
Y (X ) = a + b ⋅
1
(17)
X
vom face substituţia
1
X1 =
X
de unde rezultă modelul liniar
Y ( X 1 ) = a + bX 1
155
6. Analiza reprezentativităţii modelului statistic
VEXPy VREZy
r01 = = 1−
VTOTy VTOTy
(
VTOTy = σ Y2 = σ 02 = M Y − Y )2
σ 012
r01 = 1 − (1)
σ 02
Coeficientul de corelaţie liniar simplu se poate exprima numai în
funcţie de elementele matricei de variaţie şi covariaţie, căci are loc:
m10 m10
a0 = M (Y ) − ⋅ M (X ) a1 =
m11 m11
M (2 )
r01 = 1 − (2)
m00 ⋅ M 00(2 )
156
m00 ⋅ m11 − m102
r01 = 1 − (3)
m00 ⋅ m11
σ 012 n
r01n = 1 − (4)
σ 02
cu σ 012 n = M [Y − (a0 + a1 X 1 + + a n X n )]
2
M ( n +1 )
r01n = 1 − (5)
m00 ⋅ M 00(n +1)
7. Aplicaţie
157
Nr. crt. Cerere Venit Preţ Nr. crt. Cerere Venit Preţ
1. 50 500 2,7 28 100 1000 2,1
2. 70 600 2,5 29 40 350 2,7
3. 80 700 2,4 30 50 650 2,5
4. 100 900 2,2 31. 70 800 2,3
5. 100 1000 2,1 32. 100 900 2,2
6. 120 1200 2,0 33. 40 350 2,6
7. 100 1100 2,1 34. 70 800 2,4
8. 30 300 2,7 35. 100 900 2,3
9. 40 350 2,6 36. 40 700 2,5
10. 50 400 2,5 37. 50 400 2,5
11. 30 450 2,7 38. 70 850 2,4
12. 40 500 2,6 39. 100 900 2,0
13. 70 600 2,4 40. 40 500 2,4
14. 70 700 2,4 41. 50 1000 2,5
15. 100 750 2,2 42. 70 700 2,4
16. 110 1000 2,0 43. 100 600 2,1
17. 80 950 2,3 44. 70 650 2,4
18. 60 800 2,5 45. 50 950 2,6
19. 100 900 2,1 46. 60 1100 2,7
20. 50 750 2,6 47. 105 1000 2,1
21. 60 600 2,5 48. 95 800 2,2
22. 75 700 2,4 49. 85 600 2,2
23. 45 400 2,7 50. 90 700 2,3
24. 60 500 2,6 51. 100 900 2,1
25. 45 600 2,5 52. 115 1000 2,0
26. 50 650 2,6 53. 100 950 2,1
27. 70 700 2,4
Se cere:
1. Precizaţi variabila dependentă şi variabilele independente şi alcătuiţi
tabelul de corelaţie pentru fiecare cuplu (variabilă dependentă, variabilă
independentă).
2. Analizaţi intensitatea legăturii pentru fiecare cuplu de variabile găsit la
punctul precedent.
3. Să se găsească parametrii modelului dintre cele trei variabile de natură
economică.
Rezolvare:
1. Variabila Cerere (C) este variabila dependentă, iar variabilele
Venit (V) şi Preţ (P) reprezintă variabilele independente.
158
Tabelul de corelaţie dintre cerere şi venit este:
Venit
300-500 500-700 700-900 900-1100 1100-1300 Total
Cerere
110-130 2 1 3
90-110 1 3 10 1 15
70-90 4 8 1 13
50-70 2 5 2 2 1 12
30-50 6 3 1 10
Total 8 13 14 15 3 53
Preţ
2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 Total
Cerere
110-130 3 3
90-110 1 8 4 2 15
70-90 1 2 9 1 13
50-70 6 4 2 12
30-50 1 2 3 4 10
Total 4 8 5 4 10 9 7 6 53
∑σ 2
C v = vi ⋅ Ni .
σ 2
01 = i =1
n
∑ (N . − 1)
i =1
i
159
∑ (C )
n
2
i − C ⋅ N .i
σ 02 = i =1
n
∑ N.
i =1
i
( )
m
1
⋅ ∑ C j − C v = vi
2
σ C2 V =V = ⋅ N ij
i
N i . − 1 j =1
iar C reprezintă cererea medie, C v = vi reprezintă cererea medie atunci
când venitul ia valoarea Vi .
Pornind de la tabelul de corelaţie dintre cerere si venit, înlocuind
corespunzător în relaţiile de mai sus şi făcând calculele necesare se obţine:
C (V , P ) = a0 + a1 ⋅ V + a 2 ⋅ P
160
unde:
mij = M (X i ⋅ X j ) − M ( X i ) ⋅ M (X j )
Coeficienţii de regresie se obţin pornind de la ecuaţia de regresie de
forma:
( )
M 00(3 ) ⋅ C (V , P ) − M (C ) + M 01(3 ) ⋅ (V − M (V )) + M 02(3 ) ⋅ (P − M (P )) = 0
8.Test de autoevaluare IV
8.1.Enunţ
X – în u.m., Y – în u.m.
Se cere:
a) Analizaţi dacă între cele două variabile există o anumită legatură
b) Realizaţi analiza statistică a intensităţii legăturii (dacă e cazul)
161
c) Formulaţi o ipoteză cu privire la forma matematică a legăturii
dintre cele două variabile , în cazul în care această legatură este
semnificativă
d) Determinaţi parametrii modelului de regresie propus la punctul
anterior
e) Realizaţi analiza statistică a reprezentativităţii modelului
regresional ales
f) Precizaţi , folosind modelul regresional ales , care este preţul
mediu pe care ar fi dispus să-l platească un client cu un salar de 8 u.m..
3.Realizaţi analiza statistică a legăturii dintre numărul de staţiuni turistice
vizitate de o persoană pe parcursul unui an şi mediul din care această
persoană provine , folosindu-vă de următorul tabel de corelaţie alcătuit pe
baza răspunsului a 50 de persoane (X-mediul , Y-numărul de staţiuni
turistice frecventate / an) . Cele 50 de persoane au fost astfel alese încât să
aibă aceeaşi situaţie materială .
8.2. Rezolvare
Problema 1
X
Y 0 1 2 3 Total
[14,5-18,5) 2 4 2 8
[10,5-14,5) 2 30 10 2 44
[6,5-10,5) 3 20 6 1 30
[2,5-6,5) 10 8 18
Total 15 60 20 5 100
162
∈ [0,1] .
VEXP
r01 =
VTOT
Problema 2
X
Y [0-2) [2-4) [4-6) Total
[40-50) 11 4 15
[30-40) 1 158 1 160
[20-30) 14 11 25
Total 15 180 5 200
χ = ∑∑
2
(N ij − N ij' )
2
,
j i N ij'
unde
N i• ⋅ N • j
N ij' = , N ij este frecvenţa căsuţei aflate la intersecţia liniei i cu
N
coloana j iar N ij' este frecvenţa ideală corespunzătoare acestei căsuţe în
cazul când variabilele ar fi independente.
15 ⋅15
De exemplu N 11 =0 şi N 11' = , unde 0 este numărul de persoane
200
cu salariul în [0-2) şi care oferă un preţ în [40-50), 15 este totalul primei
coloane, adică persoanele cu un salar în [0-2) iar celălalt 15 este totalul
primei linii adică persoanele care oferă un preţ de[40-50].
163
Dacă χ 2 = 0 , adică N ij = N ij' , atunci variabilele ar fi independente.
2 2 2
15 ⋅ 15 180 ⋅ 15 5 ⋅ 15
0 − 11 − 4 −
200 200 200
χ =
2
+ + +
15 ⋅ 15 180 ⋅ 15 5 ⋅ 15
200 200 200
2 2 2
15 ⋅ 160 180 ⋅ 160 5 ⋅ 160
1 − 158 − 1 −
200 200 200
+ + + +
15 ⋅ 160 180 ⋅ 160 5 ⋅ 160
200 200 200
2 2
180 ⋅ 25 5 ⋅ 25
2
15 ⋅ 25
14 − 11 − 0 −
200 200 200
+ + + ≅ 135,21
15 ⋅ 25 180 ⋅ 25 5 ⋅ 25
200 200 200
25 ⋅ 25 + 35 ⋅ 160 + 45 ⋅ 15
Y= = 34,5
200
VTOT = σ Y2 =
(25 − 34,5)2 ⋅ 25 + (35 − 34,5)2 ⋅ 160 + (45 − 34,5)2 ⋅ 15 = 19,75
200
25 ⋅ 14 + 35 ⋅ 1
Y / X ∈[0, 2 ) = = 25,66
15
164
25 ⋅ 11 + 35 ⋅ 158 + 45 ⋅ 11
Y / X ∈[2, 4 ) = = 35
180
35 ⋅ 1 + 45 ⋅ 4
Y / X ∈[4, 6 ) = = 43
5
VEXP = σ Y2 / X =
(25,66 − 34,5)2 ⋅ 15 + (35 − 34,5)2 ⋅ 180 + (43 − 34,5)2 ⋅ 5 ≅ 7,89
200
7,89
≅ 0,63 r01 =
19,75
Deoarece r01 > 0,5 , apropiindu-se de 1, putem spune că legătura este de
intensitate relativ mare.
c) Formularea unei ipoteze cu privire la forma legăturii:
În acelaşi sistem de axe se desenează norul statistic şi curba empirică de
regresie, ambele sugerând forma legăturii. Deoarece la modulul de
probleme rezolvate s-a explicat modul de realizare a norului statistic, vom
face aici numai curba empirică de regresie care va trece prin punctele de
coordonate (1;25,66), (3;35) şi (5;43) unde 1,3 şi 5 sunt mijloacele
intervalelor de valori ale variabilei X iar 25,66; 35 şi 43 sunt mediile lui Y
condiţionate de clasele lui X.
50
45
43
40
35 35
30
25 25.66
X
20
15
10
5
0
1 2 3
X
165
Având în vedere forma curbei empirice de regresie vom presupune că e
vorba de o dreaptă, adică Y ( X ) = a + bX sau Y ( X ) = a + bX + ε căci
Y (X ) = Y (X ) + ε .
m10
a = M (Y ) − M ( X ) ⋅ m
11
m10
b=
m11
m11 = σ X =
2 (1 − 2,9) ⋅ 15 + (3 − 2,9) ⋅ 180 + (5 − 2,9) ⋅ 5
2 2 2
= 0,39
200
M ( XY ) =
1
[1 ⋅ 25 ⋅ 14 + 1 ⋅ 35 ⋅ 1 + 3 ⋅ 25 ⋅ 11 + 3 ⋅ 35 ⋅ 158 + 3 ⋅ 45 ⋅ 11 + 5 ⋅ 35 ⋅ 1 + 5 ⋅ 45 ⋅ 4] = 101,8
200
m10 = 101,8 − 2,9 ⋅ 34,5 = 1,75
1,75
b= ≅ 4,48
0,39
a = 34,5 − 2,9 ⋅ 4,48 ≅ 21,5
Aşadar forma matematică a legăturii între cele două variabile este dată de
ecuaţia
Y ( X ) = 21,5 + 4,48 X sau Y ( X ) = 21,5 + 4,48 X + ε , numită şi ecuaţie de
regresie.
det M
R01 = 1 −
m00 ⋅ m11
166
unde
m m01
M = 00
m10 m11
Problema 3
X
RURAL URBAN TOTAL
Y
3 3 3
2 6 6
1 5 21 26
0 10 5 15
TOTAL 15 35 50
167
Analiza existenţei legăturii:
2 2 2 2
15 ⋅ 3 35 ⋅ 3 15 ⋅ 6 35 ⋅ 6
0 − 3 − 0 − 6 −
50 50 50 50
χ =
2
+ + + +
15 ⋅ 3 35 ⋅ 3 15 ⋅ 6 35 ⋅ 6
50 50 50 50
2 2 2
15 ⋅ 15 35 ⋅ 15
2
15 ⋅ 26 35 ⋅ 26
5 − 21 − 10 − 5 −
50 50
+
50
+
50
+ + = 14,88
15 ⋅ 26 35 ⋅ 26 15 ⋅ 15 35 ⋅ 15
50 50 50 50
χ2
c= ∈ [0,1]
χ2 + N
14,88
c= ≅ 0,47 .
14,88 + 50
168
BIBLIOGRAFIE
169