Sunteți pe pagina 1din 58

Acest document a fost realizat cu asistena financiar a Comunitii Europene.

Prerile exprimate aici


reprezint opinia Universitii 1 Decembrie 1918 Alba Iulia i n concluzie, nu pot fi considerate n nici un
caz punctul de vedere oficial al Comunitii Europene.
INTERPRETAREA STATISTIC A INFORMAIILOR.
ELEMEMNTE DE DATA MINING I PROGNOZ
Modul de instruire nr. 7
Conf.dr. Lucia Cbulea
Lector dr. Nicoleta Breaz
1
CUPRINS
Scheme clasice de probabilitate utilizate n modelarea fenomenelor social economice (conf.dr.
Lucia Cbulea) ...3
Interpretarea/utilizarea diagramelor statistice n vederea obinerii/transmiterii unei informaii prin
intermediul Internetului. Diagrame Excel (lector.dr. Nicoleta Breaz)..10
Analiza statistic a datelor preluate de pe Internet. Metode cantitative i elemente de Data Mining
(lector.dr. Nicoleta Breaz).....23
Indicatori statistici ce reflect activitatea la nivelul ntreprinderii, n contextul indicatorilor
macroeconomici disponibili pe Internet (conf.dr. Lucia Cbulea)....30
Sondajul statistic n studiul fenomenelor social-economice suport al teoriei deciziei. Site-uri de
sondare a opiniei publice (conf.dr. Lucia Cbulea)......................................39
Utilizarea asistat de calculator a datelor statistice n vederea fundamentrii modelelor
econometrice i a calculelor de prognoz (lector.dr. Nicoleta Breaz)...................51
Bibliografie .......58
2
SCHEME CLASICE DE PROBABILITATE UTILIZATE N
MODELAREA FENOMENELOR SOCIAL ECONOMICE
Sub aceast denumire se pot ntlni cteva experimente-model care conduc la calculul
rapid al probabilitilor unor evenimente care se produc sau apar n condiii analoage celor ce
definesc experimentele-model. Cu alte cuvinte, pot fi calculate anumite probabiliti pe baza unor
formule sau scheme de calcul, indiferent de natura experimentului considerat, fr a mai recurge
de fiecare dat la procedeele greoaie sugerate de formula dat de definiia clasic.
Schema lui Bernoulli cu bila ntoars (binomial) 1.1.
Se aplic n cazul n care se fac repetri independente ale unui experiment i la fiecare
repetare se are n vedere apariia unui eveniment bine precizat. Se cere determinarea probabilitii
ca din n repetri ale experimentului, evenimentul considerat s apar de k ori.
Modelul probabilistic se realizeaz printr-o urn ce conine bile de dou culori (albe i
negre). Se extrag bile din urn una cte una, fiecare bil se reintroduce n urn dup constatarea
culorii. Se cere determinarea probabilitii ca din n bile extrase, k s fie de culoare alb.
Fie
i
A evenimentul ca la extragerea de rang i s se obin o bil alb i
i
A evenimentul
ca la extragerea de rang i s se obin o bil neagr. Dac n urn se afl N bile, din care a = bile
albe i b = bile negre, avem p = P(
N
a
) A
i
i P( q
N
b
) A
i
, evident p+q=1. Notm cu
k n , k
X

evenimentul ca dup n extrageri s obinem de k ori bil alb i apoi de n-k ori bil neagr,
avem:
P(
k n k
n 1 k k 2 1 k n , k
q p ) A ... A A ... A A ( P ) X

+

.
Dac X este evenimentul ca din cele n bile extrase exact k s fie albe, avem: P(X) =
k n k k n k k
n k n , k
k
n
q p
)! k n ( ! k
! n
q p C ) X ( P C


.
Aceast probabilitate se mai noteaz P(n,k) =
k n k k
n
q p C

, p+q=1.
Observaie 1.2.
1) Dac se consider formula binomului lui Newton:

+
n
0 k
n
0 k
k k k n k k
n
n
x ) k , n ( P x q p C ) q px (
, deci P(n,k) este coeficientul lui
k
x
din dezvoltarea
binomial
n
) q px ( + , de aici i denumirea de schema binomial.
2)

n
0 k
. 1 ) k , n ( P
Schema multinomial 1.3.
Este o generalizare a schemei binomiale. Fie o urn ce conine N bile de s culori,
s , 1 i , c
i
i
i
a numrul bilelor de culoare
i
c , i = s , 1 , iar

s
1 i
i
N a
. Se fac n extrageri succesive
cu revenirea bilei n urn. Fie X evenimentul ca n cele n extrageri s obinem
i
bile de culoare
s , 1 i , c
i
. Se cere P(X) =
) ,..., , ( P
s 2 1 n

. Notm
i
A evenimentul ca la o extragere s obinem
bila de culoare s , 1 i ,
N
a
) A ( P p , s , 1 i , c
i
i i i
, atunci:
s 2 1
s 2 1
s 2 1
s 2 1 n
p ... p p
! !... !
! n
) ,..., , ( P



, unde
n
s
i
i

Schema lui Bernoulli cu bila nentoars (hipergeometric) 1.4.


3
Se consider o urn care conine bile de dou culori: a bile albe i b bile negre. Se extrag
bile din urn, una cte una, fr ntoarcerea bilelor extrase napoi n urn. Se cere s se determine
probabilitatea ca din n bile extrase k s fie de culoare alb i n-k de culoare neagr.
Exist
n
b a
C
+
posibiliti de a lua n bile din totalul de a+b bile cte sunt n urn la nceput.
Numrul posibilitilor de a lua k bile albe din cele a existente la nceput n urn este
k
a
C , iar
pentru a lua n-k bile negre din cele b bile negre ce se afl n urn la nceput este
k n
b
C

, deci P(n,k)
=
n
b a
k n
b
k
a
C
C C
+

, unde
k n b , k a
i n b a + .
Generalizare:
n urn se afl bile de r culori, adic
1
a bile de culoarea 1,
2
a bile de culoarea 2 etc.
r
a
bile de culoarea r i se extrag n bile fr ntoarcerea bilei extrase n urn. Se cere probabilitatea
P(n; ) k ,..., k , k
r 2 1
ca din cele n bile extrase s se obin
1
k bile de culoarea 1,
2
k bile de culoarea 2
etc. Avem:
r
r
r
r
k k k
a a a
k
a
k
a
k
a
r
C
C C C
k k k n P
+ + +
+ + +

...
...
2 1
2 1
2 1
2
2
1
1
...
) ,..., , ; (
, cu n k k k
r
+ + + ...
2 1
Schema lui Poisson 1.5.
Se aplic n cazul n care se fac repetri independente ale unui experiment i la fiecare
repetare se are n vedere un anumit eveniment, eveniment ce apare, n general, cu probabiliti
diferite la repetri de rang diferit. Se cere s se determine probabilitatea ca din n repetri ale
experimentului, evenimentul considerat s apar de k ori.
Modelul probabilistic se obine cu ajutorul unui sistem de n urne care conin bile de dou
culori, albe i negre, n proporii diferite, n general. Se ia cte o bil din fiecare urn i se cere
probabilitatea P(n,k) de a obine k bile albe din cele n extrase.
Notm cu
i
p probabilitatea de a extrage bil alb din urna de rang i i cu
i
q
probabilitatea de a extrage bil neagr din urna de rang i, unde . n , 1 i , 1 q p
i i
+ Avem c
P(n,k) este coeficientul lui
k
x
din dezvoltarea polinomului: ) q x p )...( q x p )( q x p (
n n 2 2 1 1
+ + + .
Schema lui Pascal (binomial cu exponent negativ) 1.6.
Se aplic n cazul n care se fac repetri independente ale unui experiment i la fiecare
repetare evenimentul considerat apare cu aceeai probabilitate. Vrem s determinm probabilitatea
ca pn la cea de-a n-a apariie a evenimentului considerat s se fi realizat contrarul evenimentului
considerat de k ori.
Modelul probabilistic se realizeaz printr-o urn cu bile de dou culori, albe i negre. Se
extrag bile din urn cu ntoarcerea bilei extrase dup ce s-a notat culoarea ei. Vom spune c avem
"succes", dac s-a obinut bila alb i "insucces", dac s-a obinut bila neagr. La fiecare repetare,
"succes" apare cu probabilitatea p i "insucces" apare cu probabilitatea q=1-p. Vrem s
determinm probabilitatea P(n,k) ca la apariia celui de-al n-lea "succes" s se fi obinut k
"insuccese". Notm
k , n
B
evenimentul c la apariia celui de-al n-lea "succes" s-au obinut k
"insuccese". Atunci
k n n k n
A A B
+

1 ,
, unde
1 n
A
= evenimentul ca n primele n+k-1 repetri s se
obin n-1 "succese" i k "insuccese", iar
k n
A
+
= evenimentul ca la repetarea de rang n+k s avem
"succes". Avem P(
) ( ) ( )
1 , k n n k n
A P A P B
+

, dar P( , p ) A
k n

+
iar P(
)
1 n
A
se calculeaz conform
schemei binomiale, adic
k n n
k n n
q p C A P
1 1
1 1
) (

+
. Rezult c: P(n,k) =
k n 1 n
1 k n
q p C

+
.
Observaie 1.7.
1) Din proprietatea de complementaritate a combinrilor, avem:
k n k
k n
q p C k n P
1
) , (
+
.
4
2) P(n,k) se obine ca i coeficientul lui
k
x
din dezvoltarea lui

<


0 k 0 k
k k k n k
1 k n
n
n
n n
1 qx , x ) k , n ( P x q p C
) qx 1 (
p
) qx 1 ( p
, deci seria binomial; de aici i
denumirea de schema binomial cu exponent negativ.
3) Dac n=1, adic dac se cere probabilitatea ca la apariia primului "succes" s se fi
produs k "insuccese", avem P(1,k) =
k
pq . n acest caz particular, se obine schema geometric,
deoarece P(1,k) este coeficientul lui

k
x
din seria geometric, adic

0 k 0 k
k k k
. x ) k , 1 ( P x pq
qx 1
p
Exemplul 1.8. O unitate hotelier se consider c este normal ocupat dac cel puin 80%
din capacitatea sa este utilizat. Dintr-un studiu statistic s-a obinut c probabilitatea ca hotelul s
fie normal ocupat ntr-o zi este p =
8
7
. Vrem s calculm probabilitatea ca unitatea hotelier s fie
normal ocupat n cinci zile din cele apte zile ale unei sptmni.
Rezolvare:
Calculul acestei probabiliti se face cu schema lui Bernoulli cu bila ntoars, unde n=7,
k=5; p=
8
7
i q = 1-p =
8
1
. Astfel se obine c:
P(7,5) = . )
8
7
(
8
3
)
8
1
( )
8
7
( C
6 2 5 5
7

Exemplul 1.9. Piesele produse de o main sunt supuse la dou teste independente.
Probabilitile ca o pies s treac aceste teste sunt respectiv
3
2
i
4
3
. S se calculeze
probabilitatea ca din 5 piese luate la ntmplare, 2 s treac ambele teste, 1 numai primul test, 1
numai al doilea test, iar una s nu treac nici un test.
Rezolvare:
Aceast probabilitate se calculeaz cu schema multinomial, unde n=5, s=4,
1 , 2
4 3 2 1

, iar ntruct testele sunt independente, avem c:
.
12
1
)
4
3
1 )(
3
2
1 ( p ;
4
1
4
3
)
3
2
1 ( p ;
6
1
)
4
3
1 (
3
2
p ;
2
1
4
3
3
2
p
4 3 2 1

Astfel, putem scrie: P(5; 2,1,1,1) =
96
5
12
1
4
1
6
1
)
2
1
(
! 1 ! 1 ! 1 ! 2
! 5
2


.
Exemplul 1.10. ntr-un lot de 50 de piese, 10 sunt defecte. Se iau la ntmplare 5 piese.
Vrem s calculm probabilitatea ca trei piese din cele cinci s nu fie defecte.
Rezolvare:
Aceast probabilitate se calculeaz cu schema lui Bernoulli cu bila nentoars, unde
a+b=50; a=40, b=10, n=5 i k=3. Avem P(5;3) =
5
50
2
10
3
40
C
C C .
Exemplul 1.11. Patru trgtori trag asupra unei inte. Primul atinge inta cu probabilitatea
3
2
, al doilea cu probabilitatea
4
3
, al treilea cu probabilitatea
5
4
, iar al patrulea cu probabilitatea
6
5
. Care este probabilitatea ca inta s fie atins exact de 3 ori?
Rezolvare:
Evenimentele
i
A = trgtorul "i" atinge inta; i = 1,2,3,4 sunt independente i:
5
3
1
1 ;
6
5
) (
;
5
4
) ( ;
4
3
) ( ;
3
2
) (
1 1 4 4
3 3 2 2 1 1


p q A P p
A P p A P p A P p
6
1
1 ;
5
1
1 ;
4
1
1
4 4 3 3 2 2
p q p q p q .
Probabilitatea ca din aceste patru evenimente s se realizeze trei i unul nu, este coeficientul lui
3
x
din dezvoltarea polinomului: Q(x) = )
6
1
x
6
5
)(
5
1
x
5
4
)(
4
1
x
4
3
)(
3
1
x
3
2
( + + + + , adic:
. 427 , 0
6
5
5
4
4
3
3
1
6
5
5
4
4
1
3
2
6
5
5
1
4
3
3
2
6
1
5
4
4
3
3
2
+ + +
Exemplul 1.12. Doi juctori sunt angrenai ntr-un joc format din mai multe partide.
Primul juctor ctig o partid cu probabilitatea p =
3
1
i o pierde cu probabilitatea q = 1-p =
3
2
.
S se calculeze probabilitatea c:
a) prima partid ctigat de primul juctor s se produc dup cinci partide pierdute;
b) a treia partid ctigat de primul juctor s se produc dup un total de ase partide
pierdute.
Rezolvare:
a) Se aplic schema geometric. Prin urmare, probabilitatea cerut este dat de P(1,5) = p
5
q =
729
32
)
3
2
(
3
1
5
.
b) Se utilizeaz schema lui Pascal, unde n=3, k=6, p=
3
1
, q=
3
2
. Astfel, probabilitatea
cerut este:
P(3,6) = . )
3
2
(
2
7
)
3
2
( )
3
1
( C
9 6 3 6
8

Exemplul 1.13. ntr-o cutie sunt 12 bile marcate cu 1; 8 sunt marcate cu 3 i ase sunt
marcate cu 5. O persoan extrage la ntmplare din cutie 4 bile. S se calculeze probabilitatea ca
suma obinut s fie cel mult 13.
Rezolvare:
Dac notm cu A evenimentul ca suma obinut de cele patru bile s fie cel mult 13,
atunci evenimentul contrar
A
este evenimentul ca suma s fie cel puin 14. Se vede c suma
maxim ce se poate obine este 5 4 = 20.
De asemenea, avem c
. 14 3 3 5 1 ; 14 1 1 3 1 5 2 ; 16 3 2 5 2 ; 16 1 1 5 3 ; 18 3 1 5 3 + + + + + + Alte posibiliti
de a obine suma cel puin 14 din patru bile nu exist. Aadar, pentru a obine suma 14, trebuie
luate dou bile marcate cu 5 din cele ase existente, una marcat cu 3 din cele opt i una marcat
cu 1 din cele 12, respectiv una marcat cu 5 i 3 marcate cu 3.
Folosind schema lui Bernoulli cu bila nentoars cu 3 stri se obine c:
7475
888
C
C C C
C
C C C
) 0 , 3 , 1 ; 4 ( P ) 1 , 1 , 2 ; 4 ( P P
4
26
0
12
3
8
1
6
4
26
1
12
1
8
2
6
14
+ +
.
Analog, avem c:
1495
66
C
C C C
C
C C C
) 1 , 0 , 3 ; 4 ( P ) 0 , 2 , 2 ; 4 ( P P
4
26
1
12
0
8
3
6
4
26
0
12
2
8
2
6
16
+ +
;
.
1495
16
C
C C C
) 0 , 1 , 3 ; 4 ( P P
4
26
0
12
1
8
3
6
18


4
26
0
12
0
8
4
6
20
C
C C C
) 0 , 0 , 4 ; 4 ( P P
.
Avem c:
6
P(
A
) =
14950
2611
P P P P
20 18 16 14
+ + + , de unde
P(A) = 1-P( ) A = 1-
14950
2611
=
14950
12339

825 , 0
.
Exemplul 1.14. La un supermarket s-a fcut un sondaj printre clienii acestuia,
punndu-li-se trei ntrebri la care s rspund prin DA sau NU. S-a constatat c rspunsul DA la
prima, a doua respectiv a treia ntrebare a fost de 60%, 80% respectiv 70%. Care este
probabilitatea ca un client s dea :
a)trei rspunsuri DA?
b)trei rspunsuri NU?
c)dou rspunsuri DA i unul NU?
d)cel mult dou rspunsuri DA?
e)primele dou rspunsuri NU?
f)primul rspuns DA i nc unul DA?
Rezolvare:
a) Suntem n condiiile schemei lui Poisson (presupunnd c rspunsurile sunt
independente unul de cellalt) cu 3 urne i cu probabilitile : p
1
= 0,6; q
1
= 0,4; p
2
= 0,8; q
2
= 0,2;
p
3
= 0,7; q
3
= 0,3. Astfel probabilitatea ca s avem 3 rspunsuri DA este coeficientul lui x
3
din
polinomul (p
1
x + q
1
)(p
2
x + q
2
)(p
3
x + q
3
) adic
p
a
= p
1
p
2
p
3
= 0,6 0,80,7 = 0,336.
b) Probabilitatea s avem trei rspunsuri NU este coeficientul lui x
0
(termenul liber) din
polinomul de mai sus, adic
q
1
q
2
q
3
= 0,4 0,20,3 = 0,024.
a) n acest caz probabilitatea este coeficientul lui x
2
din acelai polinom, adic p
1
p
2
q
3
+
p
1
q
2
p
3
+ q
1
p
2
p
3
= 0,60,80,3 +
+ 0,60,20,7 + 0,40,80,7 = 0,452.
b)Evenimentul dat este reuniunea a trei evenimente incompatibile dou cte dou,
respectiv de a da 0, 1, 2 rspunsuri DA, deci probabilitatea sa este suma coeficienilor lui x
0
, x
1
, x
2
din polinomul de la punctul a). Avem
p
d
= q
1
q
2
q
3
+ (p
1
q
2
q
3
+q
1
p
2
q
3
+ q
1
q
2
p
3
) + (p
1
p
2
q
3
+ p
1
q
2
p
3
+ q
1
p
2
p
3
) = = 0,024 + 0,188 +
0,452 = 0,664.
Astfel, evenimentul nostru este contrar evenimentului de la punctul a), deci p
d
= 1 p
a
= 1
0,336 = 0,664.
c) Putem reduce schema lui Poisson la 2 urne cu probabilitile :
p
1
= 0,6; q
1
= 0,4; p
2
= 0,8; q
2
= 0,2. Probabilitatea cerut este coeficientul lui x
0
din
polinomul (p
1
x + q
1
)(p
2
x + q
2
), adic
q
1
q
2
= 0,08. Astfel, evenimentul dat este intersecia a dou evenimente independente cu
probabilitile q
1
respectiv q
2
, de unde probabilitatea cerut este produsul q
1
q
2
.
d)Evenimentul este reuniunea evenimentelor numai primul i al doilea rspuns DA i
numai primul i al treilea rspuns DA, care sunt incompatibile, deci probabilitatea
evenimentului dat este suma probabilitilor celor dou, adic p
f
= p
1
p
2
q
3
+ p
1
q
2
p
3
= 0,228.
Exemplul 1.15. La o banc s-a constatat c din 100 de credite acordate, 10 sunt
neperformante. Dac se acord 5 credite, care este probabilitatea ca:
a) toate s fie neperformante?
b) toate s fie performante?
c) numai 4 s fie performante?
d) cel puin 4 s fie performante?
Rezolvare:
Suntem n condiiile schemei lui Bernoulli cu dou culori, unde
7
p = 0,9 i q = 1-p =0,1 considernd bile albe creditele performante, iar bile negre cele
neperformante. Vom obine astfel:
a) 00001 , 0 ) 1 , 0 ( ) 9 , 0 ( ) 0 ; 5 (
5 0 0
5
C P ;
b) 59049 , 0 ) 1 , 0 ( ) 9 , 0 ( ) 5 ; 5 (
0 5 5
5
C P ;
c) 32705 , 0 ) 1 , 0 ( ) 9 , 0 ( ) 4 , 5 (
1 4 4
5
C P ;
d)
91754 , 0 ) 5 , 5 ( ) 4 , 5 ( ) 4 ; 5 ( + P P P
.
Exemplul 1.16. ntr-un partid parlamentar sunt 10 deputai i 5 senatori. Se ia la
ntmplare un grup de 5 parlamentari ai partidului respectiv, pentru a forma o comisie. Cu ce
probabilitate grupul conine:
a) 3 deputai i 2 senatori;
b) numai deputai;
c) numai senatori;
d) cel mult 2 senatori;
e) cel puin un deputat.
Rezolvare:
Suntem n condiiile schemei hipergeometrice cu 2 culori, unde
a = 10, b = 5 i n = 5. Vom avea:
a)
5
15
2
5
3
10
) 2 , 3 ; 5 (
C
C C
P

;
b)
5
15
0
5
5
10
) 0 , 5 ; 5 (
C
C C
P

;
c)
5
15
5
5
0
10
) 5 , 0 ; 5 (
C
C C
P

;
d)
5
15
2
5
3
10
1
5
4
10
0
5
5
10
) 2 , 3 ; 5 ( ) 1 , 4 ; 5 ( ) 0 , 5 ; 5 (
C
C C C C C C
P P P P
d
+ +
+ +
;
e)


5
1
5
1
5
15
5
5 10
) 5 , ; 5 (
i i
i i
e
C
C C
i i P P
sau altfel
5
15
1
1 ) 5 , 0 ; 5 ( 1
C
P P
e

.
Exemplul 1.17. Probabilitatea ca un agent comercial s vnd un anumit produs este 0,3.
Dac acesta ofer produsul spre vnzare pe rnd la 4 magazine cu ce probabilitate el vinde
produsul:
a) la primul magazin;
b) la al doilea magazin;
c) la ultimul magazin;
d) cel mult la al treilea magazin.
Rezolvare:
Suntem n condiiile schemei geometrice cu p = 0,3 ( se presupune c agentul poate vinde
produsul unui singur magazin). Prin urmare avem:
a) P
1
= pq
1-1
= 0,3 ;
b) P
2
= pq
2-1
= pq = 0,3 0,7 = 0,21 ;
c) P
4
= pq
4-1
= pq
3
= 0,3 (0,7)
3
= 0,1029 ;
d)P
d
=P
1
+P
2
+P
3
=p + pq + pq
2
= p(1+q+q
2
) = 0,3(1+0,7+0,49)=0,657
1.18. Probleme propuse:
1. O familia are ase copii. Se cere probabilitatea ca:
8
a. doi din cei ase copii s fie fete;
b. cel puin doi copii s fie biei.
2. O comisie analizeaz 10 dosare de creditare de la banca B
1
, 20 de la banca B
2
, 30 de la
banca B
3
. Se iau la ntmplare 12 dosare. S se determine probabilitatea ca din cele 12 dosare, 3 s
provin de la B
1
, 4 de la B
2
i 5 de la B
3
.
3. Patru fabrici produc acelai tip de rachet de tenis. Produsele celor patru fabrici sunt
rebuturi n procent de 2%, 1%, 5% i 4%. Se ia cte o rachet de tenis produs de fiecare fabric.
S se determine probabilitatea ca:
a. din cele patru rachete, dou s fie rebut?
b. cel puin una s fie rebut?
4. Un investitor la burs, cumpr aciuni la trei companii. Probabilitile ca cele trei
investiii s fie profitabile sunt urmtoarele: p
1
= 0,8, p
2
= 0,75, p
3
= 0,82. S se determine
probabilitatea ca:
a. toate cele trei investiii s fie profitabile;
b. dou investiii s fie profitabile;
c. o investiie s fie profitabil;
d. cel mult dou investiii s fie profitabile;
e. cel puin una s fie profitabil.
5. Doi juctori sunt angajai ntr-un joc format din mai multe partide. Primul juctor ctig
o partid cu probabilitatea p = 0,25. S se determine probabilitatea ca:
a. a patra partid ctigat de primul juctor s fie obinut dup cinci partide pierdute.
b. prima partid ctigat de primul juctor s apar dup cinci partide pierdute.
9
INTERPRETAREA/UTILIZAREA DIAGRAMELOR STATISTICE N
VEDEREA OBINERII/TRANSMITERII UNEI INFORMAII PRIN
INTERMEDIUL INTERNETULUI. DIAGRAME EXCEL
Una din cele mai importante prghii ale unei societi bazate pe cunoatere este informaia.
Aceasta circul ntre diverse persoane, instituii ale statului, ageni economici, media (inclusiv
internetul) i public, etc., fiind adesea cuantificat n cifre sau transformat n imagini. De aceea,
pe ct este de important n diverse contexte, s primim informaie, pe att este de important s o
nelegem corect. Un alt aspect de loc lipsit de importan este sigur i acela de a transmite
informaii, ntr-un mod ct mai relevant, mai ales atunci cnd suntem reprezentanii unor entiti
mai mari, spre exemplu o instituie sau o ntreprindere. Forma grafic este una dintre metodele de
transmitere a unei informaii, care beneficiaz de avantajul unui impact vizual puternic asupra
receptorului precum si de o mare capacitate de sintez. Aadar, de o parte i de alta a baricadei,
receptor sau transmitor al informaiei, este necesar s nelegem informaia coninut ntr-un
astfel de grafic, respectiv s putem utiliza noi nine astfel de metode grafice.
Statistica pune la ndemna utilizatorului astfel de metode, unele dintre cele mai des
ntlnite fiind reprezentrile grafice sub form de diagrame de structur, cronogram, diagrame
prin coloane, nor statistic, etc. Astfel de grafice transmit fie o structurare pe diverse segmente a
unui ntreg, fie evoluia unui indicator. n vederea nelegerii modului de utilizare a acestor grafice
vom aminti mai nti cteva noiuni de baz, n statistic.
Noiuni elementare de statistic
Obiectul de studiu al statisticii, l constituie populaiile statistice de orice natur. Populaia
statistic reprezint ansamblul de elemente de aceeai natur avnd nsuiri eseniale comune. Un
element component al unei populaii statistice se numete unitate statistic. Numrul de uniti ce
compun o populaie statistic constituie volumul populaiei i se noteaz cu N.
O populaie statistic se poate observa, n funcie de obiectivele cercetrii, fie static, n
raport cu una sau mai multe variabile statistice, fie n evoluie, spre exemplu, pe o perioad de
timp, urmrind unul sau mai muli indicatori. Variabila statistic reprezint o trstur comun
tuturor unitilor unei populaii. Indicatorul statistic este o variabil cantitativ, ale crei valori
numerice rezult dintr-un algoritm pentru fiecare unitate sau clas de uniti a populaiei statistice.
Exemple:
-populaii statistice: mulimea gospodriilor dintr-o localitate, mulimea societilor
comerciale dintr-un jude, mulimea produselor de acelai tip dintr-o fabric, mulimea angajailor
unei ntreprinderi, etc.;
-variabile statistice: numrul membrilor, suprafaa locativ, pentru o gospodrie; profitul,
rentabilitatea, cifra de afaceri, numrul de angajai pentru o societate comercial; calitatea pentru
un produs; vechimea, specializarea, pentru angajaii unei ntreprinderi, etc.
Diagrame statistice realizate n Excel
Atunci cnd se dorete caracterizarea unei populaii, n raport cu o anumit variabil se
poate apela i la metode grafice. Acestea constau n reprezentarea situaiei existente, prin
intermediul unor diagrame, fie c discutm de structurarea populaiei pe segmente, n raport cu o
variabil, fie de variaia unui indicator, n timp, spaiu sau de la o categorie social-economic la
alta.
Un grafic complet presupune o diagram i un titlu explicativ, precum i cteva precizri
minime (spre exemplu, o legend explicativ) care s faciliteze transmiterea informaiei prin
imagine. Realizarea efectiv a diagramei se poate face prin intermediul unui produs informatic,
spre exemplu, n Excel. Vom prezenta n continuare cteva dintre cele mai relevante grafice:
10
Diagrama de structur prin cerc (diagrama radial)
Acest tip de diagram se utilizeaz pentru a reprezenta grafic structura unei populaii n
raport cu o anumit variabil. Ideea care st la baza alctuirii acestei variabile este c suprafaa
cercului reprezint ntreaga populaie, iar segmentele generate de mprirea populaiei n clase, n
raport cu aceea variabil, sunt reprezentate de sectoare de cerc.
Respectnd acest principiu se construiete un cerc de raz oarecare a crei suprafa se
consider c reprezint volumul ntregii populaii n cauz (exprimat n frecvene absolute sau
relative). Fiecare clas n care este divizat populaia va fi reprezentat printr-un sector de cerc de
arie direct proporional cu volumul clasei. Reprezentarea sectorului de cerc se va face
determinnd msura n grade a unghiurilor la centru a fiecrui sector. Cele 360 ale cercului
corespund volumului ntregii populaii. Unghiurile sectoarelor de cerc care reprezint clase din
populaie trebuie s fie proporionale cu volumul acestora (exprimat n frecvene absolute sau
relative). Unui procent i corespunde 3,6, deci unghiul la centru pentru un sector va fi produsul
dintre 3,6 i procentul corespunztor clasei respective.
Desigur, nainte de reprezentarea grafic este necesar o sistematizare a datelor, astfel nct
s se cunoasc numrul de uniti din populaie,
i
N
(frecvena absolut a clasei), pentru care
variabila studiat ia o anumit valoare. Astfel, volumul populaiei, N , se va recompune sub forma:
R
N N N N + + + ...
2 1
,
cu R , numrul de clase din populaie.
Mai sugestiv este calcularea ponderilor fiecrei clase n totalul populaiei, adic a
frecvenelor relative:
100
N
N
f
i
i
.
Din relaiile de proporionalitate de mai jos, se poate determina unghiul la centru pentru
fiecare sector de cerc reprezentnd cte un segment din populaie:
100
360
... ...
0
1
1

R
R
i
i
f f f

.
Exemplu:
Se realizeaz un studiu privind forma de proprietate a societilor comerciale dintr-o localitate,
acestea fiind n numr de 210. Pentru fiecare societate, se nregistreaz forma de proprietate, cu
capital de stat-S, privat-P sau mixt-M. Dup sistematizarea datelor se obine urmtoarea structur:

,
_

21 84 105
:
M P S
X
.
Dup calculul frecvenelor relative, obinem

,
_

% 10 % 40 % 50
:
M P S
X
.
Pentru a transpune grafic aceast structur, vom calcula dup procedeul enunat mai sus, unghiul la
centru corespunztor fiecrui sector de cerc:
-pentru S.C. cu capital de stat,
o
180 50 6 , 3
11
-pentru S.C. cu capital privat,
o
144 40 6 , 3
-pentru S.C. cu capital mixt,
o
36 10 6 , 3 .
Se obine astfel urmtoarea reprezentare:
Structura societilor comerciale din localitatea dat, n raport cu forma de proprietate
ntregul demers poate fi asistat de calculator
utiliznd procesorul de date, Excel.
Pasul1.
n foaia de lucru Excel, se introduc datele pe care
dorim s le reprezentm i apoi selectm icon-ul expertului diagram din bara de instrumente, aa
cum este ilustrat n figura de mai jos:
Pasul 2.
Din fereastra de dialog care se deschide accesnd expertul diagrama, alegem tipul de diagram, n
cazul acesta, diagrama de tip structur radial i selectm butonul urmtorul din bara de
meniu:
12
S . C . c u c a p i t a l i n t e g r a l d e s t a t
S . C . c u c a p i t a l p r i v a t
S . C . c u c a p i t a l m i x t
5 0 %
4 0 %
1 0 %
Pasul 3.
n noua fereastr de dialog, alegem din meniul de sus, opiunea serie i n cmpul pentru serie,
optm pentru butonul adugare. Pentru seria introdus completm n cmpurile din dreapta,
numele graficului, valorile pe care dorim sa le reprezentm i etichetele acestora. Aceste cmpuri
pot fi completate selectnd informaiile potrivite cu mouse-ul , direct din foaia de lucru. Prin
selectarea butonului urmtorul se trece la etapa n care putem aduga diverse detalii graficului.
Pasul 4.
13
n urmtoarea fereastr de dialog putem preciza diverse aspecte ca titlul, poziionarea legendei,
afiarea procentelor sau a altor tipuri de etichete:
Pasul 5.
Din nou, selectnd butonul urmtorul trecem la urmtoarea i ultima fereastr de dialog, n care
putem opta pentru salvarea imaginii n foaia de lucru sau ntr-o foaie nou:
Pasul 6.
n final, prin selectarea butonului terminare, se obine urmtoarea diagram:
14
Din grafic se pot desprinde mai multe concluzii: spre exemplu, jumtate din societi sunt cu
capital de stat, cele mai puine societi sunt cu capital mixt, etc.
Diagrama prin benzi
Acest tip de diagram se utilizeaz pentru a reprezenta grafic variaia unui indicator, fie n
spaiu, fie n timp, fie de la o categorie social-economic la alta. Situaia indicatorului pe fiecare
unitate de variaie, se reprezint prin cte o coloana (dreptunghi) a crei nlime este direct
proporional cu valoarea indicatorului pe acea unitate. Dreptunghiurile au bazele de aceeai
mrime, aezate pe axa orizontal i sunt egal distanate unele de altele.
Exemplu:
La o ntreprindere se urmrete evoluia produciei (n milioane lei), pe parcursul a cinci ani i se
constat urmtoarea situaie:

,
_

900 895 880 850 800


2006 2005 2004 2003 2002
: X
.
Evoluia produciei anuale poate fi ilustrat printr-o diagram prin coloane. n Excel, urmnd pai
similari cu cei prezentai mai sus, cu deosebirea ca aici se utilizeaz diagrama Excel de tip
coloan, se obine urmtoarea reprezentare:
15
Informaia coninut n grafic se refer la modul n care producia anual a evoluat, putnd fi
observat o tendin de cretere.
Cronograma
Acest tip de diagram se utilizeaz pentru a reprezenta grafic variaia unui indicator n
timp, situaia la fiecare moment de timp fiind reprezentat de un punct a crui ordonat este direct
proporional cu valoarea indicatorului, la acel moment. Abscisa punctului este dat formal de
momentul de timp cuantificat n valori implicite, 1, 2, 3, Punctele se unesc prin segmente de
dreapt, subliniind astfel tendina fenomenului studiat. n Excel diagrama aferent este diagrama
de tip linie, reprezentat mai jos pentru acelai exemplu:
16
Se observ o tendin de cretere progresiv a produciei anuale, pentru ntreprinderea studiat.
Norul statistic
Acest tip de diagram se utilizeaz pentru a reprezenta grafic dependena unei variabile Y
de o alt variabil X, ambele studiate la nivelul aceleiai populaii. Fiecare unitate din populaie
este reprezentat grafic printr-un punct, avnd ca abscis valoarea corespunztoare pentru X iar ca
ordonat, valoarea corespunztoare pentru Y. Punctele pot fi unite sau nu prin segmente de dreapt
sau arce de cerc. Un astfel de grafic ofer o prim imagine despre modelul matematic, respectiv
curba care descrie legtura dintre cele dou variabile. n Excel, diagrama corespunztoare este
diagrama XY (prin puncte).
Exemplu:
Se realizeaz un studiu privind dependena executrii corecte a unei piese de mare precizie, de
vrsta executantului. Studiul se face pe 10 executani dintr-o ntreprindere, fiecare avnd de
executat 25 de piese. n tabelul de mai jos, X reprezint vrsta iar Y, numrul de piese produse cu
defect, din cele 25 care reprezint norma.
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
X 18 25 27 33 38 40 42 47 49 51
Y 10 6 5 4 3 3 1 2 3 4

Pentru a putea utiliza diagrama Excel prin puncte este necesar ca datele sa fie ordonate n raport cu
X, aa cum apar i n tabel. Paii de execuie a unui astfel de grafic sunt similari cu cei prezentai
mai sus, cu meniunea c acum, pentru o singur serie, este necesar s se selecteze din foaia de
lucru, att valorile lui X, ct i valorile lui Y, aa cum este ilustrat n imaginea:
17
Dup parcurgerea pailor de reprezentare, se obine imaginea:
Analiznd informaia din grafic, se observ c maximul de piese cu defect este atins la 18 ani,
calitatea pieselor crescnd odat cu vrsta, pn la 42 de ani cnd se nregistreaz iar o uoar
scdere a calitii, respectiv o cretere a numrului de piese produse cu defect. Conform acestui
18
studiu, directorul de producie va fi ndreptit s selecteze personalul necesar i n funcie de
vrsta. Desigur, ntr-un astfel de caz, exist i ali factori de influen, cum ar fi experiena n
producie, care are un aport mai mare dect vrsta n sine.
Astfel de grafice se pot ntlni pe diverse site-uri pe internet, prezentnd ntr-o form clar i
succint diverse informaii cum ar fi cele din domeniul indicatorilor macroeconomici i de
asemenea, pot fi postate pe net sau trimise prin pota electronic, atunci cnd este necesar s
transmitem informaii despre propria ntreprindere. Aadar, abilitile de realizare a unei diagrame,
precum i cele de interpretare a informaiei coninute ntr-o astfel de diagram, reprezint un plus
n realizarea fluxului de informaii de la i ctre ntreprindere.
Chestionar:
1. Ce diagram statistic utilizm atunci cnd dorim s redm:
-structura pe grupe de vrst a personalului dintr-o ntreprindere,
-evoluia anual a profitului,
-dependena ntre cheltuielile de marketing i volumul vnzrilor, observat n
timp?
2. Redai cteva caracteristici ale ntreprinderii n care lucrai, utiliznd diagramele
Excel, de tip structur radial, coloan, linie i XY. (pt cel final)
3. Comentai informaia coninut n urmtoarele grafice preluate de pe internet:
Sursa: Site-ul INS (http://www.insse.ro), Anuarul Statistic
al Romniei, 2004-Activitatea ntreprinderii
19
Sursa: Site-ul INS, Anuarul Statistic 2004-Turism
20
Sursa: Site-ul INS, Anuarul Statistic 2004-Populaie
Sursa: Site-ul INS, Anuarul Statistic 2004-Comer interior i servicii de pia
21
22
ANALIZA DATELOR STATISTICE PRELUATE DE PE INTERNET.
METODE CANTITATIVE I ELEMENTE DE DATA MINING
De multe ori, informaiile ne sunt prezentate sub forma unei niruiri de valori numerice
sau nenumerice, ale cror neles este la prima vedere, ncifrat. Spre exemplu, putem gsi pe
Internet, pe diverse site-uri specializate, valoarea profitului intern brut pe ar, pe o perioad de
civa ani sau tabele cu profilul de activitate pentru societile comerciale dintr-o anumit zon sau
cu producia ntreprinderilor din aceeai zon. Astfel, niruirea de numere sau cuvinte ne d n
prima faz o informaie despre unitatea observat (momentul de timp, societatea comercial,
ntreprinderea). Dac vrem ns informaii de ansamblu, asupra perioadei de timp sau a populaiei
observate, niruirea de date rmne mai puin concludent. n acest caz, se pune problema
extragerii informaiei (data mining)din irul de date, lucru care se poate face prin diverse
modaliti de prelucrare a datelor. Subliniem aici trei astfel de metode de analiz a datelor:
-reprezentarea datelor cu ajutorul graficelor;
-sistematizarea datelor dup clase de valori;
-prelucrarea numeric a datelor.
Reprezentarea datelor cu ajutorul graficelor se face n scopul de a transmite aceeai informaie
deja coninut n irul de date, ntr-un mod mai sintetic, cu o mai puternic impresie vizual, care
permite sublinierea anumitor trsturi de ansamblu (evoluia unui fenomen urmrit n timp, modul
de mprire a populaiei pe clase). Acest aspect a fost tratat pe larg n tema anterioar, astfel c o
detaliere a lui nu mai este necesar.
Sistematizarea datelor dup clase de valori se realizeaz n scopul de a evidenia n ansamblul ei,
structura populaiei studiate, structur care este mai greu observabil n niruirea iniial de date.
Aceast modalitate de extragere a informaiei din date este de multe ori o etap necesar n
reprezentarea grafic a datelor. Desigur, gruparea pe clase de valori nu aduce o informaie
suplimentar fa de irul iniial de date, ci doar subliniaz informaia deja existent.
Prelucrarea numeric a datelor vine ns cu un plus de informaie, descoperind anumite trsturi
ale fenomenului sau populaiei studiate ( spre exemplu, media), care nu erau disponibile direct din
irul de date. Prelucrarea const n calcularea unor parametri care definesc sintetic i n ansamblu
mulimea de date, cum ar fi: media, mediana, modala, abaterea standard, etc.
Cunoaterea celor trei modaliti de analiz a datelor este important att n etapa de
cutare a informaiei n datele disponibile pe internet ct i n etapa n care la rndul nostru dorim
s transmitem anumite informaii ct mai succint i mai relevant. n cele ce urmeaz vom aminti
cteva elemente de statistic, pentru a face posibil prezentarea ultimelor dou modaliti de data
mining, sistematizarea i prelucrarea numeric a datelor.
Tipuri de date
n tema anterioar s-au precizat noiunile de populaie statistic i variabil statistic.
Datele statistice pot fi privite ca valori ale unei variabile statistice, nregistrate fie pe aceeai
unitate a unei populaii n diverse momente de timp, spre exemplu, fie pe mai multe uniti ale
populaiei. Al doilea caz necesit sistematizarea, n timp cel primul nu. n primul caz, irul datelor
se mai numete i serie de variaie (cronologic) iar n al doilea caz, irul se numete serie de
repartiie.
ntr-o serie de repartiie, valorile pot fi numere, caz n care datele se numesc numerice iar
variabila ale crei valori sunt reprezentate de aceste date se numete variabil cantitativ sau
numeric sau litere, cuvinte simboluri, caz n care se numesc nenumerice iar variabila ale crei
valori sunt reprezentate de aceste date se numete variabil calitativ sau nenumeric.
La rndul lor, variabilele respectiv datele cantitative pot fi discrete sau continue, dup cum
este vorba de o variabil care poate lua doar anumite valori n intervalul su de variaie sau orice
23
valoare din acel interval. n general, datele calitative i cele cantitative discrete se sistematizeaz
pe clase formate din cte o valoare, n timp ce datele cantitative continue se sistematizeaz pe clase
formate din intervale de valori. Exist i excepii, spre exemplu atunci cnd pentru nite date
discrete avem un numr mare de valori distincte, este de preferat s grupm datele pe clase formate
din intervale de valori.
Exemple:
-serie de variaie:

,
_

900 895 880 850 800


2006 2005 2004 2003 2002
: X
X- evoluia produciei in mil.lei, pentru o firma;
-serie de repartiie, date calitative:

,
_

21 84 105
:
M P S
X
.
X- repartiia societile comerciale dintr-o localitate dup forma de proprietate (de stat,
privat
i mixt);
- serie de repartiie, date cantitative discrete:

,
_

6 8 10 16 40
4 3 2 1 0
: X
X- repartiia angajailor unei ntreprinderi dup numrul de piese cu defect realizate din
norma de patru piese;
- serie de repartiie, date cantitative continue:
( ] ( ] ( ]

,
_

30 80 10
300 , 200 200 , 100 100 , 0
: X
X repartiia ntreprinderilor dintr-o regiune dup profitul la finalul unui an, n mil. lei.
Sistematizarea datelor dup clase de valori
Datele de mai sus sunt prezentate sub forma sistematizat. n afar de primul exemplu, care
coincide cu forma iniial a datelor, toate celelalte exemple s-au obinut n urma sistematizrii unor
iruri de date, adic, spre exemplu:
-P, P, S, P, M, .pentru cele 210 societi;
-2, 4, 0, 1, 1, 3, 2, 4, pentru cei 80 de angajai;
-50, 72, 135, 180, 250, 50, 300, pentru cele 120 de ntreprinderi.
Sistematizarea presupune gruparea datelor n clase de valori sau intervale. n cazul datelor
calitative si cantitative discrete, se menioneaz toate valorile distincte (cuvinte sau numere) i apoi
se numr cte uniti din populaie se afl n fiecare clas. n mod analog se procedeaz i n
cazul datelor cantitative continue, numai c n loc de valori se precizeaz limitele intervalelor dup
care se dorete gruparea.
n Excel, funciile care se utilizeaz la sistematizarea datelor sunt COUNTIF, pentru
grupare pe valori si FREQUENCY, pentru grupare pe intervale.
Sintaxa acestor funcii este urmtoarea:
Sintaxa funciei :
COUNTIF (range, criteria)=(f1, f2, , fR)
24
-parametrii de intrare:
range-un vector care cuprinde valorile pe care dorim s le grupm ;
criteria-un vector care cuprinde valorile unice dup care dorim s facem gruparea ;
-parametrii de ieire :
fi-frecvena de apariie a valorii xi din criteria, n irul range.
Obs. Funcia trebuie introdus ca o formul matrice. Dup returnarea unei singure valori,
se selecteaz nc attea csute de cte avem nevoie, se tasteaz F2, apoi CTRL+SHIFT+ENTER.
Dimensiunea vectorului de ieire este egal cu dimensiunea lui criteria.
Sintaxa funciei :
FREQUENCY (data array, bins array)=(f1, f2, , fR)
-parametrii de intrare:
data array- un vector care cuprinde valorile pe care dorim s le grupm pe intervale ;
bins arrray- un vector care cuprinde capetele intervalelor de grupare;
-parametrii de ieire :
fi- numrul de valori din data array care sunt cuprinse n intervalul
( )
1
,
+ i i
b b
, acestea fiind
elemente din bins array.
Parametrul de ieire va fi un vector de dimensiune egal cu dimensiunea lui bins array +1.
Funcia trebuie introdus ca o formul matrice (vezi procedeul de la countif).
Exemplu : Bins array=(k1, k2, k3)
(f1, f2, f3, f4)-f1-nr. de valori din data array mai mici sau egale cu k1
- f2- nr. de valori din data array, cuprinse in (k1, k2]
- f3- nr. de valori din data array, cuprinse in (k2, k3]
- f4- nr. de valori din data array, mai mari dect k3.
Exemple de sistematizare n Excel:
Vom considera, pentru simplificare, 10 societi comerciale, pe care le vom studia n raport
cu forma de proprietate i presupunem ca vom avea urmtoarea situaie: S,S,P,P,S,P,M,M,S,S.
Pentru sistematizare se parcurg urmtorii pai:
Pasul 1.
Se trec datele pe o coloan n foaia de lucru, pe o coloan alturat, se trec doar valorile
unice i se selecteaz o csu liber, pentru a preciza locul n care va fi ntors rezultatul. Apoi se
face clic pe simbolul fx din bara de instrumente, deschiznd astfel o fereastr de dialog n care se
selecteaz categoria de funcii statistice i funcia COUNTIF.
25
Pasul 2.
Odat selectat funcia Countif, se deschide o fereastr de dialog, n care se insereaz, n
cmpurile corespunztoare sintaxei funciei, cei doi parametri de intrare, prin selectarea coloanelor
corespunztoare cu mouse-ul. Dup accesarea butonului OK , pe poziia C1 va aprea numrul de
firme care sunt cu capital de stat. Pentru a afia i celelalte dou frecvene, se procedeaz ca la
orice funcie care trebuie introdus ca formul matrice, procedeul fiind descris mai sus.
n final, se obin datele sistematizate, pe coloana C fiind afiate numrul de firme de fiecare
tip.
26
n mod analog, se procedeaz i n cazul cnd se dorete sistematizarea unor date
cantitative discrete. Pentru date cantitative continue, considerm 10 firme studiate n raport cu
profitul. Paii sunt asemntori cu cei de la funcia Countif, numai ca se lucreaz cu funcia
Frequency, pentru care pe coloana B vom preciza capetele intervalelor de grupare. Spre exemplu
dac folosim intervalele din exemplul de mai sus, vom preciza intervalele, ca n figura urmtoare,
pe coloana B, datele fiind cele de pe coloana A:
Rezultatele funciei Frequency sunt cele de pe coloana C, adic, 2 firme din cele 10, au
profitul sub 100, 5 au profitul ntre 10 i 200 i 3 au profitul peste 200.
Prelucrarea numeric a datelor
O imagine mai complet asupra populaiei se obine atunci cnd calculm diveri parametri
care descriu n ansamblu populaia. n general, aceti parametri se calculeaz pentru date
cantitative.
Amintim aici doua grupe de parametri i anume parametrii care descriu tendina central a
fenomenului (media, mediana, modala) i parametrii care descriu variaia sau abaterea valorilor din
populaie fa de valoarea medie (abaterea standard, variaia sau dispersia).
Media se calculeaz de obicei sub forma mediei aritmetice, avnd formula:
( )
N
x
x M x
N
i
i


1
.
Modala este acea valoare a variabilei, care apare cel mai des, n irul datelor.
Mediana este acea valoare a variabilei care mparte irul datelor ordonate cresctor, n
dou pri egale.
27
Abaterea standard este radicalul mediei ptratice a abaterilor datelor fa de medie i se
calculeaz cu formula:
( )
N
x x
N
i
i
x

1
2

.
Variana sau dispersia este ptratul abaterii medii ptratice, ( )
2
x
x V .
Prelucrarea numeric a datelor n Excel
n Excel, funciile corespunztoare acestor parametri sunt, n aceast ordine, AVERAGE,
MODE, MEDIAN, STDEVP, VARP.
Prezentm mai jos sintaxa funciei Average, celelalte funcii avnd acelai tip de sintax.
Sintaxa funciei :
AVERAGE (number 1, number2, .)=media aritmetica
-parametrii de intrare reprezinta valorile variabilei pentru care dorim sa calculam media.
n cele ce urmeaz, vom calcula aceti parametri pentru exemplul datelor referitoare la
numrul de piese defecte. Pentru simplificare vom considera doar 10 angajai.
Astfel, pentru datele de pe coloana A, aplicnd pe rnd funciile amintite obinem urmtoarele
informaii despre angajaii acelei firme:
- un angajat face n medie aproximativ 2 (2,3) piese cu defecte-media;
- cei mai muli angajai fac cte 2 piese cu defecte-modala;
- jumtate din angajai fac pn la 2 piese cu defecte, cealalt jumtate, peste 2 piese cu defecte-
mediana;
- numrul de piese cu defecte fcute de angajai se abate cu plus-minus aproximativ 1 pies (1,1)
de la numrul mediu de piese, egal cu 2-abaterea medie ptratic;
- dispersia este de 1 pies (1,21)- variana.
n acest fel s-a realizat extracia informaiei din date (data mining), utilizatorul avnd acum
o imagine complex asupra populaiei sau fenomenului urmrit. Aceti parametri pot fi utilizai
att pentru a ti s interpretm diverse informaii prezentate sub aceast form, ct i pentru a
descrie o situaie (populaie, fenomen), ct mai concis.
28
O alt etap n extragerea informaiei din date este i aceea n care studiem corelaia dintre
fenomene reprezentate prin dou iruri de date, n acest caz, intervenind calculul altor parametri
specifici (a se vedea tema 6).
Chestionar:
1) Sistematizai angajaii din ntreprinderea n care lucrai, folosind funciile Excel
-pe grupe de vrst;
-pe studii;
-pe numr de copii.
2) Folosind funcii Excel, calculai i interpretai media, mediana, modala i abaterea standard
pentru urmtoarele date, reprezentnd salariul angajailor (n mil.lei) dintr-o anumit firm
pe ultima lun:
5,5; 7,2; 8,1; 6,7; 8,2; 7,3; 12,7; 32,5; 28; 18,5; 12,4; 7,3; 8,11.
29
INDICATORI STATISTICI CE REFLECT ACTIVITATEA LA NIVELUL
NTREPRINDERII, N CONTEXTUL INDICATORILOR
MACROECONOMICI DISPONIBILI PE INTERNET
4.1. Noiunea de indicator statistic
Surprinderea variabilitii din forma de manifestare a fenomenelor de mas, necesit
elaborarea de ctre statistic a unor metodologii i tehnici de rafinare, transformare i aplicare a
unor operaii speciale de calcul pentru obinerea unor determinri cantitativ-numerice denumite
generic indicatori statistici.
Indicatorul statistic, n forma sa general, este expresia numeric a manifestrilor unor
fenomene, procese, activiti sau categorii economice i sociale, delimitate n timp, spaiu i
structur organizatoric. Pentru cunoaterea fenomenelor de mas, indicatorii statistici ndeplinesc
mai multe funcii i anume: de msurare; de comparare; de analiz sau de sintez; de estimare; de
verificare a ipotezelor i/sau de testare a semnificaiei parametrilor utilizai.
Simpla enumerare a principalelor funcii ale indicatorilor statistici pune n eviden o
multitudine de aspecte care trebuie avute n vedere la elaborarea i folosirea acestora n analiz;
inclusiv stabilirea condiiilor i limitelor n care pot fi utilizai indicatorii statistici n raport cu
coninutul specific al fenomenelor, al surselor de informaie de care se dispune, cu scopul
cercetrii.
Pentru elaborarea i utilizarea corect a indicatorilor statistici este esenial ndeplinirea
unor cerine de principiu, generale. n acest sens, Yule (1945) precizeaz condiiile care ar trebui
s le ndeplineasc un astfel de indicator i anume:
- s fie definit n mod obiectiv, independent de dorina utilizatorului;
- s depind determinarea sa de toate valorile individuale nregistrate;
- s aib o semnificaie concret, uor de neles chiar i de nespecialiti;
- s fie simplu i rapid de calculat;
- s fie puin sensibil la fluctuaiile de selecie (s nu prezinte valori puternic
diferite, dac se calculeaz pe baza mai multor eantioane, de acelai volum,
extrase prin acelai procedeu din aceeai colectivitate);
- s se preteze la calcule algebrice (s poat fi utilizat n operaii de comparare a
mai multor serii statistice sau n operaii de agregare/dezagregare).
Indicatorii statistici se pot grupa n indicatori primari i derivai
a) Indicatori primari (mrimi absolute) exprim direct, general nivelul
caracteristicii cercetate. Se pot obine prin nregistrarea direct, centralizarea datelor sau prin
nsumarea parial sau total a datelor individuale; prezint o capacitate relativ limitat de
descriere a fenomenului/procesului analizat, i nu permite realizarea unor aprecieri calitative, ns
reprezint punctul de plecare al analizei statistice;
b) Indicatori derivai se obin prin prelucrarea indicatorilor primari (absolui) i fac
posibil analiza aspectelor calitative ale fenomenelor i proceselor analizate (ex: mrimi relative,
mrimi medii, indicatori ai variaiei, indici, indicatori ai corelaiei, etc).
4.2. Indicatorii tendinei centrale
Orice businessman sau manager nainte s decid trebuie s cunoasc manifestrile
individuale ale fenomenelor de mas din domeniul lui de activitate. Riscul n orice iniiativ este
cu att mai mic cu ct cunoaterea este mai profund. Aceasta demonstreaz c adoptarea oricrei
decizii este precedat de cunoaterea manifestrilor acestor fenomene social-economice de mas.
Fenomenele de mas se caracterizeaz n principal prin variabilitatea formelor de
manifestare, determinat de aciunea combinat n sensuri diferite a unui complex de factori
30
sistematici sau ntmpltori, obiectivi sau subiectivi, eseniali sau neeseniali, identificai direct sau
indirect. Fenomenele de mas social-economice se manifest nu la nivelul fiecrei uniti din
colectivitatea investigat ci la nivelul colectivitii, ca tendin. Abaterile de la tendin se
compenseaz obiectiv reciproc.
Prin urmare, fundamentarea deciziilor presupune cunoaterea la nivelul colectivitii
investigate a tendinei, a ceea ce este obiectiv, esenial, comun i stabil n formele individuale de
manifestare a fenomenelor.
Indicatorii cu care se caracterizeaz tendina central din forma de manifestare a
fenomenelor de mas au ca principal funcie aceea de a sintetiza n aa manier valorile
individuale nregistrate ale caracteristicilor urmrite astfel nct s fie posibil substituirea acestora
fr s modifice esena i relaia obiectiv dintre date. Indicatorii sintetici ai tendinei centrale
trebuie s fie acceptai fr ambiguitate i trebuie nelei de toat lumea n acelai fel. Valorile lor
calculate trebuie s fie valori tipice i nu valori arbitrare sau subiective.
Indicatorii tendinei centrale se determin n general ca indicatori medii sau indicatori de
poziie (ai localizrii), n funcie de natura caracteristicilor urmrite n colectivitatea investigat, de
scopul investigaiei. Sunt dese situaiile cnd tendina central se caracterizeaz printr-un anumit
tip de medie (aritmetic, armonic, ptratic, geometric), dar i situaii de utilizare a indicatorilor
sintetici de poziie (sau localizare modul, cuantile).
n general, indicatorii tendinei centrale calculai ca mrimi medii sau ca medii de structur
(localizate) nu satisfac toate condiiile lui Yule. Utilizatorul trebuie, ns, s fie interesat s
cunoasc condiiile nendeplinite i implicaiile acestora pentru fundamentarea deciziilor.
4.2.1. Indicatorii medii
Pentru caracterizarea tendinei centrale, din manifestarea unui fenomen de mas, se
calculeaz media valorilor individuale ale caracteristicii urmrite. Media este o msur a tendinei
centrale, iar valoarea sa calculat sintetizeaz ntr-un singur nivel reprezentativ tot ceea ce este
tipic, esenial, comun i obiectiv n apariia i manifestarea fenomenelor de mas. Media trebuie
neleas ca un nivel obinuit, ca un nivel la care ne ateptm, ca un fel de speran matematic
sau centru de greutate capabil s exprime esena comun a tuturor sau a majoritii manifestrilor
individuale ce alctuiesc colectivitatea cercetat. Dei coninutul acestei mrimi este abstract,
forma de exprimare este concret. Media se exprim n uniti concrete de msur, dar are un
caracter abstract deoarece valoarea ei calculat poate s coincid sau nu cu vreo valoare
individual nregistrat de variabila numeric urmrit. Ea are un coninut cu att mai real cu ct
este mai reprezentativ, cu ct valorile individuale din care se calculeaz sunt mai omogene, mai
apropiate, ca mrimi, ntre ele. Numai n aceste condiii n vecintatea valorii medii se
concentreaz cele mai multe valori individuale nregistrate, iar sintetizarea lor ntr-o singur
valoare se efectueaz pe baza unei realiti obiective.
Calculul mediei, ca msur a tendinei centrale, trebuie s fie precedat de verificarea
omogenitii colectivitii dup caracteristica urmrit. n cazul n care mulimea valorilor
individuale nregistrate este eterogen, colectivitatea se structureaz pe grupe omogene, iar apoi se
calculeaz adecvat medii pariale, astfel nct media pe ntregul ansamblu apare ca o sintez a
mediilor pariale.
n funcie de natura caracteristicii urmrite, de scopul investigaiei, nivelul mediu al
acesteia se calculeaz ca medie aritmetic, armonic, ptratic, geometric. In cazul n care dup
sistematizarea/gruparea datelor, (valorile individuale prezint frecvene diferite de apariie) nivelul
mediu se calculeaz ca medie ponderat.
Media aritmetic
n sens statistic, media aritmetic a valorilor individuale x
1
, x
2
, , x
n
ale caracteristicii
numerice X reprezint acea valoare
x
care s-ar fi nregistrat dac toi factorii de influen ar fi
31
acionat constant (cu aceeai intensitate) la nivelul fiecrei uniti de nregistrare. Prin urmare,
avem:
n
x x x
x
n
+ + +

...
2 1
, sau
n
x
x
n
i
i

1
.
Exemplu: Dac o firm primete comenzi pentru trei luni consecutive, iar valoarea
acestora este: 151 u.m., 52 u.m. i 280 u.m., valoarea medie lunar a comenzilor este:
. . 161 . .
3
483
. .
3
280 52 151
m u m u m u
+ +
De remarcat este faptul c valoarea mediei aritmetice poate s coincid sau nu cu una dintre
valorile individuale ale caracteristicii, dar precis ea se ncadreaz ntre valoarea minim i maxim.
ntr-o colectivitate statistic, suficient de mare, unde, de obicei, multe valori prezint o
anumit frecven de apariie, media aritmetic se calculeaz ca o medie ponderat.
n
x f
x
n
i
i i

1
, unde f
i
reprezint frecvena valorii x
i
i

n
i
i
n f
1
.
Exemplu: Media distribuiei prezentate n tabelul urmtor
Numr de vehicule n stare bun de funcionare 1 2 3 4 5
Numr de zile de funcionare 5 11 4 4 1
este media numrului de vehicule n bun stare de funcionare, adic
4 , 2
25
60
1

n
x f
x
n
i
i i
.
Observaie. n cazul unei distribuii de frecvene grupate (discrete sau continue), x
i
reprezint centrul de interval al grupei iar f
i
frecvena valorilor din intervalul grupei.
Exemplu: Dac numrul de vnzri realizate ntr-o anumit regiune de comis-voiajorii
angajai de o firm de calculatoare de buzunar sunt:
Numr de vnzri 0-4 5-9 10-14 15-19 20-24 25-29
Numr de comis-voiajori 1 14 23 21 15 6
atunci media numrului de vnzri este:
3 , 15
80
1225
80
6 27 15 22 21 17 23 12 14 7 1 2

+ + + + +
x .
Observaie: Media aritmetic nu este considerat potrivit pentru seturile de date care au
valori extreme la unul dintre capetele intervalului, deoarece n acest caz se iau n calcul i acele
valori, fapt ce poate duce la obinerea unei medii care nu este cu adevrat reprezentativ i care
este implicit inutilizabil n practic. Se consider c acest lucru reprezint cel mai mare
dezavantaj al mediei aritmetice.
Media armonic
Media armonic este un alt indicator al tendinei centrale folosit numai n anumite situaii,
i anume atunci cnd seturile de date sunt alctuite din valori exprimate sub form de rapoarte,
cum ar fi preurile (n u.m./kg), vitezele (n mp/h) sau productivitatea (produse/or-om). Media
armonic se definete ca valoare invers a mediei aritmetice a inverselor valorilor elementelor
individuale nregistrate. Deci, relaia de calcul a mediei armonice simple a irului x
1
, x
2
, , x
n
este
urmtoarea:

n
i i
a
x
n
m
1
1
32
Exemplu: S presupunem c se efectueaz trei investiii care produc acelai venit. Ratele
lor de randament sunt urmtoarele: 5%, 10% i 15%. Rata medie cu care trebuie plasat capitalul
pentru a produce venitul global al celor trei investiii va fi calculat ca medie aritmetic a
randamentelor individuale:
% 18 , 8
30
11
3
15
1
10
1
5
1
3

+ +

a
m
Acest rezultat, dup cum se observ, este diferit de valoarea calculat a mediei aritmetice,
care este de 10%.
Pentru o serie de distribuii de frecvene media armonic ponderat se calculeaz dup
relaia:

n
i
i
i
n
i
i
a
f
x
f
m
1
1
1
, dac se utilizeaz frecvenele absolute.
Atunci cnd este vorba de calcularea mediei unui ansamblu de elemente exprimate printr-
un raport (ca rate), n funcie de modul de msurare al datelor, pentru mediere se va alege fie
media armonic, fie media aritmetic. Criteriile folosite pentru alegerea mediei adecvate por fi
enunate dup cum urmeaz:
a. dac fraciile utilizate pentru stabilirea cantitilor crora li se va calcula media au acelai
numrtor, atunci trebuie folosit media armonic;
b. dac fraciile utilizate pentru stabilirea cantitilor crora li se va calcula media au
acelai numitor, atunci trebuie folosit media aritmetic.
Exemplu: O firm are n dotare dou tipuri de camioane.
a) Dac dou camioane (cte unul pentru fiecare tip) au fost testate pe o distan de 2000
km i pentru consum s-au obinut rezultatele de 14 km/l i respectiv 18 km/l, atunci cantitatea de
la numrtor (km sau distana) a fost aceeai pentru ambele camioane i, astfel, media cea mai
adecvat ce poate fi utilizat pentru consum este cea armonic. n acest caz, consumul mediu este
75 , 15
18
1
14
1
2

a
m
km/l.
b) Dac presupunem, ca un al doilea caz, c ambele camioane sunt alimentate cu 10 l de
carburant i testate pn cnd se epuizeaz carburantul, cu scopul de a obine cele dou cantiti de
14 i respectiv 18 km/l, atunci nseamn c acum cantitatea de la numitor este aceeai pentru
ambele camioane. Acest lucru arat c cea mai adecvat medie care poate fi folosit este cea
aritmetic. n acest caz, consumul mediu este 16
2
18 14

+
x km/l.
Diferena care apare ntre valorile obinute pentru cele dou medii poate fi explicat prin
faptul c media aritmetic de 16 km/l a rezultat n urma consumrii celor 10 l de carburant, n timp
ce media armonic de 15,75 km/l a fost obinut n funcie de consumul nregistrat pe distana de
2000 km.
Media geometric
Media geometric este o mrime specializat folosit pentru a calcula media creterilor
procentuale. Media geometric reprezint acea valoare a caracteristicii observate care dac ar
nlocui fiecare valoare individual din serie produsul acestora nu s-ar modifica, adic
n
n
i
i g
x m
1
1
1
]
1

33
Media geometric poate fi folosit pentru a calcula media creterilor procentuale a
salariilor sau preurilor bunurilor. Datorit modului n care este definit, media geometric nu prea
ine cont de valorile extreme, iar uneori este folosit ca o alternativ a mediei aritmetice.
Indicele Financial Times (FT) este cel mai cunoscut exemplu al folosirii n practic a
mediei geometrice. Acesta se calculeaz ca medie geometric a valorilor unui grup selectat de
aciuni.
Exemplu: Dac se tie c n fiecare an al unei perioade de patru ani (succesivi) preul uni
bun a crescut cu 6%, 13%, 11%i respectiv 15%, atunci calculai media creterilor preului bunului
respectiv.
Avem % 2 , 11 112 , 0 15 , 0 11 , 0 13 , 0 06 , 0
4

g
m .
Aceast valoare (11,2%) reprezint creterea procentual anual constant care este
necesar pentru ca pornindu-se de la preul din primul an (care se d) s se ajung la preul din
ultimul an.
4.2.2. Indicatori de poziie
Indicatorii de poziie nu se calculeaz ci se identific n cadrul unei serii (colectiviti) cu cte
o variant real, care posed o anume proprietate, n temeiul creia respectiva variant ofer o
informaie satisfctoare despre esenialul, tipicul ntregii colectiviti.
Mediana (Me) reprezint valoarea central a unei serii de date aranjate cresctor sau
descresctor. Cu alte cuvinte, fa de valoarea median, jumtate din observaii au valori mai mici
sau egale cu mediana, iar jumtate au valori mai mari sau egale cu mediana.
Utilizarea medianei ca o expresie a tendinei centrale este recomandat mai ales atunci
cnd seria conine valori extreme, valoarea medie nemaifiind, n acest caz, reprezentativ.
Pentru seria simpl:
Dac seria are un numr impar de termeni, mediana este a (n+1)/2 valoarea din seria
ordonat (cresctor sau descresctor). n cazul unei serii cu un numr impar de termeni, mediana
va fi egal cu media aritmetic a celor doi termeni centrali.
Pentru seria de frecvene:
n calculul medianei unei distribuii de frecvene se parcurg urmtoarele etape:
Se cumuleaz cresctor frecvenele de apariie
se determin locul medianei loc Me = (ni+1)/2
se stabilete intervalul median ca fiind primul interval cu frecvena cumulat mai
mare dect locul medianei
se determin mediana pe baza formulei:
Me
PMe Me
n
n locMe
h x Me

+
0
unde: x = limita inferioar a intervalului median
k = mrimea intervalului median
n
pMe
= suma frecvenelor pn la intervalul median
n
Me
= frecvena intervalului median
Modul sau dominanta unei variabile reprezint valoarea care nregistreaz cea mai mare
frecven de apariie. Valoarea modal se utilizeaz ca indicator al tendinei centrale atunci cnd
media nu se poate calcula sau nu are sens s fie calculat. De exemplu, n loc de stabilirea mrimii
medii la confecii, a numrului mediu la pantofi etc. se prefer observarea variantei cele mai
frecvente.
Anumite serii de date pot s nu prezinte o valoare modal pe cnd altele pot avea dou sau
mai multe valori modale. Pentru a putea analiza astfel de serii multimodale, este necesar ca
numrul de nregistrri s fie suficient de mare.
n cazul seriilor de date organizate pe intervale de variaie a caracteristicii de grupare,
modul se afl prin interpolare n intervalul de grupare cu frecvena cea mai mare.
34
Pentru seria simpl:
Modul este valoare care se nregistreaz cel mai frecvent.
Pentru seria de frecvene:
Estimarea valorii modale presupune parcurgerea urmtoarele etape:
se determin intervalul modal (intervalul cu frecvena cea mai mare)
se determin modul pe baza formulei:
2 1
1
0
+

+
Mo Mo
k x Mo
unde: x = limita inferioar a intervalului modal
k = mrimea intervalului modal
1
= diferena ntre frecvena intervalului modal i frecvena intervalului anterior
2
= diferena ntre frecvena intervalului modal i frecvena intervalului urmtor
Observaie: Pentru seriile de date care tind ctre repartiia normal, mediana este cuprins
ntre media aritmetic i mod, iar n cazul unei repartiii normale perfecte, media coincide cu
mediana i modul.
Aplicaia 1 : Salariul net lunar al celor 12 angajai ai unei firme a nregistrat n luna martie
2006 urmtoarele valori (mii u.m.): 6,2; 5,4; 5,2; 10,4; 8,2; 7,5; 5,8; 6,2; 26,0; 6,2; 6,7; 6,9.
Stabilii care dintre cei trei indicatori ai tendinei centrale reprezint valoarea medie cea mai
semnificativ corespunztoare seriei simple de date.
Rspuns:
media aritmetic simpl:
. . 4 , 8
12
8 , 100
12
9 , 6 .... 4 , 5 2 , 6
1
m u mii
n
x
x
n
i
i

+ + +

calculul medianei necesit ordonarea seriei: 5,2; 5,8; 5,4; 6,2; 6,2; 6,2; 6,8; 6,9; 7,5; 8,2;
10,4; 26,0. Mediana se calculeaz ca media aritmetic simpl a celor doi termeni centrali:
. . 5 , 6
2
8 , 6 2 , 6
m u mii Me
+

modul reprezint salariul cel mai des ntlnit: Mo = 6,2 mii u.m.
Dintre cei trei indicatori medii cea mai puin reprezentativ este media aritmetic, aceasta
fiind distorsionat de cele dou valori extreme ale seriei de date. Valoarea modal are o frecvent
de apariie de numai trei nregistrri, ceea ce face ca valoarea median s fie cea mai reprezentativ
medie corespunztoare seriei simple de date analizate.
Aplicaia 2. Repartiia pe grupe de vrst a personalului dintr-o reea de distribuie se
prezint n tabelul de mai jos. S se reprezinte grafic seria de date i s se calculeze indicatorii
tendinei centrale (media, mediana i modul).
Tabel nr. 1
Vrsta (ani) Nr de persoane
(n
i
)
Centrul intervalului
x
i
x
i*
n
i
Frecvene
cumulate
1 2 3 4 5
Sub 25* 7 20 140 7
25 3 12 30 360 19
35 45 20 40 800 39
45 55 8 50 400 47
55 i peste 3 60 180 50
Total 50 1880 ---
* limita superioar inclus n interval
35
Rezolvare:
Vrsta medie a celor 50 de angajai ai firmei se determin utiliznd formula mediei
aritmetice ponderate:
ani 6 , 37
50
1880
n
n x
x
i
i
i
i i

Estimarea medianei presupune parcurgerea urmtoarelor etape:


- Calculul frecvenelor cumulate cresctor (vezi coloana 5 a tabelului de mai sus)
- Determinarea locului medianei: loc Me = 51/2 = 25,5
- Stabilirea intervalului median: [35 45)
- Aplicarea formulei medianei
Me = 35 + 10 (25,5-19)/20 = 38,25 ani
Vrsta ea mai des ntlnit ntre cei 50 de angajai ai firmei se estimeaz astfel:
- Se determin intervalul modal (intervalul cu frecvena cea mai mare): [35-45)
- Se calculeaz valoarea modal:
Mo = 35 + 10 (8/8+12) = 39 ani
4.3. Indicatori sintetici ai mprtierii
Indicatorii sintetici ai mprtierii (variaiei), sintetizeaz ntr-o singur expresie numeric
variaia valorilor individuale fa de tendina central a caracteristicilor urmrite, ntr-o populaie
statistic. Principalii indicatori sintetici cu care se caracterizeaz mprtierea (variana)
termenilor seriei fa de tendina lor central sunt: abaterea medie liniar, dispersia, abaterea medie
ptratic (sau abaterea standard) i coeficientul de variaie. La baza determinrii indicatorilor
sintetici stau abaterile individuale, dar pentru a se evita compensarea, ele vor fi luate n modul
(valoare absolut).
Abaterea medie liniar arat cu ct se abat, n medie, termenii seriei de la media lor.
pentru serii simple
n
x x
n
d
i i

d
pentru serii de frecvene



i
i i
i
i i
n
n x x
n
n d
d
Dezavantaj: nu ine cont de semnul algebric i acord aceeai importan att abaterilor mari ct i
celor mici ale termenilor seriei de la medie.
Dispersia se calculeaz ca medie aritmetic (simpl sau ponderat) a ptratelor abaterilor
termenilor seriei de la media lor; este un indicator abstract, fr unitate de msur, i arat modul
n care termenii seriei graviteaz n jurul mediei.
pentru serii simple
2
2
i
2
i 2
x
n
x
n
) x x (

pentru serii de frecvene


2
i
i
2
i
i
i
2
i 2
) x (
n
n x
n
n ) x x (

Abaterea medie ptratic (abaterea standard, abaterea tip) se calculeaz ca medie


ptratic (simpl sau ponderat) a abaterilor termenilor seriei de la media lor:
36
2

Dezavantaj: se exprim n unitatea de msur a variabilei pentru care se calculeaz, fcnd
imposibil compararea variaiilor a dou caracteristici exprimate n uniti de msur diferite.
Coeficientul de variaie se calculeaz ca raport procentual ntre abaterea medie
liniar/ptratic i nivelul mediu. (simpl sau ponderat) a abaterilor termenilor seriei de la media
lor;
100
x
d
v sau, mai des folosit 100
x
v

Un coeficient care se apropie de 0 arat lipsa variaiei, colectivitatea fiind alctuit din
termeni foarte omogeni. Daca v = 0, termenii seriei sunt egali ntre ei.
Din statistica experimental s-a preluat aprecierea urmtoare: dac v este pn n 35%, se
consider c intensitatea variaiei este redus, colectivitatea este omogen i n consecin media
este reprezentativ. Cu ct se depete pragul de 35%, cu att intensitatea variaiei crete, iar
colectivitatea este mai eterogen. n aceste condiii, media tinde s fie o mrime nereprezentativ.
Dac v > 50% variaia caracteristicii este foarte mare, colectivitatea nu este omogen, media nu
este reprezentativ; este necesar regruparea datelor.
Aplicaia 3. S se stabileasc dac colectivitatea celor 50 de angajai analizai n aplicaia 2
este omogen.
Tabel nr. 2
Vrsta
(ani)
Nr. de
persoane (n
i
)
Centrul
intervalului
x
i
x x
i
i i
n x x
( )
i i
n x x
2

1 2 3 4 5 6
Sub 25* 7 20 -17.6 -123.2 309.76
25 35 12 30 -7.6 -91.2 57.76
35 45 20 40 2.4 48 5.76
45 55 8 50 12.4 99.2 153.76
55 i peste 3 60 22.4 67.2 501.76
Total 50 12 0 1028.8
Pentru a stabili gradul de omogenitate a colectivitii de 50 angajai calculm coeficientul
de omogenitate.
n tabelul nr. 2 totalul din colana a 6-a permite calcularea dispersiei:
58 , 20
50
8 , 1028
2

Abaterea medie ptratic ani 54 , 4 58 , 20 semnific faptul c vrsta medie a celor
50 de angajai ai firmei se abate n medie cu 4,54 ani de la media estimat.
Abaterea standard de 4,54 ani reprezint 9,07% fa de medie:
% 07 , 9 100
6 . 32
54 , 4
v
Intensitatea mprtierii variantelor reale ale fa de vrsta medie este redus ceea ce arat
c media 6 , 32 x ani este reprezentativ pentru toi cei 50 de angajai ai firmei.
4.4. Indicatorii asimetriei
Forma variaiei n jurul mediei se exprim statistic prin mai muli indicatori ai asimetriei,
boltirii, excesului repartiiei de frecvene etc. Cea mai simpl modalitate de descriere acceptabil,
37
chiar dac incomplet a formei variaiei este observarea diferenei ntre medie i mod care se
numete asimetrie: 0 Mo x as
Dac Mo x atunci exist simetrie perfect;
Dac Mo x > atunci exist asimetrie pozitiv sau de stnga;
Dac Mo x < atunci exist asimetrie negativ sau de dreapta.
Aprecierea de stnga sau de dreapta provine din observarea poziiei n care se afl
modul (Mo) fa de medie (
x
) pe axa absciselor n cazul unei serii de repartiie asimetric
Pentru a aprecia calitativ aceast situaie, se recurge, n mod frecvent, la coeficientul de
asimetrie propus de Karl Pearson

Mo x
C
as

Dac seria de repartiie este bi sau multimodal, dar tinde spre normalitate, se poate recurge
i la estimarea:

) ( 3 Me x
C
as


Coeficientul de asimetrie ia valori n intervalul (-3; 3).
n msura n care coeficientul de asimetrie se ncadreaz n intervalul (0; 0,3) spunem c
avem de-a face cu o asimetrie moderat i consecin indicatorii tendinei centrale caracterizeaz
corect colectivitatea (sunt reprezentativi).
Aplicaia 4. Caracterizai asimetria seriei de frecvene din aplicaia 2.
Rspuns: Valoarea coeficientului de asimetrie Pearson:

31 , 0
54 , 4
39 6 , 37
C
as

indic o asimetrie moderat negativ (de dreapta). Cu alte cuvinte, media i ceilali indicatori ai
tendinei centrale caracterizeaz corespunztor colectivitatea cercetat.
4.5. Indicatori macroeconomici disponibili pe Internet
Datele lunare cu privire la principalii indicatori economico-sociali sunt prezentate de
Institutul Naional de Statistic n Buletinul statistic lunar i au caracter provizoriu, pot face
obiectul unor revizuiri ulterioare; datele se definitiveaz anual, pe baza anchetei structurale de
ntreprindere i a unor anchete anuale specifice efectuate de INS. Adresa de Internet este
www.bnr.ro.
SONDAJUL STATISTIC N STUDIUL FENOMENELOR SOCIAL-
ECONOMICE SUPORT AL TEORIEI DECIZIEI. SITE-URI DE SONDARE A
OPINIEI PUBLICE.
5.1. Introducere
38
Pentru caracterizarea statistic a fenomenelor i proceselor social-economice de mas cu
scopul evidenierii legitilor specifice acestora, se folosesc date individuale obinute prin metode
de nregistrare total sau parial.
n practic din diferite motive pentru anumite colectiviti nu se poate face nregistrarea
total a unitilor ce le compun, fie c ar fi necesitat cheltuieli foarte mari, fie c operativitatea
obinerii rezultatelor cercetrii nu este asigurat. Toate aceste considerente i altele nespecificate,
necesit tot mai frecvent organizarea unor nregistrri pariale de tipul sondajelor statistice.
Metoda sondajului este folosit cu succes n industrie pentru determinarea productivitii
muncii n uniti naturale, n cercetarea calitii produselor se folosete pe scar larg n timpul
desfurrii proceselor tehnologice pentru prevenirea rebuturilor, n depistarea cauzelor care
provoac fluctuaia forei de munc, n studierea capacitilor de producie, a suprafeelor de
producie, etc.
n comer, sondajul este utilizat pentru testarea acceptrii noilor produse, la studierea
aspectelor complexe ale cererii de mrfuri n funcie de variaia factorilor care o influeneaz,
precum i la estimarea tendinelor specifice ale activitilor de desfacere a mrfurilor i a
prestrilor de servicii ctre populaie.
n scopul studierii nivelului de trai al populaiei, se efectueaz cercetarea selectiv cu
caracter permanent, pe baza bugetelor de familie, privitoare la mrimea i structura veniturilor,
cheltuielilor i consumului populaiei, pe categorii sociale.
Sondajul statistic se aplic cu rezultate bune i n celelalte ramuri ale economiei, nct se
poate spune pe drept cuvnt c aproape nu exist domeniu unde sondajul statistic, datorit
avantajelor pe care le prezint, ct i a exactitii rezultatelor, s nu fie folosit.
5.2. Noiuni specifice
Cercetarea parial al crei scop este ca, pe baza rezultatelor prelucrrii datelor obinute, s
se estimeze, folosind principiile teoriei probabilitilor, parametrii corespunztori ai colectivitii
totale, poart denumirea de sondaj statistic. Cu alte cuvinte, cercetarea prin sondaj realizat cu un
efort material i uman mai redus are drept rezultat obinerea unor indicatori derivai care permit
caracterizarea complet i real a ntregii colectiviti. n vederea atingerii acestui deziderat
cercetarea prin sondaj se desfoar n dou etape:
1. se culeg i se prelucreaz date statistice de la unitile colectivitii generale care au fost
incluse n eantion din care rezult indicatorii derivai: mrimi relative, mrimi medii, indici, etc.
care descriu eantionul folosit.
2. indicatorii obinui prin prelucrarea datelor din eantion se extind, cu o anumit
probabilitate, asupra ntregii colectiviti n scopul caracterizrii acesteia din punct de vedere
statistic.
Din cele relatate mai sus rezult c noiunea de cercetare statistic prin sondaj nu trebuie
confundat nici cu noiunea de cercetare statistic total care comport cele trei faze ale cercetrii
statistice: culegere, prelucrare, analiz i interpretarea datelor i nici cu noiunea de observare
selectiv care se rezum doar la culegerea informaiilor de la unitile care alctuiesc eantionul.
Cercetarea prin sondaj implic folosirea unor noiuni perechi ca de pild: colectivitate
general colectivitate de selecie, media colectivitii generale media colectivitii de selecie,
dispersia colectivitii generale dispersia colectivitii de selecie, valoarea statistic calculat
valoarea estimat, etc.
Colectivitatea general denumit i populaie, este alctuit din totalitatea unitilor simple
care formeaz fenomenul supus cercetrii. Pentru ca cercetarea statistic s-i ating scopul propus
este necesar delimitarea n timp, spaiu i dup volum a acestei colectiviti.
Colectivitatea de selecie (sondaj, prob, mostr, eantion) reprezint acea parte a
colectivitii generale de la care urmeaz s se culeag datele n scopul generalizrii rezultatelor
obinute din prelucrarea acestora, asupra ntregului ansamblu.
39
n studiul statistic al fenomenelor se folosete foarte frecvent perechea de noiuni valoare
statistic calculat i valoarea estimat.
Se consider c valoarea statistic calculat este rezultatul obinut dintr-o cercetare
empiric. Aceste valori statistice sunt folosite pentru a estima un indicator corespunztor, dar
pentru care nu avem date suficiente. Cel mai frecvent aceste noiuni se folosesc n teoria sondajului
cnd indicatorii din eantion devin estimatori ai parametrilor corespunztori din colectivitatea
general.
Pentru ca cercetarea selectiv s-i ating scopul propus este necesar o pregtire
minuioas a acesteia, pe baza unui plan care s permit obinerea unor informaii ct mai veridice.
Un astfel de plan al cercetrii prin sondaj trebuie s cuprind:
1. delimitarea n timp i spaiu a colectivitii generale prin identificarea tuturor cazurilor
individuale sub care se manifest fenomenele respective;
2. verificarea gradului de omogenitate al colectivitii generale;
Dac exist o observare total anterioar aceasta se poate realiza prin analiza indicatorilor
variaiei caracteristicilor eseniale pentru care este necesar s se organizeze mai multe sondaje
succesive pentru verificarea gradului de stabilitate a mediei i dispersiei caracteristicilor dup care
se va face eantionarea.
3. alegerea sau stabilirea bazei de sondaj;
Prin baz de sondaj se nelege orice sistematizare a unitilor (liste, hri), astfel nct s
permit alegerea ntmpltoare a unitilor ce vor lucra n eantion.
4. alegerea i definirea unitilor folosite la eantionare;
5. alegerea tipului i procedeului de selecie;
6. stabilirea periodicitii efecturii sondajului;
7. stabilirea planului observrii care de regul, este mai bogat dect al unei observri totale
similare;
8. stabilirea planului de prelucrare a datelor de selecie din punct de vedere metodologic i
organizatoric;
9. alegerea procedeelor de verificare a semnificaiei indicatorilor de selecie i de extindere
a rezultatelor seleciei asupra ntregului ansamblu.
Rezolvarea cu competen a problemelor cuprinse n planul de sondaj au drept scop
asigurarea reprezentativitii eantionului, de aceasta depinznd n totalitate valoarea rezultatelor
obinute n urma cercetrii prin sondaj.
Un eantion este considerat reprezentativ atunci cnd produce n structura sa aceeai
structur pe care o prezint i colectivitatea general.
Teoria i practica statistic demonstreaz c asigurarea reprezentativitii eantionului
presupune respectarea cu strictee a urmtoarelor condiii:
1. includerea n eantion a unitilor n mod obiectiv fr a acorda preferin uneia dintre
ele, fiecare unitate fiind extras dup principiul hazardului cu o probabilitate calculabil i diferit
de 0;
2. eantionul stabilit s fie suficient de mare ca s permit redarea trsturilor eseniale ale
populaiei originare, ceea ce va permite obinerea, pe baza datelor de sondaj a unor indicatori cu un
grad mare de stabilitate;
3. includerea fiecrei uniti n eantion trebuie s se fac independent de alte uniti.
5.3. Erorile de sondaj
Principala clas a erorilor de sondaj o constituie erorile de reprezentativitate sistematice -
avnd drept surs nclcarea principiilor alctuirii corecte a eantioanelor i erorile ntmpltoare, ce
i au sursa n nsi natura sondajului ca cercetare parial, erori ce nu pot fi eliminate, dar pot fi
predimensionate, deci distorsiunile de apreciere realizate prin cercetarea unui eantion pot fi
"prevzute" statistic.
Msurarea erorii de reprezentativitate se poate efectua:
40
- absolut, ca dimensiune a deplasrii indicatorului (parametrului) de sondaj ( ) x , de la
mrimea "adevrat" a parametrului n populaia general (m), respectiv
m x
,
- relativ, caz n care indicatorul "eroare de eantionare" se poate exprima:
% 5 100

m
m x
O eroare relativ situat sub 5% permite a se aprecia c sondajul este reprezentativ i ofer
deci o imagine aproximativ "fidel" a realitii. Dimensionarea erorii este o chestiune a "proiectrii"
unui sondaj i ine de aflarea unui "compromis" acceptabil ntre nivelul erorii i costul mririi
eantionului.
Sursa principal a erorii - n cazul sondajelor - o constituie nereprezentativitatea, iar erorile ce
provin din aceasta se numete "de reprezentativitate" i sunt provocate de faptul c eantionul nu
reproduce "n mic" structura populaiei n ansamblu.
5.4 Procedee de selecie
Statistica ofer variate procedee de prelevare a unitilor i alctuire a eantioanelor astfel
nct s se asigure un grad ct mai ridicat de reprezentativitate, principalele tipuri de sondaj fiind:
A. Sondaje aleatoare:
a. sondajul simplu;
b. sondajul tipic (stratificat);
c. sondajul de serii;
d. sondajul secvenial;
e. sondajul n trepte.
B. Sondaje dirijate
C. Sondaje sistematice
Fiecare din tipurile de sondaje enumerate se poate efectua n dou variante:
- "repetat" - cnd o unitate prelevat este restituit populaiei de origine i deci are anse s
mai reintre n eantion;
- "nerepetat" - cnd unitile nu sunt (sau nu pot fi) restituite n populaia general.
Modelul teoretic al acestor dou variante de prelucrare se afl n "urna lui Bernoulli" cu bil
revenit i nerevenit. Prelevarea unitilor se efectueaz dup diverse metode dintre care amintim:
1. Procedeul "LOTERIE", este un procedeu aleator n care unitile, perfect identificabile
("seria" imprimat pe produse sau componente, "numrul de marc" al salariailor, "numrul casei"
sau al apartamentului etc.) sunt prelevate dup corespondentul nregistrat pe bileele amestecate i
extrase aleator dintr-o "urn".
2. Procedeul "tabelelor cu numere aleatoare" este oarecum similar celui anterior, dar se
aplic populaiilor de mari dimensiuni, la care metoda de tip "LOTO" este neoperant. Conform
acestui procedeu, unitile vor fi prelevate din populaia "N" i se va alctui eantionul "n", n
ordinea (aleatoare) n care sunt nregistrate numerele ntr-un tabel de acest tip, special alctuit.
Aceste tabele ofer serii de numere aleatoare rezultate n urm aplicrii unui procedeu de tip loterie
i consemnarea rezultatelor, fie se obin prin utilizarea calculatorului electronic, folosind
programele specifice pentru "generarea numerelor aleatoare".
3. Procedeul mecanic const n prelevarea unitilor la intervale (de timp, sau numerice)
bine precizate, deci la un anumit "pas de numrare" aplicat bazei de sondaj. De exemplu, dac
eantionul "n" reprezint 10% din volumul populaiei "N", atunci se va prevala fiecare a 10-a
unitate a populaiei. Deci "pasul de numrare" este egal cu K=N/n. Pentru a mbuntii caracterul
aleator al procesului de prelevare nu se va porni extracia cu unitatea numrului 001, ci cu o unitate
oarecare extras aleator, de exemplu din primele 20. S presupunem 7. Deci unitile ce se vor
extrage din populaia i vor forma eantionul vor fi cele cu numere de ordinele urmtoare: 7;
7+10=17; 17+10=27.a.m.d.
41
5.5. Sondajul aleator simplu
Este varianta aleatoare elementar de sondaj, celelalte tipuri putnd fi nelese ca soluii
obinute prin particularizarea unor elemente ale acestui tip de sondaj. El se poate realiza, din punct de
vedere al prelevrii unitilor, n una din cele dou variante - repetat i nerepetat.
Cele mai frecvente utilizate simboluri n acest capitol se prezint n tabelul urmtor:
Indicatori Numrul de
uniti
(volumul)
Media aritmetic
pentru caracteristici
Dispersia caracteristici
msurabile binare msurabile binare
n populaia
general
N m p

2
P(l - p)
n eantion n
x
f s
2
f(l - f)
Evident, n practic, spre deosebire de teorie, se opereaz asupra unor populaii (de obiecte, sau
indivizi) finite. Prelevnd "n" uniti din cele N ale populaiei i nregistrnd pentru fiecare unitate
din eantion valoarea caracteristicii urmrite se obine irul valorilor x
1
, x
2
, ..., x
i
, ..., x
n
pe baza cruia
se calculeaz media:
n
x
x
i

Aceast medie va diferi mai mult sau mai puin de la media "adevrat" dar necunoscut din
populaia general. Evident c ntr-o alt eantionare, unitile prelevate ar fi fost foarte probabil
altele, astfel nct tot altele ar fi fost valorile caracteristicii, respectiv ale mediei de sondaj. Faptul c
indicatorii statisticii calculai pe baza datelor de sondaj difer de la eantion la eantion, rezult c ei
pot fi interpretai ca variabile aleatoare. In consecin, n prelucrarea datelor de sondaj se pot aplica
metodele i procedurile de tratare a datelor, specifice disciplinei de "probabiliti i statistic-
matematic".
Astfel, de exemplu, indicatorii estimai pe baza sondajului, fiind variabil aleatoare, pentru a
putea fi extini la ntreaga populaie, trebuie s fie: estimaii nedeplasate (valoarea medie a
indicatorului de sondaj, pentru un volum "n" finit, trebuie s fie egal cu parametrul din populaia
general); consistente (indicatorul de sondaj s convearg n probabilitate, pentru valori mari ale lui
"n", ctre parametrul teoretic - din populaia general); eficiente (s aib dispersie minim) deci, se va
putea afirma c un eantion A de volum "n" n baza cruia se estimeaz media "m" din populaia
general pentru variabila X, prin estimatorul
A x
este mai eficient dect un eantion B, tot de volum
"n" pentru estimarea mediei "m", prin estimaia
B x
, dac: M(
A x
) = m,iar M(
B x
) = m, iar D(
A x
) < D(
B x
) unde M - semnific media, iar D - dispersia.
Estimaiile obinute pe baza datelor de sondaj constituie evaluri aproximative ale
adevratelor valori ale parametrilor necunoscui din populaia general. Deci, rezultatele obinute
printr-un sondaj sunt afectate de erori. Ce se poate obine prin sondaj este nu valoarea "adevrat" a
parametrului cutat ci un "interval de ncredere", care - cu o probabilitate fixat de ctre cercettor -
acoper valoarea adevrat dar necunoscut a parametrului din populaia general. Acest interval
poart numele de interval de estimaie sau interval de ncredere.
Cele dou limite ale intervalului de ncredere
inf
i
sup

, se calculeaz pe baza datelor


sondajului x
1
, x
2
,..., x
i
,..., x
n
, astfel nct cu o probabilitate P = l -

s se ndeplineasc relaia: P(
inf
< <
sup

) = 1 -

.
42
Intervalul (
inf
,
sup

) reprezint intervalul de ncredere i definete precizia estimaiei.


Probabilitatea P = l -

caracterizeaz sigurana afirmaiilor i se numete nivel de


ncredere.

valoarea complementar a nivelului de ncredere, se numete nivel sau prag de


semnificaie i se fixeaz prin programul de cercetare. Cele mai utilizate valori ale probabilitii de
ncredere sunt 90%, 95%, 99%, 99,9%, crora le corespund niveluri de semnificaie de 10%, 5%,
1%, 0,1%.
Pe lng coeficientul de ncredere (l -

) un rol important l joac lungimea intervalului de


ncredere (
inf
,
sup

). Dac eroarea de sondaj se repartizeaz dup legea normal, atunci erorile egale
n valoare absolut au probabiliti egale de apariie pentru acelai volum al eantionului. Jumtatea
intervalului de ncredere se numete eroare limitat admis i se noteaz:
( )
2
,
sup inf

.
Indicatori ai sondajului aleator simplu repetat i nerepetat
1. Eroare medie de sondaj
a. Cazul sondajului repetat
Observaiile nregistrate pe baza datelor eantionului x
1
, x
2
, ...., x
i
, ...., x
n
pot fi considerate
variabile aleatoare, iar folosind independena valorilor variabilei, se arat c media de sondaj:
x
poate
fi un estimator nedeplasat al mediei "m" a colectivitii generale dac se ndeplinete condiia ca
media de sondaj s fie egal cu media general. Aceasta nseamn c: M(
x
) = m
Aceast relaie exprim faptul c media
x
ntr-un sondaj este un estimator nedeplasat al
mediei "m" a colectivitii generale.
Se calculeaz dispersia mediei de sondaj D(
x
) =
n

Abaterea medie ptratic a mediei de sondaj este:


n
s
n
x

adic dispersia de sondaj ntr-o eantionare cu revenire de volum n este de n ori mai mic
dect dispersia
2
a colectivitii generale.
b. Cazul sondajului nerepetat
La acest tip de sondaj unitile sunt prelevate ntmpltor din populaia general, o "unitate"
odat extras nefiind restituit populaiei de origine, deci neavnd anse s mai reintre n eantion. Dac N
este volumul populaiei generale, atunci: P(X
1
= x
1
) =
n
1
, dar probabilitatea evenimentului X
2
= x
2
condiionat de faptul c la prima extragere a avut loc evenimentul X
1
= x
1
, iar elementul odat
verificat nu mai revine n populaia general este P(X
2
= x
2
/ X
1
= x
1
) =
1
1
N
abaterea medie
ptratic a mediei de sondaj ca msurtor al erorii medii de reprezentativitate este:
N
n
n
s
N
n N
n
s
N
n N
n
x

1
1 1

n calculele efective, pentru 2 , 0 <


N
n
, de regul factorul
1

N
n N

S
au
N
n
1
nu se mai ia n consideraie. Factorul
N
n
1 este subunitar. Cnd n - volumul sondajului crete,
precizia sporete aproximativ de n ori, dup cum n acelai raport se micoreaz abaterea medie
43
x

. Acest fapt permite s se utilizeze n practic sondaje de volum nu prea ridicat, cci sporirea
volumului acestora nu se regsete proporional n ridicarea preciziei sondajului.
Dac volumul N al populaiei este ridicat, iar al sondajului este redus, atunci 1
1

N
n N
,
deci rezultatul estimrii indicatorului
x

, practic coincide n ambele variante de sondaj.


Dac n = N, atunci
N
n
1 devine nul i deci dispare i eroarea medie de sondaj, cci
cercetarea parial s-a transformat ntr-o cercetare integral. Evident aceasta nu genereaz erori
de reprezentativitate (specifice numai cercetrii prin eantioane).
n general, eroarea de reprezentativitate a eantionrii fr revenire este mai mic dect a
celei cu revenire, variant la care rentoarcerea repetat a acelorai uniti n eantion nrutete
reprezentativitatea.
Observaie:
a. Dac

- abaterea medie ptratic prin populaia general este necunoscut, ea a fost


nlocuit cu s - estimatorul ei stabilit pe baza unui sondaj;
b. Dac eantionul n vederea estimrii abaterii mediei ptratice se efectueaz pe baza
unui numr redus de uniti n prob, atunci estimatorul lui

se obine raportnd suma


ptratelor de la medie ( )


2
x x
i
la (n - 1) i nu la n - volumul unitilor din prob;
c. Un estimator al dispersiei (n cazul n care nu se poate asigura o eantionare
preliminar pentru calculul mprtierii) este i valoarea maxim a indicatorului:
( ) ( )
2
2
max
2
min 2
max
x x x x +

n cazul caracteristicilor msurabile;
d. n cazul caracteristicilor binare relaiile de calcul ale erorii medii rmn valabile,
cu meniunea c n locul lui

se va lucra cu 25 , 0 ) 5 , 0 1 ( 5 , 0 ) 1 (
max
f f unde f
este frecvena relativ a caracteristicii binare cruia i s-a atribuit codul x
1
= l.
e. n situaia sondajelor de volum ridicat calculul erorii probabile se efectueaz
utiliznd coeficienii de probabilitate identificai n tabelele Laplace ; de exemplu: pentru un risc

= 5%,
) (z
= 0,475 tabelar
96 , 1
05 , 0
z
. Pentru

sondajele de volum redus (n < 30 - 40 de
uniti) se va folosi tabela legii Student.
2. Eroarea limit (eroarea maxim admis sau probabil) -
x

Eroarea limit maxim admis definete sigurana (sau probabilitatea de ncredere)


estimrii mediei "m" prin variabila de sondaj
x
i se msoar probabilist, astfel:
x
m x <
.
Mrimea -
x

caracterizeaz precizia estimaiei. Aprecierea satisfacerii inegalitii nu se


poate face dect ca o probabilitate de realizare:
< 1 ) (
x
m x P
Probabilitatea l -

se alege de ctre cercettor n funcie de "nivelul de siguran" urmrit n


estimare, cele mai uzuale valori fiind 0,95; 0,99; 0,999. Eroarea limit se determin pornind de la
variabila
n
m x
z

care, aa cum se cunoate, are o repartiie normal, fiind valoarea (tabelat) care
satisface r el a i a: 2 ( z
a
) =P=l -

Pentru valoarea uzual

= 0,05; 0,01; 0,001 valorile variabilei z sunt


96 , 1
05 , 0
z
;
33 , 2
01 , 0
z
respectiv
09 , 3
001 , 0
z
. Din tabelele Laplace se pot obine mrimile z i pentru alte praguri
44
de semnificaie. Rezult c eroarea
m x
este egal cu:
n
z
x


pentru cazul sondajului repetat
i
N
n
n
z
x
1

n varianta sondajului nerepetat.


Evident toate precizrile efectuate anterior cu privire la nlocuirea indicatorului

prin
estimatori rmn valabile.
3. Determinarea volumului eantionului
La organizarea unei cercetri prin sondaj una din problemele de rezolvat este dimensionarea lui
raional. Este adevrat c mrimea volumului n al sondajului - n virtutea legii numerelor mari -
sporete precizia rezultatelor, reduce eroarea medie probabil. innd seama de criterii de
economicitate este necesar ca acest volum s fie ct mai mic. Lund n considerare ambele aspecte, se
determin numrul minim de uniti de observat care s satisfac exigenele de precizie i siguran
formulate n raport cu cercetarea respectiv.
n teoria i practica sondajului se opereaz cu eantioane "mari" i eantioane "de volum
redus", n funcie de gradul de omogenitate al colectivitii generale. Interpretarea erorii de
reprezentativitate se face n mod diferit: pentru eantioanele de volum mare se folosete distribuia
normal Laplace, iar pentru cele de volum redus distribuia Student.
Calculul volumului eantionului se realizeaz pornind de la eroarea limit maxim admis, care
n cazul sondajului repetat este:
n
z
x


de unde punem n eviden pe n:
2
2 2
x
z
n


, iar n cazul sondajului repetat, relaia este:
N
z
z
n
x
2 2
2
2 2

Pentru a dimensiona raional volumul n al eantionului sunt necesare urmtoarele elemente:


- eroarea limit admisibil
x

care se stabilete n funcie de particularitile concrete ale


problemei practice de soluionat, de precizia necesar de asigurat;
- probabilitatea de ncredere (1-

), (sau eroarea

), suficient de apropiat - din punct de


vedere practic - de certitudine;
- dispersia (sau estimatorul acesteia), caracteristicii n populaia general
2
;
- n cazul prelevrii fr revenire este necesar a se cunoate i volumul N al colectivitii.
4. Calculul intervalului de "ncredere"
"Intervalul de ncredere" desemneaz zona probabil n interiorul creia se va plasa media
populaiei generale. El se determin pornind de la media de sondaj corectat cu nivelul erorii limit
maxim admis:
x
m x <
relaie echivalent cu dubla inegalitate
x x
x m x + < < , deci de
modul de calcul a erorii limit, rezult c:
( ) ( ) + < < < 1
x x x
x m x P m x P
.
Deci, "intervalul de ncredere" delimiteaz "zona probabil" n care se va plasa valoarea
"adevrat" dar necunoscut a mediei din populaia general.
Lungimea intervalului de ncredere este direct proporional cu mrimea mprtierii
valorilor (msurat prin abaterea medie ptratic

) i invers proporional cu nivelul pragului de


semnificaie (la valori mici ale lui

valorile

z
cresc) i mrimea eantionului (la creterea lui n
intervalul de ncredere devine mai mic, deci precizia estimaiei sporete).
n unele situaii prezint interes i poate avea sens logic calculul intervalului probabil de
plasare a nivelului totalizat al caracteristicii n populaia general:
x N x
n
i
i

1
45
Din intervalul de ncredere pentru valoarea agregat este:

,
_

,
_

n
z x N m N
n
z x N


Evident, pentru sondajul nerepetat relaia se adapteaz lesne, n sensul nlocuirii valorii erorii
probabile cu formula adecvat acestui tip de sondaj.
5.6. Sondajul tipic (stratificat)
Se consider populaia general mprit ntr-un numr de subpopulaii pariale C
1
, C
2
, ,
C
k
numite grupe sau straturi i crora le corespund urmtoarele valori ale caracteristicii
C
1
: x
11
, x
21
, , x
N11
C
2
: x
12
, x
22
, , x
N22

C
k
: x
1k
, x
2k
, , x
Nkk
Dup cum se vede stratul C
1
are N
1
uniti, C
2
are N
2
uniti etc. Numrul total al unitilor
populaiei C este: N
1
+ N
2
+ + N
k
= N.
Din fiecare din aceste straturi se fac cte n
1
, n
2
, , n
k
extrageri la ntmplare nerepetate,
astfel c: n
1
+ n
2
+ + n
k
= n, n fiind numrul total al unitilor eantionului.
Prin urmare din fiecare grup (strat) se efectueaz cte un sondaj, obinnd eantioane ale
cror uniti au caracteristici cu valorile: x
11
, x
21
, , x
n11
; x
12
, x
22
, , x
n22
; ; x
1k
, x
2k
, , x
nkk
,
unde variabilele de sondaj x
ij
(i = 1, 2, , nj ; j = 1, 2, , k) sunt considerate drept variabile
aleatoare.
Se introduc notaiile

k
j
Nj
i
ij
x
N
m
1 1
1
- media general i

Nj
i
ij j
x
Nj
m
1
1
- media
sondajului j. Rezult c media general se mai scrie:


k
j
j j
m N
N
m
1
1
, adic media valorilor
caracteristice n populaia general este media ponderat a mediilor de grup, ponderile fiind egale
respectiv cu N
j
/ N (j = 1, 2, , k).
Analog, n cadrul sondajelor, notnd:

k
j
nj
i
ij
x
n
x
1 1
1
i

nj
i
ij
j x
nj
x
1
1
, deducem


k
j
j
j
x n
n
x
1
1
, deci media valorilor caracteristicii din sondaj de volum

k
j
j
n n
1
este
egal cu media ponderat a mediilor grupelor, ale valorilor caracteristicii din fiecare sondaj,
ponderea fiind egal cu
n
n
j
(j = 1, 2, , k).
Se arat c
x
este un estimator nedeplasat i consistent al mediei generale m deoarece
se demonstreaz c: M(
x
) = m i ( ) ( )
j
j
j
k
j
j
n
f
N
N
x D

1
1
2
2
unde
( )

Nj
i
ij
j
j m x
N
1
2
2
1
1

;
j
j
j
N
n
f
. Dup cum rezult dispersia variabilei
x
este cu att mai mic cu ct volumele nj
sunt mai mari i dispersiile
2
j
sunt mai mici. Prin urmare, ca sondajul tipic s poat da rezultate
acceptabile este necesar i suficient ca numrul unitilor extrase din fiecare grup s fie mare.
Rezult c eroarea medie de reprezentativitate i respectiv eroarea limit admis nu mai
depind de dispersia total i de media dispersiilor grupelor.
Dac se folosete dispersia din populaia de baz, eroarea limit va fi:
- pentru sondajul repetat:
46
n
z
x
2


de unde:
2
2
2
x
z
n

- pentru sondajul nerepetat:


N
n
n
z
x
1
2

de unde:
N
z
z
n
x
2
2
2
2
2

n mod analog se procedeaz i n cazul cnd estimatorul


2

este s
2
.
1. Sondajul tipic proporional
Se caracterizeaz prin faptul c din fiecare grup n care a fost mprit populaia general se
extrag attea uniti nct raportul dintre numrul lor i volumul grupei din care s-au extras s fie egal
cu raportul dintre volumul general al eantionului i volumul populaiei, adic prin definiie:
N
n
N
n
j
j

sau f
j
= f (j=l, 2, ..., k). Se deduce c
N
n
N
n
N
n
N
n
N
n
f
k
j
j
k
j
j
k
k

1
1
2
2
1
1
...
, de
unde (aplicnd cunoscuta proprietate a irului de rapoarte egale, "suma numrtorilor / suma
numitorilor, este egal cu fiecare din rapoarte"):
j j j
N f N
N
n
n (j=l, 2, ..., k).
Introducnd valoarea mai sus a lui n
j
n expresia dispersiei i innd seama ca f
j
= f,
dispersia funciei de estimaie (statistic)
x
devine:
( )

k
j
j
j
N
N
n
f
x D
1
1

.
2. Sondajul tipic optim
Dac volumul sondajului de grup n
j
este astfel dimensionat nct eficiena s fie maxim,
atunci sondajul tipic este optim. Acest fapt revine la determinarea numerelor n
j
care s satisfac
condiia n
1
+ n
2
+ ... + n
k
= n i pentru care: ( ) ( )
j
j
j
k
j
j
n
f
N
N
x D

1
1
2
2
s fie minim.
Folosind metoda multiplicatorilor lui Lagrange, se obine:

k
j
j
j
j
j
j
N
N n
n
1

, j = 1, 2, , k.
Aceasta este deci expresia care determin volumele n
j
pentru care eficiena sondajului este
maxim.
5.7. Sondajul de serii. Sondajul n mai multe faze
Adesea unitile colectivitii generale alctuiesc aa-numitele uniti complexe. De pild,
muncitorii lucreaz n cadrul anumitor formaii de lucru, oamenii triesc n familii etc. n asemenea
cazuri, sondajul poate fi organizat n aa fel nct s se extrag spre studiu asemenea uniti
complexe, urmnd ca toate unitile simple aferente unitilor complexe extrase s se cerceteze, fr
nici o excepie, n mod curent n practica metodei sondajului, unitile complexe se numesc serii (sau
uneori "cuiburi"). De unde rezult denumirea de sondaje de serii.
Evaluarea rezultatelor sondajului de serii se face cu ajutorul metodelor descrise la sondajul
aleator simplu, nlocuind ns numrul unitilor simple din populaia N i din sondaj n, cu numrul
seriilor (unitilor complexe) R i r. n locul dispersiei dintre valorile individuale s
2
se utilizeaz
47
dispersia dintre serii (uniti complexe),
2
, determinat analog cu dispersia dintre grupe. La acest
calcul se presupune c volumul seriilor este egal. n mod tacit poate fi extins aceast ipotec de
calcul i pentru seriile aproximativ egale. Dac ns volumul seriilor este mult diferit, sunt necesare alte
scheme de calcul. Atunci poate fi asimilat cu un sondaj stratificat.
n statistica economic i social unitile complexe, ce se pot asimila seriilor, se formeaz nu
la ntmplare, ci n procesul dezvoltrii economice i sociale. De aceea, unitile elementare din cadrul
unei uniti complexe sunt mai asemntoare ntre ele, deci i cu ct ele difer de la o unitate complex
la alta, cu att ele difer de ansamblul populaiei, n consecin, seria asemuit cu unitatea
complex nu este reprezentativ fa de populaie. Un numr suficient de mare de serii ns
poate forma un eantion reprezentativ. Datorit avantajelor organizatorice pe care le prezint,
sondajul de serii - chiar cu carenele sale de reprezentativitate - se justific n numeroase domenii ale
statisticii economice i sociale, ca, de pild, n statistica preurilor pe piaa rneasc, statistica
bugetelor de familie din cadrul anchetelor integrate n gospodrii etc.
n acest caz formula de calcul se particularizeaz n sensul c se lucreaz cu dispersia dintre
serii, iar volumul eantionului se estimeaz prin numrul seriilor.
5.8. Sondaje cu extracie cvasialeatoare
Din cele expuse anterior rezult c la alctuirea eantioanelor trebuie s se asigure pentru
fiecare unitate a populaiei aceeai ans de a fi prelevat, n felul acesta se creeaz cmp liber
pentru manifestarea "jocului ntmplrii", n urma cruia se realizeaz o reprezentativitate
corespunztoare a eantionului.
Cu toate acestea, n practic, ntr-o serie de cazuri, din diferite motive, extracia se face
nealeator. Un asemenea procedeu de extracie l constituie "eantionarea concentrat", care const n
includerea n eantion numai a acelei pri ce reprezint majoritatea cazurilor individuale. Aceast
metod se confund cu "observarea prii principale".
n alte situaii, cercettorii efectueaz selecia dirijat a unitilor, urmrind prin aceasta
selecionarea elementelor pe care ei le apreciaz reprezentative, de obicei pe acelea pe care le
consider apropiate de media ce trebuie estimat, ntruct valoarea medie nu se cunoate, aprecierea
privind reprezentativitatea diferitelor uniti propuse a fi incluse n eantion are caracter cu totul
subiectiv. Deci pe aceast cale nu este posibil s se asigure reprezentativitatea cert obiectiv a
rezultatelor sondajului.
Procedeul extraciei sistematice, numit i extracie mecanic, ocup o poziie intermediar ntre
sondajul aleator i nealeator. Acest procedeu const n extragerea din populaie, sistematizat dup un
criteriu anume, a numrului n de uniti care formeaz sondajul, prin aplicarea aa-numitului "pas
de numrare" egal cu N/n. Pasul arat diferena dintre numerele de ordin ale unitilor ce se extrag
succesiv dintre unitile populaiei sistematizate.
Ordonarea sistematic a unitilor se poate concretiza i sub forma aezrii n spaiu a
unitilor colectivitii. Exemplu cel mai edificator pentru o asemenea ordonare este harta
geografic a localitilor sau a obiectelor cercetate, n cazul acesta atracia sistematic se efectueaz cu
ajutorul unei "distane", aplicat dup o anumit regul, de pild de la "vest la est" i "de la nord la
sud". O asemenea ordine n general nu poate fi considerat perfect aleatoare, unitile vecine fiind mai
asemntoare ntre ele dect unitile pe ntreaga populaie.
Cnd fenomenul observat se produce n timp, cum ar fi de exemplu realizarea produciei,
pasul de extracie poate fi intervalul de timp dintre evenimente sau diferena dintre numerele de
ordine ale producerii acestora.
Aplicarea extraciei sistematice este contraindicat cnd n aezarea sau producerea cazurilor
elementare exist o anumit ciclicitate.
5.9. Siteuri de sondare a opiniei publice
48
Sondajele de opinie sunt o forma foarte popular de servicii bazate pe chestionare care au
ca scop aflarea i analizarea opiniilor clienilor/utilizatorilor. Sondajele de opinie pot fi folosite de
ctre site-urile de web din Romnia pentru a afla rapid opiniile navigatorilor pe internet.
7 Reguli pentru chestionare online eficiente
Pentru a crea chestionare online care s fie bine primite de ctre clieni, este important s
inei cont de urmtoarele reguli:
1. Evitai oboseala provocat de chestionarele lungi - Pstrai dimensiunea chestionarului online
la minim
Atunci cnd creai chestionare online, daca v dai seama c chestionarul crete n
dimensiuni astfel nct va dura mai mult de 10 minute s fie completat, luai n considerare
posibilitatea de a sparge chestionarul ntr-o serie de chestionare mai mici. Acest lucru poate
necesita ceva munc n plus, nsa vei evita o problem foarte comun dat de plictiseala care apare
la completarea chestionarelor lungi. Chiar i cei mai bine intenionai dintre clienii dumneavoastr
pot s oboseasc rspunznd pagin dup pagin la ntrebri. Cnd acest lucru se ntmpl,
tendina este de a gndi mai puin la fiecare rspuns sau n cel mai ru caz, de a pune rspunsuri la
ntmplare sau de a sri ntrebrile cu totul.
2. Motivai-v respondenii - Spunei-le de ce ar trebui s completeze chestionarul
Oferind o motivaie, este o modalitate foarte bun de a v promova chestionarul. Motivaia
poate consta n nscrierea la o tombol, sau n furnizarea unei copii a rezultatelor finale ale
chestionarului sau pur i simplu explicai-le clienilor c ei vor fi beneficiarii unor mbuntiri ce
vor fi aduse produselor sau serviciilor pe care le folosesc, bazate pe ceea ce scriu ei n chestionar.
3. Menionai clar politica de confidenialitate - Spunei clienilor cum vei folosi rspunsurile lor
Spunei-le de la nceput celor ce rspund la chestionar, cum vei folosi rspunsurile date de
ei. Fii clar i direct dac intenionai s facei publice orice informaii care pot fi identificate ca
venind de la ei. Dac nu este cazul, asigurai-i c rspunsurile lor vor fi confideniale i c vor fi
analizate numai mpreun cu alte rspunsuri, fr a se face o identificare particular.
4. Folosii logica de salt ntre pagini - Nu lsai clienii s citeasc pagini ntregi de ntrebri care
nu sunt relevante pentru ei
Dei unele chestionare folosesc comenzi scrise de genul Dac ai rspuns cu DA la
ntrebarea #2, mergei la ntrebarea #7, dac nu, continuai cu ntrebarea #3, este mai bine s
folosii logica de salt ntre pagini atunci cnd v creai chestionarul online. Folosind logica de salt,
putei trimite direct clientul la o anumit pagin, dac a rspuns ntr-un anume fel la o ntrebare.
Acest lucru poate evita unele confuzii i scurteaz timpul necesar pentru completarea
chestionarului.
5. Folosii mai multe pagini - Cu excepia chestionarelor foarte scurte, nu ncercai s punei toate
ntrebrile n aceeai pagin
Atunci cnd respondenii vd o pagin foarte lung de ntrebri, pot s fie speriai de
numrul lor i s renune. Ca alternativ, ncercai s punei ntrebrile pe mai multe pagini.
6. Menionai ct dureaz completarea chestionarului
Indiferent dac chestionarul dumneavoastr este scurt sau dureaz cteva minute s fie
completat, spunei lucrul acesta direct clienilor. Fii corect n ceea ce privete estimarea de timp.
Dac unui client i va lua mult mai mult timp s completeze chestionarul dect ai precizat, se va
putea simi pclit. Dac avei un chestionar lung, ar fi bine s le spunei de la nceput clienilor
acest lucru. Astfel, vei putea evita situaii n care clientul se va opri din completat la mijlocul
chestionarului.
7. Testai-v chestionarul - Avei grij s fie bine revizuit nainte de a-l trimite la grupuri mari de
persoane pentru a fi completat
nainte de a trimite chestionarul ctre clieni, putei s-l trimitei prietenilor sau colegilor de
serviciu pentru a-l completa. Nu numai c ei pot observa greelile gramaticale care s-au putut
49
strecura, dar vei putea analiza rspunsurile lor pentru a fi sigur c ntrebrile sunt interpretate aa
cum v ateptai.
Pentru consultan i alte sfaturi privind completarea chestionarelor, putei accesa
http://www.surveypro.ro/ .
Exemplu de site de sondare a opiniei publice
Sondaje de opinie se vrea a fi un website care ncearc s prezinte n timp real opiniile
navigatorilor pe internet despre subiectele fierbini ale momentului.
Conine sondaje de opinie din toate domeniile i chiar accept propuneri de subiecte din partea
dumneavoastr.
Cum funcioneaz?
- Rezultatele se afieaz n timp real, iar fiecare persoan are dreptul la un singur vot, pe
baza restricionrii la cte un singur vot pentru o adres IP. Astfel, locaiile tip internet - cafe vor
beneficia de posibilitatea unui singur vot, indiferent de numrul terminalelor din reea, ntruct
toate sunt vizibile pe internet sub o adres IP unic.
- Oricine poate propune un sondaj de opinie. Dup ce vei completa formularul din pagina
"Propune un sondaj", n cazul n care sondajul propus de dumneavoastr va fi selectat pentru
publicare, vei primi un e-mail n care vi se va comunica perioada n care acesta va fi deschis
publicului pentru vot.
- De la data publicrii, fiecare sondaj va fi activ timp de 7 zile, termen dup care va fi
nchis automat i va fi mutat n seciunea "Arhiva", utilizatorii avnd n continuare posibilitatea s
vad rezultatele finale ale sondajului.
- www.sondajedeopinie.ro se adreseaz att persoanelor fizice ct i persoanelor juridice.
UTILIZAREA ASISTAT DE CALCULATOR A DATELOR STATISTICE,
N VEDEREA FUNDAMENTRII MODELELOR ECONOMETRICE I A
CALCULELOR DE PROGNOZ
n nelegerea complet a realitii este de multe ori necesar s cunoatem, s nelegem i
s stpnim legturile existente ntre dou sau mai multe fenomene, cuantificate prin variabile.
Spre exemplu, n vederea aplicrii unei strategii corecte de marketing, este necesar s cunoatem
dac exist o corelaie ntre profitul unei ntreprinderi i cheltuielile cu publicitatea i n ce fel se
manifest. De asemenea, pentru controlul investiiilor este necesar s cunoatem n ce fel
evolueaz profitul pe o perioad imediat urmtoare de timp. Asta presupune de fapt s putem
construi i mai apoi utiliza aa numitele modele econometrice (de regresie), acestea fiind modele
care descriu corelaia existent ntre dou variabile oarecare i n caz particular, ntre o variabil i
timp. De cele mai multe ori, fundamentarea acestor modele are la baz un volum mare de date i
aici i dovedesc utilitatea pachetele de programe concepute pentru a asista calculele econometrice
i de prognoz.
n cele ce urmeaz vom vedea att elementele teoretice pentru fundamentarea unui model,
ct i suportul computaional asigurat de procesorul Excel.
50
Corelaie i regresie
Vom considera, pe tot parcursul acestui capitol, doar cazul corelaiei ntre dou variabile
cantitative.
Pornim de la urmtoarea situaie: fiind date dou variabile X i Y, studiate ntr-o populaie
A, se pune problema dac ntre cele dou variabile, respectiv ntre fenomenele descrise de acestea,
exist o anumit dependen numit i corelaie.
O prim concluzie se poate obine reprezentnd grafic ntr-un sistem de coordonate XY,
cele dou iruri de date observate la nivelul populaiei pentru cele dou variabile. n Excel, acest
lucru se poate face utiliznd diagrama XY prin puncte (tema 2). Dac punctele graficului se
mprtie pe toat suprafaa fr a urma o anumit regul, atunci vom spune c cele dou variabile
nu sunt corelate. Dac n schimb punctele descriu o anumit curb, numita i curb empiric de
regresie, atunci vom spune c exist corelaie i ea este cu att mai intens, cu ct domeniul pe
care se ntind punctele este mai ngust. Mai mult, dac punctele se aeaz pe o curb care poate fi
aproximat de o curb clasic (dreapt, parabol, exponenial, etc.) atunci vom spune c legtura
dintre cele dou variabile este una liniar sau parabolic sau exponenial, etc. i vom folosi
ecuaia acelei curbe clasice pentru prognoz.
O fundamentare riguroas a existenei unei corelaii i mai apoi a modelului care descrie
corelaia, numit i model de regresie (econometric), se poate face pe baza calculului i interpretrii
unor indicatori statistici. Pentru simplificare, vom viza n cele ce urmeaz doar cazul unei corelaii
de tip liniar ntre variabile, multe dintre modelele ntlnite n practic, reducndu-se la acest tip. Se
vor parcurge cteva etape, precum:
- verificarea existenei unei corelaii;
- stabilirea formei matematice a modelului, n urma analizei curbei empirice de regresie;
- determinarea parametrilor care intervin n ecuaia modelului;
- utilizarea modelului pentru calcule de prognoz.
Un caz particular este acela cnd cuplul X, Y este nlocuit de cuplul t, Z, n care t reprezint timpul
i Z reprezint o variabil urmrit n timp. Un model cronologic, este de fapt un model de regresie
n care se studiaz dependena unui fenomen de timp sau mai bine zis, evoluia sa n timp. n
calcule, variabila timp t ia valorile implicite 1, 2, 3, iar prognoza pe baza unui astfel de model
presupune de fapt previziunea fenomenului pe o perioad urmtoare de timp, care nu a avut nc
loc.
Desigur, att n cazul unui model de regresie oarecare, ct i n cazul unui model cronologic,
prognoza pe baza modelului este cu att mai veridic, cu ct modelul este mai bine ales s se
potriveasc datelor i cu ct orizontul de previziune este mai mic. Spre exemplu, dac ne hazardm
s previzionm un fenomen pe o perioad foarte ndeprtat de timp, fa de perioada din care s-au
cules datele pe care se bazeaz modelul, atunci riscm ca eroarea de previziune s fie foarte mare.
Verificarea existenei unei corelaii
Pentru a analiza dac ntre variabilele X i Y exist o legtur, se calculeaz coeficientul de
corelaie liniar, dat de formula:
( )
y x
y x

, cov
unde
( ) ( ) ( ) ( ) y M x M y x M y x , cov
,
cu
51
( )
N
y x
y x M
N
i
i i


1
se numete covarian.
Aici, N i y x
i i
, 1 , , sunt valorile celor dou variabile, observate pe populaia de volum N,
iar ( ) M i

reprezint media i abaterea, parametri descrii n tema 3.


Interpretare:
Valorile coeficientului de corelaie sunt n intervalul [ ] 1 , 1 . Dac
0
, ntre cele dou
variabile nu exist corelaie. Dac
1
, corelaia ntre cele dou variabile este maxim i direct.
Dac
1
, corelaia ntre cele dou variabile este maxim i invers.
Cu ct avem o valoare mai apropiat de 1 sau -1 cu att corelaia e mai puternic (direct
pentru valori pozitive i invers pentru valori negative), cu ct avem o valoare apropiat de 0
corelaia este mai slab.
Funcia Excel corespunztoare este CORREL.
Sintaxa funciei :
CORREL (array 1, array 2)= coeficientul de corelaie
-parametrii de intrare reprezint doi vectori de aceeai dimensiune care conin valorile
celor dou variabile pentru care dorim s calculm coeficientul de corelaie.
Stabilirea formei matematice a modelului, n urma analizei curbei empirice de
regresie
Dup realizarea graficului amintit mai sus, se analizeaz forma acestuia i se alege modelul
(curba) care descrie cel mai bine realitatea datelor. n cazul cnd modelul cel mai potrivit este cel
liniar, modelul se numete model de regresie linar i este descris de urmtoarea egalitate,
( ) bx a y + x
sau
( ) + + bx a x y ,
unde

, reprezint o eroare care apare din cauza faptului c, n realitate, mai exist i ali factori
predictivi pentru Y, pe lng X. Mai mult, se observ c nu se poate stabili o legtur direct,
matematic ntre X i Y, ci doar ntre X i media lui Y.
Determinarea parametrilor care intervin n ecuaia modelului
Parametrii, b (panta dreptei) si a (termenul liber), se determin din criteriul celor mai mici
ptrate, ilustrat att de formula ct i de graficul de mai jos :
[ ] min
2
1 1
2



N
i
i i
N
i
i
bx a y .
52
Aceast criteriu const n faptul c dintre toate dreptele posibile o vom alege pe aceea, specificat
printr-un anumit a i b, fa de care suma ptratelor abaterilor punctelor care descriu datele este
minim. Un astfel de criteriu minimizeaz de fapt, global, diferena, ( ) x f y , unde ( ) bx a x f +
. Dup calcule matematice se obin urmtoarele formule pentru parametrii dreptei de regresie :
( )
2
, cov
x
y x
b

,
( ) ( )
( )
2
, cov
x
y x
x M y M a


.
Functia Excel corespunzatoare este functia LINEST.
Sintaxa funciei :
LINEST(known ys, known xs, const, stat)= pentru varianta n care nu precizm parametrii const
i stat, rezultatul este un vector linie, de tipul (b,a), adic ntoarce cei doi parametri ai dreptei de
regresie.
Rezultatul se introduce ca o formul matrice: se aplic funcia, apare doar valoarea lui b, se
selecteaz o zon de dou celule, se tasteaz F2, apoi CTRL+SHIFT+ENTER, pentru a aprea i
valoarea lui a.
-parametrii de intrare, known ys, known xs, reprezint doi vectori de aceeai dimensiune, care
conin valorile celor dou variabile, pentru care dorim s calculm parametrii dreptei de regresie.
- parametrii de intrare, const i stat, sunt parametri de tip logic care permit specificarea unor
particulariti n model respectiv afiarea suplimentar a unor indicatori de regresie; pentru
simplificare vom omite s specificm cei doi parametri, n fereastra de dialog a funciei.
Utilizarea modelului pentru calcule de prognoz
Odat specificat forma modelului, mpreun cu valoarea numeric a parametrilor a i b,
putem utiliza modelul pentru prognoz. Astfel, pentru o nou valoare neobservat a lui X,
0
x
,
valoarea lui Y corespunztoare, conform modelului de corelaie stabilit, va fi
( ) + +
0 0
bx a x y
,
respectiv, valoarea sa medie,
( )
0 0
x bx a y + ,
aceasta din urm numindu-se i valoare previzionat. Se observ c nu se poate calcula, exact,
dect valoarea medie, valoarea real depinznd de eroarea

, care nu poate fi calculat ci doar


presupus a fi neglijabil (minim).
n Excel, prognoza poate fi fcut fie cu funcia FORECAST, fie cu funcia TREND, cea
de-a doua avnd avantajul c poate obine previziunea pe mai multe valori ale lui X, n acelai
timp.
53
Sintaxa funciei :
FORECAST(x; known ys, known xs)= ( )
0
x y , valoarea lui y corespunztoare lui
0
x x
, dintr-o
regresie liniar (valoarea previzionat pe baza unui model liniar).
-parametrii de intrare, known ys, known xs, reprezint doi vectori de aceeai dimensiune, care
conin valorile celor dou variabile, pe baza crora fundamentm modelul de regresie;
-parametrul de intrare, x, reprezint o nou valoare a variabilei X, valoare pentru care dorim s
previzionm valoarea lui Y corespunztoare.
Sintaxa functiei :
TREND(known ys, known xs, new x, const)= new y, adic un vector format cu valorile
previzionate ale lui y din regresia liniar, corespunzatoare valorilor new x; vectorul este de aceeai
dimensiune cu new x.
-parametrii de intrare, known ys, known xs, reprezint doi vectori de aceeai dimensiune, care
conin valorile celor dou variabile, pe baza crora fundamentm modelul de regresie;
-parametrul de intrare new x, este un vector care conine noile valori ale lui X, valori pentru care
dorim s facem previziunea;
-parametrul de intrare, const are aceeai semnificaie ca i n LINEST, prin urmare, pentru
simplificare, vom omite precizarea acestuia n fereastra de dialog a funciei.
Observaie: Dac lucrm cu modele de timp, deci cu variabilele Z i t, atunci, n funciile
LINEST, FORECAST i TREND, vom avea Z i t, n loc de X i Y. Pentru valorile variabilei t, fie
vom preciza valorile convenionale 1,2,3,, fie vom omite precizarea lor. Se va proceda
asemntor i pentru noile valori pentru care dorim prognoza. Spre exemplu, dac valorile vechi
pentru t, au fost, 1, 2, 3, 4, 5, putem previziona valoarea lui Z, corespunztoare lui 6 t , etc.
Exemplu:
Vom analiza n cele ce urmeaz corelaia ntre valoarea primelor acordate angajailor (X-mil.lei) i
valoarea profitului (Y-mld.lei), pentru o ntreprindere, pe parcursul a 10 ani. Datele au fost trecute
n foaia de lucru Excel i apoi ordonate cresctor, n raport cu X, pentru a putea face diagrama prin
puncte.
54
Analiza graficului evideniaz o grupare a punctelor dup o anumit regul, deci exist o anumit
corelaie ntre variabile. Mai mult curba dat de aceste puncte seamn destul de mult cu o dreapt,
prin urmare vom utiliza un model liniar, pentru a reda legtura respectiv. Numeric, vom putea
analiza ct de intens este corelaia, care sunt parametrii modelului i ce valori de prognoz se pot
da pe un astfel de model. Aplicnd pe datele iniiale, funciile Correl, Linest, Forecast i Trend, se
obin urmtoarea situaie prezent i pe foaia de lucru Excel:
-corelaia (aproximativ 0,98) este puternic i direct (valoare pozitiv, apropiat de 1);
-modelul liniar cel mai potrivit datelor este dat de ecuaia, ( ) x x f 03 , 0 69 , 5 + ;
-conform modelului, pentru o valoare a primelor acordate de 100 mil.lei, se ateapt un profit de
aproximativ, 9,39mld.lei, etc.
Sigur, prognoza fcut reprezint doar o estimaie a realitii, cu att mai corect cu ct modelul a
fost mai bine ales.
55
Pentru a putea vizualiza grafic potrivirea modelului ales la realitatea datelor, se pot reprezenta, n
acelai grafic curba real i dreapta de regresie. Modelul liniar este cu att mai bun, cu ct punctele
se apropie mai mult de dreapt. Pentru a reprezenta dreapta de regresie se va alege diagrama prin
puncte, n care pe post de Y, se vor reprezenta valorile previzionate, corespunztoare X-ilor vechi.
Mai precis, n funcia Trend se va alege pe post de newx, tot vectorul knownx. Acelai lucru se
obine dac omitem s precizm newx. Astfel, vom face previziune pe valorile lui X vechi, pentru
care deja se cunosc valorile lui Y i vom putea n acest fel compara valorile previzionate ale lui Y
cu valorile observate ale lui Y. Dup cum se poate observa i n figura urmtoare, majoritatea
punctelor sunt chiar pe dreapta de tendin (pe grafic se suprapun cu dreapta) iar celelalte sunt
destul de aproape de ea. Acelai lucru se poate deduce i comparnd coloana B de valori reale cu
coloana E de valori previzionate.
56
Aadar, utliznd instrumentarul statistic asistat de calculator, putem nelege mai uor
interdependena ntre anumii indicatori, putem evalua corect trendul unui indicator pe o perioad
de timp i prin urmare, putem construi eficient i argumentat, diverse strategii n ntreprindere.
Chestionar:
1) Considerai doi indicatori la nivelul firmei n care lucrai i precizai valorile acestora pe o
perioada de 10 ani. Analizai folosind funciile i diagramele Excel:
- dac exist corelaie ntre indicatori;
- dac modelul liniar este potrivit pentru a descrie corelaia dintre cei doi indicatori;
- care sunt parametrii modelului liniar potrivit datelor;
- care este prognoza indicatorului dependent pe urmtorul an, presupunnd cunoscut valoarea
pentru indicatorul independent?
2) Considerai un indicator la nivelul firmei n care lucrai i precizai valorile acestuia pe o
perioada de 10 ani. Folosind funciile Excel pentru modelul liniar, precizai valorile
indicatorului pe urmtorii cinci ani.
57
BIBLIOGRAFIE
1. T. Andrei, Statistic i econometrie, Ed. Economic, 2003
2. C. Anghelache, E. Bugudui, S. Gresoi, E. Niculescu, Statistic aplicat-indicatori, sinteze i
studii de caz, Ed. Economic, 2006
3. E.N. Bzdoac, S. Matei, N.G. Bzdoac, Iniiere n Excel, Ed.Arves, Colecia Iniiere n
calculator 2, 2002
4. P. Blaga Metode statistice n modelarea cu calculatorul, lucrri de laborator, Lito. UBB, Cluj
Napoca, 1993
5. N. Breaz, Statistic descriptiv, teorie i aplicaii, seria Didactica, Universitatea 1 Decembrie
1918 Alba Iulia, 2003
6. N. Breaz, Elemente de statistic inferenial, teorie i aplicaii, seria Didactica, Universitatea 1
Decembrie 1918 Alba Iulia, 2004
7. L. Cbulea, Matematici aplicate n economie, seria Didactica, Universitatea 1 Decembrie
1918 Alba Iulia, 1998
8. I. Florea, Econometrie, Ed. Univ. Oradea, 2003
9. M. Iosifescu, C. Moineanu, V. Trebici, E. Urseanu Mic enciclopedie de statistic, Editura
tiinific i Enciclopedic, Bucureti, 1985
10. A. Isaic-Maniu, C. Mitru, V. Voineagu, Statistica pentru managementul afacerilor, Ed.
Economic, 1999
11. E. Tian, Statistic. Teorie i aplicaii n sectorul teriar, Meteor Press, 2002
12. V. Voineagu, C. Mitru, A. Isaic-Maniu, E. Tian, T. Baron, S. Matache, I. Isaic-Maniu, D.
erban, M. Voineagu, Statistic teoretic i macroeconomic-teste, lucrri practice, studii de caz,
Ed. Economic, 1998
58