Sunteți pe pagina 1din 57

“Acest document a fost realizat cu asistenţa financiară a Comunităţii Europene.

Părerile exprimate aici


reprezintă opinia Universităţii „1 Decembrie 1918” Alba Iulia şi în concluzie, nu pot fi considerate în nici un
caz punctul de vedere oficial al Comunităţii Europene”.

INTERPRETAREA STATISTICĂ A INFORMAŢIILOR.


ELEMEMNTE DE DATA MINING ŞI PROGNOZĂ

Modul de instruire nr. 7

Conf.dr. Lucia Căbulea


Lector dr. Nicoleta Breaz

1
CUPRINS
Scheme clasice de probabilitate utilizate în modelarea fenomenelor social economice (conf.dr.
Lucia Căbulea) ………………………………………………………………………………..….3

Interpretarea/utilizarea diagramelor statistice în vederea obţinerii/transmiterii unei informaţii prin


intermediul Internetului. Diagrame Excel (lector.dr. Nicoleta Breaz)………………………..…10

Analiza statistică a datelor preluate de pe Internet. Metode cantitative şi elemente de Data


Mining (lector.dr. Nicoleta Breaz)…………………………………….……………………...….23

Indicatori statistici ce reflectă activitatea la nivelul întreprinderii, în contextul indicatorilor


macroeconomici disponibili pe Internet (conf.dr. Lucia Căbulea)……………………………....30

Sondajul statistic în studiul fenomenelor social-economice – suport al teoriei deciziei. Site-uri


de sondare a opiniei publice (conf.dr. Lucia Căbulea)…………………......................................39

Utilizarea asistată de calculator a datelor statistice în vederea fundamentării modelelor


econometrice şi a calculelor de prognoză (lector.dr. Nicoleta Breaz)………….…..............…....51

Bibliografie ..………………………………………………………………………………….....58

2
SCHEME CLASICE DE PROBABILITATE UTILIZATE ÎN
MODELAREA FENOMENELOR SOCIAL ECONOMICE

Sub această denumire se pot întâlni câteva experimente-model care conduc la calculul
rapid al probabilităţilor unor evenimente care se produc sau apar în condiţii analoage celor ce
definesc experimentele-model. Cu alte cuvinte, pot fi calculate anumite probabilităţi pe baza
unor formule sau scheme de calcul, indiferent de natura experimentului considerat, fără a mai
recurge de fiecare dată la procedeele greoaie sugerate de formula dată de definiţia clasică.
Schema lui Bernoulli cu bila întoarsă (binomială) 1.1.
Se aplică în cazul în care se fac repetări independente ale unui experiment şi la fiecare
repetare se are în vedere apariţia unui eveniment bine precizat. Se cere determinarea
probabilităţii ca din n repetări ale experimentului, evenimentul considerat să apară de k ori.
Modelul probabilistic se realizează printr-o urnă ce conţine bile de două culori (albe şi
negre). Se extrag bile din urnă una câte una, fiecare bilă se reintroduce în urnă după constatarea
culorii. Se cere determinarea probabilităţii ca din n bile extrase, k să fie de culoare albă.
Fie A i evenimentul ca la extragerea de rang i să se obţină o bilă albă şi A i
evenimentul ca la extragerea de rang i să se obţină o bilă neagră. Dacă în urnă se află N bile, din
a b
care a = bile albe şi b = bile negre, avem p = P( A i )  şi P( A i )   q , evident p+q=1.
N N
Notăm cu X k ,n  k evenimentul ca după n extrageri să obţinem de k ori bilă albă şi apoi de n-k
ori bilă neagră, avem:
k n k
P( X k ,n k )  P(A 1  A 2  ...  A k  A k 1  ...  A n )  p q .
Dacă X este evenimentul ca din cele n bile extrase exact k să fie albe, avem: P(X) =
n!
C kn P(X k , n  k )  C kn p k q n  k  p k q n k .
k!(n  k )!
Această probabilitate se mai notează P(n,k) = C kn p k q n  k , p+q=1.
Observaţie 1.2.
1) Dacă se consideră formula binomului lui Newton:
n n
(px  q ) n   C kn p k q n  k x k   P(n , k ) x k , deci P(n,k) este coeficientul lui x k din dezvoltarea
k 0 k 0

binomială (px  q) n , de aici şi denumirea de schema binomială.


n
2)  P(n, k )  1.
k 0
Schema multinomială 1.3.
Este o generalizare a schemei binomiale. Fie o urnă ce conţine N bile de s culori,
s
c i , i  1, s şi a i numărul bilelor de culoare c i , i = 1, s , iar a
i 1
i  N . Se fac n extrageri

succesive cu revenirea bilei în urnă. Fie X evenimentul ca în cele n extrageri să obţinem  i bile
de culoare c i , i  1, s . Se cere P(X) = Pn ( 1 ,  2 ,...,  s ) . Notăm A i evenimentul ca la o
a
extragere să obţinem bila de culoare c i , i  1, s, p i  P( A i )  i , i  1, s , atunci:
N
s
n!

  
Pn ( 1 ,  2 ,...,  s )  p1 1 p 2 2 ...p s s , unde n
 1 ! 2 !... s ! i 1
i

Schema lui Bernoulli cu bila neîntoarsă (hipergeometrică) 1.4.

3
Se consideră o urnă care conţine bile de două culori: a bile albe şi b bile negre. Se
extrag bile din urnă, una câte una, fără întoarcerea bilelor extrase înapoi în urnă. Se cere să se
determine probabilitatea ca din n bile extrase k să fie de culoare albă şi n-k de culoare neagră.
Există C an b posibilităţi de a lua n bile din totalul de a+b bile câte sunt în urnă la
început. Numărul posibilităţilor de a lua k bile albe din cele a existente la început în urnă este
C ak , iar pentru a lua n-k bile negre din cele b bile negre ce se află în urnă la început este C nb  k ,
C ak C nb  k
deci P(n,k) = , unde a  k , b  n  k şi a  b  n .
C an b
Generalizare:
În urnă se află bile de r culori, adică a 1 bile de culoarea 1, a 2 bile de culoarea 2 etc.
a r bile de culoarea r şi se extrag n bile fără întoarcerea bilei extrase în urnă. Se cere
probabilitatea P(n; k 1 , k 2 ,..., k r ) ca din cele n bile extrase să se obţină k 1 bile de culoarea 1,
k 2 bile de culoarea 2 etc. Avem:
Cak11 Cak22 ...Cakrr
P(n; k1 , k 2 ,..., k r )  , cu k1  k 2  ...  k r  n
Cak11ak22......akrr
Schema lui Poisson 1.5.
Se aplică în cazul în care se fac repetări independente ale unui experiment şi la fiecare
repetare se are în vedere un anumit eveniment, eveniment ce apare, în general, cu probabilităţi
diferite la repetări de rang diferit. Se cere să se determine probabilitatea ca din n repetări ale
experimentului, evenimentul considerat să apară de k ori.
Modelul probabilistic se obţine cu ajutorul unui sistem de n urne care conţin bile de
două culori, albe şi negre, în proporţii diferite, în general. Se ia câte o bilă din fiecare urnă şi se
cere probabilitatea P(n,k) de a obţine k bile albe din cele n extrase.
Notăm cu p i probabilitatea de a extrage bilă albă din urna de rang i şi cu q i
probabilitatea de a extrage bilă neagră din urna de rang i, unde p i  q i  1, i  1, n. Avem că
P(n,k) este coeficientul lui x k din dezvoltarea polinomului: (p1 x  q 1 )(p 2 x  q 2 )...( p n x  q n ) .
Schema lui Pascal (binomială cu exponent negativ) 1.6.
Se aplică în cazul în care se fac repetări independente ale unui experiment şi la fiecare
repetare evenimentul considerat apare cu aceeaşi probabilitate. Vrem să determinăm
probabilitatea ca până la cea de-a n-a apariţie a evenimentului considerat să se fi realizat
contrarul evenimentului considerat de k ori.
Modelul probabilistic se realizează printr-o urnă cu bile de două culori, albe şi negre. Se
extrag bile din urnă cu întoarcerea bilei extrase după ce s-a notat culoarea ei. Vom spune că avem
"succes", dacă s-a obţinut bila albă şi "insucces", dacă s-a obţinut bila neagră. La fiecare
repetare, "succes" apare cu probabilitatea p şi "insucces" apare cu probabilitatea q=1-p. Vrem să
determinăm probabilitatea P(n,k) ca la apariţia celui de-al n-lea "succes" să se fi obţinut k
"insuccese". Notăm B n , k evenimentul că la apariţia celui de-al n-lea "succes" s-au obţinut k
"insuccese". Atunci Bn ,k  An1  An k , unde An 1 = evenimentul ca în primele n+k-1 repetări
să se obţină n-1 "succese" şi k "insuccese", iar A n  k = evenimentul ca la repetarea de rang n+k
să avem "succes". Avem P( Bn ,k )  P ( An1 )  P ( Ank ) , dar P( A n  k )  p, iar P( An 1 ) se
n 1 n 1 k
calculează conform schemei binomiale, adică P ( An 1 )  C n  k 1 p q . Rezultă că: P(n,k) =
C nn 1k 1 p n q k .
Observaţie 1.7.
1) Din proprietatea de complementaritate a combinărilor, avem: P ( n, k )  Cn k 1 p q
k n k

4
2) P(n,k) se obţine ca şi coeficientul lui xk din dezvoltarea lui
n  
p
p n (1  qx )  n    C kn  k 1 p n q k x k   P( n , k ) x k , qx  1 , deci seria binomială; de
(1  qx ) n
k 0 k 0

aici şi denumirea de schema binomială cu exponent negativ.


3) Dacă n=1, adică dacă se cere probabilitatea ca la apariţia primului "succes" să se fi
produs k "insuccese", avem P(1,k) = pq k . În acest caz particular, se obţine schema geometrică,
deoarece P(1,k) este coeficientul lui
 
p
x k din seria geometrică, adică 1  qx   pq x   P(1, k ) x .
k k k

k 0 k 0

Exemplul 1.8. O unitate hotelieră se consideră că este normal ocupată dacă cel puţin
80% din capacitatea sa este utilizată. Dintr-un studiu statistic s-a obţinut că probabilitatea ca
7
hotelul să fie normal ocupat într-o zi este p = . Vrem să calculăm probabilitatea ca unitatea
8
hotelieră să fie normal ocupată în cinci zile din cele şapte zile ale unei săptămâni.
Rezolvare:
Calculul acestei probabilităţi se face cu schema lui Bernoulli cu bila întoarsă, unde n=7,
7 1
k=5; p= şi q = 1-p = . Astfel se obţine că:
8 8
7 1 3 7
P(7,5) = C 57 ( ) 5 ( ) 2  ( ) 6 .
8 8 8 8
Exemplul 1.9. Piesele produse de o maşină sunt supuse la două teste independente.
2 3
Probabilităţile ca o piesă să treacă aceste teste sunt respectiv şi . Să se calculeze
3 4
probabilitatea ca din 5 piese luate la întâmplare, 2 să treacă ambele teste, 1 numai primul test, 1
numai al doilea test, iar una să nu treacă nici un test.
Rezolvare:
Această probabilitate se calculează cu schema multinomială, unde n=5, s=4,
 1  2,  2   3   4  1 , iar întrucât testele sunt independente, avem că:
2 3 1 2 3 1 2 3 1 2 3 1
p1    ; p 2   (1  )  ; p 3  (1  )   ; p 4  (1  )(1  )  .
3 4 2 3 4 6 3 4 4 3 4 12
5! 1 2 1 1 1 5
Astfel, putem scrie: P(5; 2,1,1,1) = ( )     .
2!1!1!1! 2 6 4 12 96
Exemplul 1.10. Într-un lot de 50 de piese, 10 sunt defecte. Se iau la întâmplare 5 piese.
Vrem să calculăm probabilitatea ca trei piese din cele cinci să nu fie defecte.
Rezolvare:
Această probabilitate se calculează cu schema lui Bernoulli cu bila neîntoarsă, unde

a+b=50; a=40, b=10, n=5 şi k=3. Avem P(5;3) = C 340  C10


2
.
5
C 50
Exemplul 1.11. Patru trăgători trag asupra unei ţinte. Primul atinge ţinta cu
2 3 4
probabilitatea , al doilea cu probabilitatea , al treilea cu probabilitatea , iar al patrulea
3 4 5
5
cu probabilitatea . Care este probabilitatea ca ţinta să fie atinsă exact de 3 ori?
6
Rezolvare:
Evenimentele A i = trăgătorul "i" atinge ţinta; i = 1,2,3,4 sunt independente şi:

5
2 3 4
p1  P( A1 )  ; p2  P ( A2 )  ; p3  P( A3 )  ;
3 4 5 1 1 1
q2  1  p2  ; q3  1  p3  ; q4  1  p4 
5 1 4 5 6
p4  P ( A4 )  ; q1  1  p1 
6 3
. Probabilitatea ca din aceste patru evenimente să se realizeze trei şi unul nu, este coeficientul lui
2 1 3 1 4 1 5 1
x 3 din dezvoltarea polinomului: Q(x) = ( x  )( x  )( x  )( x  ) , adică:
3 3 4 4 5 5 6 6
2 3 4 1 2 3 1 5 2 1 4 5 1 3 4 5
                0,427.
3 4 5 6 3 4 5 6 3 4 5 6 3 4 5 6
Exemplul 1.12. Doi jucători sunt angrenaţi într-un joc format din mai multe partide.
1
Primul jucător câştigă o partidă cu probabilitatea p = şi o pierde cu probabilitatea q = 1-p =
3
2
. Să se calculeze probabilitatea că:
3
a) prima partidă câştigată de primul jucător să se producă după cinci partide pierdute;
b) a treia partidă câştigată de primul jucător să se producă după un total de şase partide
pierdute.
Rezolvare:
a) Se aplică schema geometrică. Prin urmare, probabilitatea cerută este dată de P(1,5) =
1 2 5 32
p q5 = ( )  .
3 3 729
1 2
b) Se utilizează schema lui Pascal, unde n=3, k=6, p= , q= . Astfel, probabilitatea
3 3
cerută este:
1 2 7 2 9
P(3,6) = C 8 ( ) ( )  ( ) .
6 3 6

3 3 2 3
Exemplul 1.13. Într-o cutie sunt 12 bile marcate cu 1; 8 sunt marcate cu 3 şi şase sunt
marcate cu 5. O persoană extrage la întâmplare din cutie 4 bile. Să se calculeze probabilitatea ca
suma obţinută să fie cel mult 13.
Rezolvare:
Dacă notăm cu A evenimentul ca suma obţinută de cele patru bile să fie cel mult 13,
atunci evenimentul contrar A este evenimentul ca suma să fie cel puţin 14. Se vede că suma
maximă ce se poate obţine este 4  5 = 20.
De asemenea, avem că
3  5  1  3  18; 3  5  1  1  16; 2  5  2  3  16; 2  5  1  3  1  1  14; 1  5  3  3  14. Alte posibilităţi
de a obţine suma cel puţin 14 din patru bile nu există. Aşadar, pentru a obţine suma 14, trebuie
luate două bile marcate cu 5 din cele şase existente, una marcată cu 3 din cele opt şi una marcată
cu 1 din cele 12, respectiv una marcată cu 5 şi 3 marcate cu 3.
Folosind schema lui Bernoulli cu bila neîntoarsă cu 3 stări se obţine că:
C 2 C1 C1 C1 C 3 C 0 888
P14  P(4;2,1,1)  P(4;1,3,0)  6 48 12  6 48 12  .
C 26 C 26 7475
Analog, avem că:
C2C2C0 C 3 C 0 C1 66
P16  P(4;2,2,0)  P(4;3,0,1)  6 48 12  6 84 12  ;
C 26 C 26 1495
C 36 C18 C12
0
16 C 64 C 80 C12
0
P18  P (4;3,1,0)   . P20  P( 4;4,0,0)  .
C 426 1495 C 426
Avem că:

6
2611
P( A ) = P14  P16  P18  P20  , de unde
14950
2611 12339
P(A) = 1-P( A ) = 1- =
14950 14950
 0,825 .
Exemplul 1.14. La un supermarket s-a făcut un sondaj printre clienţii acestuia,
punându-li-se trei întrebări la care să răspundă prin DA sau NU. S-a constatat că răspunsul DA la
prima, a doua respectiv a treia întrebare a fost de 60%, 80% respectiv 70%. Care este
probabilitatea ca un client să dea :
a)trei răspunsuri DA?
b)trei răspunsuri NU?
c)două răspunsuri DA şi unul NU?
d)cel mult două răspunsuri DA?
e)primele două răspunsuri NU?
f)primul răspuns DA şi încă unul DA?
Rezolvare:
a) Suntem în condiţiile schemei lui Poisson (presupunând că răspunsurile sunt
independente unul de celălalt) cu 3 urne şi cu probabilităţile : p 1 = 0,6; q1 = 0,4; p2 = 0,8; q2 =
0,2; p3 = 0,7; q3 = 0,3. Astfel probabilitatea ca să avem 3 răspunsuri DA este coeficientul lui x 3
din polinomul (p1x + q1)(p2x + q2)(p3x + q3) adică
pa = p1p2p3 = 0,6 ∙0,8∙0,7 = 0,336.
b) Probabilitatea să avem trei răspunsuri NU este coeficientul lui x0 (termenul liber) din
polinomul de mai sus, adică
q1q2q3 = 0,4 ∙0,2∙0,3 = 0,024.
a) În acest caz probabilitatea este coeficientul lui x2 din acelaşi polinom, adică p1p2q3 +
p1q2p3 + q1p2p3 = 0,6∙0,8∙0,3 +
+ 0,6∙0,2∙0,7 + 0,4∙0,8∙0,7 = 0,452.
b)Evenimentul dat este reuniunea a trei evenimente incompatibile două câte două,
respectiv de a da 0, 1, 2 răspunsuri DA, deci probabilitatea sa este suma coeficienţilor lui x 0, x1,
x2 din polinomul de la punctul a). Avem
pd = q1q2q3 + (p1q2q3 +q1p2q3 + q1q2p3) + (p1p2q3 + p1q2p3 + q1p2p3) = = 0,024 + 0,188 +
0,452 = 0,664.
Astfel, evenimentul nostru este contrar evenimentului de la punctul a), deci p d = 1 – pa =
1 – 0,336 = 0,664.
c) Putem reduce schema lui Poisson la 2 urne cu probabilităţile :
p1 = 0,6; q1 = 0,4; p2 = 0,8; q2 = 0,2. Probabilitatea cerută este coeficientul lui x0 din
polinomul (p1x + q1)(p2x + q2), adică
q1q2 = 0,08. Astfel, evenimentul dat este intersecţia a două evenimente independente cu
probabilităţile q1 respectiv q2, de unde probabilitatea cerută este produsul q1q2.
d)Evenimentul este reuniunea evenimentelor “numai primul şi al doilea răspuns DA ” şi
“numai primul şi al treilea răspuns DA”, care sunt incompatibile, deci probabilitatea
evenimentului dat este suma probabilităţilor celor două, adică pf = p1p2q3 + p1q2p3 = 0,228.
Exemplul 1.15. La o bancă s-a constatat că din 100 de credite acordate, 10 sunt
neperformante. Dacă se acordă 5 credite, care este probabilitatea ca:
a) toate să fie neperformante?
b) toate să fie performante?
c) numai 4 să fie performante?
d) cel puţin 4 să fie performante?
Rezolvare:
Suntem în condiţiile schemei lui Bernoulli cu două culori, unde

7
p = 0,9 şi q = 1-p =0,1 considerând bile albe creditele performante, iar bile negre cele
neperformante. Vom obţine astfel:
a) P(5;0)  C50 (0,9) 0  (0,1)5  0,00001 ;
b) P (5;5)  C5 (0,9)  (0,1)  0,59049 ;
5 5 0

c) P(5,4)  C54 (0,9) 4  (0,1)1  0,32705 ;


d) P (5;  4)  P (5,4)  P(5,5)  0,91754 .
Exemplul 1.16. Într-un partid parlamentar sunt 10 deputaţi şi 5 senatori. Se ia la
întâmplare un grup de 5 parlamentari ai partidului respectiv, pentru a forma o comisie. Cu ce
probabilitate grupul conţine:
a) 3 deputaţi şi 2 senatori;
b) numai deputaţi;
c) numai senatori;
d) cel mult 2 senatori;
e) cel puţin un deputat.
Rezolvare:
Suntem în condiţiile schemei hipergeometrice cu 2 culori, unde
a = 10, b = 5 şi n = 5. Vom avea:
C3 C2
a) P(5;3,2)  10 5 5 ;
C15
C105  C50
b) P (5;5,0)  ;
C155
C100  C55
c) P (5;0,5)  ;
C155
C105  C50  C104  C51  C103  C52
d) Pd  P(5;5,0)  P(5;4,1)  P(5;3,2)  ;
C155
5 5
C10i  C55i
e) Pe   P(5; i,5  i )   sau altfel
i 1 i 1 C155
1
Pe  1  P (5;0,5)  1  5 .
C15
Exemplul 1.17. Probabilitatea ca un agent comercial să vândă un anumit produs este
0,3. Dacă acesta oferă produsul spre vânzare pe rând la 4 magazine cu ce probabilitate el vinde
produsul:
a) la primul magazin;
b) la al doilea magazin;
c) la ultimul magazin;
d) cel mult la al treilea magazin.
Rezolvare:
Suntem în condiţiile schemei geometrice cu p = 0,3 ( se presupune că agentul poate
vinde produsul unui singur magazin). Prin urmare avem:
a) P1 = pq1-1 = 0,3 ;
b) P2 = pq2-1 = pq = 0,3 ∙0,7 = 0,21 ;
c) P4 = pq4-1 = pq3 = 0,3 ∙(0,7)3 = 0,1029 ;
d)Pd =P1+P2+P3=p + pq + pq2 = p(1+q+q2) = 0,3(1+0,7+0,49)=0,657
1.18. Probleme propuse:
1. O familia are şase copii. Se cere probabilitatea ca:

8
a. doi din cei şase copii să fie fete;
b. cel puţin doi copii să fie băieţi.
2. O comisie analizează 10 dosare de creditare de la banca B 1, 20 de la banca B2, 30 de la
banca B3. Se iau la întâmplare 12 dosare. Să se determine probabilitatea ca din cele 12 dosare, 3
să provină de la B1, 4 de la B2 şi 5 de la B3.
3. Patru fabrici produc acelaşi tip de rachetă de tenis. Produsele celor patru fabrici sunt
rebuturi în procent de 2%, 1%, 5% şi 4%. Se ia câte o rachetă de tenis produsă de fiecare fabrică.
Să se determine probabilitatea ca:
a. din cele patru rachete, două să fie rebut?
b. cel puţin una să fie rebut?
4. Un investitor la bursă, cumpără acţiuni la trei companii. Probabilităţile ca cele trei
investiţii să fie profitabile sunt următoarele: p1 = 0,8, p2 = 0,75, p3 = 0,82. Să se determine
probabilitatea ca:
a. toate cele trei investiţii să fie profitabile;
b. două investiţii să fie profitabile;
c. o investiţie să fie profitabilă;
d. cel mult două investiţii să fie profitabile;
e. cel puţin una să fie profitabilă.
5. Doi jucători sunt angajaţi într-un joc format din mai multe partide. Primul jucător
câştigă o partidă cu probabilitatea p = 0,25. Să se determine probabilitatea ca:
a. a patra partidă câştigată de primul jucător să fie obţinută după cinci partide pierdute.
b. prima partidă câştigată de primul jucător să apară după cinci partide pierdute.

9
INTERPRETAREA/UTILIZAREA DIAGRAMELOR STATISTICE ÎN
VEDEREA OBŢINERII/TRANSMITERII UNEI INFORMAŢII PRIN
INTERMEDIUL INTERNETULUI. DIAGRAME EXCEL

Una din cele mai importante pârghii ale unei societăţi bazate pe cunoaştere este
informaţia. Aceasta circulă între diverse persoane, instituţii ale statului, agenţi economici, media
(inclusiv internetul) şi public, etc., fiind adesea cuantificată în cifre sau transformată în imagini.
De aceea, pe cât este de important în diverse contexte, să primim informaţie, pe atât este de
important să o înţelegem corect. Un alt aspect de loc lipsit de importanţă este sigur şi acela de a
transmite informaţii, într-un mod cât mai relevant, mai ales atunci când suntem reprezentanţii
unor entităţi mai mari, spre exemplu o instituţie sau o întreprindere. Forma grafică este una
dintre metodele de transmitere a unei informaţii, care beneficiază de avantajul unui impact vizual
puternic asupra receptorului precum si de o mare capacitate de sinteză. Aşadar, de o parte şi de
alta a baricadei, receptor sau transmiţător al informaţiei, este necesar să înţelegem informaţia
conţinută într-un astfel de grafic, respectiv să putem utiliza noi înşine astfel de metode grafice.
Statistica pune la îndemâna utilizatorului astfel de metode, unele dintre cele mai des
întâlnite fiind reprezentările grafice sub formă de diagrame de structură, cronogramă, diagrame
prin coloane, nor statistic, etc. Astfel de grafice transmit fie o structurare pe diverse segmente a
unui întreg, fie evoluţia unui indicator. În vederea înţelegerii modului de utilizare a acestor
grafice vom aminti mai întâi câteva noţiuni de bază, în statistică.

Noţiuni elementare de statistică


Obiectul de studiu al statisticii, îl constituie populaţiile statistice de orice natură.
Populaţia statistică reprezintă ansamblul de elemente de aceeaşi natură având însuşiri esenţiale
comune. Un element component al unei populaţii statistice se numeşte unitate statistică.
Numărul de unităţi ce compun o populaţie statistică constituie volumul populaţiei şi se notează
cu N.
O populaţie statistică se poate observa, în funcţie de obiectivele cercetării, fie static, în
raport cu una sau mai multe variabile statistice, fie în evoluţie, spre exemplu, pe o perioadă de
timp, urmărind unul sau mai mulţi indicatori. Variabila statistică reprezintă o trăsătură comună
tuturor unităţilor unei populaţii. Indicatorul statistic este o variabilă cantitativă, ale cărei valori
numerice rezultă dintr-un algoritm pentru fiecare unitate sau clasă de unităţi a populaţiei
statistice.
Exemple:
-populaţii statistice: mulţimea gospodăriilor dintr-o localitate, mulţimea societăţilor
comerciale dintr-un judeţ, mulţimea produselor de acelaşi tip dintr-o fabrică, mulţimea
angajaţilor unei întreprinderi, etc.;
-variabile statistice: numărul membrilor, suprafaţa locativă, pentru o gospodărie; profitul,
rentabilitatea, cifra de afaceri, numărul de angajaţi pentru o societate comercială; calitatea pentru
un produs; vechimea, specializarea, pentru angajaţii unei întreprinderi, etc.

Diagrame statistice realizate în Excel


Atunci când se doreşte caracterizarea unei populaţii, în raport cu o anumită variabilă se
poate apela şi la metode grafice. Acestea constau în reprezentarea situaţiei existente, prin
intermediul unor diagrame, fie că discutăm de structurarea populaţiei pe segmente, în raport cu o
variabilă, fie de variaţia unui indicator, în timp, spaţiu sau de la o categorie social-economică la
alta.
Un grafic complet presupune o diagramă şi un titlu explicativ, precum şi câteva precizări
minime (spre exemplu, o legendă explicativă) care să faciliteze transmiterea informaţiei prin

10
imagine. Realizarea efectivă a diagramei se poate face prin intermediul unui produs informatic,
spre exemplu, în Excel. Vom prezenta în continuare câteva dintre cele mai relevante grafice:

Diagrama de structură prin cerc (diagrama radială)

Acest tip de diagramă se utilizează pentru a reprezenta grafic structura unei populaţii în
raport cu o anumită variabilă. Ideea care stă la baza alcătuirii acestei variabile este că suprafaţa
cercului reprezintă întreaga populaţie, iar segmentele generate de împărţirea populaţiei în clase,
în raport cu aceea variabilă, sunt reprezentate de sectoare de cerc.
Respectând acest principiu se construieşte un cerc de rază oarecare a cărei suprafaţă se
consideră că reprezintă volumul întregii populaţii în cauză (exprimat în frecvenţe absolute sau
relative). Fiecare clasă în care este divizată populaţia va fi reprezentată printr-un sector de cerc
de arie direct proporţională cu volumul clasei. Reprezentarea sectorului de cerc se va face
determinând măsura în grade a unghiurilor la centru a fiecărui sector. Cele 360° ale cercului
corespund volumului întregii populaţii. Unghiurile sectoarelor de cerc care reprezintă clase din
populaţie trebuie să fie proporţionale cu volumul acestora (exprimat în frecvenţe absolute sau
relative). Unui procent îi corespunde 3,6°, deci unghiul la centru pentru un sector va fi produsul
dintre 3,6° şi procentul corespunzător clasei respective.
Desigur, înainte de reprezentarea grafică este necesară o sistematizare a datelor, astfel
încât să se cunoască numărul de unităţi din populaţie, N i (frecvenţa absolută a clasei), pentru
care variabila studiată ia o anumită valoare. Astfel, volumul populaţiei, N , se va recompune sub
forma:

N  N 1  N 2  ...  N R ,
cu R , numărul de clase din populaţie.
Mai sugestivă este calcularea ponderilor fiecărei clase în totalul populaţiei, adică a
frecvenţelor relative:
N
f i  i  100 .
N

Din relaţiile de proporţionalitate de mai jos, se poate determina unghiul la centru pentru
fiecare sector de cerc reprezentând câte un segment din populaţie:

1   360 0
 ...  i  ...  R  .
f1 fi fR 100

Exemplu:

Se realizează un studiu privind forma de proprietate a societăţilor comerciale dintr-o localitate,


acestea fiind în număr de 210. Pentru fiecare societate, se înregistrează forma de proprietate, cu
capital de stat-S, privat-P sau mixt-M. După sistematizarea datelor se obţine următoarea
structură:

 S P M
X :  .
105 84 21 
După calculul frecvenţelor relative, obţinem
 S P M 
X :   .
 50% 40% 10% 

11
Pentru a transpune grafic această structură, vom calcula după procedeul enunţat mai sus, unghiul
la centru corespunzător fiecărui sector de cerc:
-pentru S.C. cu capital de stat, 3,6  50  180 o
-pentru S.C. cu capital privat, 3,6  40  144 o
-pentru S.C. cu capital mixt, 3,6  10  36 o .
Se obţine astfel următoarea reprezentare:

Structura societăţilor comerciale din localitatea dată, în raport cu forma de proprietate

50%

10%

40%

S . C . c u c a p ita l in t e g r a l d e s t a t
S . C . c u c a p ita l p r iv a t
S . C . c u c a p ita l m ix t
Întregul demers poate fi asistat de calculator
utilizând procesorul de date, Excel.

Pasul1.
În foaia de lucru Excel, se introduc datele pe care dorim să le reprezentăm şi apoi selectăm icon-
ul expertului diagramă din bara de instrumente, aşa cum este ilustrat în figura de mai jos:

Pasul 2.
Din fereastra de dialog care se deschide accesând expertul diagrama, alegem tipul de diagramă,
în cazul acesta, diagrama de tip structură radială şi selectăm butonul „următorul” din bara de
meniu:

12
Pasul 3.
În noua fereastră de dialog, alegem din meniul de sus, opţiunea „serie” şi în câmpul pentru serie,
optăm pentru butonul „adăugare”. Pentru seria introdusă completăm în câmpurile din dreapta,
numele graficului, valorile pe care dorim sa le reprezentăm şi etichetele acestora. Aceste câmpuri
pot fi completate selectând informaţiile potrivite cu mouse-ul , direct din foaia de lucru. Prin
selectarea butonului „următorul” se trece la etapa în care putem adăuga diverse detalii graficului.

Pasul 4.

13
În următoarea fereastră de dialog putem preciza diverse aspecte ca titlul, poziţionarea legendei,
afişarea procentelor sau a altor tipuri de etichete:

Pasul 5.
Din nou, selectând butonul „următorul” trecem la următoarea şi ultima fereastră de dialog, în
care putem opta pentru salvarea imaginii în foaia de lucru sau într-o foaie nouă:

Pasul 6.
În final, prin selectarea butonului „terminare”, se obţine următoarea diagramă:

14
Din grafic se pot desprinde mai multe concluzii: spre exemplu, jumătate din societăţi sunt cu
capital de stat, cele mai puţine societăţi sunt cu capital mixt, etc.

Diagrama prin benzi

Acest tip de diagramă se utilizează pentru a reprezenta grafic variaţia unui indicator, fie
în spaţiu, fie în timp, fie de la o categorie social-economică la alta. Situaţia indicatorului pe
fiecare unitate de variaţie, se reprezintă prin câte o coloana (dreptunghi) a cărei înălţime este
direct proporţională cu valoarea indicatorului pe acea unitate. Dreptunghiurile au bazele de
aceeaşi mărime, aşezate pe axa orizontală şi sunt egal distanţate unele de altele.

Exemplu:

La o întreprindere se urmăreşte evoluţia producţiei (în milioane lei), pe parcursul a cinci ani şi se
constată următoarea situaţie:

 2002 2003 2004 2005 2006 


X :  .
 800 850 880 895 900 

Evoluţia producţiei anuale poate fi ilustrată printr-o diagramă prin coloane. În Excel, urmând
paşi similari cu cei prezentaţi mai sus, cu deosebirea ca aici se utilizează diagrama Excel de tip
coloană, se obţine următoarea reprezentare:

15
Informaţia conţinută în grafic se referă la modul în care producţia anuală a evoluat, putând fi
observată o tendinţă de creştere.

Cronograma

Acest tip de diagramă se utilizează pentru a reprezenta grafic variaţia unui indicator în
timp, situaţia la fiecare moment de timp fiind reprezentat de un punct a cărui ordonată este direct
proporţională cu valoarea indicatorului, la acel moment. Abscisa punctului este dată formal de
momentul de timp cuantificat în valori implicite, 1, 2, 3, …Punctele se unesc prin segmente de
dreaptă, subliniind astfel tendinţa fenomenului studiat. În Excel diagrama aferentă este
diagrama de tip linie, reprezentată mai jos pentru acelaşi exemplu:

16
Se observă o tendinţă de creştere progresivă a producţiei anuale, pentru întreprinderea studiată.

Norul statistic

Acest tip de diagramă se utilizează pentru a reprezenta grafic dependenţa unei variabile Y
de o altă variabilă X, ambele studiate la nivelul aceleiaşi populaţii. Fiecare unitate din populaţie
este reprezentată grafic printr-un punct, având ca abscisă valoarea corespunzătoare pentru X iar
ca ordonată, valoarea corespunzătoare pentru Y. Punctele pot fi unite sau nu prin segmente de
dreaptă sau arce de cerc. Un astfel de grafic oferă o primă imagine despre modelul matematic,
respectiv curba care descrie legătura dintre cele două variabile. În Excel, diagrama
corespunzătoare este diagrama XY (prin puncte).

Exemplu:

Se realizează un studiu privind dependenţa executării corecte a unei piese de mare precizie, de
vârsta executantului. Studiul se face pe 10 executanţi dintr-o întreprindere, fiecare având de
executat 25 de piese. În tabelul de mai jos, X reprezintă vârsta iar Y, numărul de piese produse cu
defect, din cele 25 care reprezintă norma.

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
X 18 25 27 33 38 40 42 47 49 51
Y 10 6 5 4 3 3 1 2 3 4

Pentru a putea utiliza diagrama Excel prin puncte este necesar ca datele sa fie ordonate în raport
cu X, aşa cum apar şi în tabel. Paşii de execuţie a unui astfel de grafic sunt similari cu cei
prezentaţi mai sus, cu menţiunea că acum, pentru o singură serie, este necesar să se selecteze din
foaia de lucru, atât valorile lui X, cât şi valorile lui Y, aşa cum este ilustrat în imaginea:

17
După parcurgerea paşilor de reprezentare, se obţine imaginea:

Analizând informaţia din grafic, se observă că maximul de piese cu defect este atins la 18 ani,
calitatea pieselor crescând odată cu vârsta, până la 42 de ani când se înregistrează iar o uşoară
scădere a calităţii, respectiv o creştere a numărului de piese produse cu defect. Conform acestui

18
studiu, directorul de producţie va fi îndreptăţit să selecteze personalul necesar şi în funcţie de
vârsta. Desigur, într-un astfel de caz, există şi alţi factori de influenţă, cum ar fi experienţa în
producţie, care are un aport mai mare decât vârsta în sine.

Astfel de grafice se pot întâlni pe diverse site-uri pe internet, prezentând într-o formă clară şi
succintă diverse informaţii cum ar fi cele din domeniul indicatorilor macroeconomici şi de
asemenea, pot fi postate pe net sau trimise prin poşta electronică, atunci când este necesar să
transmitem informaţii despre propria întreprindere. Aşadar, abilităţile de realizare a unei
diagrame, precum şi cele de interpretare a informaţiei conţinute într-o astfel de diagramă,
reprezintă un plus în realizarea fluxului de informaţii de la şi către întreprindere.

Chestionar:

1. Ce diagramă statistică utilizăm atunci când dorim să redăm:


-structura pe grupe de vârstă a personalului dintr-o întreprindere,
-evoluţia anuală a profitului,
-dependenţa între cheltuielile de marketing şi volumul vânzărilor, observată în
timp?
2. Redaţi câteva caracteristici ale întreprinderii în care lucraţi, utilizând diagramele
Excel, de tip structură radială, coloană, linie şi XY. (pt cel final)
3. Comentaţi informaţia conţinută în următoarele grafice preluate de pe internet:

Sursa: Site-ul INS (http://www.insse.ro), Anuarul Statistic


al României, 2004-Activitatea întreprinderii

19
Sursa: Site-ul INS, Anuarul Statistic 2004-Turism

20
Sursa: Site-ul INS, Anuarul Statistic 2004-Populaţie

Sursa: Site-ul INS, Anuarul Statistic 2004-Comerţ interior şi servicii de piaţă

21
22
ANALIZA DATELOR STATISTICE PRELUATE DE PE INTERNET.
METODE CANTITATIVE ŞI ELEMENTE DE DATA MINING

De multe ori, informaţiile ne sunt prezentate sub forma unei înşiruiri de valori numerice
sau nenumerice, ale căror înţeles este la prima vedere, încifrat. Spre exemplu, putem găsi pe
Internet, pe diverse site-uri specializate, valoarea profitului intern brut pe ţară, pe o perioadă de
câţiva ani sau tabele cu profilul de activitate pentru societăţile comerciale dintr-o anumită zonă
sau cu producţia întreprinderilor din aceeaşi zonă. Astfel, înşiruirea de numere sau cuvinte ne dă
în prima fază o informaţie despre unitatea observată (momentul de timp, societatea comercială,
întreprinderea). Dacă vrem însă informaţii de ansamblu, asupra perioadei de timp sau a
populaţiei observate, înşiruirea de date rămâne mai puţin concludentă. În acest caz, se pune
problema extragerii informaţiei (data mining)din şirul de date, lucru care se poate face prin
diverse modalităţi de prelucrare a datelor. Subliniem aici trei astfel de metode de analiză a
datelor:
-reprezentarea datelor cu ajutorul graficelor;
-sistematizarea datelor după clase de valori;
-prelucrarea numerică a datelor.
Reprezentarea datelor cu ajutorul graficelor se face în scopul de a transmite aceeaşi informaţie
deja conţinută în şirul de date, într-un mod mai sintetic, cu o mai puternică impresie vizuală, care
permite sublinierea anumitor trăsături de ansamblu (evoluţia unui fenomen urmărit în timp,
modul de împărţire a populaţiei pe clase). Acest aspect a fost tratat pe larg în tema anterioară,
astfel că o detaliere a lui nu mai este necesară.
Sistematizarea datelor după clase de valori se realizează în scopul de a evidenţia în ansamblul
ei, structura populaţiei studiate, structură care este mai greu observabilă în înşiruirea iniţială de
date. Această modalitate de extragere a informaţiei din date este de multe ori o etapă necesară în
reprezentarea grafică a datelor. Desigur, gruparea pe clase de valori nu aduce o informaţie
suplimentară faţă de şirul iniţial de date, ci doar subliniază informaţia deja existentă.
Prelucrarea numerică a datelor vine însă cu un plus de informaţie, descoperind anumite trăsături
ale fenomenului sau populaţiei studiate ( spre exemplu, media), care nu erau disponibile direct
din şirul de date. Prelucrarea constă în calcularea unor parametri care definesc sintetic şi în
ansamblu mulţimea de date, cum ar fi: media, mediana, modala, abaterea standard, etc.
Cunoaşterea celor trei modalităţi de analiză a datelor este importantă atât în etapa de
căutare a informaţiei în datele disponibile pe internet cât şi în etapa în care la rândul nostru dorim
să transmitem anumite informaţii cât mai succint şi mai relevant. În cele ce urmează vom aminti
câteva elemente de statistică, pentru a face posibilă prezentarea ultimelor două modalităţi de data
mining, sistematizarea şi prelucrarea numerică a datelor.

Tipuri de date

În tema anterioară s-au precizat noţiunile de populaţie statistică şi variabilă statistică.


Datele statistice pot fi privite ca valori ale unei variabile statistice, înregistrate fie pe aceeaşi
unitate a unei populaţii în diverse momente de timp, spre exemplu, fie pe mai multe unităţi ale
populaţiei. Al doilea caz necesită sistematizarea, în timp cel primul nu. În primul caz, şirul
datelor se mai numeşte şi serie de variaţie (cronologică) iar în al doilea caz, şirul se numeşte
serie de repartiţie.
Într-o serie de repartiţie, valorile pot fi numere, caz în care datele se numesc numerice iar
variabila ale cărei valori sunt reprezentate de aceste date se numeşte variabilă cantitativă sau
numerică sau litere, cuvinte simboluri, caz în care se numesc nenumerice iar variabila ale cărei
valori sunt reprezentate de aceste date se numeşte variabilă calitativă sau nenumerică.

23
La rândul lor, variabilele respectiv datele cantitative pot fi discrete sau continue, după
cum este vorba de o variabilă care poate lua doar anumite valori în intervalul său de variaţie sau
orice valoare din acel interval. În general, datele calitative şi cele cantitative discrete se
sistematizează pe clase formate din câte o valoare, în timp ce datele cantitative continue se
sistematizează pe clase formate din intervale de valori. Există şi excepţii, spre exemplu atunci
când pentru nişte date discrete avem un număr mare de valori distincte, este de preferat să
grupăm datele pe clase formate din intervale de valori.
Exemple:
-serie de variaţie:
 2002 2003 2004 2005 2006 
X :  
 800 850 880 895 900 
X- evoluţia producţiei in mil.lei, pentru o firma;

-serie de repartiţie, date calitative:


 S P M
X :  .
105 84 21 
X- repartiţia societăţile comerciale dintr-o localitate după forma de proprietate (de stat,
privat
şi mixt);

- serie de repartiţie, date cantitative discrete:


 0 1 2 3 4
X :  
 40 16 10 8 6 
X- repartiţia angajaţilor unei întreprinderi după numărul de piese cu defect realizate din
norma de patru piese;

- serie de repartiţie, date cantitative continue:


  0, 100 100, 200  200, 300 
X :  
 10 80 30 
X – repartiţia întreprinderilor dintr-o regiune după profitul la finalul unui an, în mil. lei.

Sistematizarea datelor după clase de valori

Datele de mai sus sunt prezentate sub forma sistematizată. În afară de primul exemplu,
care coincide cu forma iniţială a datelor, toate celelalte exemple s-au obţinut în urma
sistematizării unor şiruri de date, adică, spre exemplu:
-P, P, S, P, M, ….pentru cele 210 societăţi;
-2, 4, 0, 1, 1, 3, 2, 4, … pentru cei 80 de angajaţi;
-50, 72, 135, 180, 250, 50, 300, …pentru cele 120 de întreprinderi.
Sistematizarea presupune gruparea datelor în clase de valori sau intervale. În cazul
datelor calitative si cantitative discrete, se menţionează toate valorile distincte (cuvinte sau
numere) şi apoi se numără câte unităţi din populaţie se află în fiecare clasă. În mod analog se
procedează şi în cazul datelor cantitative continue, numai că în loc de valori se precizează
limitele intervalelor după care se doreşte gruparea.
În Excel, funcţiile care se utilizează la sistematizarea datelor sunt COUNTIF, pentru
grupare pe valori si FREQUENCY, pentru grupare pe intervale.
Sintaxa acestor funcţii este următoarea:

Sintaxa funcţiei :

24
COUNTIF (range, criteria)=(f1, f2, …, fR)
-parametrii de intrare:
range-un vector care cuprinde valorile pe care dorim să le grupăm ;
criteria-un vector care cuprinde valorile unice după care dorim să facem gruparea ;
-parametrii de ieşire :
fi-frecvenţa de apariţie a valorii xi din criteria, în şirul range.

Obs. Funcţia trebuie introdusă ca o formulă matrice. După returnarea unei singure valori,
se selectează încă atâtea căsute de câte avem nevoie, se tastează F2, apoi
CTRL+SHIFT+ENTER. Dimensiunea vectorului de ieşire este egală cu dimensiunea lui criteria.

Sintaxa funcţiei :
FREQUENCY (data array, bins array)=(f1, f2, …, fR)
-parametrii de intrare:
data array- un vector care cuprinde valorile pe care dorim să le grupăm pe intervale ;
bins arrray- un vector care cuprinde capetele intervalelor de grupare;
-parametrii de ieşire :
fi- numărul de valori din data array care sunt cuprinse în intervalul  bi , bi 1  , acestea
fiind
elemente din bins array.
Parametrul de ieşire va fi un vector de dimensiune egală cu dimensiunea lui bins array
+1.
Funcţia trebuie introdusă ca o formulă matrice (vezi procedeul de la countif).
Exemplu : Bins array=(k1, k2, k3)
(f1, f2, f3, f4)-f1-nr. de valori din data array mai mici sau egale cu k1
- f2- nr. de valori din data array, cuprinse in (k1, k2]
- f3- nr. de valori din data array, cuprinse in (k2, k3]
- f4- nr. de valori din data array, mai mari decât k3.

Exemple de sistematizare în Excel:

Vom considera, pentru simplificare, 10 societăţi comerciale, pe care le vom studia în


raport cu forma de proprietate şi presupunem ca vom avea următoarea situaţie:
S,S,P,P,S,P,M,M,S,S. Pentru sistematizare se parcurg următorii paşi:
Pasul 1.
Se trec datele pe o coloană în foaia de lucru, pe o coloană alăturată, se trec doar valorile
unice şi se selectează o căsuţă liberă, pentru a preciza locul în care va fi întors rezultatul. Apoi se
face clic pe simbolul fx din bara de instrumente, deschizând astfel o fereastră de dialog în care se
selectează categoria de funcţii statistice şi funcţia COUNTIF.

25
Pasul 2.
Odată selectată funcţia Countif, se deschide o fereastră de dialog, în care se inserează, în
câmpurile corespunzătoare sintaxei funcţiei, cei doi parametri de intrare, prin selectarea
coloanelor corespunzătoare cu mouse-ul. După accesarea butonului OK , pe poziţia C1 va apărea
numărul de firme care sunt cu capital de stat. Pentru a afişa şi celelalte două frecvenţe, se
procedează ca la orice funcţie care trebuie introdusă ca formulă matrice, procedeul fiind descris
mai sus.

În final, se obţin datele sistematizate, pe coloana C fiind afişate numărul de firme de


fiecare tip.

26
În mod analog, se procedează şi în cazul când se doreşte sistematizarea unor date
cantitative discrete. Pentru date cantitative continue, considerăm 10 firme studiate în raport cu
profitul. Paşii sunt asemănători cu cei de la funcţia Countif, numai ca se lucrează cu funcţia
Frequency, pentru care pe coloana B vom preciza capetele intervalelor de grupare. Spre exemplu
dacă folosim intervalele din exemplul de mai sus, vom preciza intervalele, ca în figura
următoare, pe coloana B, datele fiind cele de pe coloana A:

Rezultatele funcţiei Frequency sunt cele de pe coloana C, adică, 2 firme din cele 10, au
profitul sub 100, 5 au profitul între 10 şi 200 şi 3 au profitul peste 200.

Prelucrarea numerică a datelor


O imagine mai completă asupra populaţiei se obţine atunci când calculăm diverşi
parametri care descriu în ansamblu populaţia. În general, aceşti parametri se calculează pentru
date cantitative.
Amintim aici doua grupe de parametri şi anume parametrii care descriu tendinţa centrală
a fenomenului (media, mediana, modala) şi parametrii care descriu variaţia sau abaterea valorilor
din populaţie faţă de valoarea medie (abaterea standard, variaţia sau dispersia).
Media se calculează de obicei sub forma mediei aritmetice, având formula:
N

x i
.
x  M  x  i 1

Modala este acea valoare a variabilei, care apare cel mai des, în şirul datelor.
Mediana este acea valoare a variabilei care împarte şirul datelor ordonate crescător, în
două părţi egale.
27
Abaterea standard este radicalul mediei pătratice a abaterilor datelor faţă de medie şi se
calculează cu formula:

x 
N
2
i x
.
x  i 1

Varianţa sau dispersia este pătratul abaterii medii pătratice, V  x    x2 .

Prelucrarea numerică a datelor în Excel


În Excel, funcţiile corespunzătoare acestor parametri sunt, în această ordine, AVERAGE,
MODE, MEDIAN, STDEVP, VARP.
Prezentăm mai jos sintaxa funcţiei Average, celelalte funcţii având acelaşi tip de sintaxă.

Sintaxa funcţiei :
AVERAGE (number 1, number2, ….)=media aritmetica
-parametrii de intrare reprezinta valorile variabilei pentru care dorim sa calculam media.

În cele ce urmează, vom calcula aceşti parametri pentru exemplul datelor referitoare la
numărul de piese defecte. Pentru simplificare vom considera doar 10 angajaţi.

Astfel, pentru datele de pe coloana A, aplicând pe rând funcţiile amintite obţinem următoarele
informaţii despre angajaţii acelei firme:
- un angajat face în medie aproximativ 2 (2,3) piese cu defecte-media;
- cei mai mulţi angajaţi fac câte 2 piese cu defecte-modala;
- jumătate din angajaţi fac până la 2 piese cu defecte, cealaltă jumătate, peste 2 piese cu defecte-
mediana;
- numărul de piese cu defecte făcute de angajaţi se abate cu plus-minus aproximativ 1 piesă (1,1)
de la numărul mediu de piese, egal cu 2-abaterea medie pătratică;
- dispersia este de 1 piesă (1,21)- varianţa.

În acest fel s-a realizat extracţia informaţiei din date (data mining), utilizatorul având
acum o imagine complexă asupra populaţiei sau fenomenului urmărit. Aceşti parametri pot fi
utilizaţi atât pentru a şti să interpretăm diverse informaţii prezentate sub această formă, cât şi
pentru a descrie o situaţie (populaţie, fenomen), cât mai concis.

28
O altă etapă în extragerea informaţiei din date este şi aceea în care studiem corelaţia
dintre fenomene reprezentate prin două şiruri de date, în acest caz, intervenind calculul altor
parametri specifici (a se vedea tema 6).

Chestionar:
1) Sistematizaţi angajaţii din întreprinderea în care lucraţi, folosind funcţiile Excel
-pe grupe de vârstă;
-pe studii;
-pe număr de copii.

2) Folosind funcţii Excel, calculaţi şi interpretaţi media, mediana, modala şi abaterea


standard pentru următoarele date, reprezentând salariul angajaţilor (în mil.lei) dintr-o
anumită firmă pe ultima lună:

5,5; 7,2; 8,1; 6,7; 8,2; 7,3; 12,7; 32,5; 28; 18,5; 12,4; 7,3; 8,11.

29
INDICATORI STATISTICI CE REFLECTĂ ACTIVITATEA LA NIVELUL
ÎNTREPRINDERII, ÎN CONTEXTUL INDICATORILOR
MACROECONOMICI DISPONIBILI PE INTERNET

4.1. Noţiunea de indicator statistic


Surprinderea variabilităţii din forma de manifestare a fenomenelor de masă, necesită
elaborarea de către statistică a unor metodologii şi tehnici de rafinare, transformare şi aplicare a
unor operaţii speciale de calcul pentru obţinerea unor determinări cantitativ-numerice denumite
generic indicatori statistici.
Indicatorul statistic, în forma sa generală, este expresia numerică a manifestărilor unor
fenomene, procese, activităţi sau categorii economice şi sociale, delimitate în timp, spaţiu şi
structură organizatorică. Pentru cunoaşterea fenomenelor de masă, indicatorii statistici
îndeplinesc mai multe funcţii şi anume: de măsurare; de comparare; de analiză sau de sinteză; de
estimare; de verificare a ipotezelor şi/sau de testare a semnificaţiei parametrilor utilizaţi.
Simpla enumerare a principalelor funcţii ale indicatorilor statistici pune în evidenţă o
multitudine de aspecte care trebuie avute în vedere la elaborarea şi folosirea acestora în analiză;
inclusiv stabilirea condiţiilor şi limitelor în care pot fi utilizaţi indicatorii statistici în raport cu
conţinutul specific al fenomenelor, al surselor de informaţie de care se dispune, cu scopul
cercetării.
Pentru elaborarea şi utilizarea corectă a indicatorilor statistici este esenţială îndeplinirea
unor cerinţe de principiu, generale. În acest sens, Yule (1945) precizează condiţiile care ar trebui
să le îndeplinească un astfel de indicator şi anume:
- să fie definit în mod obiectiv, independent de dorinţa utilizatorului;
- să depindă determinarea sa de toate valorile individuale înregistrate;
- să aibă o semnificaţie concretă, uşor de înţeles chiar şi de nespecialişti;
- să fie simplu şi rapid de calculat;
- să fie puţin sensibil la fluctuaţiile de selecţie (să nu prezinte valori puternic
diferite, dacă se calculează pe baza mai multor eşantioane, de acelaşi volum,
extrase prin acelaşi procedeu din aceeaşi colectivitate);
- să se preteze la calcule algebrice (să poată fi utilizat în operaţii de comparare a
mai multor serii statistice sau în operaţii de agregare/dezagregare).
Indicatorii statistici se pot grupa în indicatori primari şi derivaţi
a) Indicatori primari (mărimi absolute) – exprimă direct, general nivelul
caracteristicii cercetate. Se pot obţine prin înregistrarea directă, centralizarea datelor sau prin
însumarea parţială sau totală a datelor individuale; prezintă o capacitate relativ limitată de
descriere a fenomenului/procesului analizat, şi nu permite realizarea unor aprecieri calitative,
însă reprezintă punctul de plecare al analizei statistice;
b) Indicatori derivaţi – se obţin prin prelucrarea indicatorilor primari (absoluţi) şi
fac posibilă analiza aspectelor calitative ale fenomenelor şi proceselor analizate (ex: mărimi
relative, mărimi medii, indicatori ai variaţiei, indici, indicatori ai corelaţiei, etc).

4.2. Indicatorii tendinţei centrale


Orice businessman sau manager înainte să decidă trebuie să cunoască manifestările
individuale ale fenomenelor de masă din domeniul lui de activitate. Riscul în orice iniţiativă este
cu atât mai mic cu cât cunoaşterea este mai profundă. Aceasta demonstrează că adoptarea
oricărei decizii este precedată de cunoaşterea manifestărilor acestor fenomene social-economice
de masă.

30
Fenomenele de masă se caracterizează în principal prin variabilitatea formelor de
manifestare, determinată de acţiunea combinată în sensuri diferite a unui complex de factori
sistematici sau întâmplători, obiectivi sau subiectivi, esenţiali sau neesenţiali, identificaţi direct
sau indirect. Fenomenele de masă social-economice se manifestă nu la nivelul fiecărei unităţi din
colectivitatea investigată ci la nivelul colectivităţii, ca tendinţă. Abaterile de la tendinţă se
compensează obiectiv reciproc.
Prin urmare, fundamentarea deciziilor presupune cunoaşterea la nivelul colectivităţii
investigate a tendinţei, a ceea ce este obiectiv, esenţial, comun şi stabil în formele individuale de
manifestare a fenomenelor.
Indicatorii cu care se caracterizează tendinţa centrală din forma de manifestare a
fenomenelor de masă au ca principală funcţie aceea de a sintetiza în aşa manieră valorile
individuale înregistrate ale caracteristicilor urmărite astfel încât să fie posibilă substituirea
acestora fără să modifice esenţa şi relaţia obiectivă dintre date. Indicatorii sintetici ai tendinţei
centrale trebuie să fie acceptaţi fără ambiguitate şi trebuie înţeleşi de toată lumea în acelaşi fel.
Valorile lor calculate trebuie să fie valori tipice şi nu valori arbitrare sau subiective.
Indicatorii tendinţei centrale se determină în general ca indicatori medii sau indicatori de
poziţie (ai localizării), în funcţie de natura caracteristicilor urmărite în colectivitatea investigată,
de scopul investigaţiei. Sunt dese situaţiile când tendinţa centrală se caracterizează printr-un
anumit tip de medie (aritmetică, armonică, pătratică, geometrică), dar şi situaţii de utilizare a
indicatorilor sintetici de poziţie (sau localizare – modul, cuantile).
În general, indicatorii tendinţei centrale calculaţi ca mărimi medii sau ca medii de
structură (localizate) nu satisfac toate condiţiile lui Yule. Utilizatorul trebuie, însă, să fie interesat
să cunoască condiţiile neîndeplinite şi implicaţiile acestora pentru fundamentarea deciziilor.
4.2.1. Indicatorii medii
Pentru caracterizarea tendinţei centrale, din manifestarea unui fenomen de masă, se
calculează media valorilor individuale ale caracteristicii urmărite. Media este o măsură a
tendinţei centrale, iar valoarea sa calculată sintetizează într-un singur nivel reprezentativ tot ceea
ce este tipic, esenţial, comun şi obiectiv în apariţia şi manifestarea fenomenelor de masă. Media
trebuie înţeleasă ca un nivel obişnuit, ca un nivel la care ne aşteptăm, ca un fel de speranţă
matematică sau centru de greutate capabil să exprime esenţa comună a tuturor sau a majorităţii
manifestărilor individuale ce alcătuiesc colectivitatea cercetată. Deşi conţinutul acestei mărimi
este abstract, forma de exprimare este concretă. Media se exprimă în unităţi concrete de măsură,
dar are un caracter abstract deoarece valoarea ei calculată poate să coincidă sau nu cu vreo
valoare individuală înregistrată de variabila numerică urmărită. Ea are un conţinut cu atât mai
real cu cât este mai reprezentativă, cu cât valorile individuale din care se calculează sunt mai
omogene, mai apropiate, ca mărimi, între ele. Numai în aceste condiţii în vecinătatea valorii
medii se concentrează cele mai multe valori individuale înregistrate, iar sintetizarea lor într-o
singură valoare se efectuează pe baza unei realităţi obiective.
Calculul mediei, ca măsură a tendinţei centrale, trebuie să fie precedată de verificarea
omogenităţii colectivităţii după caracteristica urmărită. În cazul în care mulţimea valorilor
individuale înregistrate este eterogenă, colectivitatea se structurează pe grupe omogene, iar apoi
se calculează adecvat medii parţiale, astfel încât media pe întregul ansamblu apare ca o sinteză a
mediilor parţiale.
În funcţie de natura caracteristicii urmărite, de scopul investigaţiei, nivelul mediu al
acesteia se calculează ca medie aritmetică, armonică, pătratică, geometrică. In cazul în care după
sistematizarea/gruparea datelor, (valorile individuale prezintă frecvenţe diferite de apariţie)
nivelul mediu se calculează ca medie ponderată.
Media aritmetică
În sens statistic, media aritmetică a valorilor individuale x1, x2, …, xn ale caracteristicii
numerice X reprezintă acea valoare x care s-ar fi înregistrat dacă toţi factorii de influenţă ar fi

31
acţionat constant (cu aceeaşi intensitate) la nivelul fiecărei unităţi de înregistrare. Prin urmare,
n
x  x  ...  x n
avem: x  1 2 , sau x i
.
n x i 1

n
Exemplu: Dacă o firmă primeşte comenzi pentru trei luni consecutive, iar valoarea
acestora este: 151 u.m., 52 u.m. şi 280 u.m., valoarea medie lunară a comenzilor este:
151  52  280 483
u.m.  u.m.  161u.m.
3 3
De remarcat este faptul că valoarea mediei aritmetice poate să coincidă sau nu cu una
dintre valorile individuale ale caracteristicii, dar precis ea se încadrează între valoarea minimă şi
maximă.
Într-o colectivitate statistică, suficient de mare, unde, de obicei, multe valori prezintă o
anumită frecvenţă de apariţie, media aritmetică se calculează ca o medie ponderată.
n

fx i i
, unde fi reprezintă frecvenţa valorii xi şi
n

f i  n.
x i 1
i 1
n
Exemplu: Media distribuţiei prezentate în tabelul următor
Număr de vehicule în stare bună de funcţionare 1 2 3 4 5
Număr de zile de funcţionare 5 11 4 4 1
este media numărului de vehicule în bună stare de funcţionare, adică
n

fx i i
60 .
x i 1

 2,4
n 25
Observaţie. În cazul unei distribuţii de frecvenţe grupate (discrete sau continue), x i
reprezintă centrul de interval al grupei iar fi frecvenţa valorilor din intervalul grupei.
Exemplu: Dacă numărul de vânzări realizate într-o anumită regiune de comis-voiajorii
angajaţi de o firmă de calculatoare de buzunar sunt:
Număr de vânzări 0-4 5-9 10-14 15-19 20-24 25-29
Număr de comis-voiajori 1 14 23 21 15 6
atunci media numărului de vânzări este:
2  1  7  14  12  23  17  21  22  15  27  6 1225
x   15,3 .
80 80
Observaţie: Media aritmetică nu este considerată potrivită pentru seturile de date care au
valori extreme la unul dintre capetele intervalului, deoarece în acest caz se iau în calcul şi acele
valori, fapt ce poate duce la obţinerea unei medii care nu este cu adevărat reprezentativă şi care
este implicit inutilizabilă în practică. Se consideră că acest lucru reprezintă cel mai mare
dezavantaj al mediei aritmetice.
Media armonică
Media armonică este un alt indicator al tendinţei centrale folosit numai în anumite
situaţii, şi anume atunci când seturile de date sunt alcătuite din valori exprimate sub formă de
rapoarte, cum ar fi preţurile (în u.m./kg), vitezele (în mp/h) sau productivitatea (produse/oră-om).
Media armonică se defineşte ca valoare inversă a mediei aritmetice a inverselor valorilor
elementelor individuale înregistrate. Deci, relaţia de calcul a mediei armonice simple a şirului x 1,
x2, …, xn este următoarea:
n
ma  n
1
i 1 xi

32
Exemplu: Să presupunem că se efectuează trei investiţii care produc acelaşi venit. Ratele
lor de randament sunt următoarele: 5%, 10% şi 15%. Rata medie cu care trebuie plasat capitalul
pentru a produce venitul global al celor trei investiţii va fi calculată ca medie aritmetică a
randamentelor individuale:
3 3
ma    8,18%
1 1 1 11
 
5 10 15 30
Acest rezultat, după cum se observă, este diferit de valoarea calculată a mediei aritmetice,
care este de 10%.
Pentru o serie de distribuţii de frecvenţe media armonică ponderată se calculează după
n

f i

relaţia: ma  n
i 1
, dacă se utilizează frecvenţele absolute.
1

i 1 x i
fi

Atunci când este vorba de calcularea mediei unui ansamblu de elemente exprimate printr-
un raport (ca rate), în funcţie de modul de măsurare al datelor, pentru mediere se va alege fie
media armonică, fie media aritmetică. Criteriile folosite pentru alegerea mediei adecvate por fi
enunţate după cum urmează:
a. dacă fracţiile utilizate pentru stabilirea cantităţilor cărora li se va calcula media au
acelaşi numărător, atunci trebuie folosită media armonică;
b. dacă fracţiile utilizate pentru stabilirea cantităţilor cărora li se va calcula media au
acelaşi numitor, atunci trebuie folosită media aritmetică.
Exemplu: O firmă are în dotare două tipuri de camioane.
a) Dacă două camioane (câte unul pentru fiecare tip) au fost testate pe o distanţă de 2000
km şi pentru consum s-au obţinut rezultatele de 14 km/l şi respectiv 18 km/l, atunci cantitatea de
la numărător (km sau distanţa) a fost aceeaşi pentru ambele camioane şi, astfel, media cea mai
adecvată ce poate fi utilizată pentru consum este cea armonică. În acest caz, consumul mediu
2
ma   15,75
este 1 1 km/l.

14 18
b) Dacă presupunem, ca un al doilea caz, că ambele camioane sunt alimentate cu 10 l de
carburant şi testate până când se epuizează carburantul, cu scopul de a obţine cele două cantităţi
de 14 şi respectiv 18 km/l, atunci înseamnă că acum cantitatea de la numitor este aceeaşi pentru
ambele camioane. Acest lucru arată că cea mai adecvată medie care poate fi folosită este cea
14  18
aritmetică. În acest caz, consumul mediu este x   16 km/l.
2
Diferenţa care apare între valorile obţinute pentru cele două medii poate fi explicată prin
faptul că media aritmetică de 16 km/l a rezultat în urma consumării celor 10 l de carburant, în
timp ce media armonică de 15,75 km/l a fost obţinută în funcţie de consumul înregistrat pe
distanţa de 2000 km.
Media geometrică
Media geometrică este o mărime specializată folosită pentru a calcula media creşterilor
procentuale. Media geometrică reprezintă acea valoare a caracteristicii observate care dacă ar
înlocui fiecare valoare individuală din serie produsul acestora nu s-ar modifica, adică
1
 n n
m g   xi 
 i 1 

33
Media geometrică poate fi folosită pentru a calcula media creşterilor procentuale a
salariilor sau preţurilor bunurilor. Datorită modului în care este definită, media geometrică nu
prea ţine cont de valorile extreme, iar uneori este folosită ca o alternativă a mediei aritmetice.
Indicele Financial Times (FT) este cel mai cunoscut exemplu al folosirii în practică a
mediei geometrice. Acesta se calculează ca medie geometrică a valorilor unui grup selectat de
acţiuni.
Exemplu: Dacă se ştie că în fiecare an al unei perioade de patru ani (succesivi) preţul uni
bun a crescut cu 6%, 13%, 11%şi respectiv 15%, atunci calculaţi media creşterilor preţului
bunului respectiv.
Avem m g  4 0,06  0,13  0,11  0,15  0,112  11,2% .
Această valoare (11,2%) reprezintă creşterea procentuală anuală constantă care este
necesară pentru ca pornindu-se de la preţul din primul an (care se dă) să se ajungă la preţul din
ultimul an.
4.2.2. Indicatori de poziţie
Indicatorii de poziţie nu se calculează ci se identifică în cadrul unei serii (colectivităţi) cu
câte o variantă reală, care posedă o anume proprietate, în temeiul căreia respectiva variantă oferă
o informaţie satisfăcătoare despre esenţialul, tipicul întregii colectivităţi.
Mediana (Me) reprezintă valoarea centrală a unei serii de date aranjate crescător sau
descrescător. Cu alte cuvinte, faţă de valoarea mediană, jumătate din observaţii au valori mai
mici sau egale cu mediana, iar jumătate au valori mai mari sau egale cu mediana.
Utilizarea medianei ca o expresie a tendinţei centrale este recomandată mai ales atunci
când seria conţine valori extreme, valoarea medie nemaifiind, în acest caz, reprezentativă.
Pentru seria simplă:
Dacă seria are un număr impar de termeni, mediana este a (n+1)/2 valoarea din seria
ordonată (crescător sau descrescător). În cazul unei serii cu un număr impar de termeni, mediana
va fi egală cu media aritmetică a celor doi termeni centrali.
Pentru seria de frecvenţe:
În calculul medianei unei distribuţii de frecvenţe se parcurg următoarele etape:
 Se cumulează crescător frecvenţele de apariţie
 se determină locul medianei loc Me = (ni+1)/2
 se stabileşte intervalul median ca fiind primul interval cu frecvenţa cumulată mai
mare decât locul medianei
 se determină mediana pe baza formulei:
locMe  n PMe
Me  x0Me  h
n Me
unde: x = limita inferioară a intervalului median
k = mărimea intervalului median
npMe = suma frecvenţelor până la intervalul median
nMe = frecvenţa intervalului median
Modul sau dominanta unei variabile reprezintă valoarea care înregistrează cea mai mare
frecvenţă de apariţie. Valoarea modală se utilizează ca indicator al tendinţei centrale atunci când
media nu se poate calcula sau nu are sens să fie calculată. De exemplu, în loc de stabilirea
mărimii medii la confecţii, a numărului mediu la pantofi etc. se preferă observarea variantei cele
mai frecvente.
Anumite serii de date pot să nu prezinte o valoare modală pe când altele pot avea două
sau mai multe valori modale. Pentru a putea analiza astfel de serii multimodale, este necesar ca
numărul de înregistrări să fie suficient de mare.
În cazul seriilor de date organizate pe intervale de variaţie a caracteristicii de grupare,
modul se află prin interpolare în intervalul de grupare cu frecvenţa cea mai mare.

34
Pentru seria simplă:
Modul este valoare care se înregistrează cel mai frecvent.
Pentru seria de frecvenţe:
Estimarea valorii modale presupune parcurgerea următoarele etape:
 se determină intervalul modal (intervalul cu frecvenţa cea mai mare)
 se determină modul pe baza formulei:
1
Mo  x0Mo  k Mo 
1   2
unde: x = limita inferioară a intervalului modal
k = mărimea intervalului modal
1 = diferenţa între frecvenţa intervalului modal şi frecvenţa intervalului
anterior
2 = diferenţa între frecvenţa intervalului modal şi frecvenţa intervalului
următor
Observaţie: Pentru seriile de date care tind către repartiţia normală, mediana este cuprinsă
între media aritmetică şi mod, iar în cazul unei repartiţii normale perfecte, media coincide cu
mediana şi modul.
Aplicaţia 1 : Salariul net lunar al celor 12 angajaţi ai unei firme a înregistrat în luna
martie 2006 următoarele valori (mii u.m.): 6,2; 5,4; 5,2; 10,4; 8,2; 7,5; 5,8; 6,2; 26,0; 6,2; 6,7;
6,9. Stabiliţi care dintre cei trei indicatori ai tendinţei centrale reprezintă valoarea medie cea mai
semnificativă corespunzătoare seriei simple de date.
Răspuns:
 media aritmetică simplă:
n

x i
6,2  5,4  ....  6,9 100,8
x i 1
   8,4 mii u.m.
n 12 12
 calculul medianei necesită ordonarea seriei: 5,2; 5,8; 5,4; 6,2; 6,2; 6,2; 6,8; 6,9; 7,5;
8,2; 10,4; 26,0. Mediana se calculează ca media aritmetică simplă a celor doi termeni
6,2  6,8
centrali: Me   6,5 mii u.m.
2
 modul reprezintă salariul cel mai des întâlnit: Mo = 6,2 mii u.m.
Dintre cei trei indicatori medii cea mai puţin reprezentativă este media aritmetică, aceasta
fiind distorsionată de cele două valori extreme ale seriei de date. Valoarea modală are o
frecventă de apariţie de numai trei înregistrări, ceea ce face ca valoarea mediană să fie cea mai
reprezentativă medie corespunzătoare seriei simple de date analizate.
Aplicaţia 2. Repartiţia pe grupe de vârstă a personalului dintr-o reţea de distribuţie se
prezintă în tabelul de mai jos. Să se reprezinte grafic seria de date şi să se calculeze indicatorii
tendinţei centrale (media, mediana şi modul).

Tabel nr. 1
Vârsta (ani) Nr de persoane Centrul intervalului Frecvenţe
(ni) xi xi*ni cumulate
1 2 3 4 5
Sub 25* 7 20 140 7
25 – 3 12 30 360 19
35 – 45 20 40 800 39
45 – 55 8 50 400 47
55 şi peste 3 60 180 50

35
Total 50 1880 ---
* limita superioară inclusă în interval
Rezolvare:
 Vârsta medie a celor 50 de angajaţi ai firmei se determină utilizând formula mediei
aritmetice ponderate:
i xi  ni 1880
x   37 ,6 ani
 ni
i
50

 Estimarea medianei presupune parcurgerea următoarelor etape:


- Calculul frecvenţelor cumulate crescător (vezi coloana 5 a tabelului de mai sus)
- Determinarea locului medianei: loc Me = 51/2 = 25,5
- Stabilirea intervalului median: [35 – 45)
- Aplicarea formulei medianei
Me = 35 + 10 (25,5-19)/20 = 38,25 ani
 Vârsta ea mai des întâlnită între cei 50 de angajaţi ai firmei se estimează astfel:
- Se determină intervalul modal (intervalul cu frecvenţa cea mai mare): [35-45)
- Se calculează valoarea modală:
Mo = 35 + 10 (8/8+12) = 39 ani

4.3. Indicatori sintetici ai împrăştierii


Indicatorii sintetici ai împrăştierii (variaţiei), sintetizează într-o singură expresie numerică
variaţia valorilor individuale faţă de tendinţa centrală a caracteristicilor urmărite, într-o
populaţie statistică. Principalii indicatori sintetici cu care se caracterizează împrăştierea
(varianţa) termenilor seriei faţă de tendinţa lor centrală sunt: abaterea medie liniară, dispersia,
abaterea medie pătratică (sau abaterea standard) şi coeficientul de variaţie. La baza determinării
indicatorilor sintetici stau abaterile individuale, dar pentru a se evita compensarea, ele vor fi
luate în modul (valoare absolută).
Abaterea medie liniară – arată cu cât se abat, în medie, termenii seriei de la media lor.
 pentru serii simple
d
 d i   xi  x
n n

 pentru serii de frecvenţe


d
 d i ni   xi  x ni
 ni  ni
Dezavantaj: nu ţine cont de semnul algebric şi acordă aceeaşi importanţă atât abaterilor mari cât
şi celor mici ale termenilor seriei de la medie.
Dispersia – se calculează ca medie aritmetică (simplă sau ponderată) a pătratelor
abaterilor termenilor seriei de la media lor; este un indicator abstract, fără unitate de măsură, şi
arată modul în care termenii seriei gravitează în jurul mediei.
 pentru serii simple
 ( xi  x ) 2  xi
2

 
2
  x2
n n
 pentru serii de frecvenţe

2 
 ( xi  x )2  ni   xi2  ni  ( x )2
 ni  ni

36
Abaterea medie pătratică (abaterea standard, abaterea tip) – se calculează ca medie
pătratică (simplă sau ponderată) a abaterilor termenilor seriei de la media lor:
  2
Dezavantaj: se exprimă în unitatea de măsură a variabilei pentru care se calculează, făcând
imposibilă compararea variaţiilor a două caracteristici exprimate în unităţi de măsură diferite.
Coeficientul de variaţie – se calculează ca raport procentual între abaterea medie
liniară/pătratică şi nivelul mediu. (simplă sau ponderată) a abaterilor termenilor seriei de la
media lor;
d 
v   100 sau, mai des folosit v   100
x x
Un coeficient care se apropie de 0 arată lipsa variaţiei, colectivitatea fiind alcătuită din
termeni foarte omogeni. Daca v = 0, termenii seriei sunt egali între ei.
Din statistica experimentală s-a preluat aprecierea următoare: dacă v este până în 35%, se
consideră că intensitatea variaţiei este redusă, colectivitatea este omogenă şi în consecinţă media
este reprezentativă. Cu cât se depăşeşte pragul de 35%, cu atât intensitatea variaţiei creşte, iar
colectivitatea este mai eterogenă. În aceste condiţii, media tinde să fie o mărime
nereprezentativă.
Dacă v > 50% variaţia caracteristicii este foarte mare, colectivitatea nu este omogenă, media nu
este reprezentativă; este necesară regruparea datelor.
Aplicaţia 3. Să se stabilească dacă colectivitatea celor 50 de angajaţi analizaţi în aplicaţia
2 este omogenă.
Tabel nr. 2
Vârsta Nr. de Centrul
(ani) persoane intervalului
(ni) xi xi  x x  xn
i i  xi  x  2 ni
1 2 3 4 5 6
Sub 25* 7 20 -17.6 -123.2 309.76
25 – 35 12 30 -7.6 -91.2 57.76
35 – 45 20 40 2.4 48 5.76
45 – 55 8 50 12.4 99.2 153.76
55 şi peste 3 60 22.4 67.2 501.76
Total 50 12 0 1028.8
Pentru a stabili gradul de omogenitate a colectivităţii de 50 angajaţi calculăm coeficientul
de omogenitate.
În tabelul nr. 2 totalul din colana a 6-a permite calcularea dispersiei:
1028 ,8
2   20 ,58
50
Abaterea medie pătratică   20 ,58  4 ,54 ani semnifică faptul că vârsta medie a celor
50 de angajaţi ai firmei se abate în medie cu 4,54 ani de la media estimată.
Abaterea standard de 4,54 ani reprezintă 9,07% faţă de medie:
4 ,54
v  100  9 ,07%
32.6
Intensitatea împrăştierii variantelor reale ale faţă de vârsta medie este redusă ceea ce arată
că media x  32 ,6 ani este reprezentativă pentru toţi cei 50 de angajaţi ai firmei.

4.4. Indicatorii asimetriei


Forma variaţiei în jurul mediei se exprimă statistic prin mai mulţi indicatori ai asimetriei,
boltirii, excesului repartiţiei de frecvenţe etc. Cea mai simplă modalitate de descriere acceptabilă,

37
chiar dacă incompletă a formei variaţiei este observarea diferenţei între medie şi mod care se
numeşte asimetrie: as  x  Mo  0
 Dacă x  Mo atunci există simetrie perfectă;
 Dacă x  Mo atunci există asimetrie pozitivă sau de stânga;
 Dacă x  Mo atunci există asimetrie negativă sau de dreapta.
Aprecierea “de stânga” sau “de dreapta” provine din observarea poziţiei în care se află
modul (Mo) faţă de medie ( x ) pe axa absciselor în cazul unei serii de repartiţie asimetrică
Pentru a aprecia calitativ această situaţie, se recurge, în mod frecvent, la coeficientul de
asimetrie propus de Karl Pearson
x  Mo
C as 

Dacă seria de repartiţie este bi sau multimodală, dar tinde spre normalitate, se poate
recurge şi la estimarea:
3  ( x  Me)
 
C as

Coeficientul de asimetrie ia valori în intervalul (-3; 3).
În măsura în care coeficientul de asimetrie se încadrează în intervalul (0; 0,3) spunem că
avem de-a face cu o asimetrie moderată şi consecinţă indicatorii tendinţei centrale caracterizează
corect colectivitatea (sunt reprezentativi).
Aplicaţia 4. Caracterizaţi asimetria seriei de frecvenţe din aplicaţia 2.
Răspuns: Valoarea coeficientului de asimetrie Pearson:
37 ,6  39
C as   0 ,31
4 ,54
indică o asimetrie moderată negativă (de dreapta). Cu alte cuvinte, media şi ceilalţi indicatori ai
tendinţei centrale caracterizează corespunzător colectivitatea cercetată.

4.5. Indicatori macroeconomici disponibili pe Internet


Datele lunare cu privire la principalii indicatori economico-sociali sunt prezentate de
Institutul Naţional de Statistică în Buletinul statistic lunar şi au caracter provizoriu, pot face
obiectul unor revizuiri ulterioare; datele se definitivează anual, pe baza anchetei structurale de
întreprindere şi a unor anchete anuale specifice efectuate de INS. Adresa de Internet este
www.bnr.ro.

SONDAJUL STATISTIC ÎN STUDIUL FENOMENELOR SOCIAL-


ECONOMICE – SUPORT AL TEORIEI DECIZIEI. SITE-URI DE SONDARE A
OPINIEI PUBLICE.

5.1. Introducere

38
Pentru caracterizarea statistică a fenomenelor şi proceselor social-economice de masă cu
scopul evidenţierii legităţilor specifice acestora, se folosesc date individuale obţinute prin
metode de înregistrare totală sau parţială.
În practică din diferite motive pentru anumite colectivităţi nu se poate face înregistrarea
totală a unităţilor ce le compun, fie că ar fi necesitat cheltuieli foarte mari, fie că operativitatea
obţinerii rezultatelor cercetării nu este asigurată. Toate aceste considerente şi altele nespecificate,
necesită tot mai frecvent organizarea unor înregistrări parţiale de tipul sondajelor statistice.
Metoda sondajului este folosită cu succes în industrie pentru determinarea productivităţii
muncii în unităţi naturale, în cercetarea calităţii produselor se foloseşte pe scară largă în timpul
desfăşurării proceselor tehnologice pentru prevenirea rebuturilor, în depistarea cauzelor care
provoacă fluctuaţia forţei de muncă, în studierea capacităţilor de producţie, a suprafeţelor de
producţie, etc.
În comerţ, sondajul este utilizat pentru testarea acceptării noilor produse, la studierea
aspectelor complexe ale cererii de mărfuri în funcţie de variaţia factorilor care o influenţează,
precum şi la estimarea tendinţelor specifice ale activităţilor de desfacere a mărfurilor şi a
prestărilor de servicii către populaţie.
În scopul studierii nivelului de trai al populaţiei, se efectuează cercetarea selectivă cu
caracter permanent, pe baza bugetelor de familie, privitoare la mărimea şi structura veniturilor,
cheltuielilor şi consumului populaţiei, pe categorii sociale.
Sondajul statistic se aplică cu rezultate bune şi în celelalte ramuri ale economiei, încât se
poate spune pe drept cuvânt că aproape nu există domeniu unde sondajul statistic, datorită
avantajelor pe care le prezintă, cât şi a exactităţii rezultatelor, să nu fie folosit.

5.2. Noţiuni specifice


Cercetarea parţială al cărei scop este ca, pe baza rezultatelor prelucrării datelor obţinute,
să se estimeze, folosind principiile teoriei probabilităţilor, parametrii corespunzători ai
colectivităţii totale, poartă denumirea de sondaj statistic. Cu alte cuvinte, cercetarea prin sondaj
realizată cu un efort material şi uman mai redus are drept rezultat obţinerea unor indicatori
derivaţi care permit caracterizarea completă şi reală a întregii colectivităţi. În vederea atingerii
acestui deziderat cercetarea prin sondaj se desfăşoară în două etape:
1. se culeg şi se prelucrează date statistice de la unităţile colectivităţii generale care au
fost incluse în eşantion din care rezultă indicatorii derivaţi: mărimi relative, mărimi medii, indici,
etc. care descriu eşantionul folosit.
2. indicatorii obţinuţi prin prelucrarea datelor din eşantion se extind, cu o anumită
probabilitate, asupra întregii colectivităţi în scopul caracterizării acesteia din punct de vedere
statistic.
Din cele relatate mai sus rezultă că noţiunea de „cercetare statistică prin sondaj” nu
trebuie confundată nici cu noţiunea de cercetare statistică totală care comportă cele trei faze ale
cercetării statistice: culegere, prelucrare, analiză şi interpretarea datelor şi nici cu noţiunea de
„observare selectivă” care se rezumă doar la culegerea informaţiilor de la unităţile care alcătuiesc
eşantionul.
Cercetarea prin sondaj implică folosirea unor noţiuni perechi ca de pildă: colectivitate
generală – colectivitate de selecţie, media colectivităţii generale – media colectivităţii de selecţie,
dispersia colectivităţii generale – dispersia colectivităţii de selecţie, valoarea statistică calculată –
valoarea estimată, etc.
Colectivitatea generală denumită şi populaţie, este alcătuită din totalitatea unităţilor
simple care formează fenomenul supus cercetării. Pentru ca cercetarea statistică să-şi atingă
scopul propus este necesară delimitarea în timp, spaţiu şi după volum a acestei colectivităţi.

39
Colectivitatea de selecţie (sondaj, probă, mostră, eşantion) reprezintă acea parte a
colectivităţii generale de la care urmează să se culeagă datele în scopul generalizării rezultatelor
obţinute din prelucrarea acestora, asupra întregului ansamblu.
În studiul statistic al fenomenelor se foloseşte foarte frecvent perechea de noţiuni valoare
statistică calculată şi valoarea estimată.
Se consideră că valoarea statistică calculată este rezultatul obţinut dintr-o cercetare
empirică. Aceste valori statistice sunt folosite pentru a estima un indicator corespunzător, dar
pentru care nu avem date suficiente. Cel mai frecvent aceste noţiuni se folosesc în teoria
sondajului când indicatorii din eşantion devin estimatori ai parametrilor corespunzători din
colectivitatea generală.
Pentru ca cercetarea selectivă să-şi atingă scopul propus este necesară o pregătire
minuţioasă a acesteia, pe baza unui plan care să permită obţinerea unor informaţii cât mai
veridice.
Un astfel de plan al cercetării prin sondaj trebuie să cuprindă:
1. delimitarea în timp şi spaţiu a colectivităţii generale prin identificarea tuturor cazurilor
individuale sub care se manifestă fenomenele respective;
2. verificarea gradului de omogenitate al colectivităţii generale;
Dacă există o observare totală anterioară aceasta se poate realiza prin analiza indicatorilor
variaţiei caracteristicilor esenţiale pentru care este necesar să se organizeze mai multe sondaje
succesive pentru verificarea gradului de stabilitate a mediei şi dispersiei caracteristicilor după
care se va face eşantionarea.
3. alegerea sau stabilirea bazei de sondaj;
Prin bază de sondaj se înţelege orice sistematizare a unităţilor (liste, hărţi), astfel încât să
permită alegerea întâmplătoare a unităţilor ce vor lucra în eşantion.
4. alegerea şi definirea unităţilor folosite la eşantionare;
5. alegerea tipului şi procedeului de selecţie;
6. stabilirea periodicităţii efectuării sondajului;
7. stabilirea planului observării care de regulă, este mai bogat decât al unei observări
totale similare;
8. stabilirea planului de prelucrare a datelor de selecţie din punct de vedere metodologic
şi organizatoric;
9. alegerea procedeelor de verificare a semnificaţiei indicatorilor de selecţie şi de
extindere a rezultatelor selecţiei asupra întregului ansamblu.
Rezolvarea cu competenţă a problemelor cuprinse în planul de sondaj au drept scop
asigurarea reprezentativităţii eşantionului, de aceasta depinzând în totalitate valoarea rezultatelor
obţinute în urma cercetării prin sondaj.
Un eşantion este considerat reprezentativ atunci când produce în structura sa aceeaşi
structură pe care o prezintă şi colectivitatea generală.
Teoria şi practica statistică demonstrează că asigurarea reprezentativităţii eşantionului
presupune respectarea cu stricteţe a următoarelor condiţii:
1. includerea în eşantion a unităţilor în mod obiectiv fără a acorda preferinţă uneia dintre
ele, fiecare unitate fiind extrasă după principiul hazardului cu o probabilitate calculabilă şi
diferită de 0;
2. eşantionul stabilit să fie suficient de mare ca să permită redarea trăsăturilor esenţiale
ale populaţiei originare, ceea ce va permite obţinerea, pe baza datelor de sondaj a unor indicatori
cu un grad mare de stabilitate;
3. includerea fiecărei unităţi în eşantion trebuie să se facă independent de alte unităţi.
5.3. Erorile de sondaj
Principala clasă a erorilor de sondaj o constituie erorile de reprezentativitate sistematice -
având drept sursă încălcarea principiilor alcătuirii corecte a eşantioanelor şi erorile întâmplătoare,

40
ce îşi au sursa în însăşi natura sondajului ca cercetare parţială, erori ce nu pot fi eliminate, dar pot fi
predimensionate, deci distorsiunile de apreciere realizate prin cercetarea unui eşantion pot fi
"prevăzute" statistic.
Măsurarea erorii de reprezentativitate se poate efectua:
- absolut, ca dimensiune a deplasării indicatorului (parametrului) de sondaj  x  , de la
mărimea "adevărată" a parametrului în populaţia generală (m), respectiv x  m ,
xm
- relativ, caz în care indicatorul "eroare de eşantionare" se poate exprima:  100  5%
m
O eroare relativă situată sub 5% permite a se aprecia că sondajul este reprezentativ şi oferă
deci o imagine aproximativ "fidelă" a realităţii. Dimensionarea erorii este o chestiune a "proiectării"
unui sondaj şi ţine de aflarea unui "compromis" acceptabil între nivelul erorii şi costul măririi
eşantionului.
Sursa principală a erorii - în cazul sondajelor - o constituie nereprezentativitatea, iar erorile
ce provin din aceasta se numeşte "de reprezentativitate" şi sunt provocate de faptul că eşantionul nu
reproduce "în mic" structura populaţiei în ansamblu.

5.4 Procedee de selecţie


Statistica oferă variate procedee de prelevare a unităţilor şi alcătuire a eşantioanelor astfel
încât să se asigure un grad cât mai ridicat de reprezentativitate, principalele tipuri de sondaj fiind:
A. Sondaje aleatoare:
a. sondajul simplu;
b. sondajul tipic (stratificat);
c. sondajul de serii;
d. sondajul secvenţial;
e. sondajul în trepte.
B. Sondaje dirijate
C. Sondaje sistematice
Fiecare din tipurile de sondaje enumerate se poate efectua în două variante:
- "repetat" - când o unitate prelevată este restituită populaţiei de origine şi deci are şanse să
mai reintre în eşantion;
- "nerepetat" - când unităţile nu sunt (sau nu pot fi) restituite în populaţia generală.
Modelul teoretic al acestor două variante de prelucrare se află în "urna lui Bernoulli" cu bilă
revenită şi nerevenită. Prelevarea unităţilor se efectuează după diverse metode dintre care amintim:
1. Procedeul "LOTERIE", este un procedeu aleator în care unităţile, perfect identificabile
("seria" imprimată pe produse sau componente, "numărul de marcă" al salariaţilor, "numărul casei"
sau al apartamentului etc.) sunt prelevate după corespondentul înregistrat pe bileţele amestecate şi
extrase aleator dintr-o "urnă".
1. Procedeul "tabelelor cu numere aleatoare" este oarecum similar celui anterior, dar se
aplică populaţiilor de mari dimensiuni, la care metoda de tip "LOTO" este neoperantă. Conform
acestui procedeu, unităţile vor fi prelevate din populaţia "N" şi se va alcătui eşantionul "n", în
ordinea (aleatoare) în care sunt înregistrate numerele într-un tabel de acest tip, special alcătuit.
Aceste tabele oferă serii de numere aleatoare rezultate în urmă aplicării unui procedeu de tip loterie
şi consemnarea rezultatelor, fie se obţin prin utilizarea calculatorului electronic, folosind
programele specifice pentru "generarea numerelor aleatoare".
2. Procedeul mecanic constă în prelevarea unităţilor la intervale (de timp, sau numerice)
bine precizate, deci la un anumit "pas de numărare" aplicat bazei de sondaj. De exemplu, dacă
eşantionul "n" reprezintă 10% din volumul populaţiei "N", atunci se va prevala fiecare a 10-a
unitate a populaţiei. Deci "pasul de numărare" este egal cu K=N/n. Pentru a îmbunătăţii caracterul
aleator al procesului de prelevare nu se va porni extracţia cu unitatea numărului 001, ci cu o unitate
oarecare extrasă aleator, de exemplu din primele 20. Să presupunem 7. Deci unităţile ce se vor

41
extrage din populaţia şi vor forma eşantionul vor fi cele cu numere de ordinele următoare: 7;
7+10=17; 17+10=27ş.a.m.d.

5.5. Sondajul aleator simplu


Este varianta aleatoare elementară de sondaj, celelalte tipuri putând fi înţelese ca soluţii
obţinute prin particularizarea unor elemente ale acestui tip de sondaj. El se poate realiza, din punct
de vedere al prelevării unităţilor, în una din cele două variante - repetat şi nerepetat.
Cele mai frecvente utilizate simboluri în acest capitol se prezintă în tabelul următor:
Indicatori Numărul de Media aritmetică Dispersia caracteristici
unităţi pentru caracteristici
(volumul)
măsurabile binare măsurabile binare

În populaţia N m p  2
P(l - p)
generală
în eşantion n x f s2 f(l - f)

Evident, în practică, spre deosebire de teorie, se operează asupra unor populaţii (de obiecte,
sau indivizi) finite. Prelevând "n" unităţi din cele N ale populaţiei şi înregistrând pentru fiecare
unitate din eşantion valoarea caracteristicii urmărite se obţine şirul valorilor x 1, x2, ..., xi, ..., xn pe
baza căruia se calculează media: x   i
x
n
Această medie va diferi mai mult sau mai puţin de la media "adevărată" dar necunoscută din
populaţia generală. Evident că într-o altă eşantionare, unităţile prelevate ar fi fost foarte probabil
altele, astfel încât tot altele ar fi fost valorile caracteristicii, respectiv ale mediei de sondaj. Faptul că
indicatorii statisticii calculaţi pe baza datelor de sondaj diferă de la eşantion la eşantion, rezultă că
ei pot fi interpretaţi ca variabile aleatoare. In consecinţă, în prelucrarea datelor de sondaj se pot
aplica metodele şi procedurile de tratare a datelor, specifice disciplinei de "probabilităţi şi statistică-
matematică".
Astfel, de exemplu, indicatorii estimaţi pe baza sondajului, fiind variabilă aleatoare, pentru a
putea fi extinşi la întreaga populaţie, trebuie să fie: estimaţii nedeplasate (valoarea medie a
indicatorului de sondaj, pentru un volum "n" finit, trebuie să fie egală cu parametrul din populaţia
generală); consistente (indicatorul de sondaj să conveargă în probabilitate, pentru valori mari ale lui
"n", către parametrul teoretic - din populaţia generală); eficiente (să aibă dispersie minimă) deci, se
va putea afirma că un eşantion A de volum "n" în baza căruia se estimează media "m" din populaţia
generală pentru variabila X, prin estimatorul x A este mai eficient decât un eşantion B, tot de volum
"n" pentru estimarea mediei "m", prin estimaţia x B , dacă: M( x A ) = m,iar M( x B ) = m, iar
D( x A ) < D( x B ) unde M - semnifică media, iar D - dispersia.
Estimaţiile obţinute pe baza datelor de sondaj constituie evaluări aproximative ale
adevăratelor valori ale parametrilor necunoscuţi din populaţia generală. Deci, rezultatele obţinute
printr-un sondaj sunt afectate de erori. Ce se poate obţine prin sondaj este nu valoarea "adevărată" a
parametrului căutat ci un "interval de încredere", care - cu o probabilitate fixată de către cercetător -
acoperă valoarea adevărată dar necunoscută a parametrului din populaţia generală. Acest interval
poartă numele de interval de estimaţie sau interval de încredere.

42
Cele două limite ale intervalului de încredere  inf şi  sup , se calculează pe baza datelor
sondajului x1, x2,..., xi,..., xn, astfel încât cu o probabilitate P = l -  să se îndeplinească relaţia: P(
 inf <  <  sup ) = 1 -  .
Intervalul (  inf ,  sup ) reprezintă intervalul de încredere şi defineşte precizia estimaţiei.
Probabilitatea P = l -  caracterizează siguranţa afirmaţiilor şi se numeşte nivel de
încredere.
 valoarea complementară a nivelului de încredere, se numeşte nivel sau prag de
semnificaţie şi se fixează prin programul de cercetare. Cele mai utilizate valori ale probabilităţii de
încredere sunt 90%, 95%, 99%, 99,9%, cărora le corespund niveluri de semnificaţie de 10%, 5%,
1%, 0,1%.
Pe lângă coeficientul de încredere (l -  ) un rol important îl joacă lungimea intervalului de
încredere (  inf ,  sup ). Dacă eroarea de sondaj se repartizează după legea normală, atunci erorile
egale în valoare absolută au probabilităţi egale de apariţie pentru acelaşi volum al eşantionului.
 inf , sup 
Jumătatea intervalului de încredere se numeşte eroare limitată admisă şi se notează:   .
2
Indicatori ai sondajului aleator simplu repetat şi nerepetat
1. Eroare medie de sondaj
a. Cazul sondajului repetat
Observaţiile înregistrate pe baza datelor eşantionului x1, x2, ...., xi, ...., xn pot fi considerate
variabile aleatoare, iar folosind independenţa valorilor variabilei, se arată că media de sondaj: x
poate fi un estimator nedeplasat al mediei "m" a colectivităţii generale dacă se îndeplineşte condiţia
ca media de sondaj să fie egală cu media generală. Aceasta înseamnă că: M( x ) = m
Această relaţie exprimă faptul că media x într-un sondaj este un estimator nedeplasat al
mediei "m" a colectivităţii generale.

Se calculează dispersia mediei de sondaj D( x ) =
n
 s
Abaterea medie pătratică a mediei de sondaj este:  x  
n n
adică dispersia de sondaj într-o eşantionare cu revenire de volum n este de n ori mai mică
decât dispersia  2 a colectivităţii generale.
b. Cazul sondajului nerepetat
La acest tip de sondaj unităţile sunt prelevate întâmplător din populaţia generală, o "unitate"
odată extrasă nefiind restituită populaţiei de origine, deci neavând şanse să mai reintre în eşantion. Dacă
1
N este volumul populaţiei generale, atunci: P(X1 = x1) = , dar probabilitatea evenimentului X2 = x2
n
condiţionată de faptul că la prima extragere a avut loc evenimentul X1 = x1, iar elementul odată
1
verificat nu mai revine în populaţia generală este P(X 2 = x2 / X1 = x1) = abaterea medie
N 1
pătratică a mediei de sondaj ca măsurător al erorii medii de reprezentativitate este:
 N n s N n s n
x    1
n N 1 n N 1 n N
n N n n
În calculele efective, pentru  0,2 , de regulă factorul S au 1
N N 1 N
n
nu se mai ia în consideraţie. Factorul 1 este subunitar. Când n - volumul sondajului creşte,
N
precizia sporeşte aproximativ de „ n ori”, după cum în acelaşi raport se micşorează abaterea
medie  x . Acest fapt permite să se utilizeze în practică sondaje de volum nu prea ridicat, căci
sporirea volumului acestora nu se regăseşte proporţional în ridicarea preciziei sondajului.

43
N n
Dacă volumul N al populaţiei este ridicat, iar al sondajului este redus, atunci  1,
N 1
deci rezultatul estimării indicatorului  x , practic coincide în ambele variante de sondaj.
n
Dacă n = N, atunci 1 devine nul şi deci dispare şi eroarea medie de sondaj,
N
căci cercetarea parţială s-a transformat într-o cercetare integrală. Evident aceasta nu generează
erori de reprezentativitate (specifice numai cercetării prin eşantioane).
În general, eroarea de reprezentativitate a eşantionării fără revenire este mai mică decât
a celei cu revenire, variantă la care reîntoarcerea repetată a aceloraşi unităţi în eşantion
înrăutăţeşte reprezentativitatea.
Observaţie:
a. Dacă  - abaterea medie pătratică prin populaţia generală este necunoscută, ea a fost
înlocuită cu s - estimatorul ei stabilit pe baza unui sondaj;
b. Dacă eşantionul în vederea estimării abaterii mediei pătratice se efectuează pe baza
unui număr redus de unităţi în probă, atunci estimatorul lui  se obţine raportând suma
pătratelor de la medie   xi  x  la (n - 1) şi nu la n - volumul unităţilor din probă;
2

c. Un estimator al dispersiei (în cazul în care nu se poate asigura o eşantionare


preliminară pentru calculul împrăştierii) este şi valoarea maximă a indicatorului:

 2

x min  
2
 x  x max  x  2

în cazul caracteristicilor măsurabile;


max
2
d. În cazul caracteristicilor binare relaţiile de calcul ale erorii medii rămân valabile,
cu menţiunea că în locul lui  se va lucra cu  max  f (1  f )  0,5(1  0,5)  0,25 unde f
este frecvenţa relativă a caracteristicii binare căruia i s-a atribuit codul x 1 = l.
e. În situaţia sondajelor de volum ridicat calculul erorii probabile se efectuează
utilizând coeficienţii de probabilitate identificaţi în tabelele Laplace ; de exemplu: pentru un risc
 = 5%, ( z ) = 0,475 tabelar z 0, 05  1,96 . Pentru sondajele de volum redus (n < 30 - 40 de
unităţi) se va folosi tabela legii Student.
2. Eroarea limită (eroarea maximă admisă sau probabilă) -  x
Eroarea limită maximă admisă defineşte siguranţa (sau probabilitatea de
încredere) estimării mediei "m" prin variabila de sondaj x şi se măsoară probabilist, astfel:
x  m   . Mărimea -  x caracterizează precizia estimaţiei. Aprecierea satisfacerii
x

inegalităţii nu se poate face decât ca o probabilitate de realizare:


P( x  m   x )  1  

Probabilitatea l -  se alege de către cercetător în funcţie de "nivelul de siguranţă" urmărit în


estimare, cele mai uzuale valori fiind 0,95; 0,99; 0,999. Eroarea limită se determină pornind de
xm
z
la variabila  care, aşa cum se cunoaşte, are o repartiţie normală, fiind valoarea (tabelată)
n
care satisface r e l a ţ i a : 2  ( z a ) = P = l - 
Pentru valoarea uzuală  = 0,05; 0,01; 0,001 valorile variabilei z sunt z 0, 05  1,96 ;
z 0, 01  2,33 respectiv z 0 , 001  3,09 . Din tabelele Laplace se pot obţine mărimile z şi pentru alte

praguri de semnificaţie. Rezultă că eroarea x  m este egală cu:  x  z pentru cazul
n
 n
sondajului repetat şi  x  z 1 în varianta sondajului nerepetat.
n N
Evident toate precizările efectuate anterior cu privire la înlocuirea indicatorului  prin
estimatori rămân valabile.

44
3. Determinarea volumului eşantionului
La organizarea unei cercetări prin sondaj una din problemele de rezolvat este dimensionarea
lui raţională. Este adevărat că mărimea volumului n al sondajului - în virtutea legii numerelor mari -
sporeşte precizia rezultatelor, reduce eroarea medie probabilă. Ţinând seama de criterii de
economicitate este necesar ca acest volum să fie cât mai mic. Luând în considerare ambele aspecte,
se determină numărul minim de unităţi de observat care să satisfacă exigenţele de precizie şi
siguranţă formulate în raport cu cercetarea respectivă.
În teoria şi practica sondajului se operează cu eşantioane "mari" şi eşantioane "de volum
redus", în funcţie de gradul de omogenitate al colectivităţii generale. Interpretarea erorii de
reprezentativitate se face în mod diferit: pentru eşantioanele de volum mare se foloseşte distribuţia
normală Laplace, iar pentru cele de volum redus distribuţia Student.
Calculul volumului eşantionului se realizează pornind de la eroarea limită maximă admisă,

care în cazul sondajului repetat este:  x  z de unde punem în evidenţă pe n:
n
z 2  2
z 2  2 n
n , iar în cazul sondajului repetat, relaţia este: z 2  2
2x 2x  
N
Pentru a dimensiona raţional volumul n al eşantionului sunt necesare următoarele elemente:
- eroarea limită admisibilă  x care se stabileşte în funcţie de particularităţile concrete ale
problemei practice de soluţionat, de precizia necesară de asigurat;
- probabilitatea de încredere (1-  ), (sau eroarea  ), suficient de apropiată - din punct
de vedere practic - de certitudine;
- dispersia (sau estimatorul acesteia), caracteristicii în populaţia generală  2 ;
- în cazul prelevării fără revenire este necesar a se cunoaşte şi volumul N al colectivităţii.
4. Calculul intervalului de "încredere"
"Intervalul de încredere" desemnează zona probabilă în interiorul căreia se va plasa media
populaţiei generale. El se determină pornind de la media de sondaj corectată cu nivelul erorii limită
maxim admisă: x  m   relaţie echivalentă cu dubla inegalitate x   x  m  x   x , deci de
x

modul de calcul a erorii limită, rezultă că:


P x  m   x   P x   x  m  x   x   1   .

Deci, "intervalul de încredere" delimitează "zona probabilă" în care se va plasa valoarea


"adevărată" dar necunoscută a mediei din populaţia generală.
Lungimea intervalului de încredere este direct proporţională cu mărimea împrăştierii
valorilor (măsurată prin abaterea medie pătratică  ) şi invers proporţională cu nivelul pragului
de
semnificaţie (la valori mici ale lui  valorile z cresc) şi mărimea eşantionului (la creşterea lui
n intervalul de încredere devine mai mic, deci precizia estimaţiei sporeşte).
În unele situaţii prezintă interes şi poate avea sens logic calculul intervalului probabil de
n
plasare a nivelului totalizat al caracteristicii în populaţia generală: x
i 1
i  Nx

Din intervalul de încredere pentru valoarea agregată este:


     
N  x  z   N  m  N  x  z 
 n  n
Evident, pentru sondajul nerepetat relaţia se adaptează lesne, în sensul înlocuirii valorii
erorii probabile cu formula adecvată acestui tip de sondaj.

5.6. Sondajul tipic (stratificat)

45
Se consideră populaţia generală împărţită într-un număr de subpopulaţii parţiale C 1, C2,
…, Ck numite grupe sau straturi şi cărora le corespund următoarele valori ale caracteristicii
C1 : x11, x21, …, xN11
C2 : x12, x22, …, xN22
…………………………
Ck : x1k, x2k, …, xNkk
După cum se vede stratul C1 are N1 unităţi, C2 are N2 unităţi etc. Numărul total al
unităţilor populaţiei C este: N1 + N2 + … + Nk = N.
Din fiecare din aceste straturi se fac câte n1, n2, …, nk extrageri la întâmplare nerepetate,
astfel că: n1 + n2 + … + nk = n, n fiind numărul total al unităţilor eşantionului.
Prin urmare din fiecare grupă (strat) se efectuează câte un sondaj, obţinând eşantioane
ale căror unităţi au caracteristici cu valorile: x 11, x21, …, xn11 ; x12, x22, …, xn22 ; … ; x1k, x2k, …,
xnkk, unde variabilele de sondaj xij (i = 1, 2, …, nj ; j = 1, 2, …, k) sunt considerate drept variabile
aleatoare.
1 k Nj 1 Nj
Se introduc notaţiile m   xij - media generală şi m j   xij - media
N j 1 i 1 Nj i 1
1 k
sondajului j. Rezultă că media generală se mai scrie: m   N j  m j , adică media valorilor
N j 1
caracteristice în populaţia generală este media ponderată a mediilor de grupă, ponderile fiind
egale respectiv cu Nj / N (j = 1, 2, …, k).
1 k nj 1 nj
Analog, în cadrul sondajelor, notând: x   xij şi x j   xij , deducem
n j 1 i 1 nj i 1
k k
1
x   n j  x j , deci media valorilor caracteristicii din sondaj de volum n   n j este
n j 1 j 1

egală cu media ponderată a mediilor grupelor, ale valorilor caracteristicii din fiecare sondaj,
nj
ponderea fiind egală cu (j = 1, 2, …, k).
n
Se arată că x este un estimator nedeplasat şi consistent al mediei generale m deoarece
N 2j
se demonstrează că: M( x ) = m şi D  x     xij  m 2 ;
Nj
1  f   1
k


2
unde  j 
j

j 1 N2
j
nj N j  1 i 1
nj
fj  . După cum rezultă dispersia variabilei x este cu atât mai mică cu cât volumele nj
Nj
2
sunt mai mari şi dispersiile  j sunt mai mici. Prin urmare, ca sondajul tipic să poată da
rezultate acceptabile este necesar şi suficient ca numărul unităţilor extrase din fiecare grupă să
fie mare.
Rezultă că eroarea medie de reprezentativitate şi respectiv eroarea limită admisă nu mai
depind de dispersia totală şi de media dispersiilor grupelor.
Dacă se foloseşte dispersia din populaţia de bază, eroarea limită va fi:
- pentru sondajul repetat:
2
 de unde: n  z 
2 2

 x  z
n 2x
- pentru sondajul nerepetat:
2
z2 

2
n n
 x  z 1 de unde: z2
2

n N   
2
x
N

46
În mod analog se procedează şi în cazul când estimatorul  2 este s2.
1. Sondajul tipic proporţional
Se caracterizează prin faptul că din fiecare grupă în care a fost împărţită populaţia generală
se extrag atâtea unităţi încât raportul dintre numărul lor şi volumul grupei din care s-au extras să fie
egal cu raportul dintre volumul general al eşantionului şi volumul populaţiei, adică prin definiţie:
k

nj n n1 n n
n
j 1
j
n
 sau fj = f (j=l, 2, ..., k). Se deduce că f   2  ...  k  k
 , de unde
Nj N N1 N 2 Nk N
N j 1
j

(aplicând cunoscuta proprietate a şirului de rapoarte egale, "suma numărătorilor / suma


n
numitorilor, este egală cu fiecare din rapoarte"): n j   N j  f  N j (j=l, 2, ..., k).
N
Introducând valoarea mai sus a lui nj în expresia dispersiei şi ţinând seama ca fj = f,
 1 f Nj
k
dispersia funcţiei de estimaţie (statistică) x devine: D x 
n
j 1 N
j.

2. Sondajul tipic optim


Dacă volumul sondajului de grupă n j este astfel dimensionat încât eficienţa să fie maximă,
atunci sondajul tipic este optim. Acest fapt revine la determinarea numerelor n j care să satisfacă
 N 2j
1  f  
k
condiţia n1 + n2 + ... + nk = n şi pentru care: D x  
j
2 j să fie minimă.
j 1 N nj
n  N j  j
nj 
Folosind metoda multiplicatorilor lui Lagrange, se obţine: k
, j = 1, 2, …, k.
N
j 1
j  j

Aceasta este deci expresia care determină volumele nj pentru care eficienţa sondajului este
maximă.

5.7. Sondajul de serii. Sondajul în mai multe faze


Adesea unităţile colectivităţii generale alcătuiesc aşa-numitele unităţi complexe. De pildă,
muncitorii lucrează în cadrul anumitor formaţii de lucru, oamenii trăiesc în familii etc. în asemenea
cazuri, sondajul poate fi organizat în aşa fel încât să se extragă spre studiu asemenea unităţi
complexe, urmând ca toate unităţile simple aferente unităţilor complexe extrase să se cerceteze, fără
nici o excepţie, în mod curent în practica metodei sondajului, unităţile complexe se numesc serii
(sau uneori "cuiburi"). De unde rezultă denumirea de sondaje de serii.
Evaluarea rezultatelor sondajului de serii se face cu ajutorul metodelor descrise la sondajul
aleator simplu, înlocuind însă numărul unităţilor simple din populaţia N şi din sondaj n, cu numărul
seriilor (unităţilor complexe) R şi r. în locul dispersiei dintre valorile individuale s2 se utilizează
dispersia dintre serii (unităţi complexe),  2 , determinată analog cu dispersia dintre grupe. La acest
calcul se presupune că volumul seriilor este egal. în mod tacit poate fi extinsă această ipotecă de
calcul şi pentru seriile aproximativ egale. Dacă însă volumul seriilor este mult diferit, sunt necesare
alte scheme de calcul. Atunci poate fi asimilat cu un sondaj stratificat.
în statistica economică şi socială unităţile complexe, ce se pot asimila seriilor, se formează
nu la întâmplare, ci în procesul dezvoltării economice şi sociale. De aceea, unităţile elementare din
cadrul unei unităţi complexe sunt mai asemănătoare între ele, deci şi cu cât ele diferă de la o unitate
complexă la alta, cu atât ele diferă de ansamblul populaţiei, în consecinţă, seria asemuită cu
unitatea complexă nu este reprezentativă faţă de populaţie. Un număr suficient de mare de serii însă

47
poate forma un eşantion reprezentativ. Datorită avantajelor organizatorice pe care le prezintă,
sondajul de serii - chiar cu carenţele sale de reprezentativitate - se justifică în numeroase domenii
ale statisticii economice şi sociale, ca, de pildă, în statistica preţurilor pe piaţa ţărănească, statistica
bugetelor de familie din cadrul anchetelor integrate în gospodării etc.
în acest caz formula de calcul se particularizează în sensul că se lucrează cu dispersia dintre
serii, iar volumul eşantionului se estimează prin numărul seriilor.

5.8. Sondaje cu extracţie cvasialeatoare


Din cele expuse anterior rezultă că la alcătuirea eşantioanelor trebuie să se asigure pentru
fiecare unitate a populaţiei aceeaşi şansă de a fi prelevată, în felul acesta se creează câmp liber
pentru manifestarea "jocului întâmplării", în urma căruia se realizează o reprezentativitate
corespunzătoare a eşantionului.
Cu toate acestea, în practică, într-o serie de cazuri, din diferite motive, extracţia se face
nealeator. Un asemenea procedeu de extracţie îl constituie "eşantionarea concentrată", care constă
în includerea în eşantion numai a acelei părţi ce reprezintă majoritatea cazurilor individuale.
Această metodă se confundă cu "observarea părţii principale".
în alte situaţii, cercetătorii efectuează selecţia dirijată a unităţilor, urmărind prin aceasta
selecţionarea elementelor pe care ei le apreciază reprezentative, de obicei pe acelea pe care le
consideră apropiate de media ce trebuie estimată, întrucât valoarea medie nu se cunoaşte, aprecierea
privind reprezentativitatea diferitelor unităţi propuse a fi incluse în eşantion are caracter cu totul
subiectiv. Deci pe această cale nu este posibil să se asigure reprezentativitatea cert obiectivă a
rezultatelor sondajului.
Procedeul extracţiei sistematice, numit şi extracţie mecanică, ocupă o poziţie intermediară
între sondajul aleator şi nealeator. Acest procedeu constă în extragerea din populaţie, sistematizată
după un criteriu anume, a numărului n de unităţi care formează sondajul, prin aplicarea aşa-
numitului "pas de numărare" egal cu N/n. Pasul arată diferenţa dintre numerele de ordin ale
unităţilor ce se extrag succesiv dintre unităţile populaţiei sistematizate.
Ordonarea sistematică a unităţilor se poate concretiza şi sub forma aşezării în spaţiu a
unităţilor colectivităţii. Exemplu cel mai edificator pentru o asemenea ordonare este harta
geografică a localităţilor sau a obiectelor cercetate, în cazul acesta atracţia sistematică se efectuează
cu ajutorul unei "distanţe", aplicată după o anumită regulă, de pildă de la "vest la est" şi "de la
nord la sud". O asemenea ordine în general nu poate fi considerată perfect aleatoare, unităţile vecine
fiind mai asemănătoare între ele decât unităţile pe întreaga populaţie.
Când fenomenul observat se produce în timp, cum ar fi de exemplu realizarea producţiei,
pasul de extracţie poate fi intervalul de timp dintre evenimente sau diferenţa dintre numerele de
ordine ale producerii acestora.
Aplicarea extracţiei sistematice este contraindicată când în aşezarea sau producerea cazurilor
elementare există o anumită ciclicitate.

5.9. Site–uri de sondare a opiniei publice

Sondajele de opinie sunt o forma foarte populară de servicii bazate pe chestionare care au
ca scop aflarea şi analizarea opiniilor clienţilor/utilizatorilor. Sondajele de opinie pot fi folosite
de către site-urile de web din România pentru a afla rapid opiniile navigatorilor pe internet.

7 Reguli pentru chestionare online eficiente


Pentru a crea chestionare online care să fie bine primite de către clienţi, este important să
ţineţi cont de următoarele reguli:
1. Evitaţi oboseala provocată de chestionarele lungi - Păstraţi dimensiunea chestionarului
online la minim

48
Atunci când creaţi chestionare online, daca vă daţi seama că chestionarul creşte în
dimensiuni astfel încât va dura mai mult de 10 minute să fie completat, luaţi în considerare
posibilitatea de a sparge chestionarul într-o serie de chestionare mai mici. Acest lucru poate
necesita ceva muncă în plus, însa veţi evita o problemă foarte comună dată de plictiseala care
apare la completarea chestionarelor lungi. Chiar şi cei mai bine intenţionaţi dintre clienţii
dumneavoastră pot să obosească răspunzând pagină după pagină la întrebări. Când acest lucru se
întâmplă, tendinţa este de a gândi mai puţin la fiecare răspuns sau în cel mai rău caz, de a pune
răspunsuri la întâmplare sau de a sări întrebările cu totul.
2. Motivaţi-vă respondenţii - Spuneţi-le de ce ar trebui să completeze chestionarul
Oferind o motivaţie, este o modalitate foarte bună de a vă promova chestionarul.
Motivaţia poate consta în înscrierea la o tombolă, sau în furnizarea unei copii a rezultatelor finale
ale chestionarului sau pur şi simplu explicaţi-le clienţilor că ei vor fi beneficiarii unor
îmbunătăţiri ce vor fi aduse produselor sau serviciilor pe care le folosesc, bazate pe ceea ce scriu
ei în chestionar.
3. Menţionaţi clar politica de confidenţialitate - Spuneţi clienţilor cum veţi folosi răspunsurile
lor
Spuneţi-le de la început celor ce răspund la chestionar, cum veţi folosi răspunsurile date
de ei. Fiţi clar şi direct dacă intenţionaţi să faceţi publice orice informaţii care pot fi identificate
ca venind de la ei. Dacă nu este cazul, asiguraţi-i că răspunsurile lor vor fi confidenţiale şi că vor
fi analizate numai împreună cu alte răspunsuri, fără a se face o identificare particulară.
4. Folosiţi logica de salt între pagini - Nu lăsaţi clienţii să citească pagini întregi de întrebări
care nu sunt relevante pentru ei
Deşi unele chestionare folosesc comenzi scrise de genul “Dacă aţi răspuns cu DA la
întrebarea #2, mergeţi la întrebarea #7, dacă nu, continuaţi cu întrebarea #3″, este mai bine să
folosiţi logica de salt între pagini atunci când vă creaţi chestionarul online. Folosind logica de
salt, puteţi trimite direct clientul la o anumită pagină, dacă a răspuns într-un anume fel la o
întrebare. Acest lucru poate evita unele confuzii şi scurtează timpul necesar pentru completarea
chestionarului.
5. Folosiţi mai multe pagini - Cu excepţia chestionarelor foarte scurte, nu încercaţi să puneţi
toate întrebările în aceeaşi pagină
Atunci când respondenţii văd o pagină foarte lungă de întrebări, pot să fie speriaţi de
numărul lor şi să renunţe. Ca alternativă, încercaţi să puneţi întrebările pe mai multe pagini.
6. Menţionaţi cât durează completarea chestionarului
Indiferent dacă chestionarul dumneavoastră este scurt sau durează câteva minute să fie
completat, spuneţi lucrul acesta direct clienţilor. Fiţi corect în ceea ce priveşte estimarea de timp.
Dacă unui client îi va lua mult mai mult timp să completeze chestionarul decât aţi precizat, se va
putea simţi păcălit. Dacă aveţi un chestionar lung, ar fi bine să le spuneţi de la început clienţilor
acest lucru. Astfel, veţi putea evita situaţii în care clientul se va opri din completat la mijlocul
chestionarului.
7. Testaţi-vă chestionarul - Aveţi grijă să fie bine revizuit înainte de a-l trimite la grupuri mari
de persoane pentru a fi completat
Înainte de a trimite chestionarul către clienţi, puteţi să-l trimiteţi prietenilor sau colegilor
de serviciu pentru a-l completa. Nu numai că ei pot observa greşelile gramaticale care s-au putut
strecura, dar veţi putea analiza răspunsurile lor pentru a fi sigur că întrebările sunt interpretate
aşa cum vă aşteptaţi.
Pentru consultanţă şi alte sfaturi privind completarea chestionarelor, puteţi accesa
http://www.surveypro.ro/ .

Exemplu de site de sondare a opiniei publice

49
Sondaje de opinie se vrea a fi un website care încearcă să prezinte în timp real opiniile
navigatorilor pe internet despre subiectele fierbinţi ale momentului.
Conţine sondaje de opinie din toate domeniile şi chiar acceptă propuneri de subiecte din partea
dumneavoastră.
Cum funcţionează?
- Rezultatele se afişează în timp real, iar fiecare persoană are dreptul la un singur vot, pe
baza restricţionării la câte un singur vot pentru o adresă IP. Astfel, locaţiile tip internet - cafe vor
beneficia de posibilitatea unui singur vot, indiferent de numărul terminalelor din reţea, întrucât
toate sunt vizibile pe internet sub o adresă IP unică.
- Oricine poate propune un sondaj de opinie. După ce veţi completa formularul din
pagina "Propune un sondaj", în cazul în care sondajul propus de dumneavoastră va fi selectat
pentru publicare, veţi primi un e-mail în care vi se va comunica perioada în care acesta va fi
deschis publicului pentru vot.
- De la data publicării, fiecare sondaj va fi activ timp de 7 zile, termen după care va fi
închis automat şi va fi mutat în secţiunea "Arhiva", utilizatorii având în continuare posibilitatea
să vadă rezultatele finale ale sondajului.
- www.sondajedeopinie.ro se adresează atât persoanelor fizice cât şi persoanelor juridice.

UTILIZAREA ASISTATĂ DE CALCULATOR A DATELOR STATISTICE,


ÎN VEDEREA FUNDAMENTĂRII MODELELOR ECONOMETRICE ŞI A
CALCULELOR DE PROGNOZĂ

În înţelegerea completă a realităţii este de multe ori necesar să cunoaştem, să înţelegem şi


să stăpânim legăturile existente între două sau mai multe fenomene, cuantificate prin variabile.
Spre exemplu, în vederea aplicării unei strategii corecte de marketing, este necesar să cunoaştem
dacă există o corelaţie între profitul unei întreprinderi şi cheltuielile cu publicitatea şi în ce fel se
manifestă. De asemenea, pentru controlul investiţiilor este necesar să cunoaştem în ce fel
evoluează profitul pe o perioadă imediat următoare de timp. Asta presupune de fapt să putem
construi şi mai apoi utiliza aşa numitele modele econometrice (de regresie), acestea fiind modele
care descriu corelaţia existentă între două variabile oarecare şi în caz particular, între o variabilă
şi timp. De cele mai multe ori, fundamentarea acestor modele are la bază un volum mare de date
şi aici îşi dovedesc utilitatea pachetele de programe concepute pentru a asista calculele
econometrice şi de prognoză.
În cele ce urmează vom vedea atât elementele teoretice pentru fundamentarea unui
model, cât şi suportul computaţional asigurat de procesorul Excel.

Corelaţie şi regresie
Vom considera, pe tot parcursul acestui capitol, doar cazul corelaţiei între două variabile
cantitative.

50
Pornim de la următoarea situaţie: fiind date două variabile X şi Y, studiate într-o
populaţie A, se pune problema dacă între cele două variabile, respectiv între fenomenele descrise
de acestea, există o anumită dependenţă numită şi corelaţie.
O primă concluzie se poate obţine reprezentând grafic într-un sistem de coordonate XY,
cele două şiruri de date observate la nivelul populaţiei pentru cele două variabile. În Excel, acest
lucru se poate face utilizând diagrama XY prin puncte (tema 2). Dacă punctele graficului se
împrăştie pe toată suprafaţa fără a urma o anumită regulă, atunci vom spune că cele două
variabile nu sunt corelate. Dacă în schimb punctele descriu o anumită curbă, numita şi curbă
empirică de regresie, atunci vom spune că există corelaţie şi ea este cu atât mai intensă, cu cât
domeniul pe care se întind punctele este mai îngust. Mai mult, dacă punctele se aşează pe o curbă
care poate fi aproximată de o curbă clasică (dreaptă, parabolă, exponenţială, etc.) atunci vom
spune că legătura dintre cele două variabile este una liniară sau parabolică sau exponenţială, etc.
şi vom folosi ecuaţia acelei curbe clasice pentru prognoză.
O fundamentare riguroasă a existenţei unei corelaţii şi mai apoi a modelului care descrie
corelaţia, numit şi model de regresie (econometric), se poate face pe baza calculului şi
interpretării unor indicatori statistici. Pentru simplificare, vom viza în cele ce urmează doar cazul
unei corelaţii de tip liniar între variabile, multe dintre modelele întâlnite în practică, reducându-
se la acest tip. Se vor parcurge câteva etape, precum:
- verificarea existenţei unei corelaţii;
- stabilirea formei matematice a modelului, în urma analizei curbei empirice de regresie;
- determinarea parametrilor care intervin în ecuaţia modelului;
- utilizarea modelului pentru calcule de prognoză.
Un caz particular este acela când cuplul X, Y este înlocuit de cuplul t, Z, în care t reprezintă
timpul şi Z reprezintă o variabilă urmărită în timp. Un model cronologic, este de fapt un model
de regresie în care se studiază dependenţa unui fenomen de timp sau mai bine zis, evoluţia sa în
timp. În calcule, variabila timp t ia valorile implicite 1, 2, 3, … iar prognoza pe baza unui astfel
de model presupune de fapt previziunea fenomenului pe o perioadă următoare de timp, care nu a
avut încă loc.
Desigur, atât în cazul unui model de regresie oarecare, cât şi în cazul unui model cronologic,
prognoza pe baza modelului este cu atât mai veridică, cu cât modelul este mai bine ales să se
potrivească datelor şi cu cât orizontul de previziune este mai mic. Spre exemplu, dacă ne
hazardăm să previzionăm un fenomen pe o perioadă foarte îndepărtată de timp, faţă de perioada
din care s-au cules datele pe care se bazează modelul, atunci riscăm ca eroarea de previziune să
fie foarte mare.

Verificarea existenţei unei corelaţii


Pentru a analiza dacă între variabilele X şi Y există o legătură, se calculează coeficientul
de corelaţie liniară, dat de formula:

cov x, y 

 x  y
unde

cov x, y   M  x  y   M  x   M  y  ,
cu
N

x  y i i
M  x  y  i 1

N
se numeşte covarianţă.
51
Aici, x i , y i , i  1, N sunt valorile celor două variabile, observate pe populaţia de volum
N, iar M   şi  reprezintă media şi abaterea, parametri descrişi în tema 3.
Interpretare:
Valorile coeficientului de corelaţie sunt în intervalul   1,1 . Dacă   0 , între cele două
variabile nu există corelaţie. Dacă   1 , corelaţia între cele două variabile este maximă şi
directă.
Dacă   1 , corelaţia între cele două variabile este maximă şi inversă.
Cu cât avem o valoare mai apropiată de 1 sau -1 cu atât corelaţia e mai puternică (directă
pentru valori pozitive şi inversă pentru valori negative), cu cât avem o valoare apropiată de 0
corelaţia este mai slabă.
Funcţia Excel corespunzătoare este CORREL.

Sintaxa funcţiei :
CORREL (array 1, array 2)= coeficientul de corelaţie
-parametrii de intrare reprezintă doi vectori de aceeaşi dimensiune care conţin valorile
celor două variabile pentru care dorim să calculăm coeficientul de corelaţie.

Stabilirea formei matematice a modelului, în urma analizei curbei empirice de


regresie
După realizarea graficului amintit mai sus, se analizează forma acestuia şi se alege
modelul (curba) care descrie cel mai bine realitatea datelor. În cazul când modelul cel mai
potrivit este cel liniar, modelul se numeşte model de regresie linară şi este descris de următoarea
egalitate,

y  x   a  bx
sau
y  x   a  bx   ,

unde  , reprezintă o eroare care apare din cauza faptului că, în realitate, mai există şi alţi
factori predictivi pentru Y, pe lângă X. Mai mult, se observă că nu se poate stabili o legătură
directă, matematică între X şi Y, ci doar între X şi media lui Y.

Determinarea parametrilor care intervin în ecuaţia modelului


Parametrii, b (panta dreptei) si a (termenul liber), se determină din criteriul celor mai
mici pătrate, ilustrat atât de formula cât şi de graficul de mai jos :

N N 2

 i
2
   y i  a  bxi   min .
i 1 i 1

52
Această criteriu constă în faptul că dintre toate dreptele posibile o vom alege pe aceea,
specificată printr-un anumit a şi b, faţă de care suma pătratelor abaterilor punctelor care descriu
datele este minimă. Un astfel de criteriu minimizează de fapt, global, diferenţa, y  f  x  , unde
f  x   a  bx . După calcule matematice se obţin următoarele formule pentru parametrii dreptei
de regresie :

cov x, y 
b ,
 x2
cov x, y 
a  M  y  M  x  .
 x2

Functia Excel corespunzatoare este functia LINEST.

Sintaxa funcţiei :
LINEST(known y’s, known x’s, const, stat)= pentru varianta în care nu precizăm parametrii
const şi stat, rezultatul este un vector linie, de tipul (b,a), adică întoarce cei doi parametri ai
dreptei de regresie.
Rezultatul se introduce ca o formulă matrice: se aplică funcţia, apare doar valoarea lui b, se
selectează o zonă de două celule, se tastează F2, apoi CTRL+SHIFT+ENTER, pentru a apărea şi
valoarea lui a.
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi dimensiune, care
conţin valorile celor două variabile, pentru care dorim să calculăm parametrii dreptei de regresie.
- parametrii de intrare, const şi stat, sunt parametri de tip logic care permit specificarea unor
particularităţi în model respectiv afişarea suplimentară a unor indicatori de regresie; pentru
simplificare vom omite să specificăm cei doi parametri, în fereastra de dialog a funcţiei.

Utilizarea modelului pentru calcule de prognoză


Odată specificată forma modelului, împreună cu valoarea numerică a parametrilor a şi b,
putem utiliza modelul pentru prognoză. Astfel, pentru o nouă valoare neobservată a lui X, x 0 ,
valoarea lui Y corespunzătoare, conform modelului de corelaţie stabilit, va fi
y  x0   a  bx0   ,
respectiv, valoarea sa medie,
y  x 0   a  bx0 ,

aceasta din urmă numindu-se şi valoare previzionată. Se observă că nu se poate calcula, exact,
decât valoarea medie, valoarea reală depinzând de eroarea  , care nu poate fi calculată ci doar
presupusă a fi neglijabilă (minimă).
În Excel, prognoza poate fi făcută fie cu funcţia FORECAST, fie cu funcţia TREND, cea
de-a doua având avantajul că poate obţine previziunea pe mai multe valori ale lui X, în acelaşi
timp.

Sintaxa funcţiei :
FORECAST(x; known y’s, known x’s)= y  x 0  , valoarea lui y corespunzătoare lui x  x0 , dintr-o
regresie liniară (valoarea previzionată pe baza unui model liniar).
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi dimensiune, care
conţin valorile celor două variabile, pe baza cărora fundamentăm modelul de regresie;
-parametrul de intrare, x, reprezintă o nouă valoare a variabilei X, valoare pentru care dorim să
previzionăm valoarea lui Y corespunzătoare.

53
Sintaxa functiei :
TREND(known y’s, known x’s, new x, const)= new y, adică un vector format cu valorile
previzionate ale lui y din regresia liniară, corespunzatoare valorilor new x; vectorul este de
aceeaşi dimensiune cu new x.
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi dimensiune, care
conţin valorile celor două variabile, pe baza cărora fundamentăm modelul de regresie;
-parametrul de intrare new x, este un vector care conţine noile valori ale lui X, valori pentru care
dorim să facem previziunea;
-parametrul de intrare, const are aceeaşi semnificaţie ca şi în LINEST, prin urmare, pentru
simplificare, vom omite precizarea acestuia în fereastra de dialog a funcţiei.

Observaţie: Dacă lucrăm cu modele de timp, deci cu variabilele Z şi t, atunci, în funcţiile


LINEST, FORECAST şi TREND, vom avea Z şi t, în loc de X şi Y. Pentru valorile variabilei t,
fie vom preciza valorile convenţionale 1,2,3,…, fie vom omite precizarea lor. Se va proceda
asemănător şi pentru noile valori pentru care dorim prognoza. Spre exemplu, dacă valorile vechi
pentru t, au fost, 1, 2, 3, 4, 5, putem previziona valoarea lui Z, corespunzătoare lui t  6 , etc.

Exemplu:
Vom analiza în cele ce urmează corelaţia între valoarea primelor acordate angajaţilor (X-mil.lei)
şi valoarea profitului (Y-mld.lei), pentru o întreprindere, pe parcursul a 10 ani. Datele au fost
trecute în foaia de lucru Excel şi apoi ordonate crescător, în raport cu X, pentru a putea face
diagrama prin puncte.

54
Analiza graficului evidenţiază o grupare a punctelor după o anumită regulă, deci există o anumită
corelaţie între variabile. Mai mult curba dată de aceste puncte seamănă destul de mult cu o
dreaptă, prin urmare vom utiliza un model liniar, pentru a reda legătura respectivă. Numeric,
vom putea analiza cât de intensă este corelaţia, care sunt parametrii modelului şi ce valori de
prognoză se pot da pe un astfel de model. Aplicând pe datele iniţiale, funcţiile Correl, Linest,
Forecast şi Trend, se obţin următoarea situaţie prezentă şi pe foaia de lucru Excel:
-corelaţia (aproximativ 0,98) este puternică şi directă (valoare pozitivă, apropiată de 1);
-modelul liniar cel mai potrivit datelor este dat de ecuaţia, f  x   5,69  0,03 x ;
-conform modelului, pentru o valoare a primelor acordate de 100 mil.lei, se aşteaptă un profit de
aproximativ, 9,39mld.lei, etc.
Sigur, prognoza făcută reprezintă doar o estimaţie a realităţii, cu atât mai corectă cu cât modelul
a fost mai bine ales.

Pentru a putea vizualiza grafic potrivirea modelului ales la realitatea datelor, se pot reprezenta, în
acelaşi grafic curba reală şi dreapta de regresie. Modelul liniar este cu atât mai bun, cu cât
punctele se apropie mai mult de dreaptă. Pentru a reprezenta dreapta de regresie se va alege
diagrama prin puncte, în care pe post de Y, se vor reprezenta valorile previzionate,
corespunzătoare X-ilor vechi. Mai precis, în funcţia Trend se va alege pe post de newx, tot
vectorul knownx. Acelaşi lucru se obţine dacă omitem să precizăm newx. Astfel, vom face
previziune pe valorile lui X vechi, pentru care deja se cunosc valorile lui Y şi vom putea în acest
fel compara valorile previzionate ale lui Y cu valorile observate ale lui Y. După cum se poate
observa şi în figura următoare, majoritatea punctelor sunt chiar pe dreapta de tendinţă (pe grafic
se suprapun cu dreapta) iar celelalte sunt destul de aproape de ea. Acelaşi lucru se poate deduce
şi comparând coloana B de valori reale cu coloana E de valori previzionate.

55
Aşadar, utlizând instrumentarul statistic asistat de calculator, putem înţelege mai uşor
interdependenţa între anumiţi indicatori, putem evalua corect trendul unui indicator pe o perioadă
de timp şi prin urmare, putem construi eficient şi argumentat, diverse strategii în întreprindere.

Chestionar:
1) Consideraţi doi indicatori la nivelul firmei în care lucraţi şi precizaţi valorile acestora pe
o perioada de 10 ani. Analizaţi folosind funcţiile şi diagramele Excel:
- dacă există corelaţie între indicatori;
- dacă modelul liniar este potrivit pentru a descrie corelaţia dintre cei doi indicatori;
- care sunt parametrii modelului liniar potrivit datelor;
- care este prognoza indicatorului dependent pe următorul an, presupunând cunoscută
valoarea pentru indicatorul independent?
2) Consideraţi un indicator la nivelul firmei în care lucraţi şi precizaţi valorile acestuia pe o
perioada de 10 ani. Folosind funcţiile Excel pentru modelul liniar, precizaţi valorile
indicatorului pe următorii cinci ani.

56
BIBLIOGRAFIE

1. T. Andrei, Statistică şi econometrie, Ed. Economică, 2003

2. C. Anghelache, E. Bugudui, S. Gresoi, E. Niculescu, Statistică aplicată-indicatori, sinteze şi


studii de caz, Ed. Economică, 2006

3. E.N. Bâzdoacă, S. Matei, N.G. Bâzdoacă, Iniţiere în Excel, Ed.Arves, Colecţia Iniţiere în
calculator 2, 2002

4. P. Blaga – Metode statistice în modelarea cu calculatorul, lucrări de laborator, Lito. UBB, Cluj
Napoca, 1993

5. N. Breaz, Statistică descriptivă, teorie şi aplicaţii, seria Didactica, Universitatea „1 Decembrie


1918” Alba Iulia, 2003

6. N. Breaz, Elemente de statistică inferenţială, teorie şi aplicaţii, seria Didactica, Universitatea


„1 Decembrie 1918” Alba Iulia, 2004

7. L. Căbulea, Matematici aplicate în economie, seria Didactica, Universitatea „1 Decembrie


1918” Alba Iulia, 1998

8. I. Florea, Econometrie, Ed. Univ. Oradea, 2003

9. M. Iosifescu, C. Moineanu, V. Trebici, E. Urseanu – Mică enciclopedie de statistică, Editura


Ştiinţifică şi Enciclopedică, Bucureşti, 1985

10. A. Isaic-Maniu, C. Mitruţ, V. Voineagu, Statistica pentru managementul afacerilor, Ed.


Economică, 1999

11. E. Tiţan, Statistică. Teorie şi aplicaţii în sectorul terţiar, Meteor Press, 2002

12. V. Voineagu, C. Mitruţ, A. Isaic-Maniu, E. Tiţan, T. Baron, S. Matache, I. Isaic-Maniu, D.


Şerban, M. Voineagu, Statistică teoretică şi macroeconomică-teste, lucrări practice, studii de caz,
Ed. Economică, 1998

57

S-ar putea să vă placă și