Sunteți pe pagina 1din 10

Lectia 8

Statistic descriptiv

Statistica matematic se ocup cu descrierea i analiza numeric a fenomenelor
(sociale, economice, tiinifice etc). Statistica opereaz cu date care se pot colecta din
surse existente sau se pot obine prin observaii i studii experimentale.
Datele statistice sunt n fapt observaii codificate realizate asupra unei mulimi de
elemente de aceeai natur, mulime care se numete populaie statistic. O populaie
poate fi finit sau infinit. Numrul de elemente al unei populaii finite se numete
volumul populaiei.
Elementele populaiei (indivizii) sunt purttoare de informaii. Indivizii pot fi persoane
(de exemplu formnd populaia unei localiti), ageni economici, obiecte (de exemplu
mijloacele fixe ale unui agent economic, piese produse sau comercializate), evenimente
(de exemplu operatiuni bancare), opinii (relative la servicii, calitatea unui produs), etc.
Caracteristica populaiei este trstura comun a elementelor sale care este
supus studiului statistic. In statistica matematic ea este cuantificat prin valori
numerice. Deoarece o caracteristic variaz de la individ la individ, ea poate fi
considerat ca o funcie R P X : , unde P este populaia statistic.
O caracteristic poate fi discret (dac valorile sale formeaz o mulime finit) sau
continu (n cazul cnd caracteristica poate lua orice valoare real).
De exemplu, caracteristica ce indic numrul de piese defecte din fiecare lot este
o discret, n timp ce profitul unei firme sau volumul ncasrilor pot fi interpretate ca i
caracteristici continue.
Un fenomen deosebit de important este cuantificarea fenomenelor sociale, adic
transpunerea n limbaj numeric a caracteristiclor acestor fenomene pentru a nlesni
compararea, analiza i sinteza lor, precum i pentru a face prognoze asupra lor.
Problema cuantificrii fenomenelor sociale este o problem de baz a tiinelor
sociale, n condiiile creterii exigenelor fa de determinrile tinifice ale acestora.
Exist fenomene sociale msurabile prin natura lor, de exemplu fenomenele
demografice, fenomenele economice, diverse fenomene politice sau culturale
Fenomenele sociale msurabile cu aproximaie se refer n special la opiniile i
comportamentele colectivitilor umane. n acest caz msurarea nu poate fi efectuat
dect prin compararea intensitilor cu care se manifest acestea la diverse persoane,
adic prin realizarea unei scri de mrimi numit scalogram.
Un exemplu de scalogram care reprezint intensitatea opiniilor este cea care
conine trei niveluri: cu totul de acord, de acord, nu sunt de acord.
Statistica matematic opereaz cu fenome cuantificabile numeric, deci fiecrui element
al unei scalograme i se asociaz un numr.

Demersul statistic are dou niveluri: descrierea statistic (statistica descriptiv) i
inferena statistic (statistica inferenial).
Statistica descriptiv se ocup cu nregistrarea, gruparea, prelucrarea i
prezentarea datelor obinute prin investigaie i pe aceast baz descrie fenomenul
studiat. n studiul statistic descriptiv toate elementele populaiei sunt luate n
consideraie. Scopul statisticii descriptive este ndeprtarea detaliilor neimportante i
focalizarea ateniei asupra unor aspecte de interes i anume:
- precizarea valorii n jurul creia sunt centrate datele
- descrierea mprtierea acestora n jurul valorii centrale
- vizualizarea datelor cu ajutorul histogramelor
- analiza corelaiei ntre fenomene

Statistica inferenial are ca obiect de studiu investigarea prin sondaj: din ntreaga
populaie se selecteaz un eantion reprezentativ asupra cruia se fac msurtori sau
observaii legate de o anumit caracteristic a populaiei. Pe baza rezultatelor
obinute se fac inferene statistice (adic se formuleaz concluzii) asupra parametrilor
populaiei. Statistica inferenial folosete deci informaia rezultat din studierea unui
eantion pentru a obine concluzii referitoare la ntraga populaie din care a fost
selectat eantionul. Aceste concluzii nu sunt de tip determinist ci se obin folosind
metode i tehnici ale teoriei probabilitilor, teorie ce conine mecanisme de msurare
i analiz a incertitudinii legate de evenimentele viitoare. Aceast incertitudine este
exprimat cu ajutorul nivelelor de ncredere.

In realizarea unei cercetri statistice se parcurg de obicei urmatoarele etape:
- colectarea datelor care se realizeaz prin metode specifice obiectivului i
condiiilor cercetrii. In funcie de tipul de analiz folosit (descriptiv sau
inferenial) se folosete ntreaga populaiei sau doar un eantion.
- procesarea datelor nseamn cuantificarea lor numeric i obinerea seriilor de
date.
- analiza datelor se realizeaz prin metode i tehnici specifice statisticii matematice.
Aceast etap necesit o cunotere profund a filosofiei ce st n spatele fiecrei
metode deoarece este posibil s se obin rezultate nesemnificative statistic atunci
cnd ipotezele de lucru sau condiiile de aplicare a metodelor nu sunt ndeplinite.
-interpretarea rezultatelor este diferit n statistica descriptiv i n cea inferenial.
In primul caz se obin informaii concrete i clare despre populaia studiat, n al
doilea caz validarea rezultatelor obinute este realizat prin compararea cu ce se tia
sau se bnuia n domeniul respective. In unele situaii analiza statistic dezvluie
corelaii ntre fenomene, legturi care ar fi fost greu sau chiar imposibil de observat
fr eficientul mecanism statistico-matematic.

In momentul de fat exist o vast informaie statistic la nivel global, datorat n
principal dezvoltrii continue a tehnologiei calculatoarelor. Realizarea i folosirea
corect a bazelor de date reprezint o preocupare important n mediul economic si
nu numai. Soft-urile statistice joac un rol important n analiza datelor. Ele mbin
proceduri statistice clasice i moderne cu tehnici de grafic interactiv. Multe soft-uri
au dou versiuni: una profesional i una academic. Literatura de specialitate
califica drept foarte performante, printer altele, urmtoarele pachete de programe:
- S-PLUS (http://www.insightful.com/products/splus/)
- XploRe (http://www.xploretech.com/index.pl )
- Statistica (http://www.statsoft.com/ )
- SPSS (http://www.spss.com/ )

8.1 Serii de date i distribuii de frecvene

Considerm o populaie statistic P finit de volum N pentru care o caracteristic C
este codificat de valorile numerice
N
x x x ,..., ,
2 1
, nu neaprat diferite.
Sirul finit de numere se noteaz
N
x x x X ,...., , :
2 1

i se numete serie de date.
Exemplu: 2 , 0 , 0 , 1 , 0 : X este o serie de date care poate fi interpretat o funcie
} 2 , 1 , 0 { } , , , , { : e d c b a X , unde ( ) 0 = a X , ( ) 1 = b X , ( ) 0 = c X , ( ) 0 = d X , ( ) 2 = e X .
In acest caz populaia este } , , , , { e d c b a P = . Deoarece identitatea indivizilor din
populaie nu este interesant din punct de vedere statistic, aceasta este neglijat n
etapele urmtoare.

Definiie: Distribuia de frecvene (sau variabila statistic) asociat caracteristicii
C a populaiei P de volum N este

=
k
k
n n n n
x x x x
X
3 2 1
3 2 1

unde } ,..., 2 , 1 { , k j x
j
sunt valorile diferite nregistrate pentru caracteristica C iar
} ,... 2 , 1 { , k j n
j
reprezint numrul indivizilor populaiei caracterizai de valoarea
j
x .
Numrul
j
n se numete frecvena absolut de apariie a valorii
j
x .
Observaii: 1. Din definiia frecvenelor relative rezult c
N n
k
j
j
=

=1
.
2. Unei caracteristici i se poate asocia i distribuia frecvenelor relative
N
n
f
f f f f
x x x x
X
j
j
k
k
r
=

= ,
3 2 1
3 2 1
.
n acest caz

=
=
k
j
j
f
1
1. Frecvena relativ
j
f poate fi interpretat ca fiind
probabilitatea ca valoarea
j
x s fie luat de caracteristica C, iar distribuia
frecvenelor relative este n fapt o variabil aleatoare.
Exemplu: Pentru seria de date 2 , 3 , 3 , 2 , 5 , 2 , 1 , 0 : X
distribuia de frecvene este

=
1 2 3 1 1
5 3 2 1 0
X iar cea a frecvenelor relative este

=
8 / 1 8 / 2 8 / 3 8 / 1 8 / 1
5 3 2 1 0
r
X
8.2. Reprezentari grafice

Graficul corespunztor unei serii statistice se numete diagram. Cazul seriilor
pentru care caracteristica este msurat cantitativ (i exprimat prin numere reale) se
ntlnesc n mod current urmtoarele reprezentri grafice:
- reprezentarea cu segmente vericale:
- histograma cu bare
- poligonul frecvenelor
- reprezentarea cu sectoare circulare
- reprezentarea polar

a) Reprezentarea cu segmente verticale (histograma cu segmente) se folosete pentru
serii cu un numr redus de date, de obicei numere ntregi.
Pentru distribuia de frecvene

=
k
k
r
n n n n
x x x x
X
3 2 1
3 2 1
, histograma cu segmente, sau
reprezentarea cu segmente, este familia de segmente verticale ce unesc punctele de
coordinate ( ) 0 ,
i
x i ( )
i i
n x , unde } ,..., 2 , 1 { k i
Exemplu: Pentru

=
1 3 4 2 3
5 4 2 3 1
X reprezentarea cu segmente verticale este

Figure 1 Histograma cu segmente

b) Histograma cu bare se folosete pentru seriile cu un numr mare de date ce nu
sunt neaprat numere ntregi. Ea se realizeaz astfel:
- se determina valoarea minim,
min
x i valoarea maxim
max
x aseriei de date
- se divide segmental ] , [
max min
x x prin puncte echidistante cu pasul
n
x x
h
min max

= ,
unde n este numrul de intervale ales de analistul seriei. Punctele de diviziune
sunt h j x x
j
+ =
min
, unde } ,..., 2 , 1 , 0 { n j
- se calculeaz cte valori ale seriei aparin fiecrui interval ) , [
1 +
=
j j j
x x I . Acest
numr, notat
j
n , se numete frecvena clasei
j
I .
- Deasupra fiecrui interval
j
I se traseaz un dreptunghi cu baza
j
I i nlimea
proporional cu
j
n . Pentru determinarea nltimii dreptunghiului se poate folosi
formula
N h
n
H
j
j

= .
Obiecul grafic rezultat din alturarea acestor dreptunghiuri se numete histograma cu
bare a seriei de date sau histograma distribuiei de frecvene, pentru c ilustreaz
modul n care sunt distribuite datele.
Un exemplu de histogram cu bare este dat in Figura 2

Figure 2 Histograma cu bare
O problem legat de generarea histogramelor este legat de precizarea numrului de
intervale de diviziune. In perioada de nceput a statisticii computaionale numrul de
intervale era proporional cu N . In unele programme statistice el este ales
proporional cu N
2
log . Cea mai bun ide este s generm histograme
corespunztoare mai multor numere de intervale i s le comparm.
c) Poligonul frecventelor se obine unind vrfurile segmentelor verticale n cazul
reprezentrii cu segmente. In cazul reprezentrii din Figura 1, poligonul de frecvene,
E D C B A , , , , este dat n figura 3.

Figure 3 Poligon de frecvene

d) Reprezentarea cu sectoare circulare este folosit pentru obinerea rapid a unei
viziuni globale asupra importanei relative a diverselor clase ale statisticii,
interpretarea lor fiind uurat de colorarea diferit a diverselor clase. In general
aceast reprezentare este folosit pentru seriile cu un numr mic de clase.
Reprezentarea se realizeaz astfel:
- se determin clasele seriei i numrul de valori ale seriei din fiecare clas
(frecvenele absolute ale claselor)
- pe un cerc se consider sectoare circulare proporionale cu frecvenele fiecrei
clase. Unghiul la centru corespunztor clasei cu frecvena absolut
j
n este
N
n
j
j

=
360
.
e) Reprezentarea polar se folosete atunci cnd caracteristica statistic prezint o
anumit periodicitate. De exemplu date inregistrate calendaristic (numarul de nasteri
inregistrate n fiecare lun) sau date referitoare la aspecte geografice (intensitatea
vntului ce bate din anumite direcii).
Ea se construiete astfel: pe semidrepte cu aceeai origine i care impart planul ntr-
un numr de sectoare egale (acest numr se stabilete n funcie de caracterul seriei
statistice) se consider segmente ce pornesc din origine, proporionale cu frecvenele
absolute ale claselor i se unesc extremitile acestoe segmente. Se obine un poligon
nchis n care clasele cu frecven mai mare sunt reprezentate prin vrfuri aflate la
distan mai mare fa de origine.
8.3. Indicatori statistici
Caracterizarea distribuilor de frecvene se face cu ajutorul unor indicatori.
8.3.1. Indicatori de poziie (de nivel, de localizare)
a) media aritmetic
N
n x n x n x
x
k k
+ + +
=
...
2 2 1 1

b) media armonic
k
k
arm
x
n
x
n
x
n
N
x
+ + +
=
...
2
2
1
1
este folosit la calculul productivitii
c) media geometric
N
n
k
n n
g
k
x x x x = ....
2 1
2 1
este folosit pentru calculu; ritmului
mediu de cretere i determinarea procentului mediu)
d) mediana seriei de date
N
x x x X ,...., , :
2 1
cu termenii ordonai cresctor este numrul

+
=
+
+
par este N daca
x x
impar este N daca x
me
N N
N
2
2 / 1 2 /
2
1
.

Mediana este o valoare ce caracterizeaz centrul seriei de date. n cazul cnd N este
par mediana nu este obligatoriu valoare a seriei de date.
Are proprietatea c suma frecvenelor valorilor mai mici ca me este egal cu suma
frecvenelor mai mari ca me.
Este utilizat n studiul fertilitii, mortalitii, determinarea duratei de via.
e) modul (moda su dominanta) este valoarea cu cea mai mare frecven de apariie
(care este la mod). Exist repartiii unimodale (cu un singur mod), bimodale (cu
dou moduri) etc.

8.3.2. Indicatorii variaiei (mprtierii)
a) amplitudinea este diferena dintre cea mai mare i cea mai mic valoare a seriei
de date ( sau a distribuiei de frecvene)
b) abaterea medie absolut

=
=
k
j
j j X
x x n
k
e
1
1

c) variana (dispersia) ( )

=
N
j
j
x x
N
s
1
2
2
1
1

d) abaterea medie ptratic (standard) ( )

=
N
j
j
x x
N
s
1
2
1
1


Propoziie Dispersia i abaterea medie ptratic ale unei distribuii de frecvene

=
k
k
n n n n
x x x x
X
...
...
3 2 1
3 2 1
, unde N n
k
i
i
=

=1
se calculeaz folosind formulele

=
=
N
n x
n x
N
s
k
i
i i
k
i
i i
2
1
1
2 2
1
1
, respectiv

=
=
N
n x
n x
N
s
k
i
i i
i
k
i
i
2
1
1
2
1
1
.



Regula empiric
Dac seria de date X are media x i abaterea standard s atunci o proporie
de cel puin
2
1
1
k
dintre valorile seriei aparin intervalului ( ) s k x s k x + , ,
pentru 1 > k

e) coeficientul de variaie
x
s
CV =
Cu ct coeficientul de variaie e mai aproape de 0, cu att seria este mai omogen ssi
media este mai reprezentativ. Dac este mai apropiat de 1, mprtierea valorilor
este mare i media nu este un indicator reprezentativ.
In analizele financiare el este o msur a riscului relativ.

8.3.3 Coeficieni de form a graficului repartiiei frecvenelor
Pentru distribuia de frecvene

=
k
k
n n n n
x x x x
X
...
...
3 2 1
3 2 1
, unde n n
k
i
i
=

=1
se consider
media x , mediana me i valoarea modal Mo
O repartiie este simetric dac Mo me x = =
Indicele de asimetrie Pearson este
s
Mo x
A
s

=
Daca 0 >
s
A , adic Mo x > , asimetria este de stnga (pozitiv)
Daca 0 <
s
A , adic Mo x < , asimetria este de dreapta (negativ)
Daca 0 =
s
A , adic Mo x = , distribuia este simetric








Exerciii

1 Seful departamentului vnzri al unui magazine a nregistrat nivelul cererii
zilnice pentru un produs n decursul a 100 zile consecutive. Acesta este prezentat
n tabelul de mai jos
Numrul de uniti, m din
produsul P cerut zilnic

i
x
Numarul de zile n care s-au
vndut m uniti

i
n
Frecvena relativ
m/100
0 5

1 15

2 23

3 22

4 16

5 9

6 5

7 5

a) S se completeze coloana frecvenelor relative;
b) S se deseneze histograma cu segmente verticale asociat datelor din table.
c) S se calculeze indicatorii de pozitie (media, mediana, modul) i indicatorii de
mprtiere (dispersia, abaterea standard i coeficientul de variaie)
d) S se interpreteze datele obinute

Rezolvare: a)

=
100
5
100
5
100
9
100
16
100
22
100
23
100
15
100
5
7 6 5 4 3 2 1 0
X
b) Histograma cu segmente este


c)Indicatorii de poziie sunt:
- media 85 . 2
100
5 7 5 6 9 5 16 4 22 3 23 2 15 1 5 0
=
+ + + + + + +
= x
- mediana se calculeaz tinnd cont ca sunt 100 termeni n serie. Dac scriem
termenii seriei n ordine cresctoare, repetndu-i de attea ori ct indic frecvena
absolut obinem 3
51 50
= = x x Deci 3
2
3 3
2
) (
51 50
=
+
=
+
=
x x
X me .
-modul este ( ) 2 = X mo pentru c aceasta valoare are cel mai mare numr de apariii
Indicatorii de poziie sunt
-dispersia:
23 . 12 91 , 1210
99
1
]
100
85 . 2
7 5 6 5 5 9 4 16 3 22 2 23 1 15 0 5 [
99
1
2
2 2 2 2 2 2 2 2 2
= =
= + + + + + + + = s

- abaterea standard
49 . 3 23 . 12
2
= = = s s
-coeficientul de variaie 22 . 1
85 . 2
49 . 3
= = =
x
c

.

2. Intr-o banc s-au nregistrat sumele retrase de 1000 clieni n cursul unei luni.
Datele au fost grupate n tabelul de mai jos.
Suma retras
(n euro)
Numr clieni care
au retras suma
[0,500) 5
[500,1000) 12
[1000,1500 33
[1500,2000) 71
[2000,2500) 119
[2500,3000) 175
[3000,3500) 185
[3500,4000) 158
[4000,4500) 122
[4500,5000) 69
[5000,5500) 35
[5500,6000) 11
>=6000 5
Total 1000

a) S se deseneze histograma cu bare a acestei serii de date (sumele mai mari de
6000 se identific cu intervalul ) 6500 , 6000 [ .
b) Identificnd fiecare interval cu mijlocul su, s se constituie seria statistic a
retragerilor effectuate de 1000 de clieni ai bncii. S se determine media,
mediana i dispersia acestei serii.
Rezolvare:
a) histograma este

b) Seria de date este

=
5 11 35 69 122 158 185 175 119 71 33 12 5
6225 5725 5225 4725 4225 3725 3225 2725 2225 1725 1225 725 225
X
Media este
75 , 2981 1000 / ) 5 6225 11 5725 35 5225 69 4725 122 4225
158 3725 185 3225 175 2725 119 2225 71 1725 33 1225 12 725 5 225 (
= + + + + +
+ + + + + + + + = x

Mediana este 3225
2
3225 3225
2
501 500
=
+
=
+
=
x x
me
Dispersia este
5
2
1494855.5 1000)/999 2981750^2/ - 50 (103841937 s = = .
Abaterea standard este 1230 s s = =
2

S-ar putea să vă placă și