Sunteți pe pagina 1din 20

14.03.

2011

Statistica descriptivă
1. Organizarea datelor
2. Tendința centrală
3. Variația (împrăștierea) datelor
4. Asimetria și boltirea
distribuției

1. Organizarea datelor de tip ”scale”

Sa presupunem ca au fost obtinute urmatoarele date


ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5 3, 8, 10, 8, 7, 9, 6, 4, 7, 6,
1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7).
În total sunt 35 de date colectate.

1
14.03.2011

1. …

În cazul unei distributii simple a frecventei sunt


necesari urmatorii pasi:
 Se cauta valorile extreme din șirul de date (valoarea cea mai
mare si cea mai mica);
 Se scriu toate valorile cuprinse între cele doua extreme într-o
ordine descendenta pe o coloana;
 Se numara de câte ori apare fiecare valoare în sirul de date;
 Se trece apoi în tabel, frecventa de aparitie a fiecarui numar.

1. …

Obținem: (N=35)
Valoarea X Frecventa f
1 2
2 0
3 1
4 3
5 4
6 4
7 9
8 7
9 3
10 2

2
14.03.2011

2. Organizarea datelor de tip nominal


sau ordinal

 De exemplu, la întrebarea cercetătorului referitoare la


caracteristicile produselor pe care clientii le pretuiesc cel mai
mult s-au primit 20 de raspunsuri:

X = (calitatea, pretul, cantitatea, calitatea, pretul, calitatea, pretul,


pretul, pretul, utilitatea, calitatea, pretul, utilitatea, utilitatea,
cantitatea, pretul, calitatea, calitatea,pretul, pretul).

N=20

2. …

Tabelul distributiei caracteristicilor produsului: (N=20)

Caracteristica (x) Frecventa (f)

Cantitate 2

Calitate 6

Utilitate 3

Pret 9

3
14.03.2011

3. Gruparea datelor pe intervale

Exemplu:
De ordonat pe intervale, rezultatele intervievării a 48 de
subiecti.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15,
14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27,
15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19,
18).

METODA 1 (Spatz): reguli

 Numarul de intervale trebuie sa fie între 10 si 20.


 Stabilirea marimii intervalului (notat cu i). Trei sau cinci constitue marimea cel
mai des întâlnita a intervalelor. Daca un i de 5 produce mai mult de 20 de
clase, atunci se trece la o marime a intervalului superioara, de obicei 10 sau
un multiplu de 10. Exista si cazuri în care este nevoie de un interval i=2
pentru a pastra minimul de 10 intervale.
 Primul interval începe, de regulă, cu o valoare multiplu de i ales. De
exemplu, daca 22 este cel mai mic număr, iar marimea intervalului este 3,
atunci vom începe cu valoarea 21 deoarece este multiplu de trei. Cazul i=5
este unul special. În acest caz se obisnuieste sa se utilizeze o valoare de
start astfel încât mijlocul intervalului sa fie un multiplu de 5. În cazul de mai
sus, în care 22 este cel mai mic rezultat, ar fi indicat sa se porneasca de la
18 (intervalul ar fi 18-22), iar mijlocul său - 20 (multiplu de cinci).

4
14.03.2011

METODA 1: exemplu

1. Notam valorile extreme (4 si 31)


2. Calculam diferenta dintre cele doua valori = 27
3. Stabilim marimea intervalului astfel încât sa obtinem între 10 si 20
de intervale. Daca împartim 27 la 5 vom obtine 5,4 intervale, fapt de
nedorit deoarece este prea departat de numarul intervalelor dorite
(10-20). Daca împartim 27 la o alta marime (i=3) vom obtine 9
intervale. Deoarece patru (cea mai mica valoare) nu este multiplul
lui trei va trebui sa începem de la valoarea trei (chiar daca aceasta
nu exista), ca urmare distanta dintre valorile extreme se va mari cu o
unitate si va deveni 28. Împartind din nou 28 la trei vom obtine 9,33,
o valoarea care ne lasa noua posibilitatea de a alege între o
distributie cu 9 clase sau una cu 10.

METODA 1: continuare exemplu

4. Vom alege distributia cu 10 intervale, pentru a asigura minumul


necesar.
5. Sa începe de la capatul de jos al tabelului (de la valorile mai mici). În
cazul de fata vom porni de la trei, ca multiplu al marimii intervalului
i=3) si vom scrie intervalele gasite. În coloana a doua a tabelului vor
fi trecute valorile centrale ale intervalelor. Toate intervalele sunt
egale în marime însa pot diferi în ce priveste frecventa. Fiecare
interval începe cu o valoare divizibila cu marimea intervalului (i=3).
6. Se calculeaza frecventa de aparitie a tuturor valorilor cuprinse într-
un interval si le trecem în tabel în coloana trei.

5
14.03.2011

METODA 1: rezultate exemplu

Intervalul (I) Mijlocul clasei Frecventa (f)


30-32 31 1
27-29 28 2
24-26 25 2
21-23 22 6
18-20 19 9
15-17 16 11
12-14 13 8
9-11 10 4
6-8 7 3
3-5 4 2

4. Indicatori ai tendințței centrale

• Media
• Mediana
• Modul

6
14.03.2011

Media

 Media este un indicator care caracterizeaza un esantion (o


populatie) din punctul de vedere al unei caracteristici studiate. Exista
mai multe notari pentru medie: M si X barat reprezinta media unui
esantion, iar µ (miu) este media unei populatii.
 Media aritmetică a unui sir de date se calculează astfel:
X=∑X/N
 Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
 Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.

 În cazul în care sirul de date este prezentat într-un tabel


de frecvente se aplică o alta formula:
∑fi * Xi
X = ------------------
∑fi
 Unde: fi reprezinta frecventa grupata, iar Xi centrul
intervalului (exemplu – slide-ul următor).

7
14.03.2011

… exemplu (cazul unui tabel de frecvențțe)

Intervalul (i) Centrul (Xi) Frecventa (fi) Xi * fi


30-32 31 1 31
27-29 28 2 56
24-26 25 4 100
21-23 22 6 132
18-20 19 10 190
15-17 16 9 144
12-14 13 5 65
9-11 10 5 50
6-8 7 3 21
3-5 4 2 8
∑ = 47 ∑ = 797

∑fi = 47 ∑ =Xi*fi= 797 X = 797 / 47 = 16,6

Mediana

 Mediana este acel parametru care prin pozitia sa, se afla în mijlocul
seriei de date. Ea reprezinta punctul central al seriei, deoarece la
stânga si la dreapta ei se situeaza câte 50% din totalitatea datelor.
Mediana coincide cu media în cazul unei distributii teoretice
normale si se îndeparteaza mult de aceasta daca distributia este
asimetrica.
 Pentru a calcula mediana în cazul distributiei simple a datelor
exista doua situatii:
1. Când n este impar locul medianei se stabileste astfel:
Loc mediana = (n+1) / 2
2. Când n este par sunt adunate valorile din centrul seriei si se împart
la doi.

8
14.03.2011

Mediana- cazul unui șir simplu

 De exemplu, șirul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)


 Mai întâi datele sunt aranjate în ordine crescatoare sau descrescatoare.
 Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par
(n=10). În acest caz vom lua valorile care se gasesc pe locurile din mijlocul
seriei, este vorba de locurile 5 si 6. Cele doua valori care se gasesc pe
aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori
gasite si împartim rezultatul la doi. Astfel, Md = (8+9) / 2 = 8,5
 Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir
de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este
stabilit dupa formula: (n+1) / 2, în acest caz cinci. Mediana este valoarea
care se gaseste pe pozitia din mijlocul sirului ordonat de date (pozitia 5 în
cazul de fata). Consultând sirul de date observam ca mediana ar fi 8.

Mediana – cazul sirului de date


sub formă de tabel de frecvente

N +1
− ncpm
Me = x0 + h 2
nm
unde: x0 este limita inferioară a intervalului median
h este mărimea intervalului median (ceea ce am notat mai sus cu i)
N este numarul total al cazurilor
nm este frecvența intervalului median
ncpm este frecvențele cumulativă până la intervalul median

9
14.03.2011

… exemplu

Intervalul Centrul i Frecventa (fi) Frecventa cumulata


30-32 31 1 47
27-29 28 2 46
24-26 25 4 44
21-23 22 6 40
18-20 19 10 34
15-17 16 9 24
12-14 13 5 15
9-11 10 5 10
6-8 7 3 5
3-5 4 2 2
47 + 1
− 15
Me = 14,5 + 3 2 = 17,5
9

… etapele procesului de calcul

 Stabilirea punctului deasupra si dedesubtul caruia se situeaza câte 50%


din cazuri (N+1)/2. În problema de fata vom avea (47+1)/2=24;
 Stabilirea intervalului care contine mediana. Se cauta în coloana
frecventelor cumulate intervalul care corespunde locului medianei (24).
Pozitia 24 din sirul de date este ocupata de o valoare cuprinsa în intervalul
15-17;
 Se stabileste limita inferioara a intervalului care cuprinde mediana
(16+13)/2 = 14,5 cât si frecventa datelor sale (9);
 Se stabileste valoarea lui N/2 (23,5)
 Se calculeaza frecventele cumulate, care preced clasa care contine
mediana si se obtine 15;
 Se calculeaza marimea intervalului (i=3) pentru ca putem întâlni valorile
15,16 si 17 si pentru ca diferenta dintre limita maxima ((16+19)/2 =17,5) si
cea minima a intervalului ce contine mediana este 3 (17,5 -14,5).

10
14.03.2011

Cuartilele și decilele

 Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru
părŃi egale:
 cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din
termenii seriei şi mai mică sau egală de 75% dintre ei;
 cuartila a doua Q2 și decila a cincea D5 coincide cu Me şi separă seria în
două părŃi egale;
 cuartila superioară Q3 este mai mare sau egală de 75% din numărul
termenilor şi mai mică sau egală de 25% din numărul lor.
 În cazul în care se calculează decilele, seria se divide în zece părŃi egale
folosind în acest scop nouă decile (D1, D2 … D9).

Cuartilele și decilele

N +1
− ncpq unde:
Q1 = x0 + h 4 Q1, Q3 – cuartila 1 (25%) și 3 (75%)
nq x0 este limita inferioară a intervalului
( N + 1) cuartilei, decilei
3 − ncpq h este mărimea intervalului cuartilei, decilei
Q 3 = x0 + h 4
N este numarul total al cazurilor
nq
nq și nd frecvența intervalului cuartilei,
( N + 1) decilei
1 − ncpd ncpq și ncpd - frecvențele cumulative până la
D1 = x0 + h 10
intervalul cuartilei, decilei
nd

11
14.03.2011

… exemplu

Intervalul Centrul i Frecventa (fi) Frecventa cumulata


30-32 31 1 47
27-29 28 2 46
24-26 25 4 44
21-23 22 6 40
18-20 19 10 34
15-17 16 9 24
12-14 13 5 15
9-11 10 5 10
6-8 7 3 5
3-5 4 2 2
47 + 1
3 − 34
Q3 = 20,5 + 3 4 = 21,5
6

Modul

 Modul este parametrul care corespunde celei mai mari frecvente,


adica este valoarea cea mai frecvent întâlnita.
 Astfel, pentru sirurile de date simple modul se afla cautând
valoarea cel mai des întâlnita. Pentru sirul dat drept exemplu: X =
(4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
 Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12).
Se observa ca valoarea cea mai întâlnita este 9 (apare de trei ori).
 Ca urmare modul pentru acest sir este: Mo = 9

12
14.03.2011

Modul- cazul sirului de date sub


formă de tabel de frecvente

 Pentru date grupate, se cauta intervalul care are cea mai mare
frecventa. În cazul nostru, acest interval este 18-20 în interiorul
caruia se afla 10 valori.
 Valoarea modala este egala cu valoarea gasita în centrul acestui
interval, în cazul de fata Mo = 19.
Intervalul (i) Frecventa (f) Intervalul (i) Frecventa (f)
30-32 (31) 1 15-17 (16) 9
27-29 (28) 2 12-14 (13) 5
24-26 (25) 4 9-11 (10) 5
21-23 (22) 6 6-8 (9) 3
18-20 (19) 10 3-5 (4) 2

Indicatori ai variațției (dispersiei)

Indicatorii sintetici ai variaŃiei sunt:


1. Amplitudinea A
2. Abaterea medie pătratică (σ pentru populație și S pentru eșantion)
3. Dispersia (σ2 pentru populație și S 2 pentru eșantion)
4. Coeficientul de variaŃie (v).
1. AMPLITUDINEA: A = (Xmax – Xmin)
 Pentru a calcula amplitudinea sirului de date:
 X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: 10 - 4 = 6.

13
14.03.2011

Abaterea medie patratică:


cazul unui șir simplu

N n

∑ (x − µ)
i
2
∑ (x − x)
i
2

σ= i =1
S= i =1
N n

Unde: Xi sunt valorile individuale;


X este media esantionului;
µ este media populatiei
N, n este numarul de subiecti observati
(mărimea populației și respectiv, a eșantionului)

Exemplu

De calculat S pentru urmatorul sir de date:


X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6
X X-X (X-X) 2 ∑ (X-X)2 = 44,40
4 -2,6 6,76
6 -0,6 0,36
7 0,4 0,16
9 2,4 5,76 44,40
8 1,4 1,96 S= = 2,10
10
5 -1,6 2,56
8 1,4 1,96
3 -3,6 12,96
10 3,4 11,56
6 -0,6 0,36

14
14.03.2011

Abaterea medie patratică:


cazul seriilor cu frecvente

k
k
∑ (x − µ) n
i
2
i ∑ (x − x) n
i
2
i
σ= i =1
k S= i =1
k

∑n
i =1
i ∑n
i =1
i

Unde: Xi sunt valorile individuale;


X este media esantionului;
µ este media populatiei
n reprezintă frecvențele observate

Exemplu

De calculat S pentru urmatoarele date:


(i) Xi ni (Xi-X) (Xi-X)2 ni * (Xi-X)2
30-32 31 1 14,04 197,12 197,12 X = 17,5
27-29 28 2 11,04 121,88 243,76 ∑ ni = 47
24-26 25 4 8,04 64,64 258,56 ∑ ni *(X-X)2 = 1855,84
21-23 22 6 5,04 25,40 152,40
18-20 19 10 2,04 4,16 41,60 1855,84
15-17 16 9 -0,96 0,92 8,28 S= = 6,28
47
12-14 13 5 -3,96 15,68 78,40
9-11 10 5 -6,96 48,44 242,20
6-8 7 3 -9,96 99,20 297,60
3-5 4 2 -12,96 167,96 335,92

15
14.03.2011

Coeficientul de variabilitate

 Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion


si se obtine prin raportarea abaterii standard la media esantionului.
Rezultatul obtinut se raporteaza apoi în procente.

S
V= ⋅100
x
 Unde: S este abaterea standard a esantionului studiat; X este media
eșantionului.
 Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea:
 V = (2,7/11,4)*100 = 23,68%
 Pentru cazul de mai sus V = (6,28/17,5)*100 = 36%

Interpretarea coeficientului de
variabilitate

 daca coeficientul este cuprins între 0 si 15%, înseamna ca împrastierea


datelor (variația) este foarte mica, iar media este reprezentativa,
deoarece esantionul masurat este omogen;
 daca valoarea lui este între 15 si 30%, variația datelor este mijlocie,
media fiind înca suficient de reprezentativa;
 daca coeficientul depaseste 30%, media nu este reprezentativa pentru
esantionul în cauza, fiind recomandata utilizarea medianei din cauza
lipsei de omogenitate a grupului.

16
14.03.2011

Indicii de asimetrie si boltire

 Exista situatii destul de frecvente când media nu corespunde cu mediana.


Daca ele ar coincide am vorbi despre o distributie complet simetrica,
specifica unei distributii normale teoretice.
 Indicele de asimetrie (de oblicitate) ne arata în ce masura media se
îndeparteaza de mediana, si implicit, în ce masura curba de distributie
normala a datelor se departeaza de mijloc, deplasându-se spre stânga sau
spre dreapta. Sunt considerate distributii relativ normale cazurile în care
acesti indicatori nu depasesc ±1,96.
 Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare
decât mediana, caz în care indicele de asimetrie ia valori pozitive si apare o
distributie a datelor spre stânga.

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:

∑ ( xi − x )3
Ca =
nσ 3

unde σ este abaterea medie patratică de sondaj

 Dacă Ca =0 → serie simetrică.


 Dacă Ca>0 → serie cu asimetrie pozitivă (deplasare spre stânga).
 Dacă Ca<0 →serie cu asimetrie negativă (deplasare spre dreapta).

17
14.03.2011

Reprezentarea grafică

fi fi fi
fmax fmax fmax

xi xi xi

x =Me=Mo Mo Me x x Me Mo

serie perfect simetrică asimetrie pozitivă asimetrie negativă

Boltire (kurtosis)

 Un indice de aplatizare mare arată o repartiŃie cu “cozi” mari


(sunt prezente categorii depărtate de medie), în timp ce un
indice de aplatizare mic arată o repartiŃie “ascuŃită” sau “boltită”
în care sunt prezente mai puŃine categorii depărtate de medie.
 Formula de calcul este :
∑ (xi − x)
4
C = − 3
nσ 4
b

 unde σ este abaterea medie patratică de sondaj.


 În cazul unei repartiŃii apropiate de repartiŃia normală,
coeficientul de aplatizare este în jurul valorii 0.
 Cb >0, atunci distribuția are forma ascuțită iar dacă Cb <0 -
aplatizată

18
14.03.2011

Exemplu de calcul pentru SPSS

Grupe de comis O mare companie de cosmetică are o


Nr. comis
voiajori (mii lei rețea dezvoltată de distribuție prin
voiajori
vânzări lunare) comis voiajori. A fost extras un
41 – 50 10 eșantion de 300 de persoane din
51 – 60 30 rândurile acestora. Datele cu privire la
vânzările lunare sunt prezentate în
61 – 70 50 tabel. CaracterizaŃi şi măsuraŃi
71 – 80 50 asimetria și boltirea distribuŃiei comis
81 – 90 70 voiajorilor.

91 – 100 60 Me = 86,67
mii lei
101 – 110 30
x = 80,17 mii lei
Total 300
σ = 16,10

… asimetrie

Coeficientul de asimetrie se calculează în baza formulei:


∑ ( xi − x )3 • ni − 315797
C as = = = − 0 , 254
nσ 3 300 • 16 , 07 3

Eroarea standard pentru asimetrie este


6/n = 6 / 300 = 0 ,141

În SPSS în calitate de test de normalitate a asimetrie este considerat raportul

C as / 6 / n ∈ [− 2 ; + 2 ]

Adică în cazul nostru: − 0 , 254 / 0 ,141 = − 1 , 80 ∈ [− 2 ; + 2 ]

19
14.03.2011

… boltire

Coeficientul de boltire se calculează conform formulei:


∑ ( xi − x ) 4 • ni 43620028
Cb = −3= = 2 ,1806 − 3 = − 0 ,819
nσ 4 300 • 16 , 07 4

Eroarea standard pentru boltire este

24 / n = 24 / 300 = 0 , 283

În SPSS în calitate de test de normalitate a boltirii este considerat raportul

Cb / 24 / n ∈ [− 2 ; + 2 ]
Adică în cazul nostru: − 0 , 819 / 0 , 283 = − 2 , 89 ∉ [− 2 ; + 2 ]
Adică putem vorbi despre un nivel de aplatizare excesiv

20

S-ar putea să vă placă și