Sunteți pe pagina 1din 21

31.01.

2012

CERCETRI DE MARKETING
TESTUL TEORETIC LUCRARE LABORATOR (SPSS)

60%

40%

TEMA 1: Statistica descriptiv


1. 2. 3.

4.

Organizarea datelor Tendina central Variaia (mprtierea) datelor Asimetria i boltirea distribuiei

31.01.2012

1. Organizarea datelor scalate proporional (scale)


Sa presupunem ca au fost obtinute urmatoarele date ale variabilei studiate: X = (7, 5, 7, 8, 4, 9, 8, 10, 5 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7). n total sunt 35 de date colectate.

1.
n cazul unei distributii simple a frecventei sunt necesari urmatorii pasi:
Se cauta valorile extreme din irul de date (valoarea cea mai mare si cea mai mica); Se scriu toate valorile cuprinse ntre cele doua extreme ntr-o ordine descendenta pe o coloana; Se numara de cte ori apare fiecare valoare n sirul de date; Se trece apoi n tabel, frecventa de aparitie a fiecarui numar.

31.01.2012

1.
Obinem:
Valoarea X 1 2 3 4 5 6 7 8 9 10 Frecventa f 2 0 1 3 4 4 9 7 3 2

(N=35)

2. Organizarea datelor de tip nominal sau ordinal


De exemplu, la ntrebarea cercettorului referitoare la caracteristicile produselor pe care clientii le pretuiesc cel mai mult s-au primit 20 de raspunsuri: X = (calitatea, pretul, cantitatea, calitatea, pretul, calitatea, pretul, pretul, pretul, utilitatea, calitatea, pretul, utilitatea, utilitatea, cantitatea, pretul, calitatea, calitatea,pretul, pretul). N=20

31.01.2012

2.
Tabelul distributiei caracteristicilor produsului: (N=20)
Caracteristica (x) Cantitate Calitate Utilitate Pret Frecventa (f) 2 6 3 9

3. Gruparea datelor pe intervale

Exemplu: De ordonat pe intervale, rezultatele intervievrii a 48 de subiecti. X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).

31.01.2012

METODA 1 (Spatz): reguli


Numarul de intervale trebuie sa fie ntre 10 si 20. Stabilirea marimii intervalului (notat cu i sau h). Trei sau cinci constitue marimea cel mai des ntlnita a intervalelor. Daca un i de 5 produce mai mult de 20 de clase, atunci se trece la o marime a intervalului superioara, de obicei 10 sau un multiplu de 10. Exista si cazuri n care este nevoie de un interval i=2 pentru a pastra minimul de 10 intervale. Primul interval ncepe, de regul, cu o valoare multiplu de i ales. De exemplu, daca 22 este cel mai mic numr, iar marimea intervalului este 3, atunci vom ncepe cu valoarea 21 deoarece este multiplu de trei. Cazul i=5 este unul special. n acest caz se obisnuieste sa se utilizeze o valoare de start astfel nct mijlocul intervalului sa fie un multiplu de 5. n cazul de mai sus, n care 22 este cel mai mic rezultat, ar fi indicat sa se porneasca de la 18 (intervalul ar fi 18-22), iar mijlocul su - 20 (multiplu de cinci).

METODA 1: exemplu
1. 2. 3.

Notam valorile extreme (4 si 31) Calculam diferenta dintre cele doua valori = 27 Stabilim marimea intervalului astfel nct sa obtinem ntre 10 si 20 de intervale. Daca mpartim 27 la 5 vom obtine 5,4 intervale, fapt de nedorit deoarece este prea departat de numarul intervalelor dorite (10-20). Daca mpartim 27 la o alta marime (i=3) vom obtine 9 intervale. Deoarece patru (cea mai mica valoare) nu este multiplul lui trei va trebui sa ncepem de la valoarea trei (chiar daca aceasta nu exista), ca urmare distanta dintre valorile extreme se va mari cu o unitate si va deveni 28. mpartind din nou 28 la trei vom obtine 9,33, o valoarea care ne lasa noua posibilitatea de a alege ntre o distributie cu 9 clase sau una cu 10.

31.01.2012

METODA 1: continuare exemplu


4. 5.

6.

Vom alege distributia cu 10 intervale, pentru a asigura minumul necesar. Sa ncepe de la capatul de jos al tabelului (de la valorile mai mici). n cazul de fata vom porni de la trei, ca multiplu al marimii intervalului i=3) si vom scrie intervalele gasite. n coloana a doua a tabelului vor fi trecute valorile centrale ale intervalelor. Toate intervalele sunt egale n marime nsa pot diferi n ce priveste frecventa. Fiecare interval ncepe cu o valoare divizibila cu marimea intervalului (i=3). Se calculeaza frecventa de aparitie a tuturor valorilor cuprinse ntrun interval si le trecem n tabel n coloana trei.

METODA 1: rezultate exemplu


Intervalul (I) Mijlocul clasei Frecventa (f) 30-32 31 1 27-29 28 2 24-26 25 2 21-23 22 6 18-20 19 9 15-17 16 11 12-14 13 8 9-11 10 4 6-8 7 3 3-5 4 2

31.01.2012

4. Indicatori ai tendinei centrale


Media Mediana Modul

Media
Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al unei caracteristici studiate. Exista mai multe notari pentru medie: M si X barat reprezinta media unui esantion, iar (miu) este media unei populatii. Media aritmetic a unui sir de date se calculeaz astfel: X=X/N Pentru sirul de date: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) Media X = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.

31.01.2012

n cazul n care sirul de date este prezentat ntr-un tabel de frecvente se aplic formula mediei ponderate: fi * Xi X = -----------------fi Unde: fi reprezinta frecventa grupata, iar Xi centrul intervalului (exemplu slide-ul urmtor).

exemplu (cazul unui tabel de frecvene)


Intervalul (i) Centrul (Xi) Frecventa (fi) 30-32 31 1 27-29 28 2 24-26 25 4 21-23 22 6 18-20 19 10 15-17 16 9 12-14 13 5 9-11 10 5 6-8 7 3 3-5 4 2 = 47 Xi * fi 31 56 100 132 190 144 65 50 21 8 = 797

fi = 47

=Xi*fi= 797

X = 797 / 47 = 16,6

31.01.2012

Mediana
Mediana este acel parametru care prin pozitia sa, se afla n mijlocul seriei de date. Ea reprezinta punctul central al seriei, deoarece la stnga si la dreapta ei se situeaza cte 50% din totalitatea datelor. Mediana coincide cu media n cazul unei distributii teoretice normale si se ndeparteaza mult de aceasta daca distributia este asimetrica. Pentru a calcula mediana n cazul distributiei simple a datelor exista doua situatii: Cnd n este impar locul medianei se stabileste astfel: Loc mediana = (n+1) / 2 Cnd n este par sunt adunate valorile din centrul seriei si se mpart la doi.

1.

2.

Mediana- cazul unui ir simplu


De exemplu, irul X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7) Mai nti datele sunt aranjate n ordine crescatoare sau descrescatoare. Astfel, X devine: (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). n acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si mpartim rezultatul la doi. Astfel, Md = (8+9) / 2 = 8,5 Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). n acest caz, locul medianei este stabilit dupa formula: (n+1) / 2, (deci, poziia cinci). Respectiv, mediana Me = 8.

31.01.2012

Mediana cazul sirului de date sub form de tabel de frecvente

N +1 ncpm Me = x0 + h 2 nm
unde: x0 este limita inferioar a intervalului median h este mrimea intervalului median (ceea ce am notat mai sus cu i) N este numarul total al cazurilor nm este frecvena intervalului median ncpm este frecvenele cumulativ pn la intervalul median

exemplu
Intervalul 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Frecventa (fi) Frecventa cumulata 1 47 2 46 4 44 6 40 10 34 9 24 5 15 5 10 3 5 2 2 47 + 1 15 Me = 14,5 + 3 2 = 17,5 9 Centrul i 31 28 25 22 19 16 13 10 7 4

10

31.01.2012

etapele procesului de calcul


Stabilirea punctului deasupra si dedesubtul caruia se situeaza cte 50% din cazuri (N+1)/2. n problema de fata vom avea (47+1)/2=24; Stabilirea intervalului care contine mediana. Se cauta n coloana frecventelor cumulate intervalul care corespunde locului medianei (24). Pozitia 24 din sirul de date este ocupata de o valoare cuprinsa n intervalul 15-17; Se stabileste limita inferioara a intervalului care cuprinde mediana (16+13)/2 = 14,5 ct si frecventa datelor sale (9); Se stabileste valoarea lui N/2 (23,5) Se calculeaza frecventele cumulate, care preced clasa care contine mediana si se obtine 15; Se calculeaza marimea intervalului (h=3) - care cuprinde valorile 15,16 si 17 sau altfel - diferenta dintre limita maxima ((16+19)/2 =17,5) si cea minima a intervalului ce contine mediana este 3 (17,5 -14,5).

Cuartilele i decilele

Cuartilele sunt acele valori ale caracteristicii, care separ seria n patru pri egale: cuartila inferioar, notat cu Q1, este mai mare sau egal de 25% din termenii seriei i mai mic sau egal de 75% dintre ei; cuartila a doua Q2 i decila a cincea D5 coincide cu Me i separ seria n dou pri egale; cuartila superioar Q3 este mai mare sau egal de 75% din numrul termenilor i mai mic sau egal de 25% din numrul lor. n cazul n care se calculeaz decilele, seria se divide n zece pri egale folosind n acest scop nou decile (D1, D2 D9).

11

31.01.2012

Cuartilele i decilele
N +1 ncpq 4 Q1 = x0 + h nq ( N + 1) ncpq 4 Q 3 = x0 + h nq 3
unde: Q1, Q3 cuartila 1 (25%) i 3 (75%) x0 este limita inferioar a intervalului cuartilei, decilei h este mrimea intervalului cuartilei, decilei N este numarul total al cazurilor nq i nd frecvena intervalului cuartilei, decilei ncpq i ncpd - frecvenele cumulative pn la intervalul cuartilei, decilei

( N + 1) ncpd 10 D1 = x0 + h nd 1

exemplu
Intervalul 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Frecventa (fi) Frecventa cumulata 1 47 2 46 4 44 6 40 10 34 9 24 5 15 5 10 3 5 2 2 47 + 1 3 34 4 Q3 = 20,5 + 3 = 21,5 6 Centrul i 31 28 25 22 19 16 13 10 7 4

12

31.01.2012

Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea mai frecvent ntlnita. Astfel, pentru sirurile de date simple modul se afla cautnd valoarea cel mai des ntlnita. Pentru sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7). Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea mai ntlnita este 9 (apare de trei ori). Ca urmare modul pentru acest sir este: Mo = 9

Modul- cazul sirului de date sub form de tabel de frecvente


Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. n cazul nostru, acest interval este 18-20 n interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita n centrul acestui interval, n cazul de fata Mo = 19.
Intervalul (i) Frecventa (f) Intervalul (i) 30-32 (31) 1 15-17 (16) 27-29 (28) 2 12-14 (13) 24-26 (25) 4 9-11 (10) 21-23 (22) 6 6-8 (9) 18-20 (19) 10 3-5 (4) Frecventa (f) 9 5 5 3 2

13

31.01.2012

Indicatori ai variaiei (dispersiei)


Indicatorii sintetici ai variaiei sunt: 1. Amplitudinea A 2. Abaterea medie ptratic ( pentru populaie i S pentru eantion) 3. Dispersia (2 pentru populaie i S 2 pentru eantion) 4. Coeficientul de variaie (v). 1. AMPLITUDINEA: A = (Xmax Xmin) Pentru a calcula amplitudinea sirului de date: X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: 10 - 4 = 6.

Abaterea medie patratic: cazul unui ir simplu

(x )
i =1 i

S=

(x x)
i =1 i

Unde: Xi sunt valorile individuale; X este media esantionului; este media populatiei N, n este numarul de subiecti observati (mrimea populaiei i respectiv, a eantionului)

14

31.01.2012

Exemplu
De calculat S pentru urmatorul sir de date: X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6) X= 66/10 = 6,6
X 4 6 7 9 8 5 8 3 10 6 X-X -2,6 -0,6 0,4 2,4 1,4 -1,6 1,4 -3,6 3,4 -0,6 (X-X) 2 6,76 0,36 0,16 5,76 1,96 2,56 1,96 12,96 11,56 0,36

(X-X)2 = 44,40

S=

44,40 = 2,10 10

Abaterea medie patratic: cazul seriilor cu frecvente

(x ) n
2 i =1 i k

S=
i

(x x) n
2 i =1 i k

n
i =1

n
i =1

Unde: Xi sunt valorile individuale; X este media esantionului; este media populatiei n reprezint frecvenele observate

15

31.01.2012

Exemplu
De calculat S pentru urmatoarele date:
(i) 30-32 27-29 24-26 21-23 18-20 15-17 12-14 9-11 6-8 3-5 Xi 31 28 25 22 19 16 13 10 7 4 ni 1 2 4 6 10 9 5 5 3 2 (Xi-X) 14,04 11,04 8,04 5,04 2,04 -0,96 -3,96 -6,96 -9,96 -12,96 (Xi-X)2 197,12 121,88 64,64 25,40 4,16 0,92 15,68 48,44 99,20 167,96 ni * (Xi-X)2 197,12 243,76 258,56 152,40 41,60 8,28 78,40 242,20 297,60 335,92

X = 17,5 ni = 47 ni *(X-X)2 = 1855,84

S=

1855,84 = 6,28 47

Coeficientul de variabilitate
Este utilizat n scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi n procente.

V=

S 100 x

Unde: S este abaterea standard a esantionului studiat; X este media eantionului. Spre exemplu, daca X = 11,40, iar S = 2,7, vom avea: V = (2,7/11,4)*100 = 23,68% Pentru cazul de mai sus V = (6,28/17,5)*100 = 36%

16

31.01.2012

Interpretarea coeficientului de variabilitate


daca coeficientul este cuprins ntre 0 si 15%, nseamna ca mprastierea datelor (variaia) este foarte mica, iar media este reprezentativa, deoarece esantionul masurat este omogen; daca valoarea lui este ntre 15 si 30%, variaia datelor este mijlocie, media fiind nca suficient de reprezentativa; daca coeficientul depaseste 30%, media nu este reprezentativa pentru esantionul n cauza, fiind recomandata utilizarea medianei din cauza lipsei de omogenitate a grupului.

Indicii de asimetrie si boltire


Exista situatii destul de frecvente cnd media nu corespunde cu mediana. Daca ele ar coincide am vorbi despre o distributie complet simetrica, specifica unei distributii normale teoretice. Indicele de asimetrie (de oblicitate) ne arata n ce masura media se ndeparteaza de mediana, si implicit, n ce masura curba de distributie normala a datelor se departeaza de mijloc, deplasndu-se spre stnga sau spre dreapta. Sunt considerate distributii relativ normale cazurile n care acesti indicatori nu depasesc 1,96 abateri medii patratice. Vorbim despre o asimetrie pozitiva n situatia n care media este mai mare dect mediana, caz n care indicele de asimetrie ia valori pozitive si apare o deplasare a datelor spre stnga. Vorbim despre o asimetrie negativ n situatia n care media este mai mic dect mediana, caz n care indicele de asimetrie ia valori negative si apare o deplasare a datelor spre dreapta.

17

31.01.2012

Reprezentarea grafic

fi fmax

fi fmax

fi fmax

xi x =Me=Mo serie perfect simetric Mo Me x

xi x Me Mo

xi

asimetrie pozitiv

asimetrie negativ

Asimetrie (skewness)

Formula de calcul a coeficientului de asimetrie Ca:

Ca =

( xi x )3 n 3

unde este abaterea medie patratic de sondaj Dac Ca =0 serie simetric. Dac Ca>0 serie cu asimetrie pozitiv (deplasare spre stnga). Dac Ca<0 serie cu asimetrie negativ (deplasare spre dreapta).

18

31.01.2012

Boltire (kurtosis)
Un indice de aplatizare mare arat o repartiie cu cozi mari (sunt prezente categorii deprtate de medie), n timp ce un indice de aplatizare mic arat o repartiie ascuit sau boltit n care sunt prezente mai puine categorii deprtate de medie. Formula de calcul este : 4
C
b

(xi x) n 4

unde este abaterea medie patratic de sondaj. n cazul unei repartiii apropiate de repartiia normal, coeficientul de aplatizare este n jurul valorii 0. Cb >0, atunci distribuia are forma ascuit iar dac Cb <0 aplatizat

Exemplu de calcul pentru SPSS

Vnzri lunare (mii lei) 41 50 51 60 61 70 71 80 81 90 91 100 101 110 Total

Nr. comis voiajori 10 30 50 50 70 60 30 300

O mare companie de cosmetic are o reea dezvoltat de distribuie prin comis voiajori. A fost extras un eantion de 300 de persoane din rndurile acestora. Datele cu privire la vnzrile lunare sunt prezentate n tabel. Caracterizai i msurai asimetria i boltirea distribuiei comis voiajorilor. Me = 86,67 mii lei x = 80,17 mii lei = 16,10

19

31.01.2012

asimetrie
Coeficientul de asimetrie se calculeaz n baza formulei:
C as = ( xi x )3 ni 315797 = n 3 300 16 , 07
3

= 0 , 254

Eroarea standard pentru asimetrie este

6/n =

6 / 300 = 0 ,141

n SPSS n calitate de test de normalitate a asimetrie este considerat raportul

C as /

6 / n [ 2 ; + 2 ]

Adic n cazul nostru: 0 , 254 / 0 ,141 = 1 , 80 [ 2 ; + 2 ]

boltire
Coeficientul de boltire se calculeaz conform formulei:
Cb = ( xi x ) 4 ni 43620028 3= n 4 300 16 , 07
4

= 2 ,1806 3 = 0 ,819

Eroarea standard pentru boltire este

24 / n =

24 / 300 = 0 , 283

n SPSS n calitate de test de normalitate a boltirii este considerat raportul

Cb /

24 / n [ 2 ; + 2 ]

Adic n cazul nostru: 0 , 819 / 0 , 283 = 2 , 89 [ 2 ; + 2 ] Adic putem vorbi despre un nivel de aplatizare excesiv

20

31.01.2012

PROBLEM

De ordonat pe intervale (i=5), rezultatele intervievrii a 52 de subiecti: X=(3,12,23,33,51,46,49,13,17,24,29,18,52,44,40,14,16,13,47, 39,19,38,22,50,48,25,5,20,19,31,24,52,4,16,28,17,22,45, 18,42,22,41,6,14,26,49,14,36,42,26,41,13). De determinat: Media Mediana, quartilele Q1, Q3 i decila D1 Dispersia i coeficientul de variabilitate Coeficienii de asimetrie i boltire (i testul de normalitate pentru ele)

21