Sunteți pe pagina 1din 32

PROIECT la

STATISTIC PENTRU AFACERI

Student:

Cap.1. Introducere
1.1. Definirea problemei Pia igaretelor din Romnia este o pia cu un potenial estimat la aproximativ 33 de miliarde de tigarete/an1 i este disputat n prezent de trei mari companii internaionale: BAT (British American Tobacco), Philip Morris i JTI (Japan Tobacco International). Nivelul consumului actual de igarete din ara noastr (aproximativ 1480 igri pe an pe cap de locuitor adult)2, dezvoltarea pieei pe segmente bine difereniate (premium, mediu, economic i ieftin), segmentarea categoriilor de igri (normale, lights, super lights, cu arome) i caracterul de pia matur, toate acestea constituie premise favorabile ale abordrii pieei romneti de igarete n vederea determinrii consumului de tutun n rndul consumatorilor aduli. 1.2. Scopul cercetrii Prezentul proiect de cercetare are ca scop cunoaterea deprinderilor de a fuma i obiceiul consumului de igarete n rndul adulilor de pe piaa ieean. 1.3. Obiectivele cercetrii Formularea obiectivelor const n precizarea la nivel operaional a informaiilor care sunt necesare pentru alegerea variantei decizionale optime, pentru fiecare dimensiune a problemei investigate. n cadrul acestui proiect de cercetare, obiectivele sunt urmtoarele: O1: identificarea persoanelor fumtoare; O2: determinarea categoriilor de igri consumate de ctre membrii eantionului; O3: identificarea mrcii de igarete consumat n prezent de ctre populaia cercetat; O4: identificarea consumului zilnic de igarete la nivelul unui consumator; O5: determinarea cheltuielilor efectuate saptmnal pe consumul de igarete. 1.4. Ipotezele cercetrii Orice chestionar i bazeaz ntrebrile pe nite ipoteze de cercetat i obiective de urmrit. n forma cea mai simpl o ipotez este de fapt o presupunere. Conceperea ipotezelor cercetrii contribuie la clarificarea aspectelor care se doresc a fi obinute n urma cercetrii. n cadrul cercetrii, ipotezele pot fi confirmate sau respinse pe baza datelor rezultate.

1 2

http://businessday.ro/09/2010/cat-alcool-si-cate-tigari-consuma-romanii/ Idem

Ipoteze generale: I1: Fumtorii reprezint mai mult de jumtate din populaia cercetat; I2: Populaia consum n medie cel mult un pachet de igri pe zi; I3: Exist legtur ntre vrst i deprinderea de a fuma; I4: Exist legtur ntre marca de igri fumat i sexul respondentului; I5: Exist legtura ntre numrul de igri fumate pe zi i banii cheltuii sptmnal pe tutun; I6: Categoria de igri fumat influeneaz cheltuielile saptmnale pe igarete. 1.5. Populaia cercetat Prima etap a procesului de eantionare const n definirea populaiei int, respectiv a populaiei din care va fi selectat eantionul. Prin urmare, informaiile sunt obinute pe baza unui eantion, iar populaia cercetat o reprezint: persoanele ce depesc vrsta de 18 ani sexul s fie att masculin ct i feminin cu domiciliul sau rezidena n municipiul Iasi. Informaii suplimentare ce privesc aceast grup includ irelevana orientrii politice sau religioase, a nivelului de educaie sau a statutului social.

Cap.2. Crearea bazei de date


2.1. Eantionul Pentru determinarea mrimii eantionului, am considerat c este potrivit eantionarea aleatorie, fiind o procedur obiectiv, n cazul creia, probabilitatea de selecie este cunoscut i nenul, pentru fiecare unitate a populaiei int. Pentru determinarea mrimii eantionului. n cazul unei eantionri aleatoare, avem nivelul de ncredere pe care l-am luat n considerare necesar estimrii parametrilor populaiei. Am avut n vedere un nivel al erorii admise de 5% i s-ar putea garanta cu o probabilitate de 95%. Conform tabelului distribuiei normale, pentru Z/2, i corespunde valoarea 1,96. Mrimea eantionului n, pentru cazul procentelor, a fost determinat conform formulei: = 2 /2
2

2 = ptratul coeficientului Z corespunztor nivelului de ncredere avut n vedere p= estimarea procentelor a celor care spun Da; rspunsuri pozitive q=(1-p), estimarea procentelor a celor care spun Nu; rspunsuri negative

2 = ptratul erorii admise exprimat ca procente. Se impune a se face o precizie, o anumit caracteristic a populaiei o putem exprima n procente, unde E=Z*
(1)

, unde p se va exprima, iar eroarea admis va fi E=5%.

Deoarece se ntmpin dificulti n identificarea valorii parametrului p i este dificil de estimat valoarea unui p, iar formula devine de neutilizat, soluia ar fi s se considere valoarea de 0,5 pentru p, respectiv q tot 0,5. n aceste condiii, pentru c valoarea lui p*q este maxim, ne asigurm c este inclus n eantion numrul maxim de rspunsuri pozitive i negative. Abaterea standard maxim care poate s apar n procente: p*q=50*50=2500, unde pentru a estima corect persoanele fumtoare se are n vedere o eroare de 5% la un nivel de ncredere de 95%. n acest caz dac eroarea este de 5% i se merge sub forma unui coeficient cu nivelul maxim de 0,5 atunci, mrimea n va fi: N=1,962 *
5050 52

= 384 persoane

Fiind o lucrare cu caracter didactic i din motive financiare i de natur organizatoric, nu am putut lua n considerare mrimea eantionului calculat la 384 de persoane i am optat pentru micorarea acestuia la 200 de persoane. E=Z*
(100

)= 1,96*

5050 100

= 9,8% 10%

2.2. Definirea variabilelor Pentru a realiza analizele propuse n obiectivele acestei cercetri, amnceput prin a crea baza de date. Acest proces presupune prezentarea datelor ntr-o form care s permit organizarea i efectuarea analizei lor i const n dou etape: definirea variabilelor i introducerea datelor.

Am definit variabilele n coloanele foii Variable View din fereastra Data Editor. Pentru fiecare variabil introdus trebuie s-i precizm atributele: numele variabilei; tipul variabilei (numeric, alfanumeric); lungimea (numrul de caractere, numrul de zecimale); eticheta i valorile etichetei; modalitatea de msurare a variabilei (scale, ordinal, nominal).

Variabilele luate n considerare pentru realizarea acestei cercetri au fost definite att din punct de vedere conceptual ct i din punct de vedere operaional n tabelul urmtor:
Nr. crt. 1. 2. Q1_Fumtor Q2_Marca_tigri Variabila Eticheta variabil Suntei fumtor? Ce marc de igri fumai n prezent? 3. Q3_Preul Ct de important este preul produsului atunci cnd luai decizia de a consuma o anumit marc de igri? 4. 5. 7. 8. 9. Q4_Cantitate Q5_Cheltuieli Q7_Sexul Q8_Vrsta Q9_Venitul Cte igri fumai n medie pe zi? Ci bani cheltuii 1-masculin 2-feminin Vrsta respondentului Care net lunar? este venitul personal 1-sub 500 lei 2-500-1000lei 3-1000-1500 lei! 4-1500-2000 lei 5-peste 2000 lei dumneavoastra sptmnal pe igri? Sexul respondentului 0-Nu 1-Da 1-Winston, 2-L&M, 3-Kent, 4-Marlboro, 5-Viceroy, 6-Pall Mall, 7-Virgina Slims, 8-Parliament, 9-Dunhill, 10-Alta 1-total neimportant 2-neimportant 3-nici important, nici neimportant 4-important 5-foarte important pentru Etichete pentru valori

Variabilele definite, n numr de 9 sunt prezentate n figura de mai jos:

Fig.2.1. Introducerea variabilelor n baza de date, realizat n SPSS

Am introdus datele n celulele foii Data View din fereastra Data Editor. n fiecare coloan (variabil) am introdus rspunsul corespunztor. n total au fost 200 de subieci, deci am obinut 200 de rspunsuri. Baza de date este prezentat n figura de mai jos:

Fig.2.2. Transformarea bazei de date n SPSS, folosind Data View

2.3. Verificarea bazei de date Pentru a verifica dac distribuia valorilor unei variabile prezint asimetrie accentuat, dac sunt otlieri sau alte anomalii se vor utiliza diagramele Box Plot create prin opiunea Explore a comenzii Descriptive Statistics din meniul Analyze, de asemenea mai pot fi folosite i alte procedee de verificare a normalitii (procedee grafice: histograma, P-P Plot, Q-Q Plot i teste de normalitate). Depistarea outlierilor Outlierile reprezint valorile aberante nregistrate la nivelul unui eantion i se pot depista pe baza graficelor care verific normalitatea distribuiilor variabilelor.

Pentru aceast analiz se vor analiza ca variabile cantitatea i cheltuielile. Otlierile se pot depista n cazul variabilelor numerice, iar valorile acestora se vor depista urmnd demersul Analyze Descriptive Statistics Explore - Plots, outlierile fiind depistate implicit.

Fig.2.3. Demersul Analyze Descriptive Statistics-Explore-plots

Fig.2.4. Meniul Explore

Descriptives Statistic Cate tigari fumati in Mean medie pe zi? 95% Confidence Interval for Lower Bound Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Upper Bound 14,37 13,48 15,26 14,62 15,00 22,326 4,725 3 20 17 8 -,602 -,547 ,229 ,455 Std. Error ,448

Tabelul Descriptives cuprinde media variabilei, mreun cu abaterea standard de la media eantioanelor, precum i ali indicatori precum: variana, abaterea standard, valoarea minim i valoarea maxim a variabilei, amplitudinea etc. Din tabelul de mai sus rezult faptul c n medie, membrii eantionului fumeaz zilnic 14,37 igri, mediana indicnd un numr de 15 igri. Numrul minim indicat de subieci este de 3 igri pe zi, n timp ce numrul maxim este de 20 tiri pe zi, rezultnd o amplitudine de 17 igri. Media obinut la nivelul eantionului (14,37) poate fi considerat o estimare punctual a mediei la nivelul populaiei totale, ns o estimare mai aproape de realitate este cea pe baza intervalului de ncredere, care ia n calcul i eroarea aleatoare de eantionare. Imediat sub medie, n tabel apar limitele intervalului de ncredere pentru media la nivelul populaiei totale n condiiile unei probabiliti (nivel de ncredere) de 95%. Limita inferioar a acestui interval este de 13,48 igri (Lower Bound), iar limita superioar de 15,26 igri (Upper Bound). n concluzie, la nivelul populaiei totale putem garanta cu o probabilitate de 95% c media consumului zilnic de igri poate lua valori n intervalul [13,48 igri; 15,26 igri]. Eroarea de eantionare este de 0,89 igri, valoare care se scade i se adun la media eantionului pentru obinerea intervalului de ncredere. n tabelul de mai sus apar i ali indicatori precum media obinut prin eliminarea a 5% dintre valorile de la fiecare extremitate a seriei de date (5% Trimmed Mean). Aceast excludere

are n vedere crearea unei omogeniti mai bune a datelor, n special atunci cnd distribuia nu este perfect normal. n felul acesta media va avea o reprezentativitate mai bun. De asemenea, distana interquartilic (Interquartile Range) are valoarea 8, reprezentnd diferena dintre quartila a 3-a i prima quartil.

Analiznd graficul de mai sus, putem afirma c cei mai muli subieci fumeaz n medie 15 igari pe zi. Constatm lipsa scorurilor extreme, mediana (linia ngroat din interiorul cutiei) fiind situat la valoarea 15 care este mai apropiat de marginea superioar, ceea ce nseamn c arat o distribuie asimetric la stanga.

Descriptives Statistic Cati bani cheltuiti saptamanal pe tigari? Mean 95% Confidence Interval for Lower Bound Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Upper Bound 68,69 64,01 73,37 68,19 75,00 618,960 24,879 25 120 95 40 ,186 -,657 ,229 ,455 Std. Error 2,361

Din tabelul de mai sus observm c n medie, membrii eantionului cheltuie sptmnal 68,69 lei pe igri, mediana indicnd valoarea de 75 lei. Valoarea minim cheltuit de subieci sptmnal pe igri este de 25 lei, n timp ce valoarea maxim este de 120 lei pe sptmn, rezultnd o amplitudine de 618,96 lei. La nivelul populaiei totale putem garanta cu o probabilitate de 95% c media cheltuielilor sptmnale pe igri poate lua valori n intervalul [64,01 lei; 73,37 lei]. n acest caz eroarea de eantionare este de 4,68 lei. Distana interquartilic de 40 lei arat diferena dintre prima quartil i a 3-a quartil.

Conform diagramei Box Plot prezentat n figura de mai sus, putem observa c mediana este situat la valoarea de 75 lei, ceea ce nseamna c respondenii fumtori cheltuie n jur de 75 lei sptmnal pe igri. Diagrama arat o distribuie asimetric la dreapta i putem constata i de aceast dat lipsa scorurilor extreme.

Cap.3. Descrierea statistic a distribuiilor bi i univariate


3.1. Descrierea statistic a distribuiilor univariate Descrierea statistic a variabilelor nominale (categoriale) Vom analiza drept variabil nominal, marca de igri pe care respondeni o fumeaz n prezent. Vom selecta meniul Analyze Descriptive Statistics Frequencies Statistics (unde la Central Tendency se bifeaz Mode) i Charts (unde la Chart Type se bifeaz Pie sau Bar, iar la Chart Value Frequencies sau Percentages). Astfel, se obin urmtoarele rezultate:

Statistics Sunteti fumator? N Valid Missing Mean Std. Error of Mean Std. Deviation Variance 200 0 ,56 ,035 ,498 ,248

Variabila analizat avnd la baz o scal nominal binar ne permite s calculm media, abaterea standard, variana i abaterea standard de la media eantioanelor. Trebuie menionat ns c scala binar este singura scal nominal care permite calcularea mediei aritmetice, indicatorii mai sus menionai fiind imposibil de calculat n cazul unei scale nominale obinuite. Media caracteristicii binare este exprimat n valori relative, avnd valoarea 0,56 n cazul de fa. Exprimat n procente, aceasta semnific faptul c 56% din membrii eantionului sunt fumtori. Deviaia standard este de 0,498, n plus sau n minus.
Sunteti fumator? Frequency Valid Nu Da Total 89 111 200 Percent 44,5 55,5 100,0 Valid Percent 44,5 55,5 100,0 Cumulative Percent 44,5 100,0

Att tabelul de mai sus ct i graficul de tip plcint, arat faptul c dintre cei chestionai 56% au declarat c sunt fumtori, pe cnd 44% au declarat c nu sunt fumtori.

Ce marca de tigari fumati in prezent? Cumulative Frequency Valid Winston L&M Kent Marlboro Viceroy Pall Mall Virginia Slim Parliament Dunhill Total Missing Total 99 23 5 40 7 1 23 3 3 6 111 89 200 Percent 11,5 2,5 20,0 3,5 ,5 11,5 1,5 1,5 3,0 55,5 44,5 100,0 Valid Percent 20,7 4,5 36,0 6,3 ,9 20,7 2,7 2,7 5,4 100,0 Percent 20,7 25,2 61,3 67,6 68,5 89,2 91,9 94,6 100,0

Din tabel putem observa c 40 de persoane din cei chestionai consuma marca de igari Kent, pe locul doi la egalitate se afl marcile Winston i Pall Mall consumate de ctre 23 de persoane, Marlboro este consumat de ctre 7 persoane dintre cei chestionai urmat de Dunhill de ctre 6 persoane. Cele mai puin consumate mrci de igri sunt Virginia Slims, Parliament i Viceroy. CE MARCA DE TIGARI FUMATI IN PREZENT?
2.7% 2.7% 5.41% 20.72% 20.72% 4.5%
Winston L&M Kent Marlboro Viceroy

0.9% 6.31%

36.04%

Pall Mall Virginia Slim

Parliament
Dunhill

Att tabelul de mai sus, ct i graficul de tip pie, arat faptul c, 36,04% din membrii eantionului consum marca de igri Kent, urmate de marcile Winston i Pall Mall cu un procent de 20,72%, un procent de 6,31% pentru marca Dunhill.

Sexul respondentului: Frequency Valid Masculin Feminin Total 114 86 200 Percent 57,0 43,0 100,0 Valid Percent 57,0 43,0 100,0 Cumulative Percent 57,0 100,0

Sexul respondentului:

43% 57%
Masculin Feminin

Conform tabelului i graficului de mai sus putem observa c, dintr-un total de 200 de respondeni, 57% (ceea ce nseamn 114 persoane) dintre acetia au fost persoane de sex masculin, n timp ce restul respondenilor, respectiv 43% (86 de persoane) au fost persoane de sex feminin. Descrierea statistic a valorilor numerice Pentru a reda variabilele numerice (numrul mediu de igri fumate pe zi, banii cheltuii sptmnal pe igri i vrsta), din meniul Analyze alegem Descriptive Statistics Frequencies la opiunea Dispersion selectm St.deviation, minimum i maximum, iar la optiunea Central Tendency selectm Mean), iar la Chart optm pentru diagrama de tip Histogram cu curb normal.

Astfel s-au obinut urmtoarele rezultate:


Statistics Cate tigari fumati in medie pe zi? N Valid Missing Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum a. Multiple modes exist. The smallest value is shown 111 89 14,37 ,448 15,00 15 4,725 22,326 -,602 ,229 -,547 ,455 17 3 20 Cati bani cheltuiti saptamanal pe tigari? 111 89 68,69 2,361 75,00 50a 24,879 618,960 ,186 ,229 -,657 ,455 95 25 120 Varsta respondentului: 200 0 29,26 ,602 26,00 25a 8,517 72,543 1,021 ,172 ,135 ,342 32 18 50

Pentru variabila cte igri fumai n medie pe zi am obinut urmtoarele valori ale indicatorilor calculai: Mean (media) = 14,37 igri: n medie numrul de igri fumate ntr-o zi este de 14,37, aprovimativ 15 igri. Median (mediana) = 15 igri: jumtate dintre respondeni fumeaz pn la 15 igri pe zi i jumtate din respondeni fumeaz peste 15 igri pe zi; Mode (modul) = 15: numrul de igri fumate de cei mai muli respondeni este de 15 igri pe zi Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 4,725: n medie, numrul igrilor fumate de respondeni pe zi se abate de la numrul mediu de igri fumate cu 4,725 n plus sau n minus, respectiv 14,374,725; Minimum; Maximum = numrul minim indicat de subieci este de 3 igri pe zi, n timp ce numrul maxim este de 20 de igri pe zi, rezultnd o aplitudine de 17 igri pe zi; Kurtosis (boltirea) = -0,547: valoarea negativ a coeficientului de boltire relev o distribuie platicurtic Skewness (asimetria) = -0,602: valoarea negativ a coeficientului de asimetrie indic o asimetrie la stnga (negativ).

Pentru a arta forma distribuiei numrului de igri fumate pe zi am folosit histograma i curba frecvneelor obinute cu ajutorul butoanelor de comand din fereastra Frequencies: Charts.

Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup numrul de igri fumate pe zi asimetric la stnga. Pentru variabila ci bani cheltuii sptmnal pe igri, am obinut urmtoarele valori ale indicatorilor calculai: Mean (media) = 68,69 lei: n medie cheltuielile sptmnale pe igri sunt de 68,69 lei; Median (mediana) = 75 lei: jumtate dintre respondeni cheltuie sptmnal pe igri pn n 75 lei i jumtate din respondeni cheltuie peste 75 lei; Mode (modul) = 50: cei mai muli dintre membrii eantionului cheltuielile sptmnal 50 lei pe igri; Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 28,879: n medie, banii cheltuii sptmnal pe igri de ctre respondeni se abat de la cheltuielile medii saptmnale cu 28,879 lei n plus sau n minus, respectiv 68,6928,879 lei; Minimum; Maximum: avem cheltuieli sptmnale pe igri de minim 25 lei i cheltuieli de maxim 120 lei, rezultnd o amplitudine de 95 lei sptmnal;

Kurtosis (boltirea) = -0,657: valoarea negativ a coefiientului de boltire relev o distribuie platicurtic; Skewness (asimetria) = 0,186: valoarea pozitiv a coeficientului de asimetrie indic o asimetrie la dreapta (pozitiv).

Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup banii cheltuii sptmnal pe igri asimetric la dreapta predominnd cheltuielile cuprinse ntre 5075 lei. Curba frecvenelor este platicurtic. Pentru variabila vrsta respondentului am obinut urmtoarele valori ale indicatorilor calculai: Mean (media) = 29,26 ani: vrsta medie a respondenilor este de 29,26 ani. Median (mediana) = 26 ani: Jumtate dintre respondeni au vrsta pn la 26 ani i jumtate din respondeni au vrsta peste 26 ani. Mode (modul) = 25 ani: Vrsta purtat de cei mai muli dintre respondeni este vrsta de 25 de ani. Std. Deviation (abaterea medie ptratic, numit i abaterea standard) = 8,517 ani : n medie, vrsta unui respondent se abate fa de vrsta medie a respondenilor cu 8,517 ani plus sau minus valoarea abaterii medii ptratice, respectiv: 29,26 8,517 ani.

Kurtosis (boltirea) = 0,135: valoarea pozitiv a coeficientului de boltire relev o distribuie peltocurtic. Skewness (asimetria) = 1,021: valoarea pozitiv a coeficientului de asimetrie indic o asimetrie la dreapta (pozitiv) Minimum; Maximum: vrsta minim a persoanelor din eantion este de 18 ani, cea maxim de 50 ani, rezultnd o aplitudine de 32 ani.

Din figura de mai sus observm c, pe ansamblu, eantionul are o distribuie dup vrst asimetric la dreapta predominnd vrsta tnr. 3.2. Descrierea statistic a distribuiilor bivariate Analiza statistic a gradului de asociere ntre dou variabile Tratarea datelor n vederea analizei statistice a gradului de asociere presupune: construirea tabelelor de asociere i calculul frecvenelor condiionate; calculul i interpretarea lui hi-ptrat; calculul coeficienilor de asociere. n acest subcapitol mi-am propus s studiez gradul de asociere dintre dou variabile nominale: marca de igri consumat n prezent i sexul respondentului; o variabila nominal i o variabul numeric, dou variabile numerice.

a) Dou variabile nominale Distribuia eantionului de respondeni observai simultan dup cele dou variabile considerate poate fi obinut prin opiunea Crosstabs a comenzii Descriptive Statistics din meniul Analyze. Distribuia de frecven marca de igri consumat n prezent * sexul respondentului este obinut n crosstabelul de mai jos.
Ce marca de tigari fumati in prezent? * Sexul respondentului: Crosstabulation Count Sexul respondentului: Masculin Ce marca de tigari fumati in Winston prezent? L&M Kent Marlboro Viceroy Pall Mall Virginia Slims Parliament Dunhill Total 17 2 30 3 1 18 0 2 3 76 Feminin 6 3 10 4 0 5 3 1 3 35 Total 23 5 40 7 1 23 3 3 6 111

Dintre cei 23 respondeni care fumeaz n prezent marca de igri Winston, 17 sunt persoane de sex masculin i 6 de sex feminin. Dintre cei 5 respondeni care fumeaz n prezent marca de igri L&M, 2 sunt de sex maculin i 3 de sex feminin. Dintre cei 40 respondeni care fumeaz n prezent marca de igri Kent, 30 sunt de sex masculin i 10 de sex feminin . Pentru marca de igri Pall Mall, observm c din cei 23 de respondeni fumtori ale acestei mrci, 18 sunt de sex masculin i 5 de sex feminin. Marca de igro Virginia Slims este fumat doar de persoanele de sex feminin, n numr de 3 persoane dintre cei care au declarat c sunt fumtori. Dunhill este preferat att de brbai ct i de femei, doar c ntr-un numr mult mai mic, respectiv 3 persoane de sex masculin i 3 persoane de sex feminin. Am reprezentat grafic, prin bare, distribuia dup marca de igri fumat n prezent i sexul respondenilor.

Am analizat diferenele calitative prin calculul i interpretarea lui hi-ptrat (Pearson ChiSquare). Pentru aplicarea testului n cadrul analizei bivariate se pleac de la urmtoarele ipoteze: H0 - ntre frecvenele observate i cele ateptate nu exist diferene semnificative, ceea ce presupune faptul c ntre marca de igri fumat n prezent i sexul respondentului nu exist legtur. H1 - Exist diferene semnificative ntre frecvenele observate i cele ateptate, ceea ce semnific existena unei legturi ntre marca de igri fumat n prezent i sexul respondentului.
Chi-Square Tests Value Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 111
a. 12 cells (66,7%) have expected count less than 5. The minimum expected count is ,32.

df 8 8 1

Asymp. Sig. (2-sided) ,080 ,070 ,345

14,059a 14,468 ,891

Citim n tabelul Chi-Square Tests nivelul de semnificaie minim pentru care se poate accepta ipoteza alternativ, care poate fi citit n coloana Asymp. Sig.(2-sided). Pentru 8 grade de libertate, valoarea Asymp.Sig este egal cu 0,08 care este mai mic dect =0,05, prin urmare vom respinge ipoteza nul i vom accepta ipoteza H1, conform creia ntre marca de igri fumat n prezent i sexul respondentului exist legtur. b) O variabil nominal i una numeric Teste folosite????? c) Dou variabile numerice Teste folosite??????? Reprezentarea grafic simultan pentru variabilele numrul de igri fumate pe zi i vrsta respondentului este folosit pentru prezentarea legturilor dintre fenomene. Am folosit diagrama Scatterplot din meniul Graphs comanda Interactive.

Cap.4. Estimarea i testarea parametrilor distribuiilor observate


4.1. Estimarea parametrilor prin interval de ncredere Prin estimare se nelege un procedeu prin care se generalizeaz rezultatele observate pe un eantion la nivelul populaiei din care este extras, adic se afl valoarea unui parametru al unei populaii pe baza datelor nregistrate la nivelul unui eantion extras din aceasta. (Elisabeta Jaba, Ana Grama, pag. 176). Estimarea se poate efectua punctual sau prin interval de ncredere. Estimarea punctual presupune o estimaie calculat pe baza datelor nregistrate la nivelul unui eantion. Estimarea prin interval de ncredere presupune aflarea limitelor de ncredere ale unui interval care acoper valoarea adevrat a unui parametru al populaiei. Estimarea prin interval de ncredere a unei medii i unei proporii Pentru a estima prin interval de ncredere numrul mediu de igri fumate pe zi, respectiv banii cheltuii sptmnal pe igri al tuturor respondenilor care au declarat c sunt fumtori, am selectat opiunea Explore din comanda Descriptive Statistics a meniului Analye. Caseta Descriptives permite calculul intervalului de ncredere 95%.

Descriptives Statistic Cate tigari fumati in medie pe zi? Mean 95% Confidence Interval for Mean Cati bani cheltuiti saptamanal pe tigari? Mean 95% Confidence Interval for Mean Lower Bound Upper Bound Lower Bound Upper Bound 14,37 13,48 15,26 68,69 64,01 73,37 2,361 Std. Error ,448

Limita inferioar a intervalului de ncredere (Lower Bound) este:


-/2

Lmita superioar a intervalului de ncredere (Upper Bound) este:


+/2

n concluzie, numrul mediu de igri fumate pe zi este cuprins, cu o ncredere de 95%, ntre 13,48 i 15,26 igri. Banii cheltuii sptmnal pe igri sunt cuprini, cu o ncredere de 95%, ntre 64,01 lei i 73,37 lei. Pentru a estima prin interval de ncredere proporia persoanelor chestionate care au declarat c fumeaz, am efectuat urmtorul set de operaii: 1. Am calculat, la nivelul eantionului observat, proporia rspunsurilor pentru persoanele care fumeaz. 2. Am calculat eroarea standard Sp dup relaia:
=

, unde

este abaterea standard iar n este volumul esantionului

Aplicm formula de mai sus pentru f =0.56 si n =200 persoane i obinem:


=
0,56(10,56) 0,56(10,56)= 0,2464 = = 200 200 200

0,0351

3. Am calculat limitele I.C. (pentru z = 1,96 ) Limita inf. : Li =f -1,96 Sp =0,0351 -1.96 0,0351 =0.56 - 0.687 =0.49 (49.2%) Lmita sup. : Ls =f +1.96 Sp =0.0351 +1.96 0.0351 =0.56 +0.0687 =0.62 (62%) La nivelul populaiei totale putem garanta cu o probabilitate de 95% c procentul fumtorilor se situeaz n intervalul [49% ; 62%]. Continuare ......

Cap.6. Analiza legturilor statistice


n acest capitol mi-am propus s analizez legtura dintre dou variabile, dintre care una este efectul (rezultativa, dependent) iar cealalt este cauza (factorial, independent). Analiza de regresie Am aplicat analiza de regresie pentru a evalua n ce msur variabila dependent numrul de igri consumate pe zi poate fi explicat prin variabila independent banii cheltuii pe igri saptmnal. Programul SPSS estimeaz parametrii modelului de regresie ales (am ales modelul de regresie simplu liniar). Pentru analiza modelului de regresie am parcurs urmtorii pai: estimarea parametrilor ecuaiei de regresie (pe baza metodei celor mai mici ptrate) i interpretarea regresiei n funcie de semnul i valoarea parametrilor modelului de regresie; testarea semnificaiei parametrilor de regresie. - ordonata la origine (valoarea variabilei Y cand X = 0); panta dreptei, numit i coeficient de regresie; Parametrii ecuaiei de regresie , ntr-un model liniar simplu, Y =a +bX +e , sunt: -

Variabila independent (X) i variabila dependent (Y) sunt prezentate n tabelul Variables Entered.
Variables Entered/Removedb Model 1 Variables Entered Cati bani cheltuiti saptamanal pe tigari?
a. All requested variables entered. b. Dependent Variable: Cate tigari fumati in medie pe zi?

Variables Removed .

Method Enter

n ecuaia de regresie, parametrii a i b sunt necunoscui. n practic parametrii unui model de regresie sunt estimai pe baza datelor la nivelul unui eantion observat: Y = a + bX , unde: a i b sunt estimaii ale parametrilor i Tabelul Coefficients prezint coeficienii nestandardizai ai modelului de regresie estimat, erorile standard ale acestora, coeficienii de regresie standardizai cu erorile standard corespunztoare, precum i valorile statisticii test t i valorile Sig. corespunztoare.

Coefficientsa Standardized Unstandardized Coefficients Model 1 (Constant) Cati bani cheltuiti saptamanal pe tigari?
a. Dependent Variable: Cate tigari fumati in medie pe zi?

Coefficients Beta t 4,735 ,839 16,121 Sig. ,000 ,000

B 3,419 ,159

Std. Error ,722 ,010

Am obinut n tabelul Coefficients valorile estimaiilor parametrilor de regresie i anume valorile lui a i b (Unstandardized Coefficients). a (Constant) = 3,419 b (vrsta respondentului) = 0,159 Modelul de regresie estimat este: Y = 3,419 + 0,159 X Deoarece am obinut o valoare pozitiv a coeficientului de regresie b, nseamn c exist o legtur direct ntre numrul de igri fumate pe zi i banii cheltuii saptmnal pe igri. Dac numrul de igri fumate pe zi crete cu 10, atunci banii cheltuii saptmnal pe igri cresc, n medie, cu 0,159 lei. Am testat parametrii modelului de regresie folosind testul t. n tabelul Coefficients citim valoarea testului t i valoarea Sig. corespunztoare. Pentru coeficientul de regresie b, citim valoarea testului egal cu 16,121 i valoarea semnificaiei Sig. de 0,000. Deoarece Sig. este mai mic dect 0,05, atunci respingem ipoteza H0 (b nu difer semnificativ de 0) i acceptm ipoteza H1 (b difer semnificativ de 0). n conlcuzie, putem spune c exist o legtur semnificativ ntre numrul de igri fumate pe zi i banii cheltuii saptmnal pe igri. Analiza de corelaie n continuare am studiat intensitatea legturii dintre variabilele numrul de igri fumate pe zi i banii cheltuii saptmnal pe igri. n acest sens am folosit analiza de corelaie i am obinut i interpretat indicatorii corelaiei. Tabelul Model Summary prezint valoarea coeficientului de corelaie R, valoarea raportului de determinaie R2 i eroarea standard a estimaiei.
Model Summary Adjusted R Model 1 R ,839a R Square ,705 Square ,702 Std. Error of the Estimate 2,580

a. Predictors: (Constant), Cati bani cheltuiti saptamanal pe tigari?

Valoarea R (valoarea coeficientului de corelaie) arat dac exist sau nu corelaie ntre variabila dependent (Y) i variabila independent (X). Acest indicator ia valori ntre -1 i 1.

Valoarea 2 (valoarea raportului de determinaie) arat proporia variaiei variabilei dependente explicate prin modelul de regresie. Pentru modelul analizat a rezultat o valoare R=0,839, respectiv, 2 = 0,705, ceea ce ne arat c ntre numrul de igri fumate pe zi i banii cheltuii saptmnal pe igri exist o legtur liniar, direct, strns. Tabelul Regession ANOVA prezint rezultatele analizei varianei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Prezint informaii asupra sumei ptratelor abaterilor variabilei dependente, gradele de libertate, estimaiile varianelor datorate celor dou surse de variaie, raportul F i Sig.
ANOVAb Model 1 Regression Residual Total Sum of Squares 1730,171 725,684 2455,856 df 1 109 110 Mean Square 1730,171 6,658 F 259,877 Sig. ,000a

a. Predictors: (Constant), Cati bani cheltuiti saptamanal pe tigari? b. Dependent Variable: Cate tigari fumati in medie pe zi?

n cazul variabilelor considerate, valoarea Sig. pentru F este sig.=0,00<=0.05, prin urmare relaia liniar dintre cele dou variabile considerate este semnificativ. Modelul ales ajusteaz bine datele din eantionul ales. Putem calcula coeficientul de corelaie i cu ajutorul opiunii Bivariate a comenzii correlate din meniul Analyze.
Correlations Cate tigari fumati in medie pe zi? Cate tigari fumati in medie pe zi? Pearson Correlation Sig. (2-tailed) N Cati bani cheltuiti saptamanal pe tigari? Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 111 ,839** ,000 111 111 1 Cati bani cheltuiti saptamanal pe tigari? ,839** ,000 111 1

Tabelul Correlations prezint valorile coeficienilor de corelaie dintre variabilele numrul de igri fumate pe zi i banii cheltuii saptmnal pe igri. Coeficientul de corelaie Pearson (Pearson Correlation) este egal cu 0,839 (valoare foarte apropiat de 1). Valoarea coeficientului de corelaie este pozitiv deci, corelaia dintre variabile este direct i foarte puternic.

Testarea semnificaiei coeficientului de corelaie este realizat cu ajutorul testului t. Valoarea Sig. corespunztoare, egal cu 0.000, evideniaz c s-a obinut un coeficient de corelaie semnificativ la un prag de 0.000, adic sunt anse mai mici de 1% ( = 0.01) de a grei n a afirma c ntre cele dou variabile exist o corelaie semnificativ. Relaia dintre dou variabile poate fi reprezentat grafic sub forma unui nor de puncte. Practic, graficul l alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:

Vom alege un grafic simplu, care s ilustreze relaia dintre dou variabile, deci vom selecta opiunea SIMPLE. Se activeaz apoi butonul DEFINE, care deschide urmtoarea fereastr:

Se introduc cele dou variabile n cmpurile axei X i axei Y (nu conteaz ordinea n care

se introduc variabilele deoarece corelaia este bidirecional) i apoi se apas butonul OK. Reprezentarea grafic a corelaiei este urmtoarea:

Reprezentarea grafic a corelaiei apare sub forma unui nor de puncte. Pentru exemplul nostru norul de puncte este ascendent cresctor (din stnga-jos spre dreapta-sus) deoarece relaia dintre variabile este pozitiv, iar punctele sunt apropiate, grupate deoarece coeficientul de corelaie are valoare ridicat (r=0,839). Dac relaia ar fi fost invers proporional, norul de puncte ar fi fost

orientat descresctor (din stnga-sus spre dreapta-jos). n cazul n care nu ar fi nici o relaie, punctele ar fi fost distribuite uniform pe grafic. Analiza dispersional (One - Way ANOVA) n acest subcapitol mi-am propus s studiez influena categoriei de igri fumat de respondeni asupra banilor cheltuii sptmnal pe igri. Formularea ipotezelor: H1: variabila categoria de igri fumat influeneaz cheltuielile sptmnale pe igri sau cheltuielile sptmnale pe igri vor varia n funcie de categoria de igri fumat. H0: varibila cheltuieli sptmnale pe igri va avea aceeai valoare, indiferent de categoria de igri fumat. Pentru atingerea acestui obiectiv am aplicat procedeul de analiz ANOVA unifactorial (One-Way ANOVA) care analizeaz variana pentru o variabil cantitativ (banii cheltuii sptmnal pe igri) dependent de o singur variabil factor (categoriei de igri fumat). Prin ANOVA se compar cheltuielile pe igri pentru cele patru subcategorii definite de variabila de grupare (igri normale, igri lights, super lights i mentolate). n SPSS, am ales opiunea One-Way ANOVA din comanda Compare Means a meniului Analyze. Pentru a verifica dac sunt ndeplinite restriciile cerute de ANOVA am bifat casetele de validare Descriptives, Homogeneity of variance i Means plot. Restriciile impuse unei analize ANOVA i verificarea lor constau n: restricia de normalitate (pentru a verifica normalitatea putem folosi: rezultatele din tabelul Descriptives, diagrama Boxplot , diagrama Q-Q, testul K-L-S); restricia de homoscedasticitate (pentru a verifica dac varianele grupelor sunt egale folosim testul Levene Test of Homogeneity of Variances); restricia de independen;
Descriptives Cati bani cheltuiti saptamanal pe tigari? Std. N Normale Lights Ultra lights Mentolate Total 43 18 27 23 111 Mean 48,95 61,11 81,48 96,52 68,69 Deviation 20,165 9,164 12,921 15,406 24,879 Std. Error 3,075 2,160 2,487 3,212 2,361 95% Confidence Interval for Mean Lower Bound 42,75 56,55 76,37 89,86 64,01 Upper Bound 55,16 65,67 86,59 103,18 73,37 Minimum 25 50 60 75 25 Maximum 100 75 120 120 120

Tabelul cu testul lui Leneve reprezint tocmai testul de omogenitate, care trebuie s fie nesemnificativ pentru a utiliza aceast metod.
Test of Homogeneity of Variances Cati bani cheltuiti saptamanal pe tigari? Levene Statistic 1,511 df1 3 df2 107 Sig. ,216

Valoarea Sig.(0,216) pentru testul de omogenitate a varianelor este mai mare ca 0,05 sugernd c varianele pentru cele 4 categorii sunt egale, deci restricia de homoscedasticitate este ndeplinit i astfel se poate aplica ANOVA. n tabelul ANOVA am obinut valoarea statisticii test Fisher, valoarea semnificaiei Sig. i elementele de calcul pentru statistica test F (Fisher).
ANOVA Cati bani cheltuiti saptamanal pe tigari? Sum of Squares Between Groups Within Groups Total 40017,421 28068,165 68085,586 df 3 107 110 Mean Square 13339,140 262,319 F 50,851 Sig. ,000

Statistica test F se calculeaz dup relaia: = 2


2 2 = reprezint estimatorul varianei intergrupe (Between-Groups); 2 = reprezint media varianelor de grup i arat variana din interiorul fiecrei grupe

(Within Groups). Din datele pe care le avem pn acum, F(3;107) = 50,851, p<0,001, putem concluziona c pe ansamblu, categoria de igri fumat influeneaz valoarea cheltuielilor sptmnale pe igri. Putem spune c doar pe ansamblu se ntmpl acest lucru pentru c rezultatele analizei ANOVA se refer doar la existena diferenelor globale dintre grupe, fr a preciza care sunt grupele ntre care apar diferene semnificative. Pentru a vedea diferenele dintre grupuri trebuie s analizm rezultatele prezentate n tabelul POST HOC TESTS: prima coloan indic nivelul de referin al variabilei independente, fa de care se face comparaia. Coloana este notat cu I. Coloana a doua indic nivelele variabilei independente care sunt comparate cu nivelurile de referin. Coloana este notat cu J. Coloana Mean Difference afieaz valorile diferenelor dintre coloana I i J.

Stelua care apare n dreptul diferenelor dintre medii indic existena unor diferene semnificative ntre acestea Coloana Sig. Conine valoarea exact a pragului de semnificaie pentru fiecare diferen.

Astfel, n tabelul nostru avem urmtoarele rezultate:


Multiple Comparisons Cati bani cheltuiti saptamanal pe tigari? Bonferroni (I) Ce categorie de tigri fumati? Normale (J) Ce categorie de tigri fumati? Lights Ultra lights Mentolate Lights Normale Ultra lights Mentolate Ultra lights Normale Lights Mentolate Mentolate Normale Lights Mean Difference (I-J) -12,158 -32,528
*

95% Confidence Interval Std. Error 4,547 3,977 4,184 4,547 4,928 5,097 3,977 4,928 4,596 4,184 5,097 4,596 Sig. ,052 ,000 ,000 ,052 ,000 ,000 ,000 ,000 ,009 ,000 ,000 ,009 Lower Bound -24,38 -43,22 -58,82 -,07 -33,62 -49,11 21,84 7,12 -27,39 36,32 21,71 2,69 Upper Bound ,07 -21,84 -36,32 24,38 -7,12 -21,71 43,22 33,62 -2,69 58,82 49,11 27,39

-47,568* 12,158 -20,370* -35,411* 32,528* 20,370* -15,040* 47,568* 35,411*

Ultra lights 15,040* *. The mean difference is significant at the 0.05 level.

Pentru a evita ca rezultatele noastre s fie fals pozitive, trebuie s fim mai severi n privina p-ului; corecia Bonferroni seteaz pragul de semnificaie la p = 0,05/nr. de comparaii 0,001. Stabilind acest nou prag de semnificaie statistic i comparnd seriile dou cte dou, obinem p<0,001 (adic diferene semnificative statistic). n tabelul de mai sus observm c n aproape toate grupele apar diferene semnificative, cea mai mare valoare a cheltuielilor sptmnale pe igri o are categoria de igri lights, urmeaz apoi categori de igri mentolate (cheltuielile sptmnale sunt semnificativ mai mari decat cele din categoria lights). Pe ultimul loc se plaseaz categoria de igri normale cu cele mai mici cheltuieli sptmnale (semnificativ mai mici comparativ cu categoria mentolate i ultra lights).

S-ar putea să vă placă și