Documente Academic
Documente Profesional
Documente Cultură
Sisteme informatice de marketing Sarkany Szabolcs, Gr. 8101,An II 02.09.2012 CUPRINS 1. Introducere Definirea problemei Obiectivul proiectului 2. Construirea bazei de date Alegerea variabilelor analizate Definirea variabilelor si introducrea datelor in SPSS 3. Verificarea bazei de date Depistarea outlieri-lor Verificarea normalitatii distributiilor 4. Analiza statistica univariata a datelor 4.1. Descrierea statistica a variabilelor nominale 4.2. Descrierea statistica a varibilelor numerice 5. Analiza statistica bivariata a datelor 5.1 Analiza statistica a gradului de asociere intre doua variabile 5.2 Analiza de regresie si corelatie 5.3 Analiza dispersionala (ANOVA)
6. Estimarea si testarea statistica 6.1 Estimarea parametrilor prin interval de incredere 6.1.1 Estimarea prin interval de incredere a unei medii si a unei proportii 6.1.2 Estimarea prin interval de incredere a diferentei dintre doua medii si doua proportii 6.2 Testarea statistica 6.2.1 Testarea unei medii si a unei proportii 6.2.2 Testarea diferentei dintre doua medii si doua proportii
1. INTRODUCERE Am luat in analiza opiniile privind candidatii la presedentie datorita interesului crescut al populatiei fata de alegerile prezidentiale, percepute ca o posibilitate democratica de exprimare si participare la viata politica a tarii. Astfel am luat in analiza un esantion format din 31 de personae participante la cursurile postuniversitare ale scolii FIBAS specializarea Economie si Gestiune Financ 13413n139n iar Bancara, care si-au exprimat opinia privind preferinta pentru candidatul la presedentie. 2. Construirea bazei de date 2.1. 2.2. Alegerea variabilelor analizate Definirea variabilelor si introducrea datelor in SPSS
Orice analiza statistica a bazelor de date in SPSS incepe cu pregatirea setului de date. Acestea au fost obtinute din interpretarea chestionarelor completate de esantionul de 31 de persoane, participante la cursurile postuniversitare ale scolii FIBAS. Pentru analiza statistica urmarita, au fost luate in calcul urmatoarele variabile: Variabile nominale:
Profesia - economist, inginer, jurist, professor, altele; Candidatii la presedentie -T. Basescu, A. Nastase, I. Becali, altii.
Variabile numerice :
Venitul realizat - sub 3 mil lei, intre 3-5 milioane lei, intre 5-10 milioane lei, intre 10-20 milioane lei, peste 20 milioane lei.
Statistica descriptiva furnizeaza o serie de statistici referitoare la caracteristicile distributiei : 3. Verificarea bazei de date 3.1. 3.2. Depistarea outlieri-lor Verificarea normalitatii distributiilor
Pentru verificarea normalitatii distributiei se foloseste diagrama Q-Q Plot, care compara datele observate pe care ar trebui sa le avem daca distributia noastra ar urma perfect o distributie normala cu aceeasi medie si aceeasi abatere standard. Valorile observate si valorile separate sunt comparate pe un grafic unde pe abscisa sunt valorile observate pentru variabila aleasa, iar pe ordonata sunt valorile asteptate. Daca distributia variabilei alese ar fi normala atunci graficul ar trebui sa arate o tendinta liniara. Pentru variabila venituri rezulta o distributie normala conform graficului de mai jos.
4.
PROFESIA
Frequency Valid economist inginer jurist profesor altele Total 22 3 3 2 1 31 Percent 71.0 9.7 9.7 6.5 3.2 100.0 Valid Percent 71.0 9.7 9.7 6.5 3.2 100.0 Cumulative Percent 71.0 80.6 90.3 96.8 100.0
profesia economist are frecventa 22 din 31, ceea ce reprezinta 71% din totalul persoanelor care au completat chestionarul ; profesia inginer are frecventa 3 din 31 reprezentand 9,7 %; profesia jurist are frecventa 3 din 31 reprezentand 9,7 %; profesia profesor are frecventa 2 din 31 reprezentand 6,5 %; alte profesii cu frecventa 1 din 31 reprezentand 3,2%. Coloana percent valid reprezinta procentul valid. Coloana Cumulative Percent reprezinta procentele cumulate ale categoriilor. 80,6% reprezinta procentajul acoperit de profesiile economist si inginer ; 90,3% reprezinta procentajul acoperit de profesiile economist, inginer si jurist ; 96,8% reprezinta procentajul acoperit de profesiile economist, inginer, jurist si profesor.
CANDIDATI LA PRESEDENTIE
Frequency Valid basescu nastase becali altele Total 20 8 2 1 31 Percent 64.5 25.8 6.5 3.2 100.0 Valid Percent 64.5 25.8 6.5 3.2 100.0 Cumulative Percent 64.5 90.3 96.8 100.0
In tabelul de mai sus observam urmatoarele : Coloana frecventelor si a procentelor Din esantionul ales preferintele exprimate pentru candidatul la presedentie au fost:
T. Basescu are frecventa 20 din 31, ceea ce reprezinta 64,5% din total ; A. Nastase are frecventa 8 din 31 reprezentand 25,8 %; I. Becali are frecventa 2 din 31 reprezentand 3,2 %; Alti candidati au frecventa 1 din 31 reprezentand 3,2 %.
Coloana percent valid reprezinta procentul valid. Coloana Cumulative Percent reprezinta procentele cumulate ale categoriilor. 90,3% reprezinta procentajul acoperit de candidatii T. Basescu si A. Nastase; 96,8% reprezinta procentajul acoperit de candidatii T. Basescu, A. Nastase si I. Becali. Mai jos se afla reprezentarea grafica distributiei candidatilor la presedentie.
Observam urmatoarele : Din cele 31 de inregistrari toate sunt valide ; Media celor 31 de inregistrari este de 29,645 ani ; Mediana este de 27 ani ; Valoarea mod indicata este 35 ani; Valoarea minima este de 22 ani ; Valorea maxima este de 43 ani ; Abaterea standard este de 6,258 ; Coeficientul de asimetrie Skewness este 0,534 indicand ca distributia este asimetrica la stanga, dupa cum se observa si din graficul de mai jos ; Coeficientul de boltire Kurtosis este -1,046 (<0) indicand faptul ca repartitia este platicurtica.
. 5. Analiza statistica bivariata a datelor 5.1. Analiza statistica variabile a gradului de asociere intre doua
Reprezentarea grafica simultana a unei variabile nominale si a unei variabile numerice este folosita pentru prezentarea mediilor si abaterilor standard pe grupe. Ca diagrame sunt alese urmatoarele tipuri: histograme; Stem-and-Leaf Plots; Boxplot, reprezentate grafic mai jos.
Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= basescu Frequency 3.00 Stem & 1 . Leaf 000
2 . 3 . 4 . 5 . 1.00
1 case(s)
Se poate observa din prima histograma, ca persoanele care obtin venituri din categoria 3 (5-10 milioane lei), il prefera la presedentie pe dl. T. Basescu, cu o frecventa de 8.
Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= nastase Frequency Stem & Leaf
0 . 0 . 10.00
1111334 5
1 case(s)
Se poate observa din histograma, ca persoanele care obtin venituri din categoria 1 (sub 3 milioane lei), il prefera la presedentie pe dl. A. Nastase, cu o frecventa de 7.
Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= becali Frequency 1.00 1.00 Stem & 3 . 4 . Leaf 0 0
1.00 1 case(s)
Din analiza Boxplot a variabilelor venituri si preferinta pentru candidati la presedentie rezulta : - mediana pentru preferinta Basescu se afla in jurul valorii de 3 (5-10 mil lei), indicand ca persoanele cu venituri de mai sus il prefera la presedentie pe Basescu ; - mediana pentru preferinta Nastase se afla in jurul valorii de 2 (3-5 mil lei), indicand ca persoanele cu venituri de mai sus il prefera la presedentie pe Nastase;
5.2 Analiza de regresie si corelatie Intr-o cercetare bazata pe analiza de corelatie si regresietrebuie rezolvate urmatoarele probleme : CORELATIA Analiza de corelatie este folosita pentru a studia intensitatea legaturii dintre variabile. Legaturile statistice ,in functie de tipul variabilelor pot exprima fie asocieri (cazul variabilelor nominale ) fie corelatii (cazul variabilelor numerice). In vederea efectuarii unei analize de corelatie se pot calcula trei coefienti de corelatie si anume: Pearson; Kendall; Spearman's precum si nivelurile de semnificatie corespunzatoare. Ne propunem sa analizam corelatia dintre urmatoarele variabile : profesia persoanelor intervievate si optiunile lor pentru candidatii la presedentie Identificarea existentei legaturii presupunere logica Deterninarea gradului de intensitate a legaturii -cu ajutorul indicatorilor parametrici si neparametrici Stabilirea sensului legaturi-metode de regresie
Coeficientul de corelatie PEARSON arata sensul relatiei dintre variabile -directa sau indirecta.
Correlations candidat la Profesia intrvievatilor presedintie 1.000 .048 . .797 31 31 .048 1.000 .797 . 31 31
Deoarece coeficientul Pearson este de 0,048-pozitiv si rezulta existenta unei legaturi directe Nota : un coeficient de corelatie egal cu +1 indica o legatura directa perfecta, iar un coefficient de -1 indica o legatura inversa perfecta. Pentru a afla ce tip de corelatie putem face intre doua variabile numerice, verificam daca datele sunt distribuite normal. Acest lucru il facem cu ajutorul testului Kolmogorov-Smirnov, acest a comparand distributia variabilelor inregistrate cu distributii teoretice -normale.
One-Sample Kolmogorov-Smirnov Test milioane lei varsta persoanei in ani 31 31 2.7419 29.6452 1.2102 6.2586 .230 .212 .158 -.230 1.278 .076 .212 -.159 1.181 .123
N Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a Test distribution is Normal. b Calculated from data.
Valoarea coeficientului de semnificatie de 0,076 (<0,1) arata ca exista o diferenta semnificativa intre distributia variabilei venit si distributia normala.
Valoarea de 0,123 arata ca distributia variabilei varsta persoanei, nu difera semnificativ de distributia normala. Deoarece una din variabile respecta distributia normala iar cealalta nu, vom folosi coeficientul de corelatie (de ranguri) Spearman.
Correlations varsta persoanei in ani Spearman's rho varsta Correlation 1.000 persoanei Coefficient in ani Sig. (2. tailed) N 31 milioane Correlation .498 lei Coefficient Sig. (2.004 tailed) N 31 ** Correlation is significant at the .01 level (2-tailed). milioane lei .498 .004 31 1.000 . 31
P=0,004< 0.01 deci exista o corelatie directa puernica. (la nivel de incredere de 99%)intre veniturile intre veniturile intervievatilor si virsta. Cu cit valoarea se apropie mai mult de unu cu atit legatura este mai puternica . REGRESIA Conceptul de regresie exprima o legatura de tip statistic si anume regresia in medie cu privire la comportamentul unor variabile(predictia variabilei dependente in functie de una sau mai multe variabile independente) si presupune -construirea corelogramei -norul de puncte (diagrama scatterplot) -aproximarea formei legaturii -estimarea parametrilor ecuatiei de regresie -testarea semnificatiei
Dorim sa estimam venitul obtinut in funvtie de virsta. Variabila dependenta -venitul Variabila independenta-virsta
Variables Entered/Removed Model Variables Variables Entered Removed 1 varsta . persoanei in ani a All requested variables entered. b Dependent Variable: milioane lei Model Summary Model R R Square Adjusted R Std. Error Square of the Method Enter
.494
.244
.218
Estimate 1.0704
a Predictors: (Constant), varsta persoanei in ani ANOVA Model 1Regression Residual Total Sum of Squares 10.706 33.230 43.935 df 1 29 30 Mean Square 10.706 1.146 F 9.343 Sig. .005
a Predictors: (Constant), varsta persoanei in ani b Dependent Variable: milioane lei Coefficients Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta 1 (Constant) -8.765E-02 .945 varsta 9.545E-02 .031 .494 persoanei in ani a Dependent Variable: milioane lei t -.093 3.057 Sig. .927 .005
ANOVA ONE WAY Pentru a vedea daca exsta diferente semnificative intre mediile veniturilor obtinute in functie de profesiile luate in analiza utilizam ANOVA ONE WAY , variabila dependenta fiind veniturile , iar cea independenta fiind profesia .
Descriptives milioane lei N Mean Std. Std. Error 95% Deviation Confidence Minimum Maximum
22 3 3 2 1 31
Interval for Mean Lower Bound 2.0159 1.8991 2.2324 3.0000 . 2.2980
Test of Homogeneity of Variances milioane lei Levene Statistic 2.917 df1 4 df2 26 Sig. .041
ANOVA milioane lei Sum of Squares 7.284 36.652 43.935 df 4 26 30 Mean Square 1.821 1.410 F 1.292 Sig. .299
Valoarea coeficientului de semnificatiede 0.299<0.05 indica faptul ca pe ansamblu exista diferente intre mediile veniturilor in functie de profesie. Gata
Variables Entered/Removed Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value -1.419 -1.470 -8.4326 -1.502 .045 .000 .002 1.771 .000 1.868 .006 10.9069 6.498E-02 1.957 .013 3.482 .968 .197 .039 .116 .032 .983 1.020 5.8597 1.038 1.047 .057 .035 31 31 31 31 31 31 31
32.7364 29.3674 27.0000 39.170 6.2586 22.00 43.00 21.00 11.0000 .534 -1.046 .421 .821
Putem spune cu o incredere de 99%ca virsta medie este intre 26.554 si 32.736