Sunteți pe pagina 1din 19

ANALIZA STATISTICA A OPINIILOR PRIVIND PREFERINTA PENTRU CANDIDATUL LA PRESEDENTIA ROMNIEI

Sisteme informatice de marketing Sarkany Szabolcs, Gr. 8101,An II 02.09.2012 CUPRINS 1. Introducere Definirea problemei Obiectivul proiectului 2. Construirea bazei de date Alegerea variabilelor analizate Definirea variabilelor si introducrea datelor in SPSS 3. Verificarea bazei de date Depistarea outlieri-lor Verificarea normalitatii distributiilor 4. Analiza statistica univariata a datelor 4.1. Descrierea statistica a variabilelor nominale 4.2. Descrierea statistica a varibilelor numerice 5. Analiza statistica bivariata a datelor 5.1 Analiza statistica a gradului de asociere intre doua variabile 5.2 Analiza de regresie si corelatie 5.3 Analiza dispersionala (ANOVA)

6. Estimarea si testarea statistica 6.1 Estimarea parametrilor prin interval de incredere 6.1.1 Estimarea prin interval de incredere a unei medii si a unei proportii 6.1.2 Estimarea prin interval de incredere a diferentei dintre doua medii si doua proportii 6.2 Testarea statistica 6.2.1 Testarea unei medii si a unei proportii 6.2.2 Testarea diferentei dintre doua medii si doua proportii

1. INTRODUCERE Am luat in analiza opiniile privind candidatii la presedentie datorita interesului crescut al populatiei fata de alegerile prezidentiale, percepute ca o posibilitate democratica de exprimare si participare la viata politica a tarii. Astfel am luat in analiza un esantion format din 31 de personae participante la cursurile postuniversitare ale scolii FIBAS specializarea Economie si Gestiune Financ 13413n139n iar Bancara, care si-au exprimat opinia privind preferinta pentru candidatul la presedentie. 2. Construirea bazei de date 2.1. 2.2. Alegerea variabilelor analizate Definirea variabilelor si introducrea datelor in SPSS

Orice analiza statistica a bazelor de date in SPSS incepe cu pregatirea setului de date. Acestea au fost obtinute din interpretarea chestionarelor completate de esantionul de 31 de persoane, participante la cursurile postuniversitare ale scolii FIBAS. Pentru analiza statistica urmarita, au fost luate in calcul urmatoarele variabile: Variabile nominale:

Profesia - economist, inginer, jurist, professor, altele; Candidatii la presedentie -T. Basescu, A. Nastase, I. Becali, altii.

Variabile numerice :

Venitul realizat - sub 3 mil lei, intre 3-5 milioane lei, intre 5-10 milioane lei, intre 10-20 milioane lei, peste 20 milioane lei.

Statistica descriptiva furnizeaza o serie de statistici referitoare la caracteristicile distributiei : 3. Verificarea bazei de date 3.1. 3.2. Depistarea outlieri-lor Verificarea normalitatii distributiilor

Pentru verificarea normalitatii distributiei se foloseste diagrama Q-Q Plot, care compara datele observate pe care ar trebui sa le avem daca distributia noastra ar urma perfect o distributie normala cu aceeasi medie si aceeasi abatere standard. Valorile observate si valorile separate sunt comparate pe un grafic unde pe abscisa sunt valorile observate pentru variabila aleasa, iar pe ordonata sunt valorile asteptate. Daca distributia variabilei alese ar fi normala atunci graficul ar trebui sa arate o tendinta liniara. Pentru variabila venituri rezulta o distributie normala conform graficului de mai jos.

4.

Analiza statistica univariata a datelor 4.1 Descrirea statistica a variabilelor nominale

PROFESIA
Frequency Valid economist inginer jurist profesor altele Total 22 3 3 2 1 31 Percent 71.0 9.7 9.7 6.5 3.2 100.0 Valid Percent 71.0 9.7 9.7 6.5 3.2 100.0 Cumulative Percent 71.0 80.6 90.3 96.8 100.0

In tabelul de mai sus observam urmatoarele :

Coloana frecventelor si a procentelor In esantionul ales :


profesia economist are frecventa 22 din 31, ceea ce reprezinta 71% din totalul persoanelor care au completat chestionarul ; profesia inginer are frecventa 3 din 31 reprezentand 9,7 %; profesia jurist are frecventa 3 din 31 reprezentand 9,7 %; profesia profesor are frecventa 2 din 31 reprezentand 6,5 %; alte profesii cu frecventa 1 din 31 reprezentand 3,2%. Coloana percent valid reprezinta procentul valid. Coloana Cumulative Percent reprezinta procentele cumulate ale categoriilor. 80,6% reprezinta procentajul acoperit de profesiile economist si inginer ; 90,3% reprezinta procentajul acoperit de profesiile economist, inginer si jurist ; 96,8% reprezinta procentajul acoperit de profesiile economist, inginer, jurist si profesor.

Mai jos se afla reprezentarea grafica distributiei celor cinci profesii.

CANDIDATI LA PRESEDENTIE
Frequency Valid basescu nastase becali altele Total 20 8 2 1 31 Percent 64.5 25.8 6.5 3.2 100.0 Valid Percent 64.5 25.8 6.5 3.2 100.0 Cumulative Percent 64.5 90.3 96.8 100.0

In tabelul de mai sus observam urmatoarele : Coloana frecventelor si a procentelor Din esantionul ales preferintele exprimate pentru candidatul la presedentie au fost:

T. Basescu are frecventa 20 din 31, ceea ce reprezinta 64,5% din total ; A. Nastase are frecventa 8 din 31 reprezentand 25,8 %; I. Becali are frecventa 2 din 31 reprezentand 3,2 %; Alti candidati au frecventa 1 din 31 reprezentand 3,2 %.

Coloana percent valid reprezinta procentul valid. Coloana Cumulative Percent reprezinta procentele cumulate ale categoriilor. 90,3% reprezinta procentajul acoperit de candidatii T. Basescu si A. Nastase; 96,8% reprezinta procentajul acoperit de candidatii T. Basescu, A. Nastase si I. Becali. Mai jos se afla reprezentarea grafica distributiei candidatilor la presedentie.

4.2. Descrierea statistica a variabilele numerice


N Mean Std. Error of Mean Median Mode Std. Deviation Skewness Std. Error of Skewness Kurtosis

Varsta persoanei in ani


Valid Missing 31 0 29.6452 1.1241 27.0000 35.00 6.2586 .534 .421 -1.046

Std. Error of Kurtosis Minimum Maximum

.821 22.00 43.00

Observam urmatoarele : Din cele 31 de inregistrari toate sunt valide ; Media celor 31 de inregistrari este de 29,645 ani ; Mediana este de 27 ani ; Valoarea mod indicata este 35 ani; Valoarea minima este de 22 ani ; Valorea maxima este de 43 ani ; Abaterea standard este de 6,258 ; Coeficientul de asimetrie Skewness este 0,534 indicand ca distributia este asimetrica la stanga, dupa cum se observa si din graficul de mai jos ; Coeficientul de boltire Kurtosis este -1,046 (<0) indicand faptul ca repartitia este platicurtica.

. 5. Analiza statistica bivariata a datelor 5.1. Analiza statistica variabile a gradului de asociere intre doua

Alegem o variabila nominala - canditatii la presedentie si o variabila numerica - venitul.

Reprezentarea grafica simultana a unei variabile nominale si a unei variabile numerice este folosita pentru prezentarea mediilor si abaterilor standard pe grupe. Ca diagrame sunt alese urmatoarele tipuri: histograme; Stem-and-Leaf Plots; Boxplot, reprezentate grafic mai jos.

candidat la presedintie = T. Basescu

Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= basescu Frequency 3.00 Stem & 1 . Leaf 000

4.00 8.00 4.00 1.00 Stem width: Each leaf:

2 . 3 . 4 . 5 . 1.00

0000 00000000 0000 0

1 case(s)

Se poate observa din prima histograma, ca persoanele care obtin venituri din categoria 3 (5-10 milioane lei), il prefera la presedentie pe dl. T. Basescu, cu o frecventa de 8.

candidat la presedintie = A. Nastase

Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= nastase Frequency Stem & Leaf

7.00 1.00 Stem width: Each leaf:

0 . 0 . 10.00

1111334 5

1 case(s)

Se poate observa din histograma, ca persoanele care obtin venituri din categoria 1 (sub 3 milioane lei), il prefera la presedentie pe dl. A. Nastase, cu o frecventa de 7.

candidat la presedintie = I. Becali

Stem-and-Leaf Plots
milioane lei Stem-and-Leaf Plot for PREFER.1= becali Frequency 1.00 1.00 Stem & 3 . 4 . Leaf 0 0

Stem width: Each leaf:

1.00 1 case(s)

Din analiza Boxplot a variabilelor venituri si preferinta pentru candidati la presedentie rezulta : - mediana pentru preferinta Basescu se afla in jurul valorii de 3 (5-10 mil lei), indicand ca persoanele cu venituri de mai sus il prefera la presedentie pe Basescu ; - mediana pentru preferinta Nastase se afla in jurul valorii de 2 (3-5 mil lei), indicand ca persoanele cu venituri de mai sus il prefera la presedentie pe Nastase;

Alegem doua variabile numerice venitul si varsta.

5.2 Analiza de regresie si corelatie Intr-o cercetare bazata pe analiza de corelatie si regresietrebuie rezolvate urmatoarele probleme : CORELATIA Analiza de corelatie este folosita pentru a studia intensitatea legaturii dintre variabile. Legaturile statistice ,in functie de tipul variabilelor pot exprima fie asocieri (cazul variabilelor nominale ) fie corelatii (cazul variabilelor numerice). In vederea efectuarii unei analize de corelatie se pot calcula trei coefienti de corelatie si anume: Pearson; Kendall; Spearman's precum si nivelurile de semnificatie corespunzatoare. Ne propunem sa analizam corelatia dintre urmatoarele variabile : profesia persoanelor intervievate si optiunile lor pentru candidatii la presedentie Identificarea existentei legaturii presupunere logica Deterninarea gradului de intensitate a legaturii -cu ajutorul indicatorilor parametrici si neparametrici Stabilirea sensului legaturi-metode de regresie

Coeficientul de corelatie PEARSON arata sensul relatiei dintre variabile -directa sau indirecta.

Correlations candidat la Profesia intrvievatilor presedintie 1.000 .048 . .797 31 31 .048 1.000 .797 . 31 31

candidat la presedintie Venitul realizat

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Deoarece coeficientul Pearson este de 0,048-pozitiv si rezulta existenta unei legaturi directe Nota : un coeficient de corelatie egal cu +1 indica o legatura directa perfecta, iar un coefficient de -1 indica o legatura inversa perfecta. Pentru a afla ce tip de corelatie putem face intre doua variabile numerice, verificam daca datele sunt distribuite normal. Acest lucru il facem cu ajutorul testului Kolmogorov-Smirnov, acest a comparand distributia variabilelor inregistrate cu distributii teoretice -normale.
One-Sample Kolmogorov-Smirnov Test milioane lei varsta persoanei in ani 31 31 2.7419 29.6452 1.2102 6.2586 .230 .212 .158 -.230 1.278 .076 .212 -.159 1.181 .123

N Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a Test distribution is Normal. b Calculated from data.

Mean Std. Deviation Absolute Positive Negative

Valoarea coeficientului de semnificatie de 0,076 (<0,1) arata ca exista o diferenta semnificativa intre distributia variabilei venit si distributia normala.

Valoarea de 0,123 arata ca distributia variabilei varsta persoanei, nu difera semnificativ de distributia normala. Deoarece una din variabile respecta distributia normala iar cealalta nu, vom folosi coeficientul de corelatie (de ranguri) Spearman.

Correlations varsta persoanei in ani Spearman's rho varsta Correlation 1.000 persoanei Coefficient in ani Sig. (2. tailed) N 31 milioane Correlation .498 lei Coefficient Sig. (2.004 tailed) N 31 ** Correlation is significant at the .01 level (2-tailed). milioane lei .498 .004 31 1.000 . 31

P=0,004< 0.01 deci exista o corelatie directa puernica. (la nivel de incredere de 99%)intre veniturile intre veniturile intervievatilor si virsta. Cu cit valoarea se apropie mai mult de unu cu atit legatura este mai puternica . REGRESIA Conceptul de regresie exprima o legatura de tip statistic si anume regresia in medie cu privire la comportamentul unor variabile(predictia variabilei dependente in functie de una sau mai multe variabile independente) si presupune -construirea corelogramei -norul de puncte (diagrama scatterplot) -aproximarea formei legaturii -estimarea parametrilor ecuatiei de regresie -testarea semnificatiei

Dorim sa estimam venitul obtinut in funvtie de virsta. Variabila dependenta -venitul Variabila independenta-virsta

Variables Entered/Removed Model Variables Variables Entered Removed 1 varsta . persoanei in ani a All requested variables entered. b Dependent Variable: milioane lei Model Summary Model R R Square Adjusted R Std. Error Square of the Method Enter

.494

.244

.218

Estimate 1.0704

a Predictors: (Constant), varsta persoanei in ani ANOVA Model 1Regression Residual Total Sum of Squares 10.706 33.230 43.935 df 1 29 30 Mean Square 10.706 1.146 F 9.343 Sig. .005

a Predictors: (Constant), varsta persoanei in ani b Dependent Variable: milioane lei Coefficients Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta 1 (Constant) -8.765E-02 .945 varsta 9.545E-02 .031 .494 persoanei in ani a Dependent Variable: milioane lei t -.093 3.057 Sig. .927 .005

ANOVA ONE WAY Pentru a vedea daca exsta diferente semnificative intre mediile veniturilor obtinute in functie de profesiile luate in analiza utilizam ANOVA ONE WAY , variabila dependenta fiind veniturile , iar cea independenta fiind profesia .
Descriptives milioane lei N Mean Std. Std. Error 95% Deviation Confidence Minimum Maximum

economist inginer jurist profesor altele Total

22 3 3 2 1 31

2.5909 3.3333 3.6667 3.0000 1.0000 2.7419

1.2968 .5774 .5774 .0000 . 1.2102

.2765 .3333 .3333 .0000 . .2174

Interval for Mean Lower Bound 2.0159 1.8991 2.2324 3.0000 . 2.2980

Upper Bound 3.1659 4.7676 5.1009 3.0000 . 3.1858

1.00 3.00 3.00 3.00 1.00 1.00

5.00 4.00 4.00 3.00 1.00 5.00

Test of Homogeneity of Variances milioane lei Levene Statistic 2.917 df1 4 df2 26 Sig. .041

ANOVA milioane lei Sum of Squares 7.284 36.652 43.935 df 4 26 30 Mean Square 1.821 1.410 F 1.292 Sig. .299

Between Groups Within Groups Total

Valoarea coeficientului de semnificatiede 0.299<0.05 indica faptul ca pe ansamblu exista diferente intre mediile veniturilor in functie de profesie. Gata
Variables Entered/Removed Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value -1.419 -1.470 -8.4326 -1.502 .045 .000 .002 1.771 .000 1.868 .006 10.9069 6.498E-02 1.957 .013 3.482 .968 .197 .039 .116 .032 .983 1.020 5.8597 1.038 1.047 .057 .035 31 31 31 31 31 31 31

a Dependent Variable: varsta persoanei in ani

ESTIMAREA SI TESTAREA STATISTICA ESTIMAREA PRIN INTERVAL DE INCREDERE A UNEI MEDII.


Descriptives Statistic Std. Error 29.6452 1.1241 Lower Bound Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis 26.5540

varsta persoanei in ani

Mean 99% Confidence Interval for Mean

32.7364 29.3674 27.0000 39.170 6.2586 22.00 43.00 21.00 11.0000 .534 -1.046 .421 .821

Putem spune cu o incredere de 99%ca virsta medie este intre 26.554 si 32.736

S-ar putea să vă placă și