Sunteți pe pagina 1din 37

Proiect SPSS

Alegei din Anuarul Statistic al Romniei sau din baza de date TEMPO online- serii de timp a I.N.S. de pe site www.insse.ro/ 2 variabile aflate ntr-o oarecare dependen una de alt, pentru toate cele 41 de judee (fr municipiul Bucureti). Folosind SPSS, introducei datele i analizai: 1. Indicatorii medii i ai variaiei pentru fiecare dintre cele dou variabile, folosind metode diferite de analiz; 2. Efectuai grafice specifice pentru cele 2 distribuii i pentru indicatorii calculai; 3. Efectuai o analiz bivariat a datelor selectate; 4. Analizai legtura dintre cele dou variabile i stabilii care este cel mai potrivit model de regresie. REZOLVARE Variabilele alese de mine sunt: Efectivul de psri pe judee i producia de ou pe judee. Cele mei utilizate ferestre n SPSS sunt: Data Editor, care se deschide automat (n partea de jos a acestei ferestre se regsesc ou foi de lucru Data View i Variable View), Syntax Editor i Output Viwer (n care regsim toate rezultatele obinute n urma analizei statistice. n Variable View se introduc informaii despre variabilele de analizat, n acest caz aceste variabile fiind urmtoarele: Nr_crt, Judeul, Efectiv_psri i Producia_ou_mil_buc. (fig.1). Am creat etichete pentru ultimele dou variabile.

Fig.1

Realizarea etichetelor. n fereastra Variable View, n coloana Label se poate realiza o descriere explicit a variabilei.

n fereastra Data Viewer introduc datele brute ce urmez a fi analizate.(fig.2)

1. Calculul indicatorilor medii i ai variaiei pentru fiecare dintre cele dou variabile, folosind metode diferite de analiz; Metoda I: Calculul indicatorilor tendinei centrale i ai variaiei pentru variabila
Efectiv_psri, folosind comanda: Analyse Descriptives Statistics Descriptives Fereastra Descriptives (fig.3) de unde alegem variabila pentru care dorim s calculam indicatorii Options fereastra Descriptives: Options de unde bifm indicatorii pe care dorim s-i analizm Continue OK. Indicatorii pe care i voi calcula sunt: Mean (media), Sum (suma tuturor observaiilor), Std.Deviation (abateria medie ptratic), Variance (dispersia), Range (amplitudinea absolut a variaiei), Minimum i Maximum (valoarea minim i maxim), Skewness (asimetria)(Fig.4).

Fig. 2

Fig. 3

Fig. 4

Rezultatul va fi prezentat n output. (Fig.5) Pentru a citi mai uor tabelul l-am modificat astfel nct statisticile s se prezinte pe rnduri, prin comanda: Click dreapta pe tabel Edit content In Separate Window fereastra Pivot Table Pivot Transpose Rows and Columns.

Fig. 5

Interpretare N =41 numrul judeelor cercetate este 41 Minimum= 338 699 - cel mai redus efectiv de psri obinut a fost de 338 699 psri (Covasna) Maximum=2 160 581 - cel mai mare efectiv de psri obinut a fost de 2 160 581 psri (Olt) Media=1265239,68 - n medie n fiecare din cele 41 de judee s-a obinut un efectiv de 1265239,68 de psri. Std. deviation= 451 543 - aproximativ 68% din judeele cercetate au realizat un efectiv de psri cuprins n internalul: [1265239,68 -451 543 ; 1265239,68 +451 543 ] Skewness= 0,56 - asimetrie pozitiv

Metoda II: Calculul indicatorilor tendinei centrale i ai variaiei pentru variabila


Producia_ou, folosind comanda: Analyse Descriptives Statistics Frecquencie (Fig.6) alegere variabil pentru care dorim s calculam indicatorii Statistics fereastra Frequencies: Statistics - bifam indicatorii Continue OK. (Fig.7)

Fig.6

Interpretare N = 41 numrul judeelor cercetate este 41. Minimum=46 cea mai redus producie de ou a fost de 46 mii ou (Covasna) Maximum=396 cea mai mare producie de ou a fost de 369 mii ou (Bihor) Media = 180 - n medie n fiecare din cele 41 de judee s-a obinut o producie de 180 mii ou Mediana=167 jumatate din judeele cercetate au realizat o producie sub 167 mii ou. Mode= 167 cele mai multe judee au nregistrat o producie de ou de 167 mii ou

Std. deviation =75 - aproximativ 68% din judeele cercetate au realizat o producie de ou cuprins n internalul [180 -75 ; 180 +75]. Skewnese= 1- serie perfect simetric, deoarece Me coincide cu Mo

Fig,7

Rezultatele vor sunt prezentate n Output.(Fig.8)

Fig.8

Metoda III: Analyse Reports - Case Summaries Summarize Case(Fig.8) alegere variabil Statistics fereastra Summariy Reports: Statistics indicatorii ce urmeaz a fi calculai pe care i trecem cu sgeata n Cell Statistics Continue OK(Fig.10).

Fig.9

Fig.10

Rezultatele vor fi prezentate n Output: (Fig.11)

Fig.11

2. Efectuai grafice specifice pentru cele 2 distribuii i pentru indicatorii calculai.


Pentru varibila Efectiv_psri HISTOGRAMA Histograma se poate obine prin mai multe modaliti. Pentru nceput este necesar construirea unor intervale, dar se poate realiza o histogram i srind peste aceast etap, dup cum va fi prezentat n decursul proiectului. Construirea intervalelor: Doresc s construiesc 4 sau 5 intervale egale, iar pentru acesta voi calcula amplitudinea: (Xmax-Xmin)/4= 455 470.5 500 000. intervalele vor fi: (0-500 000], (500 000-1 000 000], (1 000 000-1 500 000], (1 500 0002 000 000], (2 000 000-2 500 000]. Am sortat variabila prin comanda:Data Sort Cases variabila aleas ascending Recodificarea variabilelor: prin comanda: Transform Recode into Different Variables(Fig.12) selectare variabil pe care o recodificm o denumim n caseta Name Change Old and New Values - se introduc datele Continue Ok, dup care se reia operaiunea de introducere a noilor date. (Fig.13).

Pentru a vedea intervalele n Data View introducem comanda:Variabile View click pe value - introducem aceleai valori ca mai sus. (Fig.14)

Fig,12

Fig.13

Construire Histogram: pentru distribuie Metoda I: Graphs Legacy Dialogs Histogram selectare variabil pe care o trecem n caseta Variable.(Fig,15). Graficul va fi prezentat n Fig.16.

Fig.15

Fig.16

Metoda II: Graphs Legacy Dialogs Interactiv Histogram se trage pe axa X variabila pentru care dorim s realizm Histograma OK.

Metoda III: Analyse Descriptive Statistic Frequencies variabila pt care se va construi graficul Charts Histogram. Dac dorim s vedem cum evolueaz efectivul de psri de la un jude la altul putem construi graficul LINE, dup cum urmeaz: Graph - Legacy Dialogs Line (Fig 17) selectm Value of individual cases - Define(Fig 18) variabila pt care facem graficul o ducem n Line Represents, iar Judeul n Variable OK (Fig.19).

Fig. 17

Fig.18

Fig.19. Graficul va fi afiat n output, astfel (fig.20)

Fig.20

Diagrama Boxplot

Pentru reprezentarea grafic a indicatorilor calculai voi utiliza diagrama Boxplot Metoda I: Graph - Legacy Dialogs Boxplot (Fig.17)- Summaries of Separate Variables (Fig. 18) Define Simple Boxplot - alegere variabila pt care dorim s construim i o mutm n Boxes Represent OK.(Fig. 18)

Fig.21

Fig.22

Maximum fr outlier

Quartila 3

Mediana

Quarila 1

Minimum far outlier

Fig.23

Metoda II: Analyse Descriptive Statistic Explore -se alege variabila care se trece n Dependent List Plots Explore:Plots se bifeaz opiunea Factor levers together Continue OK. Interpretare: Distribuia seriei dup efectivul de psri este omogen cu o uoar asimetrie. Pentru variabila Producia_ou HISTOGRAMA. Pentru a nu mai fi necesar gruparea variabilelor, exist o alt metod de realizare a histogramei utiliznd comanda: Graphs - Legacy Dialogs Interactive Histogram (Fig.24) se deschide fereastra Create Histogram unde ducem variabila dorita pe axa X (Fig 25) Histogram se bifeaz Normal curve se debifeaz Set interval size automatically se bifeaz Width of intervals, unde notm valoarea dorit OK (Fig.26). Histograma va fi prezentat n output (Fig.27).

Fig.24

Fig.25

Fig.26

Fig. 27

Dac dorim s vedem cum evolueaz producia de ou de la un jude la altul putem construi graficul LINE, dup cum urmeaz: Graphs - Legacy Dialogs Line (Fig 28) selectm Value of individual cases - Define(Fig 29) variabila pt care facem graficul o ducem n Line Represents, iar Judeul n Variable OK (Fig.30).

Fig.28

Fig.29

Fig.30

Diagrama Boxplot Pentru reprezentarea grafic a indicatorilor calculai voi utiliza diagrama Boxplot folosind urmtoarea comand: Analyse Descriptive Statistic Explore (Fig.31) -se alege variabila care se trece n Dependent List Plots Explore:Plots se bifeaz opiunea Factor levers together Continue OK.(Fig.32)

Fig.31

Fig.32

Rezultatul este prezentat n output, astfel (Fig.33)

Maximum

Quartila 3

Mediana

Quarila 1 Minimum

Fig.33

3. Efectuai o analiz bivariat a datelor selectate.


Calculul indicatorilor tendinei centrale i a variaiei unei distribuii bivariate presupune parcurgerea unor pai, i anume: 1.Construirea tabelului de asociere sau contingen. naintea construirii tabelului de asociere trebuie realizat recodificarea variabilelor. Deoarece variabila Efectiv_psri a fost recodificat mai sus, voi prezenta recodificarea variabilei Producia_ou, astfel: Transform Recode into Different Variables(Fig.33) selectare variabil pe care o recodificm o denumim n caseta Name Change- Old and New Values - se introduc datele Continue Ok, dup care se reia operaiunea de introducere a noilor date. (Fig.34).

Fig.33

Fig.34

Costruirea tabelului de asociere se realizeaz prin comanda: Analyse Descriptive Statistics Crosstab(Fig.35) selectm variabilele i trecem pe Row(s) independenta iar pe Column(s) dependenta OK.

Fig.35

Fig.36

Tabelul de asocierea va fi prezentat n out put, (Fig.37)

Fig.37

Calculez indicatorii medii i ai variaiei, astfel: Analyse Reports Case Summarize (fig.38) fereastra Summarize Case selectare variabile i trecerea lor n caseta Variable(s), respectiv Grouping Variables Statistics fereastra Summary Reports: Statistics selectam indicatorii dorii i i trecem n caseta Cell Statistics Continue ok. (Fig.39)

Fig.38

Fig.39

Calculul indicatorilor se afieaz n output (Fig.40)

Fig.40

Interpretare: N = 41 pe total Din cele 41 de judee cercetate opt dein un efectiv de psri ntre 1 500 001 - 2 000 000 Mean = 178,54 pe total producia medie de ou n judeele cercetate a fost de 178,54 mii ou, n timp ce producia medie de ou la un efectiv de psri cuprins ntre 500 001 i 1000000 a fost de 102,22 mii ou. Median = 200 pe total jumtate din judeele studiate realizat o producie de ou de sub 120 mii ou, n timp ce jumtate din judeele care deineau un efectiv de psri cuprins ntre 1500001 i 2000000 au nregistrat o producie de 280 de mii de ou. Std. Deviation = 82,023 pe total aproximativ 68% din judeele cercetate au obinut o producie de ou de cuprins ntr-un interval egal cu media plus sau minus valoarea abaterii medii ptratice , respectiv178,54 +/-82,023 mii ou, n timp ce 68% din judeele studiate cu un efectiv de psri cuprins ntre 2000001 i 2500000 au obinut o producie de ou cuprins n intervalul 240+/-56,569 mii ou. Calculul covarianei Covariana unei distribuii bivariate se realizeaz executnd comanda: Analyse Corelate Bivariate (Fig.41) fereastra Bivariate Corelations alegem variabilele pe care le trecem n caseta Variable(s) Options fereastra Bivariate Corelations: Options Cross-product deviations and covariance Continue OK. (Fig. 43)

Fig. 41

Fig.42

Fig.43

Rezultatele obinute n output sunt prezentate n Fig.43 Interpretare: Pearson Correlation = 0,875 -exist o legtur durect i puternic ntre cele dou variabile la un nivel de risc de 0,00 conform Sig.(2-tailed) Covariance = 27238036,545 exist o legtura pozitiv ntre variabile. Calculul indicatorilor folosind ANOVA Prin ANOVA se realizeaz calulul dispersiei de grup i dintre grupe e unei distribuii bivariate, prin comanda: Analyse Compare Means One-Way ANOVA (Fig.44) fereastra One-Way ANOVA alegem variabilele pe care dorim s le calculm i le trecem n caseta Dependent List (variabila dependent) i n caseta Factor (variabila independent) Options - fereastra One-Way ANOVA: Options se bifeaz Descriptive i Means Plot - Continue OK.(Fig. 45)

Fig.44

Rezultatele sunt prezentate n Fig. 46. Graficul care reprezint media variabilei dependente n funcie de valorile variabilei independente este reprezentat n (Fig. 47)

Fig. 45

Fig. 46

Fig. 46

Interpretare: tabelul Descriptive ofer informaii privind indicatorii tendinei cenntrale i disperisei pentru o distribuie bivariat (prezint aproximativ aceleai informaii obinute n Fig.40, n tabelul Cse Summaries ) n tabelul ANOVA sunt prezentare rezultatele analizei de variaie: Sum of Squares Between Groups (suma ptratelor abaterilor ntre grupe) = 197876,640 plecnd de aici se se poate calcula dispersia i abateria medie ptratic ntre grupe. - Dispersia ntre grupe se calculeaz mprind Sum of Squares Between Groups la numrul total al judeelor, 197876,640 / 41 = 4826,26. - Abaterea medie ptratic ntre grupe se afl scotnd radicalul din dispersia ntre grupe: 4826,26 =69,47. Sum of Squares Within Groups (suma ptratelor abaterilor de grup) = 71235,556 plecnd de la acest valoarese poate calcula: - Dispersia de grup se calculeaz mprind Sum of Squares Within Groups la numrul total al judeelor cercetate: 71235,556 / 41 = 1737,45. - Abaterea medie ptratic de grup se afl scotnd radicalul din dispersia de grup= 41,68

Sum of Squares Total (suma ptratelor abaterilor colectivitii) = 269112,195, plecnd de la acest valoare se poate calcula : - Dispersia pe total prin imprirea Sum of Squares Total la numrul total al judeelor studiate = 6563,71. - Abaterea medie ptraticpe total prin scoaterea de radical din dispersie = 81,02. F= 25 Pentru o probabilitate de garantare a rezultatelor de 99,9% valoarea tabelat F pentru 4, respectiv 36 grade de libertate i un nivel de semnificaie de 1-0,999 = 0,001 este de 5,70. Fc > F 4 ; 36; 0,001 - 25 > 5,70 -> Efectivul de psri are o influen semnificativ asupra produciei de ou.

4. Analizai legatura dintre cele dou variabile i stabilii care este cel mai potrivit model de regresie
Analiza Corelaiei Metoda corelaiei stabilete ct de intens este legtura dintre cele dou variabile incluse n modelul de regresie. n cazul de fa este vorba despre o corelaie bivariat, n SPSS putndu-se calcula trei coeficieni de corelaie : Pearson, Kendall i Spearman, precum i niveluri de semnificaie corespunztoare unui test bilateral sau unilateral. Comanda care se efectueaz este: Analyse Correlate Bivariate (Fig, 47) fereastra Bivariate Correlations, unde se execut operaiile: - alegerea variabilelor pentru care se calculeaz corelaia i trecerea lor n Variable(s) - n caseta Correlation Coefficients bifm coeficientul de corelaie (Pearson, Kendall sau Spearman); - n caseta Test of Significance bifm opiunea Two-tailed sau One-tailed; - n caseta de validare Flag significant correlations este activat implicit i are ca efect marcarea corelaiilor semnificative - se activeaz Options ferestra Bivariate Correlations:Options selectm opiunile dorite din casetele Statistics (Means and Standard Deviations) i Missing Values (Exclude cases pairwise) Continue OK. (Fig, 48). n tabelul Correlations este prezentat matricea coeficienilor de corelaie, care se va citi pe diagonal. (Fig. 49) Interpretare Coeficienii corelaiei egali cu 1 reprezint corelaia fiecrei variabile cu ea nsi: Coeficientul de corelaie Pearson este egal cu 0,803 ceea ce nseamn c ntre variabile exist o corelaie direct i puternic. Testarea semnificaiei coeficientului de corelaie se realiyeaz cu testul t. Valoarea Sig. (2-tailed) este egal cu 0,000, mai mic dect 0,001, ceeea ce nseamn c sunt anse mai mici de 1% de a grei dac afirmm c ntre cele 2 variabile exist o corelaie semnificativ. Am optat s calculez toi indicatorii de corelaie, coeficienii Spearman i Kendall fiind prezentai n Fig. 50. Ambii coeficieni Spearman(821) i Kendall (649)arat o corelaie pozitiv i strns. De obicei coeficientul Kendall este mai mic dect Spearman.

Fig. 47

Fig. 48

Fig. 49

Fig.50

Analiza regresiei Pai: Construirea corelogramei (nor de puncte) presupune construirea diagramei Scatterplot prin comanda: Graph Legacy Dialogs Interactive Scatterplot (Fig.51) fereastra Scatterplot n care se mut pe axa abciselor independenta iar pe ordonat dependenta (Fig.52), n pagina Fit se alege Regression(Fig.53), iar n pagina Spikes se bifeaz Fit Line(Fig.54) OK.

Fig.51

Fig.52

Fig.53

Fig.54

Diagrama Scatterplot ne arat o legtur linear, puternica i direct. (Fig.55)

Fig.55

Aproximarea formei legturii printr-un model de regresie se poate face fie prin metode grafice (Scatterplot), fie prin metode tabelare. Prin diagrama Scatterplot a rezultat c raportul de determinaie (R Sq Linear) ia o valoare de 0,644(producia de ou este influenat de efectivul de psri n proporie de 64,4%), iar prin calculul raportului de corelaie (scond radicalul din R Sq Linear) rezult valoarea de 0,802, ceea ce confirm c ntre aceste variabile exist o legtur liniar direct i strns. Alegerea celui mai bun model de regresie presupune aproximarea modelului de regresie prin metode tabelare, executnd comanda: Analyse Regression Curve Estimation (Fig.56) fereastra Curve Estimation unde se efectueaz comenzile: - trecem variabila dependent n caseta Dependent(s) iar pe cea independent n Independent Variable - n caseta Models bifm tipul de model pentru care dorim sa calculm ecuaia de regresie; - se bifeaz Include constant in equation i Plot models - se d OK (Fig.57)

Fig.56

Fig.57

Rezultatele sunt prezentate n output (Fig.58, 59, 60)

Fig.58

Fig.59

Fig.60

Se observ c n tabelul Model Summary and Parameter Estimates pentru fiecare model de regresie gsi n Model Summary raportul de determinaie (R square) i testarea acestuia cu testul F, iar n Parameter Estimates coeficienii ecuaiei de regresie. Pe baza R square se va decide care este cel mai bun model de regresie. Cu ct valoarea acestuia se apropie de 1 cu att acel model de regresie este mai potrivit. n cazul meu R square cel mai mare este de 0,802 i corespunde funciei putere, urmat de funcia exponenial (0,705), funcia de gradul 3 (0,666), funcia de gradul 2 (0,658), funcia liniara (0,644) i funcia logaritmic (0,639)