Documente Academic
Documente Profesional
Documente Cultură
: Alexandru-Cosmin Apostol
Introducere în programe de analiză a datelor Facultatea de Filosofie și Științe Social-Politice
cantitative – An universitar: 2019/ 2020 – Semestrul II Universitatea „Alexandru Ioan Cuza” din Iași
APLICAȚIE PRACTICĂ
DATA-SPLIT FILE – Baza de date VOTER.SAV:
Dorim să vedem dacă există diferențe în privința opțiunilor electorale între bărbați
și femei. Astfel, variabilele de interes pentru efectuarea analizei descriptive sunt:
sex – variabila după care vom structura/ „splita” baza de date,
categoriile definite (values) fiind 1. Male; 2 Female
pres92 – variabila unde sunt conținute opțiunile de vot pe cei trei
candidați cuprinși în sondaj. În baza de date, valorile (values) acordate
pentru categorii sunt: 1. Bush; 2. Perott; 3. Clinton.
Observație: Pentru a putea vizualiza valorile (prezente în coloana values), se lucrează în fereastra
Variable view. Numărul total de variabile definite în întreaga bază de date este de 6, iar sex și
pres92 sunt plasate pe pozițiile 1 și 6.
Odată identificate cele două variabile, se generează comanda DATA (din bara de
meniu) – SPLIT FILE, după cum a fost menționat în pagina anterioară. În cele ce
urmează, se va deschide următoarea fereastră:
În partea stângă aveți variabilele predefinite, iar în partea dreaptă aveți bifat
Analyze all cases, do not create groups. În acest moment, calculele realizate sunt
pentru întreaga baza de date, însă dorim divizarea acesteia după variabile sex.
Așadar, este necesar să fie bifat Compare groups. De altfel, cele două bife sunt
singurele cu care vom lucra în analizele pe care le vom efectua de acum înainte.
Apoi, vom muta variabila respondents sex (sex) în secțiunea Groups based on și
vom apăsa în final butonul OK:
Odată apăsat butonul OK, se va deschide o fereastră de tip OUTPUT, unde suntem
anunțați că a fost declanșată comanda/ funcția de splitare/ filtrare a bazei de
date. Fereastra va fi minimizată, deoarece conține doar o informare.
De asemenea, în partea din dreapta jos a bazei de date, suntem anunțați că
funcția este activă (Split by sex). Așadar, de aici înainte, toate operațiunile vor fi
efectuate doar pe cele două subcategorii de subiecți și NU pe întreaga bază de
date (categoriile sunt: 1.Male; 2 Female)
Revenind la cerința aplicației, putem vedea dacă există diferențe privind opțiunile
de vot (variabila pres92) – exprimate în procentaje, între bărbați și femei, pornind
de la comanda ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES:
După accesarea comenzii, vom lucra în fereastră ilustrată mai jos, având grijă să
mutăm variabila supusă analizei descriptive – pres92 (VOTE FOR CLINTON, B...), din
partea stângă în partea dreaptă. De asemenea, se observă că funcția DISPLAY
FREQUENCY TABLES este deja bifată (de altfel, nu vom debifa niciodată această
opțiune). În final, pentru a putea realiza analiza asupra diferențelor dintre
procentaje, vom apăsa butonul OK:
OBSERVAȚIE: Pentru a vedea dacă există diferențe între opțiunile de vot exprimate
de bărbați și femei, întotdeauna vom compara procentajele sau frecvențele
relative (ATENȚIE! Nu se vor compara frecvențele absolute).
APLICAȚIE PRACTICĂ 1
DATA-SELECT CASES – Baza de date VOTER.SAV:
Din textul cerinței, se observă faptul că este necesară aplicarea unei condiții de
selecție, astfel încât să procesăm datele doar pentru femei, excluzând cazurile de
subiecți bărbați.
În fereastra următoare, vom muta din stânga în dreapta variabila sex, vom apăsa
butonul „=” din minicalculator și vom trece valoarea 2, corespunzătoare femeilor
respondente.
Mențiune: De altfel, pentru a vedea ce cifră/ număr este alocat categoriei de respondenți femei,
putem intra în secțiunea Variable view a SPSS-ului și ne vom uita la Values, în dreptul variabilei Sex.
După ce ne asigurăm că am parcurs acești pași, apăsăm butonul Continue și apoi
butonul OK din fereastra anterioară, prezentată o pagină mai sus:
În partea din dreapta jos a ecranului din baza de date, apare mențiunea Filter on,
fapt care sugerează că funcția a fost declanșată. Totodată, intrând în secțiunea
DATA VIEW, vom vedea că în dreptul numerelor de ordine corespunzătoare datelor
oferite de bărbați, apare o linie diagonală, fapt ce indică excluderea acestor cazuri
din calculele următoare:
De acum înainte, toate calculele vor fi efectuate doar pentru respondenții de gen
feminin.
Pentru a calcula principalele mărimi statistice pentru variabila age, vom genera
comanda ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES.
Singura variabilă pe care o vom muta din stânga în dreapta este variabila age (age
of respondent).
Atenție! A nu se face confuzia cu variabila agecat, fiind o variabilă categorială,
care împarte respondenții pe mai multe categorii de vârstă.
Apoi, vom accesa butonul Statistics și vom selecta parametrii statistici pe care
dorim să îi măsurăm, după cum este ilustrat în următorul print screen, iar în final
vom apăsa butonul Continue:
Apoi, se va genera un OUTPUT, unde ne vom opri asupra analizei tabelului următor:
Statistics
AGE OF RESPONDENT
N Valid 1043
Missing 0
Mean 48,09
Std. Error of Mean ,525
Median 45,00
Mode 38
Std. Deviation 16,941
Variance 286,998
Skewness ,551
Std. Error of Skewness ,076
Kurtosis -,591
Std. Error of Kurtosis ,151
Range 67
Minimum 22
Maximum 89
Sum 50158
Percentiles 25 35,00
50 45,00
75 60,00
Din analiza principalelor mărimi statistice, putem trasa următoarele concluzii:
Există un număr valid de cazuri de 1043 (N Valid). Așadar, la acest sondaj au
participat un număr de 1043 de femei. Nu există niciun caz/ nicio situație în
care vreo respondentă să nu își fi declarat vârsta (N Missing 0)
Vârsta medie a femeilor respondente (Mean) este de 48,09 ani.
Vârsta femeii care împarte seria statistică în două părți egale (Median) este de
45 de ani.
Cea mai des întâlnită vârstă (Mode) este de 38 de ani.
Amplitudinea vârstelor (Range) este de 67 de ani, ca rezultat al diferenței
dintre vârsta maximă declarată (Maximum 89 de ani) și vârsta minimă (Minimum
22).
Suma totală a vârstelor (Sum) declarate de respondente este de 50158 ani.
Eroarea standard a mediei (Std. Error of Mean) este de 0,525, iar deviația
standard (Std. Deviation) este egală cu 16,941. Varianța (Variance) se obține
prin ridicarea la pătrat a deviaței standard și este de 286,998.
Indicatorii de distribuție – Skewness și Kurtosis se încadrează în limitele normale
(Intervalul – [-1,96; 1,96]). Valoarea lui Sk=0,551, arată că avem o asimetrie la
dreaptă, iar valoarea lui K= -0,591 arată că distribuția valorilor este sub curba
normală.
Percentiles: Până în 25% dintre subiecți au până în 35 de ani, Până în 50% dintre
subiecți au până în 45 de ani, până în 75% dintre subiecți au până în 60 de ani.
APLICAȚIE PRACTICĂ 2
DATA-SELECT CASES – Baza de date VOTER.SAV:
Cerință: Analizați distribuția voturilor pe cei trei candidați (variabila pres92), doar
pentru subiecții care au peste 50 de ani (variabila age).
Se urmează pașii:
Se generează comanda DATA-SELECT CASES (deja detaliată în paginile
anterioare);
Se bifează If condition is satisfied;
În fereastra următoare, variabila age (age of respondent) este mutată din
stânga în dreapta, se selectează semnul „>” și se trece valoarea 50. Apoi,
sunt accesate butoanele Continue și, ulterior, OK: