Tutorat Online Partea 1: 1. Comanda Split File

Seminar: Asist. univ. dr. asoc.
: Alexandru-Cosmin Apostol
Introducere în programe de analiză a datelor Facultatea de Filosofie și Științe Social-Politice
cantitative – An universitar: 2019/ 2020 – Semestrul II Universitatea „Alexandru Ioan Cuza” din Iași
TUTORAT ONLINE Partea 1
1. COMANDA SPLIT FILE
 În SPSS se pot realiza analize statistice pe diverse grupuri/ subgrupuri de

subiecți, pornind de la o variabilă, utilizând comanda DATA-SPLIT FILE:
 Prin intermediul acestei comenzi, avem posibilitatea să împărțim o bază

de date după o variabilă pe care o prestabilim drept criteriu de
structurare (spre exemplu: gen, categorie de vârstă, nivel educațional,
statut matrimonial, religie, apartanență etnică, profesie ș.a.) și să
observăm dacă există diferențe între rezultatele/ frecvențele obținute în
rândul grupurilor/ subgrupurilor generate.
Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Pagina 1
Seminar: Asist. univ. dr. asoc.: Alexandru-Cosmin Apostol
APLICAȚIE PRACTICĂ
DATA-SPLIT FILE – Baza de date VOTER.SAV:
Dorim să vedem dacă există diferențe în privința opțiunilor electorale între bărbați
și femei. Astfel, variabilele de interes pentru efectuarea analizei descriptive sunt:
 sex – variabila după care vom structura/ „splita” baza de date,
categoriile definite (values) fiind 1. Male; 2 Female
 pres92 – variabila unde sunt conținute opțiunile de vot pe cei trei
candidați cuprinși în sondaj. În baza de date, valorile (values) acordate
pentru categorii sunt: 1. Bush; 2. Perott; 3. Clinton.
Observație: Pentru a putea vizualiza valorile (prezente în coloana values), se lucrează în fereastra
Variable view. Numărul total de variabile definite în întreaga bază de date este de 6, iar sex și
pres92 sunt plasate pe pozițiile 1 și 6.
Odată identificate cele două variabile, se generează comanda DATA (din bara de
meniu) – SPLIT FILE, după cum a fost menționat în pagina anterioară. În cele ce
urmează, se va deschide următoarea fereastră:

Pagina 2
În partea stângă aveți variabilele predefinite, iar în partea dreaptă aveți bifat
Analyze all cases, do not create groups. În acest moment, calculele realizate sunt
pentru întreaga baza de date, însă dorim divizarea acesteia după variabile sex.
Așadar, este necesar să fie bifat Compare groups. De altfel, cele două bife sunt
singurele cu care vom lucra în analizele pe care le vom efectua de acum înainte.
Apoi, vom muta variabila respondents sex (sex) în secțiunea Groups based on și
vom apăsa în final butonul OK:
Odată apăsat butonul OK, se va deschide o fereastră de tip OUTPUT, unde suntem
anunțați că a fost declanșată comanda/ funcția de splitare/ filtrare a bazei de
date. Fereastra va fi minimizată, deoarece conține doar o informare.
De asemenea, în partea din dreapta jos a bazei de date, suntem anunțați că
funcția este activă (Split by sex). Așadar, de aici înainte, toate operațiunile vor fi
efectuate doar pe cele două subcategorii de subiecți și NU pe întreaga bază de
date (categoriile sunt: 1.Male; 2 Female)

Pagina 3
Revenind la cerința aplicației, putem vedea dacă există diferențe privind opțiunile
de vot (variabila pres92) – exprimate în procentaje, între bărbați și femei, pornind
de la comanda ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES:
După accesarea comenzii, vom lucra în fereastră ilustrată mai jos, având grijă să
mutăm variabila supusă analizei descriptive – pres92 (VOTE FOR CLINTON, B...), din
partea stângă în partea dreaptă. De asemenea, se observă că funcția DISPLAY
FREQUENCY TABLES este deja bifată (de altfel, nu vom debifa niciodată această
opțiune). În final, pentru a putea realiza analiza asupra diferențelor dintre
procentaje, vom apăsa butonul OK:

Pagina 4
În fereastra output declanșată, vom obține următoarele tabele de analiză:
Primul tabel, de mici dimensiuni, conține informații referitoare la numărul de

cazuri valide (N) și numărul de cazuri lipsă (Missing). Din analiza acestui tabel,
concluzionăm că nu sunt bărbați sau femei care nu și-au exprimat opinia/ opțiunea
de vot, dat fiind faptul că în rândul ambelor subcategorii de populație structurate
după variabila sex, numărul de valori lipsă (missing) declarat este 0. Totodată, au
fost colectate răspunsuri din partea a 804 bărbați, respectiv din partea a 1043
femei, valori raportate în dreptul secțiunii VALID.
Al doilea tabel, cuprinde o analiză descriptivă a opțiunilor de vot, fiind structurată

pe cele două subcategorii de populație.
În a doua coloană, sunt trecute categoriile de răspunsuri, aferente celor trei
candidați măsurați.
În a treia coloană sunt trecute frecvențele absolute (spre exemplu, 315 bărbați au
menționat că l-ar vota pe Bush, în timp ce 346 de femei și-au declarat susținerea
pentru același candidat).
În a patra coloană, sunt trecute frecvențele relative – procentajele (exemplu de
citire, 18,9% dintre bărbații chestionați l-ar vota pe Perot, în timp ce 12,1% dintre
femei au declarat că și-ar îndrepta votul spre același candidat).

Pagina 5
În a cincea coloană sunt cuprinse procentajele valide. Însă, cum nu există

declarate valori lipsă – missing, automat procentajele din această coloană (Valid
percent) sunt egală cu valorile din coloana precedentă (Percent). În situația în care
am fi avut valori lipsă (missing), datele din coloana Valid percent ar fi fost ajustate
– calculate proporțional cu numărul VALID de cazuri, fiind excluse missing-urile. De
asemenea, tot în situația în care am fi avut valori lipsă, în coloana Percent ar fi
apărut și procentajele alocate categoriilor raportate ca missing.
Ultima coloană (CUMULATIVE PERCENT) este dedicată frecvențelor relative
cumulate, care sunt obținute prin adunarea succesivă pe diagonală, de sus în jos, a
procentajelor din coloana Valid percent.
OBSERVAȚIE: Pentru a vedea dacă există diferențe între opțiunile de vot exprimate
de bărbați și femei, întotdeauna vom compara procentajele sau frecvențele
relative (ATENȚIE! Nu se vor compara frecvențele absolute).
Din analiza descriptivă a acestui tabel, rezultă următoarele informații:

 Candidatul Bush ar obține 39,2% din voturile bărbaților, respectiv 33,2%
din voturile femeilor. Așadar, rezultă o diferență procentuală de 6%.
 Candidatul Perot este preferat de 18,9% dintre bărbați și 12,1% dintre
femei, diferența fiind 7,8%.
 Candidatul Clinton ar întruni voturile a 41,9% dintre subiecții bărbați,
respectiv 54,7% dintre femei, diferența fiind de 12,8%.
Aceste diferențe indică doar câteva tendințe referitoare la opțiuni: bărbații tind să
îi prefere într-o măsură mai ridicată pe Bush și Perot, în timp ce femeile și-ar
îndrepta mai curând voturile spre Clinton.
În această etapă, nu putem formula o concluzie care să evoce faptul că există

Pagina 6
diferențe semnificative din punct de vedere statistic între opțiuni, în funcție de

genul respondenților. Aceste diferențe semnificative din punct de vedere statistic
pot fi confirmate sau infirmate prin intermediul testelor de asociere dintre
variabile, aspect ce va fi studiat într-un viitor material de tutorat.
IMPORTANT: În final, după efectuarea analizei pe cele două subgrupuri de

populație (bărbați și femei), putem reveni la analiza pe întreaga baza de date,
dezactivând funcția Split file. Așadar, vom reveni la comanda DATA-SPLIT FILE și
vom bifa Analyze all cases, do not create groups:

Pagina 7
2. COMANDA SELECT CASES
 În bazele de date SPSS, avem posibilitatea de a selecta doar anumite

cazuri/ situații pentru a efectua diverse analize statistice, utilizând
comanda: DATA-SELECT CASES:
 Comanda permite doar selectarea unei categorii de subiecți, prin

punerea unei condiții de selecție (IF), fiind excluse celelalte categorii.

Pagina 8
APLICAȚIE PRACTICĂ 1
DATA-SELECT CASES – Baza de date VOTER.SAV:
Cerință: Calculați principalele mărimi statistici pentru variabila cantitativă age,

doar în rândul femeilor (variabila sex).
Din textul cerinței, se observă faptul că este necesară aplicarea unei condiții de
selecție, astfel încât să procesăm datele doar pentru femei, excluzând cazurile de
subiecți bărbați.
După ce accesăm comanda DATA – SELECT CASES (prezentată în pagina

precedentă), se va genera o fereastră, unde este bifat Select cases. Însă, pentru a
declanșa condiție de selecție, vom bifa If condition is satisfied și se va observa cum
butonul If... este deblocat. Apoi, se va accesa butonul If...

Pagina 9
În fereastra următoare, vom muta din stânga în dreapta variabila sex, vom apăsa
butonul „=” din minicalculator și vom trece valoarea 2, corespunzătoare femeilor
respondente.
Mențiune: De altfel, pentru a vedea ce cifră/ număr este alocat categoriei de respondenți femei,
putem intra în secțiunea Variable view a SPSS-ului și ne vom uita la Values, în dreptul variabilei Sex.
După ce ne asigurăm că am parcurs acești pași, apăsăm butonul Continue și apoi
butonul OK din fereastra anterioară, prezentată o pagină mai sus:
În partea din dreapta jos a ecranului din baza de date, apare mențiunea Filter on,
fapt care sugerează că funcția a fost declanșată. Totodată, intrând în secțiunea
DATA VIEW, vom vedea că în dreptul numerelor de ordine corespunzătoare datelor
oferite de bărbați, apare o linie diagonală, fapt ce indică excluderea acestor cazuri
din calculele următoare:

Pagina 10
De acum înainte, toate calculele vor fi efectuate doar pentru respondenții de gen
feminin.
Pentru a calcula principalele mărimi statistice pentru variabila age, vom genera
comanda ANALYZE – DESCRIPTIVE STATISTICS – FREQUENCIES.
Singura variabilă pe care o vom muta din stânga în dreapta este variabila age (age
of respondent).
Atenție! A nu se face confuzia cu variabila agecat, fiind o variabilă categorială,
care împarte respondenții pe mai multe categorii de vârstă.
Apoi, vom accesa butonul Statistics și vom selecta parametrii statistici pe care
dorim să îi măsurăm, după cum este ilustrat în următorul print screen, iar în final
vom apăsa butonul Continue:
Mențiune: Toți indicatorii au fost selectați luând în considerare faptul că variabila

age este o variabilă cantitativă.

Pagina 11
Apoi, se va genera un OUTPUT, unde ne vom opri asupra analizei tabelului următor:
Statistics
AGE OF RESPONDENT
N Valid 1043
Missing 0
Mean 48,09
Std. Error of Mean ,525
Median 45,00
Mode 38
Std. Deviation 16,941
Variance 286,998
Skewness ,551
Std. Error of Skewness ,076
Kurtosis -,591
Std. Error of Kurtosis ,151
Range 67
Minimum 22
Maximum 89
Sum 50158
Percentiles 25 35,00
50 45,00
75 60,00
Din analiza principalelor mărimi statistice, putem trasa următoarele concluzii:
 Există un număr valid de cazuri de 1043 (N Valid). Așadar, la acest sondaj au
participat un număr de 1043 de femei. Nu există niciun caz/ nicio situație în
care vreo respondentă să nu își fi declarat vârsta (N Missing 0)
 Vârsta medie a femeilor respondente (Mean) este de 48,09 ani.
 Vârsta femeii care împarte seria statistică în două părți egale (Median) este de
45 de ani.
 Cea mai des întâlnită vârstă (Mode) este de 38 de ani.
 Amplitudinea vârstelor (Range) este de 67 de ani, ca rezultat al diferenței
dintre vârsta maximă declarată (Maximum 89 de ani) și vârsta minimă (Minimum
22).
 Suma totală a vârstelor (Sum) declarate de respondente este de 50158 ani.
 Eroarea standard a mediei (Std. Error of Mean) este de 0,525, iar deviația
standard (Std. Deviation) este egală cu 16,941. Varianța (Variance) se obține
prin ridicarea la pătrat a deviaței standard și este de 286,998.
 Indicatorii de distribuție – Skewness și Kurtosis se încadrează în limitele normale
(Intervalul – [-1,96; 1,96]). Valoarea lui Sk=0,551, arată că avem o asimetrie la
dreaptă, iar valoarea lui K= -0,591 arată că distribuția valorilor este sub curba
normală.
 Percentiles: Până în 25% dintre subiecți au până în 35 de ani, Până în 50% dintre
subiecți au până în 45 de ani, până în 75% dintre subiecți au până în 60 de ani.
REMINDER: Datele fac referire doar la respondenții de gen feminin!

Pagina 12
După îndeplinirea cerinței, pentru a reveni la analiza bazei de date în întregime și

nu doar pe o categorie de populație, vom accesa comanda DATA-SELECT CASES și
vom bifa Analyse all cases și apăsăm butonul OK:
Pe pagina următoare este exemplificat într-o manieră sintetică modalitatea prin

care putem selecta alte tipuri de cazuri.

Pagina 13
APLICAȚIE PRACTICĂ 2
DATA-SELECT CASES – Baza de date VOTER.SAV:
Cerință: Analizați distribuția voturilor pe cei trei candidați (variabila pres92), doar
pentru subiecții care au peste 50 de ani (variabila age).
Așadar, din formulare se poate desprinde ideea că trebuie impusă o condiție de

selecție (de tip If...) doar pentru respondenții care au peste 50 de ani.
Se urmează pașii:
 Se generează comanda DATA-SELECT CASES (deja detaliată în paginile
anterioare);
 Se bifează If condition is satisfied;
 În fereastra următoare, variabila age (age of respondent) este mutată din
stânga în dreapta, se selectează semnul „>” și se trece valoarea 50. Apoi,
sunt accesate butoanele Continue și, ulterior, OK:

Pagina 14
 În continuare, se accesează comanda ANALYZE – DESCRIPTIVE STATISTICS

– FREQUENCIES.
 Din partea stângă, este mutată în fereastra din dreapta variabila pres92.
 Din butonul Statistics NU se bifează, nicio mărime/ niciun indicator.
Așadar, dacă avem selectați anumiți parametri statistici, avem grijă să îi
deselectăm înainte de a continua aplicația.
 Se apasă butonul OK, iar în noua fereastră OUTPUT vom obține
următoarele tabele:
 În urma generării tabelelor, concluzionăm:

- Există un număr valid de 703 cazuri. Cu alte cuvinte, există 703
subiecți care au peste 50 de ani. Nu există nicio valoare lipsă,
raportată/ declarată drept Missing.
- Tabelul de frecvențe ne arată că 38,1% dintre respondenții care au
peste 50 de ani ar vota cu Bush, 8,1% cu Perot, iar 53,8% cu Clinton.

Pagina 15

Tutorat Online Partea 1: 1. Comanda Split File

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tutorat Online Partea 1: 1. Comanda Split File

Încărcat de

Drepturi de autor:

Formate disponibile

Seminar: Asist. univ. dr. asoc.

TUTORAT ONLINE Partea 1

1. COMANDA SPLIT FILE

 În SPSS se pot realiza analize statistice pe diverse grupuri/ subgrupuri de

 Prin intermediul acestei comenzi, avem posibilitatea să împărțim o bază

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

În fereastra output declanșată, vom obține următoarele tabele de analiză:

Primul tabel, de mici dimensiuni, conține informații referitoare la numărul de

Al doilea tabel, cuprinde o analiză descriptivă a opțiunilor de vot, fiind structurată

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

În a cincea coloană sunt cuprinse procentajele valide. Însă, cum nu există

Din analiza descriptivă a acestui tabel, rezultă următoarele informații:

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

diferențe semnificative din punct de vedere statistic între opțiuni, în funcție de

IMPORTANT: În final, după efectuarea analizei pe cele două subgrupuri de

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

2. COMANDA SELECT CASES

 În bazele de date SPSS, avem posibilitatea de a selecta doar anumite

 Comanda permite doar selectarea unei categorii de subiecți, prin

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Cerință: Calculați principalele mărimi statistici pentru variabila cantitativă age,

După ce accesăm comanda DATA – SELECT CASES (prezentată în pagina

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Mențiune: Toți indicatorii au fost selectați luând în considerare faptul că variabila

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

REMINDER: Datele fac referire doar la respondenții de gen feminin!

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

După îndeplinirea cerinței, pentru a reveni la analiza bazei de date în întregime și

Pe pagina următoare este exemplificat într-o manieră sintetică modalitatea prin

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

Așadar, din formulare se poate desprinde ideea că trebuie impusă o condiție de

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

 În continuare, se accesează comanda ANALYZE – DESCRIPTIVE STATISTICS

 În urma generării tabelelor, concluzionăm:

Distribuirea materialului pe internet este strict interzisă. Material pentru uz intern

S-ar putea să vă placă și