Sunteți pe pagina 1din 15

 Dan VASILIU

Scurt ghid de introducere și prelucrare a datelor1

Prelucrarea statistică a datelor presupune efectuarea anumitor pași obligatorii. Dacă


decizia realizării analizelor inferențiale este negativă, se poate trece direct la pasul șapte sau
opt. Etapele sunt:

1. Introducerea datelor Direct în SPSS/PSPP sau


importul acestora dintr-un
alt editor tabelar
2. Analiza descriptivă a a) Analiza frecvențelor Se determină forma finală
datelor b) Analiza descriptivă a distribuțiilor (normală
c) Analiza box-plot și sau nu) și tipul de
testul de normalitate variabilele: categoriale
(nominale/ordinale) sau
tip scală (de interval/de
raport).
Se ia deciziea privind posibilitatea și necesitatea efectuării analizelor
inferențiale
Dacă se continuă cu analizele inferențiale, se ia decizia testelor ce vor fi utilizate:
parametrice sau neparametrice.
3. Analiza inferențială a) Relații între variabile
b) Comparații între
grupuri
4. Determinarea puterii statistice și a mărimii efectului
5. Alte analize statistice, în funcție de cerințele cercetării
6. Concluziile rezultatelor statistice

1. Introducerea datelor

Datele pot fi introduse direct în SPSS/PSPP sau într-un editor de tip tabelar (de
exemplu Microsoft Office Excel) și importate ulterior. Fereastra principală are două opțiuni:
[Data View] și [Variable View].
În prima fereastră se introduc valorile variabilelor. În cazul în care datele au fost
introduse într-un editor tabelar se vor selecta, mai puțin capul de tabel, și se vor copia cu
opțiunea [Copy]. În fereastra [Data View] din SPSS/PSPP se va da <click buton stânga
mouse> în căsuța din stânga sus, după care datele copiate se vor lipi cu opțiunea [Paste].
O altă opțiune este să importăm baza de date, creată în alt editor, cu opțiunea [File] 
[Open Database]  [New Query ...].

__________________________
1
Vasiliu, D.. Memento de cercetare în psihologie. Un ghid prietenos pentru studenți
și nu numai ..., București: E.D.P., 2018, 152 p., ISBN 978-606-31-0501-2

1
 Dan VASILIU

În acest caz se va deschide o casetă de dialog în care va trebui să selectăm tipul


bazei de date (funcție de editor): dBASE Files, Excel Files, MS Acces Database. Selectăm
baza de date dorită din meniul [Add ODBC Data Source...], după care apăsăm pe [Next>]
și urmăm pașii din meniu.
În cea de-a doua fereastră [Variable View] se definesc variabilele. Este de preferat,
în cazul variabilelor categoriale, ca acestea să fie transformate în valori numerice.
<Name> reprezintă numele intern (cu care lucrează programul) definit de utilizator;
<Type> reprezintă tipul (numeric, șir de caractere - String etc.);
<Width> reprezintă numărul de cifre (inclusiv punctul zecimal) sau de caractere;
<Decimals> reprezintă numărul de zecimale, dacă este cazul;
<Label> reprezintă eticheta externă (apare în rezultatele prelucrărilor);
<Value> se folosește în cazul variabilelor categoriale;
<Missing> permite stabilirea valorilor care nu vor fi luate în seamă la prelucrarea
datelor (opțiune mai rar folosită);
<Columns> reprezintă lățimea (în număr de caractere) pe care se va afișa valoarea
în coloana de date;
<Align> alinierea în coloana de date;
<Measure> se alege tipul de variabilă;
<Role> se păstrează cu valoarea „Input”.
Definirea variabilelor se face în fereastra [Variable View]. Cu un <click buton
stânga mouse> pe fiecare căsuță se deschide caseta de dialog.

Pentru variabilele nominale și de tip scală sunt necesare câmpurile [Name] [Type]
[Width] [Label] [Columns] [Align] [Measure].
Variabilele categoriale vor necesita în plus utilizarea casetei care se deschide în
câmpul [Value] din fereastra [Variable View]. Câmpul [Value] din caseta de dialog se va
completa cu valoarea operaționalizată a variabilei categoriale (de ex.: 1 pentru masculin și 2
pentru feminin). Câmpul [Label] se va completa cu valoarea tip caracter a variabilei, așa
cum apare în cercetare (în exemplul nostru, masculin și feminin). După operaționalizare se
da <click buton stânga mouse> pe butonul [Add] și se trece la valoarea următoare. La
final se închide caseta de dialog cu butonul [OK]. Se va proceda asemănător și pentru
variabilele cu mai mult de două categorii.

2
 Dan VASILIU

Pentru variabilele numerice, definite astfel în caseta [Type], se va introduce mai întâi
numărul de zecimale [Decimals] după care se va introduce valoarea [Width] ținând cont și
de punctul zecimal.

După definirea variabilelor se va deschide fereastra [Data View] și se vor introduce


valorile din tabelul cu datele colectate de la participanți.

3
 Dan VASILIU

Documentul astfel construit în SPSS/PSPP va fi salvat cu opțiunea [File]  [Save


As...] în dosarul pregătit inițial pentru prelucrarea datelor. Programul deschide automat o
fereastră nouă, în care vor fi afișate rezultatele prelucrărilor.
Fereastra de Output, care va conține rezultatele prelucrărilor ulterioare, se poate
salva ca atare cu opțiunea [Save as...], unde se va indica calea și numele fișierului salvat. O
altă opțiune este de a o salva ca un document, urmând calea: [File]  [Export ...] 
[Type...] pentru a alege tipul de document  [File Name:] pentru a alege calea unde va fi
salvat și denumirea  [OK] pentru salvare.
Recomandăm salvarea rezultatelor în același dosar în care se află baza de date
SPSS/PSPP. Calea este indicată în fereastra de Output.

2. Analiza descriptivă a datelor


Analiza descriptivă a datelor este esențială pentru restul prelucrării statistice.
Rezultatele vor ajuta la decizii privind: eliminarea unor scoruri, corecții în baza de date,
oportunitatea utilizării unor teste statistice, crearea unor etaloane etc. Rezultatele analizei
descriptive se vor detalia, pentru definițiile descrise în secțiunea 2.1.

2.1. Analiza frecvențelor

[Analyze]

[Descriptive Statistics]  [Frequencies...]

În caseta de dialog se trec variabilele de analizat în câmpul <Variable(s):>


Se deschide caseta de dialog [Statistics], unde se bifează opțiunile: Mean, Median
și Mode din zona <Central Tendency>. Se bifează opțiunile: Std. deviation, Variance,
Range, Minimum și Maximum din zona <Dispersion>. Se bifează Skewness și Kurtosis
din zona <Distribution> după care se închide fereastra apăsând [Continue].
Se deschide caseta de dialog [Charts], unde se alege tipul de reprezentare grafică,
dacă se dorește acest lucru. În cazul în care se alege opțiunea Histograms se bifează și
Show normal curve in histogram. Se închide fereastra apăsând [Continue].
Se apasă butonul [OK] și se obține fereastra de Output cu rezultatele analizei. Se
salvează sub formă de document urmând calea: [File]  [Export ...]  [Type...] pentru a
alege tipul de document  [File Name:] pentru a alege calea unde va fi salvat și denumirea
 [OK]. Exemplificăm pentru următoarea bază de date:

4
 Dan VASILIU

Id participant Genul Scor la testare


1 Costel Masculin 1
2 Maricica Feminin 2
3 Gigel Masculin 2
4 Ioana Feminin 3
5 Alina Feminin 4
6 Andrei Masculin 3
7 George Masculin 3
8 Maria Feminin 2
9 Mihaela Feminin 2
10 Mirela Feminin 4
11 Gina Feminin 3
12 Mihai Masculin 1
Total N 12 12 12

Primul tabel ne oferă date privind numărul de participanți, datele valide introduse,
tendința centrală, împrăștierea și alte caracteristici ale distribuției.
Statistics
Scor la testare
Valid 12
N
Missing 0
Mean 2.50
Median 2.50
a
Mode 2
Std. Deviation 1.000
Variance 1.000
Skewness .000
Std. Error of Skewness .637
Kurtosis -.764
Std. Error of Kurtosis 1.232
Range 3
Minimum 1
Maximum 4
a. Multiple modes exist. The smallest
value is shown

Observăm că avem N=12 participanți, iar în baza de date nu există valori lipsă pentru
variabila studiată (Missing=0). Indicatorii tendinței centrale sunt: m=2.50; Me=2.50; Mo=2.
Tabelul ne indică că avem o distribuție multimodală. Indicatorii de împrăștiere sunt s=1.0 și
V=1.0. Amplitudinea (Range) = 3 având valorile minime=1 și maxime=4. Este o distribuție
perfect simetrică (Skewness=0.00) și platicurtică (Kurtosis=-0.764).
Al doiea tabel ne indică frecvențele cu care apar scorurile variabilelor.
Scor la testare
Frequency Percent Valid Percent Cumulative
Percent
1 2 16.7 16.7 16.7
2 4 33.3 33.3 50.0
Valid 3 4 33.3 33.3 83.3
4 2 16.7 16.7 100.0
Total 12 100.0 100.0

5
 Dan VASILIU

În prima coloană sunt valorile pe care le ia variabila Scor la testare din distribuția
analizată. În coloana a doua apar procentele absolute ale scorurilor. Urmează procentele
valide și procentele cumulate. Rezultatele sunt reprezentate grafic sub forma unei
histograme în care este indicată, pentru comparație, forma curbei normale.

Dacă am analiza variabila care indică genul participanților, indicat ar fi ca în fereastra


de dialog [Charts] să alegem opțiunea Pie Charts. În fereastra de Output obținem, astfel, o
reprezentare grafică de tip plăcintă, mai adecvată pentru variabila analizată, care se poate
edita făcând un dublu click pe ea cu butonul din stânga al mouse-ului.

2.2. Analiza descriptivă

[Analyze]

[Descriptive Statistics]  [Descriptives...]

În caseta de dialog se trec variabilele de analizat în câmpul <Variable(s):>


Se deschide caseta de dialog [Options], unde se bifează opțiunile dorite: Mean, Std.
deviation, Variance, Range, Minimum, Maximum și S.E. mean. Se bifează Skewness și
Kurtosis din zona <Distribution>, după care se închide fereastra apăsând [Continue].

6
 Dan VASILIU

Se apasă butonul [OK] și se obține fereastra de Output cu rezultatele analizei. Dacă


anumiți indicatori au mai fost evidențiați în alte analize nu este necesar să-i mai selectăm
încă o dată. Obținem un tabel cu valorile indicatorilor selectați. Pentru exemplificare am
utilizat aceeași bază de date de la capitolul precedent. De această dată, pe fiecare linie sunt
indicatorii corespunzători fiecărei variabile.
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance Skewness Kurtosis
Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Statistic Std. Error Statistic Std. Error
Genul 12 1 1 2 1.58 .149 .515 .265 -.388 .637 -2.263 1.232
Scor la testare 12 3 1 4 2.50 .289 1.000 1.000 .000 .637 -.764 1.232
Valid N (listwise) 12

Dacă am fi activat opțiunea Save standardized values as variables înainte de a


apăsa butonul [OK] am fi obținut, în fereastra [Data View], notele Z pentru variabilele
selectate sub forma unor coloane noi.

2.3. Analiza Box-Plot și testul de normalitate


Pentru a identifica valorile aberante și pentru a verifica normalitatea distribuției în
cazul variabilelor tip scală vom proceda la următorii pași:

[Analyze]

[Descriptive Statistics]  [Explore...]

În caseta de dialog se transferă variabilele de analizat în câmpul <Dependent list:>.


Se deschide caseta de dialog [Plots], unde se bifează opțiunile dorite: Stem-and-Leaf,
Histogram și Normality plots with tests. Se închide fereastra apăsând [Continue], după care
se apasă butonul [OK] în fereastra de dialog rămasă. Exemplificăm pentru următoarea bază
de date:
a
Case Summaries
Id participant Genul Scor la testare
1 Costel Masculin 122,30
2 Maricica Feminin 99,40
3 Gigel Masculin 77,00
4 Ioana Feminin 102,00
5 Alina Feminin 99,80
6 Andrei Masculin 89,00
7 George Masculin 100,00
8 Maria Feminin 85,20
9 Mihaela Feminin 112,60
10 Mirela Feminin 93,50
11 Gina Feminin 75,00
12 Mihai Masculin 84,50
Total N 12 12 12
a. Limited to first 100 cases.

7
 Dan VASILIU

Obținem rezultatele în fereastra de Output, pe care le salvăm urmând calea: [File] 


[Export ...]  [Type...] pentru a alege tipul de document  [File Name:] pentru a alege
calea unde va fi salvat și denumirea  [OK] pentru salvare. Primele tabele privind
rezultatele analizei se referă la descrierea indicatorilor descriptivi ai distribuției. Interpretarea
este asemănătoare cu cea descrisă la analiza frecvențelor.
Analizăm mai departe rezultatele testului de normalitate.

Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
*
Scor la testare ,142 12 ,200 ,962 12 ,808
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

În general, testul Shapiro-Wilk este mai puternic decât testul Kolmogorov-Smirnov


(Field, 2000, Iacobucci, D., 2001). Observăm că la ambele teste coeficientul de semnificație
este mai mare ca 0.05. Aceasta înseamnă că distribuția analizată se apropie suficient de
curba normală, ceea ce va permite utilizarea testelor parametrice. În caz contrar, ar fi trebuit
să apelăm la teste neparametrice.
Despre graficul histogramă am mai făcut referiri anterior, așa că vom trece la analiza
graficului Stem-and-Leaf. Dacă am fi făcut analiza de frecvențe pentru variabila tip scală din
exemplul nostru, am fi obținut pentru fiecare valoare frecvența 1, deoarece toate sunt
diferite. Rareori avem participanți care să obțină exact aceleași scoruri pentru a obține
frecvențe mai ridicate, iar analiza nu ar folosi în scop practic.
Folosind reprezentarea de tip Stem-and-Leaf, precum cea de mai jos, interpretarea
capătă sens.

Scor la testare Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 7 . 57
3,00 8 . 459
3,00 9 . 399
2,00 10 . 02
1,00 11 . 2
1,00 12 . 2

Stem width: 10,00


Each leaf: 1 case(s)

În engleză stem înseamnă tijă (trunchi) și leaf înseamnă frunze. În tabel stem este
asociat cu cifra zecilor iar leaf cu cea a unităților. Nu sunt luate în considerare zecimalele.

8
 Dan VASILIU

Observăm că avem două cazuri cu scoruri în intervalul 70 - 79, unul cu valoarea 75


și unul cu valoarea 77, trei cazuri cu scoruri în intervalul 80-89, valorile 84, 85 și 89, trei
cazuri cu scoruri între 90-99 și anume 93, 99 și 99. Pentru intervalul 100-109 avem două
scoruri, adică 100 și 102, iar pentru intervalul 110-119 un scor, valoarea de 112. Pentru
intervalul 120-129 avem un scor 122.

Graficul denumit „Normal Q-Q Plot” trasează dreapta probabilităților distribuției


normale. Se observă modul în care scorurile (cerculețele) se abat de la distribuția normală.

Graficul „Detrended Normal Q-Q Plot” compară distribuția Z cu distribuția obținută


pentru variabila analizată.

9
 Dan VASILIU

Graficul Box-Plot nu indică valori aberante.

Atunci când am vorbit despre amplitudinea intercuartilă am definit cuartilele ca fiind


acele valori care împart distribuția în patru părți egale.

Cutia din grafic are baza în dreptul primei cuartile (Q1) și partea superioară în dreptul
quartilei a treia (Q3). Linia din mijloc este mediana (Me) cu aceeași valoare precum cuartila
a doua (Q2). Distanța dintre Q3 și Q1 se notează cu H. Mustățile care pornesc din cutie au o
lungime de 1.5H. Între limitele Q1 și Q3 se regăsesc valorile normale. Mustățile delimitează
scorurile adiacente. Valorile care depășesc mustățile sunt valori aberante și vor fi tratate
separat.
Dăm spre exemplu un grafic Box-Plot cu scoruri aberante.

10
 Dan VASILIU

Valorile indicate prin cerculeț sau steluță sunt valori aberante. Cifrele din dreptul lor
reprezintă poziția participantului în baza de date, în cazul de față participantul cu numărul 16
și 88. În acest caz ne uităm în fereastra principală [Data View] și identificăm participanții de
la pozițiile respective. Prima dată comparăm scorurile din baza de date cu cele colectate în
timpul cercetării. Dacă sunt greșit introduse, le corectăm și reluăm analiza de la început.
Dacă sunt corect introduse, putem lua decizia de a le păstra, admițând că acestea sunt
importante pentru cercetare. În acest caz, ne asumăm faptul de a utiliza mai departe teste
neparametrice. Altă decizie este să eliminăm aceste scoruri din cercetare, admițând că sunt
erori datorate designului cercetării sau participantului în cauză. Dacă totuși nu le considerăm
erori și luăm decizia eliminării lor din cercetare, ele vor fi tratate separat într-un capitol
special sau într-o cercetare ulterioară.
Atenție! În cazul eliminării scorurilor aberante, operațiunea se va efectua începând
cu poziția cea mai înaltă. În cazul prezentat eliminăm întâi linia corespunzătoare poziției 88,
după care cea corespunzătoare poziției 16. Eliminarea se face dând <click buton stânga
mouse> pe cifra care indică poziția, urmat de <click buton dreapta mouse> și selectăm
opțiunea <Cut...>.
Este posibil ca în urma eliminării acestor valori să se verifice testul de normalitate
pentru distribuția rămasă.

3. Analiza inferențială a datelor


Pentru a ne decide asupra testelor pe care le vom utiliza mai departe este necesară
centralizarea următoarelor date:
a) Tipul variabilei independente: nominală, ordinală, scală;
b) Distribuția variabilei independente: normală sau nu;
c) Tipul variabilei dependente: nominală, ordinală, scală;
d) Distribuția variabilei dependente: normală sau nu;

11
 Dan VASILIU

Analizele cele mai utilizate, care ne pot ajuta să inferăm rezultatele obținute pe
eșantionul reprezentativ asupra populației din care acesta a fost extras, sunt:
- corelații sau asocieri între variabile;
- diferențe între grupuri.

3.1. Corelații sau asocieri între variabile


Decizia privind testul statistic ce va fi utilizat se va lua conform tabelului de mai jos, în
funcție de caracteristicile distribuțiilor analizate:

Variabila 1 … Variabila … n Testul statistic


r Pearson
(distribuții
parametrice)
Interval/raport Interval/raport
Kτ Kendall-tau
(distribuții
neparametrice)
Ordinală Ordinală rs Spearman
Categorială (nominală Categorială (nominală χ2 Chi-pătrat
sau ordinală) sau ordinală) Testul exact Fischer

Pentru a fi riguroși din punct de vedere științific vom folosi termenul corelații (între
scoruri) pentru relația dintre variabile parametrice și asocieri (între ranguri) pentru relația
dintre variabile neparametrice.
Înainte da a aplica testul recomandăm analiza graficului privind relația între variabile.
În fereastra de dialog se selectează prima variabilă și se transferă în câmpul

[Graphs]

[Legacy Dialogs]  [Scatter/Dot] [Simple Scatter] [Define]

<Y_Axix>, iar a doua variabilă în câmpul <X_Axix>, după care se accesează butonul [OK].
Putem întâlni diverse situații, ce vor tratate în mod diferit.

12
 Dan VASILIU

Lipsa corelației sau corelație slabă Există o corelație

Corelație puternică pozitivă Corelație puternică negativă

În cazul unor asocieri puternice putem recurge la testul de regresie. Acesta ne


permite, cu anumite rezerve, să facem anumite predicții.
Pot fi cazuri în care nu există o relație liniară între variabilele testate. Rezultatele
prelucrării statistice vor afișa un coeficient de semnificație peste pragul de 0.05 și o legătură
foarte slabă. Totuși, dacă analizăm graficul relației dintre variabilele testate constatăm că
legătura există, dar este de altă natură. Exemplele sunt însoțite de posibile decizii ce pot fi
luate în astfel de cazuri. Recomandăm studierea literaturii de specialitate pentru mai multe
infomații.

Corelație pozitivă până la un punct după care Lipsa corelației liniare dar totuși există un alt tip
negativă. Se analizeaza corelațiile parțiale. de corelație. Se analizează curba de corelație
sau aproximează prin corelații parțiale

13
 Dan VASILIU

În situația de mai jos observăm că mai toate cazurile sugerează o corelație puternică,
mai puțin cele două cazuri semnalate cu literele A și B.

În această situație este posibil ca în urma aplicării testului statistic să nu obținem o


corelație semnificativă între variabile, sau aceasta să fie foarte slabă. Dacă decidem că cele
două cazuri (A și B) nu sunt importante pentru cercetarea noastră, sau sunt importante dar
le vom studia separat (cazuri foarte rare sau particulare), atunci le eliminăm din baza de
date. Acest lucru nu îl putem face atunci când avem un număr semnificativ de astfel de
cazuri, comparabil cu cele care se apropie de dreapta de corelație. Dacă am proceda la
eliminarea acestor cazuri, am manipula rezultatele cercetării într-o direcție dorită subiectivă.

3.2. Diferențe între grupuri

Decizia privind testul statistic ce va fi utilizat se va lua conform tabelului de mai jos,
funcție de caracteristicile distribuțiilor analizate:

Variabila independentă Variabila dependentă Testul statistic


Interval/raport t pentru eşantioane
(parametrică) independente
Grupuri
Nominală dihotomică z pentru două proporţii
independente
Ordinală Mann-Whitney U
Două (sau non-parametrică)
Categorială
categorii Interval/raport t pentru eşantioane
(parametrică) dependente
Grupuri
Nominală Testul semnului
dependente
Ordinală
(sau non–parametrică) Wilcoxon

14
 Dan VASILIU

Interval/raport ANOVA unifactorială


Grupuri (parametrică)
Trei sau independente Ordinală Kruskal-Wallis
mai (sau non–parametrică)
multe Interval/raport ANOVA pentru măsurări
categorii Grupuri (parametrică) repetate
dependente Ordinală Friedman
(sau non-parametrică)

15

S-ar putea să vă placă și