Sunteți pe pagina 1din 27

SPSS master

Prezentarea nr. 1

Lect. Univ. dr. Adrian-Vicențiu Labăr

1
Tipuri de variabile
• Variabile dependente (VD) – variabile independente (VI):
• Distincţia se face în context de cercetare. O cercetare vizează relaţia dintre variabile.
– VD – suportă un efect, variază în funcţie de ceva. Face obiectul central al
cercetării.
– VI – determină un efect, induce variaţia VD.

• Pentru a distinge între VD şi VI, le plasăm într-un raţionament de tip cauzal.


– Variabila „cauză” = VI
– Variabila „efect” = VD.

• Identificaţi VD şi VI în exemplele de mai jos:


– Relaţia dintre ereditate şi inteligenţă;
– Relația dintre strategiile de învățare (profundă sau de suprafață) și performanță
academică;
– Relația dintre extraversiune și leadership.

2
Măsurarea și tipuri de scale de
măsurare
• Măsurarea – atribuirea unor valori numerice unei variabile în conformitate cu anumite
reguli.

• Niveluri (scale) de măsurare a variabilelor:


• Nivelul nominal
• Nivelul ordinal
• Nivelul de interval
• Nivelul de raport

• Acestea sunt ordonate ierarhic, de la cele mai simple la cele mai complexe:
– scalele superioare includ proprietăţile celor inferioare.

3
Măsurarea și tipuri de scale de
măsurare
• Scale nominale (nivelul nominal):
• Valorile indică categoria din care face parte cazul evaluat.

• Exemple:
– genul: masculin/ feminin (1-2)
– tipurile de temperament (coleric, sanguinic, flegmatic, melancolic) etc.

• Caracteristici:
• cel mai redus nivel de măsurare;
• codurile valorilor sunt arbitrare
• valorile au doar o semnificaţie calitativă
• nu suportă operaţii matematice

4
Măsurarea și tipuri de scale de
măsurare
• Scale ordinale (nivelul ordinal, de ierarhizare):
• Valorile au o semnificaţie cantitativă limitată la raportul de mărime.
• Exemple:
– Poziţia pe lista de admitere, în funcţie de notă (locul 1, locul 2 etc.)
– Nivelul studiilor: gimnaziale, liceale, universitare;
– Anul de studiu (1, 2, 3);
– Performanţa măsurată prin calificative şcolare;
– Gradul didactic: debutant, definitivat, gradul II, gradul I.

• Caracteristici:
• Valorile au o semnificaţie cantitativă (mai mare/ mai mic; mai nult/ mai puţin), dar...
• Precizează doar raportul de mărime dintre valori (X este mai mare decât Y etc.);
• Intervalele dintre valori sunt neprecizate
– Cât înseamnă „mai mare”?, cât înseamnă „mai mic”?
– Primul admis = 9.90, al doilea = 9.70; al treilea = 8.15
• Codurile valorilor pot fi acordate şi arbitrar, dar ele trebuie să exprime ideea de
ordine. 5
Măsurarea și tipuri de scale de
măsurare
• Scale de interval (nivelul de interval):
• Valorile au un caracter cantitativ, exprimat numeric.
• Intervalele dintre valori sunt egale.
• Exemple:
– Temperatura, în grade Celsius (50, 60, 70 ...);
– Coeficientul de inteligenţă, numărul de răspunsuri corecte la un test de aptitudini
(9, 13, 15, 20 ...);
– Scoruri la teste de personalitate (25, 26, 37, 55 ...);
– Performanţa măsurată prin note şcolare.
• Caracteristici:
• Intervalele sunt egale, dar lipseşte zero absolut;
• 00 C nu înseamnă absenţa temperaturii (00 K);
• 100 C faţă de 50 C este „mai mare cu 50”, dar nu şi „de două ori mai cald”;
• Suportă toate transformările matematice posibile (adunare, scădere, înmulțire,
împărțire).

6
Măsurarea și tipuri de scale de
măsurare
• Scale de raport (nivelul de raport):
• Valori cantitative, exprimate numeric.
• Intervale egale plus... zero absolut!

• Exemple:
– Temperatura, în grade Kelvin (00 K este temperatora minimă absolută);
– Timpul, greutatea, înălţimea;
– Vârsta, vechimea în muncă, venitul;

• Caracteristici:
• Cel mai înalt nivel de măsurare
• Suportă toate transformările matematice posibile.

• În practică, distincţia dintre variabilele de interval şi de raport nu este relevantă,


ambele suportând aceleaşi proceduri statistice.

7
Măsurarea și tipuri de scale de
măsurare
• Pe ce scală sunt exprimate următoarele variabile?
– genurile muzicale (rap. house, rock, disco);
– latenţa reacţiei la un stimul auditiv, măsurată în sutimi de secundă;
– scalele de măsurare (nominal, ordinal, interval, raport).

• Recomandare:
• Măsurarea unei variabile ar trebui făcută pe scala cea mai complexă suportată de
acea variabilă;
• Exemple:
– Vârsta: în ani, nu pe categorii de vârstă;
– Vechimea în muncă: în ani, nu pe categorii de vechime;
– Venitul: în suma respectivă, nu în categorii de venit etc..

8
Tipuri de statistici
• Statistică descriptivă – statistică inferenţială
• Statistica descriptivă:
– Descrie datele, aşa cum sunt (numeric, grafic);
– Prezintă frecvențe, medii, abateri standard etc.

• Statistica inferenţială:
– Susţine concluzii (inferenţe) cu privire la o populaţie, pe baza datelor obținute pe
un eşantion extras din acea populaţie;
– Are la bază rezultatele semnificative statistic obținute în urma aplicării unor teste
de semnificație (teste t, corelații, ANOVA, regresie etc.).

• Statistica parametrică/ neparametrică


• Statistica parametrică:
– Proceduri inferenţiale realizate pe variabile măsurate pe scale cantitative (de
interval sau de raport);

• Statistica neparametrică:
– Proceduri inferenţiale realizate pe variabile măsurate pe scale calitative
(nominale sau ordinale).
9
Scale Proceduri Tipuri de teste
statistice
CALITATIVE NOMINALE IDENTITATE Neparametrice Chi pătrat, testul
U,testul Wilcoxon,
CATEGORIALE
corelația Spearman
ORDINALE etc.

CANTITATIVE DE INTERVAL Parametrice Testele t, corelația


Pearson, ANOVA,
DE RAPORT
regresia etc.

10
Analiza datelor

1. Crearea bazei de date


2. Alegerea metodei de analiză a datelor, în funcție de
ceea ce dorim să studiem
3. Verificarea condițiilor necesare pentru aplicarea unui
test statistic
4. Aplicarea testului statistic
5. Analiza și interpretarea rezultatelor
Crearea bazelor de date în SPSS

Variable Data
view view

Introducem variabilele Introducem datele numerice

Fiecărui participant îi
Fiecărei variabile îi corespunde o linie
corespunde o linie
Fiecărei variabile îi
corespunde o coloană
Indicatori statistici de bază
Media = media aritmetică
Mediana = valoarea care împarte distribuția în două părți
egale, din punctul de vedere al frecvențelor
Modul = valoarea cu frecvența cea mai mare
Min., Max. = valorile minime și maxime
Abaterea standard, varianța = indicatori ai variabilității
scorurilor
Coeficienții Skewness (asimetrie), Kurtosis (boltire):
• Indicatori ai formei distribuției
• Într-o distribuție normală, S = 0, K = 0
Calea în SPSS: Analyze – Descriptive Statistics –
Frequencies. Activăm Statistics – se bifează: Mean,
Median, Mode, Minim, Maxim, Variance, Std. dev.,
Skewness, Kurtosis 13
Abaterea standard
Măsură a gradului de variabilitate a scorurilor şi arată cât de
mult se abat acestea de la tendinţa centrală.

34% 34%

14% 14%
2% 2%

-2S -S M +S +2S
XX
Note Z (scoruri standardizate): M = 0, S = 1; z
s
• Între – 3 și + 3 se regăsesc aproximativ 99 % dintre scorurile z.
• Permit comparații între scoruri la variabile diferite măsurate pe
scale diferite.
• Calea în SPSS: Analyze – Descriptive Statistics – Descriptives,
trecem variabilele în Variable(s), bifăm Save standardized
values as variables, ok.
• Mergem apoi în baza de date unde s-au salvat variabilele nou
create în scoruri z (ultimele coloane din Data View).
• Note z: < -1: valori scăzute; cuprinse între -1 și +1: valori medii;
> +1: valori ridicate.
Split File – Analize statistice pentru diferite
categorii de participanți
• Calea în SPSS: Data – Splite File – Organize output by groups
• ducem în dreapta variabila în funcție de care dorim să analizăm diferențele

• Ok.

• Apoi, realizăm analiza care ne interesează.


Transform-Compute – Calcularea scorurilor
totale
• Calea în SPSS: Transform – Compute – trecem în câmpul
Target Variable numele noii variabile iar în câmpul Numeric
Expression trecem primul item c1, apoi clic pe + apoi trecem
itemul c4 etc.

• Ok.
Verificarea datelor
1. Verificarea acurateții datelor – analiza de frecvență.
Calea în SPSS: Analyze – Descriptive Statistics – Frequencies,
trecem variabilele care ne interesează în partea dreaptă și clic OK.
2. Verificarea existenței unor cazuri extreme (outlieri).
• Un caz extrem este un caz cu o asemenea valoare extremă pentru o variabilă
(un scor foarte diferit de restul datelor) (outlier univariat) sau o asemenea
combinație ciudată de scoruri în două sau mai multe variabile (outlier
multivariat) încât distorsionează rezultatele obținute la testele statistice.
• Transformarea variabilelor în scoruri standardizate z.
• Calea în SPSS: Analyze – Descriptive Statistics – Descriptives,
apoi Save as standardized variables
• Scorurile z peste 3.29 în valoare absolută sunt potențiali outlieri
(Tabachnick, & Fidell, 2013).
• Pe eșantioane foarte mari, z > 4. 18
Verificarea asumției de normalitate a
distribuției
1. Calcularea coeficienților de asimetrie (Skewness) și de boltire
(Kurtosis). Într-o distribuție normală, acești indicatori sunt zero.
• Lomax & Hahs-Vaughn (2012) arată că dacă valorile skewness și kurtosis
sunt mai mici decât 2 în valoare absolută atunci variabila este normal
distribuită, un criteriu mai liberal mergând până la valori mai mici decât
3 în valoare absolută.
2. Aplicarea testelor Kolmogorov-Smirnov și Shapiro-Wilk
• Calea în SPSS: Analyze – Descriptive Statistics – Explore, trecem
variabilele în câmpul Dependent List, activăm butonul Plots și bifăm
Normality plots with tests, clic Continue, clic Ok.
• Dacă rezultatele la aceste teste sunt nesemnificative statistic putem afirma
că distribuția variabilei analizate nu diferă semnificativ de o distribuție
normală.
• Pe eșantioane mari tind să fie semnificative chiar dacă distribuția nu
19
diferă semnificativ de una normală.
Metode de corectare a datelor problematice, a
valorilor extreme
Field, A. (2013) propune patru soluții în cazul în care identificăm
cazuri extreme în variabilele analizate sau unele asumții sunt
încălcate:
1. Decuparea datelor – aceasta presupune să eliminăm un
procent din scorurile extreme;
2. Înlocuirea outlierilor cu valoarea cea mai mare care nu e
un outlier;
3. Analiza statistică a datelor folosind metode mai robuste –
aceasta implică folosirea testelor neparametrice sau a tehnicii
bootstrap.
4. Transformarea datelor – aceasta presupune aplicarea unor
funcții matematice variabilelor cantitative pentru a încerca să
corectăm problemele existente.
20
Metode de corectare a datelor problematice, a
valorilor extreme
1. Decuparea datelor.
Presupune ștergerea unor scoruri din extreme și ia mai multe forme:
• ștergerea datelor persoanei care contribuie ca outlier.
• decuparea prin eliminarea a 5 %, 10% sau 20 % din scorurile cele
mai ridicate și cele mai scăzute (jumătate dintre cele mai scăzute și
jumătate dintre cele mai ridicate). Acest lucru va conduce la
scăderea varianței datelor (varianța devenind mai stabilă), deoarece
impactul outlierilor asupra datelor scade.
2. Înlocuirea.
• înlocuirea outlierilor cu următorul cel mai apropiat scor care nu este
un outlier.
• se recomandă înlocuirea scorurilor extreme cu scorul aflat la 3 (sau
3.29) deviații standard față de medie (Field, 2013). 21
Metode de corectare a datelor problematice, a
valorilor extreme
3. Analiza statistică a datelor folosind metode mai robuste.
Procedura cea mai bună în situația existenței unor date
problematice este folosirea unor metode statistice robuste la
violarea asumțiilor și outlieri, care nu sunt afectate de către
acestea.
• Testele neparametrice, de exemplu, nu au nevoie de asumția
de normalitate a datelor.
• O metodă mai elegantă și disponibilă mai nou în programele
statistice (inclusiv SPSS) este bootstrap.

22
Metode de corectare a datelor problematice
3. Analiza statistică a datelor folosind metode mai robuste
– aplicarea procedurii bootstrap.
• În bootstrapping, eșantionul nostru este considerat o populație din care se
extrag mai multe eșantioane mai mici (numite eșantioane bootstrap), iar
pe fiecare dintre acestea se calculează parametrii statistici care ne
interesează (de ex., media, diferența de medii, coeficientul de corelație,
coeficientul de regresie etc.).
• Dacă alegem să aplicăm procedura bootstrap pe 1000 de eșantioane, vom
obține 1000 de estimări ale acestor parametric statistici, câte unul pentru
fiecare eșantion. Ulterior, acești parametri sunt ordonați de-a lungul unui
interval (de la minim la maxim) și reținuți cei între limitele de 95 %. Se
construiește astfel un interval de încredere bootstrap.
• În cazul testelor statistice, dacă acest interval bootstrap nu conține
valoarea zero, atunci rezultatul la testul statistic respectiv este
semnificativ statistic.
23
Metode de corectare a datelor problematice
3. Analiza statistică a datelor folosind metode mai robuste
– aplicarea procedurii bootstrap. Exemplu.
• să presupunem că am obținut un coeficient de corelație Pearson r=
.50, semnificativ statistic la un p < .001.
• Aplicând procedura bootstrap, am obține un interval de încredere
bootstrapping [.415, .600].
• Dacă am ales să extragem 1000 eșantioane bootstrap, acest interval de
încredere ne spune că în 95 % dintre cazuri, coeficienții de corelație
obținuți pe fiecare dintre aceste eșantioane bootstrap iau valori între .415
și .600. Cum valoarea zero nu este inclusă în acest interval, rezultă că r =
.50 este semnificativ statistic.
• Ce s-ar întâmpla însă dacă valoarea zero ar fi inclusă în interval? Acest
lucru ar însemna că, la o probabilitate de 95 %, ar exista șansa ca r să fie
atât negativ, cât și zero sau pozitiv. Altfel spus, ipoteza nulă H0 care
susține că r este zero nu ar putea fi respinsă și prin urmare ipoteza de
cercetare H1 nu ar putea fi acceptată. 24
Metode de corectare a datelor problematice
3. Analiza statistică a datelor folosind metode mai robuste
– aplicarea procedurii bootstrap.
• Procedura bootstrap poate fi folosită în SPSS în cazul
coeficienților de corelație bivariate sau parțială, a testelor t, a
testelor de contrast sau post hoc din tehnicile ANOVA, în
regresie liniară simplă și multiplă.
• În cazul testului t pentru eșantioane independente,
intervalul bootstrapping este calculat pentru diferența dintre
medii: dacă intervalul de încredere ar conține valoarea zero,
asta ar însemna că diferența dintre medii în populație ar
putea fi pozitivă, negativă sau chiar zero. Astfel, ar fi posibil
ca diferența adevărată dintre medii să fie zero, adică să nu
existe nici o diferență între medii în populație. Același
raționament este valabil și în cazul testelor de contrast sau
post hoc din ANOVA. 25
Metode de corectare a datelor problematice
3. Analiza statistică a datelor folosind metode mai robuste
– aplicarea procedurii bootstrap.
• În cazul testului t pentru un eșantion, intervalul bootstrapping
este calculat pentru diferența dinte media pe eșantion și valoarea
standard fixată. Dacă intervalul ar conține valoarea zero, atunci ar fi
posibil ca între media pe eșantion și valoarea standard fixată să nu
existe nici o diferență.
• În cazul testului t pentru eșantioane perechi, sunt construite
intervale bootstrap atât pentru coeficientul de corelație r Pearson,
cât și pentru diferența dintre medii.
• În regresia liniară, sunt construite intervale bootstrap pentru
coeficienții de regresie nestandardizați. Dacă valoarea zero ar fi
inclusă într-un astfel de interval, atunci nu am putea afirma cu o
probabilitate de 95 % că acest coeficient de regresie este diferit de
zero. 26
Metode de corectare a datelor problematice
3. Analiza statistică a datelor folosind metode mai robuste
– aplicarea procedurii bootstrap.
• Aplicarea procedurii bootstrapping în SPSS, pentru fiecare test
statistic amintit, se face dând clic pe butonul Bootstrap, activăm
opțiunea Perform bootstrapping (aici putem modifica numărul de
eșantioane bootstrap care ar trebui să fie extrase; opțiunea implicită
este 1000 eșantioane), iar în câmpul intervalelor de încredere
alegem opțiunea Bias corrected accelerated (BCa), aceasta oferind
rezultate mai bune decât opțiunea Percentile.
• De obicei, rezultatul la bootstrap este congruent cu pragul de
semnificație p. Dacă însă rezultatul la bootstrap nu este congruent
cu pragul de semnificație p, atunci ne vom raporta la bootstrap,
deoarece procedura bootstrapping este mai puternică, nefiind
afectată de încălcarea asumției de normalitate a distribuției
variabilelor sau de outlieri.
27