Sunteți pe pagina 1din 131

MIHAI COVACI

COMPUTERIZED DATA PROCESSING


PRELUCRAREA INFORMATIZATĂ A DATELOR
- note de curs -

Österreichisch-Rumänischer Akademischer Verein

Vienna
2020
Author: Mihai COVACI

COMPUTERIZED DATA PROCESSING


PRELUCRAREA INFORMATIZATĂ A DATELOR
- note de curs -

Publisher:
Österreichisch-Rumänischer Akademischer Verein
ISBN 978-3-902938-51-0
Vienna, 2020
Cuprins

1. Aspecte introductive .............................................. 7


Încadrări .............................................................. 10
Partea aplicativă .................................................. 12
2. Măsurarea și organizarea datelor (scale și
variabile) ................................................................. 15
Proprietățile scalelor ............................................ 16
Nominale ............................................................. 18
Ordinale .............................................................. 20
De interval........................................................... 25
De raport sau de proporții .................................... 27
Organizarea datelor brute .................................... 30
3. Distribuția de normalitate. Mediul de lucru PSPP 33
Distribuția normală .............................................. 33
Mediul de lucru PSPP .......................................... 35
4. Măsurători în statistică......................................... 41
Explicare indicatori ............................................. 42
Alți indicatori ai tendinței centrale ....................... 49
Calcularea varianței ............................................. 51
Exemplificări ....................................................... 54
5. Pragul de semnificație. Modalități de măsurare.
Testarea ipotezei de nul (H0) ................................... 58
Pragul de semnificație (intervalul de încredere) ... 60
Formularea ipotezelor .......................................... 65
Convenție ............................................................ 66
Codificare variabilelor ......................................... 67
6. Teste statistice. Testul t simplu ............................ 71
Testul t pentru un singur eșantion ........................ 73
7. Teste t pentru două eșantioane ............................. 76
Testul t pentru două eșantioane independente ...... 76
Testul t pentru două eșantioane dependente ......... 80
8. One-way ANOVA (ANOVA
unifactorială/simplă) ................................................ 84
Condițiile prealabile utilizării procedurii ANOVA
unifactorială ........................................................ 84
Procedura ............................................................ 86
9. Utilizarea chestionarelor și tipuri de ipoteze ........ 91
Tipuri de ipoteze.................................................. 93
10. Two-way ANOVA (varianță factorială) ............. 95
Exemplificare ...................................................... 96
11. Coeficientul de corelație Pearson ..................... 101
Condiții ............................................................. 102

5
Interpretare ........................................................ 106
Tabele de contingență/încrucișate ...................... 108
Alte opțiuni ....................................................... 111
12. Interpretarea rezultatelor .................................. 115
Interpretarea datelor demografice ...................... 116
Analize exploratorii ........................................... 119
Aplicarea testelor............................................... 122
Bibliografie ........................................................... 129

6
1. Aspecte introductive

Adevăratul început al statisticii moderne poate fi


fixat la începutul secolului al XX-lea odată cu apariția
lucrărilor lui Karl Pearson (creatorul statisticii inferențiale
sau inductive) și Ronald Aylmer Fisher (a elaborat teoria
riguroasă a extragerilor concluziilor din datele observate).
Alte nume de referință în fundamentarea statisticii sociale
sunt: C.E. Spearman, G.U. Yule, M.G. Kendall, A.A.
Markov etc. (Răulea, 2010, p. 7).
Pentru psiholog și, în general, pentru cercetătorul
din domeniul științelor omului, statistica este un set de
metode și tehnici matematice de organizare și prelucrare
a datelor, folosite cu scopul de a răspunde la anumite
întrebări și de a testa anumite ipoteze. Datele sunt
informații, în principal numerice, ce reprezintă anumite
caracteristici. De pildă, dacă dorim să cunoaștem nivelul
de anxietate al unui grup, datele pot fi scoruri pe o scală
de anxietate, iar tehnicile statistice ne ajută să descriem și
să înțelegem aceste scoruri. Științele omului folosesc o
mare cantitate de date pentru testarea ipotezelor și
formularea unor teorii. Este important de subliniat, însă,

7
că strângerea datelor nu este suficientă pentru cercetarea
științifică. Chiar și cele mai obiective și mai atent culese
informații, luate ca atare, nu ne pot spune mare lucru.
Pentru a fi utile, datele trebuie să fie organizate, evaluate
și analizate. Fără o bună înțelegere a principiilor analizei
statistice și fără o aplicare corespunzătoare a tehnicilor
statistice, cercetătorul nu va putea înțelege semnificația
datelor culese (Gheorghiu, 2003, p. 5).
Etapele principale ale unei cercetări.
- Etapa formulării problemei de cercetare în care
cercetătorul formulează un enunț al unei probleme sau al
unei întrebări la care cercetarea va încerca să dea un
răspuns. Problema cercetării poate să provină din diferite
surse, incluzând teorii, cercetări anterioare și comenzi de
cercetare.
- Odată ce a fost formulată problema cercetării,
procesul intră într-o a doua etapă, în care se iau decizii
privind proiectul de cercetare și se aleg metodele și
tehnicile de cercetare. În această etapă, cercetătorul decide
ce tipuri de cazuri vor fi incluse în cercetare, cât de multe
cazuri vor fi luate în considerare și în ce mod vor fi
investigate acestea.

8
- După ce au fost investigate toate cazurile și au
fost culese toate datele relevante, statistica devine
realmente și în mod direct importantă pentru analiza
rezultatelor (a treia etapă). Este important de reținut că,
dacă cercetătorul și-a formulat greșit problema sau a
proiectat greșit cercetarea, atunci cele mai sofisticate
analize statistice sunt lipsite de valoare. Oricât ar fi de
utilă, statistica nu se poate substitui conceptualizării
riguroase și nici alcătui un proiect de cercetare
corespunzător problemei avute în vedere (Gheorghiu,
2003, p. 6).
Statistica se folosește preponderent de numere
reale (raționale, întregi, naturale). Termeni de bază:
metode; tehnici; instrumente (Metoda de bază este
ancheta psihologică, iar instrumentul principal este
chestionarul. Pot fi, de asemenea, ghidul de interviu
structurat, fișa de observație etc), codificarea itemilor și a
răspunsurilor; simularea inițială și corectare etc.
Întrebările (sau itemii) sunt de mai multe tipuri: cele care
generează o singură variabilă (sunt întrebările ce necesită
o singură variantă de răspuns); întrebări ce generează mai
multe variabile (sunt întrebările ce permit mai multe

9
variante de răspuns, fiecare variantă generând o
variabilă).

Încadrări
Statistica este disciplina în cadrul căreia datele
sunt culese, înregistrate, grupate, analizate, interpretate
etc., după care sunt extrase variate concluzii și sunt
formulate previziuni. Principalul scop al statisticii
descriptive este de a organiza, sintetiza și structura într-o
manieră clară, intuitivă și organizată datele rezultate din
observație și să le ofere o interpretare logică și inteligibilă.
Pentru aspectele menționate, datele sunt structurate în
tabele, diagrame, grafice, boxplot-uri, tabele, indicatori
numerici etc.
Statistica reprezintă un ansamblu de metode și
tehnici utilizate pentru a colecta, a descrie și a analiza date
obținute în urma unor investigații științifice (Răulea,
2010, p. 8). Statistica este un corp de metode utilizate
pentru a colecta, a descrie și a analiza date numerice din
observații sau investigații științifice. Statistica se
concentrează, prin urmare, asupra reprezentărilor
numerice ale diferitelor aspecte ale realității, adică asupra

10
a ceea ce poate fi numărat, măsurat sau cuantificat
(Clocotici & Stan, 2001, p. 13).
Este necesară definirea unor termenii utilizați în
statistică dintre care (și pentru început) variabilă,
populație și eșantion. O variabilă este orice trăsătură ce
își poate schimba valoarea de la caz la caz. De exemplu,
trăsăturile legate de gen, vârstă, venit etc., sunt variabile.
O populație este un grup ce include toate cazurile de care
este interesat cercetătorul. De exemplu, toți cetățenii
români cu drept de vot, toți studenții unei universități și
toate țările europene sunt populații în înțelesul dat acestui
cuvânt în statistică. În cele mai multe situații de cercetare,
populațiile sunt prea mari pentru a fi cercetate. În astfel de
cazuri, se selectează o submulțime strictă a populației de
referință, numită eșantion sau lot (Gheorghiu, 2003, p.
11).
Tehnicile statistice se împart în două mari clase:
statistici descriptive și statistici inferențiale. Statisticile
descriptive sunt utilizate pentru a prezenta, clasifica și
însuma scorurile (valorile) unei variabile. Dacă ne
interesează descrierea unei singure variabile, atunci vom
folosi statistici descriptive pentru a aranja și prelucra

11
scorurile acelei variabile astfel încât informația relevantă
să poată fi înțeleasă și evaluată rapid. Statisticile
inferențiale sunt utilizate pentru a face generalizări despre
o populație pe baza studiului unui eșantion din acea
populație sau, altfel spus, pentru a trage concluzii despre
caracteristicile unei populații pe baza caracteristicilor
corespunzătoare unui eșantion din acea populație
(Gheorghiu, 2003, p. 11).

Partea aplicativă
Unele variabile sunt discontinue (discrete) cum ar
fi genul (masculin, feminin), mediul (urban, suburban,
rural); altele sunt continue (înălțimea, greutatea, vârsta).
Mulțimea valorilor pe care le poate lua o caracteristică
particulară constituie distribuția variabilei respective.
Fiecare populație are propria sa distribuție pentru fiecare
variabilă. De exemplu știm că la naștere raportul dintre
băieți și fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta să se inverseze după primii ani de viață
din cauza vulnerabilității, și implicit a mortalității mai
mari în rândul sexului masculin. La vârsta a treia acest
raport se dezechilibrează și mai mult, femeile având o

12
speranță de viață cu aproape 10 ani mai mare decât
bărbații. Deci aceeași populație are, în trei momente
diferite ale existenței sale, trei distribuții diferite, în
funcție de aceeași caracteristică, apartenența de gen.
Definirea variabilelor are ca scop formarea
structurii bazei de date a cercetării. A defini o variabilă
înseamnă a-i atribui următoarele proprietăți:
- nume (Name) − o identifică univoc în mulțimea
tuturor variabilelor aferente cercetării;
- tip (Type) − stabilește tipul valorilor variabilei
(numeric, text, dată etc.);
- lungime (Width) − numărul de poziții ocupat de
valoarea variabilei;
- număr zecimale (Decimals) − exactitatea
reprezentării valorilor numerice;
- etichetă (Label) − denumirea deplină a variabilei
(caracteristicii);
- valori (Values) − scala de valori a variabilei (în
cazul variabilelor numerice ea nu se definește)
(Bulgaru, 2011, pg. 121-122).
Histograma este acea reprezentare grafică în care
o serie de date este figurată, într-un sistem de referință bi-

13
sau tridimensional, prin dreptunghiuri de înălțimi
proporționale cu valorile elementare ale seriei. în cazul
general, axa X conține gradațiile scalei de măsură, iar axa
Y gradațiile corespunzătoare seriei de date. Pentru o
distribuție obținută după o scală nominală, gradațiile axei
X sunt categoriile scalei, fiecare reprezentată printr-un
segment, iar axa Y este marcată cu frecvențe absolute,
frecvențe relative sau procentaje. Potrivit numerelor de pe
axa Y vom vorbi despre histograma frecvențelor absolute,
histograma frecvențelor relative sau histograma
procentajelor (Clocotici & Stan, 2001, p. 24).

14
2. Măsurarea și organizarea datelor (scale și
variabile)

Cele mai multe aspecte pe care vrem să le


măsurăm în științele socioumane (psihologie, pedagogie,
sociologie) se prezintă adesea sub formă numerică, sau
sunt aduse într-o asemenea formă printr-o operație de
codare. Psihologul măsoară adesea date fizice (stimuli
vizuali, auditivi, tactili, kinestezici etc.), prin
manifestările lor caracteristice (intensitate, durată,
frecvență, greutate), culese de aparate special elaborate,
ce dispun de propriile unități metrice. El măsoară în egală
măsură efectul stimulilor asupra ființei vii și atunci
determină timpul de reacție, numărul răspunsurilor
corecte, erorile. (Clinciu, 2013, p. 19).
Măsurarea în psihologie trebuie luată în sensul ei
cel mai larg, acela de atribuire de numere datelor continue
sau discontinue (discrete), pentru că psihologia nu și-a
conturat unități metrice la fel de tari matematic ca cele din
științele fizice… Din punct de vedere matematic
măsurarea este o operație prin care fiecărui element din
mulțimea de obiecte (domeniul de definiție al variabilei) i

15
se atașează un număr și numai unul din mulțimea în care
aceasta ia valori (domeniul variabilei) (Clinciu, 2013, pg.
19-20). Prin urmare, este important de reținut că
răspunsurile subiecților la chestionare (sau alte
instrumente) trebuie transformate în cifre, proces care se
mai numește codificare. În multe cazuri cercetătorul
decide care vor acele cifre care vor realiza corespondența
cu răspunsurile sub forma cuvintelor sau expresiilor.

Proprietățile scalelor
Există trei proprietăți care fac ca scalele de
măsurare să difere între ele:
Magnitudinea. O scală are această proprietate
când putem spune că o caracteristică a atributului măsurat
reprezintă mai mult, mai puțin sau la fel (tot atât, adică
egal) o cantitate sau însușire, comparativ cu o altă stare a
aceluiași atribut. În ceea ce privește talia, de exemplu,
putem afirma că George este mai înalt, mai scund sau la
fel de înalt ca Horia, deci scala înălțimii are proprietatea
magnitudinii. Numerele de pe tricourile fotbaliștilor nu au
în schimb această însușire, deoarece ele sunt atribuite ca
niște etichete, doar pentru identificarea jucătorilor.

16
Intervalele egale. O scală are intervale egale dacă
diferența dintre două puncte aflate pe oricare zonă a scalei
are aceeași semnificație sau valoare, ca diferența dintre
alte două puncte care diferă prin același număr de unități.
De exemplu, diferența dintre anii 1200 și 1400 este egală
cu diferența dintre anii 1800 și 2000, în timp ce diferența
dintre coeficienții de inteligență 50 și 100 nu are aceeași
semnificație ca diferența dintre coeficienții 100 și 150,
după cum nu putem spune că cel cu QI de 100 este de două
ori mai inteligent decât cel cu QI de 50. Psihometricienii
au încercat să ocolească aceste dificultăți și, folosind
tehnici matematice sofisticate, au creat instrumente care
se apropie de cerința unei scale de interval (adică cu
intervale de scală egale).
Zero absolut. Această proprietate este posibil de
evidențiat când variabila măsurată are un nivel la care ea
nu mai există deloc: zero ca distanță înseamnă absența
oricărei distanțe, zero ca ritm cardiac înseamnă moarte,
dar zero ca agresivitate, emoție, curaj, inteligență
(caracteristici umane) este extrem de greu, dacă nu
imposibil, de evidențiat sau de definit (Clinciu, 2013, pg.
20-21).

17
Sistemul de reguli impus de teoria și practica din
domeniu, definește mai multe tipuri de măsurare în funcție
de tipul de scală utilizat: nominală, ordinală, de interval și
de raport. (Clinciu, 2013, p. 20).

Nominale
Trebuie accentuat faptul că între categoriile
(gradațiile) unei scale nominale nu există relație de
ierarhie, ordinea prezentării lor fiind indiferentă, lipsită de
importanță din punctul de vedere al consistenței scalei.
Utilizarea codificării poate crea iluzia unei ierarhii (1 este
mai mic decât 2, a se află înaintea lui b), dar aceasta este
doar o iluzie, utilizată uneori în scopuri de manipulare.
Operațiile admise asupra categoriilor (diviziunilor) unei
scale nominale sunt două: gruparea (condensarea) și
rafinarea (diversificarea). Prin grupare înțelegem acea
operație prin care din două sau mai multe categorii se
obține o singură categorie, care va purta o etichetă nouă,
distinctă de celelalte. Prin repetarea operației de grupare,
o scală nominală cu n categorii se va transforma într-o
scală nominală cu m categorii, m < n. Prin rafinare
înțelegem operația prin care dintr-o categorie se obțin

18
două sau mai multe categorii noi, distinct etichetate. Deci,
prin repetarea operației, o scală nominală cu n categorii se
transforma într-o scală nominală cu m categorii, m > n.
Asupra unei aceleiași scale nominale se pot efectua
consecutiv atât operații de grupare, cât și operații de
rafinare. Operațiile prezentate corespund nevoilor
practice de analiză și sinteză, generalizare și
particularizare etc. (Clocotici & Stan, 2001)
Aspecte importante:
- Scala nominală este mai degrabă una calitativă, ea
fiind de fapt o pre-măsurare;
- Ea se pretează foarte bine pentru datele culese prin
observație, anchetă, chestionar, care vor fi
repartizate în categorii distincte, astfel încât un
element să se afle numai într-o categorie (clasă) și
numai una;
- Literele sau cifrele folosite ca etichetă nu vor face
obiectul calculelor statistice, ci vor servi doar la
reperarea claselor, la determinarea frecvențelor
brute și a celor relative. Fiecare element al unei
clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeași clasă;

19
- Singurul procedeu matematic de verificare este
așa-numitul test chi pătrat (χ2) (Clinciu, 2013, p.
22).
Exemple de scale-variabile nominale: variabila
gen cu 1=masculin, 2=feminin și 3=nedefinit; variabila
mediu de proveniență cu 1=urban și 2=rural; Starea civilă:
căsătorit, divorțat, văduv, necăsătorit.

Ordinale
Scalele ordinale sunt cunoscute și sub numele de
scale de ordine, scale de rang, scale ierarhice. O scală
ordinală permite ordonarea observațiilor, persoanelor,
situațiilor de la mic la mare, de la simplu la complex, de
la puțin la mult etc., atunci când în empiricul relativ se
introduc, pe lângă relațiile de echivalență, și relații de
ordine. În cazul scalelor ordinale se poate stabili ierarhia
a n gradații ale variabilei, dar nu se precizează (sau nu se
poate preciza) valoarea diferenței dintre două gradații.
Crearea unei scale ordinale presupune, cu prioritate,
stabilirea unei relații de ordine între valorile posibile ale
variabilei studiate. Exemplificăm prin ierarhia nevoilor

20
umane în concepția lui Abraham Maslow. Scala stabilită
de acesta cuprinde, în ordine:
- Nevoi fiziologice;
- Nevoi de securitate;
- Nevoi sociale, de apartenență la un grup;
- Nevoia de stimă, de a fi apreciat de alții;
- Nevoia de a se realiza pe sine, de a concretiza prin
acte și performanțe potențialul de talente și
cunoștințe pe care o persoană crede că le posedă.
Ordinea prezentată este de la simplu la complex.
Prin această scală putem să caracterizăm manifestările
unei persoane în funcție de gradul de saturare
motivațională. Dacă o persoană A este încadrată la nivelul
2, o persoană B la nivelul 3, o altă persoană C la nivelul
4, atunci putem face afirmația că persoana C are
satisfăcute un număr mai mare și mai complex de nevoi
decât persoana B, care este în aceeași situație față de
persoana A. Dar, caracteristic unei scale ordinale, nu
putem preciza cu exactitate cu cât este mai complex C față
de B sau B față de A și nici nu putem compara cele două
diferențe (dintre C și B, dintre A și B) între ele. Un alt
exemplu este cel oferit de Irving Taylor (1959) privind

21
clasificarea creativității după criteriul efectivității
comunicării. Scala are următoarele 5 gradații, ordonate de
la „îngust” la „extins”:
- Creativitate expresivă;
- Creativitate productivă;
- Creativitate inventivă;
- Creativitate novatoare;
- Creativitate emergentă.
Putem sintetiza spunând că operația de realizare a
unei scale ordinale presupune ca observațiile (categoriile)
să poată fi diferențiate unele de altele, la fel ca în cazul
scalelor nominale. Dar apare în plus ordonarea lor, ceea
ce va conferi noi proprietăți măsurătorilor efectuate cu o
scală ordinală. Simbolurile care se atribuie categoriilor
scalei ordinale nu vor mai fi doar diferite, simple etichete,
ci ordonări sau simboluri ordonate. Se preferă numere cu
ordonare general acceptată. Astfel, se pot folosi codurile
1, 2, 3, care pot fi înlocuite prin 5, 9, 12 (păstrând ordinea
naturală), dar în nici un caz nu pot fi substituite prin 4, 3,
7 (șir neordonat). Precizăm încă o dată că aceste coduri
(gradații ale scalei), care trebuie să realizeze doar
ordonarea, nu poartă informații despre distanțele dintre

22
gradații și nu indică precis cantitatea prezentă din
respectiva caracteristică. (Clocotici & Stan, 2001, pg. 30-
32).
Reprezintă (scalele ordinale), după Favèrge,
nivelul cel mai răspândit de măsurare din psihologie și
pedagogie, deoarece valorile din aceste domenii în
majoritatea lor sunt continue și simplu ordonate. Aceasta
permite ca elementele să fie aranjate fie crescător, fie
descrescător, existând și posibilitatea ca mai multe
elemente să ocupe același loc. Numerele asociate
obiectelor și fenomenelor în măsurarea de tip ordinal au
doar semnificația unui rang, adică nu indică mărimi
absolute. Pentru a atribui numerele în serie crescătoare sau
descrescătoare, trebuie ca și caracteristica respectivă să
aibă valori care cresc sau descresc. În scalele de tip Likert,
de exemplu, se pot atribui numere de la 1 la 7, 4
exprimând neutralitatea, numerele mici (3, 2 și 1) –
dezacordul sau insatisfacția tot mai accentuate, în timp ce
numerele mari (5, 6 și 7) – acordul sau satisfacția tot mai
intense. Creșterea regulată a numerelor nu trebuie să
sugereze însă că și caracteristicile respective cresc în
aceeași proporție (Clinciu, 2013, p. 22).

23
Aspecte importante:
- Deoarece scala ordinală nu are o unitate de măsură
constantă, ea nu permite adunarea și scăderea (nu
are proprietatea aditivității);
- Este legitimă însă calcularea frecvențelor brute și
a celor relative (a procentelor) și aplicarea
procedurilor statistice non-parametrice (adică
exprimate calitativ, nu prin numere): coeficientul
de corelație al rangurilor al lui Spearman,
coeficientul de corelație Kendall, testele de
semnificație Mann-Whitney, Wilcoxon,
Kolmogorov-Smirnov etc;
- Centilarea, decilarea - în psihodiagnoză, și nota
școlară - în pedagogie, sunt ilustrările cele mai
frecvente ale utilizării acestui tip de scală în
domeniile amintite;
- Cel mai important indicator al tendinței centrale
este mediana (Clinciu, 2013, p. 23).
Exemple de variabile: ierarhia într-un grup de
animale; calificativ insuficient, suficient, bine și foarte
bine.

24
De interval
Scala de intervale oferă, pe lângă ordinea
categoriilor (la fel cu scala ordinală), distanța dintre
categorii (inexistentă la scala ordinală). Această
proprietate nouă face ca datele experimentale obținute pe
o asemenea scală (numite date de interval) să suporte
prelucrări statistice mai complexe. Utilizatorul unei astfel
de scale are nevoie să compare intervalele determinate
prin respectiva scală, adică diferența dintre numerele pe
care scala le atribuie claselor de observații. Prezentarea
experiențelor anterioare nu duce totuși la concluzia a că în
psihologie nu este posibilă alcătuirea unei scale de
intervale. în realizarea pragurilor diferențiale, limitele
clasei de diferențiere se stabilesc printr-un postulat: în
momentul în care o limită este percepută ca fiind mai mică
sau mai mare în 50% dintre cazuri. Scala de intervale fiind
mai complexă decât scalele discrete, datele măsurate pe
asemenea scale pot suporta cele mai sofisticate tehnici
statistice. După logica generală a prelucrărilor statistice
descriptive, și pentru datele continue sunt urmărite
aspectele privind concentrarea valorilor (tendința centrală
a datelor) și gradul de împrăștiere a valorilor. Apar însă

25
elemente teoretice noi, cum ar fi aprecierea simetriei
distribuției și a gradului de aplatizare. (Clocotici & Stan,
2001).
Aspecte importante:
- Specificul scalei de interval este proprietatea
aditivitățiii (intervalele - și nu valorile! - pot fi
adunate și scăzute). În cazul unui test de
inteligență diferența între un IQ de 100 și unul de
50 este egală cu diferența dintre un IQ de 100 și
unul de 150. Însă nu putem concluziona că un
subiect care a obținut un IQ de 150 este de 1,5 ori
mai inteligent decât un altul care a obținut un IQ
de 100 și nici de 3 ori mai inteligent decât unul
care a obținut un IQ de 50;
- Neexistând un punct zero (care să exprime absența
caracteristicii măsurate), intervalele pot fi
deplasate, extinse sau comprimate, dacă prin
aceasta ele devin mai maniabile sau mai bine
adaptate realității măsurate;
- La acest nivel se pot aplica procedee statistice mai
elaborate, cum ar fi corelația prin produsul

26
momentelor a lui Pearson, testele de semnificație t
și z ale lui Fisher, precum și analiza de regresie;
- Aceasta deoarece la acest nivel se pot determina
media aritmetică, abaterea standard și varianța
(Clinciu, 2013, pg. 23-24).
Exemple de scale-variabile de interval: cele mai
multe caracteristici fizice (greutate; înălțime; timp de
reacție; nivelul adrenalinei etc.).

De raport sau de proporții


Pe scala de raport, numerele oferă nu numai
informații asupra ordinii de rang a obiectelor și a mărimii
relative a diferențelor, ci și despre relațiile rapoartelor.
Când numerele 2, 4, 7 și 9 reprezintă gradul de reliefare a
unei anumite caracteristici pentru obiectele A, B, C și D
într-o scală de raport, putem spune că B este dublul
caracteristicii pe care o are A, C este de 3,5 ori mai mult
față de caracteristica A, D de 2,5 ori mai mult decât B
ș.a.m.d. Măsurarea presupune cunoașterea (existența)
punctului 0 (originea), precum și a unui pas scalar identic
de-a lungul întregii scale. Prima caracteristică a scalei de
proporții rezidă în posibilitatea de a cunoaște distanța

27
dintre origine și valoarea unui individ pe un continuum
definit după un atribut dat. (Clocotici & Stan, 2001)
Aspecte importante:
- Scalele de raport se cheamă așa pentru că, pe lângă
toate caracteristicile scalelor anterioare, permit
relația de proporționalitate de tipul b/a = c/b = d/c;
- Ele permit toate tipurile de statistici, parametrice
și neparametrice, toate procedeele de verificare și
toți coeficienții de corelație cunoscuți;
- Aceasta deoarece se permite calculul mediei
geometrice și a coeficientului de variație;
- În afara unor situații de excepție (mărimi fizice de
intrare, puse în legătură cu timpul de reacție, de
exemplu), psihologii, pedagogii și sociologii nu
sunt îndreptățiți să folosească un asemenea tip de
scală (Clinciu, 2013, p. 24).
Exemple: 50 de kg este jumătate din 100 de kg;
200C este dublu pentru 100C; scalele Likert 1=dezacord
total, 2=dezacord parțial, 3=neutru, 4=acord parțial,
5=acord total; notele obținute de studenți la examen caz
în care 10 este dublul lui 5 etc.

28
Corespunzător tipurilor de scală amintite, vom
avea tipuri de variabile (nominale, ordinale sau
numerice), care sunt definite de domeniul de variație,
adică de registrul de valori pe care acestea le pot lua. Când
luăm în considerare numărul indivizilor sau al cazurilor
susceptibile de a prezenta această modalitate, vorbim de
domeniul de definiție. De exemplu, la o probă de
motricitate, tapping, numărul de puncte bătute cu mână
dreaptă, adunat cu numărul punctelor bătute cu mâna
stângă ia valori diferite în funcție de vârstă, sex și de
lateralizare (dreptaci sau stângaci). De pildă, la 6 ani acest
număr poate să ia valori de la 10 la 60, acesta fiind
domeniul de variație, în timp ce numărul subiecților ce
înregistrează aceste valori, pentru fiecare punctaj, dă
domeniul de definiție.
O atitudine, considerată ca o variabilă codificată
pe o scală Likert, are mai multe modalități de manifestare,
dar și o populație care prezintă toate aceste modalități.
Deci fiecărui individ din domeniul de definiție putem face
să îi corespundă o modalitate și numai una în domeniul de
variație. Noțiunea de variabilă este însă mai generală
pentru că ea se poate referi fie la o mulțime de date, fie la

29
efective observate, fie la date prezumate, ipotetice,
virtuale. Scalele descrise anterior se referă la date efectiv
observate.
Ion Radu apreciază că „în prelucrarea datelor, în
funcție de cerințele studiului și pentru a ne înscrie într-o
schemă statistică, noi introducem astfel o metrică, adică
tratăm datele ca și cum s-ar situa la nivelul scalei de
interval (…). Se comite astfel o eroare, care practic este
neglijabilă”. Deoarece predicțiile făcute în felul acesta
sunt valide, transformarea respectivă este considerată ca
fiind acceptabilă (Clinciu, 2013, pg. 24-25).

Organizarea datelor brute


Pentru a fi posibile procedurile detaliate de tratare
și de analiză statistică a datelor, acestea trebuie culese și
ordonate în tabele sau grafice. Datele brute efectiv
rezultate din anchetă, testare sau evaluare nu au nici o
semnificație prin ele însele, ci prin raportarea la un sistem
de referință. Cel mai adesea acesta rezultă din comparația
scorurilor individuale cu datele obținute de un eșantion
mai larg din populația investigată, prin care se pune în
evidență poziția unui subiect în cadrul grupului mai larg.

30
În calitatea lui de sistem de referință, grupul oferă
posibilitatea construcției unei tipologii ori a unui tabel de
norme (barem sau etalon). Acestea alcătuiesc așa-
numitele cote standard, ceea ce arată că investigația
individului și a grupului sunt corelative și complementare.
Extragerea informațiilor conținute de datele brute și
organizarea lor într-o colecție/bază de date, presupune
intrarea în funcție a unor proceduri statistice elaborate
(determinarea medianei, a mediei, a abaterii standard și a
varianței, aprecierea măsurii în care cele descoperite pot
fi generalizate și la ce nivel de încredere).
Dacă prin organizarea primară a datelor (ordonare
și grupare) putem face o primă inspecție vizuală a
acestora, căci ele se prezintă ca histograme, poligoane ale
frecvențelor, scattere etc., prin calculul tendințelor aflate
pe centrul distribuției (media, mediana și modul), ca și a
celor aflate spre extreme (amplitudinea împrăștierii,
abaterea standard și dispersia) putem face inferențe
statistice valide, pentru ca prin corelație, analiză factorială
și de cluster să avem o înțelegere mai de adâncime a
relațiilor și a structurilor subiacente. Analiza de varianță,
regresia simplă și multiplă permit, dincolo de sesizarea

31
structurii de adâncime a datelor studiate, predicția unor
legități, așa cum reies din analiza și modelarea lor
matematică (Clinciu, 2013, p. 25).

32
3. Distribuția de normalitate. Mediul de lucru PSPP

De ce se apelează la prelucrarea/vizualizarea
primară în Excel?
- din considerente practice (prezentare sintetică,
publicare, diseminare etc.);
- pentru a studia pe baza graficelor ulterioare
forma funcțiilor de repartiție;
- pentru a “curăța” datele de valorile aberante sau
de “non-răspunsuri” (Isaic-Maniu)

Distribuția normală
O reprezentarea grafică a rezultatelor
măsurătorilor este reprezentată prin forma unei curbe
reale numită curba distribuției (unimodală, multimodală,
aplatizată, înaltă, simetrică, asimetrică etc). În statistică
există un tip special de distribuție, numită distribuție
normală. Această distribuție mai este numită teoretică
pentru că nu este rezultatul unui proces real de măsurare,
ci reprezintă un model teoretic. Proprietățile distribuției
teoretice:

33
- are forma de “clopot” cea ce înseamnă că cea mai
mare parte a valorilor se concentrează în zona
centrală (medie);
- este perfect simetrică pe ambele laturi ale sale
(fiecare parte a mediei se află exact la jumătate
dintre valorile distribuției);
- linia curbei se apropie la infinit de axa OX
(orizontala), fără a o atinge vreodată (Popa, 2006,
pg. 162-163).

Curba normală standardizată are câteva


caracteristici care sunt figurate în imaginea de mai sus:

34
- Aproximativ 34% dintre scorurile distribuției
normale se află între medie și prima abatere
standard (z=+1 sau –1);
- Între –1z și +1z se află aproximativ 68% dintre
valorile distribuției;
- Aproximativ 95% dintre scoruri se află între –
2z și +2z.

Mediul de lucru PSPP


Ce înseamnă PSPP? PSPP nu are nici o expansiune
acronimică oficială. Însă unele sunt mai mult intuitive:
- Perfect Statistics Professionally Presented
(Statistici perfecte prezentate profesional);
- Probabilities Sometimes Prevent Problems
(Uneori probabilitățile previn problemele);
- People Should Prefer PSPP (Oamenii ar trebui
să prefere PSPP).

PSPP este o alternativă gratuită la SPSS și este un


tip de program denumit generic open-source. Pentru
anumite tipuri de teste (Mann-Whitney de exemplu)
trebuie utilizate sintaxe (File-New-Syntax) precum:

35
NPAR TEST
/MANN-WHITNEY = var list BY var (group1, group2).
În manualul utilizatorului pot fi găsite mai multe
explicații utile.
Importarea datelor din Excel
Datele introduse în Excel trebuie salvate cu
extensia Text (MS-DOS), CSV (Comma delimited), CSV
(MS-DOS). Ulterior, în PSPP din meniul File – Importa
data… se selectează fișierul salvat cu extensia Text (MS-
DOS), se clichează pe Next, Next iar din Select the first
line se dă click pe rândul doi din tabelul afișat și se bifează
opțiunea Line above selected line contains variables
names (stânga jos), Next, Next și Apply. Astfel datele din
tabelul Excel au fost importate cu succes precum și
denumirile variabilelor (a se vedea figura alăturată).

36
Ulterior, se pot face anumite ajustări din opțiunea
afișată în bara de stare Variable View

37
În bara de stare avem două ferestre: Data View și
Variable View. În fereastra/tab-ul Data View se pot
vizualiza variabilele și valorile acestora. În fereastra
Variable View se pot introduce variabilele și
caracteristicile acestora. Astfel în coloana Name se
introduce numele variabilei care trebuie scrisă fără spații.
Dacă există variabile care necesită utilizarea spațiului fie
se anulează spațiul fie se scrie cu underline între cuvinte
(Sindr_Asperger). În coloana Type se selectează tipul
variabilei, care de obicei și de regulă sunt numerice. În
coloana Width se lasă valoarea prestabilită iar în coloana
Decimal este de preferat să se reducă la zero valoarea
zecimalelor. Dacă răspunsurile itemilor includ și zecimale
atunci se poate lăsa un număr de zecimale corespunzător
răspunsurilor la itemi. În coloana Label se poate introduce
denumirea completă a variabilei (Sindromul Asperger). În
această coloană sunt acceptate spațiile între cuvinte etc. În
coloana Value Labels se pot introduce etichetările
răspunsurilor. De exemplu: 1=Masculin, 2=Feminin.
Procedura implică executarea unui dublu click în celula
respectivă după care apare o fereastra unde în coloana
Value se introduce cifra sau răspunsul la item (1) iar în

38
rândul Value Label eticheta scrisă în cuvinte (Masculin)
după care click pe Add. După introducerea primei etichete
se poate repeta operația pentru următoarele etichetări. La
final se dă click pe OK.
În coloana Missing Value se pot introduce valorile
acelor variabile care trebuie excluse din analiză sau se
poate introduce un interval între care acele variabile nu
vor fi ignorate în prelucrarea statistică. În următoarele
două coloane Columns și Align se lasă valorile
prestabilite. În coloana Measure sunt trei opțiuni
disponibile: Nominal, Ordinal și Scale. Opțiunea
presetată este Scale. Pentru primele două opțiuni (nominal
și ordinal) măsurătorile sunt echivalente. Pentru
variabilele de interval și de raport se utilizează
opțiunea/codificarea Scale. În coloana Role se lasă
valoare prestabilită (Input).
De asemenea în fereastra Variable View sunt
dispuse în partea de sus cele 10 meniuri (File, Edit,
View…). Pentru acest stadiu, cele mai importante meniuri
și sub-meniuri de reținut sunt următoarele:
- File – New – Syntax și File – Import Data;
- Data – Weight Cases;

39
- Transform – Recode into Different Variables;
- Analyze cu toate sub-meniurile lui până la K-
Means Cluster;
- Graphs cu toate sub-meniurile lui.

40
4. Măsurători în statistică

“O bună parte a statisticii descriptive urmărește


definirea celor mai importante tendințe centrale, adică
media, mediana și modul, dar și a tendințelor extreme,
cum ar fi amplitudinea împrăștierii, abaterea medie,
abaterea semi-interquartilă, abaterea standard sau
dispersia, varianța. Distribuția în sine poate fi judecată din
punctul de vedere al formei (simetrie sau boltire, adică
skewness și kurtosis, în engleză). Toate aceste noțiuni,
unele dintre ele derivate din teoria probabilităților, prin
care sunt fundamentate matematic valorile tipice ale 16
variabilelor, dar și repartițiile de diverse tipuri, conturează
mai exact domeniul statisticii descriptive” (Clinciu, 2013,
pp. 15-16).

41
Măsuri Măsuri
Măsuri de
Măsuri de ale de
centralitate
împrăștiere simetriei localizare

- Media - Amplitudine - Asimetria - Cvartile,


- Mediana - Variația - Boltirea decile,
- Modul(ul) (varianța, centile
dispersia)
- Deviația
Explicarestandard
indicatori
1. Mean – media reprezintă suma scorurilor împărțită
- Eroarea
standard
la numărul acestora.
2. Mediana -reprezintă valoarea centrală a unui șir de
Coeficientul
de variațieÎn cazul în care sunt două valori
scoruri ordonat crescător.
centrale, se face media între ele și în consecință mediana
este media acelor două scoruri centrale.
3. Modul. Este valoare care apare/se repetă cel mai
des în cadrul scorurilor obținute. Măsurătorile tendinței
centrale (media, mediana și modulul) își pot schimba în
mod variat valorile în funcție de modificările survenite în
cadrul distribuției/scorării. Mediana și modulul pot fi mai
“stabile” la anumite modificări intervenite însă nu și
42
media. Exemple: 1 2 3 3 3 4 în acest șir Me=2.66, Md=3
și Mo=3. Dacă la șirul existent mai adăugăm un patru 1 2
3 3 3 4 4, Me=2.86, Md=3 și Mo=3. Presupunem că la un
examen din 100 de studenții 99 iau nota 10 iar un singur
student ia nota 5. În cazul acesta media va fi de 9.95,
mediana va fi 10 și modulul tot 10. Concluzia la prima
prospectare este că mediana și modulul sunt mult mai
apropiate de realitatea distribuției normalității care va
exista în cadrul grupului de studenți. Media, în cazul
acesta, este mărimea cea mai vulnerabilă și în același timp
cea mai descriptivă prin faptul că indică orice modificare
intervenită în cadrul distribuției normalității. După
sugestia unor autori, într-un astfel de caz, media “este
recomandat să se folosească mai mult în distribuțiile
simetrice și unimodale, în timp ce mediana și modulul,
mai stabile sunt recomandabile în descrierea distribuțiilor
asimetrice și multimodale” (Lungu, p. 21).
4. Asimetria sau Skewness (în engleză). Este un
indicator de asimetrie sau înclinare a distribuției
scorurilor pentru o variabilă. Valoarea este pozitivă dacă
scorurile sunt asimetrice spre stânga, sau negativă dacă
scorurile sunt asimetrice spre dreapta. O distribuție este

43
simetrică, dacă valorile sunt egal (simetric) răspândite în
jurul tendinței centrale. Atunci când rezultatele tind către
valori mici, sunt aglomerate în partea stângă a distribuției,
avem de a face cu o distribuție asimetrică spre dreapta
(sau distribuție skewness pozitiv). Când rezultatele tind
către valori mari, se aglomerează în partea dreaptă a
distribuției, vorbim despre o distribuție asimetrică la
stânga (skewness negativ). Asimetria este dată de panta
distribuției și nu de vârful acesteia, așa cum tratează și
consideră unii. În figura de mai jos distribuția “B” este o
distribuție simetrică. Distribuția “A” este o distribuție
asimetrică la dreapta (skewness pozitiv), unde predomină
scorurile scăzute, în timp ce distribuția “C” este o
distribuție asimetrică la stânga (skewness negativ), în care
predomină scorurile mari (Naidin, 2011, p. 37).

44
5. Boltirea sau excesul (Kurtosis în engleză) este un
index care arată cât de ascuțită sau turtită este distribuția
scorurilor pentru o variabilă, comparativ cu distribuția
normală. Va fi cu semnul “+” pentru curbe de frecvențe
ascuțite și cu semnul “-” pentru curbe de frecvențe
“turtite”. (Naidin, 2011, p. 27). Termenul folosit generic
pentru acest concept este termenul de kurtosis (din limba
greacă, kurtos = “cocoșat”). Practic, boltirea se referă la

45
aspectul “cocoașei” distribuției rezultatelor. Cocoașa
poate fi ascuțită și atunci putem vorbi de o distribuție
ascuțită sau leptocurtică, poate fi turtită, distribuția turtită,
plată sau platicurtică sau normală, distribuție mezocurtică.
O distribuție normală este întotdeauna o distribuție
mezocurtică. În figura de mai sus, distribuția “C” este o
distribuție leptocurtică, ascuțită. Distribuția “B” este o
distribuție platicurtică, turtită, iar distribuția “A” este o
distribuție normală sub aspectul boltirii sau mezocurtică
(Naidin, 2011, p. 40).
6. Amplitudinea împrăștierii (AI, V sau R) este
rezultatul dintre valorile aflate la extreme (indiferent de
diferența distribuțiilor). Exemple: 6, 6, 7, 7, 8, 8, 8, 9, 9,
10 și 1, 6, 7, 7, 8, 8, 8, 9, 9, 10. În primul caz amplitudinea
este de 10-6 = 4, în al doilea de 10-1 = 9 (Clinciu, 2013,
p. 56).
7. Variația. Verificarea omogenității valorilor
individuale implică analiza împrăștierii datelor
individuale față de valorile centrale calculate. Indicatorii
împrăștierii (variației) utilizați în analizele statistice oferă
o mai bună fundamentare a deciziilor statistice rezolvând
unele probleme de analiză și cunoaștere statistică dintre

46
care menționăm: a) Analiza gradului de omogenitate a
datelor din care s-au calculat indicatorii tendinței centrale
și verificarea reprezentativității acestora ca valori tipice a
seriei respective; b) Compararea în timp și spațiu a mai
multor serii de repartiție după caracteristici independente
sau interdependente; c) Selectarea obiectivă a factorilor
semnificativi de influență, după care se structurează
unitățile unei colectivități statistice, separarea acțiunii
factorilor esențiali și întâmplători și identificarea acțiunii
acestora de la o grupă de unități statistice la alta; d)
Concentrarea valorilor individuale ale caracteristicilor
față de valorile tipice. Reamintim reprezentarea unei
distribuții normale.
8. Deviația sau abaterea standard (estimată) – este o
evaluare a măsurii în care scorurile diferă în medie față de
media scorurilor pentru o variabilă particulară.
Deviația/Abaterea standard poate fi înțeleasă ca acel ±
care apare la estimarea oricărui interval. Exemple: dacă
un curs începe la ora 10 fix, studenți vor ajunge la acel
curs cu un ± de 15 minute. Sau, pauza medie a studenților
este de 15 minute cu un ± de 5 minute. Se mai folosește
exprimarea de media pătratică. Deviația reprezintă

47
distanța dintre un punct dat și medie. Deviația standard
este doar rădăcina pătrată a mediei tuturor deviațiilor la
pătrat (scientia).
9. Eroarea standard a mediei. (ES medie) reprezintă
valoarea medie cu care mediile eșantioanelor extrase
dintr-o populație, diferă față de media populației (Naidin,
2011, p. 28). Această medie este rezultatul împărțirii
deviației standard la radical din numărul de persoane din
eșantion.
10. Coeficientul de variație (variabilitate), notat cu cv
(sau v) se calculează ca raport între abaterea standard și
medie. Poate fi exprimat și procentual conform formulei
𝑐𝑣 = 𝑚𝑠 ∗100 Valoarea acestui coeficient exprimă un raport
procentual dintre abaterea standard și medie. Cu cât este
mai mare, cu atât putem spune că media este mai puțin
reprezentativă pentru distribuția respectivă, dată fiind
ponderea ridicată a împrăștierii (Popa, 2006, pg. 13-14).
11. Cvartilele – reprezintă valorile distribuției pentru
punctele de separare a celor 25%, 50% și 75% celor mai
mici dintre scoruri. Centilele indică punctele de separație
pentru variate valori ale procentelor scorurilor. Exemplu:
al 90-lea centil este valoarea numerică care separă cele
48
90% de valori de dedesubt cu celelalte din punct de vedere
al mărimii. Altfel spus, Cvartilele reprezintă 4 părți,
decilele 10 părți și centilele 100 de părți.

Alți indicatori ai tendinței centrale


12. Trimmed Mean – reprezintă media rezultată din
eliminarea a 5% din cele mai aberante valori, sau acele
scoruri ieșite din normalitate
13. Minim (scor) – valoarea celui mai mic scor al
datelor pentru o variabilă particulară.
14. Maxim (scor) – valoarea celui mai mare scor al
datelor pentru o variabilă particulară.
15. Standard error of the mean (eroarea standard a
mediei)
16. Rang – diferența calculată și raportată la numărul
de scoruri și la numărul de subiecți pentru cel mai mic și
cel mai mare scor obținut pentru o variabilă.
17. Sum – suma variabilelor introduse.
18. Standard error of the skewness și Standard error of
the kurtosis – reprezintă erorile standard ale
simetriei și ale boltirii.

49
19. Interquartilc range (intervalul/amplitudinea
interquartilică - IQR). Valorile extreme sunt eliminate din
calculul acestui indicator. Două serii de date cu același
interval IQR pot să difere semnificativ ca distribuție a
valorilor. Între quartilele 1 și 3 ale distribuției se află 50%
dintre valorile acesteia. Cu cât intervalul quartilic este mai
mare, cu atât valorile sunt mai împrăștiate. Cuartila Q1
este acea valoare dintr-o serie de valori, pentru care 25%
din valorile seriei sunt sub Q1 și 75%, peste. Cuartila Q3
este acea valoare dintr-o serie de valori, pentru care 75%
din valorile seriei sunt sub Q3 și 25%, peste. Diferența
dintre Q3 și Q1 se numeste amplitudine interquartilică și
este o măsură statistică a dispersiei.

50
Boxplot (cu intervale interquartilice) și o funcție de
densitate a probabilități unei populații normale
(Wikipedia)

Calcularea varianței

(𝑋1 − 𝑋̅ )2 + (𝑋2 − 𝑋̅ )2 + (𝑋3 − 𝑋̅)2 … (𝑋𝑛 − 𝑋̅)2


𝐷=
𝑛−1
Cunoașterea variabilității sau cu cât datele variază
în jurul mediei nu este de multe ori prea folositoare și nu
ne oferă prea multe informații despre realitatea unui lot.
Prin urmare se resimte nevoia cunoașterii mai exacte sau
câte alte valori/scoruri sunt apropiate de medie. Dacă de
exemplu se știe despre studenții anului I că au vârsta
medie de 20 ani, ce putem estima în acest caz? Că o bună
parte a studenților au între 18-19 (40%) și 21-22 (40%)?
Prin urmare avem nevoie de o cunoaștere mai exactă a
localizării valorilor în jurul mediei pentru ca să putem face
estimări sau referiri mai exacte la grupul de studenți.
Astfel cunoașterea variației/varianței/variantei (s2
sau σ2; media se notează cu s sau σ) sau cât de împrăștiate
sunt datele în jurul valorii centrale (mediei) devine foarte

51
importantă “Din punct de vedere statistic varianța sau
dispersia este egală cu media aritmetică a pătratelor
abaterilor de la media unei distribuții și ea reprezintă
măsura geometrică a suprafeței de sub curba lui Gauss.
Radical din aceasta este Abaterea Standard (AS), care este
o unitate de lungime standardizată a liniei ce definește
lungimea unei distribuții, adică amplitudinea împrăștierii
sale. Ea este notată cu s sau σ (sigma), AS (Abaterea
Standard) sau SD (Sigma Deviation, în engleză)”
(Clinciu, 2013, pp. 60-61).
Etapele calculării variației sunt următoarele:
- calcularea mediei;
- calcularea abaterilor de la medie “Prima dată când
s-au gândit să calculeze varianta, matematicienii au
pornit de la calculul abaterilor simple de la medie.
Pentru aceasta ei au realizat un tabel, diferit de cel al
frecvențelor, în sensul că folosea scorurile și nu
valorile variabilei” (Lungu, p. 22). Dacă, de exemplu,
vrem să aflăm care este numărul de studenți în
grupulețele care formează anul I, aflăm inițial că aceste
grupulețe au următoarele scoruri: 2 3 4 5 7 8 9 11 15.
Prin urmare o să avem o medie de 7 persoane/grup.

52
x 2 3 4 6 5 7 8 9 11 15
x-m - - - - -
0 +1 +2 +4 +8
5 4 3 1 2
Inițial matematicienii au dorit să lucreze cu aceste
abateri simple de la medie, dar după cum se poate observa
unele sunt pozitive, altele sunt negative, astfel că adunate,
ele se anulează una pe alta (aceasta este de altfel si
proprietatea mediei). Atunci o soluție a fost să se ridice la
pătrat aceste abateri simple de la medie, pentru a obține
prin adunare un număr pozitiv (Lungu, p. 23).
x 2 3 4 5 6 7 8 9 11 15
x-m - - -
-5 -4 0 +1 +2 +4 +8
3 2 1
(x-m)2 25 16 9 4 1 0 1 4 16 64
Suma acestor pătrate (SP=Suma Pătratelor sau
notată cu SS (en) Sum of Squares=suma pătratelor) este
140. Ulterior această sumă se divizează (se împarte) la
numărul de scoruri minus unu (10-1) și deci avem
140/9=15.55. Astfel am ajuns la varianța/variația care este
de 15.56. Varianța este rădăcina pătrată a mediei tuturor
deviațiilor la pătrat împărțită la n-1. Ca să aflăm deviația

53
standard (SD) extragem radicalul din 15.56 = 3.94. Așa
am ajuns la SD (Standard Deviation) sau la măsura
gradului de variabilitate a scorurilor care ne arată cât de
mult se abat ele de la tendința centrală. Prin urmare,
numărul de studenți din grupulețele din cadrul anului I
este 7 + 3.94 = 10.94 și 7 – 3.94 = 3.06.

Exemplificări
Pentru a verifica indicatorii tendinței centrale și
pentru a face o analiză exploratorie a unei variabile,
accesăm meniul Analyze – Descriptive Statistics –
Explore… În noua fereastră, transferăm variabila/lele
analizată/e din partea stângă în caseta Dependent List:.
Accesăm butonul Statistics… și din opțiunile apărute
bifăm Descriptives după care click pe Continue. Ulterior,
din fereastra Explore click pe OK.
Să presupunem că dorim să analizăm variabila
Note care are etichetarea Note Psihologia educației. În
cadrul acestei variabile am introdus notele a 30 de studenți
după care accesăm sub-meniul Explore (primul Print
Screen de la stânga la dreapta). Primele două sub-meniuri
(Frequencies și Descritpives) din meniul Descriptives
54
Statistics au în linii mari aceleași funcții ca și sub-meniul
Explore. Din fereastra Explore transferăm variabila Note
în Dependent List:, după care accesăm butonul Statistics
și din fereastra Explore: Statistics bifăm opțiunea
Descriptives și click pe Continue. Ulterior din fereastra
Explore click pe OK. Celelalte opțiuni le lăsăm așa cum
sunt presetate.

55
Rezultatele sau analiza ulterioară se generează în
a doua fereastră (Output Viewer) care la început are de

56
obicei dimensiuni foarte mici (trebuie extinsă prin
opțiunea drag and drop). Rezultatele obținute pe variabila
Note se pot vizualiza în imaginea alăturată. În primul tabel
N reprezintă numărul de cazuri sau subiecți analizați. În
al doilea tabel sunt expuse rezultatele obținute la
tendințele normalității.

57
5. Pragul de semnificație. Modalități de măsurare.
Testarea ipotezei de nul (H0)

Descrierea datelor necesită mai mulți parametrii


cum ar fi tendința centrală (adică găsirea unei valori
reprezentative) și gradul de împrăștiere (urmărind
omogenitatea sau eterogenitatea unui grup). De exemplu,
dacă am încerca să descriem un grup doar prin prisma
primului parametru (ex. ambele clase de studenți obțin o
medie generală de 8,25) nu am putea afla dacă clasele sunt
similare, deoarece una ar putea fi formată din studenți
omogeni, toți având media în jurul valorii de 8,25, în timp
ce cealaltă clasă de studenți ar putea fi formată din două
categorii diferite de studenți - foarte buni și slabi - dar care
împreună ar conduce la o medie egală cu cea a primului
grup (Sava, 2004, pp. 3-4). Astfel, parametri posibili ai
tendinței centrale, în funcție de tipul de variabile sunt:
pentru date nominale parametrul este mod; pentru date
ordinale parametrii sunt mediana și mod; pentru date
numerice parametrii sunt media, mediana și modul (Sava,
2004, p. 4).

58
Reprezentarea grafică însoțește analiza descriptivă
a datelor și este o metodă intuitivă de a observa distribuția
datelor, ea fiind cu atât mai utilă cu cât numărul de date
este în creștere. Alegerea unui anumit tip de grafic se face
în funcție de modul de măsurare a variabilelor, dar și de
aspecte preferențiale, ce țin de subiectivitatea fiecăruia. în
funcție de tipul de date colectate, cele mai întâlnite grafice
sunt: diagrama circulară; histograma (Sava, 2004, pp. 4-
5) și boxplot (pentru intervalul interquartilic-diagrama).

59
Prelucrat după (Clocotici).

Statistica descriptivă nu-și propune altceva decât


să facă o radiografie cât mai corectă a realității. “Dacă
analizăm un singur aspect al realității vorbim despre o
statistică descriptivă univariată (pentru o singură
variabilă), iar în situația în care descriem evoluția a două
variabile, vorbim de o statistică descriptivă bivariată
(pentru două variabile). Se vorbește și despre o statistică
multivariată în situațiile în care sunt analizate simultan cel
puțin trei aspecte ale realității. Prelucrarea statistică ține
cont nu doar de numărul variabilelor ci și de calitatea
scalelor de măsurare utilizate” (Sava, 2004, p. 1).

Pragul de semnificație (intervalul de


încredere)
Pragul (nivelul) de semnificație reprezintă
mărimea riscului de eroare pe care cercetătorul este dispus
să îl accepte, implicit să și-l asume. De obicei se alege un
nivel de semnificație între 1 și 5%.

60
O problemă în testarea ipotezei nule este
caracterul arbitrar al pragului ales pentru respingerea sau
nerespingerea ipotezei nule. Cel mai frecvent prag ales
este de 0.05 valoare stipulată inițial de Fisher, părintele
statisticii moderne. Ulterior această valoare a fost
fetișizată. Exagerând, am putea spune că publicarea sau
nepublicarea studiilor, evoluția lucrărilor de doctorat sau
licență, fericirea sau nefericirea cercetătorilor au devenit
dependente de acest prag. Există mai multe interpretări
posibile ale acestui prag. Fără a intra în detalii,
interpretarea corectă a unui rezultat semnificativ statistic
poate fi rezumată simplu în expresia: „există o
probabilitate de maximum 5% de a obține din întâmplare
datele observate pornind de la premisa că ipoteza nulă este
adevărată” (Sava, 2004, p. 30).

61
“Conform acestui tabel există probabilitatea de 95
la sută ca o valoare să cadă în intervalul de ±2 față de
medie” (Clinciu, 2013, p. 69).

Calificativele obţinute în urma examenului de psihologia


Educației de 110 studenţi, aleşi aleatoriu. Adaptat după
(Răulea, 2010, p. 7).

“În psihologie, pedagogie, sociologie multe dintre


datele rezultate din măsurătoare - teste, anchete,

62
chestionare - dacă sunt determinate din analiza unor
selecții de volum mare și nedistorsionate (experimental
sau natural), tind să se distribuie conform curbei
probabilității normale. De aceea noțiunile statistice de
semnificație și de încredere pot fi exprimate în termeni de
probabilitate, prin referire la caracteristicile curbei lui
Gauss.” (Clinciu, 2013, pg. 68-69). Altfel spus, dacă 95%
din scorurile unui eșantion se includ în două devieri
standard, înseamnă că distribuția este normală. În caz
contrar, distribuția este anormală și deci lipsa
omogenității este mai mare (raportat la o ipoteză).
Semnificația statistică a unui rezultat este
probabilitatea cu care relația dintre două variabile sau
diferența dintre mediile observată va apărea întâmplător
dacă nicio astfel de relație sau diferență nu a existat în
populația din care a fost extras eșantionul. Semnificația
este exprimată ca zecimală. Un rezultat semnificativ este
de obicei considerat existent acolo unde valoarea p (sau
probabilitatea) este <0.05, lucru ce înseamnă că
rezultatele obținute ar avea loc doar din întâmplare mai
puțin de 5% din timp.

63
Alte interpretări posibile ale pragului de
semnificație. Dacă s-ar repeta studiul de 100 de ori (adică
dacă s-ar înregistra 100 de eșantioane, independente și
identic observate) datele obținute pentru 95 de eșantioane
s-ar încadra în același interval de încredere, numai 5 din
cele 100 de eșantioane fiind susceptibile să dea valori în
afara limitelor intervalului de încredere calculat. Cu o
încredere de 95% putem afirma că există diferențe
semnificative între rezultatele obținute de sau la…
Intervalul de încredere reprezintă probabilitate ca 95% din
eșantion să fie în cadrul distribuției normale iar 5% să fie
în afara acestei “normalități”.
Scopul testului statistic este de a dovedi că ipoteza
nulă este falsă. Nu putem afirma că acceptăm ipoteza nulă.
O putem nega sau nu. Testarea unei ipoteze statistice se
face prin compararea a două ipoteze concurente: Ipoteza
nulă – modelul pe care cercetătorul dorește să îl
înlocuiască; Ipoteza alternativă – noul model, menit să
înlocuiască ipoteza nulă.

64
Formularea ipotezelor
În formularea ipotezelor trebuie reținute două
aspecte care țin de etapele logice ale cercetării. Orice
cercetare este precedată de formularea anumitor
presupuneri. Altfel spus, înaintea demarării cercetării
trebuie formulate ipotezele. Subsecvent, sau al doilea
aspect, în formularea ipotezei trebuie introdus un
înțeles/sens al presupunerii, estimării și al nesiguranței
rezultatelor la care se va ajunge.
Astfel, ipotezele se formulează de obicei prin
introducerea la începutul propoziției (sau pe parcursul
formulării) a unor expresii precum: Presupunem…;
Admitem…; Supoziționăm…; Estimăm…;
Considerăm…; Apreciem…; Prezumăm… etc. Exemple
de ipoteze: Presupunem că grupul X este diferit de grupul
Y din punct de vedere al...; Admitem că nu există
diferență semnificativă statistic la dependența de… între
grupul X și Y; Supoziționăm că nu există deosebiri între
cele trei grupe în privința…; Estimăm că există corelații
(pozitive/negative) de intensități diferite între… la…;
Plecând de la faptul că temperamentele sunt implicite,
considerăm că între grupurile de studenți nu există… Etc.

65
Formularea trebuie să fie creativă, succintă și să
surprindă cele trei aspecte vitale ale ipotezei:
eșantionul/ele; variabila/lele; ne/semnificație statistică.
Testarea ipotezelor statistice înseamnă supunerea
ipotezelor unor probe, numite teste statistice, operație în
urma căreia ipoteza se respinge, se acceptă, este validată
parțial sau invalidată parțial. O asemenea decizie se face
întotdeauna în baza calculului intervalului de confidență
ce corespunde unui prag de semnificație ales.

Convenție
Ipoteza că mediile populațiilor din care provin
eșantioanele sunt egale o vom numi ipoteza de nul (notată
totdeauna cu H0).
Ipoteza, sau ipotezele, care epuizează restul
posibilităților le vom numi ipoteze alternative (notate
totdeauna cu H1, H2 etc.).
Dacă testul respinge H0, vom spune că datele
suportă ipoteza că mediile populațiilor sunt diferite.
Dacă testul nu respinge H0, vom spune că datele
nu susțin ipoteza că mediile populațiilor sunt diferite.

66
Ipoteza nulă nu înseamnă ipoteza absenței. Un
aspect mai puțin cunoscut este caracterul restrâns al
sensului acordat ipotezei nule. Cei mai mulți cercetători
înțeleg prin ipoteza nulă absența corelației sau lipsa
diferenței dintre medii. Mai degrabă, ipoteza nulă este
ipoteza care trebuie anulată. Testarea ipotezelor privește
populațiile din care au fost extrase loturile testate Dacă
analiza s-ar fi făcut la nivelul eșantioanelor, nu am fi avut
nevoie de un test de semnificație cu valoare probabilistică,
deoarece asocierile dintre variabile sau diferențele dintre
grupe s-ar fi dedus direct din datele observate. în acest caz
ne-am fi situat la un nivel de analiză descriptiv (Sava,
2004, p. 30).

Codificare variabilelor
Răspunsurile variabilelor se pot recodifica în
funcție de diverse aspecte. Să presupunem că avem
variabila vârsta unde subiecții au răspuns cu diverse
scoruri. Ulterior se poate recodifica această variabilă într-
o nouă variabilă denumită categorii vârstă unde se pot
crea următoarele categorii: 18-20 ani; 21-24 ani; 25-30;
31-40 ani; peste 41-65 ani.

67
Accesăm meniul Transform – Recode into
Different Variables. Transferăm variabila Varsta în caseta
Variables: după care click pe ea ca să fie selectată, și clic
în caseta Name din opțiunea Output Variable. Aici trebuie
dat un nou nume la variabilă care nu trebuie să identic cu
numele vechi. Astfel o să denumim vechea variabilă în
Categorii_varsta. În caseta Label putem face variate
etichetări (Categorii varsta) după care click pe Change.
Ulterior accesăm butonul Old and New Values și la
opțiunea Range introducem valorile minime și maxime
între care vrem să fie prima categorie de vârstă. În cazul
nostru 18-20 iar în caseta Value atribuim acestei categorii
cifra 1 și la final Add. Repetăm procedura și pentru
celelalte categorii iar la final click pe Continue. După
revenire în caseta Recode into Different Variables, click
pe OK. Programul va crea noua variabilă unde vor fi
inserate valorile codificate.

68
69
70
6. Teste statistice. Testul t simplu

Ce este un test statistic? Este o metodă de decizie


care ne ajută la validarea sau invalidarea cu un anumit
grad de siguranță a unei ipoteze statistice. Testele
statistice verifică veridicitatea unor ipoteze. Ipoteza H 0
(sau ipoteza de nul): datele nu prezintă legături între ele,
sunt independente/valorile comparate nu diferă între ele
(Cei mai mulți cercetători înțeleg prin ipoteza nulă
absența corelației sau lipsa diferenței dintre medii. Mai
degrabă, ipoteza nulă este ipoteza care trebuie anulată).
Ipoteza H1 (sau ipoteza alternativă): datele prezintă
legături între ele, sunt dependente/valorile comparate
diferă între ele.
Rezultatul p sau Sig. al testului furnizat este un
număr între 0 și 1 și reprezintă probabilitate de a face o
eroare dacă respingem ipoteza H0. Altfel spus, valorile lui
p (probability sau Sig.) pot fi între 0.001 – 1.000.
Semnificația statistică este atunci când valorile lui p sau
sig. sunt între 0.001 – 0.050. Lipsa semnificației statistice
apare atunci când p sau sig. este între 0.051 – 1.000. Ca o
convenție, dacă p sau sig. este între 0.051 – 0.080 se poate

71
spune că rezultatul este apropiat de semnificație statistică.
Programele de analiză statistică afișează de obicei cifrele
care apar după punct, ca de exemplu: .023; .051; .999 și
nu întregul șir precum 0.023; 0.051; 0.999.
Dacă p este mai mic decât pragul de semnificație
ales (p<0.05) respingem ipoteza H0 și admitem ca
adevărată ipoteza H1.
Interpretarea valorilor p sau sig. se face la
majoritatea testelor statistice astfel:
- p < 0.05 legătura statistică este semnificativă
(încredere 95%);
- p < 0.01 legătura statistică este foarte
semnificativă (încredere 99%);
- p < 0.001 legătura statistică este înalt
semnificativă (încredere 99.9%);
- p > 0.05 legătura statistică este
nesemnificativă.
Tot ca o convenție, dacă avem o valoare p sau sig.
de 0.000 de obicei se scrie cu 0.001.
Testele t reprezintă o testare a diferenței dintre
două medii. Chiar dacă formulele de calcul sunt diferite,
forma de prezentare a rezultatelor și raționamentul

72
decizional sunt similare pentru cele trei tipuri de situații
(Popa, 2006, p. 48). Condiția de aplicare a testelor t este
normalitatea distribuției. Normalitatea distribuției, după
unii autori, se atinge atunci când eșantionul depășește 40
de subiecți (Gardner&Moore apud (Popa, 2006, p. 48).
Astfel există 3 tipuri de teste t:
1. Testul t pentru un singur eșantion;
2. Testul t pentru două eșantioane independente;
3. Testul t pentru două eșantioane dependente.

Testul t pentru un singur eșantion


Se mai numește testul z și este utilizat pentru a se
testa diferența dintre media unui eșantion și o medie
cunoscută a populației din care face parte eșantionul
respectiv, adică se testează diferența unei medii față de o
constantă oarecare, care prezintă interes pentru cercetător
(Popa, 2006, p. 48). Bineînțeles condiția aplicării este
cunoașterea acestei medii comparative.
După completarea bazei de date se accesează
Analyze – Compare Means – One Sample T Test… În
noua casetă apărută se transferă variabila analizată sub
opțiunea Test Variable(s) iar la Test Value se introduce

73
media care va fi comparată cu media variabilei introduse.
Să presupunem că dorim să comparăm media nivelului
IQ al europenilor cu o medie aleasă întâmplător (96).

Rezultatele se pot vizualiza în a doua imagine


unde se poate vedea (în tabelul 2) că valoarea Sig. (sau p)
este .358 adică mai mare decât pragul de semnificație
statistică (.05). Posibila interpretare ar fi următoarea: nu
avem sau nu există semnificație statistică între Nivelul IQ
al europenilor (95.74) și media introdusă (96) (m1=95.74,
m2=96, p=.358).

74
Se recomandă ca rezultatele sau outputurile din
PSPP să fie salvate în format .pdf sau .html. Dacă se alege
ultima variantă (.html), ulterior aceste rezultate se pot
transfera cu copy-paste într-un document word. Pentru a
salva outputurile se accesează meniul File – Export se
alege locația salvării, se scrie un nume al documentului iar
din Infer file type from extension se alege tipul de fișier
dorit după care click pe save.

75
7. Teste t pentru două eșantioane

După cum am amintit, există trei tipuri de teste t.


Primul este pentru un singur eșantion iar celelalte două
sunt pentru două eșantioane (independente și
dependente).

Testul t pentru două eșantioane independente


Testul t pentru eșantioane independente (student)
se utilizează pentru testarea diferenței dintre mediile
aceleiași variabile măsurate pe două grupuri formate din
subiecți diferiți (nivel IQ, rezultatele obținute la un
examen etc.). Atunci când grupurile comparate fac parte
din același eșantion de cercetare, nefiind selecționate
independent unul de altul, este posibil ca variabila
dependentă să fie afectată de una sau mai multe variabile
mascate/discrete, fapt care poate influența rezultatul
testului (Popa, 2006, p. 50).
Testul t pentru două eșantioane independente
presupune îndeplinirea a trei condiții: să fie vorba de
compararea a două grupe; cele două grupe să fie
independente (să nu existe vreo legătură între ordinea de

76
introducere a datelor pentru subiecții dintr-o grupă și cea
de introducere a datelor din cealaltă grupă); variabila
(dependentă) supusă comparării să fie exprimată numeric
(măsurată prin scală de interval sau scală de proporții)
(psihologietm.ro).
Exemplificare pe nivelul de IQ al europenilor.
Conform unui studiu (Marian), românii au un IQ mediu
de 91, irlandezii 95, spaniolii 98, finlandezii 101 etc.
Analyze – Compare Means – Independent
Samples T Test… În noua fereastră transferăm variabila
Nivel IQ în caseta Test Varables și variabila Grup în
caseta Grouping Variable. Din butonul Define Groups
selectăm cele două grupe propuse pentru comparație
(România și Irlanda) și click pe Continue. Celelalte
opțiuni le lăsăm nemodificate. La final, click pe OK.
La o comparație a testului t pentru două eșantioane
independente (români și irlandezi) a câte 40 de
persoane/eșantion s-au obținut următoarele date:

77
În primul tabel avem definită variabila (Nivel_IQ),
grupurile între care s-a realizat testarea (România și
Irlanda), numărul de subiecți (N), mediile obținute de cele

78
două grupuri (Mean), devierea standard (Std. Deviation)
și media erorii standard (S.E. Mean).
În al doilea tabel, apar două linii cu rezultatele
testului t (Equal variances assumed și Equal variances not
assumed). Pentru a ști care rând trebuie interpretat, se face
mai întâi verificarea egalității varianțelor (testată cu testul
Levene). Dacă probabilitatea asociată testului Levene este
mai mare de p = 0.05 (.05), atunci înseamnă că varianțele
sunt egale, iar rezultatul testului t se citește pe prima linie
(rând). În cazul nostru, avem p = 0.000, ceea ce înseamnă
că nu acceptăm egalitatea varianțelor și astfel se
interpretează rezultatele din rândul doi: t = -49.51, df =
48.40, p = .000 (care se citește de obicei ca 0.001). Pentru
acest exemplu, rezultatul testului t student permite
acceptarea ipotezei cercetării, conform căreia nivelul IQ
al irlandezilor este mai mare față de cel al românilor (m1
= 90.97, m2 = 94.72, t = -49.51, df = 48.40, p = 0.001)
aspect rezultat din inspectarea tabelului cu mediile celor
două grupe.

79
Testul t pentru două eșantioane dependente
Testul t al diferenței mediilor a două eșantioane
dependente permite evaluarea semnificației variației unei
anumite caracteristici, la aceeași subiecți, în două situații
diferite (înainte și după, pre-test și post-test), ori în două
contexte diferite, indiferent de momentul manifestării
acestora. Avantajul major al acestui model statistic este
acela că surprinde variația numită intrasubiect, prin faptul
că baza de calcul reține/măsoară diferența dintre două
valori măsurate pentru fiecare subiect în parte (Popa,
2006, p. 53).
Conform unor specialiști, există trei situații în care
vorbim de eșantioane dependente/perechi: cazul
măsurătorilor repetate (măsurători test-retest, după un
program de formare/intervenție); cazul perechilor
naturale (gemeni univitelini, despărțiți la naștere și
crescuți în familii diferite care implicit le-au imprimat
caracteristicile naturale) și cazul perechilor artificiale
(când studenții sunt examinați în condiții diferite, primul
grup într-o atmosferă plăcută și relaxantă iar al doilea grup
într-o atmosferă tensionată, agresivă etc)
(psihologietm.ro).

80
Condiții esențiale: să fie vorba de compararea a
două grupe; cele două grupe să fie dependente (să existe
o legătura între ordinea de introducere a datelor pentru
subiecții dintr-o grupă și cea de introducere a datelor din
cealaltă grupă); variabila (dependentă) supusă comparării
să fie exprimată numeric (psihologietm.ro).
Exemplificare: să presupunem că un eșantion al
studenților anului I este evaluat la nivelul IQ în două
condiții diferite. În primul caz condițiile vor fi unele de
liniște și un mediu propice. În al doilea caz, condițiile vor
fi de zgomot de toate tipurile, întreruperi neregulate,
insinuări legate de capacitățile lor și de moștenirea
genetică etc. H0: Rezultatele studenților la testul de
inteligență în cele două condiții diferite vor fi egale. H1:
Rezultatele studenților la testul de inteligență în cele două
condiții diferite nu vor fi egale.

81
Analyze – Compare Means – Paired Samples T
Test… În noua fereastră transferăm variabilele Liniste și
Zgomot în caseta Test Pair(s) și lăsăm celelalte opțiuni
nemodificate după care click pe OK.

Cum se vor interpreta rezultatele obținute? Mai


întâi, observăm că în coloana Sig. (2-tailed) valoarea
obținută este .066. Valoarea este puțin mai mare ca 0.5
însă nu este cu mult mai mare. Prin urmare, interpretarea

82
pe care o putem da ar fi următoare: pentru testarea IQ-ului
studenților în cele două condiții diferite de liniște și
zgomot s-a obținut un rezultat apropiat de semnificație
statistică. Astfel putem spune că în cazul desfășurării
testului în condiții de zgomot, rezultatele studenților tind
să fie mai bune (m Liniste = 98.11, m Zgomot = 98.58, df
= 159, p = .066).

83
8. One-way ANOVA (ANOVA unifactorială/simplă)

Analiza varianței sau analiza dispersională (în


engleză ANalysis Of VAriance sau ANOVA) este o
metodă parametrică ce permite compararea a două sau
mai multe populații statistice. În multe situații practice ne
interesează examinarea diferențelor dintre mediile a mai
mult de două grupuri, care sunt clasificate în funcție de
nivelele unor anumiți factori. În acest scop, ANOVA
analizează variația inter și intra grupuri (Bârsan-Pipu).
Astfel sunt disponibile două clase de teste
ANOVA, cu unul sau doi factori de variație: ANOVA
unifactorială și ANOVA bifactorială. Testul Kruskal-
Wallis H este analogul non-parametric al testului
ANOVA unifactorial și este aplicabil la date de nivel
ordinal.

Condițiile prealabile utilizării procedurii


ANOVA unifactorială
Procedurile ANOVA trebuie să respecte câteva
condiții prealabile (Popa, 2006, pg. 56-58):

84
- obținerea rezultatelor cât mai apropiate de realitate
(neinfluențate de anunțarea ipotezei sau de alte
induceri care se pot face în perioada măsurătorilor);
- distribuție normală a valorilor fiecărui grup
comparat (analiza de varianță este robustă dacă
distribuțiile comparate sunt simetrice sau dacă
asimetriile sunt în aceeași direcție, proceduri verificate
cu prin calcularea limitelor de încredere pentru
Skewness și Kurtosis). De reținut faptul că “Cu cât
volumul grupurilor supuse comparației este mai mare,
cu atât aspectele legate de normalitatea distribuției au
un efect mai mic asupra ANOVA” (Popa, 2006, p. 57);
- Omogenitatea dispersiei la nivelul fiecărui grup
(omogenitatea varianței). Încălcarea acestei condiții nu
invalidează testul ANOVA, care este destul de robust
și în acest caz (egalitatea/omogenitatea varianței poate
fi testată cu testul Levene). Pentru situația în care testul
Levene infirmă omogenitatea varianței la nivelul
grupurilor comparate, există alternative (ANOVA) în
testele Brown-Forsythe și Welch (din păcate
indisponibile în PSPP).

85
Procedura
Să presupunem că dorim să știm dacă între cei trei
ani de studiu de la psihologie există diferențe
semnificative din perspectiva genurilor. Analyze –
Compare Means – One Way ANOVA… La Dependent
Variable(s) transferăm variabila dependentă iar la Factor
variabila independentă, bifăm Descriptives și Homogenity
și la final click pe ok. Rezultatul este ceva de genul

Tabelul Test of Homogeneity of Variance conține


rezultatul testului Levene. O valoare nesemnificativă a
acestuia (cum este cazul nostru, p=0.489) conduce la
concluzia că dispersiile în interiorul celor trei grupuri sunt
omogene. Grupurile fiind omogene, se citește valoarea
din coloana Sig. din cadrul celui de-al treilea tabel. În

86
cazul acesta, valoarea este mai mare de .05 și prin urmare
interpretarea dată este că nu există diferență suficient de
mare între cei trei ani de studiu din perspectiva genurilor.
Alt caz unde se analizează IQ-ul unor grupuri din
UE:

87
În primul tabel (Descriptives) avem definite
grupurile analizate. În al doilea tabel avem omogenitatea
varianței Levene cu semnificație statistică ceea ce
înseamnă că varianța este neomogenă.
Cercetătorul poate fi însă interesat care dintre
grupuri diferă între ele, și în ce sens. Pentru a rezolva
această problemă se efectuează așa numitele comparații
multiple, pe baza unor teste statistice denumite post-hoc,
pentru că, în mod normal, acestea se calculează după
aplicarea procedurii ANOVA. Printre cele mai frecvent

88
utilizate sunt testele: Scheffe, Tukey și Bonferroni
(desigur, se utilizează unul sau altul dintre ele, la alegere)
(Popa, 2006, p. 216).
Având în vedere că testul Levene a infirmat
omogenitatea varianței, se vor citi valorile pentru testul
Bonferroni (în caz contrar, s-ar fi citit cele pentru testul
Tamhane). Din păcate, PSPP nu calculează rezultatele
pentru testul Tamhane, însă ținând cont că diferențele
între testul Bonferroni și Tamhane sunt destul de mici, se
poate aplica testul Bonferroni pentru a determina cu
exactitate între care grupe sunt diferențele statistice. În al
treilea tabel (ANOVA) coloana a patra (Sig.) conține o
valoare care semnificativă statistic. Însă deocamdată nu
știm între care grupe există această diferență statistică.
Pentru a determina diferențele în cauză, sunt două
opțiuni disponibile:
1. File-New-Syntax unde se va scrie
ONEWAY
/VARIABLES=Variabila1 (Nivel_IQ) BY Variabila2 (Grup)
/STATISTICS=DESCRIPTIVES HOMOGENEITY
/POSTHOC = BONFERRONI.

89
și la final Run-All;
2. Sau Paste din fereastra One-Way ANOVA, unde
la sintaxa generată vom adăuga
/POSTHOC=BONFERRONI.
N.B. Înainte de a da click pe Run-All, se vor șterge
rândul liber și punctul dinaintea rândului introdus
(/POSTHOC=BONFERRONI.).
Rezultatul obținut va conține comparații multiple
de unde se vor putea determina semnificațiile statistice
între grupurile în cauză prin interpretarea coloanei Sig.:

Astfel observăm că există diferență semnificativă


statistic între România-Spania (m1= 93.65, m2= 96,
p=.007), România-Finlanda (m1= 93.65, m2= 98.43,
p=.001), Irlanda-Finlanda (m1= 94.87, m2= 98.43,
p=.001) și Finlanda-Spania (m1= 98.43, m2=96, p=.005).

90
9. Utilizarea chestionarelor și tipuri de ipoteze

Chestionarele recomandate sunt cele utilizate de


literatura de specialitate sau cele recunoscute oficial. Este
foarte important să fie disponibilă și interpretarea
punctajului la chestionarul sau chestionarele pe care
dorim să le aplicăm. Practic un chestionar fără interpretare
nu folosește la nimic.
Posibilitățile de completare a unui chestionar pot
fi două: în format fizic și în variante online. Cea mai
cunoscută platformă pentru crearea și completarea online
este cea oferită de Google Forms. Alte variante ar fi
https://www.survio.com , https://zurvey.io/zurvey/en ,
https://www.typeform.com/surveys etc. Pentru studenți
ideale sunt cele care sunt și gratuite. De menționat că
fiecare din aceste platforme necesită crearea unui cont.
Ulterior se pot introduce întrebările, se pot alege formele
de răspuns etc. Avantajul completării online este că se
creează instant baza de date chiar dacă necesită
ulterioarele intervenții și corecturi.
Baza de date din Excel de obicei necesită mai
multe prelucrări înainte de importarea ei în programe de

91
analiză statistică. Aceste prelucrări trebuie să țină cont de
felul în care se interpretează chestionarul în cauză. Pentru
eficiență și simplificare, itemii se pot codifica în funcție
de specificul chestionarului. De obicei se pot alege notări
precum I1, I2…, iar pentru răspunsuri cifre arabe. Dacă
pentru fiecare item al chestionarului subiecții au de ales
între patru variante de răspuns, atunci codificarea poate fi
sub forma I1a, I1b, I1c, I1d, I2a, I2b, I2c, I2d…
Pentru analizele parametrice și neparametrice
niciodată nu se importă în programele de analiză statistică
itemii chestionarului. Interpretarea chestionarelor se
bazează de obicei pe însumarea punctajului total sau pe
anumiți itemi. Astfel, în Excel se va însuma punctajul
aferent fiecărui respondent într-o altă coloană. Dacă în
cadrul aceluiași chestionar sunt măsurate mai multe
dimensiuni ale aceleiași caracteristici, se vor crea atâtea
coloane câte dimensiuni sunt măsurate (și care rezultă din
interpretare) și se vor însuma pentru fiecare dimensiune
itemii care țin de fiecare dimensiune în parte. Astfel la
final, se vor importa doar variabilele independente și
coloanele care însumează caracteristicile măsurate și care
vor fi denumite adecvat.

92
Tipuri de ipoteze
Tipuri de ipoteze. Este foarte importantă stabilirea
ipotezei de cercetare care sunt în principal de două tipuri:
unidirecțională (unilaterală) și bidirecționala (bilaterală).
În primul caz, formularea ipotezei va ține cont de un
singur și precis aspect vizat precum: studenții anului I vor
obține rezultate mai bune la statistică față de studenții
anului II. Ipotezele unilaterale presupun formulări precise
precum: A este mai inteligent decât B sau B este mai
chiulangiu decât A. În al doilea caz, sau al ipotezelor
bilaterale, sintagmele formulate sunt mai puțin precise și
nu se arată o direcție foarte precisă a cercetării. Exemple:
există diferențe între studenții anului I și II în ceea ce
privința extraversiei. Se poate constata că nu se indică o
direcție clară, adică mai multă sau mai puțină extraversiei
etc.
Programele statistice întotdeauna calculează
pragul de semnificație pentru o ipoteză de tip bilateral.
Pentru a afla în ce direcție este prezentă semnificația
statistică, vom inspecta mediile grupurilor comparate.

93
În cazul în care se dorește și o vizualizare sintetică
a distribuțiilor se poate apela la diagrama boxplot
multiplu: File-New-Syntax
Examine Gen BY An
/PLOT = BOXPLOT.
La final click pe Run.

94
10. Two-way ANOVA (varianță factorială)

Analiza de varianță își propune să pună în evidență


semnificația diferențelor dintre mediile unor eșantioane,
nu pe baza diferenței directe dintre ele, ci pornind de la
împrăștierea (varianța) lor. Cu cât mediile supuse
comparației sunt mai diferite (au o împrăștiere mai mare),
cu atât este mai probabil ca această împrăștiere să fie
datorată „efectului” variabilei independente și nu
hazardului de eșantionare (Popa, 2006, p. 63).
ANOVA multifactorială se aplică atunci când
avem o singură variabilă dependentă (la fel ca în cazul
ANOVA unifactorială) dar două sau mai multe variabile
independente. Exemple: nivelul anxietăți în raport cu
intensitatea fumatului și cu genul. În acest caz, problema
cercetării este dacă intensitatea fumatului și caracteristica
de gen au, împreună, o relație cu nivelul anxietăți. Timpul
de răspuns la un strigăt de ajutor în funcție de natura vocii
care solicită ajutorul (copil, femeie, bărbat) și de genul
(masculin, feminin) persoanei care trebuie să răspundă la
solicitarea de ajutor. Scorul la un test de cunoștințe
statistice ale studenților de la psihologie, în funcție de

95
tipul de liceu absolvit (real, umanist, agricol, artistic) și de
genul (masculin, feminin) studenților (Popa, 2006, p.
204).
ANOVA factorială se distinge prin faptul că pot fi
testate efectele mai multor variabile independente
(factori) asupra unei singure variabile dependente (Sava,
2004, p. 89).

Exemplificare
Să presupunem că dorim să știm dacă există
diferență între popoarele/grupele din Europa privind
nivelul de inteligență. Acest aspect se putea verifica cu
testul ANOVA factorială (one-way). Dacă introducem o
variabilă suplimentară (gen) trebuie să recurgem la
utilizarea testului ANOVA multifactorială pentru a ști
dacă această nouă variabilă independentă va influența
într-un fel rezultatele obținute.
Analyze – Univariate Analysis…
La Dependent Variable se transferă variabila
dependentă iar în zona Fixed Factors variabilele
independente și click pe OK. Rezultatul se poate vizualiza
în imaginea următoare.

96
Interpretarea rezultatelor. Primul rând (Corrected
Model) exprimă efectul global al variabilelor
independente asupra celei dependente și care este
semnificativ statistic (.001), rândul al doilea cu Gen (sau
a doua variabilă independentă) este efectul acestei
variabile asupra variabilei dependente care însă este fără
semnificație statistică (.796), rândul cu Grup reprezintă
efectul acestei variabile asupra variabilei dependente și
este semnificativ statistic (.001) și următorul rând unde
apar cele două variabile combinate (Grup*Gen) conține
efectul cumulat al celor două variabile asupra variabilei
dependente și care este nesemnificativ statistic (.821).
Dacă obțineam de exemplu efect semnificativ statistic la
variabila Gen, puteam continu cu testul t pentru a vedea
în funcție de care gen este influențat efectul global. La
variabila grup, dacă sunt minim 3 grupuri, putem continua
cu One-Way ANOVA.

97
Să presupunem că extindem cazul precedent și
adăugăm o variabilă suplimentară (nivel studii). Astfel
dorim să aflăm dacă variabila dependentă (Nivel IQ) este
influențată de celelalte 3 variabile independente: gen,
grup (români, irlandezi, spanioli și finlandezi) și nivelul
studiilor. După cum se poate vizualiza în tabelul de mai
jos, variabilele independente luate global au înregistrat
semnificație statistică (.001) adică cele trei variabile
influențează semnificativ nivelul de inteligență. Rândul al
doilea cu Gen (sau prima variabilă independentă) exprimă
efectul principal pe care-l are acea variabilă și este
nesemnificativ statistic (.450), rândul cu Grup (sau a doua
variabilă independentă) este efectul acestei variabile
asupra variabilei dependente și care este semnificativ
statistic (.001), rândul cu Nivel_studii este efectul acestei
variabile asupra variabilei dependente și care este
semnificativ statistic (.001). În al cincilea rând apar cele
două variabile combinate (Gen*Grup) și exprimă efectul
acestor două variabile asupra variabilei dependente și este
nesemnificativ statistic (.256), în al șaselea rând apar alte
două variabile combinate (Gen*Nivel_studii) și exprimă
efectul acestor două variabile asupra variabilei

98
dependente și este nesemnificativ statistic (.648), în al
șaptelea rând apar combinate toate cele trei variabile
independente (Gen*Grup*Nivel_studii) și exprimă
efectul acestor trei variabile asupra variabilei dependente
și care este nesemnificativ statistic (.507).

Implicarea a doi sau trei factori necesită un


instrument de analiză care să poată diferenția influența

primului factor, influența celui de-al doilea factor, celui


de-al treilea etc., precum și influența combinată, sau
interacțiunea celor n factori. Din acest motiv, analiza
dispersională bifactorială nu este o simplă juxtapunere a
două analize unifactoriale. Datorită prezenței
interacțiunilor, creșterea numărului de factori complică
foarte mult interpretarea rezultatelor. Pentru trei factori,

99
A, B, C, apar interacțiunile AB, AC, BC, dar și
interacțiunea ABC. Se observă astfel că avem 4
interacțiuni și deci numărul acestora este mai mare decât
numărul inițial de factori. Din acest motiv, utilizarea
analizei dispersionale pentru mai mult de doi factori este
destul de redusă (Clocotici & Stan, 2001, pg. 268-269).
Cum se poate interpreta outputul? În concluzie,
putem spune că analiza de varianţă two-way ANOVA
demonstrează obținerea unui efect global semnificativ
statistic pentru nivelului IQ (F = 20.65, p< 0,001). De
asemenea, sunt semnificative statistic efectul variabilei
Grup (F = 21.99, p< 0,001), a variabilei Nivel_studii (F =
84.43, p< 0,001) și a setului de variabile Grup *
Nivel_studii (F = 22.06, p< 0,001). Efectul celorlalte
variabile separate sau luate împreună nu este semnificativ
statistic (se pot menționa celelalte variabile sau a seturilor
acestora precum și valorile obținute).

100
11. Coeficientul de corelație Pearson

Corelația Pearson (r) evaluează gradul de asociere


dintre două variabile măsurate pe scală de interval/raport.
Aceasta se referă la intensitatea și sensul de variație
concomitentă a valorilor unei variabile în raport cu
cealaltă, după un model de tip liniar. Dacă valorile unei
variabile urmează, în sens direct, crescător, sau invers,
descrescător, valorile celeilalte variabile, atunci cele două
variabile corelează între ele. Domeniul de variație a
coeficientului de intensitate Pearson (r) este între r = -1.00
(corelație perfect negativă) și r = +1.00 (corelație perfect
pozitivă). Absența oricărei legături (corelații) dintre
variabile se traduce prin valori cuprinse între p = .51 -
1.000. Analiza de corelație este o procedură care implică
două măsurări pentru aceiași subiecți, situație care
corespunde așa numitului model de cercetare
“intrasubiecți” (withinsubjects). Testul de corelație
implică două variabile dar, adesea, într-o cercetare
psihologică numărul variabilelor supuse corelației este
mai mare de două. Acest fapt conduce la ceea ce se
numește o matrice de corelații, care este un tabel ale cărui

101
celule cuprind corelațiile dintre perechile de variabile
(Popa, 2006, p. 73).

Condiții
Condiția principală pentru calcularea
coeficientului de corelație liniară Pearson este ca
variabilele implicate să fie măsurate pe scală de
interval/raport (alături de existența unei forme a
distribuției care nu se abate sever de la curba normală).
Deci nu pot fi măsurate variabile nominale. Testele
neparametrice alternative, pentru cazul în care condițiile
pentru utilizarea testului Pearson nu se îndeplinesc, sunt:
testul chi-pătrat (pentru date nominale) sau coeficienții de
corelație al rangurilor Spearman sau Kendall (pentru date
ordinale) (Popa, 2006, p. 73). Corelațiile rangurilor
Spearman se utilizează și pentru eșantioane mici (sub 30)
sau pentru distribuții neuniforme.
Să presupunem că dorim să verificăm dacă există
corelații între următoarele variabile: nota obținută la
examenul PID, numărul de ore alocate învățării, numărul
de referate transmise, numărul de ore petrecut în mediul
online și vârsta studenților. După introducerea datelor, se
102
procedează astfel: Analyze – Bivariate Corelation. Se
transferă în fereastra din dreapta variabilele care se doresc
verificate și se dă click pe OK. Rezultă următorul tabel
Tabelul rezultatelor cuprinde matricea de corelații
a variabilelor analizate. O parte a acestui tabel este
redundantă, deoarece prezintă aceleași corelații de două
ori, odată deasupra diagonalei și, din nou, sub diagonala
tabelului. Corelațiile variabilelor cu ele însele sunt
perfecte și pozitive (r=1.00) și nu prezintă, desigur, nici
un interes. Fiecare celulă include următoarele informații:
valoarea lui r (sau ceea ce apare pe rândul Pearson
Correlation); nivelul p sau probabilitatea cu care valoarea
calculată a lui r apare pe distribuția de nul (apare pe rândul
cu Sig. (2-tailed)); numărul de subiecți (N).

103
Cum se citesc aceste corelații? Mai întâi trebuie
urmărit dacă valoarea lui p (rândul cu Sig.) este mai mică
decât .05 (>0.05). Dacă această valoarea este mai mică de
.05 înseamnă că avem semnificație statistică pentru
varibilele în cauză. Apoi se verifică care este intensitatea
acestei semnificații statistice prin inspectarea cifrei din
primul rând (al fiecări variabile - Pearson Correlation).
Valorile general acceptate pentru r sunt următoarele: între
0 - 0.2 → corelație de intensitate foarte slabă, inexistentă;
între 0.2 - 0.4 → corelație de intensitate slabă; între 0.4 -
0.6 → corelație de intensitate rezonabilă, bună; între 0.6 -
0.8 → corelație de intensitate înaltă și între 0.8 – 1.00 →

104
corelație de intensitate foarte înaltă, relație foarte strânsă
între variabile. Aceste valori pot fi fie pe pozitive indicând
o asociere pozitivă (sau o relație liniară) între variabile, fie
negative indicând o lipsă de asociere între variabile (sau
asociere negativă) și se notează cu r.
În tabelul de mai sus, există următoarele tipuri de
corelații.
1. Corelații pozitive de intensitate foarte
puternică între:
a) Nota și Ore invatare (r=0.89, p=0.001,
N=100);
b) Nota și Nr. referate (r=0.92, p=0.001,
N=100);
c) Ore invatare și Nr. referate (r=0.81,
p=0.001, N=100).
2. Corelație pozitivă de intensitate slabă între Ore
online și Varsta (r=0.22, p=0.026, N=100);
3. Corelații negative de intensitate bună între:
a) Nota și Ore online (r=-0.56, p=0.001,
N=100);
b) Ore invatare și Ore online (r=-0.57, p=0.001,
N=100);

105
c) Nr. referate și Ore online (r=-0.54, p=0.001,
N=100).
4. Corelație negativă de intensitate slabă între
Nota și Varsta (r=-0.21, p=0.034, N=100).

Interpretare
Cum se interpretează aceste corelații? În primul
caz, a) studenții care au obținut notă bună la examenul
PID au alocat un număr apreciabil de ore pentru învățare
PID (implicit PSPP). Adică nota bună indică un număr
mare de ore alocat învățării și invers. În cazul b) nota bună
indică faptul că studenții au avut și un număr maxim de
referate transmise și implicit varianta inversă a fost
valabilă. În cazul c) numărul mare de ore alocate învățării
s-a reflectat și în numărul mare de referate transmise și
situație inversă fiind valabilă.
În al doilea caz, studenții care au petrecut un
număr semnificativ de ore în mediul online au o vârstă
mai mare (și așa probabil se justifică acest demers).
Un aspect important de reținut pentru corelații
negative. Pentru a interpreta corect datele acestor tipuri de
corelații, întotdeauna variabilele care sun înșirate pe
106
rânduri vor avea valori pozitive iar variabilele așezate pe
coloane vor avea valori negative. Altfel spus, cu cât cresc
valorile variabilei așezată pe rând cu atât descrește
valoarea variabilei așezată pe coloană.
În al treilea caz, a) între notele mari ale studenților
și numărul de ore petrecute în mediul online este o relație
invers proporțional. Adică cu cât notele au fost mai mari
cu atât au petrecut mai puține ore în mediul online. În
cazul b) între orele de învățare dedicate PID și numărul de
ore petrecut în mediul online există tot o relație invers
proporțională. Cu cât au fost alocate mai multe ore
învățării cu atât mai puține ore au fost petrecute în mediul
online. În cazul c) cu cât numărul de referate transmis a
fost mai mare cu atât numărul de ore petrecute în mediul
online a fost mai mic.
În al patrulea caz, între notele obținute de studenți
și vârsta acestora există o ușoară relație inversă. Adică
notele mari au fost obținute de studenții cu vârste mai
mici.

107
Supliment

Tabele de contingență/încrucișate

Tabele de contingență (asociere, încrucișare) sunt


tipuri de teste χ2 Pearson și vizează asocierile coloanelor
și liniilor unui tabel cu minim două intrări. Frecvențele
încrucișate sunt între variabile introduse. Semnificația
asocierii apare dacă relația este puternică și eșantionul
suficient de mare (Clocotici). Tabelele încrucișate sunt
utile atunci când dorim sǎ studiem legǎtura dintre douǎ
variabile.
În opinia lui Opariuc “Este greu de definit χ2. A
fost conceput de Pearson și putem afirma, fără să ne
înșelăm prea tare, că statisticile neparametrice încep și se
termină cu χ2, atât de mare este importanța acestui
indicator utilizat în studii corelaționale și factoriale cu
date nominale. Rolul său este esențial în analiza datelor
nominale, coeficientul putând fi folosit în stabilirea
relațiilor dintre două variabile dihotomice, ale unei
variabile dihotomice cu una nominală, și ale celor în care
intervin o variabilă nominală și una ordinală, sau o

108
variabilă nominală și una scalară. Practic, atunci când
avem de a face cu o variabilă nominală, cel mai pertinent
indicator este acest χ2. χ2 este un coeficient de asociere
între două variabile nominale. El măsoară gradul de
contingență al celor două variabile, verificând dacă sunt
sau nu sunt asociate în vreun fel. În realitate, acest
coeficient pare mai degrabă un test statistic decât un
indicator al gradului de asociere. Spre exemplu, avem o
cercetare în care dorim să stabilim în ce măsură se
asociază genul biologic al unor subiecți și calitatea de
fumător. Suntem în situația unei variabile nominale și a
unei variabile dihotomice. În acest caz vom utiliza așa-
numitele tabele de contingență, pe baza cărora vom
calcula χ2” (Opariuc-Dan, 2011, p. 35).
Sǎ presupunem cǎ ne intereseazǎ sǎ studiem
interdependența dintre variabile an de studiu și gen, adică
în care an de studiu predomină un anumit gen. Pentru
aceasta vom apela opțiunea: Analyze - Descriptive
Statistics - Crosstabs. La Rows vom transfera Genul și la
Columns Anul de studiu. Din opțiunile Format și
Statistics nu de/bifăm nimic. Din opțiunea Cells debifăm
Row și Column. Vom obține următoarele rezultate:

109
În tabelul doi se pot vizualiza numărul și ponderile
genurilor pe cei trei ani de studiu. În al treilea tabel se
poate vedea valoare pentru Pearson Chi-Square care este
apropiată de semnificație statistică (p=0.068). De
asemenea mai avem probabilitatea Likelihood Ratio care
este interpretată în mod similar testului Chi-Square.

110
Testul Linear-by-Linear Association este pentru scale
ordinale și presupune intervale egale și ordonate. Testul
de asociere liniar este un test pentru tendințele cu un tabel
mai mare de 2x2 variabile.

Alte opțiuni
Relaţiile stabilite în urma analizei a două variabile
poartă numele de analize bivariate, spre deosebire de
analizele univariate care au în vedere doar o singură
variabilă iar gradul de asociere între două variabile se
bazează pe conceptul ce covarianţă. Măsura standardizată
a covarianţei poartă numele de corelaţie. Coeficientul de
contingenţă χ2 are mai multe forme şi se foloseşte în cazul
variabilelor nominale, în calcule bazate pe tabele de
contingenţă. Este un coeficient nedirecţional şi
nestandardizat (în PSPP se bifează opțiunea Chisq din
fereastra Analyze - Descriptive Statistics – Crosstabs –
Statistics).
Coeficienţii de corelaţie pot fi parametrici şi
neparametrici, după cum cele două variabile îndeplinesc
sau nu condiţiile de aplicare ale statisticilor parametrice.
Coeficientul de corelaţie a rangurilor ρ Spearman (în
111
PSPP se bifează opțiunea Corr din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) se poate
folosi, în general, pentru variabile ordinale provenite din
variabile continui sau pentru variabile continui care nu
îndeplinesc condiţiile necesare aplicării statisticilor
parametrice.
Coeficientul de corelaţie a rangurilor τ Kendall (se
bifează opțiunile BTau și CTau din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) are mai
multe forme, se bazează pe calculul inversiunilor şi al
proversiunilor şi se foloseşte pentru variabile aflate
natural la un nivel de măsură ordinal sau pentru variabile
cantitative care nu îndeplinesc condiţiile de aplicare a
statisticilor parametrice.
Coeficientul de asociere φ (se bifează opțiunea Phi
din fereastra Analyze - Descriptive Statistics – Crosstabs
– Statistics) este o formă standardizată a coeficientului χ2
şi se utilizează, în general, pentru două variabile
dihotomice. În cazul în care una dintre variabile nu mai
este dihotomică, acest coeficient nu are relevanţă.
Coeficientul de contingenţă Pearson (cc) este o variantă a

112
coeficientului φ, care poate fi utilizată pentru variabile cu
mai multe categorii.
Coeficientul de asociere Goodman şi Kruskal (λ)
(se bifează opțiunea Lambda din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) măsoară
reducerea proporţională a erorilor într-un tabel de
contingenţă, fiind folosit pentru variabile strict ordinale în
scop predictiv. Coeficientul de asociere Goodman şi
Kruskal (γ) (se bifează opțiunea Gama din fereastra
Analyze - Descriptive Statistics – Crosstabs – Statistics)
are la bază variabile ordinale, este similar cu τ Kendall şi
se calculează ţinând cont de numărul perechilor
concordante şi discordante. Coeficienţii tetrachoric,
polichoric şi poliserial se folosesc pentru variabile
dihotomice provenind din variabile continui sau pentru
variabile ordinale, condiţia fiind aceea a provenienţei din
variabile continui (Opariuc-Dan, 2011, pg. 157-159).
Coeficientul de asociere Cramer (V) se foloseşte
dacă cel puţin una dintre variabile este polihotomică, fiind
bazat direct pe χ2.
Coeficientul de concordanţă Kendall (W) se
bazează pe ranguri şi permite aprecierea gradului de acord

113
dintre evaluatori. Datele folosite sunt date ordinale.
Coeficientul de corelaţie rang biserială oferă expresia
legăturii dintre o variabilă dihotomică şi o variabilă
ordinală. Coeficientul de corelaţie r Bravais-Pearson este
cel mai cunoscut coeficient de corelaţie pentru date
parametrice şi se foloseşte la analiza legăturilor dintre
două variabile cantitative care îndeplinesc toate condiţiile
aplicării testelor parametrice. Coeficienţii de corelaţie
biserial, punct biserial şi triserial se folosesc pentru
analiza asocierii dintre o variabilă scalară şi o variabilă
nominală, dihotomică sau polihotomică. Diferenţa dintre
aceştia este dată de natura dihotomiei – dihotomie discretă
sau continuă. Coeficientul de corelaţie eneahoric permite
asocierea unor variabile polihotomice, polihotomia fiind
una continuă.

114
12. Interpretarea rezultatelor

Interpretarea rezultatelor statistice este foarte


importantă nu doar în psihologie. Această interpretarea
trebuie să țină cont de câteva reguli și cutume statistice,
de eșantionul cercetat, de variabilele independente și
dependente precum și de testele aplicate. Identificarea și
aplicarea testelor adecvate și interpretarea ulterioară a
rezultatelor statistice sunt două secvențe dintre cele mai
tehnice și specializate din cadrul procesului de cercetare.
În multe cazuri, problema cercetării este influențată de
existența instrumentelor (chestionarelor) potrivite precum
și de identificarea și colaborarea cu eșantionul necesar.
Alte aspecte importante sunt legate de proiectarea
designului cercetării sau mai bine zis identificarea unei
probleme care necesită cercetare, formularea ipotezei
generale și a ipotezelor specifice, validarea sau
invalidarea acestora și sinteza cercetării rezumată în
concluzii alături de evidențierea unor limite și direcții
viitoare de cercetare.
Revenind la aspectele legate de interpretare,
trebuie accentuată ideea că interpretarea este dependentă

115
de problema asumată în cadrul cercetării pentru un anume
eșantion delimitat precum și de ipotezele specifice
formulate.

Interpretarea datelor demografice


În orice lucrare științifică mai întâi sunt
prezentate/descrise/interpretate informațiile demografice
despre eșantionul studiat. Această parte a descrierii poate
să cuprindă grafice, diagrame și analize ale frecvențelor.
Prin astfel de reprezentări trebuie valorificate la maxim
rezultatele obținute din date demografice.
Care ar fi informațiile care pot fi extrase din
diagramele de mai jos? Mai întâi aflăm că în eșantionul
dat avem variabilele gen, categorii de vârstă și studiile
terminate. La variabila gen, putem scrie faptul că sunt 38
(58%) de persoane de gen feminin și 27 (42%) de gen
masculin. La categorii de vârstă sunt 42 (65%) de
persoane din categoria 18-30 de ani și 23 (35%) din
categoria 31-50 de ani. La variabila studii terminate sunt
14 (17%) persoane cu 10 clase, 23 (37%) de persoane cu
studii medii și 28 (46%) de persoane cu studii superioare.
Dacă se dorește aflarea și altor informații demografice
116
despre eșantion ca de exemplu, câte persoane de gen
feminin au studii superioare, medii sau 10 clase, sau câte
persoane din categoria 18-30 de ani sunt de gen masculin
etc., se pot face diverse filtre în baza de date din Excel
pentru a ajunge la rezultatele dorite.

117
50
40 42
65%
30
20 23
35%
10
0

18-30 ani 31-50 ani

Masculin Feminin

27
38 42%
58%

118
28
30 46%

25 23
37%
20

15
14
10 17%
Studii superioare
5
Liceu
10 clase
0

Analize exploratorii
Analiza exploratorie a variabilelor dependente
este recomandată să fie făcută înaintea aplicării testelor
propriu-zise. Analiza exploratorie este recomandată
pentru variabilele dependente și de preferat să nu fie din
categoria celor recodificate ci a celor brute. În unele
cazuri se poate face această analiză și pentru variabile
independente (și de preferat să fie tot din categoria

119
variabilelor brute și nu recodificate). În cazul de mai sus,
această analiză ar merge aplicată la variabila vârstă.
În exemplul de mai jos să presupunem că am făcut
o analiză exploratorie la variabila Note PID.

Cum putem descrie rezultatele obținute. Scorurile


obținute de cei 60 de subiecți variază între (minim) 4 – 10
(maxim). Nota medie este 6.18 (lower bound 95% = 5.67;
upper bound 95% = 6.7) și o abatere medie standard de
.26 puncte. Valoarea mediană de 6 este apropiată de
valoarea mediei aspect care indică o simetrie (Skewness)
ușoară la stânga de .45. din acest aspect se poate deduce

120
predominanța notelor mici aspect care poate fi dedus și
din valoarea negativă ridicată a coeficientului de boltire
(Kurtosis) -1.10 care indică existența unei aplatizate și
predominat negative.
Descrierea de sus este doar un model. Se pot alege
și alte modele ale descrierii analizei exploratorii.
În alte cazuri, se poate crea pentru toate variabilele
analizate prin acest mod, un tabel care să redea sintetic
valorile esențiale (exemplele sunt fictive):

Aba
Vari M Me Var tere Mi Ma Sk K
abil N edi dian iați a ni xi e ur
a a a a stan m m w t
dard
-
Note 6 6.1 3.9 .4 1.
6 2 4 10
PID 0 8 8 5 1
0
-
Var. 6 12. 2.9 1.
10 3.14 7 14 .1
2 0 5 9 1
2

121
Var. 6 15. 1.2 1.
16 2.14 10 20 .2
3 0 7 2 21
Etc.

Aplicarea testelor
După analiza exploratorie, urmează aplicarea
testelor însă nu înainte de menționarea ipotezelor. Pentru
exemplificări, o să mă folosesc de exemplele deja
prezentate în notele de curs
Ipoteza 1. Presupunem că nu există diferență
semnificativă statistic între nivelul IQ-ului europenilor și
o medie a IQ-ului de 96 de puncte.
Pentru verificarea acestei ipoteze a fost utilizat
testul t pentru un singur eșantion. Astfel în urma
rezultatului obținut putem spune că nu există semnificație
statistică între Nivelul IQ al europenilor și media
introdusă (m1=95.74, m2=96, p=.358). Aspectul acesta
reprezintă faptul că estimarea mediei IQ-ului europenilor
a fost corectă și prin urmare valoarea comparativă
introdusă a fost corectă. Astfel ipoteza numărul 1 se
confirmă.

122
Ipoteza 2. Admitem că nivelul IQ-ului spaniolilor
este egal cu cel al românilor.
Această ipoteză a fost verificată prin aplicarea
testului t pentru două eșantioane independente.
În urma neasumării egalității varianțelor (testată
cu testul Levene = 0.001, rezultatele obținute indică faptul
(cu părere de rău) că nivelul IQ al spaniolilor este mai
mare față de cel al românilor (m1 = 94.72, m2 = 90.97, t
= -49.51, df = 58, p = 0.001) aspect rezultat și din
inspectarea tabelului cu mediile celor două grupe. Prin
urmare, ipoteza numărul 2 a fost infirmată. Acest aspect
se traduce prin faptul că poporul spaniol are o inteligență
medie peste cea a poporului român. Însă, după spunea și
Nostradamus, nu este importantă inteligența ci este mai
importantă gena supraviețuitoare la SARS-CoV-2 (citare
fictivă).
Ipoteza 3. Estimăm faptul că testarea IQ-ului
studenților în două condiții diferite (de liniște și de
zgomot) nu va produce rezultate semnificativ diferite
statistic.
Pentru validarea acestei ipoteze a fost utilizat
testul t pentru eșantioane dependente. Înainte de aplicarea

123
testului în cele două momente diferite, au fost create și
pregătite condițiile testărilor în cauză. Astfel în urma
aplicării testului, rezultatele au fost următoarele: m
Liniste = 98.11, m Zgomot = 98.58, df = 159, p = .066.
Cu aceste rezultate care sunt apropiate de semnificație
statistică putem spune că testarea IQ-ului studenților în
cele două condiții este destul de mult influențată de
zgomotul de fundal.
Prin urmare, interpretarea pe care o putem da ar fi
următoare: pentru testarea IQ-ului studenților în cele două
condiții diferite de liniște și zgomot s-a obținut un rezultat
apropiat de semnificație statistică. Astfel putem spune că
în cazul desfășurării testului în condiții de zgomot,
rezultatele studenților tind să fie mai bune. Deși
paradoxal, însă adevărat. Cel mai probabil acești studenți
sunt din generația Z sau chiar generația Alpha care spre
deosebire de mileniali, se simt mai bine și funcționează la
parametrii maximi când în jurul lor au diverse tipuri de
zgomote. În caz contrar, se plictisesc și tind să devină
apatici sau chiar depresivi și deci incapabili să se
concentreze suficient. Această descriere a fost un
exercițiu al imaginației. Detaliile descrierii trebuie să

124
țină cont de cercetarea în ansamblul ei și de întregul
context situațional.
Ipoteza 4. Considerăm că există diferențe
semnificative statistic la nivelul IQ în funcție de
naționalitățile testate.
Pentru testarea ipotezei a fost aplicat testul One-
Way ANOVA și analiza Post-Hoc de comparație multiplă
Bonferroni. Grupul de respondenți a fost împărțit în patru
de naționalități: români, spanioli, finlandezi și irlandezi.
Rezultatul obținut la testul One-Way ANOVA au fost
semnificative statistic pentru F = 16.45 și p = 0.001.
Analiza ulterioară post-hoc Bonferroni pentru cele
patru categorii de naționalități a evidențiat prezența
semnificației statistice pentru următoarele categorii:
- România-Spania (m1= 93.65, m2= 96,
p=.007). Din inspectarea mediilor a rezultat
faptul că românii au o medie inferioară
comparativ cu spanioli. Astfel putem afirma
că…;
- România-Finlanda (m1= 93.65, m2= 98.43,
p=.001)…

125
- Irlanda-Finlanda (m1= 94.87, m2= 98.43,
p=.001)…
- Finlanda-Spania (m1= 98.43, m2=96,
p=.005)…
Ipoteza 5. Prezumăm că există corelații de
intensități variate între Notă, Ore învățare, Număr
referate, Ore petrecute online și Vârstă.
Pentru această ipoteză a fost aplicat testul pentru
corelațiile Pearson Astfel au fost înregistrate următoarele
tipuri de corelație:
1. Corelații pozitive de intensitate foarte bună
între:
a) Nota și Ore invatare (r=0.89, p=0.001,
N=100). Studenții care au obținut notă bună la
examenul PID au alocat un număr apreciabil de
ore pentru învățare PID (implicit PSPP). Adică
nota bună indică un număr mare de ore alocat
învățării;
b) Nota și Nr. referate (r=0.92, p=0.001,
N=100). Nota bună indică faptul că studenții au
avut și un număr maxim de referate transmise;

126
c) Ore invatare și Nr. referate (r=0.81,
p=0.001, N=100). Numărul mare de ore alocate
învățării s-a reflectat și în numărul mare de
referate transmise.
2. Corelație pozitivă de intensitate slabă între Ore
online și Varsta (r=0.22, p=0.026, N=100).
Studenții care au petrecut un număr
semnificativ de ore în mediul online au o
vârstă mai mare;
3. Corelații negative de intensitate bună între:
a) Nota și Ore online (r=-0.56, p=0.001,
N=100). Între notele mari ale studenților și
numărul de ore petrecute în mediul online
este o relație invers proporțional. Adică cu
cât notele au fost mai mari cu atât au petrecut
mai puține ore în mediul online;
b) Ore invatare și Ore online (r=-0.57, p=0.001,
N=100). Între orele de învățare dedicate PID
și numărul de ore petrecut în mediul online
există tot o relație invers proporțională. Cu
cât au fost alocate mai multe ore învățării cu

127
atât mai puține ore au fost petrecute în
mediul online;
c) Nr. referate și Ore online (r=-0.54, p=0.001,
N=100). Cu cât numărul de referate transmis
a fost mai mare cu atât numărul de ore
petrecute în mediul online a fost mai mic.
4. Corelație negativă de intensitate slabă între
Nota și Varsta (r=-0.21, p=0.034, N=100).
Între notele obținute de studenți și vârsta
acestora există o ușoară relație inversă. Adică
notele mari au fost obținute de studenții cu
vârste mai mici
Bineînțeles că descrierea rezultatelor obținute
poate fi foarte creativă și poate varia în funcție de
specificul cercetării, de rezultatele obținute de alți
cercetători care au aplicat aceleași instrumente și de
fiecare cercetător în parte.

128
Bibliografie

Bârsan-Pipu, N. (fără an). Analiza varianţei (ANOVA).


Preluat pe 05 02, 2018, de pe http://universitatea-
cantemir.ro/Cercetare/documente/TEMA%205%
20-%20ANALIZA%20VARIANTEI.pdf
Bolboacă, S. D. (fără an). Statistică descriptivă. Preluat
pe 03 06, 2018, de pe
http://sorana.academicdirect.ro/pages/doc/TD201
4/Curs04.pdf
Bulgaru, O. (2011). Elemente de informatică cu aplicaţii
în ştiinţele sociale. Suport de curs. Chișinău.
Preluat de pe
http://www.crras.usm.md/CRRAS/manualepdf/in
fostat.pdf
Căbulea, L., & Breaz, N. (fără an). Interpretarea
statistică a informaţiilor. Elememnte de data
mining şi prognoză. Modul de instruire nr. 7.
Preluat pe 03 06, 2018, de pe
http://www.uab.ro/cursuri_perfectionare/program

129
_perfectionare_profesionala/pagini/cursuri/Modu
l-7-Cabulea-Breaz/curs_modul7.doc
Clinciu, A. I. (2013). Statistica aplicată în psihologie.
Editura Universităţii Transilvania din Braşov.
Clocotici, V. (2018, 05 15). Asocierea variabilelor
discrete. Preluat de pe profs.info.uaic.ro:
https://profs.info.uaic.ro/~val/statistica/AsocVar
Disc.pdf
Clocotici, V. (fără an). Dicţionar explicativ de statistică.
Preluat pe 03 26, 2018, de pe
https://profs.info.uaic.ro/~val/statistica/StatGloss.
htm
Clocotici, V., & Stan, A. (2001). Statistică aplicată in
psihologie. Polirom.
Gheorghiu, D. (2003). Statistică aplicată în psihologie.
Editurii Universităţii Titu Maiorescu.
Isaic-Maniu, A. (fără an). Prelucrarea primară a datelor
statistice. Preluat pe 03 06, 2018, de pe
www.ase.ro/upcpr/profesori/288/curs2.ppt
Lungu, O. (fără an). SPSS 10.0. Familiarizarea cu
programul spss 10.0.

130
Marian, J. (fără an). Average IQ in Europe by country
(map). Preluat pe 04 22, 2018, de pe
https://jakubmarian.com/average-iq-in-europe-
by-country-map/
Naidin, M. (2011). Introducere în SPSS.
Opariuc-Dan, C. (2011). Statistică aplicată în ştiinţele
socio-umane. Analiza asocierilor şi a diferenţelor
statistice. Constanţa.
Popa, M. (2006). Aplicaţii SPSS - Prezentare generală .
psihologietm.ro. (fără an). Preluat pe 04 24, 2018, de pe
https://www.psihologietm.ro/download/membrii//
Help/index.html
Răulea, C. (2010). Statistică psihologică și prelucrarea
informatizată a datelor.
Sava, F. (2004). Analiza datelor în cercetarea
psihologică. Metode statistice complementare.
Cluj-Napoca: ASCR.

131
Österreichisch-Rumänischer
Akademischer Verein
ISBN 978-3-902938-51-0

S-ar putea să vă placă și