Documente Academic
Documente Profesional
Documente Cultură
Vienna
2020
Author: Mihai COVACI
Publisher:
Österreichisch-Rumänischer Akademischer Verein
ISBN 978-3-902938-51-0
Vienna, 2020
Cuprins
5
Interpretare ........................................................ 106
Tabele de contingență/încrucișate ...................... 108
Alte opțiuni ....................................................... 111
12. Interpretarea rezultatelor .................................. 115
Interpretarea datelor demografice ...................... 116
Analize exploratorii ........................................... 119
Aplicarea testelor............................................... 122
Bibliografie ........................................................... 129
6
1. Aspecte introductive
7
că strângerea datelor nu este suficientă pentru cercetarea
științifică. Chiar și cele mai obiective și mai atent culese
informații, luate ca atare, nu ne pot spune mare lucru.
Pentru a fi utile, datele trebuie să fie organizate, evaluate
și analizate. Fără o bună înțelegere a principiilor analizei
statistice și fără o aplicare corespunzătoare a tehnicilor
statistice, cercetătorul nu va putea înțelege semnificația
datelor culese (Gheorghiu, 2003, p. 5).
Etapele principale ale unei cercetări.
- Etapa formulării problemei de cercetare în care
cercetătorul formulează un enunț al unei probleme sau al
unei întrebări la care cercetarea va încerca să dea un
răspuns. Problema cercetării poate să provină din diferite
surse, incluzând teorii, cercetări anterioare și comenzi de
cercetare.
- Odată ce a fost formulată problema cercetării,
procesul intră într-o a doua etapă, în care se iau decizii
privind proiectul de cercetare și se aleg metodele și
tehnicile de cercetare. În această etapă, cercetătorul decide
ce tipuri de cazuri vor fi incluse în cercetare, cât de multe
cazuri vor fi luate în considerare și în ce mod vor fi
investigate acestea.
8
- După ce au fost investigate toate cazurile și au
fost culese toate datele relevante, statistica devine
realmente și în mod direct importantă pentru analiza
rezultatelor (a treia etapă). Este important de reținut că,
dacă cercetătorul și-a formulat greșit problema sau a
proiectat greșit cercetarea, atunci cele mai sofisticate
analize statistice sunt lipsite de valoare. Oricât ar fi de
utilă, statistica nu se poate substitui conceptualizării
riguroase și nici alcătui un proiect de cercetare
corespunzător problemei avute în vedere (Gheorghiu,
2003, p. 6).
Statistica se folosește preponderent de numere
reale (raționale, întregi, naturale). Termeni de bază:
metode; tehnici; instrumente (Metoda de bază este
ancheta psihologică, iar instrumentul principal este
chestionarul. Pot fi, de asemenea, ghidul de interviu
structurat, fișa de observație etc), codificarea itemilor și a
răspunsurilor; simularea inițială și corectare etc.
Întrebările (sau itemii) sunt de mai multe tipuri: cele care
generează o singură variabilă (sunt întrebările ce necesită
o singură variantă de răspuns); întrebări ce generează mai
multe variabile (sunt întrebările ce permit mai multe
9
variante de răspuns, fiecare variantă generând o
variabilă).
Încadrări
Statistica este disciplina în cadrul căreia datele
sunt culese, înregistrate, grupate, analizate, interpretate
etc., după care sunt extrase variate concluzii și sunt
formulate previziuni. Principalul scop al statisticii
descriptive este de a organiza, sintetiza și structura într-o
manieră clară, intuitivă și organizată datele rezultate din
observație și să le ofere o interpretare logică și inteligibilă.
Pentru aspectele menționate, datele sunt structurate în
tabele, diagrame, grafice, boxplot-uri, tabele, indicatori
numerici etc.
Statistica reprezintă un ansamblu de metode și
tehnici utilizate pentru a colecta, a descrie și a analiza date
obținute în urma unor investigații științifice (Răulea,
2010, p. 8). Statistica este un corp de metode utilizate
pentru a colecta, a descrie și a analiza date numerice din
observații sau investigații științifice. Statistica se
concentrează, prin urmare, asupra reprezentărilor
numerice ale diferitelor aspecte ale realității, adică asupra
10
a ceea ce poate fi numărat, măsurat sau cuantificat
(Clocotici & Stan, 2001, p. 13).
Este necesară definirea unor termenii utilizați în
statistică dintre care (și pentru început) variabilă,
populație și eșantion. O variabilă este orice trăsătură ce
își poate schimba valoarea de la caz la caz. De exemplu,
trăsăturile legate de gen, vârstă, venit etc., sunt variabile.
O populație este un grup ce include toate cazurile de care
este interesat cercetătorul. De exemplu, toți cetățenii
români cu drept de vot, toți studenții unei universități și
toate țările europene sunt populații în înțelesul dat acestui
cuvânt în statistică. În cele mai multe situații de cercetare,
populațiile sunt prea mari pentru a fi cercetate. În astfel de
cazuri, se selectează o submulțime strictă a populației de
referință, numită eșantion sau lot (Gheorghiu, 2003, p.
11).
Tehnicile statistice se împart în două mari clase:
statistici descriptive și statistici inferențiale. Statisticile
descriptive sunt utilizate pentru a prezenta, clasifica și
însuma scorurile (valorile) unei variabile. Dacă ne
interesează descrierea unei singure variabile, atunci vom
folosi statistici descriptive pentru a aranja și prelucra
11
scorurile acelei variabile astfel încât informația relevantă
să poată fi înțeleasă și evaluată rapid. Statisticile
inferențiale sunt utilizate pentru a face generalizări despre
o populație pe baza studiului unui eșantion din acea
populație sau, altfel spus, pentru a trage concluzii despre
caracteristicile unei populații pe baza caracteristicilor
corespunzătoare unui eșantion din acea populație
(Gheorghiu, 2003, p. 11).
Partea aplicativă
Unele variabile sunt discontinue (discrete) cum ar
fi genul (masculin, feminin), mediul (urban, suburban,
rural); altele sunt continue (înălțimea, greutatea, vârsta).
Mulțimea valorilor pe care le poate lua o caracteristică
particulară constituie distribuția variabilei respective.
Fiecare populație are propria sa distribuție pentru fiecare
variabilă. De exemplu știm că la naștere raportul dintre
băieți și fete este de aproximativ de 52 la 48 de procente,
pentru ca acesta să se inverseze după primii ani de viață
din cauza vulnerabilității, și implicit a mortalității mai
mari în rândul sexului masculin. La vârsta a treia acest
raport se dezechilibrează și mai mult, femeile având o
12
speranță de viață cu aproape 10 ani mai mare decât
bărbații. Deci aceeași populație are, în trei momente
diferite ale existenței sale, trei distribuții diferite, în
funcție de aceeași caracteristică, apartenența de gen.
Definirea variabilelor are ca scop formarea
structurii bazei de date a cercetării. A defini o variabilă
înseamnă a-i atribui următoarele proprietăți:
- nume (Name) − o identifică univoc în mulțimea
tuturor variabilelor aferente cercetării;
- tip (Type) − stabilește tipul valorilor variabilei
(numeric, text, dată etc.);
- lungime (Width) − numărul de poziții ocupat de
valoarea variabilei;
- număr zecimale (Decimals) − exactitatea
reprezentării valorilor numerice;
- etichetă (Label) − denumirea deplină a variabilei
(caracteristicii);
- valori (Values) − scala de valori a variabilei (în
cazul variabilelor numerice ea nu se definește)
(Bulgaru, 2011, pg. 121-122).
Histograma este acea reprezentare grafică în care
o serie de date este figurată, într-un sistem de referință bi-
13
sau tridimensional, prin dreptunghiuri de înălțimi
proporționale cu valorile elementare ale seriei. în cazul
general, axa X conține gradațiile scalei de măsură, iar axa
Y gradațiile corespunzătoare seriei de date. Pentru o
distribuție obținută după o scală nominală, gradațiile axei
X sunt categoriile scalei, fiecare reprezentată printr-un
segment, iar axa Y este marcată cu frecvențe absolute,
frecvențe relative sau procentaje. Potrivit numerelor de pe
axa Y vom vorbi despre histograma frecvențelor absolute,
histograma frecvențelor relative sau histograma
procentajelor (Clocotici & Stan, 2001, p. 24).
14
2. Măsurarea și organizarea datelor (scale și
variabile)
15
se atașează un număr și numai unul din mulțimea în care
aceasta ia valori (domeniul variabilei) (Clinciu, 2013, pg.
19-20). Prin urmare, este important de reținut că
răspunsurile subiecților la chestionare (sau alte
instrumente) trebuie transformate în cifre, proces care se
mai numește codificare. În multe cazuri cercetătorul
decide care vor acele cifre care vor realiza corespondența
cu răspunsurile sub forma cuvintelor sau expresiilor.
Proprietățile scalelor
Există trei proprietăți care fac ca scalele de
măsurare să difere între ele:
Magnitudinea. O scală are această proprietate
când putem spune că o caracteristică a atributului măsurat
reprezintă mai mult, mai puțin sau la fel (tot atât, adică
egal) o cantitate sau însușire, comparativ cu o altă stare a
aceluiași atribut. În ceea ce privește talia, de exemplu,
putem afirma că George este mai înalt, mai scund sau la
fel de înalt ca Horia, deci scala înălțimii are proprietatea
magnitudinii. Numerele de pe tricourile fotbaliștilor nu au
în schimb această însușire, deoarece ele sunt atribuite ca
niște etichete, doar pentru identificarea jucătorilor.
16
Intervalele egale. O scală are intervale egale dacă
diferența dintre două puncte aflate pe oricare zonă a scalei
are aceeași semnificație sau valoare, ca diferența dintre
alte două puncte care diferă prin același număr de unități.
De exemplu, diferența dintre anii 1200 și 1400 este egală
cu diferența dintre anii 1800 și 2000, în timp ce diferența
dintre coeficienții de inteligență 50 și 100 nu are aceeași
semnificație ca diferența dintre coeficienții 100 și 150,
după cum nu putem spune că cel cu QI de 100 este de două
ori mai inteligent decât cel cu QI de 50. Psihometricienii
au încercat să ocolească aceste dificultăți și, folosind
tehnici matematice sofisticate, au creat instrumente care
se apropie de cerința unei scale de interval (adică cu
intervale de scală egale).
Zero absolut. Această proprietate este posibil de
evidențiat când variabila măsurată are un nivel la care ea
nu mai există deloc: zero ca distanță înseamnă absența
oricărei distanțe, zero ca ritm cardiac înseamnă moarte,
dar zero ca agresivitate, emoție, curaj, inteligență
(caracteristici umane) este extrem de greu, dacă nu
imposibil, de evidențiat sau de definit (Clinciu, 2013, pg.
20-21).
17
Sistemul de reguli impus de teoria și practica din
domeniu, definește mai multe tipuri de măsurare în funcție
de tipul de scală utilizat: nominală, ordinală, de interval și
de raport. (Clinciu, 2013, p. 20).
Nominale
Trebuie accentuat faptul că între categoriile
(gradațiile) unei scale nominale nu există relație de
ierarhie, ordinea prezentării lor fiind indiferentă, lipsită de
importanță din punctul de vedere al consistenței scalei.
Utilizarea codificării poate crea iluzia unei ierarhii (1 este
mai mic decât 2, a se află înaintea lui b), dar aceasta este
doar o iluzie, utilizată uneori în scopuri de manipulare.
Operațiile admise asupra categoriilor (diviziunilor) unei
scale nominale sunt două: gruparea (condensarea) și
rafinarea (diversificarea). Prin grupare înțelegem acea
operație prin care din două sau mai multe categorii se
obține o singură categorie, care va purta o etichetă nouă,
distinctă de celelalte. Prin repetarea operației de grupare,
o scală nominală cu n categorii se va transforma într-o
scală nominală cu m categorii, m < n. Prin rafinare
înțelegem operația prin care dintr-o categorie se obțin
18
două sau mai multe categorii noi, distinct etichetate. Deci,
prin repetarea operației, o scală nominală cu n categorii se
transforma într-o scală nominală cu m categorii, m > n.
Asupra unei aceleiași scale nominale se pot efectua
consecutiv atât operații de grupare, cât și operații de
rafinare. Operațiile prezentate corespund nevoilor
practice de analiză și sinteză, generalizare și
particularizare etc. (Clocotici & Stan, 2001)
Aspecte importante:
- Scala nominală este mai degrabă una calitativă, ea
fiind de fapt o pre-măsurare;
- Ea se pretează foarte bine pentru datele culese prin
observație, anchetă, chestionar, care vor fi
repartizate în categorii distincte, astfel încât un
element să se afle numai într-o categorie (clasă) și
numai una;
- Literele sau cifrele folosite ca etichetă nu vor face
obiectul calculelor statistice, ci vor servi doar la
reperarea claselor, la determinarea frecvențelor
brute și a celor relative. Fiecare element al unei
clase (categorii) este considerat a fi echivalent cu
toate celelalte din aceeași clasă;
19
- Singurul procedeu matematic de verificare este
așa-numitul test chi pătrat (χ2) (Clinciu, 2013, p.
22).
Exemple de scale-variabile nominale: variabila
gen cu 1=masculin, 2=feminin și 3=nedefinit; variabila
mediu de proveniență cu 1=urban și 2=rural; Starea civilă:
căsătorit, divorțat, văduv, necăsătorit.
Ordinale
Scalele ordinale sunt cunoscute și sub numele de
scale de ordine, scale de rang, scale ierarhice. O scală
ordinală permite ordonarea observațiilor, persoanelor,
situațiilor de la mic la mare, de la simplu la complex, de
la puțin la mult etc., atunci când în empiricul relativ se
introduc, pe lângă relațiile de echivalență, și relații de
ordine. În cazul scalelor ordinale se poate stabili ierarhia
a n gradații ale variabilei, dar nu se precizează (sau nu se
poate preciza) valoarea diferenței dintre două gradații.
Crearea unei scale ordinale presupune, cu prioritate,
stabilirea unei relații de ordine între valorile posibile ale
variabilei studiate. Exemplificăm prin ierarhia nevoilor
20
umane în concepția lui Abraham Maslow. Scala stabilită
de acesta cuprinde, în ordine:
- Nevoi fiziologice;
- Nevoi de securitate;
- Nevoi sociale, de apartenență la un grup;
- Nevoia de stimă, de a fi apreciat de alții;
- Nevoia de a se realiza pe sine, de a concretiza prin
acte și performanțe potențialul de talente și
cunoștințe pe care o persoană crede că le posedă.
Ordinea prezentată este de la simplu la complex.
Prin această scală putem să caracterizăm manifestările
unei persoane în funcție de gradul de saturare
motivațională. Dacă o persoană A este încadrată la nivelul
2, o persoană B la nivelul 3, o altă persoană C la nivelul
4, atunci putem face afirmația că persoana C are
satisfăcute un număr mai mare și mai complex de nevoi
decât persoana B, care este în aceeași situație față de
persoana A. Dar, caracteristic unei scale ordinale, nu
putem preciza cu exactitate cu cât este mai complex C față
de B sau B față de A și nici nu putem compara cele două
diferențe (dintre C și B, dintre A și B) între ele. Un alt
exemplu este cel oferit de Irving Taylor (1959) privind
21
clasificarea creativității după criteriul efectivității
comunicării. Scala are următoarele 5 gradații, ordonate de
la „îngust” la „extins”:
- Creativitate expresivă;
- Creativitate productivă;
- Creativitate inventivă;
- Creativitate novatoare;
- Creativitate emergentă.
Putem sintetiza spunând că operația de realizare a
unei scale ordinale presupune ca observațiile (categoriile)
să poată fi diferențiate unele de altele, la fel ca în cazul
scalelor nominale. Dar apare în plus ordonarea lor, ceea
ce va conferi noi proprietăți măsurătorilor efectuate cu o
scală ordinală. Simbolurile care se atribuie categoriilor
scalei ordinale nu vor mai fi doar diferite, simple etichete,
ci ordonări sau simboluri ordonate. Se preferă numere cu
ordonare general acceptată. Astfel, se pot folosi codurile
1, 2, 3, care pot fi înlocuite prin 5, 9, 12 (păstrând ordinea
naturală), dar în nici un caz nu pot fi substituite prin 4, 3,
7 (șir neordonat). Precizăm încă o dată că aceste coduri
(gradații ale scalei), care trebuie să realizeze doar
ordonarea, nu poartă informații despre distanțele dintre
22
gradații și nu indică precis cantitatea prezentă din
respectiva caracteristică. (Clocotici & Stan, 2001, pg. 30-
32).
Reprezintă (scalele ordinale), după Favèrge,
nivelul cel mai răspândit de măsurare din psihologie și
pedagogie, deoarece valorile din aceste domenii în
majoritatea lor sunt continue și simplu ordonate. Aceasta
permite ca elementele să fie aranjate fie crescător, fie
descrescător, existând și posibilitatea ca mai multe
elemente să ocupe același loc. Numerele asociate
obiectelor și fenomenelor în măsurarea de tip ordinal au
doar semnificația unui rang, adică nu indică mărimi
absolute. Pentru a atribui numerele în serie crescătoare sau
descrescătoare, trebuie ca și caracteristica respectivă să
aibă valori care cresc sau descresc. În scalele de tip Likert,
de exemplu, se pot atribui numere de la 1 la 7, 4
exprimând neutralitatea, numerele mici (3, 2 și 1) –
dezacordul sau insatisfacția tot mai accentuate, în timp ce
numerele mari (5, 6 și 7) – acordul sau satisfacția tot mai
intense. Creșterea regulată a numerelor nu trebuie să
sugereze însă că și caracteristicile respective cresc în
aceeași proporție (Clinciu, 2013, p. 22).
23
Aspecte importante:
- Deoarece scala ordinală nu are o unitate de măsură
constantă, ea nu permite adunarea și scăderea (nu
are proprietatea aditivității);
- Este legitimă însă calcularea frecvențelor brute și
a celor relative (a procentelor) și aplicarea
procedurilor statistice non-parametrice (adică
exprimate calitativ, nu prin numere): coeficientul
de corelație al rangurilor al lui Spearman,
coeficientul de corelație Kendall, testele de
semnificație Mann-Whitney, Wilcoxon,
Kolmogorov-Smirnov etc;
- Centilarea, decilarea - în psihodiagnoză, și nota
școlară - în pedagogie, sunt ilustrările cele mai
frecvente ale utilizării acestui tip de scală în
domeniile amintite;
- Cel mai important indicator al tendinței centrale
este mediana (Clinciu, 2013, p. 23).
Exemple de variabile: ierarhia într-un grup de
animale; calificativ insuficient, suficient, bine și foarte
bine.
24
De interval
Scala de intervale oferă, pe lângă ordinea
categoriilor (la fel cu scala ordinală), distanța dintre
categorii (inexistentă la scala ordinală). Această
proprietate nouă face ca datele experimentale obținute pe
o asemenea scală (numite date de interval) să suporte
prelucrări statistice mai complexe. Utilizatorul unei astfel
de scale are nevoie să compare intervalele determinate
prin respectiva scală, adică diferența dintre numerele pe
care scala le atribuie claselor de observații. Prezentarea
experiențelor anterioare nu duce totuși la concluzia a că în
psihologie nu este posibilă alcătuirea unei scale de
intervale. în realizarea pragurilor diferențiale, limitele
clasei de diferențiere se stabilesc printr-un postulat: în
momentul în care o limită este percepută ca fiind mai mică
sau mai mare în 50% dintre cazuri. Scala de intervale fiind
mai complexă decât scalele discrete, datele măsurate pe
asemenea scale pot suporta cele mai sofisticate tehnici
statistice. După logica generală a prelucrărilor statistice
descriptive, și pentru datele continue sunt urmărite
aspectele privind concentrarea valorilor (tendința centrală
a datelor) și gradul de împrăștiere a valorilor. Apar însă
25
elemente teoretice noi, cum ar fi aprecierea simetriei
distribuției și a gradului de aplatizare. (Clocotici & Stan,
2001).
Aspecte importante:
- Specificul scalei de interval este proprietatea
aditivitățiii (intervalele - și nu valorile! - pot fi
adunate și scăzute). În cazul unui test de
inteligență diferența între un IQ de 100 și unul de
50 este egală cu diferența dintre un IQ de 100 și
unul de 150. Însă nu putem concluziona că un
subiect care a obținut un IQ de 150 este de 1,5 ori
mai inteligent decât un altul care a obținut un IQ
de 100 și nici de 3 ori mai inteligent decât unul
care a obținut un IQ de 50;
- Neexistând un punct zero (care să exprime absența
caracteristicii măsurate), intervalele pot fi
deplasate, extinse sau comprimate, dacă prin
aceasta ele devin mai maniabile sau mai bine
adaptate realității măsurate;
- La acest nivel se pot aplica procedee statistice mai
elaborate, cum ar fi corelația prin produsul
26
momentelor a lui Pearson, testele de semnificație t
și z ale lui Fisher, precum și analiza de regresie;
- Aceasta deoarece la acest nivel se pot determina
media aritmetică, abaterea standard și varianța
(Clinciu, 2013, pg. 23-24).
Exemple de scale-variabile de interval: cele mai
multe caracteristici fizice (greutate; înălțime; timp de
reacție; nivelul adrenalinei etc.).
27
dintre origine și valoarea unui individ pe un continuum
definit după un atribut dat. (Clocotici & Stan, 2001)
Aspecte importante:
- Scalele de raport se cheamă așa pentru că, pe lângă
toate caracteristicile scalelor anterioare, permit
relația de proporționalitate de tipul b/a = c/b = d/c;
- Ele permit toate tipurile de statistici, parametrice
și neparametrice, toate procedeele de verificare și
toți coeficienții de corelație cunoscuți;
- Aceasta deoarece se permite calculul mediei
geometrice și a coeficientului de variație;
- În afara unor situații de excepție (mărimi fizice de
intrare, puse în legătură cu timpul de reacție, de
exemplu), psihologii, pedagogii și sociologii nu
sunt îndreptățiți să folosească un asemenea tip de
scală (Clinciu, 2013, p. 24).
Exemple: 50 de kg este jumătate din 100 de kg;
200C este dublu pentru 100C; scalele Likert 1=dezacord
total, 2=dezacord parțial, 3=neutru, 4=acord parțial,
5=acord total; notele obținute de studenți la examen caz
în care 10 este dublul lui 5 etc.
28
Corespunzător tipurilor de scală amintite, vom
avea tipuri de variabile (nominale, ordinale sau
numerice), care sunt definite de domeniul de variație,
adică de registrul de valori pe care acestea le pot lua. Când
luăm în considerare numărul indivizilor sau al cazurilor
susceptibile de a prezenta această modalitate, vorbim de
domeniul de definiție. De exemplu, la o probă de
motricitate, tapping, numărul de puncte bătute cu mână
dreaptă, adunat cu numărul punctelor bătute cu mâna
stângă ia valori diferite în funcție de vârstă, sex și de
lateralizare (dreptaci sau stângaci). De pildă, la 6 ani acest
număr poate să ia valori de la 10 la 60, acesta fiind
domeniul de variație, în timp ce numărul subiecților ce
înregistrează aceste valori, pentru fiecare punctaj, dă
domeniul de definiție.
O atitudine, considerată ca o variabilă codificată
pe o scală Likert, are mai multe modalități de manifestare,
dar și o populație care prezintă toate aceste modalități.
Deci fiecărui individ din domeniul de definiție putem face
să îi corespundă o modalitate și numai una în domeniul de
variație. Noțiunea de variabilă este însă mai generală
pentru că ea se poate referi fie la o mulțime de date, fie la
29
efective observate, fie la date prezumate, ipotetice,
virtuale. Scalele descrise anterior se referă la date efectiv
observate.
Ion Radu apreciază că „în prelucrarea datelor, în
funcție de cerințele studiului și pentru a ne înscrie într-o
schemă statistică, noi introducem astfel o metrică, adică
tratăm datele ca și cum s-ar situa la nivelul scalei de
interval (…). Se comite astfel o eroare, care practic este
neglijabilă”. Deoarece predicțiile făcute în felul acesta
sunt valide, transformarea respectivă este considerată ca
fiind acceptabilă (Clinciu, 2013, pg. 24-25).
30
În calitatea lui de sistem de referință, grupul oferă
posibilitatea construcției unei tipologii ori a unui tabel de
norme (barem sau etalon). Acestea alcătuiesc așa-
numitele cote standard, ceea ce arată că investigația
individului și a grupului sunt corelative și complementare.
Extragerea informațiilor conținute de datele brute și
organizarea lor într-o colecție/bază de date, presupune
intrarea în funcție a unor proceduri statistice elaborate
(determinarea medianei, a mediei, a abaterii standard și a
varianței, aprecierea măsurii în care cele descoperite pot
fi generalizate și la ce nivel de încredere).
Dacă prin organizarea primară a datelor (ordonare
și grupare) putem face o primă inspecție vizuală a
acestora, căci ele se prezintă ca histograme, poligoane ale
frecvențelor, scattere etc., prin calculul tendințelor aflate
pe centrul distribuției (media, mediana și modul), ca și a
celor aflate spre extreme (amplitudinea împrăștierii,
abaterea standard și dispersia) putem face inferențe
statistice valide, pentru ca prin corelație, analiză factorială
și de cluster să avem o înțelegere mai de adâncime a
relațiilor și a structurilor subiacente. Analiza de varianță,
regresia simplă și multiplă permit, dincolo de sesizarea
31
structurii de adâncime a datelor studiate, predicția unor
legități, așa cum reies din analiza și modelarea lor
matematică (Clinciu, 2013, p. 25).
32
3. Distribuția de normalitate. Mediul de lucru PSPP
De ce se apelează la prelucrarea/vizualizarea
primară în Excel?
- din considerente practice (prezentare sintetică,
publicare, diseminare etc.);
- pentru a studia pe baza graficelor ulterioare
forma funcțiilor de repartiție;
- pentru a “curăța” datele de valorile aberante sau
de “non-răspunsuri” (Isaic-Maniu)
Distribuția normală
O reprezentarea grafică a rezultatelor
măsurătorilor este reprezentată prin forma unei curbe
reale numită curba distribuției (unimodală, multimodală,
aplatizată, înaltă, simetrică, asimetrică etc). În statistică
există un tip special de distribuție, numită distribuție
normală. Această distribuție mai este numită teoretică
pentru că nu este rezultatul unui proces real de măsurare,
ci reprezintă un model teoretic. Proprietățile distribuției
teoretice:
33
- are forma de “clopot” cea ce înseamnă că cea mai
mare parte a valorilor se concentrează în zona
centrală (medie);
- este perfect simetrică pe ambele laturi ale sale
(fiecare parte a mediei se află exact la jumătate
dintre valorile distribuției);
- linia curbei se apropie la infinit de axa OX
(orizontala), fără a o atinge vreodată (Popa, 2006,
pg. 162-163).
34
- Aproximativ 34% dintre scorurile distribuției
normale se află între medie și prima abatere
standard (z=+1 sau –1);
- Între –1z și +1z se află aproximativ 68% dintre
valorile distribuției;
- Aproximativ 95% dintre scoruri se află între –
2z și +2z.
35
NPAR TEST
/MANN-WHITNEY = var list BY var (group1, group2).
În manualul utilizatorului pot fi găsite mai multe
explicații utile.
Importarea datelor din Excel
Datele introduse în Excel trebuie salvate cu
extensia Text (MS-DOS), CSV (Comma delimited), CSV
(MS-DOS). Ulterior, în PSPP din meniul File – Importa
data… se selectează fișierul salvat cu extensia Text (MS-
DOS), se clichează pe Next, Next iar din Select the first
line se dă click pe rândul doi din tabelul afișat și se bifează
opțiunea Line above selected line contains variables
names (stânga jos), Next, Next și Apply. Astfel datele din
tabelul Excel au fost importate cu succes precum și
denumirile variabilelor (a se vedea figura alăturată).
36
Ulterior, se pot face anumite ajustări din opțiunea
afișată în bara de stare Variable View
37
În bara de stare avem două ferestre: Data View și
Variable View. În fereastra/tab-ul Data View se pot
vizualiza variabilele și valorile acestora. În fereastra
Variable View se pot introduce variabilele și
caracteristicile acestora. Astfel în coloana Name se
introduce numele variabilei care trebuie scrisă fără spații.
Dacă există variabile care necesită utilizarea spațiului fie
se anulează spațiul fie se scrie cu underline între cuvinte
(Sindr_Asperger). În coloana Type se selectează tipul
variabilei, care de obicei și de regulă sunt numerice. În
coloana Width se lasă valoarea prestabilită iar în coloana
Decimal este de preferat să se reducă la zero valoarea
zecimalelor. Dacă răspunsurile itemilor includ și zecimale
atunci se poate lăsa un număr de zecimale corespunzător
răspunsurilor la itemi. În coloana Label se poate introduce
denumirea completă a variabilei (Sindromul Asperger). În
această coloană sunt acceptate spațiile între cuvinte etc. În
coloana Value Labels se pot introduce etichetările
răspunsurilor. De exemplu: 1=Masculin, 2=Feminin.
Procedura implică executarea unui dublu click în celula
respectivă după care apare o fereastra unde în coloana
Value se introduce cifra sau răspunsul la item (1) iar în
38
rândul Value Label eticheta scrisă în cuvinte (Masculin)
după care click pe Add. După introducerea primei etichete
se poate repeta operația pentru următoarele etichetări. La
final se dă click pe OK.
În coloana Missing Value se pot introduce valorile
acelor variabile care trebuie excluse din analiză sau se
poate introduce un interval între care acele variabile nu
vor fi ignorate în prelucrarea statistică. În următoarele
două coloane Columns și Align se lasă valorile
prestabilite. În coloana Measure sunt trei opțiuni
disponibile: Nominal, Ordinal și Scale. Opțiunea
presetată este Scale. Pentru primele două opțiuni (nominal
și ordinal) măsurătorile sunt echivalente. Pentru
variabilele de interval și de raport se utilizează
opțiunea/codificarea Scale. În coloana Role se lasă
valoare prestabilită (Input).
De asemenea în fereastra Variable View sunt
dispuse în partea de sus cele 10 meniuri (File, Edit,
View…). Pentru acest stadiu, cele mai importante meniuri
și sub-meniuri de reținut sunt următoarele:
- File – New – Syntax și File – Import Data;
- Data – Weight Cases;
39
- Transform – Recode into Different Variables;
- Analyze cu toate sub-meniurile lui până la K-
Means Cluster;
- Graphs cu toate sub-meniurile lui.
40
4. Măsurători în statistică
41
Măsuri Măsuri
Măsuri de
Măsuri de ale de
centralitate
împrăștiere simetriei localizare
43
simetrică, dacă valorile sunt egal (simetric) răspândite în
jurul tendinței centrale. Atunci când rezultatele tind către
valori mici, sunt aglomerate în partea stângă a distribuției,
avem de a face cu o distribuție asimetrică spre dreapta
(sau distribuție skewness pozitiv). Când rezultatele tind
către valori mari, se aglomerează în partea dreaptă a
distribuției, vorbim despre o distribuție asimetrică la
stânga (skewness negativ). Asimetria este dată de panta
distribuției și nu de vârful acesteia, așa cum tratează și
consideră unii. În figura de mai jos distribuția “B” este o
distribuție simetrică. Distribuția “A” este o distribuție
asimetrică la dreapta (skewness pozitiv), unde predomină
scorurile scăzute, în timp ce distribuția “C” este o
distribuție asimetrică la stânga (skewness negativ), în care
predomină scorurile mari (Naidin, 2011, p. 37).
44
5. Boltirea sau excesul (Kurtosis în engleză) este un
index care arată cât de ascuțită sau turtită este distribuția
scorurilor pentru o variabilă, comparativ cu distribuția
normală. Va fi cu semnul “+” pentru curbe de frecvențe
ascuțite și cu semnul “-” pentru curbe de frecvențe
“turtite”. (Naidin, 2011, p. 27). Termenul folosit generic
pentru acest concept este termenul de kurtosis (din limba
greacă, kurtos = “cocoșat”). Practic, boltirea se referă la
45
aspectul “cocoașei” distribuției rezultatelor. Cocoașa
poate fi ascuțită și atunci putem vorbi de o distribuție
ascuțită sau leptocurtică, poate fi turtită, distribuția turtită,
plată sau platicurtică sau normală, distribuție mezocurtică.
O distribuție normală este întotdeauna o distribuție
mezocurtică. În figura de mai sus, distribuția “C” este o
distribuție leptocurtică, ascuțită. Distribuția “B” este o
distribuție platicurtică, turtită, iar distribuția “A” este o
distribuție normală sub aspectul boltirii sau mezocurtică
(Naidin, 2011, p. 40).
6. Amplitudinea împrăștierii (AI, V sau R) este
rezultatul dintre valorile aflate la extreme (indiferent de
diferența distribuțiilor). Exemple: 6, 6, 7, 7, 8, 8, 8, 9, 9,
10 și 1, 6, 7, 7, 8, 8, 8, 9, 9, 10. În primul caz amplitudinea
este de 10-6 = 4, în al doilea de 10-1 = 9 (Clinciu, 2013,
p. 56).
7. Variația. Verificarea omogenității valorilor
individuale implică analiza împrăștierii datelor
individuale față de valorile centrale calculate. Indicatorii
împrăștierii (variației) utilizați în analizele statistice oferă
o mai bună fundamentare a deciziilor statistice rezolvând
unele probleme de analiză și cunoaștere statistică dintre
46
care menționăm: a) Analiza gradului de omogenitate a
datelor din care s-au calculat indicatorii tendinței centrale
și verificarea reprezentativității acestora ca valori tipice a
seriei respective; b) Compararea în timp și spațiu a mai
multor serii de repartiție după caracteristici independente
sau interdependente; c) Selectarea obiectivă a factorilor
semnificativi de influență, după care se structurează
unitățile unei colectivități statistice, separarea acțiunii
factorilor esențiali și întâmplători și identificarea acțiunii
acestora de la o grupă de unități statistice la alta; d)
Concentrarea valorilor individuale ale caracteristicilor
față de valorile tipice. Reamintim reprezentarea unei
distribuții normale.
8. Deviația sau abaterea standard (estimată) – este o
evaluare a măsurii în care scorurile diferă în medie față de
media scorurilor pentru o variabilă particulară.
Deviația/Abaterea standard poate fi înțeleasă ca acel ±
care apare la estimarea oricărui interval. Exemple: dacă
un curs începe la ora 10 fix, studenți vor ajunge la acel
curs cu un ± de 15 minute. Sau, pauza medie a studenților
este de 15 minute cu un ± de 5 minute. Se mai folosește
exprimarea de media pătratică. Deviația reprezintă
47
distanța dintre un punct dat și medie. Deviația standard
este doar rădăcina pătrată a mediei tuturor deviațiilor la
pătrat (scientia).
9. Eroarea standard a mediei. (ES medie) reprezintă
valoarea medie cu care mediile eșantioanelor extrase
dintr-o populație, diferă față de media populației (Naidin,
2011, p. 28). Această medie este rezultatul împărțirii
deviației standard la radical din numărul de persoane din
eșantion.
10. Coeficientul de variație (variabilitate), notat cu cv
(sau v) se calculează ca raport între abaterea standard și
medie. Poate fi exprimat și procentual conform formulei
𝑐𝑣 = 𝑚𝑠 ∗100 Valoarea acestui coeficient exprimă un raport
procentual dintre abaterea standard și medie. Cu cât este
mai mare, cu atât putem spune că media este mai puțin
reprezentativă pentru distribuția respectivă, dată fiind
ponderea ridicată a împrăștierii (Popa, 2006, pg. 13-14).
11. Cvartilele – reprezintă valorile distribuției pentru
punctele de separare a celor 25%, 50% și 75% celor mai
mici dintre scoruri. Centilele indică punctele de separație
pentru variate valori ale procentelor scorurilor. Exemplu:
al 90-lea centil este valoarea numerică care separă cele
48
90% de valori de dedesubt cu celelalte din punct de vedere
al mărimii. Altfel spus, Cvartilele reprezintă 4 părți,
decilele 10 părți și centilele 100 de părți.
49
19. Interquartilc range (intervalul/amplitudinea
interquartilică - IQR). Valorile extreme sunt eliminate din
calculul acestui indicator. Două serii de date cu același
interval IQR pot să difere semnificativ ca distribuție a
valorilor. Între quartilele 1 și 3 ale distribuției se află 50%
dintre valorile acesteia. Cu cât intervalul quartilic este mai
mare, cu atât valorile sunt mai împrăștiate. Cuartila Q1
este acea valoare dintr-o serie de valori, pentru care 25%
din valorile seriei sunt sub Q1 și 75%, peste. Cuartila Q3
este acea valoare dintr-o serie de valori, pentru care 75%
din valorile seriei sunt sub Q3 și 25%, peste. Diferența
dintre Q3 și Q1 se numeste amplitudine interquartilică și
este o măsură statistică a dispersiei.
50
Boxplot (cu intervale interquartilice) și o funcție de
densitate a probabilități unei populații normale
(Wikipedia)
Calcularea varianței
51
importantă “Din punct de vedere statistic varianța sau
dispersia este egală cu media aritmetică a pătratelor
abaterilor de la media unei distribuții și ea reprezintă
măsura geometrică a suprafeței de sub curba lui Gauss.
Radical din aceasta este Abaterea Standard (AS), care este
o unitate de lungime standardizată a liniei ce definește
lungimea unei distribuții, adică amplitudinea împrăștierii
sale. Ea este notată cu s sau σ (sigma), AS (Abaterea
Standard) sau SD (Sigma Deviation, în engleză)”
(Clinciu, 2013, pp. 60-61).
Etapele calculării variației sunt următoarele:
- calcularea mediei;
- calcularea abaterilor de la medie “Prima dată când
s-au gândit să calculeze varianta, matematicienii au
pornit de la calculul abaterilor simple de la medie.
Pentru aceasta ei au realizat un tabel, diferit de cel al
frecvențelor, în sensul că folosea scorurile și nu
valorile variabilei” (Lungu, p. 22). Dacă, de exemplu,
vrem să aflăm care este numărul de studenți în
grupulețele care formează anul I, aflăm inițial că aceste
grupulețe au următoarele scoruri: 2 3 4 5 7 8 9 11 15.
Prin urmare o să avem o medie de 7 persoane/grup.
52
x 2 3 4 6 5 7 8 9 11 15
x-m - - - - -
0 +1 +2 +4 +8
5 4 3 1 2
Inițial matematicienii au dorit să lucreze cu aceste
abateri simple de la medie, dar după cum se poate observa
unele sunt pozitive, altele sunt negative, astfel că adunate,
ele se anulează una pe alta (aceasta este de altfel si
proprietatea mediei). Atunci o soluție a fost să se ridice la
pătrat aceste abateri simple de la medie, pentru a obține
prin adunare un număr pozitiv (Lungu, p. 23).
x 2 3 4 5 6 7 8 9 11 15
x-m - - -
-5 -4 0 +1 +2 +4 +8
3 2 1
(x-m)2 25 16 9 4 1 0 1 4 16 64
Suma acestor pătrate (SP=Suma Pătratelor sau
notată cu SS (en) Sum of Squares=suma pătratelor) este
140. Ulterior această sumă se divizează (se împarte) la
numărul de scoruri minus unu (10-1) și deci avem
140/9=15.55. Astfel am ajuns la varianța/variația care este
de 15.56. Varianța este rădăcina pătrată a mediei tuturor
deviațiilor la pătrat împărțită la n-1. Ca să aflăm deviația
53
standard (SD) extragem radicalul din 15.56 = 3.94. Așa
am ajuns la SD (Standard Deviation) sau la măsura
gradului de variabilitate a scorurilor care ne arată cât de
mult se abat ele de la tendința centrală. Prin urmare,
numărul de studenți din grupulețele din cadrul anului I
este 7 + 3.94 = 10.94 și 7 – 3.94 = 3.06.
Exemplificări
Pentru a verifica indicatorii tendinței centrale și
pentru a face o analiză exploratorie a unei variabile,
accesăm meniul Analyze – Descriptive Statistics –
Explore… În noua fereastră, transferăm variabila/lele
analizată/e din partea stângă în caseta Dependent List:.
Accesăm butonul Statistics… și din opțiunile apărute
bifăm Descriptives după care click pe Continue. Ulterior,
din fereastra Explore click pe OK.
Să presupunem că dorim să analizăm variabila
Note care are etichetarea Note Psihologia educației. În
cadrul acestei variabile am introdus notele a 30 de studenți
după care accesăm sub-meniul Explore (primul Print
Screen de la stânga la dreapta). Primele două sub-meniuri
(Frequencies și Descritpives) din meniul Descriptives
54
Statistics au în linii mari aceleași funcții ca și sub-meniul
Explore. Din fereastra Explore transferăm variabila Note
în Dependent List:, după care accesăm butonul Statistics
și din fereastra Explore: Statistics bifăm opțiunea
Descriptives și click pe Continue. Ulterior din fereastra
Explore click pe OK. Celelalte opțiuni le lăsăm așa cum
sunt presetate.
55
Rezultatele sau analiza ulterioară se generează în
a doua fereastră (Output Viewer) care la început are de
56
obicei dimensiuni foarte mici (trebuie extinsă prin
opțiunea drag and drop). Rezultatele obținute pe variabila
Note se pot vizualiza în imaginea alăturată. În primul tabel
N reprezintă numărul de cazuri sau subiecți analizați. În
al doilea tabel sunt expuse rezultatele obținute la
tendințele normalității.
57
5. Pragul de semnificație. Modalități de măsurare.
Testarea ipotezei de nul (H0)
58
Reprezentarea grafică însoțește analiza descriptivă
a datelor și este o metodă intuitivă de a observa distribuția
datelor, ea fiind cu atât mai utilă cu cât numărul de date
este în creștere. Alegerea unui anumit tip de grafic se face
în funcție de modul de măsurare a variabilelor, dar și de
aspecte preferențiale, ce țin de subiectivitatea fiecăruia. în
funcție de tipul de date colectate, cele mai întâlnite grafice
sunt: diagrama circulară; histograma (Sava, 2004, pp. 4-
5) și boxplot (pentru intervalul interquartilic-diagrama).
59
Prelucrat după (Clocotici).
60
O problemă în testarea ipotezei nule este
caracterul arbitrar al pragului ales pentru respingerea sau
nerespingerea ipotezei nule. Cel mai frecvent prag ales
este de 0.05 valoare stipulată inițial de Fisher, părintele
statisticii moderne. Ulterior această valoare a fost
fetișizată. Exagerând, am putea spune că publicarea sau
nepublicarea studiilor, evoluția lucrărilor de doctorat sau
licență, fericirea sau nefericirea cercetătorilor au devenit
dependente de acest prag. Există mai multe interpretări
posibile ale acestui prag. Fără a intra în detalii,
interpretarea corectă a unui rezultat semnificativ statistic
poate fi rezumată simplu în expresia: „există o
probabilitate de maximum 5% de a obține din întâmplare
datele observate pornind de la premisa că ipoteza nulă este
adevărată” (Sava, 2004, p. 30).
61
“Conform acestui tabel există probabilitatea de 95
la sută ca o valoare să cadă în intervalul de ±2 față de
medie” (Clinciu, 2013, p. 69).
62
chestionare - dacă sunt determinate din analiza unor
selecții de volum mare și nedistorsionate (experimental
sau natural), tind să se distribuie conform curbei
probabilității normale. De aceea noțiunile statistice de
semnificație și de încredere pot fi exprimate în termeni de
probabilitate, prin referire la caracteristicile curbei lui
Gauss.” (Clinciu, 2013, pg. 68-69). Altfel spus, dacă 95%
din scorurile unui eșantion se includ în două devieri
standard, înseamnă că distribuția este normală. În caz
contrar, distribuția este anormală și deci lipsa
omogenității este mai mare (raportat la o ipoteză).
Semnificația statistică a unui rezultat este
probabilitatea cu care relația dintre două variabile sau
diferența dintre mediile observată va apărea întâmplător
dacă nicio astfel de relație sau diferență nu a existat în
populația din care a fost extras eșantionul. Semnificația
este exprimată ca zecimală. Un rezultat semnificativ este
de obicei considerat existent acolo unde valoarea p (sau
probabilitatea) este <0.05, lucru ce înseamnă că
rezultatele obținute ar avea loc doar din întâmplare mai
puțin de 5% din timp.
63
Alte interpretări posibile ale pragului de
semnificație. Dacă s-ar repeta studiul de 100 de ori (adică
dacă s-ar înregistra 100 de eșantioane, independente și
identic observate) datele obținute pentru 95 de eșantioane
s-ar încadra în același interval de încredere, numai 5 din
cele 100 de eșantioane fiind susceptibile să dea valori în
afara limitelor intervalului de încredere calculat. Cu o
încredere de 95% putem afirma că există diferențe
semnificative între rezultatele obținute de sau la…
Intervalul de încredere reprezintă probabilitate ca 95% din
eșantion să fie în cadrul distribuției normale iar 5% să fie
în afara acestei “normalități”.
Scopul testului statistic este de a dovedi că ipoteza
nulă este falsă. Nu putem afirma că acceptăm ipoteza nulă.
O putem nega sau nu. Testarea unei ipoteze statistice se
face prin compararea a două ipoteze concurente: Ipoteza
nulă – modelul pe care cercetătorul dorește să îl
înlocuiască; Ipoteza alternativă – noul model, menit să
înlocuiască ipoteza nulă.
64
Formularea ipotezelor
În formularea ipotezelor trebuie reținute două
aspecte care țin de etapele logice ale cercetării. Orice
cercetare este precedată de formularea anumitor
presupuneri. Altfel spus, înaintea demarării cercetării
trebuie formulate ipotezele. Subsecvent, sau al doilea
aspect, în formularea ipotezei trebuie introdus un
înțeles/sens al presupunerii, estimării și al nesiguranței
rezultatelor la care se va ajunge.
Astfel, ipotezele se formulează de obicei prin
introducerea la începutul propoziției (sau pe parcursul
formulării) a unor expresii precum: Presupunem…;
Admitem…; Supoziționăm…; Estimăm…;
Considerăm…; Apreciem…; Prezumăm… etc. Exemple
de ipoteze: Presupunem că grupul X este diferit de grupul
Y din punct de vedere al...; Admitem că nu există
diferență semnificativă statistic la dependența de… între
grupul X și Y; Supoziționăm că nu există deosebiri între
cele trei grupe în privința…; Estimăm că există corelații
(pozitive/negative) de intensități diferite între… la…;
Plecând de la faptul că temperamentele sunt implicite,
considerăm că între grupurile de studenți nu există… Etc.
65
Formularea trebuie să fie creativă, succintă și să
surprindă cele trei aspecte vitale ale ipotezei:
eșantionul/ele; variabila/lele; ne/semnificație statistică.
Testarea ipotezelor statistice înseamnă supunerea
ipotezelor unor probe, numite teste statistice, operație în
urma căreia ipoteza se respinge, se acceptă, este validată
parțial sau invalidată parțial. O asemenea decizie se face
întotdeauna în baza calculului intervalului de confidență
ce corespunde unui prag de semnificație ales.
Convenție
Ipoteza că mediile populațiilor din care provin
eșantioanele sunt egale o vom numi ipoteza de nul (notată
totdeauna cu H0).
Ipoteza, sau ipotezele, care epuizează restul
posibilităților le vom numi ipoteze alternative (notate
totdeauna cu H1, H2 etc.).
Dacă testul respinge H0, vom spune că datele
suportă ipoteza că mediile populațiilor sunt diferite.
Dacă testul nu respinge H0, vom spune că datele
nu susțin ipoteza că mediile populațiilor sunt diferite.
66
Ipoteza nulă nu înseamnă ipoteza absenței. Un
aspect mai puțin cunoscut este caracterul restrâns al
sensului acordat ipotezei nule. Cei mai mulți cercetători
înțeleg prin ipoteza nulă absența corelației sau lipsa
diferenței dintre medii. Mai degrabă, ipoteza nulă este
ipoteza care trebuie anulată. Testarea ipotezelor privește
populațiile din care au fost extrase loturile testate Dacă
analiza s-ar fi făcut la nivelul eșantioanelor, nu am fi avut
nevoie de un test de semnificație cu valoare probabilistică,
deoarece asocierile dintre variabile sau diferențele dintre
grupe s-ar fi dedus direct din datele observate. în acest caz
ne-am fi situat la un nivel de analiză descriptiv (Sava,
2004, p. 30).
Codificare variabilelor
Răspunsurile variabilelor se pot recodifica în
funcție de diverse aspecte. Să presupunem că avem
variabila vârsta unde subiecții au răspuns cu diverse
scoruri. Ulterior se poate recodifica această variabilă într-
o nouă variabilă denumită categorii vârstă unde se pot
crea următoarele categorii: 18-20 ani; 21-24 ani; 25-30;
31-40 ani; peste 41-65 ani.
67
Accesăm meniul Transform – Recode into
Different Variables. Transferăm variabila Varsta în caseta
Variables: după care click pe ea ca să fie selectată, și clic
în caseta Name din opțiunea Output Variable. Aici trebuie
dat un nou nume la variabilă care nu trebuie să identic cu
numele vechi. Astfel o să denumim vechea variabilă în
Categorii_varsta. În caseta Label putem face variate
etichetări (Categorii varsta) după care click pe Change.
Ulterior accesăm butonul Old and New Values și la
opțiunea Range introducem valorile minime și maxime
între care vrem să fie prima categorie de vârstă. În cazul
nostru 18-20 iar în caseta Value atribuim acestei categorii
cifra 1 și la final Add. Repetăm procedura și pentru
celelalte categorii iar la final click pe Continue. După
revenire în caseta Recode into Different Variables, click
pe OK. Programul va crea noua variabilă unde vor fi
inserate valorile codificate.
68
69
70
6. Teste statistice. Testul t simplu
71
spune că rezultatul este apropiat de semnificație statistică.
Programele de analiză statistică afișează de obicei cifrele
care apar după punct, ca de exemplu: .023; .051; .999 și
nu întregul șir precum 0.023; 0.051; 0.999.
Dacă p este mai mic decât pragul de semnificație
ales (p<0.05) respingem ipoteza H0 și admitem ca
adevărată ipoteza H1.
Interpretarea valorilor p sau sig. se face la
majoritatea testelor statistice astfel:
- p < 0.05 legătura statistică este semnificativă
(încredere 95%);
- p < 0.01 legătura statistică este foarte
semnificativă (încredere 99%);
- p < 0.001 legătura statistică este înalt
semnificativă (încredere 99.9%);
- p > 0.05 legătura statistică este
nesemnificativă.
Tot ca o convenție, dacă avem o valoare p sau sig.
de 0.000 de obicei se scrie cu 0.001.
Testele t reprezintă o testare a diferenței dintre
două medii. Chiar dacă formulele de calcul sunt diferite,
forma de prezentare a rezultatelor și raționamentul
72
decizional sunt similare pentru cele trei tipuri de situații
(Popa, 2006, p. 48). Condiția de aplicare a testelor t este
normalitatea distribuției. Normalitatea distribuției, după
unii autori, se atinge atunci când eșantionul depășește 40
de subiecți (Gardner&Moore apud (Popa, 2006, p. 48).
Astfel există 3 tipuri de teste t:
1. Testul t pentru un singur eșantion;
2. Testul t pentru două eșantioane independente;
3. Testul t pentru două eșantioane dependente.
73
media care va fi comparată cu media variabilei introduse.
Să presupunem că dorim să comparăm media nivelului
IQ al europenilor cu o medie aleasă întâmplător (96).
74
Se recomandă ca rezultatele sau outputurile din
PSPP să fie salvate în format .pdf sau .html. Dacă se alege
ultima variantă (.html), ulterior aceste rezultate se pot
transfera cu copy-paste într-un document word. Pentru a
salva outputurile se accesează meniul File – Export se
alege locația salvării, se scrie un nume al documentului iar
din Infer file type from extension se alege tipul de fișier
dorit după care click pe save.
75
7. Teste t pentru două eșantioane
76
introducere a datelor pentru subiecții dintr-o grupă și cea
de introducere a datelor din cealaltă grupă); variabila
(dependentă) supusă comparării să fie exprimată numeric
(măsurată prin scală de interval sau scală de proporții)
(psihologietm.ro).
Exemplificare pe nivelul de IQ al europenilor.
Conform unui studiu (Marian), românii au un IQ mediu
de 91, irlandezii 95, spaniolii 98, finlandezii 101 etc.
Analyze – Compare Means – Independent
Samples T Test… În noua fereastră transferăm variabila
Nivel IQ în caseta Test Varables și variabila Grup în
caseta Grouping Variable. Din butonul Define Groups
selectăm cele două grupe propuse pentru comparație
(România și Irlanda) și click pe Continue. Celelalte
opțiuni le lăsăm nemodificate. La final, click pe OK.
La o comparație a testului t pentru două eșantioane
independente (români și irlandezi) a câte 40 de
persoane/eșantion s-au obținut următoarele date:
77
În primul tabel avem definită variabila (Nivel_IQ),
grupurile între care s-a realizat testarea (România și
Irlanda), numărul de subiecți (N), mediile obținute de cele
78
două grupuri (Mean), devierea standard (Std. Deviation)
și media erorii standard (S.E. Mean).
În al doilea tabel, apar două linii cu rezultatele
testului t (Equal variances assumed și Equal variances not
assumed). Pentru a ști care rând trebuie interpretat, se face
mai întâi verificarea egalității varianțelor (testată cu testul
Levene). Dacă probabilitatea asociată testului Levene este
mai mare de p = 0.05 (.05), atunci înseamnă că varianțele
sunt egale, iar rezultatul testului t se citește pe prima linie
(rând). În cazul nostru, avem p = 0.000, ceea ce înseamnă
că nu acceptăm egalitatea varianțelor și astfel se
interpretează rezultatele din rândul doi: t = -49.51, df =
48.40, p = .000 (care se citește de obicei ca 0.001). Pentru
acest exemplu, rezultatul testului t student permite
acceptarea ipotezei cercetării, conform căreia nivelul IQ
al irlandezilor este mai mare față de cel al românilor (m1
= 90.97, m2 = 94.72, t = -49.51, df = 48.40, p = 0.001)
aspect rezultat din inspectarea tabelului cu mediile celor
două grupe.
79
Testul t pentru două eșantioane dependente
Testul t al diferenței mediilor a două eșantioane
dependente permite evaluarea semnificației variației unei
anumite caracteristici, la aceeași subiecți, în două situații
diferite (înainte și după, pre-test și post-test), ori în două
contexte diferite, indiferent de momentul manifestării
acestora. Avantajul major al acestui model statistic este
acela că surprinde variația numită intrasubiect, prin faptul
că baza de calcul reține/măsoară diferența dintre două
valori măsurate pentru fiecare subiect în parte (Popa,
2006, p. 53).
Conform unor specialiști, există trei situații în care
vorbim de eșantioane dependente/perechi: cazul
măsurătorilor repetate (măsurători test-retest, după un
program de formare/intervenție); cazul perechilor
naturale (gemeni univitelini, despărțiți la naștere și
crescuți în familii diferite care implicit le-au imprimat
caracteristicile naturale) și cazul perechilor artificiale
(când studenții sunt examinați în condiții diferite, primul
grup într-o atmosferă plăcută și relaxantă iar al doilea grup
într-o atmosferă tensionată, agresivă etc)
(psihologietm.ro).
80
Condiții esențiale: să fie vorba de compararea a
două grupe; cele două grupe să fie dependente (să existe
o legătura între ordinea de introducere a datelor pentru
subiecții dintr-o grupă și cea de introducere a datelor din
cealaltă grupă); variabila (dependentă) supusă comparării
să fie exprimată numeric (psihologietm.ro).
Exemplificare: să presupunem că un eșantion al
studenților anului I este evaluat la nivelul IQ în două
condiții diferite. În primul caz condițiile vor fi unele de
liniște și un mediu propice. În al doilea caz, condițiile vor
fi de zgomot de toate tipurile, întreruperi neregulate,
insinuări legate de capacitățile lor și de moștenirea
genetică etc. H0: Rezultatele studenților la testul de
inteligență în cele două condiții diferite vor fi egale. H1:
Rezultatele studenților la testul de inteligență în cele două
condiții diferite nu vor fi egale.
81
Analyze – Compare Means – Paired Samples T
Test… În noua fereastră transferăm variabilele Liniste și
Zgomot în caseta Test Pair(s) și lăsăm celelalte opțiuni
nemodificate după care click pe OK.
82
pe care o putem da ar fi următoare: pentru testarea IQ-ului
studenților în cele două condiții diferite de liniște și
zgomot s-a obținut un rezultat apropiat de semnificație
statistică. Astfel putem spune că în cazul desfășurării
testului în condiții de zgomot, rezultatele studenților tind
să fie mai bune (m Liniste = 98.11, m Zgomot = 98.58, df
= 159, p = .066).
83
8. One-way ANOVA (ANOVA unifactorială/simplă)
84
- obținerea rezultatelor cât mai apropiate de realitate
(neinfluențate de anunțarea ipotezei sau de alte
induceri care se pot face în perioada măsurătorilor);
- distribuție normală a valorilor fiecărui grup
comparat (analiza de varianță este robustă dacă
distribuțiile comparate sunt simetrice sau dacă
asimetriile sunt în aceeași direcție, proceduri verificate
cu prin calcularea limitelor de încredere pentru
Skewness și Kurtosis). De reținut faptul că “Cu cât
volumul grupurilor supuse comparației este mai mare,
cu atât aspectele legate de normalitatea distribuției au
un efect mai mic asupra ANOVA” (Popa, 2006, p. 57);
- Omogenitatea dispersiei la nivelul fiecărui grup
(omogenitatea varianței). Încălcarea acestei condiții nu
invalidează testul ANOVA, care este destul de robust
și în acest caz (egalitatea/omogenitatea varianței poate
fi testată cu testul Levene). Pentru situația în care testul
Levene infirmă omogenitatea varianței la nivelul
grupurilor comparate, există alternative (ANOVA) în
testele Brown-Forsythe și Welch (din păcate
indisponibile în PSPP).
85
Procedura
Să presupunem că dorim să știm dacă între cei trei
ani de studiu de la psihologie există diferențe
semnificative din perspectiva genurilor. Analyze –
Compare Means – One Way ANOVA… La Dependent
Variable(s) transferăm variabila dependentă iar la Factor
variabila independentă, bifăm Descriptives și Homogenity
și la final click pe ok. Rezultatul este ceva de genul
86
cazul acesta, valoarea este mai mare de .05 și prin urmare
interpretarea dată este că nu există diferență suficient de
mare între cei trei ani de studiu din perspectiva genurilor.
Alt caz unde se analizează IQ-ul unor grupuri din
UE:
87
În primul tabel (Descriptives) avem definite
grupurile analizate. În al doilea tabel avem omogenitatea
varianței Levene cu semnificație statistică ceea ce
înseamnă că varianța este neomogenă.
Cercetătorul poate fi însă interesat care dintre
grupuri diferă între ele, și în ce sens. Pentru a rezolva
această problemă se efectuează așa numitele comparații
multiple, pe baza unor teste statistice denumite post-hoc,
pentru că, în mod normal, acestea se calculează după
aplicarea procedurii ANOVA. Printre cele mai frecvent
88
utilizate sunt testele: Scheffe, Tukey și Bonferroni
(desigur, se utilizează unul sau altul dintre ele, la alegere)
(Popa, 2006, p. 216).
Având în vedere că testul Levene a infirmat
omogenitatea varianței, se vor citi valorile pentru testul
Bonferroni (în caz contrar, s-ar fi citit cele pentru testul
Tamhane). Din păcate, PSPP nu calculează rezultatele
pentru testul Tamhane, însă ținând cont că diferențele
între testul Bonferroni și Tamhane sunt destul de mici, se
poate aplica testul Bonferroni pentru a determina cu
exactitate între care grupe sunt diferențele statistice. În al
treilea tabel (ANOVA) coloana a patra (Sig.) conține o
valoare care semnificativă statistic. Însă deocamdată nu
știm între care grupe există această diferență statistică.
Pentru a determina diferențele în cauză, sunt două
opțiuni disponibile:
1. File-New-Syntax unde se va scrie
ONEWAY
/VARIABLES=Variabila1 (Nivel_IQ) BY Variabila2 (Grup)
/STATISTICS=DESCRIPTIVES HOMOGENEITY
/POSTHOC = BONFERRONI.
89
și la final Run-All;
2. Sau Paste din fereastra One-Way ANOVA, unde
la sintaxa generată vom adăuga
/POSTHOC=BONFERRONI.
N.B. Înainte de a da click pe Run-All, se vor șterge
rândul liber și punctul dinaintea rândului introdus
(/POSTHOC=BONFERRONI.).
Rezultatul obținut va conține comparații multiple
de unde se vor putea determina semnificațiile statistice
între grupurile în cauză prin interpretarea coloanei Sig.:
90
9. Utilizarea chestionarelor și tipuri de ipoteze
91
analiză statistică. Aceste prelucrări trebuie să țină cont de
felul în care se interpretează chestionarul în cauză. Pentru
eficiență și simplificare, itemii se pot codifica în funcție
de specificul chestionarului. De obicei se pot alege notări
precum I1, I2…, iar pentru răspunsuri cifre arabe. Dacă
pentru fiecare item al chestionarului subiecții au de ales
între patru variante de răspuns, atunci codificarea poate fi
sub forma I1a, I1b, I1c, I1d, I2a, I2b, I2c, I2d…
Pentru analizele parametrice și neparametrice
niciodată nu se importă în programele de analiză statistică
itemii chestionarului. Interpretarea chestionarelor se
bazează de obicei pe însumarea punctajului total sau pe
anumiți itemi. Astfel, în Excel se va însuma punctajul
aferent fiecărui respondent într-o altă coloană. Dacă în
cadrul aceluiași chestionar sunt măsurate mai multe
dimensiuni ale aceleiași caracteristici, se vor crea atâtea
coloane câte dimensiuni sunt măsurate (și care rezultă din
interpretare) și se vor însuma pentru fiecare dimensiune
itemii care țin de fiecare dimensiune în parte. Astfel la
final, se vor importa doar variabilele independente și
coloanele care însumează caracteristicile măsurate și care
vor fi denumite adecvat.
92
Tipuri de ipoteze
Tipuri de ipoteze. Este foarte importantă stabilirea
ipotezei de cercetare care sunt în principal de două tipuri:
unidirecțională (unilaterală) și bidirecționala (bilaterală).
În primul caz, formularea ipotezei va ține cont de un
singur și precis aspect vizat precum: studenții anului I vor
obține rezultate mai bune la statistică față de studenții
anului II. Ipotezele unilaterale presupun formulări precise
precum: A este mai inteligent decât B sau B este mai
chiulangiu decât A. În al doilea caz, sau al ipotezelor
bilaterale, sintagmele formulate sunt mai puțin precise și
nu se arată o direcție foarte precisă a cercetării. Exemple:
există diferențe între studenții anului I și II în ceea ce
privința extraversiei. Se poate constata că nu se indică o
direcție clară, adică mai multă sau mai puțină extraversiei
etc.
Programele statistice întotdeauna calculează
pragul de semnificație pentru o ipoteză de tip bilateral.
Pentru a afla în ce direcție este prezentă semnificația
statistică, vom inspecta mediile grupurilor comparate.
93
În cazul în care se dorește și o vizualizare sintetică
a distribuțiilor se poate apela la diagrama boxplot
multiplu: File-New-Syntax
Examine Gen BY An
/PLOT = BOXPLOT.
La final click pe Run.
94
10. Two-way ANOVA (varianță factorială)
95
tipul de liceu absolvit (real, umanist, agricol, artistic) și de
genul (masculin, feminin) studenților (Popa, 2006, p.
204).
ANOVA factorială se distinge prin faptul că pot fi
testate efectele mai multor variabile independente
(factori) asupra unei singure variabile dependente (Sava,
2004, p. 89).
Exemplificare
Să presupunem că dorim să știm dacă există
diferență între popoarele/grupele din Europa privind
nivelul de inteligență. Acest aspect se putea verifica cu
testul ANOVA factorială (one-way). Dacă introducem o
variabilă suplimentară (gen) trebuie să recurgem la
utilizarea testului ANOVA multifactorială pentru a ști
dacă această nouă variabilă independentă va influența
într-un fel rezultatele obținute.
Analyze – Univariate Analysis…
La Dependent Variable se transferă variabila
dependentă iar în zona Fixed Factors variabilele
independente și click pe OK. Rezultatul se poate vizualiza
în imaginea următoare.
96
Interpretarea rezultatelor. Primul rând (Corrected
Model) exprimă efectul global al variabilelor
independente asupra celei dependente și care este
semnificativ statistic (.001), rândul al doilea cu Gen (sau
a doua variabilă independentă) este efectul acestei
variabile asupra variabilei dependente care însă este fără
semnificație statistică (.796), rândul cu Grup reprezintă
efectul acestei variabile asupra variabilei dependente și
este semnificativ statistic (.001) și următorul rând unde
apar cele două variabile combinate (Grup*Gen) conține
efectul cumulat al celor două variabile asupra variabilei
dependente și care este nesemnificativ statistic (.821).
Dacă obțineam de exemplu efect semnificativ statistic la
variabila Gen, puteam continu cu testul t pentru a vedea
în funcție de care gen este influențat efectul global. La
variabila grup, dacă sunt minim 3 grupuri, putem continua
cu One-Way ANOVA.
97
Să presupunem că extindem cazul precedent și
adăugăm o variabilă suplimentară (nivel studii). Astfel
dorim să aflăm dacă variabila dependentă (Nivel IQ) este
influențată de celelalte 3 variabile independente: gen,
grup (români, irlandezi, spanioli și finlandezi) și nivelul
studiilor. După cum se poate vizualiza în tabelul de mai
jos, variabilele independente luate global au înregistrat
semnificație statistică (.001) adică cele trei variabile
influențează semnificativ nivelul de inteligență. Rândul al
doilea cu Gen (sau prima variabilă independentă) exprimă
efectul principal pe care-l are acea variabilă și este
nesemnificativ statistic (.450), rândul cu Grup (sau a doua
variabilă independentă) este efectul acestei variabile
asupra variabilei dependente și care este semnificativ
statistic (.001), rândul cu Nivel_studii este efectul acestei
variabile asupra variabilei dependente și care este
semnificativ statistic (.001). În al cincilea rând apar cele
două variabile combinate (Gen*Grup) și exprimă efectul
acestor două variabile asupra variabilei dependente și este
nesemnificativ statistic (.256), în al șaselea rând apar alte
două variabile combinate (Gen*Nivel_studii) și exprimă
efectul acestor două variabile asupra variabilei
98
dependente și este nesemnificativ statistic (.648), în al
șaptelea rând apar combinate toate cele trei variabile
independente (Gen*Grup*Nivel_studii) și exprimă
efectul acestor trei variabile asupra variabilei dependente
și care este nesemnificativ statistic (.507).
99
A, B, C, apar interacțiunile AB, AC, BC, dar și
interacțiunea ABC. Se observă astfel că avem 4
interacțiuni și deci numărul acestora este mai mare decât
numărul inițial de factori. Din acest motiv, utilizarea
analizei dispersionale pentru mai mult de doi factori este
destul de redusă (Clocotici & Stan, 2001, pg. 268-269).
Cum se poate interpreta outputul? În concluzie,
putem spune că analiza de varianţă two-way ANOVA
demonstrează obținerea unui efect global semnificativ
statistic pentru nivelului IQ (F = 20.65, p< 0,001). De
asemenea, sunt semnificative statistic efectul variabilei
Grup (F = 21.99, p< 0,001), a variabilei Nivel_studii (F =
84.43, p< 0,001) și a setului de variabile Grup *
Nivel_studii (F = 22.06, p< 0,001). Efectul celorlalte
variabile separate sau luate împreună nu este semnificativ
statistic (se pot menționa celelalte variabile sau a seturilor
acestora precum și valorile obținute).
100
11. Coeficientul de corelație Pearson
101
celule cuprind corelațiile dintre perechile de variabile
(Popa, 2006, p. 73).
Condiții
Condiția principală pentru calcularea
coeficientului de corelație liniară Pearson este ca
variabilele implicate să fie măsurate pe scală de
interval/raport (alături de existența unei forme a
distribuției care nu se abate sever de la curba normală).
Deci nu pot fi măsurate variabile nominale. Testele
neparametrice alternative, pentru cazul în care condițiile
pentru utilizarea testului Pearson nu se îndeplinesc, sunt:
testul chi-pătrat (pentru date nominale) sau coeficienții de
corelație al rangurilor Spearman sau Kendall (pentru date
ordinale) (Popa, 2006, p. 73). Corelațiile rangurilor
Spearman se utilizează și pentru eșantioane mici (sub 30)
sau pentru distribuții neuniforme.
Să presupunem că dorim să verificăm dacă există
corelații între următoarele variabile: nota obținută la
examenul PID, numărul de ore alocate învățării, numărul
de referate transmise, numărul de ore petrecut în mediul
online și vârsta studenților. După introducerea datelor, se
102
procedează astfel: Analyze – Bivariate Corelation. Se
transferă în fereastra din dreapta variabilele care se doresc
verificate și se dă click pe OK. Rezultă următorul tabel
Tabelul rezultatelor cuprinde matricea de corelații
a variabilelor analizate. O parte a acestui tabel este
redundantă, deoarece prezintă aceleași corelații de două
ori, odată deasupra diagonalei și, din nou, sub diagonala
tabelului. Corelațiile variabilelor cu ele însele sunt
perfecte și pozitive (r=1.00) și nu prezintă, desigur, nici
un interes. Fiecare celulă include următoarele informații:
valoarea lui r (sau ceea ce apare pe rândul Pearson
Correlation); nivelul p sau probabilitatea cu care valoarea
calculată a lui r apare pe distribuția de nul (apare pe rândul
cu Sig. (2-tailed)); numărul de subiecți (N).
103
Cum se citesc aceste corelații? Mai întâi trebuie
urmărit dacă valoarea lui p (rândul cu Sig.) este mai mică
decât .05 (>0.05). Dacă această valoarea este mai mică de
.05 înseamnă că avem semnificație statistică pentru
varibilele în cauză. Apoi se verifică care este intensitatea
acestei semnificații statistice prin inspectarea cifrei din
primul rând (al fiecări variabile - Pearson Correlation).
Valorile general acceptate pentru r sunt următoarele: între
0 - 0.2 → corelație de intensitate foarte slabă, inexistentă;
între 0.2 - 0.4 → corelație de intensitate slabă; între 0.4 -
0.6 → corelație de intensitate rezonabilă, bună; între 0.6 -
0.8 → corelație de intensitate înaltă și între 0.8 – 1.00 →
104
corelație de intensitate foarte înaltă, relație foarte strânsă
între variabile. Aceste valori pot fi fie pe pozitive indicând
o asociere pozitivă (sau o relație liniară) între variabile, fie
negative indicând o lipsă de asociere între variabile (sau
asociere negativă) și se notează cu r.
În tabelul de mai sus, există următoarele tipuri de
corelații.
1. Corelații pozitive de intensitate foarte
puternică între:
a) Nota și Ore invatare (r=0.89, p=0.001,
N=100);
b) Nota și Nr. referate (r=0.92, p=0.001,
N=100);
c) Ore invatare și Nr. referate (r=0.81,
p=0.001, N=100).
2. Corelație pozitivă de intensitate slabă între Ore
online și Varsta (r=0.22, p=0.026, N=100);
3. Corelații negative de intensitate bună între:
a) Nota și Ore online (r=-0.56, p=0.001,
N=100);
b) Ore invatare și Ore online (r=-0.57, p=0.001,
N=100);
105
c) Nr. referate și Ore online (r=-0.54, p=0.001,
N=100).
4. Corelație negativă de intensitate slabă între
Nota și Varsta (r=-0.21, p=0.034, N=100).
Interpretare
Cum se interpretează aceste corelații? În primul
caz, a) studenții care au obținut notă bună la examenul
PID au alocat un număr apreciabil de ore pentru învățare
PID (implicit PSPP). Adică nota bună indică un număr
mare de ore alocat învățării și invers. În cazul b) nota bună
indică faptul că studenții au avut și un număr maxim de
referate transmise și implicit varianta inversă a fost
valabilă. În cazul c) numărul mare de ore alocate învățării
s-a reflectat și în numărul mare de referate transmise și
situație inversă fiind valabilă.
În al doilea caz, studenții care au petrecut un
număr semnificativ de ore în mediul online au o vârstă
mai mare (și așa probabil se justifică acest demers).
Un aspect important de reținut pentru corelații
negative. Pentru a interpreta corect datele acestor tipuri de
corelații, întotdeauna variabilele care sun înșirate pe
106
rânduri vor avea valori pozitive iar variabilele așezate pe
coloane vor avea valori negative. Altfel spus, cu cât cresc
valorile variabilei așezată pe rând cu atât descrește
valoarea variabilei așezată pe coloană.
În al treilea caz, a) între notele mari ale studenților
și numărul de ore petrecute în mediul online este o relație
invers proporțional. Adică cu cât notele au fost mai mari
cu atât au petrecut mai puține ore în mediul online. În
cazul b) între orele de învățare dedicate PID și numărul de
ore petrecut în mediul online există tot o relație invers
proporțională. Cu cât au fost alocate mai multe ore
învățării cu atât mai puține ore au fost petrecute în mediul
online. În cazul c) cu cât numărul de referate transmis a
fost mai mare cu atât numărul de ore petrecute în mediul
online a fost mai mic.
În al patrulea caz, între notele obținute de studenți
și vârsta acestora există o ușoară relație inversă. Adică
notele mari au fost obținute de studenții cu vârste mai
mici.
107
Supliment
Tabele de contingență/încrucișate
108
variabilă nominală și una scalară. Practic, atunci când
avem de a face cu o variabilă nominală, cel mai pertinent
indicator este acest χ2. χ2 este un coeficient de asociere
între două variabile nominale. El măsoară gradul de
contingență al celor două variabile, verificând dacă sunt
sau nu sunt asociate în vreun fel. În realitate, acest
coeficient pare mai degrabă un test statistic decât un
indicator al gradului de asociere. Spre exemplu, avem o
cercetare în care dorim să stabilim în ce măsură se
asociază genul biologic al unor subiecți și calitatea de
fumător. Suntem în situația unei variabile nominale și a
unei variabile dihotomice. În acest caz vom utiliza așa-
numitele tabele de contingență, pe baza cărora vom
calcula χ2” (Opariuc-Dan, 2011, p. 35).
Sǎ presupunem cǎ ne intereseazǎ sǎ studiem
interdependența dintre variabile an de studiu și gen, adică
în care an de studiu predomină un anumit gen. Pentru
aceasta vom apela opțiunea: Analyze - Descriptive
Statistics - Crosstabs. La Rows vom transfera Genul și la
Columns Anul de studiu. Din opțiunile Format și
Statistics nu de/bifăm nimic. Din opțiunea Cells debifăm
Row și Column. Vom obține următoarele rezultate:
109
În tabelul doi se pot vizualiza numărul și ponderile
genurilor pe cei trei ani de studiu. În al treilea tabel se
poate vedea valoare pentru Pearson Chi-Square care este
apropiată de semnificație statistică (p=0.068). De
asemenea mai avem probabilitatea Likelihood Ratio care
este interpretată în mod similar testului Chi-Square.
110
Testul Linear-by-Linear Association este pentru scale
ordinale și presupune intervale egale și ordonate. Testul
de asociere liniar este un test pentru tendințele cu un tabel
mai mare de 2x2 variabile.
Alte opțiuni
Relaţiile stabilite în urma analizei a două variabile
poartă numele de analize bivariate, spre deosebire de
analizele univariate care au în vedere doar o singură
variabilă iar gradul de asociere între două variabile se
bazează pe conceptul ce covarianţă. Măsura standardizată
a covarianţei poartă numele de corelaţie. Coeficientul de
contingenţă χ2 are mai multe forme şi se foloseşte în cazul
variabilelor nominale, în calcule bazate pe tabele de
contingenţă. Este un coeficient nedirecţional şi
nestandardizat (în PSPP se bifează opțiunea Chisq din
fereastra Analyze - Descriptive Statistics – Crosstabs –
Statistics).
Coeficienţii de corelaţie pot fi parametrici şi
neparametrici, după cum cele două variabile îndeplinesc
sau nu condiţiile de aplicare ale statisticilor parametrice.
Coeficientul de corelaţie a rangurilor ρ Spearman (în
111
PSPP se bifează opțiunea Corr din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) se poate
folosi, în general, pentru variabile ordinale provenite din
variabile continui sau pentru variabile continui care nu
îndeplinesc condiţiile necesare aplicării statisticilor
parametrice.
Coeficientul de corelaţie a rangurilor τ Kendall (se
bifează opțiunile BTau și CTau din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) are mai
multe forme, se bazează pe calculul inversiunilor şi al
proversiunilor şi se foloseşte pentru variabile aflate
natural la un nivel de măsură ordinal sau pentru variabile
cantitative care nu îndeplinesc condiţiile de aplicare a
statisticilor parametrice.
Coeficientul de asociere φ (se bifează opțiunea Phi
din fereastra Analyze - Descriptive Statistics – Crosstabs
– Statistics) este o formă standardizată a coeficientului χ2
şi se utilizează, în general, pentru două variabile
dihotomice. În cazul în care una dintre variabile nu mai
este dihotomică, acest coeficient nu are relevanţă.
Coeficientul de contingenţă Pearson (cc) este o variantă a
112
coeficientului φ, care poate fi utilizată pentru variabile cu
mai multe categorii.
Coeficientul de asociere Goodman şi Kruskal (λ)
(se bifează opțiunea Lambda din fereastra Analyze -
Descriptive Statistics – Crosstabs – Statistics) măsoară
reducerea proporţională a erorilor într-un tabel de
contingenţă, fiind folosit pentru variabile strict ordinale în
scop predictiv. Coeficientul de asociere Goodman şi
Kruskal (γ) (se bifează opțiunea Gama din fereastra
Analyze - Descriptive Statistics – Crosstabs – Statistics)
are la bază variabile ordinale, este similar cu τ Kendall şi
se calculează ţinând cont de numărul perechilor
concordante şi discordante. Coeficienţii tetrachoric,
polichoric şi poliserial se folosesc pentru variabile
dihotomice provenind din variabile continui sau pentru
variabile ordinale, condiţia fiind aceea a provenienţei din
variabile continui (Opariuc-Dan, 2011, pg. 157-159).
Coeficientul de asociere Cramer (V) se foloseşte
dacă cel puţin una dintre variabile este polihotomică, fiind
bazat direct pe χ2.
Coeficientul de concordanţă Kendall (W) se
bazează pe ranguri şi permite aprecierea gradului de acord
113
dintre evaluatori. Datele folosite sunt date ordinale.
Coeficientul de corelaţie rang biserială oferă expresia
legăturii dintre o variabilă dihotomică şi o variabilă
ordinală. Coeficientul de corelaţie r Bravais-Pearson este
cel mai cunoscut coeficient de corelaţie pentru date
parametrice şi se foloseşte la analiza legăturilor dintre
două variabile cantitative care îndeplinesc toate condiţiile
aplicării testelor parametrice. Coeficienţii de corelaţie
biserial, punct biserial şi triserial se folosesc pentru
analiza asocierii dintre o variabilă scalară şi o variabilă
nominală, dihotomică sau polihotomică. Diferenţa dintre
aceştia este dată de natura dihotomiei – dihotomie discretă
sau continuă. Coeficientul de corelaţie eneahoric permite
asocierea unor variabile polihotomice, polihotomia fiind
una continuă.
114
12. Interpretarea rezultatelor
115
de problema asumată în cadrul cercetării pentru un anume
eșantion delimitat precum și de ipotezele specifice
formulate.
117
50
40 42
65%
30
20 23
35%
10
0
Masculin Feminin
27
38 42%
58%
118
28
30 46%
25 23
37%
20
15
14
10 17%
Studii superioare
5
Liceu
10 clase
0
Analize exploratorii
Analiza exploratorie a variabilelor dependente
este recomandată să fie făcută înaintea aplicării testelor
propriu-zise. Analiza exploratorie este recomandată
pentru variabilele dependente și de preferat să nu fie din
categoria celor recodificate ci a celor brute. În unele
cazuri se poate face această analiză și pentru variabile
independente (și de preferat să fie tot din categoria
119
variabilelor brute și nu recodificate). În cazul de mai sus,
această analiză ar merge aplicată la variabila vârstă.
În exemplul de mai jos să presupunem că am făcut
o analiză exploratorie la variabila Note PID.
120
predominanța notelor mici aspect care poate fi dedus și
din valoarea negativă ridicată a coeficientului de boltire
(Kurtosis) -1.10 care indică existența unei aplatizate și
predominat negative.
Descrierea de sus este doar un model. Se pot alege
și alte modele ale descrierii analizei exploratorii.
În alte cazuri, se poate crea pentru toate variabilele
analizate prin acest mod, un tabel care să redea sintetic
valorile esențiale (exemplele sunt fictive):
Aba
Vari M Me Var tere Mi Ma Sk K
abil N edi dian iați a ni xi e ur
a a a a stan m m w t
dard
-
Note 6 6.1 3.9 .4 1.
6 2 4 10
PID 0 8 8 5 1
0
-
Var. 6 12. 2.9 1.
10 3.14 7 14 .1
2 0 5 9 1
2
121
Var. 6 15. 1.2 1.
16 2.14 10 20 .2
3 0 7 2 21
Etc.
Aplicarea testelor
După analiza exploratorie, urmează aplicarea
testelor însă nu înainte de menționarea ipotezelor. Pentru
exemplificări, o să mă folosesc de exemplele deja
prezentate în notele de curs
Ipoteza 1. Presupunem că nu există diferență
semnificativă statistic între nivelul IQ-ului europenilor și
o medie a IQ-ului de 96 de puncte.
Pentru verificarea acestei ipoteze a fost utilizat
testul t pentru un singur eșantion. Astfel în urma
rezultatului obținut putem spune că nu există semnificație
statistică între Nivelul IQ al europenilor și media
introdusă (m1=95.74, m2=96, p=.358). Aspectul acesta
reprezintă faptul că estimarea mediei IQ-ului europenilor
a fost corectă și prin urmare valoarea comparativă
introdusă a fost corectă. Astfel ipoteza numărul 1 se
confirmă.
122
Ipoteza 2. Admitem că nivelul IQ-ului spaniolilor
este egal cu cel al românilor.
Această ipoteză a fost verificată prin aplicarea
testului t pentru două eșantioane independente.
În urma neasumării egalității varianțelor (testată
cu testul Levene = 0.001, rezultatele obținute indică faptul
(cu părere de rău) că nivelul IQ al spaniolilor este mai
mare față de cel al românilor (m1 = 94.72, m2 = 90.97, t
= -49.51, df = 58, p = 0.001) aspect rezultat și din
inspectarea tabelului cu mediile celor două grupe. Prin
urmare, ipoteza numărul 2 a fost infirmată. Acest aspect
se traduce prin faptul că poporul spaniol are o inteligență
medie peste cea a poporului român. Însă, după spunea și
Nostradamus, nu este importantă inteligența ci este mai
importantă gena supraviețuitoare la SARS-CoV-2 (citare
fictivă).
Ipoteza 3. Estimăm faptul că testarea IQ-ului
studenților în două condiții diferite (de liniște și de
zgomot) nu va produce rezultate semnificativ diferite
statistic.
Pentru validarea acestei ipoteze a fost utilizat
testul t pentru eșantioane dependente. Înainte de aplicarea
123
testului în cele două momente diferite, au fost create și
pregătite condițiile testărilor în cauză. Astfel în urma
aplicării testului, rezultatele au fost următoarele: m
Liniste = 98.11, m Zgomot = 98.58, df = 159, p = .066.
Cu aceste rezultate care sunt apropiate de semnificație
statistică putem spune că testarea IQ-ului studenților în
cele două condiții este destul de mult influențată de
zgomotul de fundal.
Prin urmare, interpretarea pe care o putem da ar fi
următoare: pentru testarea IQ-ului studenților în cele două
condiții diferite de liniște și zgomot s-a obținut un rezultat
apropiat de semnificație statistică. Astfel putem spune că
în cazul desfășurării testului în condiții de zgomot,
rezultatele studenților tind să fie mai bune. Deși
paradoxal, însă adevărat. Cel mai probabil acești studenți
sunt din generația Z sau chiar generația Alpha care spre
deosebire de mileniali, se simt mai bine și funcționează la
parametrii maximi când în jurul lor au diverse tipuri de
zgomote. În caz contrar, se plictisesc și tind să devină
apatici sau chiar depresivi și deci incapabili să se
concentreze suficient. Această descriere a fost un
exercițiu al imaginației. Detaliile descrierii trebuie să
124
țină cont de cercetarea în ansamblul ei și de întregul
context situațional.
Ipoteza 4. Considerăm că există diferențe
semnificative statistic la nivelul IQ în funcție de
naționalitățile testate.
Pentru testarea ipotezei a fost aplicat testul One-
Way ANOVA și analiza Post-Hoc de comparație multiplă
Bonferroni. Grupul de respondenți a fost împărțit în patru
de naționalități: români, spanioli, finlandezi și irlandezi.
Rezultatul obținut la testul One-Way ANOVA au fost
semnificative statistic pentru F = 16.45 și p = 0.001.
Analiza ulterioară post-hoc Bonferroni pentru cele
patru categorii de naționalități a evidențiat prezența
semnificației statistice pentru următoarele categorii:
- România-Spania (m1= 93.65, m2= 96,
p=.007). Din inspectarea mediilor a rezultat
faptul că românii au o medie inferioară
comparativ cu spanioli. Astfel putem afirma
că…;
- România-Finlanda (m1= 93.65, m2= 98.43,
p=.001)…
125
- Irlanda-Finlanda (m1= 94.87, m2= 98.43,
p=.001)…
- Finlanda-Spania (m1= 98.43, m2=96,
p=.005)…
Ipoteza 5. Prezumăm că există corelații de
intensități variate între Notă, Ore învățare, Număr
referate, Ore petrecute online și Vârstă.
Pentru această ipoteză a fost aplicat testul pentru
corelațiile Pearson Astfel au fost înregistrate următoarele
tipuri de corelație:
1. Corelații pozitive de intensitate foarte bună
între:
a) Nota și Ore invatare (r=0.89, p=0.001,
N=100). Studenții care au obținut notă bună la
examenul PID au alocat un număr apreciabil de
ore pentru învățare PID (implicit PSPP). Adică
nota bună indică un număr mare de ore alocat
învățării;
b) Nota și Nr. referate (r=0.92, p=0.001,
N=100). Nota bună indică faptul că studenții au
avut și un număr maxim de referate transmise;
126
c) Ore invatare și Nr. referate (r=0.81,
p=0.001, N=100). Numărul mare de ore alocate
învățării s-a reflectat și în numărul mare de
referate transmise.
2. Corelație pozitivă de intensitate slabă între Ore
online și Varsta (r=0.22, p=0.026, N=100).
Studenții care au petrecut un număr
semnificativ de ore în mediul online au o
vârstă mai mare;
3. Corelații negative de intensitate bună între:
a) Nota și Ore online (r=-0.56, p=0.001,
N=100). Între notele mari ale studenților și
numărul de ore petrecute în mediul online
este o relație invers proporțional. Adică cu
cât notele au fost mai mari cu atât au petrecut
mai puține ore în mediul online;
b) Ore invatare și Ore online (r=-0.57, p=0.001,
N=100). Între orele de învățare dedicate PID
și numărul de ore petrecut în mediul online
există tot o relație invers proporțională. Cu
cât au fost alocate mai multe ore învățării cu
127
atât mai puține ore au fost petrecute în
mediul online;
c) Nr. referate și Ore online (r=-0.54, p=0.001,
N=100). Cu cât numărul de referate transmis
a fost mai mare cu atât numărul de ore
petrecute în mediul online a fost mai mic.
4. Corelație negativă de intensitate slabă între
Nota și Varsta (r=-0.21, p=0.034, N=100).
Între notele obținute de studenți și vârsta
acestora există o ușoară relație inversă. Adică
notele mari au fost obținute de studenții cu
vârste mai mici
Bineînțeles că descrierea rezultatelor obținute
poate fi foarte creativă și poate varia în funcție de
specificul cercetării, de rezultatele obținute de alți
cercetători care au aplicat aceleași instrumente și de
fiecare cercetător în parte.
128
Bibliografie
129
_perfectionare_profesionala/pagini/cursuri/Modu
l-7-Cabulea-Breaz/curs_modul7.doc
Clinciu, A. I. (2013). Statistica aplicată în psihologie.
Editura Universităţii Transilvania din Braşov.
Clocotici, V. (2018, 05 15). Asocierea variabilelor
discrete. Preluat de pe profs.info.uaic.ro:
https://profs.info.uaic.ro/~val/statistica/AsocVar
Disc.pdf
Clocotici, V. (fără an). Dicţionar explicativ de statistică.
Preluat pe 03 26, 2018, de pe
https://profs.info.uaic.ro/~val/statistica/StatGloss.
htm
Clocotici, V., & Stan, A. (2001). Statistică aplicată in
psihologie. Polirom.
Gheorghiu, D. (2003). Statistică aplicată în psihologie.
Editurii Universităţii Titu Maiorescu.
Isaic-Maniu, A. (fără an). Prelucrarea primară a datelor
statistice. Preluat pe 03 06, 2018, de pe
www.ase.ro/upcpr/profesori/288/curs2.ppt
Lungu, O. (fără an). SPSS 10.0. Familiarizarea cu
programul spss 10.0.
130
Marian, J. (fără an). Average IQ in Europe by country
(map). Preluat pe 04 22, 2018, de pe
https://jakubmarian.com/average-iq-in-europe-
by-country-map/
Naidin, M. (2011). Introducere în SPSS.
Opariuc-Dan, C. (2011). Statistică aplicată în ştiinţele
socio-umane. Analiza asocierilor şi a diferenţelor
statistice. Constanţa.
Popa, M. (2006). Aplicaţii SPSS - Prezentare generală .
psihologietm.ro. (fără an). Preluat pe 04 24, 2018, de pe
https://www.psihologietm.ro/download/membrii//
Help/index.html
Răulea, C. (2010). Statistică psihologică și prelucrarea
informatizată a datelor.
Sava, F. (2004). Analiza datelor în cercetarea
psihologică. Metode statistice complementare.
Cluj-Napoca: ASCR.
131
Österreichisch-Rumänischer
Akademischer Verein
ISBN 978-3-902938-51-0