Sunteți pe pagina 1din 81

UNIVERSITATEA TIBISCUS DIN TIMIȘOARA

FACULTATEA DE PSIHOLOGIE

Zvetlana-Mândruţa ANGHEL, Daniel CIUCUR

STATISTICĂ APLICATĂ ÎN PSIHOLOGIE


NOTE DE CURS

TIMIȘOARA
CUPRINS
Modul 1. Scurt istoric despre statistică…………………………………………………….pg.1
Modulul 2. Strategia analizei statistice a datelor…………………………………………pg.13
Modulul 3. Sondajul statistic (eșantionarea)……………………………………………...pg.27
Modulul 4. Dimensionarea eşantioanelor în cercetările psihologice…………………….pg.36
Modulul 5. Inferenţa statistică……………………………………………………………..pg.44
Modul 6. Aplicarea softurilor statistice în cercetare: programul SPSS şi elaborarea unei
baze de date………………………………………………………………………………….pg.57
Modul 7. Utilizarea softurilor statistice în cercetare: modalităţi de reprezentare grafică,
calculul indicatorilor tendinţei centrale, ai dispersiei şi ai distribuţiei…………………pg.61
Modul 8. Utilizarea SPSS în statistica inferenţială: estimarea parametrilor
populaţiei…………………………………………………………………………………..pg.65
Modul 9. Utilizarea SPSS în statistica inferenţială: probleme de comparaţii inter- şi intra-
grup………………………………………………………………………………………….pg.67
Modul 10. Utilizarea SPSS în studiile corelaţionale……………………………………..pg.71
Modul 11. Utilizarea SPSS în analiza designurilor factoriale…………………………..pg.73
Biblografie…………………………………………………………………………………..pg.79
Cerințe pentru evaluarea la disciplina Statistică psihologică............................................pg.80
Modul 1. Scurt istoric despre statistică

Într-o primă concepţie, statistica echivala cu descrierea statului, expunerea situaţiei


geografice, economice şi politice. Acest gen de statistică a fost cultivat mai întâi de italieni. Încă din
sec. XIII - XIV în Republica Veneţia se elaborau diferite rapoarte care conţineau informaţii
privitoare la partenerii săi comerciali şi au fost utilizate în politica comercială oficială.
Curentul "descrierea statului" a atins apogeul în sec. XVII- XVIII când, în Germania, s-a
constituit o adevărată şcoală cunoscută sub denumirea de şcoala descriptivă germană.
Descrierea statului a devenit disciplină de predare acadamică, încadrată într-un sistem
construit după norme teoretice şi practice, care s-au elaborat şi dezvoltat în univerăităţile germane.
Noua disciplină (Staatskunde), a primit numele de statistică (Statistik).
Pe vremea constituirii statisticii ca disciplină descriptivă a statului, se năştea în Anglia, în
afara universităţilor, o statistică cunoscută sub numele de aritmetica politică, a cărui scop era:
analiza datelor de observaţie prin procedee matematice, desprinderea regularităţilor în fenomenul
social şi chiar formularea de previziuni. Studiile demografice lăsau să se întrevadă că previziunea
fenomenelor colective ar putea avea o însemnătate practică; dealtfel tabelele de mortalitate,
întocmite în sec. XVIII au constituit punctul de plecare al înfloritoarei industrii deasigurări.
Folosirea metodei statistice, recurgerea la instrumentul matematic şi căutarea legităţilor marcau un
substanţial progres, prefigurînd statistica modernă.
Este dificil să se dea o definiţie satisfăcătoare statisticii. În limbaj uzual termenul
este folosit pentru a desemna o colecţie de numere referitoare la un anumit domeniu (demografie,
precipitaţii, debite). În sens tehnic (mai precis matematic) statistica este un instrument al
matematicii utilizat pentru prelucrarea şi interpretarea informaţiilor numerice.

Scopul statisticii
Statistica poate fi clasificată în două mari categorii:
- statistica descriptivă
- statistica analitică.
Statistica descriptivă se ocupă de prezentarea, clasificarea şi sintetizarea datelor de
observaţie. Aceasta concentrează informaţia existentă în datele respective cu ajutorul anumitor
indicatori statistici care, în fond, sunt nişte numere ce exprimă caracteristici sau tendinţe ale
fenomenului studiat.
Statistica analitică foloseşte metode matematice (teoria probabilităţilor) pentru extragerea şi
prelucrea informaţiei statistice; în multe cazuri aceste metode pun în evidenţă legităţi statistice.

1
Depăşirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind,
deplasarea gândirii statistice spre interpretarea analitică a fenomenului şi obţinerea de concluzii
inductive, pe baza observaţiilor empirice. Această schimbare de conţinut a făcut ca statistica să se
întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor
sale.
Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria
corelaţiei statistice, ale cărei aplicaţii au permis identificarea unor noi legi de dependenţă, specific
statistice şi adaptate la formele complexe şi variate pe care le oferă natura în diferitele sale
manifestări.
În cercetările moderne se porneşte de la ipoteze statistice asupra fenomenului sau procesului
observat, consecinţele lor logic deduse se compară apoi cu datele disponibile şi dacă sunt în
concordanţă, ipotezele sunt justificate, cel puţin până la noi observaţii mai riguroase.
Unul din obiectivele esenţiale ale statisticii se consideră tocmai măsurarea incertitudinii
concluziilor inductive. De la un timp însă, gîndirea statistică tinde să se preocupe mai puţin de
măsurarea incertitudinii şi mai mult de determinarea riscului de eroare şi a pierderilor implicate de
orice decizie întemeiată pe o informaţie care, prin natura sa, nu poate fi exhaustivă.
Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite
desprinderea de legităţi statistice.
Fenomenele sunt în interconexiune unele cu altele, în sensul că se generează şi se
influenţează reciproc. Acest fapt conduce la noţiunea de cauzalitate care exprimă interacţiunea
dintre cauză şi efect astfel încât întotdeauna cauza să preceadă efectul. Desfăşurarea fenomenelor
constă astfel într-un şir neîntrerupt de momente, într-o succesiune cauză-efect, efectul fiind la rîndul
lui cauză pentru un alt efect ş.a.m.d. Astfel se formează un lanţ cauzal. Orice întrerupere a lanţului
cauzal înseamnă de fapt existenţa unui efect care să nu aibă cauză. Nici un fenomen nu se abate de
la acest principiu care poartă numele de principiul cauzalităţii. Cunoaşterea desfăşurării
evenimentelor este asigurată de cunoaşterea legilor care guvernează fenomenul şi a ansamblului de
condiţii în care se desfăşoară acesta. Deci legea este un element primordial în cunoaşterea
fenomenelor deoarece exprimă raporturile esenţiale, necesare, generale, relativ stabile şi repetabile
ale fenomenelor şi ale desfăşurării lor. Putem deosebi două mari categorii de legi:
- legi fizice, care se aplică fenomenelor şi proceselor individuale luate în parte (ex. legea
atracţiei universale, legile I, II, III ale dinamicii etc.) şi
- legi statistice, care se aplică numai fenomenelor de masă, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrării radioactive, etc.) şi care exprimă anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoaşterea perfectă a desfăşurării viitoare a fenomenelor pe baza
cunoaşterii la momentul iniţial a unor mărimi. Astfel, în mecanică, legea a II-a a lui Newton permite

2
cunoaşterea perfectă a mişcării unui obiect atunci când se cunosc la momentul iniţial poziţia (trei
coordonate) şi viteza sau impulsul (trei proiecţii) obiectului.
Legile statistice permit cunoaşterea desfăşurării viitoare a fenomenelor doar în termeni
probabilistici (probabilităţi, valori medii, erori statistice etc.). Acest lucru indică de la început că
informaţia pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. Cu toate
acestea, legea statistică permite cunoaşterea desfăşurării viitoare a fenomenelor şi poate fi tot atât de
deterministă ca şi cea dinamică.
Particularitatea esenţială a legilor statistice izvorâtă din faptul că ele acţionează în
fenomenele de masă, unde întregul este determinat de unitatea părţilor componente, o constituie
exprimarea comportării ansamblului de unităţi omogene şi nu a fiecărei unităţi în parte. În mod
corespunzător, legea statistică se realizează ca o tendinţă predominantă, ca o necesitate care îşi
croieşte drum printr-un număr foarte mare de contingenţe şi care se manifestă în aceste contingenţe
ca media unui număr mare de abateri întîmplătoare. De aici şi principiul verificat deseori în
practică: legea statistică poate fi evidenţiată dacă şi numai dacă este considerat şi supus observării
un număr mare sau suficient de mare de unităţi elementare ale ansamblului considerat.

Noţiuni elementare
Investigarea statistică presupune, prin definiţie, considerarea fenomenelor în multiplicitatea
şi variabilitatea lor. Un ansamblu de fenomene formează un fenomen de masă, sau, ceea ce numim
populaţie statistică, în măsura în care elementele componente (indivizi) sunt de aceaşi natură, adică
au toate o proprietate comună şi se deosebesc unele de altele în raport cu aspectele sau valorile
caracteristice luate în studiu. Populaţia cu care lucrează statistica trebuie să fie global omogenă - să
includă doar elementele similare, aparţinînd de aceeaşi "categorie" şi intern structurată - elementele
ei să poată fi ordonate potrivit unui sistem de clasificare.
Aşa cum rezultă din cele de mai sus, o însuşire specifică statisticii este aceea că statistica nu
se ocupă cu un element (individ) luat ca atare, ci cu colectivităţi, cu grupuri de elemente ce posedă o
anumită trăsătură comună. Această trăsătură se numeşte caracteristică. Denumirea de "populaţie"
s-a păstrat din timpurile în care statistica se ocupa cu precădere de populaţii în sensul propriu al
cuvîntului. O populaţie poate fi împăţită în subpopulaţii sau populaţii parţiale, care sunt : clase,
grupe şi eşantioane.
O clasă este un subansamblu de elemente ale unei populaţii care conţin o variabliă
determinată de aceeaşi măsură.
Un grup este un subansamblu de elemente ale unei populaţii care se distinge printr-o
manieră de tratare comună.

3
Un eşantion este un subansamblu de elemente ale unei populaţii ales întâmplare. Se apelează
la acest gen de populaţie parţială atunci când populaţia în studiu este prea mare pentrua fi tratată în
ansamblul ei. Studiul asupra eşantionului va fi atribuit întregii populaţii.
Indivizii unei populaţii statistice sunt cercetaţi pentru una sau mai multe caracteristici.
Caracteristicile întâlnite se clasifică în caracteristici cantitative şi calitative. Caracteristicile
cantitative sunt cele care se măsoară numeric (înălţime, greutate, lungimea unui râu etc.) şi se mai
numesc variabile statistice. Caracteristicile calitative nu se măsoară numeric (culoare, sexul unei
persoane etc.). Ele nu reprezintă o măsură a unei entităţi. Dacă se convine să se reprezinte unele din
ele prin numere ataşate la categoriile ce le determină, nu este vorba decât de o "codificare"
procedeul nejustificând operaţiile aritmetice. Aceste caracteristici se mai numesc atribute.
La rândul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete
sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi,
fracţionare), cum ar fi numărul membrilor unei familii, nr. de staţii hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălţimea unui individ, nivelul
unui râu etc.). Totuşi, în practică nu se întâlneşte o informaţie privind adâncimea unui râu de forma:
1m, 3 cm, 17 microni. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care efectuăm
măsurătorile este limitată, fie că o precizie exagerată nu este întotdeauna folositoare pentru ceea ce
urmărim în investigaţie. Astfel, măsurătorile sau datele de observaţie se grupează în cadrul unei
anumite unităţi şi deci din punct de vedere practic se lucrează cu forma discretă chiar dacă
variabilele sunt de tip continuu. Distincţia între caracterul cantitativ şi cel calitativ, precum şi între
variabilele discrete şi variabilele continue este fundamentală deoarece ele recurg la tehnici de
analiză foarte diferite.
Aici trebuie să lămurim un lucru care dă deseori naştere la confuzii: mulţi sunt înclinaţi să
creadă că variabilele discrete trebuie să ia numai valori întregi şi că numerele fracţionare sunt tipice
pentru variabilele continue; cu alte cuvinte diferenţa dintre continuu şi discret se confundă cu
diferenţa dintre măsurătorile cu numere întregi şi cele fracţionare. Să luăm exemplul următor: o
variabilă ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabilă discretă deoarece trecerea de la o
valoare la alta se face fără vreo altă valoare intermediară.
Cercetarea statistică a unei colectivităţi poate fi:
- exhaustivă (totală), când fiecare individ este analizat, de exemplu în cazul
recensămintelor;
- parţială (selectivă), când sunt examinaţi numai anumiţi indivizi, aleşi aleator. Ea este cea
mai frecvent folosită, în majoritatea cazurilor fiind şi singura posibilă.
Partea examinată din colectivitate se numeşte selecţie sau eşantion. Numărul indivizilor
examinaţi se numeşte volumul selecţiei.

4
Analiza seriilor statistice
Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor
(proprietăţilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,
independenţa şi concentrarea/împrăştierea (dispersia) către/faţa de un una sau mai multe valori ale
seriei.
Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe
care îl reprezintă nu este univoc determinat, ci apare ca un rezultat al acţiunii combinate a mai
multor cauze (permanente sau întâmplătoare). Cu cât acţiunea cauzelor întâmplătoare este mai
mare, cu atât variabilitatea este mai mare şi gradul de omogenitate mai mic.
Omogenitatea presupune o variaţie minimă între termeni. Dacă în urma analizei se constată
că o serie nu prezintă omogenitate, înseamnă că în acest caz colectivitatea este formată din mai
multe tipuri calitative şi seria trebuie descompusă în subserii componente.
Independenţa termenilor unei serii provine din faptul că fiecare valoare individuală
reprezintă un element distinct şi obiectiv al unei populaţii statistice. Termenii ce aparţin aceleiaşi
colectivităţi se supun aceloraşi legi care se manifestă sub formă de tendinţă.
Concentrarea/împrăştierea (dispersia) către/faţă de un una sau mai multe valori ale seriei
apare ca rezultat al intensităţii unui efect produs de cauze esenţiale şi întâmplătoare. Acest lucru
determină fercvenţele diferite de apariţie a diferitelor valori din serie. Dacă intensitatea factorilor
este uniformă, frecvenţele de apariţie sunt apropiate. În caz contrar, frecvenţele de apariţie se
concentrează fie la un singur capăt al seriei, fie către o valoare centrală.
Repartiţii de frecvenţe
Există diferenţe între analiza seriilor dinamice şi problemele legate de gruparea şi analizarea
materialelor pentru care factorul timp nu are importanţă. La cercetarea seriilor dinamice problema
de bază o reprezintă analiza variabilei timp.
Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. În cele ce urmează
ne vom ocupa de problemele grupării şi analizei prealabile a datelor numerice pentru care ordinea
de aşezare în timp nu contează.
Datele statistice în stare brută reprezintă o masă dezordonată de materiale. Prima problemă
este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor
în legătură cu problema propusă, să se poată înlesni comparaţia cu alte date de acelaşi gen şi să se
poată obţine posibilitatea unei analize ulterioare. Înainte ca materialul statistic să fie supus analizei
ulterioare şi generalizărilor care vor permite să se facă anumite deducţii, el trebuie să capete o
anumită formă şi o structură clară. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se
ia în considerare atât valorile individuale cât şi frecvenţele de apariţie ale acestora.
În urma observării caracteristicii cantitative X în n probe se obţin următoarele date primare:

5
x1, x2,..., xn
(1)

În cazul în care volumul selecţiei este mic aceste date sunt uşor de manipulat şi nu este
nevoie de o grupare a lor. Dacă însă avem o selecţie de volum mare este greu de lucrat cu aceste
date. În plus tabelele de date primare nu sugerează nimic referitor la referitor la repartiţia variabilei
X. De aceea este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face în funcţie de tipul caracteristicii X. Astfel, dacă X este o variabilă
discretă ce poate lua valorile distincte v1, v2 ,..., vn , atunci în locul datelor iniţiale se va reţine
repartiţia empirică:

 v1.v2 ...vm 
 
 n1.n2 ...nm 
(2)

Unde ni, (i=1, m) reprezintă frecvenţa apariţiei (numărul de apariţii) valorii vi, iar n
reprezintă numărul valorilor din şirul iniţial (1) şi se numeşte frecvenţă absolută a valorii v. Valoare
m reprezintă numărul de clase.
Raportul fj =nj/n dintre frecvenţa absolută şi numărul total de probe se numeşte frecvenţă
relativă. Se observă că
f1 + f2 +…+ fm =1 întrucât n1 +n2 + ... +nm = n.

Frecvenţele relative, numite şi impropriu probabilităţi de apariţie, stau la baza calculării


densităţii de repartiţie a fercvenţelor şi a indicatorilor care exprimă gradul de concentrare. De
asemenea permit compararea a două repartiţii construite pe aceeaşi variabilă, care diferă numai prin
numărul unităţilor pe grupe.

Dacă X este o variabilă continuă care poate lua valori într-un interval [a,b] atunci acest
interval este împărţit în m subintervale [aj, aj+1], j=1, m , cu a1 = a şi am+1 = b. pentru fiecare din
aceste subintervale se determină numărul n al valorilor din şirul (1) care se află în acest interval
numit frecvenţă absolută a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremităţile se iau
echidistante, deci subintervalele au lungimi egale. Însă numărul m al subintervalelor nu se alege la
întîmplare. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiţiei
(dacă m este prea mic se poate denatura repartiţia reală a variabilei X). Astfel, după unii autori
numărul subintervalelor, m, trebuie alese în conformitate cu formula lui Sturges :

6
m=[1 + 3,322logn]

Mărimea intervalului va fi dată de formula:

xmax − xmin
i=
m
N m
11-30 3-4
31-100 4-6
101-500 6-9
501-3000 9-13
3001- 13-20

Tabelul 1. Reprezentarea grafică a repartiţiilor statistice

Există mai multe tipuri de reprezentări grafice a datelor statistice. Dintre acestea prezentăm
histograma, poligonul frecvenţelor şi graficul frecvenţelor cumulate.
Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă
distribuţia empirică prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,
reprezintă subintervalele folosite în centralizarea datelor. Înălţimea hj a dreptunghiului cu baza (aj,
aj+1) este proporţională cu raportul dintre frecvenţa relativă a intervalului şi lungimea sa:
fj
hj = C
a j +1 − a j

constanta C fiind un factor de scară. În cazul când subintervalele grupării au lungimi egale,
înălţimea hj va fi proporţională cu frecvenţa relativă, deci hj =C*fj .

Poligonul frecvenţelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale
intervalelor (aj, aj+1) folosite în grupare, iar pe axa ordonatelor valorile hj definite în construirea
histogramei. Linia frîntă care uneşte punctele de coordonate (vj, hj) se numeşte poligonul
frecvenţelor. El se poate obţine din histogramă unind mijloacele laturilor superioare ale
drptunghiurilor. În fig 1 poligonul frecvenţelor este trasat printr-o linie punctată.
Mărimile c1, c2, ..., cm definite prin:
j
c j =  fi
i =1

se numesc frecvenţe cumulate.

7
Linia frântă obţinută prin unirea punctelor de coordonate (aj+1, cj ] se numeşte graficul
frecvenţelor cumulate.

Caracterizarea repartiţiilor de frecvenţă


Datele (care se referă la diferite domenii ale cunoaşterii) odată aranjate într-o repartiţie de
frecvenţe, scot în evidenţă trăsăturile commune ale tuturor curbelor de repartiţie şi care se supun
unor legi generale. Acest lucru ne permite ca experienţa câştigată într-un anumit domeniu al
cunoaşterii să poată fi extinsă şi în alt domeniu.
La toate curbele însă trebuie să observăm variabilitatea mărimilor care se obţin ca rezultat al
unor măsurători. Cu toate că există variabilitate, se observă o tendinţă a datelor de a se grupa în
centrul curbei (tendinţa centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare
maximă a frecvenţelor, se constată că sunt mai frecvente abaterile mici decât cele mari, că abaterile
în ambele părţi faţă de punctul de concentrare maximă se echilibrează aproape complet şi că
abaterile foarte mari sunt foarte rare. Deoarece frecvenţa variază, vom alege acea mărime care se
întâlneşte cel mai des. Ea va fi măsura tendinţei centrale a repartiţiei. Această mărime, ca şi altele
asemănătoare se numesc indicatori (sau parametrii) de poziţie, deoarece arată poziţia elementelor
principale ale repartiţiei pe axa absciselor.
Caracterul reprezentativ al oricărui indicator de poziţie depinde de cât de strîns i se alătură
celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor în jurul tendinţei centrale.

Indicatorii tendinţei centrale


Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaţie statistică se
face prin calcularea unor medii, în felul acesta făcându-se o compensare a valorilor individuale.
Acest calcul ne arată o anumită tendinţă a fenomenului studiat, media statistică fiind o valoare ce
sintetizează într-o singură expresie numerică toate valorile din seria măsurători sau observaţii.
Termenii seriei diferă de medie deoarece au fost influenţaţi de diferiţi factori.

Media aritmetică
Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice.
Ea este cuprinsă între valoraea cea mai mare şi cea mai mică.
Definiţia 1. Dacă în urma unei selecţii apar valorile distincte x1, x2,..., xn, atunci media
aritmetică este dată de formula:

x1 + x2 + ... + xn 1 n
x= =  xi
n n i =1

8
În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)):

n1v1 + n2v2 + ... + nn vn 1 n


x= =  ni vi
n n i =1

care se mai numeşte medie aritmetică ponderată. Numărul care arată de câte ori se repetă
fiecare valoare (nj) este "ponderea" valorii respective.
Observaţia 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă
termenii sunt prea "împrăştiaţi", tinde să devină o valoare nereprezentativă. Media aritmetică este o
valoare lipsită de conţinut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care
este mai util să se facă medii parţiale pentru fiecare tip de colectivitate.
Observaţia 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie,
fiecare medie va fi ponderată în funcţie de importanţa categoriei sale.

INDICATORII VARIATIEI
O medie este reprezentativă numai atunci când se calculează din valori omogene între ele.
Cu cât fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variaţia este mai
mare şi utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de
‘departe’ sunt valorile sumei statistice faţă de medie. Comparaţia se face cu media seriei,
considerată ca fiind valoarea cea mai reprezentativă pentru populaţia statistică.
Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de
variaţie. Acesti indicatori trebuie să servească la :
- verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice;
- verificarea gradului de omogenitate a seriei;
- caracterizarea statistică a formei şi gradului de variaţie a unui indicator;
- cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor
observate.

Indicatorii simplii ai variaţiei.


Indicatorii simplii ai variaţiei servesc la caracterizarea gradului de împraştiere a mărimilor
seriei statistice. Se pot exprima atât în mărimi absolute cât şi în mărimi relative.
Din aceasta grupa fac parte :
- amplitudinea variaţiei (absolută şi relativă);
- abaterile individuale (absolute şi relative).

9
Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea
minimă al caracteristicii :
Aa = xmax – xmin
Amplitudinea relativa se exprima de regulă în procente şi se calculează ca un raport între
amplitudinea absolută şi media aritmetică :
Aa
Ar=  100
x
Abaterile individuale absolute (di) se calculează ca diferenţa între fiecare valoare şi media
aritmetică :
di = xi - x , i = 1,...,n

Abaterile individuale relative (di%) se calculează ca raportul dintre abaterile individuale


absolute şi media aritmetică (se exprima în procente) :
di
di% =  100 , i = 1,...,n
x
Gradul de variaţie al unei caracteristici depinde de toate abaterile variantelor
înregistrate şi de frecventa lor de aparitie şi prin urmare indicatorii simplii ai variaţiei nu pot
exprima întreaga variaţie a unei populaţii statistice. De aceea a fost necesară introducerea
indicatorilor sintetici ai variaţiei.

Indicatorii sintetici ai variaţiei.


Indicatorii sintetici ai variaţiei, la fel ca şi indicatorii tendintei centrale trebuie să se bazeze
pe toate observaţiile, sa fie usor de calculat, usor de înteles şi să fie cât mai puţin afectati de
fluctuaţiile de selectie.
Indicatorii sintetici ai variaţiei sunt :
- abaterea medie liniară ;
- abaterea medie patratică;
- dispersia;
- coeficientul de variaţie.

Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în
valoare absolută :
- pentru o serie simpla

| x − x |i
d= i =1
n

10
- pentru o serie de frecvenţe absolute :

| i − x | ni
d= i =1
m

n
i =1
i

Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai
mari în valoare absolută influentează în mai mare masură gradul de variaţie a unei caracteristici, în
comparaţie cu abaterile mici. În plus, nu este indicat să se renunţe în mod arbitrar la semnul
valorilor din care se calculează o valoare medie. Din aceste considerente se foloseşte ca principal
indicator sintetic al variaţiei abaterea medie patratică.
Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din
abaterile tuturor elementelor seriei de la media lor aritmetică:

 (x )
2
i −x
σ=
n
Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se
dă o importanţă mai mare abaterilor mari în valoare absolută, acestea influenţând într-o măsura mai
mare gradul de variatie al variabilelor analizate.
În literatura de specialitate se apreciază ca pentru o serie de distribuţie normală abaterea
medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.
Abaterea medie pătratică este un indicator de bază, care se foloseşte la analiza
variaţiei, la estimarea erorilor de selecţie în calculul de corelaţie.
La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a
variabilei a carei variaţie o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie :
coeficientul de variaţie.
Coeficientul de variatie (v) se calculeaza ca un raport între abaterea medie pătratică
şi media aritmetică. De obicei se exprimă sub formă de procente :

v=  100
x
Se mai calculează şi cu relaţia :
d
v’ =  100
x
Semnificaţie. Cu cât valoarea lui v este mai aproape de zero cu atât variaţia este mai slabă,
colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea

11
lui v este mai mare cu atât variaţia este mai intensă, colectivitatea este mai eterogenă, iar media are
un nivel de semnificaţie scăzut.
Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă şi
datele trebuie separate în serii serii componente, pe grupe, în funcţie de variaţia unei alte
caracteristici de grupare.
Deci se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei
grupării. Dacă media aritmetică este aproape de zero, coeficientul de variaţie nu are semnificaţie.
Dispersia(  2 ) este media pătratelor abaterilor de la media aritmetică :

2 =
1
n
 ( 2
xi − x . )
Măsura dispersiei se referă la « împrăştierea » valorilor dintr-un set de date. Media nu are
semnificaţie dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea
medie a oraşelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită
Bucureştiului care are 2.000.000. Însă rezultatul nu are nici o semnificaţie (nici un oraş nu area
această valoare).
Măsurile dispersiei, exprimate sub forma unităţilor de măsură ale fenomenului cercetat, nu
sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea
dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situaţii:
a) şirurile care se compară pot fi exprimate în aceleaşi unităţi, iar mediile pot fi aceleaşi sau
au dimensiuni aproape egale.
b) şirurile care se compară pot fi exprimate în aceleaşi unităţi, însă mediile diferă.
Dacă seriile se exprimă în unităţi diferite, dispersiile nu pot fi comparate direct. De aceea de
multe ori se foloseşte abaterea medie pătratică în loc de dispersie.

În unele lucrări această mărime se numeşte varianţă (din l. engl. variance). Varianţa este o
măsură importantă în special când se studiază variaţia a două sau mai multe eşantioane. O tehnică
statistică foarte puternică este cunoscută sub numele de analiza de varianţă şi utilizează dispersia
pentru a decide dacă un număr de eşantioane diferă semnificativ unul de altul.

12
Modulul 2. Strategia analizei statistice a datelor

Adesea, chiar și cineva care s-a aplecat cu multă conștiinciozitate și interes asupra
studiului statisticii, se află, la finalul efortului său academic, în fața unor întrebări aparent
simple:
A. Cum aleg testul statistic potrivit datelor cercetării?
B. Cum inserez analiza statistică într-o lucrare de cercetare?
O sinteză a răspunsurilor posibile la aceste întrebări ne propunem să facem în cele ce
urmează, cu scopul de a da o orientare strategică privind abordarea analizei statistice a datelor în
cercetarile psihologice.

A. Alegerea testului statistic


În statistică, cel mai simplu este „să aplici formula” și să calculezi rezultatul.
Dificultatea constă în a alege „formula” (a se citi: procedura statistică adecvată scopului
propus și datelor disponibile) și a interpreta rezultatul. Alegerea testului statistic potrivit este adesea
una dintre „încercările” cele mai mari prin care trece un tânăr cercetator. Nu de puține ori, aceasta
este chiar prima problemă pe care și-o pune, fără să își dea seama că face, de fapt, prima mare
greșeală. Alegerea testului statistic nu este prima, ci ultima problemă pe care trebuie să o rezolve!
Este adevarat că, pentru a rezolva această problemă sunt necesare cunoștințe de psihologie
experimentală, dar și experienţă de laborator, precum şi însuşirea corectă a elementelor de bază ale
psihologiei experimentale şi statisticii. Totuși, situatia poate fi mult ușurată dacă se urmează o serie
de raționamente și reguli de bază, pe care le vom prezenta în continuare.

1. Punctul de pornire este formularea ipotezei. Aceasta derivă din problema cercetării și
se exprimă sub forma răspunsului pe care, în mod legitim, cercetătorul se așteaptă să îl
confirme cu ajutorul datelor statistice.

Exemplu:
- Problema cercetarii: Într-un centru de dializă se observă că pacienții manifestă simptome
specifice tulburării anxioase.
- Modelul (designul) cercetării: Un program de reducere a anxietății bazat pe exerciții de
relaxare, prezentate pe casete video este introdus de cercetător. Se aplică un chestionar de evaluare
a anxietății membrilor grupului studiat care va urma programul, înainte şi executarea programului.
- Ipoteza cercetarii: Exercițiile de relaxare reduc nivelul anxietății la pacienții dializați

13
2. Se identifică variabilele cercetării. Pentru exemplul de mai sus:
- Variabila independentă este programul de relaxare introdus de cercetător
- Variabila dependenta este „nivelul anxietatii”, măsurată pe o scală de interval/raport

3. Se recoltează datele cercetării, având grijă să fie respectate toate condițiile și criteriile
care să asigure corectitudinea acestora. Orice eroare în această fază (în special cu privire la
constituirea eșantionului, dar și legată de motivarea subiecților, corectitudinea înregistrărilor etc.) se
vor traduce în dificultati insurmontabile în faza de prelucrare și analiză a datelor. În cazul nostru, se
va acorda atenție constituirii grupurilor de studiu, având grijă ca acestea să nu difere sub aspectul
unor aspecte care pot influența efectul relaxării (vârsta, nivel de instruire, sex, severitate a bolii
etc.).

4. Se sintetizează datele cercetării și se trece la prelucrarea acestora. Fazele obligatorii


ale acestor prelucrări sunt urmatoarele:
• analiza preliminară a variabilelor, cu ajutorul procedurilor statistice descriptive,
având drept principale scopuri verificarea corectitudinii datelor;
• evidențierea caracteristicilor distribuției fiecarei variabile, în vederea alegerii
ulterioare a testului statistic adecvat;
• corectarea eventualelor erori de înregistrare, rezolvarea situatiilor în care există date
lipsă, transformarea variabilelor, dacă acest lucru se impune (de retinut faptul ca nu este
recomandabil să se transforme o variabilă de interval/raport, a carei distribuții nu se abate de la
forma normală, într-o variabila categorială, deoarece se pierde din puterea statistică a testelor).

După parcurgerea acestor etape, în succesiunea lor firească, alegerea testului statistic
devine o problemă relativ simplă. Pentru a fi și mai expliciți, pașii algoritmului de selectare
a testutului statistic sunt prezentați mai jos.

Principalele componente ale algoritmului de selectare sunt urmatoarele:

1) Se identifică variabila independentă


2) Se identifică variabila dependentă şi:
a. daca este de tip nominal/ordinal, se aplica un test neparametric;
b. daca este de tip interval/raport și:
• dacă respectă condițiile și dacă, mai ales, eșantionul este mare, se recomandă
alegerea unui test statistic parametric;

14
• dacă nu respectă conditiile și, mai ales, dacă eșantionul este foarte mic, se recomandă
alegerea unui test neparametric (în acest caz valorile vor fi transformate pe o scala ordinală sau
nominală, în functie de caracteristicile lor și opțiunea cercetătorului).

3) Se precizează obiectivul cercetării, care poate fi, cel mai adesea:

a. diferența dintre grupuri dependente sau independente (ca în exemplul nostru). Acest
model este mai potrivit în următoarele situații:
• atunci când variabila independentă, prin natura ei, se exprimă în categorii naturale
(de ex., categorii de vârsta, familii divortate/nedivortate, sexul etc.);
• atunci când variabila independentă exprimă valori care nu evoluează într-o manieră
liniară (de ex., prezența/absența, diagnostice psihiatrice, tipuri temperamentale);
• atunci când variabila independentă este manipulată (ex. anxietate pre/post program
de relaxare).

b. Gradul de asociere. Acest model de cercetare este recomandabil atunci când:


• variabilele sunt măsurate simultan sau succesiv pe aceiași subiecti (modele de tip
„înainte-dupa”, „intrasubiect”),
• sau variabilele sunt masurate pe subiecți apartinând unor eșantioane perechi.

În acest sens se vor lua în considerare urmatoarele două recomandari:


• atunci când, atât variabila independentă cât si variabila dependentă sunt de acelasi tip
(cantitative sau calitative), obiectivul obișnuit este „gradul de asociere”:
• atunci când variabila independentă este de tip categorial (nominal sau ordinal), iar
variabila dependentă este de tip cantitativ, obiectivul obisnuit este „diferența dintre grupuri
(categorii)”

4) Se alege testul statistic adecvat, dar, înainte de aceasta, să dăm răspuns unei întrebări
preliminare: ce este de preferat, test parametric sau neparametric?

a. Daca variabila dependenta este masurata pe scala nominala sau ordinala, problema
alegerii nu se pune, singurele teste aplicabile fiind cele neparametrice.
b. Atunci când variabila dependenta este exprimata pe o scala cantitativa (interval/raport):
• daca întruneste conditiile impuse de statistica parametrica, este recomandabil sa se
utilizeze teste parametrice:
• daca nu respecta conditiile testelor parametrice, exista doua solutii:

15
- se vor efectua verificari pentru eventuala corectie de valori, tratare a valorilor lipsa,
transformari parametrice, urmate de utilizarea testelor parametrice
- se transforma variabila dependenta pe o scala de tip nominal sau ordinal, urmata de
aplicarea unor teste neparametrice adecvate

c. Luarea în considerare a marimii esantionului. Teorema limitei centrale ne asigura cu


privire la normalitatea distributiei de esantionare pentru esantioane care depasesc N=30. Pentru
esantioane de volum mediu (apropiat de 30 de valori), testele parametrice sunt mai sensibile la
respectarea conditiilor impuse si, de aceea, utilizarea testelor neparametrice pare a fi o solutie mai
buna. În practica, se va avea în vedere faptul ca testele statistice, atât cele parametrice cât si cele
neparametrice, efectuate pe esantioane reduse, sub N=20, nu ofera rezultate robuste iar
credibilitatea lor este îndoielnica. Esantioanele mici nu contin suficienta informatie care sa permita
fundamentarea unei inferente statistice suficient de sigure si cu putere de generalizare. Studiile pe
esantioane de acest gen pot avea o valoare de „studii pilot” în vederea deciziei de a lansa sau nu
studii de amploare pe o anumita tema. În legatura cu marimea esantioanelor de cercetare se vor
revedea recomandarile discutate în legatura cu puterea testelor statistice (stabilirea gradelor de
libertate).

Algoritmul de alegere a procedurii statistice


În principiu, orice analiza statistica dintr-un proiect de cercetare cuprinde doua categorii
de proceduri statistice, efectuate în etape succesive:
(1) analiza statistica descriptivă, în funcţie de tipul de variabilă utilizată
(2) analiza de semnificatie, prin aplicarea unui test statistic specific ipotezei şi tipului de
scală

Integrarea analizei statistice în documentul de cercetare


În cele ce urmeaza, vom trece în revista principalele „capitole” ale unui raport de
cercetare (studiu, articol) si modul în care elementele analizei statistice trebuie sa fie
abordate în cadrul fiecareia dintre ele. Respectarea aceste recomandari, uzuale în mediul stiintific,
are rolul de a asigura un anumit nivel de standardizare a redactarii, pe de o parte, iar pe de alta
parte, acela de a facilita controlul calitatii cercetarii si comparabilitatea rezultatelor obtinute de
cercetatori diferiti (Wilkinson, 1999).
Asa cum a reiesit pe parcursul tematicii abordate, metodologia statistica este subordonata
unui anumit demers stiintific. Materializarea sa într-un document de analiza si concluzii (care poate
fi un raport de cercetare, un articol stiintific sau o comunicare etc.) se face dupa un model care are,
în linii generale, o anumita structura. În cele ce urmeaza, vom trece în revista o serie de

16
recomandari generale cu privire la modul în care trebuie abordata analiza statistica în cuprinsul unui
material de cercetare, pentru fiecare sectiune în parte:

Prezentarea cadrului general al cercetarii


Ipotezele. Se va urmari exprimarea cu claritate a tipului de studiu statistic care a fost
efectuat, si a scopurilor care au fost urmarite. În cazul în care acestea sunt mai multe, vor
trebui prezentate toate, de la bun început, inclusiv ordinea de prioritate a fiecaruia. Prezentarea
paralela a ipotezelor de nul, desi pare logica, îngreuiaza lectura si produce confuzie. Ca urmare, se
va emite numai ipoteza cercetarii, ipoteza de nul fiind considerata, implicit, opusul ei, fara a mai fi
necesara enuntarea acesteia. Se face referire explicita la ipoteza de nul în momentul deciziei
statistice, când se afirma acceptarea sau respingerea acesteia.

Testarea ipotezelor nu este însa obligatorie în toate situatiile de cercetare. Daca o anumita
cercetare abordeaza un subiect absolut nou, neinvestigat anterior, metodele statistice de tip
exploratoriu sunt mai potrivite decât cele de testare a ipotezelor. Daca tema respectiva a fost intens
studiata anterior, atunci este mai recomandabil un studiu de meta-analiza decât o noua testare a
ipotezei.
Uneori, autorii se limiteaza la prezentarea explicita a obiectivelor renuntând la enuntarea
specifica a unor ipoteze. Acest lucru este justificat fie prin faptul ca nu au un fundament solid
pentru emiterea ipotezelor, fie pentru ca apreciaza ca emiterea ipotezelor înainte de colectarea
datelor poate introduce un element de orientare a acestui proces în directia rezultatului asteptat
(bias). Acete aspecte au un caracter contradictoriu, incă in literature de specialitate si este amintit
aici pentru informare.

Populatia. Interpretarea rezultatelor unui studiu depinde de caracteristicile populatiei pentru


care se intentioneaza analiza. Populatia trebuie definita cu claritate, în sensul elementelor care o
compun. Nu trebuie uitat sensul statistic al conceptului de populatie, care se refera nu atât la indivizi
umani, cât la totalitatea valorilor unei caracteristici care îi defineste si care face obiectul analizei.
Cu alte cuvinte, populatia nu trebuie privita ca o clasa de obiecte ci ca o colectie de date care
descriu o anumita caracteristica a respectivelor obiecte. Desigur, în cele din urma rezultatele
statistice se vor extrapola la nivelul unei populatii constituita din indivizii pentru care respectiva
caracteristica a fost masurata.

Eşantionul. Se va descrie modul de constituire a esantionului, tipul de selecţie utilizat,


insistându-se pe criteriile de includere si, eventual, de excludere a unor indivizi (sau valori). Daca
esantionul este stratificat (dupa provenienta, sex etc.), se vor descrie criteriile de stratificare si
volumul de subiecti pentru fiecare grup sau subgrup.

17
Grupul sau subgrupul este o rafinare a eşantionului, după criterii explicite, necesare studiului
(ex. Vechimea bolii, tip de tratament, tip de funtii etc.).

Prezentarea metodei şi a condiţiilor de investigatie (evaluare)

Variabilele. Variabilele analizate vor fi descrise în mod explicit, indicându-se denumirea


si semnificatia fiecareia, modul în care au fost masurate si unitatea de masura. Atunci când
declaram o variabila, precizam implicit si domeniul valorilor valide. Daca, de exemplu, definim o
variabila care poate lua valori pe o scala de la 1 la 7 (pe o scala cu raspunsuri predefinite), orice
valoare dincolo de domeniul respectiv va fi eronata. Modul de denumire al variabilelor este
important. Astfel, în loc de „inteligenta” este de preferat denumirea de „rezultat la testul de
inteligenta”. Aceasta, pentru ca inteligenta este o realitate oricum mai complexa decât ceea ce
masuram printr-o anumita variabila. Cu alte cuvinte, excesiva generalizare a variabilelor trebuie
evitata.

Instrumentele de masurare. Este recomandabil sa fie prezentate cu o descriere (cel putin)


sumara, inclusiv cu caracteristicile lor psihometrice (validitate, consistenta interna). Astfel se va
enunţa denumirea instrumentului, autorul, anul, sursa, precum si descrierea scale, cotare,
variabilitatea scorurilor. Daca este vorba de un aparat sau de un program de calculator, se vor indica
tipul si, eventual, sursa, pentru a putea fi cautate si de alti cercetatori care vor dori sa efectueze o
replicare a respectivului studiu.

Procedura. Prezentarea modului în care a decurs procedura de investigare, descrierea


conditiilor, a duratei, locului, si a personalului care a contribuit la aceasta. Se va acorda
atentie modalitatilor de control al surselor de eroare (limitarea efectului variabilelor covariante,
eliminarea erorilor de masurare).

Prelucrarea datelor
Se va începe cu eventualele complicatii care au survenit pe parcursul studiului. Aici se
includ datele lipsa (care nu au putut fi recoltate, din diverse motive), modul de rezolvare a
valorilor excesive din cadrul distributiilor, dificultatile de organizare care au putut influenta
calitatea informatiilor recoltate etc. În general, orice aspect relevant care se refera la abaterea de la
conditiile prevazute pentru desfasurarea studiului trebuie prezentate.

18
Analiza primara. Analiza statistica va începe întotdeauna cu o inspectie a valorilor
obtinute. Aceasta înseamna analiza distributiilor sub aspectul formei, indicatorilor tendintei
centrale, valorilor excesive etc. Ignorarea acestui aspect poate conduce la grave erori de
interpretare, sau la un volum mai mare de munca, ulterior, daca se constata prea târziu imperfectiuni
care trebuiau fi eliminate de la bun început. Reprezentarea grafica a datelor (histograma) poate fi o
metoda foarte eficienta de identificare a distributiilor anormale sau valori improprii.
Scopul acestei analizei primare a variabilelor este:
- obtinerea unei imagini de ansamblu a variabilelor de interes (frecvente, tendinta centrala,
împrastierea, grafice);
- fundamentarea alegerii testelor statistice adecvate datelor pe care le analizam;
Desigur, în documentul de cercetare nu se vor include toate rezultate analizei primare, ci
numai cele strict necesare pentru descrierea variabilelor analizate. De exemplu, nu este
necesar ca raportul sa fie „împanat” cu histogramele fiecarei variabile cantitative, fapt care încarca
nejustificat textul cu imagini putin relevante pentru cititor. De asemenea, nu se va descrie si nu se
va justifica alegerea testului statistic, în functie de natura variabilelor. Acest lucru se considera
implicit, dacă este corect selectat.

In lucrările cu caracter didactic (proiecte, lucrare de licenţă) se solicită explicarea


selectiei unui test statistic.

Verificarea ipotezelor statistice. Acesta este momentul cel mai important al unei cercetari,
acela în care se concretizeaza întregul efort depus. Primul lucru care trebuie înteles este acela ca
rezultatele care se vor obtine depind în mod decisiv de calitatea si minutiozitatea cu care au fost
parcurse etapele anterior descrise. Un studiu bine fundamentat teoretic, bazat pe ipoteze consistente,
utilizând instrumente adecvate si beneficiind de o procedura sigura de recoltare a datelor, va
conduce întotdeauna la rezultate utile. Aceasta nu înseamna neaparat ca ele trebuie sa confirme
ipotezele. Uneori chiar si infirmarea unei ipoteze poate fi semnificativa.
Un aspect important este alegerea aparatului statistic (teste de semnificatie). Aparitia
numeroaselor programe de prelucrare statistica computerizata a condus la orientarea multor
cercetatori, mai ales tineri sau începatori, spre proceduri sofisticate si complicate. Cea mai buna
solutie este alegerea procedurilor statistice strict (minim) necesare pentru evidentierea ideilor
urmarite.
Abundenta de calcule si de teste statistice nu contribuie la o mai buna întelegere ci arata,
mai degraba, nesiguranta cercetatorului. Una dintre prejudecatile raspândite, mai ales printre
studenti, este aceea ca exista teste statistice „importante” (de ex., analiza factoriala, analiza de
clusteri etc., despre care nu a fost vorba în acest manual introductiv în statistica) si altele „mai putin
importante” (testul diferentelor între medii etc.). Complet fals! Alegerea unei proceduri statistice

19
mai „sofisticate” putea face o anumita impresie în epoca de dinaintea programelor de calcul
statistic. În prezent, orice procedura, oricât de complicata, nu mai reprezinta o problema sub
aspectul calculelor, pentru nimeni. Singurul lucru care conteaza cu adevarat este alegerea procedurii
potrivite cu natura datelor si cu obiectivele cercetarii, precum si interpretarea ei corecta. Daca o
procedura „simpla” serveste exact ideea care trebuie scoasa în evidenta, aceasta trebuie folosita si
nu alta, cu un nume mai „sonor”. Sa ne gândim si la faptul ca avem mai multe sanse ca procedurile
„simple”, uzuale, sa fie întelese mai usor, si de catre mai multi cititori.

În ceea ce priveste testarea ipotezelor, nu este suficienta expresia „acceptam” sau


„respingem” ipoteza. Întotdeauna se va indica si valoarea exacta obtinuta pentru nivelul de
semnificatie (de ex., p=0,037, si nu doar decizia de acceptare sau respingere, de ex., "p < 0, 05" or
"p > 0,05"). De retinut ca, inclusiv atunci când rezultatul obtinut nu îndreptateste respingerea
ipotezei de nul, ipoteza cercetarii va fi considerata doar neconfirmata si nu respinsa. Aceasta
atitudine este mai potrivita, pe de o parte, cu modelul probabilistic de testare statistica a ipotezelor
si, pe de alta parte, cu faptul ca nimic nu ne împiedica sa pastram ipoteza si sa încercam
confirmarea ei într-un alt studiu.

Problema variabilelor multiple. Daca în exemplele din manualele de statistica sunt luate în
discutie, de regula, situatii simple, cu minimum de variabile posibile, cel mai adesea, doua. În
realitate, cel mai adesea, studiile de psihologie trebuie sa faca fata unei „avalanse” de variabile a
caror relatie trebuie testata nu doar una câte una ci si în interdependenta lor. Acest fapt ridica, pe de
o parte, probleme de procedura statistica si, pe de alta parte, probleme de prezentare a rezultatelor.
Alegerea procedurii astfel încât sa surprinda exact relatiile care intereseaza, cu excluderea
influentelor colaterale, este, din pacate, greu de explicitat la nivelul unui manual introductiv.

În legatura cu forma de prezentare, trebuie avuta în vedere necesitatea de a fi, în egala


masura, sintetici si expliciti. Sintetici, pentru a nu îngreuna textul cu o abundenta excesiva de tabele
de date, expliciti, pentru ca nu pot fi eludate informatiile esentiale care sunt necesare pentru
interpretarea rezultatelor.

Retinere fata de declararea relatiei cauzale. Aprecierea pe baza unui test de semnificatie
statistica a unei relatii de cauzalitate între variabile este cel putin hazardata, dacă nu incorectă.
Acest lucru poate fi sustinut numai daca se respecta anumite conditii experimentale, care sa ne
asigure ca între cele doua variabile este o relatie cauza-efect. Nu se vor emite concluzii de tip cauzal
în afara situatiilor în care recoltarea datelor decurge dintr-un demers de tip experimental. Chiar si

20
procedurile statistice care sunt destinate determinarii relatiilor cauzale (ecuatiile de modelare
structurala, analiza de cale) nu sunt pe deplin sigure în detectarea relatiei cauza/efect (Huck, 2004).

Tabele si figuri. Tabelele sunt cel mai des utilizate pentru includerea în textul rapoartelor
de cercetare a rezultatelor obtinute. Ele prezinta avantajul indicarii cu exactitate a valorilor
si sustinerii cu precizie a concluziilor. Figurile au însa avantajul de a prezenta informatia într-o
forma intuitiva si accesibila, atragând atentia cititorului. Nu se poate face o recomandare de
preferinta pentru una sau alta dintre cele doua forme. Oricum, este de retinut ca figurile ocupa mult
spatiu tipografic si sunt mai „pretentioase” din punctul de vedere al editarii si al tehnoredactarii
textelor. În orice caz, se vor evita figurile prea complexe. Este recomandabil ca fiecare grafic sa
prezinte o singura idee, pe care sa o sustina cât mai simplu si mai explicit. Atunci când se utilizeaza
tehnici de ilustrare grafica se vor prefera formele mai noi (box-plot, stem and leaf).

Tabelele și graficele si vor fi numerotate distinct si vor avea un titlul explicit,astfel:

Tabelul1. Compararea nivelului de stres între grupele de pacienţi cu ulcer gastrointertinal,


după grupele sanguine

Pacienţi cu ulcer gastrointenstinal


G1 G2 t (61) p
(grupa 0I ) (grupa non 0I)
Stres
m (1) σ m (2) σ
1,26 0,21
443,06 99,91 405,07 139,11

tipul A de comportament tipul non A de comportament


Tip de comportament

21
Fig.1. Frecvenţa pacienţilor cardiovasculari pe clase ponderale şi tip de comportament

Tabelele şi graficele vor fi redactate în limba română şi nu. se acceptă utilizarea celor
salvate din SPSS.

Discutarea si interpretarea rezultatelor. Adevarata încercare într-un demers de cercetare


nu este, asa cum s-ar putea crede, prelucrarea efectiva a datelor. Daca sunt corect recoltate si
înregistrate, prelucrarea lor se face destul de usor cu ajutorul programelor computerizate existente
astazi. Interpretarea, însa, este o proba pentru oricine se afla în faza de finalizare a unei cercetari.
Premisa fundamentala a unei interpretari consistente este suportul teoretic, claritatea si
consistenta ipotezei sau ipotezelor cercetarii. Este imposibil sa tragi concluzii daca nu esti constient
de obiectivele urmarite. Adesea se cade prada iluziei ca, indiferent de ce date dispunem, se poate
sustine un demers de cercetare doar cu ajutorul unui program de calcul statistic sofisticat si a unui
set de date oarecare. Din pacate, se întâmpla destul de des ca un student sa vina si sa spuna: „am
aceste date, ce teste statistice pot face cu ele?”. Obiectivul cercetarii trebuie sa fie clar precizat de la
bun început, în timp ce alegerea procedurii statistice tine de natura scalei de masurare,
caracteristicile variabilelor si ipotezei pe care trebuie sa o testam. Daca fiecare dintre aceste aspecte
sunt clare în mintea cercetatorului, atunci raspunsul la întrebarea de mai sus este foarte usor de dat.
Se va urmari, pe de o parte, coerenta dintre concluzii si datele pe care se sprijina, iar pe de
alta parte, dintre concluzii si conditiile specifice cercetarii (esantion, model de investigare). Cu alte
cuvinte, fiecare aspect al concluziilor trebuie sa aiba un suport robust în datele si rezultatele
obtinute prin prelucrarea lor. Se va evita generalizarea necritica. Transpunerea anumitor rezultate
dincolo de limitele populatiei cercetarii este adesea hazardata. Rezultatele obtinute nu sunt mai
putin importante daca pastram prudenta în generalizarea lor. Studii ulterioare pot confirma sau nu
datele obtinute si, pe aceasta baza, se poate extinde generalizarea semnificatiilor.
În alta ordine de idei, relevanta rezultatelor nu depinde doar de atingerea nivelului de
semnificatie statistica ci si de marimea esantionului. În principiu, aceste doua marimi contribuie
împreuna la fundamentarea concluziilor.
Un alt aspect important este interpretarea semnificatiei statistice. Obiectivul legitim al
testelor statistice este atingerea pragului de semnificatie. De aceea, valoarea lui p este prima care
trebuie sa ne atraga atentia la capatul prelucrarilor, simtindu-ne rasplatiti pentru eforturile facute,
daca se afla sub pragul de 0,05. Cu toate acestea, nu trebuie sa uitam nici un moment ca „statistic
semnificativ” nu este echivalent cu „stiintific important”.
Dincolo de valoarea lui p se impune luarea în considerare si marimea în sine a diferentei sau
legaturii puse în evidenta de respectivul test statistic. Desigur, o valoare ridicata a testului, fara
atingerea pragului de semnificatie, nu este relevanta. Dar nici valoare prea mica, chiar daca este
semnificativa statistic. Cât de mica sau cât de mare trebuie sa fie valoarea testului, pentru a o

22
considera „importanta” sau „relevanta”? Din pacate, pentru aceasta întrebare nu exista un raspuns
riguros. Se recomanda apelul la spiritual stiintific si la simtul comun, concomitent cu raportarea la
natura specifica a fiecarei situatii în parte. Cu alte cuvinte, raspunsul depinde de contextul fiecarei
cercetari în parte. Din acest motiv, raportarea marimii efectului este una dintre solutiile
recomandate cu insistenta în ultimii ani.
O alta problema de discutat este în legatura cu valoarea în sine a lui p. Dupa cum stim,
nivelul minim pentru acceptarea semnificatiei statistice este 0,05, corespunzator valorii
conventionale minim acceptabile pentru pragul alfa. Vorbind în sens strict, un p=0.049 este
considerat semnificativ, în timp ce un p=0,051 trebuie sa fie considerat nesemnificativ. Având în
vedere ca pragul alfa=0,05 este unul arbitrar, nu se poate evita un astfel de rationament rigid. Cu
toate acestea, exista cercetatori care raporteaza rezultate ale lui p usor mai mari decât 0,05 ca fiind
„marginal semnificative” sau „aproape semnificative”. Sa mentionam, totusi, ca o astfel de atitudine
este destul de rar întâlnita si poate determina reactii negative, justificate, din partea cercetatorilor
mai „rigurosi”, aflati în majoritate.
În mod intuitiv, suntem tentati sa interpretam nivelul de semnificatie în functie de
valoarea calculata a lui p. Astfel, un p=0,001 ni se pare mai semnificativ decât un p=0,05, de
exemplu. Daca utilizam definitia stricta a termenului de semnificatie din rationamentul deciziei
statistice, o astfel de atitudine nu este justificata. O data ce a fost fixat un anumit nivel al lui alfa,
orice p mai mic sau egal cu acesta este semnificativ, iar orice p mai mare este nesemnificativ. Cei
mai multi statisticieni împartasesc aceasta opinie. Cu toate acestea, exista si cercetatori mai putin
„rigizi” care sunt dispusi sa asocieze valorii lui p anumite calificative, astfel:
>0,05 nesemnificativ
0,05 – 0,01 semnificativ
0,01 – 0,001 foarte semnificativ
<0,001 extrem de semnificativ
Fara a fi gresite, astfel de formulari nu aduc, totusi, o interpretare relevanta pentru decizia
statistica. Este util sa adaugam ca programele de prelucrari statistice afiseaza „0,000” pentru valori
ale lui p mai mici de 0,0005, Acest fapt nu va fi interpretat în nici un caz ca exprimând probabilitate
„zero”, ci doar în sensul ca valoarea lui p este mai mica de 0,0005. De altfel, la raportarea
semnificatiei se poate opta, fie pentru înscrierea valorii exacte a lui p, asa cum este calculata de
program, fie doar pentru mentionarea plasarii valorii testului sub nivelul alfa stabilit.

Formularea concluziilor
Studiul trebuie sa se încheie cu concluzii adecvate cu rezultatele obtinute, formulate sintetic
si explicit. Nu se vor evita aspectele mai putin reusite ale cercetarii, eventualele nereusite, chiar.
Rostul acestora este acela de a ajuta la evitarea repetarea unor greseli de catre cei care vor dori sa
reia acelasi tip de investigatie, mai târziu. Se pot face chiar recomandari explicite în acest sens.

23
Oricât de semnificative ar fi rezultatele unui anumit studiu, ele nu vor schimba modul de a gândi o
anumita realitate psihologica. Acest efect nu îl pot avea decât rezultate obtinute de mai multe studii
concordante pe aceeasi tema.
Nu se va uita niciodata faptul ca semnificatia statistica nu tine loc si de semnificatie
teoretica, cu sensul de consistenta a unui anumit model teoretic explicativ. Procedurile statistice nu
sunt altceva decât instrumente de evaluare probabilista ipotezelor. Profunzimea teoretica a unui
studiu nu poate rezulta decât din calitatea modelului de investigatie (ipoteze, proceduri de evaluare,
subtilitatea analizei rezultatelor etc.) si nu din datele statistice ca atare. Statistica trebuie sa fie o
modalitate de organizare si disciplinare a gândirii stiintifice, în nici un caz, însa, nu se poate
substitui acesteia. Dar nu se poate ajunge la aceasta performanta decât daca statistica este înteleasa
atât sub aspecte ei „tari” cât si cu limitele ei.
În trecut, la începuturile utilizarii statisticii în psihologie, prezenta acesteia într-o lucrare
avea un caracter de prestigiu, cu atât mai mare cu cât era mai bogat reprezentata. În prezent,
omniprezenta calculatoarelor si a programelor specializate au facut ca prelucrarile statistice sa
devina o operatiune relativ facila. Tocmai din acest motiv, apare riscul abuzului de statistica, a
utilizarii necritice si superficiale a acesteia în elaborarea lucrarilor de cercetare.
În fine, ca o concluzie a celor spuse, se cuvine sa insistam pe respectarea exigentelor
procedurale impuse de metoda statistica. Simpla „populare” a unei lucrari cu date statistice, tabele,
grafice, sau cu valori ale unor teste de semnificatie, nu asigura în mod necesar acelui document
valoarea stiintifica la care aspira. Asigurarea calitatii datelor supuse prelucrarii, respectarea
conditiilor de alegere a testelor de semnificatie, interpretarea lor adecvata si publicarea rezultatelor
în formatul adecvat, sunt conditii indispensabile pentru calitatea stiintifica a unui studiu bazat pe
metoda statistica.

Greseli frecvente în redactarea analizelor statistice de evitat

Lectura celor mai multe dintre lucrarile efectuate de studenti scoate în evidenta
nerespectarea recomandarilor prezentate mai sus. Efectul consta în consemnarea unor greseli, dintre
care cele mai frecvente si mai suparatoare par a fi urmatoarele:

• Formulare improprie a ipotezelor sau concluziilor cercetarilor, prin utilizarea unor termeni
care sugereaza relatia de cauzalitate („influenteaza”, „determina”). Se ignora faptul ca testele
statistice nu sustin existenta unei relatii de cauzalitate decât daca datele sunt recoltate în conditii de
experiment psihologic,

• Includerea în lucrare a ipotezelor de nul, în paralel cu cele ale cercetarii. Acestea din

24
urma sunt singurele necesare si suficiente,

• Exces de ostentatie în prezentarea rezultatelor prelucrarilor statistice. Cifrele tind sa fie


mai multe decât explicatiile si analizele. Aceasta maniera creeaza impresia neplacuta de
„parada de statistica”. Statistica trebuie sa ramâna o prezenta discreta, al carui rost este
doar acela de a sustine concluziile cercetarii,

• Intrarea în detalii de analiza a datelor, inclusiv în descrierea didacticista a respectarii


conditiilor pentru aplicarea diverselor teste statistice (se cere insa în anul de studiu al
statisticii si in lucrarile studentilor) Este corect însa, sa fie evocate eventualele aspecte deosebite,
cum ar fi valori excesive legitime sau operatii de transformare a unor variabile, cu scopul
normalizarii distributiei,

• Includerea integrala a rezultatelor calculate de programe pentru diverse proceduri. Unele


dintre acestea conduc la un mare volum de rezultate numerice. Nu toate trebuie reproduce ci numai
acelea care sustin în mod direct si explicit concluziile cercetarii;

• Raportarea incompleta sau absenta a rezultatelor la testele statistice (enuntarea deciziei


statistice si a concluziei cercetarii nu este suficienta, ea va fi însotit întotdeauna de
valorile testului si de valorile adiacente acestuia),

• Exces de zecimale în prezentarea rezultatelor la prelucrari. De regula, valoarea testelor


statistice se raporteaza cu doua zecimale iar probabilitatile, adică p de semnificaţie, cu trei
zecimale;

• Reproducerea rezultatelor din programele statistice cu pastrarea elementelor de text în


limba engleza (atunci când lucrarea este scrisa în limba româna);

• Explicatii inconsistente la tabele si grafice. Oricât de explicite ar fi acestea, cititorul nu va


fi lasat sa si le explice singur, c I vor fi explicate de cercetător

• Grafice sau tabele fara titlu, sau cu titluri inadecvate;

• Absenta coeficientilor de consistenta interna pentru testele care nu fac parte din
metodologia profesionala generala, sau, înca si mai grav, pentru cele create de autor, si pe
care se bazeaza respectiva cercetare,

25
• Instrumente de lucru (teste) prezentate integral în textul lucrarii. Acestea se descriu la
modul general, fiind prezentate integral, eventual, doar la sfârsitul lucrarii, în caz ca se
doreste difuzarea lor, altfel nu;

• Transformarea valorilor brute ale datelor de cercetare, obtinute prin aplicarea unor teste, în
valori etalonate. În acest caz se ignora un adevar elementar: etalonarea este o modalitate de
interpretare a rezultatului la un test cu scopul diagnosticului individual. Altfel spus, etalonarea este
necesara în practica psihologica, la nivel individual.
În ce priveste cazul cercetarii statistice, scorurile brute sunt perfect utilizabile pentru testarea
ipotezelor, deoarece obiectivul oricarei cercetari este, de regula, relatia dintre variabile. De
asemenea, este neproductiv sa transformam valori de tip cantitativ, exprimate pe scala de interval
sau de raport, în variabile calitative, exprimate pe scale ordinale, cum este cazul etaloanelor în
percentile, decile, stanine etc. În fine, prin transformare în valori etalon variabilitatea valorilor se
reduce, ceea ce conduce, alaturi de diminuarea nivelului de măsurarea, la diminuarea puterii
semnificaţiei statistice.

26
Modulul 3. SONDAJUL STATISTIC
Cercetarea prin sondaj are ca scop obţinerea unor indicatori care să permită caracterizarea
completă şi reală a întregii colectivităţi.
Etapa 1. Se culeg şi se prelucrează date statistice din eşantioane din care rezultă indicatori
derivaţi: mărimi relative, medii, indici etc. care descriu statistic eşantionul folosit.
Etapa 2. Indicatorii obtinuţi se extind, cu o anumită probabilitate, asupra întregii
colectivitati.
Cercetarea prin sondaj implică folosirea unor noţiuni perechi: colectivitate generală –
colectivitate de selecţie; media colectivităţii generale – media colectivităţii de selecţie; dispersia
colectivităţii generale – dispersia colectivităţii de selecţie; valoarea statistică calculată – valoarea
statistică estimată.
Colectivitatea generală sau populaţia reprezintă totalitatea unitaţilor simple sau complexe
care fac obiectul cercetării.
Volumul colectivitaţii generale din care urmează să se extragă unitaţile se notează de
obicei cu N în cazul unităţilor simple şi cu R în cazul unităţilor complexe. Dacă s-au înregistrat şi
variabile alternative, atunci unităţile care posedă caracteristica se noteaza cu M.
Colectivitatea de selecţie (sondaj, probă, eşantion) reprezintă p[artea colectivităţii generale
din care se va colecta datele în scopul generalizării rezultatelor la întreaga colectivitate.
Volumul colectivităţii de selecţie se notează cu n când este format din unităţi simple şi cu r
când e format din unităţi complexe. Pentru variabile alternative numărul unităţilor care posedă
caracteristica se noteaza cu m.
De remarcat este faptul că dintr-o anumită populaţie pot fi extrase mai multe eşantioane,
care diferă între ele atât ca volum cât şi ca structură. Din această cauză indicatorii statistici cu care
caracterizăm colectivitatea de sondaj pot fi consideraţi de forma unor variabile aleatoare pentru care
se pot stabili distribuţii de frecvenţă cunoscute, spre deosebire de media şi dispersia din
colectivitatea generală, pentru care există o singură valoare.
În studiul statistic al fenomenelor se foloseşte foarte frecvent perechea de noţiuni
valoare calculată şi valoare estimată.
Valorile calculate sunt rezultatul unei cercetări empirice. Acestea sunt folosite pentru a
evalua indicatorii din eşantioane care vor deveni estimatori ai colectivitaţii generale.
Cercetarea selectivă se face pe baza unui plan care trebuie să cuprindă:
- delimitarea în timp şi spaţiu a colectivităţii generale prin identificarea tuturor cazurilor
individuale sub care se manifestă fenomenul respectiv;
- verificarea gradului de omogenitate al colectivităţii generale (se utilizează studii vechi);
- alegerea sau stabilirea bazei de sondaj;

27
(Prin bază de sondaj se întelege orice sistematizare a unităţilor - liste, hărţi- astfel încât să
permită alegerea întâmplătoare a unităţilor ce vor lucra în eşantion).
- alegerea tipului şi a procedeului de selecţie;
- stabilirea periodicităţii efectuării sondajului;
- stabilirea planului observării;
- stabilirea planului de prelucrare a datelor de selecţie din punct de vedere metodologic şi
organizatoric;
- alegerea procedeelor de verificare a semnificaţiei indicatorilor de selecţie şi de extindere a
rezultatelor selecţiei asupra întregului ansamblu.
Rezolvarea problemelor cuprinse în planul de sondaj au drept scop asigurarea
reprezentativităţii eşantionului. Un eşantion este considerat corespunzator atunci când se produce în
aceeaşi structură pe care o prezintă colectivitatea generală.
Teoria şi practica demonstrează că asigurarea reprezentativităţii eşantionului
presupune respectarea cu stricteţe a urmatoarelor condiţii:
- includerea în eşantion a unităţilor în mod obiecvtiv fără a acorda preferinţă uneia din ele;
- eşantionul trebuie să fie suficient de mare ca să permită redarea trăsăturilor esenţiale ale
populaţiei originare;
- includerea fiecărei unităţi în eşantion trebuie să se facă independent de alte unităţi.
De remarcat faptul că în cazul în care populaţia originară (colectivitatea generală) este
împărţită în grupe, eşantionul trebuie să reproducă o structură corespunzatoare acestei componente.
Practica sondajului demonstrează că reprezentativitatea unui eşantion depinde în primul rând de
alegerea corectă a procedeelor şi tipurilor de selecţie.

Procedee şi tipuri de selecţie folosite pentru constituirea eşantionului.


Procedeele utilizate pentru formarea eşantionului sunt: selecţiile aleatoare, selecţiile
subiectiv organizate sau selecţiile dirijate şi selecţiile mixte.
Selecţia aleatoare se face de regulă fie prin procedeul tragerii la sorţi, fie prin procedeul
generării de numere aleatoare.
Procedeul aleator sau al tragerii la sorţi este bazat pe schemele de probabilitate: al bilei
revenite şi cel al bilei nerevenite. Schema bilei revenite presupune o urnă cu N bile de N culori,
evenimentul constând din extragerea unei bile. Probabilitatea de a extrage o bilă de o anumita
culoare este 1/N. după ce s-a efectuat evenimentul, se introduce bila înapoi şi experimentul se
repetă. Întotdeauna vom avea probabilităţi 1/N. În cazul schemei cu bila nerevenită, experimentul
constă în extragerea unei bile (probabilitatea_1 este = 1/N), nu mai punem bila înapoi şi repetăm
experimentul (probabilitatea_2 = 1/(N-1)). La al treilea experiment vom avea
probabilitatea_3=1/(N-3). Datorită faptului că în cazul selecţiei nerepetate este exclusă posibilitatea
extragerii de mai multe ori a aceleaşi unitaţi, erorile sunt mai mici.

28
Spre deosebire de selecţiile aleatoare, în eşantioanele dirijate alegerea unităţilor se face de
către persoanele care culeg datele. Prezenţa unui element oarecare care favorizează alegerea
subiectivă implică primejdia producerii de distorsiuni. Acest lucru trebuie evitat.
Selecţia mixtă combină principiile sondajului aleator cu cel dirijat. Se împarte colectivitatea
în grupe tipice după o anumită caracteristică şi apoi se extrage întâmplător câte un eşantion din
fiecare grupă.
Erorile cercetarii prin sondaj.
Se consideră eroare de selecţie abaterea care există între valorile calculate prin prelucrarea
datelor din eşantion şi ceea ce s-ar fi obţinut dacă s-ar fi organizat o observare totală şi se prelucrau
toate datele.
Avem: erori sistematice şi erori întâmplătoare.
Erorile sistematice se cunosc dinainte şi pot fi înlăturate cauzele care duc la producerea lor.
Erorile întâmplătoare apar indiferent de persoanele care fac sondajul sau de metodele
folosite. Ele derivă din însăşi esenţa metodei de cercetare prin sondaj. Ele pot fi calculate dacă
selecţia este probabilistică.
Eroarea medie de reprezentativitate are expresia:
P (1 − P )
N =
n
pentru selecţia repetată şi
P (1 − P ) n
N =  1−
n N
pentru selecţia nerepetată.
Unde
N = numarul populaţiei din populaţia totală;
n = numarul populaţiei din eşantion;
P = probabilitatea apariţiei unui eveniment.

29
REPARTIŢIE DE FRECVENŢĂ
Asocierea dintre distribuţia observată şi cea teoretică a fost mult timp neglijată în geografie.
Un studiu statistic nu poate fi făcut (nu are sens) fără această asociere. Forma unei distribuţii
permite găsirea parametrilor descriptivi cei mai potriviţi pentru fenomenul urmărit. Recunoaşterea
formei unei distribuţii este un indiciu pentru procedurile de transformare a datelor în mod
corespunzător. Totodată încadrarea într-o lege de distribuţie teoretică permite atât operaţii de
interpolare cât şi de extrapolare.
Ajustarea unei distribuţii observate la o distribuţie teoretică-adică la modele probabiliste
propriu-zise-implică acceptarea a priori că legile se încadrează în repartiţia observată/măsurată a
fenomenului în cauză.
O cantitate măsurabila care poate varia de la un element la altul se numeşte caracteristică
cantitativă. Uneori se mai foloseşte termenul de variabilă. Ansamblul noţiunilor consacrate acestor
caracteristici poartă numele generic de teoria caracteristicilor cantitative.
Caracteristicile care pot lua orice valoare numerică între anumite limite sunt numite
caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite valori se
numesc caracteristici cantitative (variabile) discrete (discontinue).
Dacă mai multe sute sau mii de valori ale unei variabile au fost notate într-o ordine cu totul
arbitrară în care au apărut ele în realitate, va fi dificil să tragem vreo concluzie cu privire la
semnificaţia acestor date. De aceea va trebui să condensăm datele cu ajutorul unor anumite metode
de ordonare sau grupare astfel ca proprietaţile datelor să poata fi uşor evidenţiate. De regulă valorile
alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din
observaţii şi care aparţin la diferite grupe să poată fi comparabile.
Modul în care frecvenţele de grupă sunt repartizate în intervale succesive se numeşte
repartiţia de frecvenţă a variabilei.

Reprezentarea grafica: poligonul frecvenţelor şi histograma.


Deseori este convenabil să reprezentăm o repartiţie de frecvenţă cu ajutorul unei diagrame
care să sugereze configuraţia observaţiilor.
Histograma

30
- poligonul frecvenţei: unirea punctelor marcate pe verticală pe mijlocul intervalului.

De observat că oricare ar fi aceste diagrame (orice formă ar avea), o anumită arie reprezintă
un număr de observaţii.

Numarul de observaţii care cad în intervalul [x1, x2] este proporţional cu aria delimitată de
curbă şi cele două drepte.

31
Dacă intervalele de grupă sunt micşorate, în acelaşi timp numărul de observaţii creşte, astfel
încât frecvenţele de grupă să rămână finite, poligonul şi histograma se apropie din ce în ce mai mult
de o curbă netedă.
O astfel de linie ideală a poligonului şi histogramei se numeşte curbă de frecvenţă. Este un
concept capital în statistică.
Când vom aborda teoria selecţiei va trebui să privim curba de frecvenţă ca reprezentând o
populaţie din care datele reale reprezintă un eşantion. Poligonul frecvenţelor şi histograma vor fi
aproximate cu o curbă, dar se vor îndepărta de ea în anumite porţiuni, datorită fluctuaţiilor selecţiei.
Atunci când numărul de observaţii este considerabil, să zicem 1000, poligonul frecvenţelor este
suficient de neted pentru a da o bună imagine a formei repartiţiei ‘ideale.’

Câteva tipuri uzuale de repartiţii de frecvenţă.


Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fără sfârşit în
varietatea lor, dar printre ele putem distinge un număr relativ mic de tipuri fundamentale.
1) Repartiţia simetrică. Valoarea medie este valoarea maximă şi centrată, iar extremele
descresc şi tind spre zero (distribuţia normală) – ideal.

2) Repartiţia moderat-asimetrică (oblică). Frecvenţele de grupă descresc cu mare


rapiditate într-o parte şi mai lent în cealaltă parte. Este cazul cel mai frecvent.

32
3) Repartiţia în forma de U. Frecvenţele maxime sunt la capetele intervalului de variaţie.
Este rar.

33
4) Repartiţia extrem asimetrică.

Repartiţii teoretice importante.

Repartiţia binomială. (Benoulli, 1700).


Legea binomială permite descrierea probabilităţilor asociate cu privire la două experimente
exclusive.
Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de ‘succes’
pentru apariţia unui eveniment (probabilitatea_1=p) şi ‘insucces’ pentru neapariţia sa
(probabilitatea_2=q). Evident vom avea p+q=1.
Considerăm că toate evenimentele într-un număr de încercări sunt independente, adică
probabilităţile p şi q sunt aceleaşi pentru fiecare eveniment şi rămân constante de-a lungul
încercărilor.
Presupunem că efectuăm un numar de N serii în care efectuăm câte n încercări în fiecare
din cele N serii şi determinăm numărul de succese din fiecare serie (ex. Aruncăm o moneda de 10
ori pentru fiecare serie, observând de câte ori apare stema la fiecare serie).
În general, vor exista unele serii la care nu vom observa succese, altele la care vom observa
un succes, altele cu două succese ş.a.m.d. Prin urmare dacă grupăm seriile în raport cu numărul de
succese vom obţine o repartiţie de frecvenţă.

Ex. 12 zaruri aruncate de 4096 de ori, apariţia lui 6 fiind considerată un succes, conduce la
următorul rezultat.

Nr. succese 0 1 2 3 4 5 6 7 şi mai mult.


Nr. aruncări 447 1145 1181 796 380 115 24 8

34
Vom arăta că, folosind ipotezele de independenţă a experienţelor succesive vom putea
determina teoretic natura acestei repartiţii.
În cazul seriilor cu o singură încercare, estimăm ca în N astfel de serii să obţinem Np
succese şi Nq insuccese.

35
Modulul 4. Dimensionarea eşantioanelor în cercetările psihologice

Una dintre cele mai frecvente întrebări pe care (şi) le pun studenţii sau tinerii aflaţi în faza
de proiectare a unei lucrări de cercetare este „cât de mare trebuie să fie eşantionul?”. Din păcate, nu
există un răspuns simplu şi nici foarte precis la această întrebare. Mărimea esantionului decurge,
înainte de toate, din constrângerile situaţiei de cercetare. Atunci când tema cercetării vizează situaţii
rare (de exemplu, studii pe gemeni univitelini; modificări neuropsihice la pacienţi cu leziuni
cerebrale cu o anumită localizare; subiecţi care practică profesii speciale etc.) volumul eşantionului
este în mod inevitabil mic, ceea ce nu înseamnă că trebuie să renunţăm la cercetare.
Excluzând situaţiile în care suntem constrânsi de „raritatea” subiecţilor care întrunesc
condiţiile de studiu, dimensionarea eşantionului se face pe baza a două criterii fundamentale: tipul
testului statistic ce urmează a fi utilizat şi obiectivele analizei statistice.

1. Volumul esantionului recomandat în diferite procedurilor statistice

Recomandările de mai jos au un caracter practic, dar se bazează pe două concepte


fundamentale ale statisticii inferenţiale: mărimea efectului (mărimea diferenţei sau intensitatea
asocierii dintre variabile) şi puterea testului (probabilitatea de a obţine un rezultat statistic
semnificativ). Tendinţa actuală în cercetarea stiinţifică este de a se depăsi optica simplistă a deciziei
statistice prin limitarea la pragul alfa.
Reputatul statistician şi psihometrician Jacob Cohen, într-un articol intitulat „Things I Have
Learnd (So Far)” (1990) îşi aduce aminte cum a învăţat, în facultate, că pentru a compara două
grupuri trebuie utilizate eşantioane de 30 de subiecţi, orice eşantion mai mic de 30 fiind considerat
„eşantion mic”. Mai târziu, când a descoperit analiza de putere, a constatat că atunci când se
compară două grupuri de câte 30 de subiecţi fiecare, pentru un prag alfa=0.05, probabilitatea ca o
diferenţă având o mărime medie a efectului să atingă pragul de semnificaţie, este de 0.47. Cu alte
cuvinte, din 100 de cercetări, abia în 47 de situaţii (mai puţin decât dacă decizia ar fi luată aleator)
s-ar obţine un rezultat care să nu fie doar semnificativ, dar să si aibă o mărime a efectului
(relevanţă) cel puţin medie. Iar dacă volumul esantionului este de numai 20 de subiecţi, atunci
probabilitatea respectivă se reduce la 0.33.
În mod evident, numărul subiecţilor are un impact direct asupra puterii testului, adică asupra
capacităţii acestuia de a detecta diferenţe ”reale”. Mărimea efectului, la rândul ei, se referă la
intensitatea asocierii (diferenţei) dintre variabilele cercetării (Kraemer & Thiemann, 1987). Ceea ce
rezultă de aici este faptul că alegerea mărimii esantionului, în contextul diferitelor modele de
cercetare, este un fapt care trebuie tratat cu multă atenţie, dacă dorim să asigurăm cercetărilor
noastre consistenţă sub aspectul puterii şi al mărimii efectului. Desigur, ar fi de preferat ca aceste
două aspecte să facă obiectul unor evaluări cantitative speciale dar, din păcate, majoritatea

36
pachetelor de programe statistice nu oferă astfel de proceduri. În practică, o modalitate
mulţumitoare de rezolvare a acestei probleme este dimensionarea corespunzătoare a esantioanelor,
cu copul de a asigura atingerea unor valori acceptabile pentru puterea testelor statistice. În acest
sens, o incursiune în literatura statistică (Wolins, 1982; Kraemer & Thiemann; 1987; Wilkinson,
1999) ne oferă o serie de recomandări utile.

a. Volumul grupurilor pentru testele utilizate în detectarea diferenţelor dintre medii

Toate testele statistice care detectează diferenţele dintre grupuri se bazează pe o anume
distribuţie de eşantionare. Ca urmare, numărul subiecţilor din fiecare eşantion are o legătură directă
cu împrăstierea distribuţiei de eşantionare (eroarea standard). Cu cât mai mulţi subiecţi în eşantion,
cu atât împrăştierea distribuţiei de eşantionare este mai mică şi şansa de a descoperi o diferenţă
semnificativă este mai mare (ceea ce înseamnă şi o putere a testului mai mare). Dar puterea nu este
legată numai de mărimea eşantionului, ci şi de mărimea efectului. Pe măsură ce mărimea efectului
creşte, creşte şi puterea testului. De exemplu, dacă dorim să testăm efectul unei psihoterapii după
două sedinţe, când efectul este mic, testul statistic va avea „putere mică”, adică va avea sanse mai
reduse să releve un efect semnificativ decât, să zicem, după 12 sedinţe, când efectul terapeutic va fi
mai pronunţat.
Testul statistic t (Student) pentru eşantioane independente sau pentru eşantioane dependente,
analiza de varianţă (ANOVA one-way sau factorială), la fel ca şi analiza de varianţă multivariată
(MANOVA), sunt concepute pentru verifica semnificaţia diferenţelor dintre mediile unor grupuri.
Pentru a menţine un nivel acceptabil pentru puterea testului, fiecare dintre grupurile comparate
trebuie să aibă un volum minimal, pentru a avea suficientă putere în detectarea diferenţelor şi, în
acelasi timp, un nivel mediu /ridicat al mărimii efectului (VanVoorhis & Morgan, 2001). În acest
scop, se consideră că 30 de subiecţi în fiecare celulă (definită prin categoriile variabilei
independente) sunt suficienţi pentru a garanta o putere de 0.8, ceea ce este un nivel minim pentru un
studiu obisnuit (J. Cohen, 1988).

Concret, pentru a avea o putere acceptabilă a testului statistic:

- Atunci când sunt comparate mediile a două grupuri independente, se vor utiliza cel puţin
60 de subiecţi (minim 30 pentru fiecare grup). În cazul unei cercetări bazate pe un model intra-
subiect, în care acelaşi grup este măsurat în două (sau mai multe) situaţii diferite, este suficient un
eşantion de minim 30 de subiecţi pentru asigurarea unei puteri acceptabile. Acesta este unul dintre
avantajele modelului intra-subiect.
- Atunci când este utilizat testul ANOVA pentru o variabilă independentă cu trei valori,
eşantionul cercetării trebuie să fie compus din cel puţin 3x30=90 de subiecţi. Dacă

37
numărul de subiecţi din fiecare grup se reduce la 7, iar numărul grupurilor este de cel
puţin trei, atunci puterea testului scade la 0.5, iar mărimea efectului este tot de 0.5. În
cazul în care avem 14 subiecţi în fiecare grup comparat, pentru cel puţin trei grupuri si o
mărime a efectului de 0.5, ne putem baza pe o putere a testului de 0.8.

În legătură cu testele de comparaţie a mediilor se atrage atenţia, în primul rând, că atunci


când sunt comparate mai puţine grupuri este mai important să existe mai mulţi subiecţi în fiecare
grup. În al doilea rând, cu cât mărimea efectului la care ne putem astepta este mai mică, cu atât
numărul subiecţilor trebuie să crească, pentru garantarea unei valori corespunzătoare a puterii
testului (Aron & Aron, 1999). În fine, în cazul analizei de varianţă multivariate (MANOVA) este
important să existe mai multe cazuri decât variabile independente în fiecare celulă definită de
valorile variabilei independente (Tabachnick & Fidell, 1996).

b. Mărimea esantionului atunci când se studiază asocierea variabilelor

Deşi calcularea mărimii esantionului în astfel de situaţii face obiectul unor formule
complexe, regula empirică generală este de a nu utiliza esantioane mai mici de 50 de subiecţi în
cazul analizei de corelaţie sau de regresie simplă. În cazul corelaţiei şi regresiei multiple, în care
sunt mai multe variabile independente (criteriu), Green (1991) sugerează ca volumul esantionului
cercetării să fie
N>50+8m, unde m este numărul variabilelor independente, pentru corelaţii multiple şi N
> 104+m, pentru regresia multiplă.
Concret, pentru o analiză de corelaţie multiplă cu patru variabile se vor utiliza 50+8x4=82
subiecţi, iar pentru o regresie cu 4 variabile criteriu, se va asigura un eşantion de minim 104+4=108
subiecţi. Atunci când se urmăreste atât testarea corelaţiei cât si a regresiei se recomandă esantioane
mai mari decât acestea.
În acelasi context sunt recomandate şi alte reguli empirice, astfel:
- Pentru 5 sau mai mulţi predictori (sau variabile multiplu corelate) numărul participanţilor
va depăsi numărul predictorilor cu cel puţin 50. Altfel spus, totalul participanţilor trebuie să fie mai
mare ca numărul predictorilor cu cel puţin 50 (Harris, 1985);
- Pentru ecuaţiile de regresie cu şase sau mai mulţi predictori se impune un minim de 10
participanţi pentru fiecare predictor dar, dacă situaţia o permite, şi mai bine este ca să
existe în jur de 30 de subiecţi pentru fiecare variabilă. Cohen si Cohen (1975) demonstrează
că în cazul unei regresii cu un singur predictor care are o corelaţie cu
variabila predictor de 0.30, sunt necesari 124 subiecţi pentru a menţine o putere de 0.80.
Cu cinci predictori si o corelaţie multiplă de 0.30, aceeasi putere este atinsă pe un
esantion de 187 subiecţi.

38
O atenţie specială se va acorda simetriei variabilei dependente, deoarece în cazul existenţei
unei asimetrii, mărimea aşteptată a efectului este mică şi, implicit, puterea testului este mai mică şi
ea (Tabachnick & Fidell, 1996).

c. Volumul eşantionului pentru testul chi-pătrat

O regulă de siguranţă este ca în nici una din celulele tabelului de corespondenţă frecvenţa
teoretică să nu fie mai mică de 5, iar volumul total al esantionului să nu fie mai mic de 20. În cazul
testului chi-pătrat, spre deosebire de alte teste statistice, creşterea numărului subiecţilor nu are un
impact asupra valorii critice de respingere a ipotezei de nul. Totusi, volumul esantionului are un
efect asupra puterii testului. Existenţa unor frecvenţe teoretice (aşteptate) într-una sau mai multe
celule ale tabelului de corespondenţă limitează considerabil puterea testului. De asemenea, valori
reduse ale
frecvenţelor aşteptate cresc nivelul erorii de tip I. Acesta este si motivul pentru care se
recomandă un esantion de cel puţin 20 de subiecţi (Howell, 1997).
Testul chi-pătrat este utilizat pentru testarea gradului de independenţă (asociere) dintre
variabile categoriale. Ca urmare, nici un subiect nu trebuie să contribuie cu mai mult de o
singură valoare. La rândul lor, gradele de libertate au un anumit impact asupra puterii testului. Cu
cât numărul celulelor tabelului de corespondenţă creşte (ceea ce conduce la cresterea gradelor de
libertate), se reduc frecvenţele teoretice din celulele tabelului de corespondenţă şi, implicit, are loc o
reducere a puterii (Cohen, 1988). Şi totusi, atunci când se aşteaptă o mărime importantă a efectului,
se consideră că poate fi tolerată şi o valoare mai mică pentru puterea testului, implicit un volum mai
redus al esantionului (minim 8).

2. Volumul eşantionului în funcţie de obiectivele analizei statistice

Redăm mai jos recomandările European Federation of Psychological Associations


(EFPA,2006) cu privire la volumul eşantioanelor utilizate în evaluarea testelor psihologice ca
instrumente profesionale. Aceste recomandări vizează armonizarea practicilor de licenţiere a
testelor psihologice şi asigurarea unui standard profesional cât mai ridicat pentru activitatea de
evaluare psihologică.
Unele dintre situaţiile descrise mai jos se regăsesc şi în situaţii de cercetare, atunci când sunt
utilizate instrumente nou create. Recomandări de acelasi gen pot fi găsite si în „Sistemul de
evaluare a metodelor psihologice standardizate” adaptat de Comisia Metodologică a Colegiului
Psihologilor din România după modelul olandez (Arne Evers), accesat pe 15.03.2007, la adresa:
http://www.copsi.ro/COLEGIU/COMISII/metodologie/DOCUMENTE/Anexa_3_.doc

39
a. Dimensiunile eşantionului pentru calcularea etaloanelor psihologice:
Notă:
• Limitele vor fi adaptate în funcţie de tipul etalonului. Dacă se referă la “populaţia
generală” atunci volumul eşantionului va trebui să fie “mare”. Dacă etalonul este calculat pe o
populaţie ocupaţională specifică, atunci volumul esantionului poate fi “adecvat”.
• Pentru cele mai multe scopuri, un esantion mai mic de 150 de subiecţi este prea mic,
deoarece frecvenţa valorilor spre limitele distribuţiei va fi foarte mică.

Aprecierea esantionului Volum esantion


Inadecvat mai mic de 150 subiecţi
Adecvat 150-300 subiecţi
Mare 300-1000
Foarte mare peste 1000 subiecţi

b. Dimensiunea esantionului pentru studii de validitate de construct

• Validitatea de construct include crelaţii ale scalelor cu instrumente similare.


Recomandările pentru coeficienţii de validitate de construct trebuiesc interpretaţi în mod flexibil.
Atunci când avem două instrumente foarte asemănătoare, trebuie să ne asteptăm la corelaţii de 0.6
sau mai mult, pentru ca validitatea să fie considerată “adecvată”. Atunci când instrumentele vizează
caracteristici mai puţin “asemănătoare”, sau sunt administrate la intervale mari de timp, corelaţii
mai mici de 0.6 pot fi considerate adecvate. Atunci când corelaţiile sunt mai mari de 0.90, se va lua
în considerare că cele două instrumente măsoră acelasi construct psihologic şi două constructe
diferite, ceea ce ridică problema dacă ele aduc informaii diferite în raport cu obiectivul măsurării ;
• Recomandările pentru dimensiunea eşantionului sunt bazate pe analiza de putere a
eşantioanelor necesare pentru a surprinde mărimi ale efectului moderat.
• Validitatea predictivă şi concurentă se referă la studii bazate pe criterii din viaţa reală
(nu pe scoruri obţinute cu alte instrumente) care sunt corelate cu scorurile la test.
• Studiile predictive se referă de obicei la situaţii în care evaluarea a fost efectuată într-
un moment “calitativ diferit” de momentul măsurării criteriului (de ex., pentru selecţia de personal,
durata dintre evaluarea criteriului şi a predictorului nu este esenţială, dacă cele două măsurări
reflectă adecvat caracteristicile măsurate).

Apreciere Volumul esantionului

40
inadecvat mai mic de 100 subiecţi
adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi

Mediana si amplitudinea corelaţiilor dintre test si alte teste similare:


Notă:
• Dacă instrumentul este compus dintr-o singură scală, valorile de mai jos se aplică
acesteia. Daca instrumentul este compus din mai multe scale, valorile de mai jos se referă la
mediana distribuţiei valorilor tuturor scalelor.
• Dacă mediana nu este posibil să fie calculată, se va lua în considerare cea mai bună
estimare a tendinţei centrale a valorilor.
• Valorile foarte mari sau foarte mici vor fi comentate în mod distinct.
• Limitele sunt orientative.
inadecvată: r < 0.55
adecvată : 0.55 < r < 0.65
bună : 0.65 < r < 0.75
excelentă : r > 0.75

c. Dimensiunea eşantionului pentru studii de validitate de criteriu (prognostică)

Apreciere Volumul esantionului


Inadecvat mai mic de 100 subiecţi
Adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi

Mediana si amplitudinea corelaţiilor dintre test si alte teste similare:


inadecvată: r < 0.2
adecvată : 0.2 < r < 0.35
bună : 0.35 < r < 0.50
excelentă : r > 0.50
d. Dimensiunea esantionului pentru studii de fidelitate (consistenţa internă)
Notă:
• Recomandările se bazează pe necesitatea de a avea un nivel redus al erorii standard a
estimării fidelităţii.
• Recomandările sunt făcute în legătură cu două contexte diferite: utilizarea
instrumentelor în situaţii de decizie (clasificarea subiecţilor în categorii); şi utilizarea pentru

41
evaluări individuale. În cel de-al doilea caz coeficientul de fidelitate trebuie să fie mai ridicat decât
în primul caz.
• Alţi factori trebuiesc, de asemenea, luaţi în considerare: dacă scala se utilizează
singură sau împreună cu alte scale (instrument compozit). În cazul scalelor compozite, accentual va
fi pus pe scorul compozit si nu pe sub-scalele instrumentului.

Apreciere Volumul esantionului


inadecvat mai mic de 100 subiecţi
adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi

Mediana coeficienţilor
inadecvată: r < 0.7
adecvată : 0.7 < r < 0.79
bună : 0.80 < r < 0.89
excelentă : r > 0.90

e. Dimensiunea esantionului în studii de stabilitate test-retest

Apreciere Volumul esantionului


inadecvat mai mic de 100 subiecţi
adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi

Mediana coeficienţilor
Inadecvată : r < 0.6
Adecvată : 0.6 < r < 0.69
Bună : 0.7 < r < 0.79
Excelentă : r > 0.80

f. Dimensiunea esantionului în studii de fidelitate de echivalenţă

Apreciere Volumul esantionului


inadecvat mai mic de 100 subiecţi
adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi

42
Mediana coeficienţilor
Inadecvată : r < 0.6
Adecvată : 0.6 < r < 0.69
Bună : 0.7 < r < 0.79
Excelentă : r > 0.80

Concluzii

Recomandările sintetizate mai sus oferă un cadru suficient pentru orientarea în situaţiile în
care nu apelăm la analize cantitative riguroase de dimensionarea esantioanelor. Asa cum se poate
observa, nu există o recomandare unică de fixare a dimensiunii esantionului, potrivită pentru orice
situaţie si orice tip de test statistic. În toate cazurile, cu cât esantionul este mai mic, cu atât scade
sansa de a ajunge la un rezultat statistic semnificativ, în condiţiile unei mărimi „rezonabile” a
efectului. În acelasi timp, însă, nu este de dorit nici utilizarea unor esantioane extrem de mari,
deoarece în acest caz, riscăm să obţinem un rezultat semnificativ statistic, dar total nerelevant din
punct de vedere practic sau al mărimii efectului.

43
Modulul 5. INFERENŢA STATISTICĂ

Inferenta adevarurilor stiintifice: teste de semnificatie


Cunoasterea umana se îmbunatateste continuu; cercetatorii stiintifici dobândesc cu fiecare zi
ce trece noi cunostinte. Care le sunt metodele?
Atunci când apare un fenomen nou, oamenii rationali încearca sa-i detecteze cauzele, si
avanseaza diverse ipoteze care li se par plauzibile. Ulterior, în urma observarii altor aparitii ale
fenomenului, unor ipoteze le creste, altora le scade veridicitatea, fiind posibil chiar sa se renunte la
ele; într-un cuvânt, plauzibilitatea fiecarei ipoteze „explicative” este reevaluata.
Testarea statistica de semnificatie este o metoda de stabilire a gradului de plauzibilitate
(veridicitate). Particularitatea sa este limpede: se refera la un anumit tip special de
ipoteze, cunoscute sub numele de ipoteze statistice. Într-o abordare de bun simt, a testa o
anumita presupunere (adica o ipoteza) careia experienta noastra personala ne spune sa-i acordam
crezare, este usor de explicat:
• admitem ca ipoteza ar fi adevarata, apoi comparam observatiile (adica datele
obtinute din lumea reala) cu consecinte logice ale ipotezei noastre. Daca observatiile de care
dispunem sunt compatibile cu consecintele la care ne asteptam, atunci vom continua sa credem – si
în cele mai multe cazuri ne vom întari „credinta” – în presupunerea noastra.
• daca ceea ce observam nu se potriveste suficient de bine cu asteptarile noastre, atunci
„credinta” noastra în validitatea presupunerii va scadea, uneori atât de mult încât vom „respinge” cu
totul presupunerea facuta.
Trebuie sa subliniem aici cât de vagi sunt afirmatiile din paragraful precedent: întelesul
precis al sintagmei „suficient de bine” este lasat la latitudinea cititorului. La fel
si responsabilitatea oricarei consecinte neplacute pe care ar putea-o avea o deciziegresita.
Evident, ipotezele avansate de catre cercetatorii stiintifici sunt cunoscute ca ipoteze
stiintifice. Efectuarea unui test de semnificatie, cunoscuta si sub numele de testarea sau
verificarea ipotezelor, este o metoda folosita pentru a testa o presupunere, în care credem, despre
o întreaga populatie, prin folosirea datelor obtinute dintr-un esantion. În general, rezultatul unui test
de semnificatie este exprimat printr-un numar. Acest numar reflecta cât de plauzibila este ideea ca
valoarea unei anumite statistici descriptive – care este calculata din datele obtinute din acel esantion
– ar putea proveni dintr-un esantion aleator.
Abordarea initiala a lui Robert A. Fisher (publicata în cartea Statistical Methods for
Research Workers în anul 1925) a fost dedicata cercetatorilor stiintifici: validitatea unei ipoteze
stiintifice este stabilita pe baza unui singur test, cu optiunea de a nu emite o
judecata definitiva atunci când rezultatul nu este „suficient de limpede”. În aceasta abordare
sunt posibile doar doua optiuni:

44
• fie vom „respinge ipoteza nula”,
• fie vom amâna decizia (nu sunt suficiente date pentru a trage vreo concluzie).
De regula, oamenii care iau decizii (agentii decizionali) le iau bazându-se pe informatii
partiale, limitate si de aceea deciziile pot fi mai mult sau mai putin corecte sau eficiente. Un om
rational încearca sa minimizeze costul deciziilor gresite. Abordarea sa, atunci când este confruntat
cu alegerea între doua ipoteze aflate în competitie, este clara: va alege una, iar decizia de alegere va
fi luata pe baza informatiilor obtinute anterior din esantioane.
Fie în postura de cercetator stiintific, fie în cea de agent decizional, vom fi în masura
de a lua decizii rationale – în urma efectuarii unui test de semnificatie – doar atunci când
vom întelege pe deplin esenta acestor teste. Aceasta implica doua aspecte:
1) Pe de o parte, va trebui sa întelegem la ce tip de probleme testele de semnificatie
ofera (cel putin partial) raspunsuri, iar
2) Pe de alta parte, va trebui sa întelegem natura informatiilor pe care ni le ofera aceste
teste.
Din punctul de vedere al întelegerii lumii înconjuratoare, dar si din punctul de vedere al
logicii, abordarea lui Fisher este usor de explicat: ipotezele stiintifice se refera la populatii teoretice,
care au de obicei un numar infinit de indivizi si sunt reprezentate de
distributii continue. O ipoteza stiintifica este înlocuita printr-o ipoteza statistica, exprimata
prin intermediul parametrului acelei populatii (cum ar fi proportia, media etc.).
Valoarea parametrului este estimata prin exploatarea datelor obtinute dintr-un esantion
extras din populatie, apoi este comparata cu o valoare „asteptata”. Discrepanta dintre cele
doua va influenta „credinta” noastra în validitatea ipotezei stiintifice.
Ipoteza statistica asociata ipotezei stiintifice este bazata, astfel, pe un esantion „mic” extras
dintr-o populatie finita (posibil „mare”). O prima eroare ce poate fi facuta îsi are originea în
identificarea ipotezei stiintifice cu cea statistica asociata. Totusi, atunci când folosim metodele
statisticii, identificam de fapt aceste doua ipoteze si încercam sa
evaluam riscul erorilor pe care le-am putea face.
Pe scurt, ideea testarii ipotezelor (adica a testelor de semnificatie) este simpla: ipoteza
statistica va servi ca alternativa la o alta ipoteza – asa-numita „ipoteza nula” – care este luata în
considerare doar pentru a fi respinsa. Prin acceptarea adevarului ipotezei nule vor rezulta anumite
consecinte statistice, iar acestea vor fi confruntate cu datele observate. Orice dovada aflata în
contradictie cu ipoteza nula va servi ca justificare a alternativei.

Relatia între ipoteza alternativa si ipoteza nula în testarea ipotezelor


Am afirmat anterior ca o ipoteza statistica este o afirmatie despre un parametru al
populatiei (sau despre mai multi parametri ai populatiei/populatiilor). O asemenea
afirmatie este legata de ipoteza stiintifica luata în considerare (sau este o consecinta

45
logica a ipotezei stiintifice).
Sa prezentam, în continuare, prin câteva exemple felul în care se relationeaza cele doua
tipuri de ipoteze. Anume, sa consideram urmatoarele afirmatii:
(1) La vârsta de 10 ani, fetele sunt mai inteligente decât baietii,
(2) Vârsta „foarte înaintata” este un predictor semnificativ al maladiei Alzheimer,
(3) Copiii sunt mai creativi decât adultii,
(4) Medicamentul A ajuta pacientii sa se însanatoseasca mai bine decât medicamentul B,
(5) Inginerii barbati si femei au salarizari diferite,
(6) Pacientii îsi revin în urma unui tratament standard,
(7) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor pierde
în greutate exact 2 kg,
(8) Medicamentul D nu are nici un efect asupra tuberculozei,
(9) Efectele medicamentului E asupra bolnavilor barbati si femei sunt similare.
Recunoastem în cele noua afirmatii de mai sus enunturi ale „credintelor” specialistilor si
profesionistilor, rezultate din lunga lor experienta personala.
Se poate observa o distinctie clara între primele sase si ultimele trei: acestea din urma
exprima o egalitate, o similaritate sau o coincidenta (sa observam ca „nu are efect”
înseamna „nu schimba cu nimic situatia”, sau ca „situatia de dinaintea tratamentului cu
medicament este aceeasi cu situatia de dinainte”). Din contra, primele sase afirmatii
exprima o inegalitate, o disimilaritate sau o diferenta.
Aceasta distinctie este esentiala pentru posibilitatea aplicarii testarii ipotezelor. Este esential
sa subliniem ca testarea statistica de semnificatie poate fi aplicata doar ipotezelor stiintifice care
sunt exprimate ca inegalitati, disimilaritati sau diferente; în niciun caz egalitati cum este cea din (7)
nu pot fi confirmate ca „adevarate” prin testare statistica de semnificatie. Probabil ca ceea ce
specialistul nostru (sa fie oare aceste Dr. C?) vroia sa exprime era urmatoarea afirmatie:
(7’) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor
pierde în greutate cel putin 2 kg, iar în aceasta forma ea ar putea servi ca punct de plecare
pentru o testare statistica de semnificatie.
Sa înlocuim cele sapte ipoteze stiintifice (1)-(6) si (7’) de mai sus prin ipotezele
statistice corespunzatoare. Va trebui sa implicam unii parametri ai populatiilor respective:

(1a) IQ-ul mediu al fetelor în vârsta de 10 ani este mai mare decât IQ-ul mediu al
baietilor în vârsta de 10 ani,
(2a) Incidenta maladiei Alzheimer este mai mare la persoanele de vârsta foarte
înaintata (prin comparatie cu persoanele de vârsta înaintata),
(3a) Indicele mediu de creativitate al copiilor este mai mare decât cel al adultilor,
(4a) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este mai

46
mare decât proportia corespunzatoare pentru medicamentul B,
(5a) Salariul mediu al medicilor barbati difera (este mai mare?) decât salariul mediu al
medicilor femei,
(6a) Starea medie de sanatate a pacientilor, în urma unui tratament standard, este mai
buna decât înaintea începerii tratamentului,
(7a) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de cel putin 2 kg.
Toate aceste afirmatii vor putea servi ca ipoteze alternative în testari de semnificatie. În
general, într-o testate statistica de semnificatie, ipoteza alternativa este o afirmatie despre parametrii
unei/unor populatii, care înlocuieste ipoteza stiintifica (presupusa plauzibila). (Sa facem observatia
ca în toate exemplele de mai sus, ca parametri ai populatiilor au fost considerati medii sau
proportii.)
Se obisnuieste sa fie numita ipoteza alternativa si sa fie notata cu Ha (sau H1) tocmai
ipoteza stiintifica luata în considerare, ca afirmatie exprimând o inegalitate, o
disimilaritate sau o diferenta.
Din punct de vedere logic, în aceiasi termeni am putea enunta si o alta afirmatie, de data
aceasta exprimând egalitatea sau inegalitatea inversa, similaritatea sau coincidenta. Aceasta
afirmatie este notata cu H0 si este numita ipoteza nula. Conform lui R. A. Fisher, ipoteza nula este
„ridicata” – ca un complement al ipotezei alternative – doar pentru a fi respinsa, iar prin respingerea
ei vom accepta ca „adevarata” ipoteza stiintifica initiala.
Sa prezentam aceste afirmatii pentru cele sapte exemple de mai sus:

(1-H0) IQ-ul mediu al fetelor în vârsta de 10 ani este egal cu IQ-ul mediu al baietilor în
vârsta de 10 ani,
(2-H0) Incidenta maladiei Alzheimer la persoanele de vârsta foarte înaintata este aceeasi
cu cea la persoanele de vârsta înaintata,
(3-H0) Indicele mediu de creativitate al copiilor este egal cu cel al adultilor,
(4-H0) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este egala cu
cea corespunzatoare pentru medicamentul B,
(5-H0) Salariul mediu al medicilor barbati este egal cu salariul mediu al medicilor femei,
(6-H0) Starea medie de sanatate a pacientilor, în urma unui tratament standard, nu sufera
nicio schimbare,
(7-H0) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de exact 2 kg.
R. A. Fisher a dat numele de „ipoteza nula” deoarece aceasta ipoteza ar trebui sa
fie„anulata”. Acest nume a fost retinut si a supravietuit probabil datorita faptului ca în multecazuri
ipoteza nula poate fi scrisa sub forma unei „egalitati cu zero”:

47
(H0) f (p) = 0 în care f este o functie de parametrii p ai populatiilor implicate în testare.
Poate ca cel mai bun exemplu este urmatorul:
(10) m f - mb = 0
în care parametrii m f si mb reprezinta IQ-ul mediu al fetelor, respectiv baietilor în vârsta
de 10 ani.
Exista întotdeauna posibilitatea ca ipoteza nula sa fie ea cea adevarata, deci prin
respingerea ei sa facem o eroare. Admitând ca dispunem de informatii complete despre
distributia populatiei, singura sursa de eroare ar ramâne maniera în care sunt alesi indivizii din
esantion. Atunci când esantionul este ales aleator, diferentele dintre ceea ce ne asteptam si ceea ce
constatam vor putea fi explicate doar prin factorul „sansa”. Vom putea impune un prag asupra
acestor diferente, separând diferentele „mici”, acceptabile, de cele „mari”, inacceptabile.
Acest prag este identificat odata cu specificarea nivelului de semnificatie.

SARCINI SAU PROBLEME DE COMPARAŢIE

În chip frecvent intervin în cercetările psihologice probleme de comparaţie. Astfel, se


compară între ele mediile obţinute într-o experienţă şi se pune întrebarea dacă diferenţele constatate
sunt semnificative sau nu, se pot extinde la populaţie sau nu.

Exemplu (după I. Radu):


Într-o experianţă de instruire programată au fost cuprinse două clase paralele. La
probele de control date în post- test s-a constatat la clasa experimentală - cu un efectiv de 33 elevi -
o medie a notelor de 7,7, iar în clasa de control (N = 34), media la aceleaşi teste a fost de 6,7.
Diferenţa dintre medii este 1,00. Se pune întrebarea dacă această diferenţă este semnificativă, dacă
putem extrapola la populaţie, ceea ce ne indică dacă metoda de instruire încercată este mai bună
decât cele curente.
Rezultatele unei investigaţii pot să apară exprimate şi sub formă de frecvenţe sau
proporţii. În exemplul citat mai sus rezultatele experimentului ar putea fi exprimate şi în frecvenţe,
indicând proporţiile consemnate de răspunsuri corecte şi de răspunsuri greşite. Şi în cazul acesta se
pune întrebarea dacă diferenţele constatate sunt semnificative sau nu. Răspunsul la întrebarea pusă
s-ar putea obţine repetând experienţa. Dacă rezultatele se menţin statornice vom putea conchide
asupra semnificaţiei lor. Cum experienţele nu se pot repeta indefinit - procedeu de altfel
neeconomic - s-a conturat un mecanism logic prin care se infirmă ipoteza hazardului, notată H0.
În condiţiile experienţei obişnuite ne-am putea mulţumi cu diferenţe între medii de
0,5 sau 0,7 ori 0,9 ş.a.m.d., după cum diferenţe de 5%, 7% etc între frecvenţe ar părea doveditoare.
Experimentul ştiinţific nu poate face extrapolări la populaţie bazate doar pe simpla
evaluare intuitivă. Întrebarea este: de la ce nivel (0,5 sau 0,7, respectiv 5%; 7%;...) diferenţele pot fi

48
considerate semnificative?
În orice experienţă studiem procesul dat în anumite condiţii, într-un anumit context:
la lecţie, la joc, în activităţile practice, în condiţii de laborator etc. Trebuie să admitem că, într-un fel
sau altul, întâmplarea poate interveni în desfăşurarea fenomenului cercetat prin condiţii neaşteptate,
prin compoziţia grupului, prin deosebiri în personalitatea profesorului etc. Datele obţinute sunt
afectate în felul acesta de un element aleator (întâmplător).
În consecinţă, alături de ipoteza specifică (Hs), ce stă la baza experienţei respective şi care
este o ipoteză psihologică sau pedagogică se poate formula şi o altă ipoteză care să atribuie numai
întâmplării tendinţele sau diferenţele constatate. Aceasta din urmă este "ipoteza întâplării"sau
ipoteza nulă (H0) şi se enunţă pentru toate cazurile în aceiaşi termeni. De notat că atât ipoteza nulă
(H0) cât şi ipoteza alternativă (Hs) se referă la populaţie, nu la eşantioane ca atare.
Preocupat să dovedească în mod temeinic justeţea ipotezei specifice, cercetătorul va
admite în mod provizoriu –în raţionamentul său – ipoteza nulă şi va determina şansele
(probabilitatea) ca diferenţele obţinute în experiment să aibă loc numai pe baza " legilor
întâmplării" (care sunt legi de probabilitate bine studiate). Ştim că probabilitatea ia valori între 0 şi
1, iar transcrisă în procente – între 0 şi 100%.
Dacă probabilitatea obţinerii diferenţei date, în baza ipotezei nule, este foarte mică
(de pildă, mai mică decât 0,05 ceea ce se scrie p < 0,05), atunci respingem ipoteza hazardului şi
arătăm toată încrederea ipotezei specifice. Dacă însă, probabilitatea determinată în lumina ipotezei
nule este mai mare (de pildă, p > 0,10 putând merge până la 1), atunci nu ne putem asuma riscul
respingerii ipotezei nule şi vom considera diferenţele efectiv obţinute ca fiind încă nesemnificative.
Prin urmare se acceptă ca semnificative acele rezultate care au şansele de a se
produce prin simpla întâmplare numai într-un număr mic de cazuri: sub 5% din cazuri, uneori sub
10%. Şansele de a obţine rezultatele respective prin simplul joc al factorilor aleatori se află în acest
caz sub 10%, respectiv 5% ( ceea ce se scrie p < 0,10 respectiv p < 0,05). Înseamnă că, acceptând
rezultatele unei experienţe drept proba justeţei ipotezei specifice, ne asumăm totodată riscul de a
greşi în mai puţin de 10%, respectiv 5% din cazuri. Fiecărei aserţiuni i se asociază astfel un prag de
semnificaţie, care indică riscul de a greşi pe care ni-l asumăm.
Rezumând: mecanismul logic al ipotezei nule permite infimarea ipotezei hazardului şi
acceptarea în consecinţă a ipotezei alternative (Hs). Ipoteza nulă şi ipoteza alternativă sunt
contradictorii; a respinge ipoteza nulă înseamnă a accepta ipoteza specifică. Dacă plasăm pe o axă
probabilităţile amintite vom avea situaţia din figura 4.3.

1 0,05 0,01 0
|-------------------- . . . -----------------|------------------|------------------>
H0 nu se consideră infirmată | H0 se consideră infirmată

49
şi se suspendă decizia | şi se acceptă Hs

Fig. 4.3 Limita semnificativităţii statistice (prag de semnificatie)

Respingând ipoteza nulă şi accepând existenţa unui efect al variabilei independente –


ceea ce susţine Hs - ne asumăm un risc de a greşi destul de mic: 5% respectiv 1%. Măsurarea acestui
risc, notată cu α, constituie pragul de semnificaţie, care însoţeşte fiecare aserţiune.
Se poate întâpla ca ipoteza nulă să nu fie infirmată, z cal fiind mai mic decât 1,96
(deci p > 0,05). În cazul acesta nu se conchide că H0 ar fi validată, ci, pur şi simplu, că nu se poate
decide; intervine o zonă de suspendare a judecăţii. Valoarea | z | care separă cele două zone - zona
de respingere a ipotezei nule şi zona de suspendare a judecăţii - se numeşte valoare critică. Ea
corespunde valorii z cal având o probanbilitate asociată egală cu α. Riscul de a greşi α se poate lua
10%, 5%, 1%. Tradiţia a acreditat pragul de p≤ 0,05 sau p≤ 0, 01. În funcţie de cerinţele cercetării
se alege pragul indicat.
De notat că ipoteza nulă nu poate fi niciodată acceptată; a nu se respinge H0 nu
echivalează cu acceptarea ei. În schimb, ipoteza specifică nu poate fi niciodată respinsă. Fiind o
ipoteză statistică imprecisă nu se poate calcula distribuţia de eşantionaj sub ipoteza alternativă
(Abdi, 1987).
Valorile cririce ale criteriului z, t, ş.a. au fost calculate pentru diferite praguri  fiind
prezentate sub formă de tabele ce urmează doar a fi consultate. Regula de decizie este precizată:
- dacă criteriul z, calculat pe eşantionul experimental este mai mare sau egal cu
valoarea critică (z critic), probabilitatea sa asociată este mai mică sau egală cu pragul α (se decide
respingerea H0);
- dacă criteriul z cal, calculat pe eşantionul experimental, este mai mic decât valoarea
critică (z critic), probabilitatea asociată este mai mare decât pragul α. În consecinţă intervine
suspendarea judecăţii: nu se va respinge nici accepta H0. În sens strict, se va decide de a nu se
decide ...(Abdi, 1987).
În probleme de comparaţie statistică urmează să se facă disticţia între eşantioane
independente şi eşantioane perechi.
O clasă de elevi, spre exemplu, poate fi considerată practic ca un eşantion la
întâmplare extras dintr-o colectivitate mai largă. Dacă se consideră o altă clasă, paralelă, în vederea
unei experienţe determinate, atunci alegerea poate fi făcută în două feluri. Se pot alege în mod
independent cele două eşantioane: faptul că un element sau altul din primul eşantion a fost ales nu
are nici o influenţă asupra alegerii elementelor din eşantionul al doilea. Compoziţia celor două
grupe nu este reglementată pe baza unei probe prealabile; cele două clase sunt considerate în
compoziţia lor stabilită prin " legile întâmplării". În acest caz este vorba despre eşantioane

50
independente.
Se poate proceda şi altfel. Se pot constitui eşantioane perechi. În cazul acesta,
fiecare element dintr-un eşantion corespunde unui element dintr-un alt eşantion (formează o pereche
cu el). De exemplu, pentru a compara două metode de instruire se constituie două grupe cu acelaşi
număr de elevi, astfel ca fiecărui elev dintr-o grupă să-i corespundă un elev din cealaltă grupă,
având acelaşi nivel de cunoştinţe, eventual acelaşi C.I. În felul acesta, compoziţia grupelor este
precizată pe baza unei probe anterioare, în virtutea căreia elementele celor două eşantioane nu se
determină la întâmplare. Fiecare individ dintr-o grupă are "corespondent” în grupa a doua, având
aceeaşi notă (sau acelaşi nivel) în proba preliminară. Situaţia este identică şi în cazul când acelaşi
grup de subiecţi este supus de două ori la probe diferite (de exemplu, înainte şi după acţiunea unui
anumit factor experimental). Se obţin atunci două grupe de măsurări efectuate pe aceiaşi subiecţi,
care constituie perechi.
Prin urmare putem alege grupele de studiu în mod independent şi atunci este vorba
de o alegere la întâmplare a elementelor; sau putem asocia într-un anumit fel - pe baza unui criteriu
precis - elementele celor două eşantioane, două câte două, şi atunci compoziţia lor este determinată
de regulă în virtutea unei probe prealabile: test de inteligenţă, test de cunoştinţe etc.

Semnificaţia diferenţei între două medii în cazul eşantioanelor independente

Probele de semnificaţie diferă în funcţie de două situaţii:


●când numărul de măsurători (N) în fiecare eşantion este destul de mare (mai mare ca 30);
●când numărul de măsurări sau volumul eşantionului este mai mic dacât 30.
În experimentele cu caracter instructiv de la care am pornit N1= 33 şi N2 = 34, deci ne aflăm
în prima situaţie.
Pentru a vedea dacă cele două medii constatate diferă semnificativ, facem raţionamentul
care urmează.
Admitem pentru moment ipoteza nulă şi stabilim care este şansa de a fi verificată.
Cu alte cuvinte presupunem că diferenţa între cele două medii m 1 şi m 2 se datoreşte întâmplării şi
că nu există diferenţe reale între eşantioanele considerate. În limbaj statistic înseamnă că cele două
grupe constituie eşantioane extrase la întâmplare din aceeaşi populaţie.
Pentru a testa ipoteza nulă se utilizează criteriul sau raportul:
m1 − m 2
z= ,
2 2
 
+
1 2

N1 N2

în care notaţiile sunt deja cunoscute.


Calculând valoarea raportului de mai sus, notat cu | z |, ne vom referi la proprietăţile

51
curbei normale schiţând valorile calculate (z cal) în raport cu valorile critice (1,96 şi 2,58). Dacă
valoarea ce va corespunde indicelui z cal este mai mare decât 1,96, atunci diferenţa între cele două
medii este semnificativă la pragul de p < 0,05, iar dacă z cal > 2,58, atunci diferenţa este
semnificativă la pragul de p < 0,01. Bineînţeles, dacă vom avea z cal < 1,96, atunci ipoteza nulă nu
va fi infirmată, iar diferenţa obţinută în cadrul experienţei nu va fi considerată concludentă pentru a
proba justeţea ipotezei specifice (vom suspenda decizia).
2
În exemplul considerat trebuie să cunoaştem cu privire la fiecare grup m , N şi  .
2
m1 = 7,7; N1 = 33; 1 = 3,15;
2
m 2 = 6,7; N 2 = 34; 2 = 3,5;
Utilizând formula stabilită obţinem:
7,7 − 6,7
= 2,33 .
3,15 3,5
+
33 34
Raportul găsit este mai are decât 1,96 şi mai mic decât 2,58, deci p < 0,05. Făcând
un calcul de interpolare se află p = 0,02; deci diferenţa este net semnificativă, ipoteza nulă fiind
infirmată.

Când volumul datelor obţinute în fiecare eşantion este mai mic (numărul de măsurări
este mai mic decât 30) se utilizează un procedeu întrucâtva diferit.
Ipoteza nulă se enunţă la fel: presupunem că cele două grupe de date sunt două
eşantioane întâmplătoare ce provin din aceeşi colectivitate generală. Verificăm apoi şansa acestei
ipoteze pe baza criteriului t:
m1 − m 2
t = .
2 1 1
s ( + )
N1 N 2

Pentru a obţine o estimare a dispersiei colectivităţii - care este notată în formulă cu


s2 - se combină datele celor două eşantioane:

s
2
=
(x − m ) + (x − m
1
2
2 )2
N1 + N 2 − 2
Formulele de la numărător ne sunt cunoscute de la calcularea dispersiei (sumei de
pătrate referitoare la cele două grupe), iar N1 şi N2 sunt efectivele celor două eşantioane.
Există un tabel special (întocmit de Student) în care figurează probabilităţile
raportului | t | corespunzător numărului "gradelor de libertate" care depinde de volumul
eşantioanelor (vezi Anexa 1.1.). În cazul nostru numărul acesta - notat n - este:
n = N1 + N2 - 2.

52
Să luăm un exemplu.
În procesul învăţării eşalonarea repetiţiilor este mai productivă decât concentrarea
lor. Într-o experienţă se ia câte o grupă formată fiecare din câte 10 subiecţi şi se experimentează în
cele două situaţii prevăzute: repetiţii eşalonate sau concentrate în timp. Încă din prima perioadă
subiecţii manifestă o diferenţă. Vrem să ştim dacă ea este semnificativă (după P. Oleron).
Datele consemnate de autor sunt:
m1 = 13,3; N 1 = 10; (x − m )1
2
= 82,1;

m 2 = 14,2; N 2 = 10;  (x − m )
2
2
= 97,6;

2 82,1 + 97,6
s = = 9,98
18

14,2 − 13,3
t = = 0,63
1 1
9,98 + 
 10 10 

| t | fiind calculat, ne referim la tabelul distribuţiei | t | întocmit de Student. Acest tabel


prezintă o coloană n sau v, care corespunde gradelor de libertate. În tabelul de mai sus n = 10 +10 -
2 = 18. Căutăm în coloana n pe 18. După ce l-am fixat, mergem pe rândul respectiv şi căutăm
valoarea lui | t | la pragul de 0,05 şi 0,01 (probabilitatea o citim în prima linie de sus a tabelului unde
găsim de la dreapta spre stânga: 0,01; 0,02; 0,05; 0,10). În cazul nostru tabelul indică 2,10 pentru | t
| la pragul de 0,05 respectiv 2,88 la oragul de 0,01. Valoarea calculată în exemplul ales este 0,63,
deci este mult mai mică decât 2,10 căreia îi corespunde p = 0,05. Putem spune atunci că pentru | t |
= 0,63 avem p > 0,05. şi astfel ipoteza nulă nu este infirmată. Considerăm diferenţa dintre medii ca
nesemnificativă, mai exact suspendăm decizia.
În general, dacă valoarea găsită prin calcul este mai mică decât valoarea | t | indicată
în tabel la pragul p = 0,05, atunci considerăm că ipoteza nulă nu este infirmată, iar diferenţele
obţinute în experienţă ca nesemnificative. Dacă valoarea calculată de noi este mai mare decât
valoarea | t | la pragul 0,05, dar mai mică dacât valoarea lui | t | la pragul de 0,01, vom spune că
diferenţa este semnificativă la pragul de 0.05. În sfârşit, dacă valoarea găsită de noi este mai mare
decât valoarea | t | indicată în tabel pentru
p = 0,01, atunci vom spune că diferenţa este semnificativă la pragul de 0,01.
Observăm că respingerea ipotezei nule se face considerând un prag de semnificaţie
ales în prealabil (cel mai riguros este p = 0,01). De reţinut este faptul că ipoteza nulă nu se
consideră niciodată demonstrată; ea poate fi doar infirmată. Efectul admiterii sau respingerii

53
ipotezei nule se răsfrânge asupra ipotezei specifice. Neinfirmarea ipotezei nule pune sub semnul
întrebării ipoteza specifică, infirmarea ipotezei nule consolidează foarte mult ipoteza specifică. Cele
două ipoteze H0 şi Hs sunt, cum s-a spus, contradictorii.

Semnificaţia diferenţei între două medii în cazul eşantioanelor perechi

Când elementele celor două eşantioane sunt asociate într-un anumit mod două câte
două (de exemplu, rezultatele înregistrate înainte şi după acţiunea unui factor experimental),
procedeul cel mai simplu constă în a raţiona asupra diferenţelor pe care le prezintă fiecare pereche
de date asociate, corelate.
Să notăm cu x rezultatele din primul grup de măsurări (eşantion) şi cu x' valorile
asociate din eşantionul al doilea. Diferenţa corespunzătoare fiecărei perechi de note x - x' o
însemnăm cu d. Se obţin astfel patru coloane.

Exemplu:
Cu o grupă de 10 elevi s-a încercat la geografie, în decursul trimestrului II al anului
şcolar, o metodă nouă de învăţare individuală, pe baza unor întrebări de control fixate pe cartonaşe.
S-au înregistrat notele elevilor la geografie la începutul experienţei, adică la sfârşitul trimestrului I
şi apoi la încheierea trimestrului II. Vrem să ştim dacă metoda respectivă aduce o îmbunătăţire
semnificativă a situaţiei şcolare.
Pentru a determina acest lucru întocmim un tabel în care vom înscrie subiecţii,
rezultatele obţinute în cele două situaţii şi vom calcula diferenţele dintre ele (Tab.4.1.).
Se observă din tabel că avem diferenţe nule, pozitive şi negative.
Formulăm ipoteza nulă, adică atribuim numai întâmplării diferenţele constatate,
Dacă s-ar datora numai întâmplării, aceste diferenţe ar fluctua în jurul lui 0 într-un sens sau altul, iar
media lor ar fi egală cu zero md= 0 (cu md am notat media diferenţelor).

Note Note
Sub trim. II trim. I d d2
iecţi x` x

A 8 6 +2 4
B 7 5 +2 4

54
C 5 5 0 0
D 6 4 +2 4
E 5 6 -1 1
F 6 4 +2 4
G 6 5 +1 1
H 5 4 +1 1
I 4 6 -2 4
K 7 5 +2 4

N= Σd Σ
2
10 = +9 d = 27

Tabelul 4.1
Vom însuma algebric coloana d (ţinând deci seama de semne) şi vom afla
∑d = T. Apoi, făcând raportul T/N, vom afla media diferenţelor md.
În exemplul ales, md = T/N = 0,09, deci md diferă de zero; nu ştim dacă diferenţa
aceasta este suficient de mare pentru a putea fi considerată semnificativă sau nu.
Se utilizează criteriul:
md
t =
d
N

în care cunoaştem m d şi N, dar nu cunoaştem  d (abaterea standard a diferenţelor).


Tratăm diferenţele aşa cum am considerat înainte datele brute.
Calculăm mai întâi dispersia diferenţelor:
T2
2 d 2 − N
d =
N −1
şi
2
d = d
În exemplul ales adăugăm în tabel o coloană d2, pe care însumând-o obţinem
Σd2=27.

Făcând înlocuirile:
2 27 − 81 / 10
d = = 2,1
9
de unde
 d = 2,1 = 1,4
Deci

55
0,9
t = = 2,0
1,4
10
Căutăm în Anexa 1.1. | t | ţinând seama de faptul că în acest caz numărul gradelor de
libertate este N - 1 (şi nu N1+N2- 2, ca în primul caz).
În exemplul de mai sus, N - 1 = 9. Căutând în tabel găsim pentu 9 grade de libertae,la
pragul de p = 0,05 cifra 2,26. Valoarea calculată de noi este inferioară acestei cifre. Înseamnă că nu
s-a demnostrat falsitatea ipotezei nule şi, în felul acesta nu se poate spune că rezultatele experienţei
sunt semnificative.
Când N este destul de mare (>60) putem raporta valoarea găsită prin calcul la
valorile z (1,96 şi 2,58) fără să mai facem apel la Tabelul lui Student.
Trebuie reamintit în încheiere că atât raportul | z | cât şi criteriul | t | presupun
drept condiţie aspectul normal al distribuţiilor supuse comparaţiei.

Modul 6. Aplicarea softurilor statistice în cercetare: programul SPSS şi


elaborarea unei baze de date
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 lanseze în execuţie programul SPSS, să creeze şi să salveze un fişier în format *.saw

56
 diferenţieze principale ferestre ale programului SPSS
 identifice în bara de comenzi principalele categorii de comenzi şi funcţiile acestora
 definească în editorul de date variabilele relevante ale studiului

Chiar dacă a fost cândva, actual statistica aplicată nu mai este o lume străină şi exotică
pentru cercetătorii din diferitele domenii ale ştiinţei. Un rol hotărâtor în penetrarea practicii de
cercetare de către statistică a avut-o informatizarea demersului statistic şi apariţia softurilor
statistice. Utilizarea softurilor a permis ca cercetătorii din diferite domenii ale ştiinţei să opereze cu
modele matematice complexe fără a avea în prealabil o formare în matematica aplicată.
Actual pe piaţa softurilor statistice există multe aplicaţii de analiză statistică, SPSS fiind
doar unul dintre acestea. Prima versiune a fost elaborată în 1968, variantele actuale (SPSS 14, SPSS
15) fiind considerate cele mai frecvent utilizate softuri statistice în cercetare (studii de marketing,
anchete sociale, studii experimentale, etc.). Există diferite verisuni ale programului, atât pentru
sistemul de operare Windows cât şi pentru sisteme Mac OS X şi Unix.

Lansarea în execuţie a programului SPSS 10.0


După instalarea programului SPSS 10.0 în meniul de Start al sistemului de operare
identificaţi pictograma SPSS. 10.0 for Windows. Un click de mouse pe aceasta va avea ca şi efect
lansarea în execuţie a programului SPSS 10.0 şi va deschide fereastra de Editare a Datelor. Aceasta
reprezintă una din cele patru ferestre esenţiale ale programului (fereastra de: Sintaxă, Output şi
Macros). Orice modificare efectuată în fereastra de Editare a Datelor (ex. definirea unei variabile,
introducerea datelor unui subiect, etc) poate fi salvată prin accesarea în bara de comenzi a
instrucţiunii File→Save→... urmând a se specifica denumirea sub care fişierul nou creat va fi salvat
(cu extensia *.saw) şi locaţia acestuia.

Structura programului SPSS 10.0


Principalele ferestre ale programului sunt cele ale: Editorului de Date, Sintaxei, Outputurilor
şi Macrosurilor. Fereastra de Sintaxă permite editarea şi salvarea unor şiruri de comenzi utilizate în
mod frecvent. În fereastra Outputurilor sunt afişate rezultatele procesărilor statistice precum şi
eventualele mesaje de eroare. Fereastra Macrosurilor permite editarea unor scripturi ce permit
facilitarea prelucrării datelor.
Fereastra Editorului de Date reprezintă locul unde sunt introduse datele obţinute în urma
cercetării. Această fereastră are două componente: Editorul de Date şi Editorul de Variabile. În
Editorul de Date pe verticală (linii) avem subiecţii. SPSS. 10.0 asignează în mod automat un număr
fiecărui subiect introdus, vezi prima coloană numerotată a Editorului de Date (dar acest număr de
identificare nu este unul stabil, la o sortare a datelor, în funcţie de criteriul utilizat subiecţii pot avea
alt număr). Pe orizontală (coloane) avem înşirate variabilele. Nu există o setare implicită a

57
variabilelor în ceea ce priveşte caracterul: continuu sau discret, independent sau dependent, calitativ
sau cantitativ. Aceste caracteristici urmează a fi definite în mometul construcţiei bazei de date. În
Editorul de Variabile pe orizontală avem variabilele şi pe verticală avem caracteriticile acestora.

Bara de meniuri a Editorului de Date


Bara de meniuri a Editorului de Date cuprinde o serie de comenzi grupate sub diferite
denumiri. Dintre acestea le vom prezenta doar pe cele mai importante:
- File: comenzi care permit operaţii asupra fişierelor ce pot fi accesate de program (crearea,
deschiderea, salvarea unui fişier, etc).
- Edit: comenzi ce permit editarea bazei de date (ex. ştergerea unor variabile, copierea unui
set de date şi reinserarea acestuia în altă parte a bazei de date, etc);
- View: comenzi ce permit stabilirea elementelor de interfaţă a ferestrei de Editare a Datelor
şi trecerea de la Editorul de Date la Editorul de Variabile;
- Data: comenzi ce permit efectuarea unor operaţii asupra bazei de date (ex. restructurarea
acesteia, eliminarea din prelucrarea statistică a unei părţi a datelor, identificarea unui subiect căutat
sau a unei valori căutate, etc);
- Transform: permite modificarea iniţială a datelor introduse în căsuţele Editorului de Date
(ex. recodare, recalculare pe baza unei funcţii prestabilite, ordonarea valorilor, etc);
- Analyze: reprezintă grupul de comenzi care permit efectuarea analizelor statistice;
- Graph: comenzile care permit realizarea unor reprezentări grafice ale setului de date.
Unele dintre aceste comenzi pot fi accesate direct din opţiunile unor analizei statistice.

Construcţia unei baze de date în Editorul de Date al programului SPSS 10.0


Pentru a oferii informaţiile legate de procedura de elaborare a unei baze de date, o să
prezentăm un studiu experimental. Într-un studiu experimental Hyde & Jenkins (1973) au prezentat
subiecţilor o serie de liste de cuvinte. O parte a listelor conţineau cuvinte relaţionate semantic în
timp ce altele conţineau cuvinte nerelaţionate semantic. Listele de cuvinte au fost însoţite de diferite
tipuri de instruţiuni: 1) evaluarea conotaţiei afective a cuvintelor, 2) estimarea frecvenţei în limbaj a
cuvintelor, 3) detectarea literelor ‘e’ şi ’g’ în cuvintele din listă, 4) identificarea categoriei
gramaticale a cuvintelor şi 5) decizia asupra compatibilităţii cuvintelor cu un context propoziţional
prezentat în prealabil.
Designul prezentat este unul bifactorial, cercetătorii manipulând două variabile
independente: gradul de asociere a cuvintelor (relaţionate semantic sau nerelaţionate) şi strategia de
parcurgere a listei (strategie definită prin tipul de instrucţiune oferită). Variabila măsurată a fost
numărul de cuvinte reactualizate.
Prin comenzile deja cunoscute lansăm în execuţie programul SPSS 10.0. Selectăm fereastra
Editorului de Variabile pentru definirea acestora. În această fereastră vom definii atât variabilele

58
independente cât şi cele dependente. De altfel programul nu face distincţie între acestea,
cercetătorul prin caracteristicile definite diferenţiază variabilele manipulate de cele măsurate.
În editorul variabilelor în prima linie vom trece denumirea primei variabile independente:
gradul de asociere a cuvintelor. Această casuţă nu permite depăşirea a 8 caractere, ca urmare vom
recurge la o prescurtare a denumirii, ex. gdaac. După stabilirea denumirii vom stabilii alte detalii
ale acestei variabile: tipul variabilei (se referă la modul de codare a valorilor acestei variabile, în
cazul nostru vom accepta setarea iniţială – numerică). Astfel cele două modalităţi ale variabilei
gdaac vor fi codate cu 1 (pentru liste de cuvinte relaţionate semantic) şi 2 (pentru liste de cuvinte
nerelaţionate semantic). Setarea Width se referă la numărul caracterelor ce pot fi introduse în
coloana variabilei definite. Specificarea Decimals ne permite setarea numărului de zecimale afişate
în baza de date. Din moment ce avem o variabilă independentă codată numeric (subiecţii sunt sau în
grupul 1 sau în grupul 2) vom seta numărul zecimalelor la zero (nu există posibilitatea ca unul din
subiecţi să aibă 1,5 ceea ce ar însemna să nu fie inclus în niciuna din grupele definite pe baza
modalităţilor variabilei independente). Label reprezintă eticheta variabilei prescurtate. Este foarte
probabil ca o persoană care analizează datele introduse fără a avea infomaţii despre denumirea
variabilelor implicate în studiu, cu greu să îşi dea seama ce înseamnă exact gdaac. Ca urmare
această setare permite cercetătorului înregistrarea în baza de date a denumirii in extenso a variabilei
codate. Setarea Values este importantă în cazul variabilelor discrete, dacă dorim să etichetăm
diferitele nivele ale acesteia. Variabila independentă este una discretă, având modalităţi codate
numeric, însă acestor numere le putem asigna etichete lingvistice. Accesând această căsuţă se va
deschide o fereatră care permite asocierea unei etichete lingvistice fiecărui cod numeric. Stabilirea
unei legături se face prin comanda Add, după ce am trecut în căsuţele potrivite valoarea numerică şi
eticheta lingvistică asociată (ex. 1 – liste de cuvinte relaţionate şi 2 - liste de cuvinte nerelaţionate).
Pe coloana Missing vom specifica modalitatea de codare datelor lipsă. La această comandă vom
opta pentru a asocia valorile discrete lipsă cu 99. De obicei se alege o valoare care este în afara
plajei de valori ale variabilei codate. Setarea Columns se referă la lăţimea coloanei în care vor fi
introduse valorile variabilei definite (specificarea unei valori este opţională, din moment ce acest
parametru poate fi modificat în fereastra Editorului de Date cu ajutorul mouse-ului). Setarea Align
se referă la poziţionarea în căsuţă a valorii introduse, implicit fiind stabilită alinierea la dreapta.
Ultima specificare se referă la scala de măsură a variabilei. În cazul nostru variabila independentă
este una nominală, din moment ce toţi subiecţii sunt incluşi într-o grupă fără ca doi subiecţi să fie
incluşi în aceeaşi grupă. Diferenţele între grupe sunt de ordin calitativ, nici una din grupe nu
parcurge mai multe liste sau liste cu mai multe cuvinte. Ceea ce se modifică este caracterul
relaţionat sau nerelaţionat al cuvintelor de pe listă.
În mod similar se procedează pentru a doua variabilă independentă denumind-o sdpal (la
Label vom trece - Strategia de parcurgere a listei). În cazul variabilei dependente (numărul de
cuvinte reactualizate - ndcr) la setarea Values nu vom eticheta fiecare valoare a variabilei, deoarece

59
variabila măsurată este una cantitativă (numerică prin excelenţă). În momentul în care se trece la
Editorul de Date, denumirile variabilelor vor apare pe orizontală (fiecărei variabile îi va
corespunde o coloană). Ceea ce urmează este introducerea datelor în baza de date după următorul
algoritm: primul subiect aparţine grupului care a citit lista de cuvinte relaţionate semantic, în
coloana gdaac va avea 1, în coloana sdpal vom trece 1 (face parte din grupul căruia i s-a cerut
evaluarea conotaţiei afective a cuvintelor) şi la coloana ndcr vom trece numărul de cuvinte
reactualizate de acest subiect.

60
Modul 7. Utilizarea softurilor statistice în cercetare: modalităţi de
reprezentare grafică, calculul indicatorilor tendinţei centrale, ai dispersiei şi ai
distribuţiei.

Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 reprezinte grafic distribuţia valorilor unei variabile (histograma)
 calculeze indicatorii ce descriu o distribuţie: înclinarea şi gradul de aplatizare
 calculeze indicatorii tendinţei centrale: medie, mediană şi mod
 calculeze indicatorii de dispersiei ai unei distribuţii: abaterea standard, varianţa, eroarea
standard a mediei, amplitudinea, minimul şi maximul
În modulul anterior am parcurs paşii necesari configurării unei baze de date (am definit
variabilele independente şi dependente) precum şi cei necesari pentru introducerea datelor în
aceasta. În continuare vom parcurge paşii pentru a obţine primele informaţii de natură descriptivă
despre eşantionul nostru de date.

Modalităţi de reprezentare grafică


SPSS-ul ne oferă mai multe variante pentru a reprezenta grafic valorile din baza de date.
Precum am menţionat in modulul anterior acestea se regăsesc în meniul Graphs. Nu vom descrie
toate modalităţile de reprezentare grafică deoarece majoritatea nu se pretează domeniului specific al
cercetării în psihologie. Vom prezenta succint modalitatea de realizare a unei Histograme.
Histograma este o formă de reprezentare grafică a distribuţiei unei variabile numerice care
ne permite să determinăm intuitiv dacă aceasta are o formă simetrică sau asimetrică. În măsura în
care distribuţia este simetrică, apropiată de distribuţia normală, putem utiliza teste statistice
parametrice, iar în cazul unei distribuţii asimetrice vom utiliza teste statistice neparametrice. Pentru
mai multe detalii vezi suportul de curs An I al disciplinei Psihologie experimentală şi metode de
analiză a datelor.
Să presupunem că am realizat o replicare în scop didactic a studiul anterior elaborat de Hyde
& Jenkins (1973) şi am obţinut pe un lot de 20 de subiecţi ce au utilizat liste relaţionate semantic, cu
instrucţiune de estimare a frecvenţei cuvintelor în limbaj, următoarele date:

Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ndcr 20 12 28 18 20 22 24 18 19 25 27 26 23 20 22 23 15 18 15 22

Pentru a realiza o histogramă în SPSS vom accesa meniul Graphs de unde vom alege
opţiunea Histogram… . În fereastra astfel deschisă vom alege din lista de variabile aflată în stânga

61
numele variabilei pe care dorim să o reprezentăm (în cazul de faţă ndcr) şi o vom adăuga în câmpul
Variable. De asemenea vom bifa şi opţiunea Display normal curve (Afişează curba normală).

Precum se vede şi din figura de mai sus pe axa X avem reprezentate valorile variabile, iar pe
axa Y avem frecvenţa de apariţie a acestora în eşantionul nostru de date. În partea dreaptă a
histogramei avem trecute valorile: abaterii standard (Std. Dev), a mediei (Mean) şi numărul de
subiecţi / măsurători (N). De asemenea se poate observa că SPSS-ul afişează etichetele variabilelor
şi nu acele nume de maxim 8 caractere, tocmai pentru a uşura identificarea acestora.

Indicatori ce descriu forma unei distribuţii


Precum am precizat anterior histograma ne permite să evaluăm la modul intuitiv dacă o
anumită distribuţie de date este simetrică (cvasinormală) sau nu. Pentru o evaluare mai acurată
avem la dispoziţie doi indicatori statistici de descriu forma unei distribuţii: înclinarea (skewness) şi
gradul de aplatizare (kurtosis). Înclinarea este un indicator al simetriei unei distribuţii. Distribuţia
normală este perfect simetrică şi are un indicator de înclinare egal cu zero. Gradul de aplatizare este
un indicator al gradului de grupare a valorilor în jurul tendinţei centrale. În cazul distribuţiei
normale valoarea acestuia este egală cu zero. Pentru a calcula aceşti indicatori vom accesa meniul
Analyze din care vom alege opţiunea Descriptive statistics şi mai apoi opţiunea Frequencies... . În
fereastra activată alegem din lista de variabile, numele variabilei pentru care dorim să calculăm
înclinarea şi gradul de aplatizare şi o adăugăm în lista Variable(s):. Tot în această fereastră
accesăm opţiunea Statistics şi bifăm opţiunile: Skewness şi Kurtosis. Dând click pe butonul
Continue şi mai apoi pe butonul Ok, în fereastra de Output vom obţine următorul rezultat:

62
În tabelul de output pe lângă valorile celor trei indicatori vom avea: numărul de subiecţi
incluşi în calcul şi numărul de date lipsă (subiecţi ce nu au valori introduse în baza de date pentru
variabila în cauză). O valoare a indicelui de înclinare sau a gradului de aplatizare care este peste de
două ori valoarea erorii standard a acestuia ne indică o distribuţie asimetrică.

Indicatori ai tendinţei centrale


Următorul pas în a obţine mai multe informaţii legat de eşantionul nostru de date este
calcularea indicatorilor tendinţei centrale. Cei trei indicatori ai tendinţei centrale sunt: media,
mediana şi modul. Media este rezultatul împărţirii sumei tuturor valorilor din eşantionul de date la
numărul de cazuri. În exemplul nostru acesta este totalul cuvintelor reactualizate de către toţi cei 20
de subiecţi împărţit la 20. Mediana este acea valoarea din eşantionul de date, care se situează la
jumătatea distanţei dintre cea mai mică si cea mai mare valoare într-o listă ordonată a acestora.
Modul este acea valoare care are cea mai mare frecvenţă de apariţie în eşantionul de date. Vom
utiliza media ca şi estimator al tendinţei centrale în cazul în care distribuţia datelor este
cvasinormală. În cazul în care avem o distribuţie asimetrică mediana şi modul vor estima mai acurat
tendinţa centrală. Pentru a calcula aceşti indicatori vom accesa meniul Analyze din care vom alege
opţiunea Descriptive statistics şi mai apoi opţiunea Frequencies... . În fereastra activată alegem
din lista de variabile, numele variabilei pentru care dorim să calculăm indicatorii tendinţei centrale
şi o adăugăm în lista Variable(s):. Accesăm opţiunea Statistics şi bifăm opţiunile: Mean, Median,
Mod şi Sum. Dăm click pe butonul Continue şi mai apoi pe butonul Ok. În fereastra de Output
vom obţine următorul rezultat:

63
În cazul unei distribuţii cvasinormale valorile medie, medianei şi modului vor fi apropiate.
În tabelul de output pe lângă valorile celor trei indicatori vom avea: numărul de subiecţi incluşi în
calcul şi numărul de date lipsă (subiecţi ce nu au valori introduse în baza de date pentru variabila în
cauză). În cazul în care există mai multe valori cu cea mai mare frecvenţă de apariţie în eşantionul
de date şi ca atare nu avem un mod unic, SPSS-ul va trece în tabel valoarea cea mai mică dintre
acestea.

Indicatori ai dispersiei
În afara tendinţei centrale care ne spune unde se situează majoritatea datelor din eşantion
este foarte important să ştim şi cum sunt distribuite aceste valori în cadrul eşantionului. SPSS ne
oferă posibilitatea să calculăm următorii indicatori ai dispersiei: eroarea standard a mediei, abaterea
standard, varianţa, amplitudinea, minimul şi maximul. Pentru a calcula aceşti indicatori vom accesa
meniul Analyze din care vom alege opţiunea Descriptive statistics şi mai apoi opţiunea
Frequencies... . În fereastra activată alegem din lista de variabile, numele variabilei pentru care
dorim să calculăm indicatorii dispersiei şi o adăugăm în lista Variable(s):. Accesăm opţiunea
Statistics şi bifăm opţiunile: Std. Deviation, Variance, Range, Minumum, Maximum şi S.E.
mean. Dăm click pe butonul Continue şi mai apoi pe butonul Ok. În fereastra de Output vom
obţine următorul rezultat:

Tabelul de output este similar cu cel obţinut pentru indicatorii ce descriu forma distribuţiei
sau cel al tendinţei centrale.

64
Modul 8. Utilizarea SPSS în statistica inferenţială: estimarea parametrilor
populaţiei.

Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 efectueze calculul de estimare a mediei în populaţie utilizând softul SPSS 10.0
 interpreteze statistic rezultatele procesării efectuate
 salveze fereastra rezultatelor obţinute într-un fişier *.spo

Una dintre aplicaţiile esenţiale ale inferenţei statistice o reprezintă problema estimării
parametrilor populaţiei. Fără a intra în detaliile acestei probleme discutate în cadrul cursului de
Psihologie experimentală/metode de analiză a datelor (vezi suportul de curs Anul I), vom oferi un
exemplu concret de cercetare, câteva date (doar în scop didactic) şi ulterior vom descrie procedura
de calcul a intervalului de încredere prin utilizarea softului SPSS 10.0 și mai departe.
Activitatea fizică reprezintă o problemă esenţială a vieţii cotidiene, lipsa acesteia crescând
riscul apariţiei obezităţii şi a unor afecţiuni cardio-vasculare. Pentru a estima gradul de risc al
elevilor, cercetătorii de la OMS au aplicat unui eşantion de elevi un chestionar în care una din
întrebări se referea la numărul de ore/săptămână petrecute cu exerciţii fizice. Scopul cercetătorilor a
fost de a estima, pe baza datelor eşantionului, media în populaţia ţintă a numărului de ore de
exerciţiu fizic.
Întrebarea care se pune este, câte ore pe săptămână alocă elevii în medie exerciţiilor fizice?
Această medie pe populaţie nu poate fi calculată din moment ce nu avem posibilitatea de a
chestiona întreaga populaţie. Ca urmare am recurs la aplicarea chestionarului doar la un eşantion
extras din populaţia ţintă. Doar în scop didactic, să presupunem că volumul eşantionului este de
n=20. Datele obţinute sunt trecute în formă tabelară mai jos:

Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Ore/săptămână 5 5 2 3 7 5 4 3 6 2 8 4 5 6 4 5 6 2 3 4

Variabila măsurată: numărul de ore/săptămână alocate exerciţiului fizic a fost codată sub
denumirea de oefs. În Editorul de Date vom avea o singură coloană şi datele subiecţilor implicaţi
în studiu vor fi introduse în această coloană. Pentru a calcula intervalul de încredere în care se
situează, cu o anumită probabilitate, media populaţiei vom utiliza programul SPSS 10.0.
În meniul Analyze vom selecta comanda Descriptive Statistics →Explore unde vom trece
în căsuţa Dependent List variabila măsurată în studiu. La opţiunea Statistics vom seta valoarea

65
pragului α, care implicit este setat la 5% (adică la un interval de încredere de 95%) la 1% (adică
vom opta pentru un interval de încredere de 99%). Opţiunea Statistics ne oferă posibilitatea de a
alege prin bifare: calculul indicatorilor statistici şi indicatorilor formei distribuţiei (Descriptives),
estimarea medianei în populaţie (M-estimator), identificare valorilor extreme (Outliers) şi
distribuţia în centile a datelor obţinute (Percentile). În aces caz vom bifa doar opţiunea
Descriptives şi vom trece la pasul următor cu ajutorul butonuli Continue. Opţiunea Plots permite
realizarea unor reprezentări grafice (ex. histogramă), iar la Options putem seta criterii de
management al datelor lipsă. La opţiunea Display vom bifa Statistics pentru a rezuma procesarea
doar la calcul statistic fără a cere efectuarea unor reprezentări grafice. Terminând specificarea
procesărilor se apasă pe butonul OK. Outputul rezultat este prezentat mai jos:

Descriptives

Statistic Std. Error


oefs Mean 4.4500 .37329
99% Confidence Lower Bound 3.3821
Interval for Mean Upper Bound
5.5179

5% Trimmed Mean 4.3889


Median 4.5000
Varianc e 2.787
Std. Deviation 1.66938
Minimum 2.00
Maximum 8.00
Range 6.00
Interquartile Range 2.75
Skewness .248 .512
Kurtosis -.373 .992

Ceea ce ne interesează este valoarea mediei calculată pentru eşantion (4.45), valoarea erorii
standard (0.37) şi limitele intervalului de încredere, Limita inferioară = 3.38 şi Limita superioară =
5.51. În rest procesarea ne mai oferă o serie de date descriptive: ale tendinţei centrale în eşantion
(media ajustată (trimmed), mediana) ale dispersiei (varianţă, abatere standard, minim, maxim,
amplitudinea intervalului de valori, diferenţa interquartilă) şi indicatori ai formei distribuţiei
(Înclinarea şi Gradul de aplatizare).
În concluzie putem afirma (cu o anumită marjă de eroare asumată) că media numărului de
ore alocată exerciţiului fizic în populaţia elevilor este situată în intervalul 3.38 - 5.51.
În condiţiile în care rezultatele urmează a fi utilizate ulterior (ex. elaborarea ulterioară a unui
raport de cercetare) dar nu se doreşte reluarea paşilor descrişi anterior, fereastra Outputurilor poate
fi salvată în format *.spo urmând comenzile File→Save→... şi specificând denumirea fişierului.

66
Modul 9. Utilizarea SPSS în statistica inferenţială: probleme de
comparaţii inter- şi intra-grup.

Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 elaboreze baza de date pentru un experiment inter-grup
 elaboreze baza de date pentru un experiment intra-grup
 să efectueze calculul coeficienţilor statistici utilizând programul SPSS 10.0
 să interpreteze rezultatele analizelor statistice

A. Calculul statistic inferenţial al datelor rezultate dintr-un design cu eşantioane


independente
Să luăm ca exemplu adaptata după experimentul efectuat de Bower şi colegii (1981) în
scopul verificării dependenţei proceselor mnezice de contextul emoţional. Un cercetător a împărţit
în mod aleator eşantionul în două grupe. În transă hipnotică subiecţilor dintr-un grup (experimental)
li s-a indus o stare de tristeţe şi altora (grupul control), nu li s-a indus nici o stare emoţională. În
urma modificării stării emoţionale subiecţii au citit un text despre o persoană, urmând ca apoi să
reactualizeze caracteristicile personajului prezentat în text. S-a evaluat numărul de trăsături negative
reactualizate. Un set de date (doar în scop didactic) este prezentat în tabelul de mai jos:

Grup Grup control Grup experimental


Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nr. trăsături 5 5 2 3 7 5 4 3 6 2 8 4 5 6 4 5 6 2 3 4
negative

Mediile calculate pe cele două grupuri sunt m1=4.2 şi m2=4.7. Se pare că subiecţii cărora li
s-a indus o stare emoţională negativă au reactualizat mai multe trăsături negative. Întrebarea este în
ce măsură putem considera că această diferenţă poate fi atribuită intervenţiei sau reprezintă doar un
rezultat al randomizării aleatoare a subiecţilor în cele două grupe? Pentru alte detalii ale
raţionamentului inferenţial vezi suportul de curs An I al disciplinei Psihologie experimentală şi
metode de analiză a datelor.
Fiind vorba de un design de bază cu grupuri independente în baza de date vom defini două
variabile, variabila independentă stare emoţională indusă (cu două modalităţi – neutră, codată cu 1
şi de tristeţe codată cu 2) şi variabila dependentă (numărul de trăsături negative reactualizate). Ca şi
exemplu subiectul 1 în prima coloană a Editorului de Date va avea 1 şi în a două coloană va avea
5; subiectul 16 va avea 2 în prima coloană (fiind din grupul experimental) şi 6 în a doua coloană.

67
Pentru a efectua compararea mediilor vom urma linia de comenzi Analyze→Compare
means→Independet Sample t Test. În câmpul Grouping Variable vom introduce variabila
independentă şi vom defini grupele prin Define Groups, Grupa 1 fiind 2 şi Grupa 2 fiind 1. Codarea
grupelor nu presupune întotdeauna utilizarea cifrelor 1 şi 2, la fel de bine am fi putut coda grupele
cu 1001 şi 48. Ceea ce „întreabă” programul este, care dintre grupe să fie grupa de referinţă, acesta
fiind introdus ulterior (vezi numărătorul formulei de calcul al coeficientului t). În cazul nostru grupa
de referinţă este 1, adică grupul a cărei stare emoţională nu a fost modificată. După definirea
grupelor comparate în câmpul Test Variable vom introduce variabila dependentă şi apăsăm pe
butonul OK. Rezultatele relevante ale procesării apar în tabelul de mai jos:

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
cr Equal variances
.059 .810 .660 18 .518 .50000 .75792 -1.09233 2.09233
assumed
Equal variances
.660 17.998 .518 .50000 .75792 -1.09234 2.09234
not assumed

Primele calcule se referă la asumpţia omogenităţii varianţelor în populaţie. Dacă testul


Levene este semnificativ atunci înseamnă că varianţele populaţiilor din care provin cele două
grupuri nu sunt omogene, şi vom interpreta al doilea rand al tabelului. În cazul de faţă testul Levene
este nesemnificativ, valoarea calculată a lui p este mult mai mare decât 0.05 (p=0.81) ca urmare
vom interpreta datele primului rând. Valoarea calculată a coeficientului t este 0.66, grad de libertate
18 (n1+n2-2 adică 10+10-2) şi valoarea calculată a lui p pentru coeficientul t este 0.51, mult
deasupra pragului de 0.05. În continuare în table mai apar: diferenţa dintre mediile grupelor, eroarea
standard a distribuţiei diferenţelor de medii testată în baza ipotezei nule şi limitele intervalului de
încredere a medie distribuţiei diferenţelor de medii aleatoare. Dacă acest interval îl include pe 0
atunci diferenţa este nesemnificativă.
În consecinţă, nu am reuşit să infirmăm ipoteza nulă suntem nevoiţi să suspendăm decizia.
Altfel formulat, diferenţa pe care am obţinut-o în urma intervenţiei, valoric nu depăşeşte acele
diferenţe pe care le-am fi putut obţine prin simpla selecţie aleatoare a două grupe şi efectuarea
diferenţei între mediile lor.

B. Calculul statistic inferenţial al datelor rezultate dintr-un design cu eşantioane dependente


Într-un studiu experimental ipotetic, un cercetător îşi propune să investigheze ipactul pe care
îl are prezenţa unor distractori asupra gradului de înţelegere a textului la vîrstnici. În acest scop
selectează un grup de subiecţi vârstnici şi prezintă acestora câte o probă de înţelegere a textului. În

68
prima situaţie, cea de control, subiecţii citesc un pasaj şi ulterior răspund din memorie la întrebările
formulate. În situaţia experimentală subiecţii citesc un draft al unui text (altul decât cel din pre-test,
dar de acelaşi grad de dificultate) din care însă nu au fost şterse corecturile (există idei, informaţii
care nu sunt relevante din punct de vedere al formei finale a textului). Întrebările formulate şi de
această dată vizează textul, dar nu şi pasajele tăiate. Variabila măsurată în ambele situaţii este
gradul de acurateţe a răspunsurilor. Numărul de răspunsuri corecte înregistrate în celel două situaţii
sunt prezentate în tabelul de mai jos.
Grup Situaţie de control (pre-test) Situaţie experimentală (post-test)
Subiect 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Nr. Răspunsuri 6 3 2 3 4 5 6 3 4 2 6 4 3 6 4 6 7 5 4 4
corecte

În cazul unui design intra-grup baza de date va conţine două variabile, ambele reprezentând
variabila măsurată în cele două contexte ale variabilei independente (situaţia control şi situaţia
experimentală). În baza de date fiecare subiect va avea două valori, una măsurată în situaţia de
control şi una măsurată în situaţia experimentală. De exemplu, subiectul nr. 1 în situaţia de control a
înregistrat 6 răspunsuri corecte şi în situaţia de control tot 6.
Şirul de comenzi care permite calcularea coeficientului t este următorul:
Analyze→Compare means→Paired Sample t Test. În câmpul Paired variables vom introduce
perechea de valori ce urmează a fi comparată. Rezultatul afişat în fereastra outputurilor este cel
prezentat mai jos.

Paired Samples Test


Sig.
Paired Differences t df (2-tailed)
Std. Error 95% Confidence
Mean Std. Deviation Mean Interval of the Difference

Lower Upper
-
-1.10000 .99443 .31447 -1.81137 -.38863 9 .007
3.498

Mean în acest caz reprezintă media diferenţelor, deoarece demersul inferenţial se bazează
pe diferenţe de scoruri şi media acestor diferenţe (vezi suportul de curs anul I). Pentru aceste
diferenţe se calculează o abatere standard (Std. Deviation) şi o eroare standard (Std. Error Mean),
pe baza formulelor de calcul deja cunoscute. Cunoaşterea valorii erorii standard şi setarea unui grad
de toleranţă (prag alfa) permite calcularea unui interval de încredere a mediei diferenţelor. Dacă
acest interval include valoarea zero atunci diferenţele între pre-test şi post-test nu sunt

69
semnificative. În cazul nostru intervalul nu include valoarea 0, valoarea calculată a testului t este -
3,498 şi valoarea lui p este de 0.007. p calculat este mai mic decât valoarea prag, de 0.05, ceea ce
confirmă încă odată semnificativitatea statistică a diferenţe între cele două situaţii experimentale.

70
Modul 10. Utilizarea SPSS în studiile corelaţionale

Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 elaboreze baza de date corespunzătoare studiului corelaţional
 calculeze coeficientul de corelaţie potrivit naturii variabilelor măsurate
 soluţioneze problemele datelor lipsă
 interpreteze rezultatele obţinute

Efectuarea unor studii experimentale nu este soluţia potrivită pentru orice context de
cercetare. În anumite situaţii trebuie să ne limităm la a stabilii relaţii de covarianţă existente între
două sau mai multe variabile măsurate. Reîntorcându-ne la exemplul de la modulul 4, să
presupunem că ceea ce interesează echipa de cercetare este identificarea tulburărilor asociate lipsei
activităţii fizice, concentrându-se mai ales asupra obezităţii. Obezitatea a fost exprimată în numărul
de kilograme deasupra celui prevăzut conform vârstei, genului şi înălţimii. Să presupunem (doar în
scop didactic) că datele obţinute într-un studiu (n=20) sunt cele redate în tabelul de mai jos:

Subiecţi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nr. Ore/Săptămână 5 5 2 3 7 5 4 3 6 2 8 4 5 6 4 5 6 2 3 4
Kg peste normal 4 6 7 6 3 4 5 6 3 7 2 5 4 3 5 4 3 8 4 5

În baza de date vom definii două variabile pentru cele două variabile măsurate (ore de
activitate fizică pe săptămână şi kg peste normal), ambele fiind de tip numeric. Pentru a calcula
gradul de asociere al acestora vom recurge la calculul coeficientului de corelaţie Pearson urmând
şirul de comenzi Analyze→Correlate→Bivariate. În câmpul Variables vom introduce variabilele
ce urmează a fi corelate, în cazul nostru cele două variabile măsurate. În continuare vom bifa
coeficientul de corelaţie ce urmează a fi calculat, în cazul de faţă dat fiind că ambele variabile sunt
numerice vom opta pentru coeficientul Pearson. Semnificaţia coeficientului de corelaţie calculat o
vom verifica printr-un test two-tailed. La Options se poate seta calculul unor componente parţiale
ale coeficientului standardizat de corelaţia Pearson (covarianţa, suma produselor) şi date
descriptive. Tot în această secţiune putem seta strategia de management al datelor lipsă (discuţia
este relevantă doar în cazul a trei sau mai multe variabile).
În urma setărilor se apasă butonul OK şi se obţine outputul prezentat mai jos.

71
Correlations

oefs kpn
oefs Pearson Correlation 1 -.897**
Sig. (2-tailed) .000
N 20 20
kpn Pearson Correlation -.897** 1
Sig. (2-tailed) .000
N 20 20
**. Correlation is significant at the 0.01 level
(2-tailed).

În fereastra Outputurilor este afişată matricea de corelaţie. Din moment ce este o matrice
simetrică, coeficienţii prezentaţi de o parte şi de alta a diagonalei principale sunt identici. Pe linii şi
pe coloane sunt prezentate aceleaşi variabile. Se observă că valoarea corelaţiei între oefs (ore
exerciţiu fizic săptămânal) şi kpn (kilograme peste normal) este de r =-.897. Valoarea calculată a lui
p este mai mică decît 0.01 (în table apare 0.000, ceea ce nu înseamnă că este 0). Probabilitatea ca să
se obţină doar datorită aleatorului o astfel de corelaţie este mică, chiar foarte mică dar nu este zero.
Pentru a evita o astfel de interpretare eronată, de obicei în prezentarea rezultatelor se trece 0.001.

72
Modul 11. Utilizarea SPSS în analiza designurilor factoriale

Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
 elaboreze baza de date corespunzătoare unui studiu unifactorial şi bifactorial
 calculeze indicatorii statistici ai principalelor efecte vizate în designurile factoriale
 sa efectueze comparaţiile post-hoc
 interpreteze rezultatele obţinute

A. Calculul statistic inferenţial al datelor rezultate dintr-un design unifactorial cu eşantioane


independente
O practică impusă în cercetarea efectului medicamentelor este de a implica în studiu un grup
de placebo. Conform acestui plan, autorii unui studiu ipotetic îşi propun să verifice eficienţa unui
nou medicament în tratamentul depresiei. În acest scop selectează 30 de voluntari cu diagnostic
clinic depresie, şi îi randomizează în trei grupe: control, placebo şi experimental. Pacienţii grupului
experimental primesc medicaţie antidepresivă; pacienţii din grupul placebo primesc un medicament
care nu conţine substanţă activă; şi pacienţii grupul de control nu primesc nici o medicaţie.
Variabila dependentă o reprezintă intensitatea simptomatologiei înregistrată pe o scală de la 1-20
(1=depresie redusă şi 20=depresie accentuată). Rezultatele obţinute sunt prezentate în tabelul de
mai jos.
Grup Scor Scală de Depresie
Control 16 13 12 13 14 15 16 13 14 12
Placebo 13 14 16 12 15 13 12 12 13 15
Experimental 10 12 12 10 9 14 12 10 11 14

În baza de date vom defini două variabile, una pentru variabila independentă (denumită
grup) cu trei valori (1=grup control, 2=grup placebo şi 3=grup experimental) şi o variabilă
(denumită scor) pentru a înregistra scorurile măsurate. Pentru a verifica semnificativitatea statistică
a diferenţelor vom recurge la analiză de varianţă pentru design unifactorial cu eşantioane
independente. Pentru a calcula valoarea testului F vom urma calea Analyze→Compare
means→One-Way Anova. În rubrica Dependent list vom introduce variabila măsurată (denumită
scor) şi în ribrica Factor vom introduce variabila care defineşte grupele variabile independente. La
secţiunea Options vom bifa Descriptives pentru a obţine datele descriptive şi Homogeneity of
variance test pentru a verifica asumpţia omogenităţii varianţelor în populaţie. La opţiunea Post-Hoc

73
vom bifa una din opţiunile de comparaţie post-hoc, de obicei se utilizează Tukey sau Scheffe, în
acest caz vom apela la cel de-al doilea. Rezultatele ferestrei output sunt cele prezentate mai jos.

Descriptives
95% Confidence Interval
for Mean
Std. Std. Lower Upper Minimu Maximu
N Mean Deviation Error Bound Bound m m
1.00 10 13.8000 1.47573 .46667 12.7443 14.8557 12.00 16.00
2.00 10 13.5000 1.43372 .45338 12.4744 14.5256 12.00 16.00
3.00 10 11.4000 1.71270 .54160 10.1748 12.6252 9.00 14.00
Total 30 12.9000 1.84484 .33682 12.2111 13.5889 9.00 16.00

În acest tabel avem datele descriptive ale celor trei eşantioane (N, Mean, Std. Deviation şi
Std. Error), precum şi intervalele de încredere (Lower Bound şi Upper Bound) şi intervalul de
variabilitate a datelor (Minimum şi Maximum). Se observă că există diferenţe între mediile celor
trei eşantioane, cel mai amre scor îl are grupul de control şi cel mai mic aparţine grupului
experimental. Rezultatul oferit de testul de omogenitate al varianţelor este nesemnificativ, p=0.8
(mai mare decât 0.05), ceea ce înseamnă că datele satisfac criteriul omogenităţii varianţei în
populaţie. Pentru a verifica dacă cel puţin una din diferenţele posibile (între grupele 1-2, 1-3, 2-3)
este semnificativă vom citi tabelul umător.

ANOVA

Sum of Mean
Squares df Square F Sig.
Between
34.200 2 17.100 7.158 .003
Groups
Within Groups 64.500 27 2.389
Total 98.700 29

Raportul dintre varianţa inter- şi varianţa intra-grup rezultă un F(2,27)=7,158. Probabilitatea


acestei valori pe baza ipotezei nule, adică probabilitatea de a obţine o asemenea valoare prin selecţia
aleatoare a trei eşantioane dintr-o populaţie este p=0.003, mult mai mică decât valoarea prag (0.05).
În baza acestui rezultata putem afirma cel puţin una din comparaţiile posibile este semnificativă

74
statistic. Pentru a verifica, care dintre aceste comparaţii este aceea vom citi tabelul comparaţiilor
post-hoc.

Multiple Comparisons

Dependent Variable: VAR00002


Scheffe

Mean
Difference 95% Confidence Interval
(I) VAR00001 (J) VAR00001 (I-J) Std. Error Sig. Lower Bound Upper Bound
1.00 2.00 .30000 .69121 .910 -1.4903 2.0903
3.00 2.40000* .69121 .007 .6097 4.1903
2.00 1.00 -.30000 .69121 .910 -2.0903 1.4903
3.00 2.10000* .69121 .019 .3097 3.8903
3.00 1.00 -2.40000* .69121 .007 -4.1903 -.6097
2.00 -2.10000* .69121 .019 -3.8903 -.3097
*. The mean difference is significant at the .05 level.

Tabelul oferit de SPSS este unul redundant, din moment ce ne oferă toate comparaţiile
posibile (ex. Intre grupele 1 şi 2, respectiv între grupele 2 şi 1). În tabel vom urmări Mean
Difference (diferenţele de medii), Std. Error (eroarea standard), Sig. (valoarea calculată a lui p) şi
Confidence interval (intervalul de încredere). Se observă că numai diferenţa dintre grupele 1-3 şi 2-
3 este semnificativă, valoarea calculată a lui p pentru prima comparaţie este 0,007 şi 0.019 pentru a
doua, ambele fiind mai mici decât valoarea prag (0,05). Acest fapt este confirmat şi de intervalul de
încredere afişat, numai în cazul acestor comparaţii intervalul nu include valoarea 0, restul
diferenţelor fiind nesemnificativă.
Datele obţinute susţin eficienţa unui efect al intervenţiei medicamentoase, rezultatele
obţinute de acest diferă semnificativ atât de grupul de control cât şi de grupul placebo. Nu s-a
constatat nici o diferenţă între grupul de control şi grupul placebo, ceea ce indică o absenţă a
efectului placebo în acest studiu.

B. Calculul statistic inferenţial al datelor rezultate dintr-un design bifactorial cu eşantioane


independente
Pentru a exemplifica modul de prelucrare a datelor obţinute într-un design bifactorial, vom
analiza un alt studiu ipotetic. Un grup de cercetători a încercat să investigheze diferenţele existente
în memoria verbală a subiecţilor tineri şi vârstnici. În acest scop a selectat aleator un grup de
subiecţi tineri (20) şi un grup de subiecţi vârstnici (20). Dar pentru că există diferenţe de gen în ceea
ce priveşte abilitatea verbală generală, cercetătorii au hotărât să includă în studiu şi variabila gen
(femei şi bărbaţi). Variabila măsurată a acestui cvasi-experiment este numărul de cuvinte
reactualizate în proba de memorie. Rezultatele obţinute sunt prezentate în tabelul de mai jos.

75
Grup Număr de cuvinte reactualizate
Tineri Femei 1 1 1 1 1 1 1 1 1 1
6 3 2 3 4 5 6 3 4 2
Bărbaţi 1 1 1 1 1 1 1 1 1 1
3 4 6 2 5 3 2 2 3 5
Vârstnici Femei 1 1 1 1 9 1 1 1 1 1
0 2 2 0 4 2 0 1 4
Bărbaţi 9 1 1 1 9 1 1 9 8 1
0 2 0 0 3 0

În baza de date vom defini trei variabile, două pentru variabilele independente ale cercetării.
Prima variabilă denumită vârstă va avea două modalităţi, 1=tineri şi 2=vârstnici, a doua variabilă
sex tot cu două modalităţi 1=femei şi 2=bărbaţi. În a treia variabilă (denumită scor) vom introduce
valorile variabilei măsurate. Datele colectate vor fi analizate prin ANOVA bifactorial 2x2. Pentru a
efectuat această analiză vom urma şirul de comenzi Analyze→General Linear
Model→Univariate ... . În rubrica Dependent list vom introduce variabila dependentă Scor, şi în
rubrica Fixed factors vom introduce variabilele independente ale modelului, Vârstă şi Gen. La
Options ... vom cere afişarea mediilor pentru toate efectele (vârstă, gen şi vârstă*gen). Pentru a
derula procesare vom apăsa OK. Rezultatele obţinute sunt prezentate mai jos. În primul tabel este
reprezentat structura designului utilizat şi efectivul fiecărei căsuţe.

Between-Subjects Factors
N
varsta 1.00 20
2.00 20
sex 1.00 20
2.00 20

Pe aceeaşi structură, tabelul următor afişează datele statistice descriptive (medie şi abatere
standard pentru fiecare căsuţă a designului).

76
Descriptive Statistics

Std.
varsta gen Mean Deviation N
1.00 1.00 13.8000 1.47573 10
2.00 13.5000 1.43372 10
Total 13.6500 1.42441 20
2.00 1.00 11.4000 1.71270 10
2.00 10.0000 1.49071 10
Total 10.7000 1.71985 20
Total 1.00 12.6000 1.98415 20
2.00 11.7500 2.29129 20
Total 12.1750 2.15891 40

Tabelul testului de omogenitate a varianţelor în populaţie şi de această dată arată că setul de


date respectă asumpţia omogenităţii egalităţii varianţei în populaţie, valoarea calculată a lui p este
0.777, mai mică e decât valoarea prag (0.05). Pentru a verifica semnificativitatea efectelor
variabilelor implicate în studiu vom analiza tabelul următor.

Tests of Between-Subjects Effects

Type III
Sum of Mean
Source Squares df Square F Sig.
Corrected
97.275(a) 3 32.425 13.814 .000
Model
Intercept 2526.06
5929.225 1 5929.225 .000
0
varsta 87.025 1 87.025 37.076 .000
gen 7.225 1 7.225 3.078 .088
varsta * gen 3.025 1 3.025 1.289 .264
Error 84.500 36 2.347
Total 6111.000 40
Corrected
181.775 39
Total

77
Primele două linii se referă la abordarea ANOVA din punct de vedere a regresiei (în acest
caz vom face abstracţie de aceste date). În linia Vârstă, Gen şi Varsta*Gen observăm că există un
efect al vârstei (p calculate este de 0.000 < 0.05), efectul genului nu este semnificativ (p calculat
este 0.088 > 0.05) şi nu există efect semnificativ al interacţiunii (p calculat este 0.264 > 0.05).
Tabele descriptive reiau pentru fiecare variabilă informaţiile deja prezentate în tabelul general,
oferind pentru fiecare şi un calcul al intervalului de încredere (vezi exemplul pentru variabila
vârstă).

1. varsta
95% Confidence Interval
Std. Lower Upper
varsta Mean Error Bound Bound
1.00 13.650 .343 12.955 14.345
2.00 10.700 .343 10.005 11.395

Pe baza rezultatelor statistice obţinute putem afirma că în acest studiu există un efect
principal semnificativ statistic al vârstei, însă nu există diferenţă semnificativă de gen şi nici efect al
interacţiunii celor două variabile.

78
Biblografie

• American Psychological Association. (2001). Publication manual of the American


Psychological Association (5th ed.). Washington, DC: Author.Anscombe, F. J. (1973), "Graphs in
Statistical Analysis," American Statistician, 27, 17-21
• Buchner, A., Erdfelder, E., & Faul, F. (1997). How to Use G*Power [WWW
document]. URL http://www.psycho.uni-
duesseldorf.de/aap/projects/gpower/how_to_use_gpower.html
• Clocotici, V., & Stan, A. (2000). Statistica aplicata in psihologie. Iasi: Polirom.
• Cohen, J. (1992). A power primer. Psychological Bulletin(112), 155-159.
• Cohen, J., & Cohen, P. (1975). Applied multiple regression/correlation analysis for
the behavioral sciences. Hillsdale, NJ: Erlbaum.
• Cronbach, L. J. (1957). The Two Disciplines Of Scientific Psychology. American
Psychologist(12), 671-684. (http://psychclassics.yorku.ca/Cronbach/Disciplines/)
• Milton, S. G. (1971). Ghid simplificat de statistica pentru psihologie si pedagogie.
Bucuresti: Editura Didactica şi pedagogica.
• Osborne, J. (2002). Notes on the use of data transformations [Electronic Version].
Practical Assessment, Research & Evaluation, 8. Retrieved 20.10.2007 from
http://PAREonline.net/getvn.asp?v=8&n=6
• Peladeau, Normand (1995), STATITEM 1.0, http://www.kovcomp.co.uk/
• Popa, M. (2008 ).Statistică pentru psihologie, Iași, Editura POLIROM
• Radu, I. (Ed.). (1993). Metodologie psihologică şi analiza datelor: Editura Sincron.
• Rateau, P. (2004). Metodele si statisticile experimentale in stiintele umane. Iasi:
Polirom.
• Rotariu, T. (Ed.). (1999). Metode statistice aplicate in stiintele sociale. Iasi: Polirom.
• Sava, F. (2004). Analiza datelor in cercetarea psihologica. Cluj-Napoca: Editura
ASCR.
• Sava, F. (2004). Analiza datelor în cercetarea psihologică. Metode statistice
complementare. Cluj-Napoca: Editura ASCR
• Vasilescu, I. P. (1992). Statistica informatizata pentru stiinte despre om (Vol. 1-2).
Bucuresti: Editura militara.

79

S-ar putea să vă placă și