Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE PSIHOLOGIE
TIMIȘOARA
CUPRINS
Modul 1. Scurt istoric despre statistică…………………………………………………….pg.1
Modulul 2. Strategia analizei statistice a datelor…………………………………………pg.13
Modulul 3. Sondajul statistic (eșantionarea)……………………………………………...pg.27
Modulul 4. Dimensionarea eşantioanelor în cercetările psihologice…………………….pg.36
Modulul 5. Inferenţa statistică……………………………………………………………..pg.44
Modul 6. Aplicarea softurilor statistice în cercetare: programul SPSS şi elaborarea unei
baze de date………………………………………………………………………………….pg.57
Modul 7. Utilizarea softurilor statistice în cercetare: modalităţi de reprezentare grafică,
calculul indicatorilor tendinţei centrale, ai dispersiei şi ai distribuţiei…………………pg.61
Modul 8. Utilizarea SPSS în statistica inferenţială: estimarea parametrilor
populaţiei…………………………………………………………………………………..pg.65
Modul 9. Utilizarea SPSS în statistica inferenţială: probleme de comparaţii inter- şi intra-
grup………………………………………………………………………………………….pg.67
Modul 10. Utilizarea SPSS în studiile corelaţionale……………………………………..pg.71
Modul 11. Utilizarea SPSS în analiza designurilor factoriale…………………………..pg.73
Biblografie…………………………………………………………………………………..pg.79
Cerințe pentru evaluarea la disciplina Statistică psihologică............................................pg.80
Modul 1. Scurt istoric despre statistică
Scopul statisticii
Statistica poate fi clasificată în două mari categorii:
- statistica descriptivă
- statistica analitică.
Statistica descriptivă se ocupă de prezentarea, clasificarea şi sintetizarea datelor de
observaţie. Aceasta concentrează informaţia existentă în datele respective cu ajutorul anumitor
indicatori statistici care, în fond, sunt nişte numere ce exprimă caracteristici sau tendinţe ale
fenomenului studiat.
Statistica analitică foloseşte metode matematice (teoria probabilităţilor) pentru extragerea şi
prelucrea informaţiei statistice; în multe cazuri aceste metode pun în evidenţă legităţi statistice.
1
Depăşirea stadiului descriptiv, al simplei metode cantitative, a însemnat, istoric vorbind,
deplasarea gândirii statistice spre interpretarea analitică a fenomenului şi obţinerea de concluzii
inductive, pe baza observaţiilor empirice. Această schimbare de conţinut a făcut ca statistica să se
întrepătrundă în mod constant cu matematica, în căutarea de metode corespunzătoare obiectivelor
sale.
Transpusă într-un limbaj matematic statistica s-a construit într-o teorie numită teoria
corelaţiei statistice, ale cărei aplicaţii au permis identificarea unor noi legi de dependenţă, specific
statistice şi adaptate la formele complexe şi variate pe care le oferă natura în diferitele sale
manifestări.
În cercetările moderne se porneşte de la ipoteze statistice asupra fenomenului sau procesului
observat, consecinţele lor logic deduse se compară apoi cu datele disponibile şi dacă sunt în
concordanţă, ipotezele sunt justificate, cel puţin până la noi observaţii mai riguroase.
Unul din obiectivele esenţiale ale statisticii se consideră tocmai măsurarea incertitudinii
concluziilor inductive. De la un timp însă, gîndirea statistică tinde să se preocupe mai puţin de
măsurarea incertitudinii şi mai mult de determinarea riscului de eroare şi a pierderilor implicate de
orice decizie întemeiată pe o informaţie care, prin natura sa, nu poate fi exhaustivă.
Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite
desprinderea de legităţi statistice.
Fenomenele sunt în interconexiune unele cu altele, în sensul că se generează şi se
influenţează reciproc. Acest fapt conduce la noţiunea de cauzalitate care exprimă interacţiunea
dintre cauză şi efect astfel încât întotdeauna cauza să preceadă efectul. Desfăşurarea fenomenelor
constă astfel într-un şir neîntrerupt de momente, într-o succesiune cauză-efect, efectul fiind la rîndul
lui cauză pentru un alt efect ş.a.m.d. Astfel se formează un lanţ cauzal. Orice întrerupere a lanţului
cauzal înseamnă de fapt existenţa unui efect care să nu aibă cauză. Nici un fenomen nu se abate de
la acest principiu care poartă numele de principiul cauzalităţii. Cunoaşterea desfăşurării
evenimentelor este asigurată de cunoaşterea legilor care guvernează fenomenul şi a ansamblului de
condiţii în care se desfăşoară acesta. Deci legea este un element primordial în cunoaşterea
fenomenelor deoarece exprimă raporturile esenţiale, necesare, generale, relativ stabile şi repetabile
ale fenomenelor şi ale desfăşurării lor. Putem deosebi două mari categorii de legi:
- legi fizice, care se aplică fenomenelor şi proceselor individuale luate în parte (ex. legea
atracţiei universale, legile I, II, III ale dinamicii etc.) şi
- legi statistice, care se aplică numai fenomenelor de masă, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrării radioactive, etc.) şi care exprimă anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoaşterea perfectă a desfăşurării viitoare a fenomenelor pe baza
cunoaşterii la momentul iniţial a unor mărimi. Astfel, în mecanică, legea a II-a a lui Newton permite
2
cunoaşterea perfectă a mişcării unui obiect atunci când se cunosc la momentul iniţial poziţia (trei
coordonate) şi viteza sau impulsul (trei proiecţii) obiectului.
Legile statistice permit cunoaşterea desfăşurării viitoare a fenomenelor doar în termeni
probabilistici (probabilităţi, valori medii, erori statistice etc.). Acest lucru indică de la început că
informaţia pe care o dă o lege statistică este mai săracă decât cea dată de legea dinamică. Cu toate
acestea, legea statistică permite cunoaşterea desfăşurării viitoare a fenomenelor şi poate fi tot atât de
deterministă ca şi cea dinamică.
Particularitatea esenţială a legilor statistice izvorâtă din faptul că ele acţionează în
fenomenele de masă, unde întregul este determinat de unitatea părţilor componente, o constituie
exprimarea comportării ansamblului de unităţi omogene şi nu a fiecărei unităţi în parte. În mod
corespunzător, legea statistică se realizează ca o tendinţă predominantă, ca o necesitate care îşi
croieşte drum printr-un număr foarte mare de contingenţe şi care se manifestă în aceste contingenţe
ca media unui număr mare de abateri întîmplătoare. De aici şi principiul verificat deseori în
practică: legea statistică poate fi evidenţiată dacă şi numai dacă este considerat şi supus observării
un număr mare sau suficient de mare de unităţi elementare ale ansamblului considerat.
Noţiuni elementare
Investigarea statistică presupune, prin definiţie, considerarea fenomenelor în multiplicitatea
şi variabilitatea lor. Un ansamblu de fenomene formează un fenomen de masă, sau, ceea ce numim
populaţie statistică, în măsura în care elementele componente (indivizi) sunt de aceaşi natură, adică
au toate o proprietate comună şi se deosebesc unele de altele în raport cu aspectele sau valorile
caracteristice luate în studiu. Populaţia cu care lucrează statistica trebuie să fie global omogenă - să
includă doar elementele similare, aparţinînd de aceeaşi "categorie" şi intern structurată - elementele
ei să poată fi ordonate potrivit unui sistem de clasificare.
Aşa cum rezultă din cele de mai sus, o însuşire specifică statisticii este aceea că statistica nu
se ocupă cu un element (individ) luat ca atare, ci cu colectivităţi, cu grupuri de elemente ce posedă o
anumită trăsătură comună. Această trăsătură se numeşte caracteristică. Denumirea de "populaţie"
s-a păstrat din timpurile în care statistica se ocupa cu precădere de populaţii în sensul propriu al
cuvîntului. O populaţie poate fi împăţită în subpopulaţii sau populaţii parţiale, care sunt : clase,
grupe şi eşantioane.
O clasă este un subansamblu de elemente ale unei populaţii care conţin o variabliă
determinată de aceeaşi măsură.
Un grup este un subansamblu de elemente ale unei populaţii care se distinge printr-o
manieră de tratare comună.
3
Un eşantion este un subansamblu de elemente ale unei populaţii ales întâmplare. Se apelează
la acest gen de populaţie parţială atunci când populaţia în studiu este prea mare pentrua fi tratată în
ansamblul ei. Studiul asupra eşantionului va fi atribuit întregii populaţii.
Indivizii unei populaţii statistice sunt cercetaţi pentru una sau mai multe caracteristici.
Caracteristicile întâlnite se clasifică în caracteristici cantitative şi calitative. Caracteristicile
cantitative sunt cele care se măsoară numeric (înălţime, greutate, lungimea unui râu etc.) şi se mai
numesc variabile statistice. Caracteristicile calitative nu se măsoară numeric (culoare, sexul unei
persoane etc.). Ele nu reprezintă o măsură a unei entităţi. Dacă se convine să se reprezinte unele din
ele prin numere ataşate la categoriile ce le determină, nu este vorba decât de o "codificare"
procedeul nejustificând operaţiile aritmetice. Aceste caracteristici se mai numesc atribute.
La rândul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete
sunt cele care pot lua un număr finit (sau cel mult numărabil) de valori distincte (întregi,
fracţionare), cum ar fi numărul membrilor unei familii, nr. de staţii hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (înălţimea unui individ, nivelul
unui râu etc.). Totuşi, în practică nu se întâlneşte o informaţie privind adâncimea unui râu de forma:
1m, 3 cm, 17 microni. Acest lucru nu se va întîmpla fie că precizia aparatelor cu care efectuăm
măsurătorile este limitată, fie că o precizie exagerată nu este întotdeauna folositoare pentru ceea ce
urmărim în investigaţie. Astfel, măsurătorile sau datele de observaţie se grupează în cadrul unei
anumite unităţi şi deci din punct de vedere practic se lucrează cu forma discretă chiar dacă
variabilele sunt de tip continuu. Distincţia între caracterul cantitativ şi cel calitativ, precum şi între
variabilele discrete şi variabilele continue este fundamentală deoarece ele recurg la tehnici de
analiză foarte diferite.
Aici trebuie să lămurim un lucru care dă deseori naştere la confuzii: mulţi sunt înclinaţi să
creadă că variabilele discrete trebuie să ia numai valori întregi şi că numerele fracţionare sunt tipice
pentru variabilele continue; cu alte cuvinte diferenţa dintre continuu şi discret se confundă cu
diferenţa dintre măsurătorile cu numere întregi şi cele fracţionare. Să luăm exemplul următor: o
variabilă ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabilă discretă deoarece trecerea de la o
valoare la alta se face fără vreo altă valoare intermediară.
Cercetarea statistică a unei colectivităţi poate fi:
- exhaustivă (totală), când fiecare individ este analizat, de exemplu în cazul
recensămintelor;
- parţială (selectivă), când sunt examinaţi numai anumiţi indivizi, aleşi aleator. Ea este cea
mai frecvent folosită, în majoritatea cazurilor fiind şi singura posibilă.
Partea examinată din colectivitate se numeşte selecţie sau eşantion. Numărul indivizilor
examinaţi se numeşte volumul selecţiei.
4
Analiza seriilor statistice
Evaluarea anumitor indicatori (parametri) statistici implică stabilirea caracteristicilor
(proprietăţilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,
independenţa şi concentrarea/împrăştierea (dispersia) către/faţa de un una sau mai multe valori ale
seriei.
Variabilitatea termenilor unei serii statistice este determinată de faptul că fenomenul pe
care îl reprezintă nu este univoc determinat, ci apare ca un rezultat al acţiunii combinate a mai
multor cauze (permanente sau întâmplătoare). Cu cât acţiunea cauzelor întâmplătoare este mai
mare, cu atât variabilitatea este mai mare şi gradul de omogenitate mai mic.
Omogenitatea presupune o variaţie minimă între termeni. Dacă în urma analizei se constată
că o serie nu prezintă omogenitate, înseamnă că în acest caz colectivitatea este formată din mai
multe tipuri calitative şi seria trebuie descompusă în subserii componente.
Independenţa termenilor unei serii provine din faptul că fiecare valoare individuală
reprezintă un element distinct şi obiectiv al unei populaţii statistice. Termenii ce aparţin aceleiaşi
colectivităţi se supun aceloraşi legi care se manifestă sub formă de tendinţă.
Concentrarea/împrăştierea (dispersia) către/faţă de un una sau mai multe valori ale seriei
apare ca rezultat al intensităţii unui efect produs de cauze esenţiale şi întâmplătoare. Acest lucru
determină fercvenţele diferite de apariţie a diferitelor valori din serie. Dacă intensitatea factorilor
este uniformă, frecvenţele de apariţie sunt apropiate. În caz contrar, frecvenţele de apariţie se
concentrează fie la un singur capăt al seriei, fie către o valoare centrală.
Repartiţii de frecvenţe
Există diferenţe între analiza seriilor dinamice şi problemele legate de gruparea şi analizarea
materialelor pentru care factorul timp nu are importanţă. La cercetarea seriilor dinamice problema
de bază o reprezintă analiza variabilei timp.
Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. În cele ce urmează
ne vom ocupa de problemele grupării şi analizei prealabile a datelor numerice pentru care ordinea
de aşezare în timp nu contează.
Datele statistice în stare brută reprezintă o masă dezordonată de materiale. Prima problemă
este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor
în legătură cu problema propusă, să se poată înlesni comparaţia cu alte date de acelaşi gen şi să se
poată obţine posibilitatea unei analize ulterioare. Înainte ca materialul statistic să fie supus analizei
ulterioare şi generalizărilor care vor permite să se facă anumite deducţii, el trebuie să capete o
anumită formă şi o structură clară. Cu alte cuvinte în cadrul analizei datelor statistice trebuie să se
ia în considerare atât valorile individuale cât şi frecvenţele de apariţie ale acestora.
În urma observării caracteristicii cantitative X în n probe se obţin următoarele date primare:
5
x1, x2,..., xn
(1)
În cazul în care volumul selecţiei este mic aceste date sunt uşor de manipulat şi nu este
nevoie de o grupare a lor. Dacă însă avem o selecţie de volum mare este greu de lucrat cu aceste
date. În plus tabelele de date primare nu sugerează nimic referitor la referitor la repartiţia variabilei
X. De aceea este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face în funcţie de tipul caracteristicii X. Astfel, dacă X este o variabilă
discretă ce poate lua valorile distincte v1, v2 ,..., vn , atunci în locul datelor iniţiale se va reţine
repartiţia empirică:
v1.v2 ...vm
n1.n2 ...nm
(2)
Unde ni, (i=1, m) reprezintă frecvenţa apariţiei (numărul de apariţii) valorii vi, iar n
reprezintă numărul valorilor din şirul iniţial (1) şi se numeşte frecvenţă absolută a valorii v. Valoare
m reprezintă numărul de clase.
Raportul fj =nj/n dintre frecvenţa absolută şi numărul total de probe se numeşte frecvenţă
relativă. Se observă că
f1 + f2 +…+ fm =1 întrucât n1 +n2 + ... +nm = n.
Dacă X este o variabilă continuă care poate lua valori într-un interval [a,b] atunci acest
interval este împărţit în m subintervale [aj, aj+1], j=1, m , cu a1 = a şi am+1 = b. pentru fiecare din
aceste subintervale se determină numărul n al valorilor din şirul (1) care se află în acest interval
numit frecvenţă absolută a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremităţile se iau
echidistante, deci subintervalele au lungimi egale. Însă numărul m al subintervalelor nu se alege la
întîmplare. Este important ca prin gruparea datelor să nu se piardă caracterul global al repartiţiei
(dacă m este prea mic se poate denatura repartiţia reală a variabilei X). Astfel, după unii autori
numărul subintervalelor, m, trebuie alese în conformitate cu formula lui Sturges :
6
m=[1 + 3,322logn]
xmax − xmin
i=
m
N m
11-30 3-4
31-100 4-6
101-500 6-9
501-3000 9-13
3001- 13-20
Există mai multe tipuri de reprezentări grafice a datelor statistice. Dintre acestea prezentăm
histograma, poligonul frecvenţelor şi graficul frecvenţelor cumulate.
Histograma este o figură într-un sistem de coordonate rectangualre care reprezintă
distribuţia empirică prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,
reprezintă subintervalele folosite în centralizarea datelor. Înălţimea hj a dreptunghiului cu baza (aj,
aj+1) este proporţională cu raportul dintre frecvenţa relativă a intervalului şi lungimea sa:
fj
hj = C
a j +1 − a j
constanta C fiind un factor de scară. În cazul când subintervalele grupării au lungimi egale,
înălţimea hj va fi proporţională cu frecvenţa relativă, deci hj =C*fj .
Poligonul frecvenţelor este o diagramă în care pe axa absciselor se iau mijloacele vj ale
intervalelor (aj, aj+1) folosite în grupare, iar pe axa ordonatelor valorile hj definite în construirea
histogramei. Linia frîntă care uneşte punctele de coordonate (vj, hj) se numeşte poligonul
frecvenţelor. El se poate obţine din histogramă unind mijloacele laturilor superioare ale
drptunghiurilor. În fig 1 poligonul frecvenţelor este trasat printr-o linie punctată.
Mărimile c1, c2, ..., cm definite prin:
j
c j = fi
i =1
7
Linia frântă obţinută prin unirea punctelor de coordonate (aj+1, cj ] se numeşte graficul
frecvenţelor cumulate.
Media aritmetică
Media aritmetică simplă exprimă un nivel mediu, anihilând abaterile individuale, netipice.
Ea este cuprinsă între valoraea cea mai mare şi cea mai mică.
Definiţia 1. Dacă în urma unei selecţii apar valorile distincte x1, x2,..., xn, atunci media
aritmetică este dată de formula:
x1 + x2 + ... + xn 1 n
x= = xi
n n i =1
8
În cazul datelor centralizate (în care avem repartiţia de frecvenţă (2)):
care se mai numeşte medie aritmetică ponderată. Numărul care arată de câte ori se repetă
fiecare valoare (nj) este "ponderea" valorii respective.
Observaţia 1. Media aritmetică are dezavantajul că este sensibilă la valori extreme, iar dacă
termenii sunt prea "împrăştiaţi", tinde să devină o valoare nereprezentativă. Media aritmetică este o
valoare lipsită de conţinut dacă elementele sunt deosebite din punct de vedere calitativ, caz în care
este mai util să se facă medii parţiale pentru fiecare tip de colectivitate.
Observaţia 2. Dacă avem mai multe medii, fiecare referindu-se la o anumită categorie,
fiecare medie va fi ponderată în funcţie de importanţa categoriei sale.
INDICATORII VARIATIEI
O medie este reprezentativă numai atunci când se calculează din valori omogene între ele.
Cu cât fenomenele sunt mai complexe (dependente de mai multi factori), cu atât variaţia este mai
mare şi utilizarea mărimilor medii devine insuficientă. De aceea este important de cunoscut cât de
‘departe’ sunt valorile sumei statistice faţă de medie. Comparaţia se face cu media seriei,
considerată ca fiind valoarea cea mai reprezentativă pentru populaţia statistică.
Analiza statistică a unei repartiţii poate fi aprofundată prin calculul indicatorilor de
variaţie. Acesti indicatori trebuie să servească la :
- verificarea reprezentativităţii mediei ca valoare tipică a unei populaţii statisatice;
- verificarea gradului de omogenitate a seriei;
- caracterizarea statistică a formei şi gradului de variaţie a unui indicator;
- cunoasterea gradului de influenţă a factorilor după care s-a facut gruparea unităţilor
observate.
9
Amplitudinea absolută se calculeaza ca diferenţa dintre valoarea maximă şi valoarea
minimă al caracteristicii :
Aa = xmax – xmin
Amplitudinea relativa se exprima de regulă în procente şi se calculează ca un raport între
amplitudinea absolută şi media aritmetică :
Aa
Ar= 100
x
Abaterile individuale absolute (di) se calculează ca diferenţa între fiecare valoare şi media
aritmetică :
di = xi - x , i = 1,...,n
Abaterea medie liniară se calculează ca o medie aritmetică simplă sau ponderată, luate în
valoare absolută :
- pentru o serie simpla
| x − x |i
d= i =1
n
10
- pentru o serie de frecvenţe absolute :
| i − x | ni
d= i =1
m
n
i =1
i
Abaterea medie liniară prezintă dezavantajul că nu ţine seama de faptul că abaterile mai
mari în valoare absolută influentează în mai mare masură gradul de variaţie a unei caracteristici, în
comparaţie cu abaterile mici. În plus, nu este indicat să se renunţe în mod arbitrar la semnul
valorilor din care se calculează o valoare medie. Din aceste considerente se foloseşte ca principal
indicator sintetic al variaţiei abaterea medie patratică.
Abaterea medie patratică sau abaterea standard (σ) se calculează ca o medie patratică din
abaterile tuturor elementelor seriei de la media lor aritmetică:
(x )
2
i −x
σ=
n
Acest indicator este mai concludent decât abaterea medie liniară. Prin ridicarea la pătrat se
dă o importanţă mai mare abaterilor mari în valoare absolută, acestea influenţând într-o măsura mai
mare gradul de variatie al variabilelor analizate.
În literatura de specialitate se apreciază ca pentru o serie de distribuţie normală abaterea
medie liniară este egală cu 4/5 din valoarea abaterii medii pătratice.
Abaterea medie pătratică este un indicator de bază, care se foloseşte la analiza
variaţiei, la estimarea erorilor de selecţie în calculul de corelaţie.
La fel ca abaterea medie liniară, abaterea medie pătratică se exprimă în unitatea de masură a
variabilei a carei variaţie o caracterizează. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaţie şi în aceasta situaţie se recurge la un alt indicator de variaţie :
coeficientul de variaţie.
Coeficientul de variatie (v) se calculeaza ca un raport între abaterea medie pătratică
şi media aritmetică. De obicei se exprimă sub formă de procente :
v= 100
x
Se mai calculează şi cu relaţia :
d
v’ = 100
x
Semnificaţie. Cu cât valoarea lui v este mai aproape de zero cu atât variaţia este mai slabă,
colectivitatea este mai omogenă, media având un grad ridicat de reprezentativitate. Cu cât valoarea
11
lui v este mai mare cu atât variaţia este mai intensă, colectivitatea este mai eterogenă, iar media are
un nivel de semnificaţie scăzut.
Se apreciază că la un coeficient de peste 35-40%, media nu mai este reprezentativă şi
datele trebuie separate în serii serii componente, pe grupe, în funcţie de variaţia unei alte
caracteristici de grupare.
Deci se poate afirma că acest indicator poate fi folosit ca un test în aplicarea metodei
grupării. Dacă media aritmetică este aproape de zero, coeficientul de variaţie nu are semnificaţie.
Dispersia( 2 ) este media pătratelor abaterilor de la media aritmetică :
2 =
1
n
( 2
xi − x . )
Măsura dispersiei se referă la « împrăştierea » valorilor dintr-un set de date. Media nu are
semnificaţie dacă se aplică pe un set de date foarte dispersate. De exemplu dacă luăm valoarea
medie a oraşelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorită
Bucureştiului care are 2.000.000. Însă rezultatul nu are nici o semnificaţie (nici un oraş nu area
această valoare).
Măsurile dispersiei, exprimate sub forma unităţilor de măsură ale fenomenului cercetat, nu
sunt întotdeauna utile atunci când se compară dispersiile a două sau mai multe serii. Compararea
dispersiilor a două sau mai multe serii dă rezultate în următoarele 2 situaţii:
a) şirurile care se compară pot fi exprimate în aceleaşi unităţi, iar mediile pot fi aceleaşi sau
au dimensiuni aproape egale.
b) şirurile care se compară pot fi exprimate în aceleaşi unităţi, însă mediile diferă.
Dacă seriile se exprimă în unităţi diferite, dispersiile nu pot fi comparate direct. De aceea de
multe ori se foloseşte abaterea medie pătratică în loc de dispersie.
În unele lucrări această mărime se numeşte varianţă (din l. engl. variance). Varianţa este o
măsură importantă în special când se studiază variaţia a două sau mai multe eşantioane. O tehnică
statistică foarte puternică este cunoscută sub numele de analiza de varianţă şi utilizează dispersia
pentru a decide dacă un număr de eşantioane diferă semnificativ unul de altul.
12
Modulul 2. Strategia analizei statistice a datelor
Adesea, chiar și cineva care s-a aplecat cu multă conștiinciozitate și interes asupra
studiului statisticii, se află, la finalul efortului său academic, în fața unor întrebări aparent
simple:
A. Cum aleg testul statistic potrivit datelor cercetării?
B. Cum inserez analiza statistică într-o lucrare de cercetare?
O sinteză a răspunsurilor posibile la aceste întrebări ne propunem să facem în cele ce
urmează, cu scopul de a da o orientare strategică privind abordarea analizei statistice a datelor în
cercetarile psihologice.
1. Punctul de pornire este formularea ipotezei. Aceasta derivă din problema cercetării și
se exprimă sub forma răspunsului pe care, în mod legitim, cercetătorul se așteaptă să îl
confirme cu ajutorul datelor statistice.
Exemplu:
- Problema cercetarii: Într-un centru de dializă se observă că pacienții manifestă simptome
specifice tulburării anxioase.
- Modelul (designul) cercetării: Un program de reducere a anxietății bazat pe exerciții de
relaxare, prezentate pe casete video este introdus de cercetător. Se aplică un chestionar de evaluare
a anxietății membrilor grupului studiat care va urma programul, înainte şi executarea programului.
- Ipoteza cercetarii: Exercițiile de relaxare reduc nivelul anxietății la pacienții dializați
13
2. Se identifică variabilele cercetării. Pentru exemplul de mai sus:
- Variabila independentă este programul de relaxare introdus de cercetător
- Variabila dependenta este „nivelul anxietatii”, măsurată pe o scală de interval/raport
3. Se recoltează datele cercetării, având grijă să fie respectate toate condițiile și criteriile
care să asigure corectitudinea acestora. Orice eroare în această fază (în special cu privire la
constituirea eșantionului, dar și legată de motivarea subiecților, corectitudinea înregistrărilor etc.) se
vor traduce în dificultati insurmontabile în faza de prelucrare și analiză a datelor. În cazul nostru, se
va acorda atenție constituirii grupurilor de studiu, având grijă ca acestea să nu difere sub aspectul
unor aspecte care pot influența efectul relaxării (vârsta, nivel de instruire, sex, severitate a bolii
etc.).
După parcurgerea acestor etape, în succesiunea lor firească, alegerea testului statistic
devine o problemă relativ simplă. Pentru a fi și mai expliciți, pașii algoritmului de selectare
a testutului statistic sunt prezentați mai jos.
14
• dacă nu respectă conditiile și, mai ales, dacă eșantionul este foarte mic, se recomandă
alegerea unui test neparametric (în acest caz valorile vor fi transformate pe o scala ordinală sau
nominală, în functie de caracteristicile lor și opțiunea cercetătorului).
a. diferența dintre grupuri dependente sau independente (ca în exemplul nostru). Acest
model este mai potrivit în următoarele situații:
• atunci când variabila independentă, prin natura ei, se exprimă în categorii naturale
(de ex., categorii de vârsta, familii divortate/nedivortate, sexul etc.);
• atunci când variabila independentă exprimă valori care nu evoluează într-o manieră
liniară (de ex., prezența/absența, diagnostice psihiatrice, tipuri temperamentale);
• atunci când variabila independentă este manipulată (ex. anxietate pre/post program
de relaxare).
4) Se alege testul statistic adecvat, dar, înainte de aceasta, să dăm răspuns unei întrebări
preliminare: ce este de preferat, test parametric sau neparametric?
a. Daca variabila dependenta este masurata pe scala nominala sau ordinala, problema
alegerii nu se pune, singurele teste aplicabile fiind cele neparametrice.
b. Atunci când variabila dependenta este exprimata pe o scala cantitativa (interval/raport):
• daca întruneste conditiile impuse de statistica parametrica, este recomandabil sa se
utilizeze teste parametrice:
• daca nu respecta conditiile testelor parametrice, exista doua solutii:
15
- se vor efectua verificari pentru eventuala corectie de valori, tratare a valorilor lipsa,
transformari parametrice, urmate de utilizarea testelor parametrice
- se transforma variabila dependenta pe o scala de tip nominal sau ordinal, urmata de
aplicarea unor teste neparametrice adecvate
16
recomandari generale cu privire la modul în care trebuie abordata analiza statistica în cuprinsul unui
material de cercetare, pentru fiecare sectiune în parte:
Testarea ipotezelor nu este însa obligatorie în toate situatiile de cercetare. Daca o anumita
cercetare abordeaza un subiect absolut nou, neinvestigat anterior, metodele statistice de tip
exploratoriu sunt mai potrivite decât cele de testare a ipotezelor. Daca tema respectiva a fost intens
studiata anterior, atunci este mai recomandabil un studiu de meta-analiza decât o noua testare a
ipotezei.
Uneori, autorii se limiteaza la prezentarea explicita a obiectivelor renuntând la enuntarea
specifica a unor ipoteze. Acest lucru este justificat fie prin faptul ca nu au un fundament solid
pentru emiterea ipotezelor, fie pentru ca apreciaza ca emiterea ipotezelor înainte de colectarea
datelor poate introduce un element de orientare a acestui proces în directia rezultatului asteptat
(bias). Acete aspecte au un caracter contradictoriu, incă in literature de specialitate si este amintit
aici pentru informare.
17
Grupul sau subgrupul este o rafinare a eşantionului, după criterii explicite, necesare studiului
(ex. Vechimea bolii, tip de tratament, tip de funtii etc.).
Prelucrarea datelor
Se va începe cu eventualele complicatii care au survenit pe parcursul studiului. Aici se
includ datele lipsa (care nu au putut fi recoltate, din diverse motive), modul de rezolvare a
valorilor excesive din cadrul distributiilor, dificultatile de organizare care au putut influenta
calitatea informatiilor recoltate etc. În general, orice aspect relevant care se refera la abaterea de la
conditiile prevazute pentru desfasurarea studiului trebuie prezentate.
18
Analiza primara. Analiza statistica va începe întotdeauna cu o inspectie a valorilor
obtinute. Aceasta înseamna analiza distributiilor sub aspectul formei, indicatorilor tendintei
centrale, valorilor excesive etc. Ignorarea acestui aspect poate conduce la grave erori de
interpretare, sau la un volum mai mare de munca, ulterior, daca se constata prea târziu imperfectiuni
care trebuiau fi eliminate de la bun început. Reprezentarea grafica a datelor (histograma) poate fi o
metoda foarte eficienta de identificare a distributiilor anormale sau valori improprii.
Scopul acestei analizei primare a variabilelor este:
- obtinerea unei imagini de ansamblu a variabilelor de interes (frecvente, tendinta centrala,
împrastierea, grafice);
- fundamentarea alegerii testelor statistice adecvate datelor pe care le analizam;
Desigur, în documentul de cercetare nu se vor include toate rezultate analizei primare, ci
numai cele strict necesare pentru descrierea variabilelor analizate. De exemplu, nu este
necesar ca raportul sa fie „împanat” cu histogramele fiecarei variabile cantitative, fapt care încarca
nejustificat textul cu imagini putin relevante pentru cititor. De asemenea, nu se va descrie si nu se
va justifica alegerea testului statistic, în functie de natura variabilelor. Acest lucru se considera
implicit, dacă este corect selectat.
Verificarea ipotezelor statistice. Acesta este momentul cel mai important al unei cercetari,
acela în care se concretizeaza întregul efort depus. Primul lucru care trebuie înteles este acela ca
rezultatele care se vor obtine depind în mod decisiv de calitatea si minutiozitatea cu care au fost
parcurse etapele anterior descrise. Un studiu bine fundamentat teoretic, bazat pe ipoteze consistente,
utilizând instrumente adecvate si beneficiind de o procedura sigura de recoltare a datelor, va
conduce întotdeauna la rezultate utile. Aceasta nu înseamna neaparat ca ele trebuie sa confirme
ipotezele. Uneori chiar si infirmarea unei ipoteze poate fi semnificativa.
Un aspect important este alegerea aparatului statistic (teste de semnificatie). Aparitia
numeroaselor programe de prelucrare statistica computerizata a condus la orientarea multor
cercetatori, mai ales tineri sau începatori, spre proceduri sofisticate si complicate. Cea mai buna
solutie este alegerea procedurilor statistice strict (minim) necesare pentru evidentierea ideilor
urmarite.
Abundenta de calcule si de teste statistice nu contribuie la o mai buna întelegere ci arata,
mai degraba, nesiguranta cercetatorului. Una dintre prejudecatile raspândite, mai ales printre
studenti, este aceea ca exista teste statistice „importante” (de ex., analiza factoriala, analiza de
clusteri etc., despre care nu a fost vorba în acest manual introductiv în statistica) si altele „mai putin
importante” (testul diferentelor între medii etc.). Complet fals! Alegerea unei proceduri statistice
19
mai „sofisticate” putea face o anumita impresie în epoca de dinaintea programelor de calcul
statistic. În prezent, orice procedura, oricât de complicata, nu mai reprezinta o problema sub
aspectul calculelor, pentru nimeni. Singurul lucru care conteaza cu adevarat este alegerea procedurii
potrivite cu natura datelor si cu obiectivele cercetarii, precum si interpretarea ei corecta. Daca o
procedura „simpla” serveste exact ideea care trebuie scoasa în evidenta, aceasta trebuie folosita si
nu alta, cu un nume mai „sonor”. Sa ne gândim si la faptul ca avem mai multe sanse ca procedurile
„simple”, uzuale, sa fie întelese mai usor, si de catre mai multi cititori.
Problema variabilelor multiple. Daca în exemplele din manualele de statistica sunt luate în
discutie, de regula, situatii simple, cu minimum de variabile posibile, cel mai adesea, doua. În
realitate, cel mai adesea, studiile de psihologie trebuie sa faca fata unei „avalanse” de variabile a
caror relatie trebuie testata nu doar una câte una ci si în interdependenta lor. Acest fapt ridica, pe de
o parte, probleme de procedura statistica si, pe de alta parte, probleme de prezentare a rezultatelor.
Alegerea procedurii astfel încât sa surprinda exact relatiile care intereseaza, cu excluderea
influentelor colaterale, este, din pacate, greu de explicitat la nivelul unui manual introductiv.
Retinere fata de declararea relatiei cauzale. Aprecierea pe baza unui test de semnificatie
statistica a unei relatii de cauzalitate între variabile este cel putin hazardata, dacă nu incorectă.
Acest lucru poate fi sustinut numai daca se respecta anumite conditii experimentale, care sa ne
asigure ca între cele doua variabile este o relatie cauza-efect. Nu se vor emite concluzii de tip cauzal
în afara situatiilor în care recoltarea datelor decurge dintr-un demers de tip experimental. Chiar si
20
procedurile statistice care sunt destinate determinarii relatiilor cauzale (ecuatiile de modelare
structurala, analiza de cale) nu sunt pe deplin sigure în detectarea relatiei cauza/efect (Huck, 2004).
Tabele si figuri. Tabelele sunt cel mai des utilizate pentru includerea în textul rapoartelor
de cercetare a rezultatelor obtinute. Ele prezinta avantajul indicarii cu exactitate a valorilor
si sustinerii cu precizie a concluziilor. Figurile au însa avantajul de a prezenta informatia într-o
forma intuitiva si accesibila, atragând atentia cititorului. Nu se poate face o recomandare de
preferinta pentru una sau alta dintre cele doua forme. Oricum, este de retinut ca figurile ocupa mult
spatiu tipografic si sunt mai „pretentioase” din punctul de vedere al editarii si al tehnoredactarii
textelor. În orice caz, se vor evita figurile prea complexe. Este recomandabil ca fiecare grafic sa
prezinte o singura idee, pe care sa o sustina cât mai simplu si mai explicit. Atunci când se utilizeaza
tehnici de ilustrare grafica se vor prefera formele mai noi (box-plot, stem and leaf).
21
Fig.1. Frecvenţa pacienţilor cardiovasculari pe clase ponderale şi tip de comportament
Tabelele şi graficele vor fi redactate în limba română şi nu. se acceptă utilizarea celor
salvate din SPSS.
22
considera „importanta” sau „relevanta”? Din pacate, pentru aceasta întrebare nu exista un raspuns
riguros. Se recomanda apelul la spiritual stiintific si la simtul comun, concomitent cu raportarea la
natura specifica a fiecarei situatii în parte. Cu alte cuvinte, raspunsul depinde de contextul fiecarei
cercetari în parte. Din acest motiv, raportarea marimii efectului este una dintre solutiile
recomandate cu insistenta în ultimii ani.
O alta problema de discutat este în legatura cu valoarea în sine a lui p. Dupa cum stim,
nivelul minim pentru acceptarea semnificatiei statistice este 0,05, corespunzator valorii
conventionale minim acceptabile pentru pragul alfa. Vorbind în sens strict, un p=0.049 este
considerat semnificativ, în timp ce un p=0,051 trebuie sa fie considerat nesemnificativ. Având în
vedere ca pragul alfa=0,05 este unul arbitrar, nu se poate evita un astfel de rationament rigid. Cu
toate acestea, exista cercetatori care raporteaza rezultate ale lui p usor mai mari decât 0,05 ca fiind
„marginal semnificative” sau „aproape semnificative”. Sa mentionam, totusi, ca o astfel de atitudine
este destul de rar întâlnita si poate determina reactii negative, justificate, din partea cercetatorilor
mai „rigurosi”, aflati în majoritate.
În mod intuitiv, suntem tentati sa interpretam nivelul de semnificatie în functie de
valoarea calculata a lui p. Astfel, un p=0,001 ni se pare mai semnificativ decât un p=0,05, de
exemplu. Daca utilizam definitia stricta a termenului de semnificatie din rationamentul deciziei
statistice, o astfel de atitudine nu este justificata. O data ce a fost fixat un anumit nivel al lui alfa,
orice p mai mic sau egal cu acesta este semnificativ, iar orice p mai mare este nesemnificativ. Cei
mai multi statisticieni împartasesc aceasta opinie. Cu toate acestea, exista si cercetatori mai putin
„rigizi” care sunt dispusi sa asocieze valorii lui p anumite calificative, astfel:
>0,05 nesemnificativ
0,05 – 0,01 semnificativ
0,01 – 0,001 foarte semnificativ
<0,001 extrem de semnificativ
Fara a fi gresite, astfel de formulari nu aduc, totusi, o interpretare relevanta pentru decizia
statistica. Este util sa adaugam ca programele de prelucrari statistice afiseaza „0,000” pentru valori
ale lui p mai mici de 0,0005, Acest fapt nu va fi interpretat în nici un caz ca exprimând probabilitate
„zero”, ci doar în sensul ca valoarea lui p este mai mica de 0,0005. De altfel, la raportarea
semnificatiei se poate opta, fie pentru înscrierea valorii exacte a lui p, asa cum este calculata de
program, fie doar pentru mentionarea plasarii valorii testului sub nivelul alfa stabilit.
Formularea concluziilor
Studiul trebuie sa se încheie cu concluzii adecvate cu rezultatele obtinute, formulate sintetic
si explicit. Nu se vor evita aspectele mai putin reusite ale cercetarii, eventualele nereusite, chiar.
Rostul acestora este acela de a ajuta la evitarea repetarea unor greseli de catre cei care vor dori sa
reia acelasi tip de investigatie, mai târziu. Se pot face chiar recomandari explicite în acest sens.
23
Oricât de semnificative ar fi rezultatele unui anumit studiu, ele nu vor schimba modul de a gândi o
anumita realitate psihologica. Acest efect nu îl pot avea decât rezultate obtinute de mai multe studii
concordante pe aceeasi tema.
Nu se va uita niciodata faptul ca semnificatia statistica nu tine loc si de semnificatie
teoretica, cu sensul de consistenta a unui anumit model teoretic explicativ. Procedurile statistice nu
sunt altceva decât instrumente de evaluare probabilista ipotezelor. Profunzimea teoretica a unui
studiu nu poate rezulta decât din calitatea modelului de investigatie (ipoteze, proceduri de evaluare,
subtilitatea analizei rezultatelor etc.) si nu din datele statistice ca atare. Statistica trebuie sa fie o
modalitate de organizare si disciplinare a gândirii stiintifice, în nici un caz, însa, nu se poate
substitui acesteia. Dar nu se poate ajunge la aceasta performanta decât daca statistica este înteleasa
atât sub aspecte ei „tari” cât si cu limitele ei.
În trecut, la începuturile utilizarii statisticii în psihologie, prezenta acesteia într-o lucrare
avea un caracter de prestigiu, cu atât mai mare cu cât era mai bogat reprezentata. În prezent,
omniprezenta calculatoarelor si a programelor specializate au facut ca prelucrarile statistice sa
devina o operatiune relativ facila. Tocmai din acest motiv, apare riscul abuzului de statistica, a
utilizarii necritice si superficiale a acesteia în elaborarea lucrarilor de cercetare.
În fine, ca o concluzie a celor spuse, se cuvine sa insistam pe respectarea exigentelor
procedurale impuse de metoda statistica. Simpla „populare” a unei lucrari cu date statistice, tabele,
grafice, sau cu valori ale unor teste de semnificatie, nu asigura în mod necesar acelui document
valoarea stiintifica la care aspira. Asigurarea calitatii datelor supuse prelucrarii, respectarea
conditiilor de alegere a testelor de semnificatie, interpretarea lor adecvata si publicarea rezultatelor
în formatul adecvat, sunt conditii indispensabile pentru calitatea stiintifica a unui studiu bazat pe
metoda statistica.
Lectura celor mai multe dintre lucrarile efectuate de studenti scoate în evidenta
nerespectarea recomandarilor prezentate mai sus. Efectul consta în consemnarea unor greseli, dintre
care cele mai frecvente si mai suparatoare par a fi urmatoarele:
• Formulare improprie a ipotezelor sau concluziilor cercetarilor, prin utilizarea unor termeni
care sugereaza relatia de cauzalitate („influenteaza”, „determina”). Se ignora faptul ca testele
statistice nu sustin existenta unei relatii de cauzalitate decât daca datele sunt recoltate în conditii de
experiment psihologic,
• Includerea în lucrare a ipotezelor de nul, în paralel cu cele ale cercetarii. Acestea din
24
urma sunt singurele necesare si suficiente,
• Absenta coeficientilor de consistenta interna pentru testele care nu fac parte din
metodologia profesionala generala, sau, înca si mai grav, pentru cele create de autor, si pe
care se bazeaza respectiva cercetare,
25
• Instrumente de lucru (teste) prezentate integral în textul lucrarii. Acestea se descriu la
modul general, fiind prezentate integral, eventual, doar la sfârsitul lucrarii, în caz ca se
doreste difuzarea lor, altfel nu;
• Transformarea valorilor brute ale datelor de cercetare, obtinute prin aplicarea unor teste, în
valori etalonate. În acest caz se ignora un adevar elementar: etalonarea este o modalitate de
interpretare a rezultatului la un test cu scopul diagnosticului individual. Altfel spus, etalonarea este
necesara în practica psihologica, la nivel individual.
În ce priveste cazul cercetarii statistice, scorurile brute sunt perfect utilizabile pentru testarea
ipotezelor, deoarece obiectivul oricarei cercetari este, de regula, relatia dintre variabile. De
asemenea, este neproductiv sa transformam valori de tip cantitativ, exprimate pe scala de interval
sau de raport, în variabile calitative, exprimate pe scale ordinale, cum este cazul etaloanelor în
percentile, decile, stanine etc. În fine, prin transformare în valori etalon variabilitatea valorilor se
reduce, ceea ce conduce, alaturi de diminuarea nivelului de măsurarea, la diminuarea puterii
semnificaţiei statistice.
26
Modulul 3. SONDAJUL STATISTIC
Cercetarea prin sondaj are ca scop obţinerea unor indicatori care să permită caracterizarea
completă şi reală a întregii colectivităţi.
Etapa 1. Se culeg şi se prelucrează date statistice din eşantioane din care rezultă indicatori
derivaţi: mărimi relative, medii, indici etc. care descriu statistic eşantionul folosit.
Etapa 2. Indicatorii obtinuţi se extind, cu o anumită probabilitate, asupra întregii
colectivitati.
Cercetarea prin sondaj implică folosirea unor noţiuni perechi: colectivitate generală –
colectivitate de selecţie; media colectivităţii generale – media colectivităţii de selecţie; dispersia
colectivităţii generale – dispersia colectivităţii de selecţie; valoarea statistică calculată – valoarea
statistică estimată.
Colectivitatea generală sau populaţia reprezintă totalitatea unitaţilor simple sau complexe
care fac obiectul cercetării.
Volumul colectivitaţii generale din care urmează să se extragă unitaţile se notează de
obicei cu N în cazul unităţilor simple şi cu R în cazul unităţilor complexe. Dacă s-au înregistrat şi
variabile alternative, atunci unităţile care posedă caracteristica se noteaza cu M.
Colectivitatea de selecţie (sondaj, probă, eşantion) reprezintă p[artea colectivităţii generale
din care se va colecta datele în scopul generalizării rezultatelor la întreaga colectivitate.
Volumul colectivităţii de selecţie se notează cu n când este format din unităţi simple şi cu r
când e format din unităţi complexe. Pentru variabile alternative numărul unităţilor care posedă
caracteristica se noteaza cu m.
De remarcat este faptul că dintr-o anumită populaţie pot fi extrase mai multe eşantioane,
care diferă între ele atât ca volum cât şi ca structură. Din această cauză indicatorii statistici cu care
caracterizăm colectivitatea de sondaj pot fi consideraţi de forma unor variabile aleatoare pentru care
se pot stabili distribuţii de frecvenţă cunoscute, spre deosebire de media şi dispersia din
colectivitatea generală, pentru care există o singură valoare.
În studiul statistic al fenomenelor se foloseşte foarte frecvent perechea de noţiuni
valoare calculată şi valoare estimată.
Valorile calculate sunt rezultatul unei cercetări empirice. Acestea sunt folosite pentru a
evalua indicatorii din eşantioane care vor deveni estimatori ai colectivitaţii generale.
Cercetarea selectivă se face pe baza unui plan care trebuie să cuprindă:
- delimitarea în timp şi spaţiu a colectivităţii generale prin identificarea tuturor cazurilor
individuale sub care se manifestă fenomenul respectiv;
- verificarea gradului de omogenitate al colectivităţii generale (se utilizează studii vechi);
- alegerea sau stabilirea bazei de sondaj;
27
(Prin bază de sondaj se întelege orice sistematizare a unităţilor - liste, hărţi- astfel încât să
permită alegerea întâmplătoare a unităţilor ce vor lucra în eşantion).
- alegerea tipului şi a procedeului de selecţie;
- stabilirea periodicităţii efectuării sondajului;
- stabilirea planului observării;
- stabilirea planului de prelucrare a datelor de selecţie din punct de vedere metodologic şi
organizatoric;
- alegerea procedeelor de verificare a semnificaţiei indicatorilor de selecţie şi de extindere a
rezultatelor selecţiei asupra întregului ansamblu.
Rezolvarea problemelor cuprinse în planul de sondaj au drept scop asigurarea
reprezentativităţii eşantionului. Un eşantion este considerat corespunzator atunci când se produce în
aceeaşi structură pe care o prezintă colectivitatea generală.
Teoria şi practica demonstrează că asigurarea reprezentativităţii eşantionului
presupune respectarea cu stricteţe a urmatoarelor condiţii:
- includerea în eşantion a unităţilor în mod obiecvtiv fără a acorda preferinţă uneia din ele;
- eşantionul trebuie să fie suficient de mare ca să permită redarea trăsăturilor esenţiale ale
populaţiei originare;
- includerea fiecărei unităţi în eşantion trebuie să se facă independent de alte unităţi.
De remarcat faptul că în cazul în care populaţia originară (colectivitatea generală) este
împărţită în grupe, eşantionul trebuie să reproducă o structură corespunzatoare acestei componente.
Practica sondajului demonstrează că reprezentativitatea unui eşantion depinde în primul rând de
alegerea corectă a procedeelor şi tipurilor de selecţie.
28
Spre deosebire de selecţiile aleatoare, în eşantioanele dirijate alegerea unităţilor se face de
către persoanele care culeg datele. Prezenţa unui element oarecare care favorizează alegerea
subiectivă implică primejdia producerii de distorsiuni. Acest lucru trebuie evitat.
Selecţia mixtă combină principiile sondajului aleator cu cel dirijat. Se împarte colectivitatea
în grupe tipice după o anumită caracteristică şi apoi se extrage întâmplător câte un eşantion din
fiecare grupă.
Erorile cercetarii prin sondaj.
Se consideră eroare de selecţie abaterea care există între valorile calculate prin prelucrarea
datelor din eşantion şi ceea ce s-ar fi obţinut dacă s-ar fi organizat o observare totală şi se prelucrau
toate datele.
Avem: erori sistematice şi erori întâmplătoare.
Erorile sistematice se cunosc dinainte şi pot fi înlăturate cauzele care duc la producerea lor.
Erorile întâmplătoare apar indiferent de persoanele care fac sondajul sau de metodele
folosite. Ele derivă din însăşi esenţa metodei de cercetare prin sondaj. Ele pot fi calculate dacă
selecţia este probabilistică.
Eroarea medie de reprezentativitate are expresia:
P (1 − P )
N =
n
pentru selecţia repetată şi
P (1 − P ) n
N = 1−
n N
pentru selecţia nerepetată.
Unde
N = numarul populaţiei din populaţia totală;
n = numarul populaţiei din eşantion;
P = probabilitatea apariţiei unui eveniment.
29
REPARTIŢIE DE FRECVENŢĂ
Asocierea dintre distribuţia observată şi cea teoretică a fost mult timp neglijată în geografie.
Un studiu statistic nu poate fi făcut (nu are sens) fără această asociere. Forma unei distribuţii
permite găsirea parametrilor descriptivi cei mai potriviţi pentru fenomenul urmărit. Recunoaşterea
formei unei distribuţii este un indiciu pentru procedurile de transformare a datelor în mod
corespunzător. Totodată încadrarea într-o lege de distribuţie teoretică permite atât operaţii de
interpolare cât şi de extrapolare.
Ajustarea unei distribuţii observate la o distribuţie teoretică-adică la modele probabiliste
propriu-zise-implică acceptarea a priori că legile se încadrează în repartiţia observată/măsurată a
fenomenului în cauză.
O cantitate măsurabila care poate varia de la un element la altul se numeşte caracteristică
cantitativă. Uneori se mai foloseşte termenul de variabilă. Ansamblul noţiunilor consacrate acestor
caracteristici poartă numele generic de teoria caracteristicilor cantitative.
Caracteristicile care pot lua orice valoare numerică între anumite limite sunt numite
caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite valori se
numesc caracteristici cantitative (variabile) discrete (discontinue).
Dacă mai multe sute sau mii de valori ale unei variabile au fost notate într-o ordine cu totul
arbitrară în care au apărut ele în realitate, va fi dificil să tragem vreo concluzie cu privire la
semnificaţia acestor date. De aceea va trebui să condensăm datele cu ajutorul unor anumite metode
de ordonare sau grupare astfel ca proprietaţile datelor să poata fi uşor evidenţiate. De regulă valorile
alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din
observaţii şi care aparţin la diferite grupe să poată fi comparabile.
Modul în care frecvenţele de grupă sunt repartizate în intervale succesive se numeşte
repartiţia de frecvenţă a variabilei.
30
- poligonul frecvenţei: unirea punctelor marcate pe verticală pe mijlocul intervalului.
De observat că oricare ar fi aceste diagrame (orice formă ar avea), o anumită arie reprezintă
un număr de observaţii.
Numarul de observaţii care cad în intervalul [x1, x2] este proporţional cu aria delimitată de
curbă şi cele două drepte.
31
Dacă intervalele de grupă sunt micşorate, în acelaşi timp numărul de observaţii creşte, astfel
încât frecvenţele de grupă să rămână finite, poligonul şi histograma se apropie din ce în ce mai mult
de o curbă netedă.
O astfel de linie ideală a poligonului şi histogramei se numeşte curbă de frecvenţă. Este un
concept capital în statistică.
Când vom aborda teoria selecţiei va trebui să privim curba de frecvenţă ca reprezentând o
populaţie din care datele reale reprezintă un eşantion. Poligonul frecvenţelor şi histograma vor fi
aproximate cu o curbă, dar se vor îndepărta de ea în anumite porţiuni, datorită fluctuaţiilor selecţiei.
Atunci când numărul de observaţii este considerabil, să zicem 1000, poligonul frecvenţelor este
suficient de neted pentru a da o bună imagine a formei repartiţiei ‘ideale.’
32
3) Repartiţia în forma de U. Frecvenţele maxime sunt la capetele intervalului de variaţie.
Este rar.
33
4) Repartiţia extrem asimetrică.
Ex. 12 zaruri aruncate de 4096 de ori, apariţia lui 6 fiind considerată un succes, conduce la
următorul rezultat.
34
Vom arăta că, folosind ipotezele de independenţă a experienţelor succesive vom putea
determina teoretic natura acestei repartiţii.
În cazul seriilor cu o singură încercare, estimăm ca în N astfel de serii să obţinem Np
succese şi Nq insuccese.
35
Modulul 4. Dimensionarea eşantioanelor în cercetările psihologice
Una dintre cele mai frecvente întrebări pe care (şi) le pun studenţii sau tinerii aflaţi în faza
de proiectare a unei lucrări de cercetare este „cât de mare trebuie să fie eşantionul?”. Din păcate, nu
există un răspuns simplu şi nici foarte precis la această întrebare. Mărimea esantionului decurge,
înainte de toate, din constrângerile situaţiei de cercetare. Atunci când tema cercetării vizează situaţii
rare (de exemplu, studii pe gemeni univitelini; modificări neuropsihice la pacienţi cu leziuni
cerebrale cu o anumită localizare; subiecţi care practică profesii speciale etc.) volumul eşantionului
este în mod inevitabil mic, ceea ce nu înseamnă că trebuie să renunţăm la cercetare.
Excluzând situaţiile în care suntem constrânsi de „raritatea” subiecţilor care întrunesc
condiţiile de studiu, dimensionarea eşantionului se face pe baza a două criterii fundamentale: tipul
testului statistic ce urmează a fi utilizat şi obiectivele analizei statistice.
36
pachetelor de programe statistice nu oferă astfel de proceduri. În practică, o modalitate
mulţumitoare de rezolvare a acestei probleme este dimensionarea corespunzătoare a esantioanelor,
cu copul de a asigura atingerea unor valori acceptabile pentru puterea testelor statistice. În acest
sens, o incursiune în literatura statistică (Wolins, 1982; Kraemer & Thiemann; 1987; Wilkinson,
1999) ne oferă o serie de recomandări utile.
Toate testele statistice care detectează diferenţele dintre grupuri se bazează pe o anume
distribuţie de eşantionare. Ca urmare, numărul subiecţilor din fiecare eşantion are o legătură directă
cu împrăstierea distribuţiei de eşantionare (eroarea standard). Cu cât mai mulţi subiecţi în eşantion,
cu atât împrăştierea distribuţiei de eşantionare este mai mică şi şansa de a descoperi o diferenţă
semnificativă este mai mare (ceea ce înseamnă şi o putere a testului mai mare). Dar puterea nu este
legată numai de mărimea eşantionului, ci şi de mărimea efectului. Pe măsură ce mărimea efectului
creşte, creşte şi puterea testului. De exemplu, dacă dorim să testăm efectul unei psihoterapii după
două sedinţe, când efectul este mic, testul statistic va avea „putere mică”, adică va avea sanse mai
reduse să releve un efect semnificativ decât, să zicem, după 12 sedinţe, când efectul terapeutic va fi
mai pronunţat.
Testul statistic t (Student) pentru eşantioane independente sau pentru eşantioane dependente,
analiza de varianţă (ANOVA one-way sau factorială), la fel ca şi analiza de varianţă multivariată
(MANOVA), sunt concepute pentru verifica semnificaţia diferenţelor dintre mediile unor grupuri.
Pentru a menţine un nivel acceptabil pentru puterea testului, fiecare dintre grupurile comparate
trebuie să aibă un volum minimal, pentru a avea suficientă putere în detectarea diferenţelor şi, în
acelasi timp, un nivel mediu /ridicat al mărimii efectului (VanVoorhis & Morgan, 2001). În acest
scop, se consideră că 30 de subiecţi în fiecare celulă (definită prin categoriile variabilei
independente) sunt suficienţi pentru a garanta o putere de 0.8, ceea ce este un nivel minim pentru un
studiu obisnuit (J. Cohen, 1988).
- Atunci când sunt comparate mediile a două grupuri independente, se vor utiliza cel puţin
60 de subiecţi (minim 30 pentru fiecare grup). În cazul unei cercetări bazate pe un model intra-
subiect, în care acelaşi grup este măsurat în două (sau mai multe) situaţii diferite, este suficient un
eşantion de minim 30 de subiecţi pentru asigurarea unei puteri acceptabile. Acesta este unul dintre
avantajele modelului intra-subiect.
- Atunci când este utilizat testul ANOVA pentru o variabilă independentă cu trei valori,
eşantionul cercetării trebuie să fie compus din cel puţin 3x30=90 de subiecţi. Dacă
37
numărul de subiecţi din fiecare grup se reduce la 7, iar numărul grupurilor este de cel
puţin trei, atunci puterea testului scade la 0.5, iar mărimea efectului este tot de 0.5. În
cazul în care avem 14 subiecţi în fiecare grup comparat, pentru cel puţin trei grupuri si o
mărime a efectului de 0.5, ne putem baza pe o putere a testului de 0.8.
Deşi calcularea mărimii esantionului în astfel de situaţii face obiectul unor formule
complexe, regula empirică generală este de a nu utiliza esantioane mai mici de 50 de subiecţi în
cazul analizei de corelaţie sau de regresie simplă. În cazul corelaţiei şi regresiei multiple, în care
sunt mai multe variabile independente (criteriu), Green (1991) sugerează ca volumul esantionului
cercetării să fie
N>50+8m, unde m este numărul variabilelor independente, pentru corelaţii multiple şi N
> 104+m, pentru regresia multiplă.
Concret, pentru o analiză de corelaţie multiplă cu patru variabile se vor utiliza 50+8x4=82
subiecţi, iar pentru o regresie cu 4 variabile criteriu, se va asigura un eşantion de minim 104+4=108
subiecţi. Atunci când se urmăreste atât testarea corelaţiei cât si a regresiei se recomandă esantioane
mai mari decât acestea.
În acelasi context sunt recomandate şi alte reguli empirice, astfel:
- Pentru 5 sau mai mulţi predictori (sau variabile multiplu corelate) numărul participanţilor
va depăsi numărul predictorilor cu cel puţin 50. Altfel spus, totalul participanţilor trebuie să fie mai
mare ca numărul predictorilor cu cel puţin 50 (Harris, 1985);
- Pentru ecuaţiile de regresie cu şase sau mai mulţi predictori se impune un minim de 10
participanţi pentru fiecare predictor dar, dacă situaţia o permite, şi mai bine este ca să
existe în jur de 30 de subiecţi pentru fiecare variabilă. Cohen si Cohen (1975) demonstrează
că în cazul unei regresii cu un singur predictor care are o corelaţie cu
variabila predictor de 0.30, sunt necesari 124 subiecţi pentru a menţine o putere de 0.80.
Cu cinci predictori si o corelaţie multiplă de 0.30, aceeasi putere este atinsă pe un
esantion de 187 subiecţi.
38
O atenţie specială se va acorda simetriei variabilei dependente, deoarece în cazul existenţei
unei asimetrii, mărimea aşteptată a efectului este mică şi, implicit, puterea testului este mai mică şi
ea (Tabachnick & Fidell, 1996).
O regulă de siguranţă este ca în nici una din celulele tabelului de corespondenţă frecvenţa
teoretică să nu fie mai mică de 5, iar volumul total al esantionului să nu fie mai mic de 20. În cazul
testului chi-pătrat, spre deosebire de alte teste statistice, creşterea numărului subiecţilor nu are un
impact asupra valorii critice de respingere a ipotezei de nul. Totusi, volumul esantionului are un
efect asupra puterii testului. Existenţa unor frecvenţe teoretice (aşteptate) într-una sau mai multe
celule ale tabelului de corespondenţă limitează considerabil puterea testului. De asemenea, valori
reduse ale
frecvenţelor aşteptate cresc nivelul erorii de tip I. Acesta este si motivul pentru care se
recomandă un esantion de cel puţin 20 de subiecţi (Howell, 1997).
Testul chi-pătrat este utilizat pentru testarea gradului de independenţă (asociere) dintre
variabile categoriale. Ca urmare, nici un subiect nu trebuie să contribuie cu mai mult de o
singură valoare. La rândul lor, gradele de libertate au un anumit impact asupra puterii testului. Cu
cât numărul celulelor tabelului de corespondenţă creşte (ceea ce conduce la cresterea gradelor de
libertate), se reduc frecvenţele teoretice din celulele tabelului de corespondenţă şi, implicit, are loc o
reducere a puterii (Cohen, 1988). Şi totusi, atunci când se aşteaptă o mărime importantă a efectului,
se consideră că poate fi tolerată şi o valoare mai mică pentru puterea testului, implicit un volum mai
redus al esantionului (minim 8).
39
a. Dimensiunile eşantionului pentru calcularea etaloanelor psihologice:
Notă:
• Limitele vor fi adaptate în funcţie de tipul etalonului. Dacă se referă la “populaţia
generală” atunci volumul eşantionului va trebui să fie “mare”. Dacă etalonul este calculat pe o
populaţie ocupaţională specifică, atunci volumul esantionului poate fi “adecvat”.
• Pentru cele mai multe scopuri, un esantion mai mic de 150 de subiecţi este prea mic,
deoarece frecvenţa valorilor spre limitele distribuţiei va fi foarte mică.
40
inadecvat mai mic de 100 subiecţi
adecvat 100-200 subiecţi
mai mult decât adecvat peste 200 subiecţi
41
evaluări individuale. În cel de-al doilea caz coeficientul de fidelitate trebuie să fie mai ridicat decât
în primul caz.
• Alţi factori trebuiesc, de asemenea, luaţi în considerare: dacă scala se utilizează
singură sau împreună cu alte scale (instrument compozit). În cazul scalelor compozite, accentual va
fi pus pe scorul compozit si nu pe sub-scalele instrumentului.
Mediana coeficienţilor
inadecvată: r < 0.7
adecvată : 0.7 < r < 0.79
bună : 0.80 < r < 0.89
excelentă : r > 0.90
Mediana coeficienţilor
Inadecvată : r < 0.6
Adecvată : 0.6 < r < 0.69
Bună : 0.7 < r < 0.79
Excelentă : r > 0.80
42
Mediana coeficienţilor
Inadecvată : r < 0.6
Adecvată : 0.6 < r < 0.69
Bună : 0.7 < r < 0.79
Excelentă : r > 0.80
Concluzii
Recomandările sintetizate mai sus oferă un cadru suficient pentru orientarea în situaţiile în
care nu apelăm la analize cantitative riguroase de dimensionarea esantioanelor. Asa cum se poate
observa, nu există o recomandare unică de fixare a dimensiunii esantionului, potrivită pentru orice
situaţie si orice tip de test statistic. În toate cazurile, cu cât esantionul este mai mic, cu atât scade
sansa de a ajunge la un rezultat statistic semnificativ, în condiţiile unei mărimi „rezonabile” a
efectului. În acelasi timp, însă, nu este de dorit nici utilizarea unor esantioane extrem de mari,
deoarece în acest caz, riscăm să obţinem un rezultat semnificativ statistic, dar total nerelevant din
punct de vedere practic sau al mărimii efectului.
43
Modulul 5. INFERENŢA STATISTICĂ
44
• fie vom „respinge ipoteza nula”,
• fie vom amâna decizia (nu sunt suficiente date pentru a trage vreo concluzie).
De regula, oamenii care iau decizii (agentii decizionali) le iau bazându-se pe informatii
partiale, limitate si de aceea deciziile pot fi mai mult sau mai putin corecte sau eficiente. Un om
rational încearca sa minimizeze costul deciziilor gresite. Abordarea sa, atunci când este confruntat
cu alegerea între doua ipoteze aflate în competitie, este clara: va alege una, iar decizia de alegere va
fi luata pe baza informatiilor obtinute anterior din esantioane.
Fie în postura de cercetator stiintific, fie în cea de agent decizional, vom fi în masura
de a lua decizii rationale – în urma efectuarii unui test de semnificatie – doar atunci când
vom întelege pe deplin esenta acestor teste. Aceasta implica doua aspecte:
1) Pe de o parte, va trebui sa întelegem la ce tip de probleme testele de semnificatie
ofera (cel putin partial) raspunsuri, iar
2) Pe de alta parte, va trebui sa întelegem natura informatiilor pe care ni le ofera aceste
teste.
Din punctul de vedere al întelegerii lumii înconjuratoare, dar si din punctul de vedere al
logicii, abordarea lui Fisher este usor de explicat: ipotezele stiintifice se refera la populatii teoretice,
care au de obicei un numar infinit de indivizi si sunt reprezentate de
distributii continue. O ipoteza stiintifica este înlocuita printr-o ipoteza statistica, exprimata
prin intermediul parametrului acelei populatii (cum ar fi proportia, media etc.).
Valoarea parametrului este estimata prin exploatarea datelor obtinute dintr-un esantion
extras din populatie, apoi este comparata cu o valoare „asteptata”. Discrepanta dintre cele
doua va influenta „credinta” noastra în validitatea ipotezei stiintifice.
Ipoteza statistica asociata ipotezei stiintifice este bazata, astfel, pe un esantion „mic” extras
dintr-o populatie finita (posibil „mare”). O prima eroare ce poate fi facuta îsi are originea în
identificarea ipotezei stiintifice cu cea statistica asociata. Totusi, atunci când folosim metodele
statisticii, identificam de fapt aceste doua ipoteze si încercam sa
evaluam riscul erorilor pe care le-am putea face.
Pe scurt, ideea testarii ipotezelor (adica a testelor de semnificatie) este simpla: ipoteza
statistica va servi ca alternativa la o alta ipoteza – asa-numita „ipoteza nula” – care este luata în
considerare doar pentru a fi respinsa. Prin acceptarea adevarului ipotezei nule vor rezulta anumite
consecinte statistice, iar acestea vor fi confruntate cu datele observate. Orice dovada aflata în
contradictie cu ipoteza nula va servi ca justificare a alternativei.
45
logica a ipotezei stiintifice).
Sa prezentam, în continuare, prin câteva exemple felul în care se relationeaza cele doua
tipuri de ipoteze. Anume, sa consideram urmatoarele afirmatii:
(1) La vârsta de 10 ani, fetele sunt mai inteligente decât baietii,
(2) Vârsta „foarte înaintata” este un predictor semnificativ al maladiei Alzheimer,
(3) Copiii sunt mai creativi decât adultii,
(4) Medicamentul A ajuta pacientii sa se însanatoseasca mai bine decât medicamentul B,
(5) Inginerii barbati si femei au salarizari diferite,
(6) Pacientii îsi revin în urma unui tratament standard,
(7) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor pierde
în greutate exact 2 kg,
(8) Medicamentul D nu are nici un efect asupra tuberculozei,
(9) Efectele medicamentului E asupra bolnavilor barbati si femei sunt similare.
Recunoastem în cele noua afirmatii de mai sus enunturi ale „credintelor” specialistilor si
profesionistilor, rezultate din lunga lor experienta personala.
Se poate observa o distinctie clara între primele sase si ultimele trei: acestea din urma
exprima o egalitate, o similaritate sau o coincidenta (sa observam ca „nu are efect”
înseamna „nu schimba cu nimic situatia”, sau ca „situatia de dinaintea tratamentului cu
medicament este aceeasi cu situatia de dinainte”). Din contra, primele sase afirmatii
exprima o inegalitate, o disimilaritate sau o diferenta.
Aceasta distinctie este esentiala pentru posibilitatea aplicarii testarii ipotezelor. Este esential
sa subliniem ca testarea statistica de semnificatie poate fi aplicata doar ipotezelor stiintifice care
sunt exprimate ca inegalitati, disimilaritati sau diferente; în niciun caz egalitati cum este cea din (7)
nu pot fi confirmate ca „adevarate” prin testare statistica de semnificatie. Probabil ca ceea ce
specialistul nostru (sa fie oare aceste Dr. C?) vroia sa exprime era urmatoarea afirmatie:
(7’) Cei ce urmeaza dieta saptamânala prescrisa de faimosul dietetician Dr. C vor
pierde în greutate cel putin 2 kg, iar în aceasta forma ea ar putea servi ca punct de plecare
pentru o testare statistica de semnificatie.
Sa înlocuim cele sapte ipoteze stiintifice (1)-(6) si (7’) de mai sus prin ipotezele
statistice corespunzatoare. Va trebui sa implicam unii parametri ai populatiilor respective:
(1a) IQ-ul mediu al fetelor în vârsta de 10 ani este mai mare decât IQ-ul mediu al
baietilor în vârsta de 10 ani,
(2a) Incidenta maladiei Alzheimer este mai mare la persoanele de vârsta foarte
înaintata (prin comparatie cu persoanele de vârsta înaintata),
(3a) Indicele mediu de creativitate al copiilor este mai mare decât cel al adultilor,
(4a) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este mai
46
mare decât proportia corespunzatoare pentru medicamentul B,
(5a) Salariul mediu al medicilor barbati difera (este mai mare?) decât salariul mediu al
medicilor femei,
(6a) Starea medie de sanatate a pacientilor, în urma unui tratament standard, este mai
buna decât înaintea începerii tratamentului,
(7a) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de cel putin 2 kg.
Toate aceste afirmatii vor putea servi ca ipoteze alternative în testari de semnificatie. În
general, într-o testate statistica de semnificatie, ipoteza alternativa este o afirmatie despre parametrii
unei/unor populatii, care înlocuieste ipoteza stiintifica (presupusa plauzibila). (Sa facem observatia
ca în toate exemplele de mai sus, ca parametri ai populatiilor au fost considerati medii sau
proportii.)
Se obisnuieste sa fie numita ipoteza alternativa si sa fie notata cu Ha (sau H1) tocmai
ipoteza stiintifica luata în considerare, ca afirmatie exprimând o inegalitate, o
disimilaritate sau o diferenta.
Din punct de vedere logic, în aceiasi termeni am putea enunta si o alta afirmatie, de data
aceasta exprimând egalitatea sau inegalitatea inversa, similaritatea sau coincidenta. Aceasta
afirmatie este notata cu H0 si este numita ipoteza nula. Conform lui R. A. Fisher, ipoteza nula este
„ridicata” – ca un complement al ipotezei alternative – doar pentru a fi respinsa, iar prin respingerea
ei vom accepta ca „adevarata” ipoteza stiintifica initiala.
Sa prezentam aceste afirmatii pentru cele sapte exemple de mai sus:
(1-H0) IQ-ul mediu al fetelor în vârsta de 10 ani este egal cu IQ-ul mediu al baietilor în
vârsta de 10 ani,
(2-H0) Incidenta maladiei Alzheimer la persoanele de vârsta foarte înaintata este aceeasi
cu cea la persoanele de vârsta înaintata,
(3-H0) Indicele mediu de creativitate al copiilor este egal cu cel al adultilor,
(4-H0) Proportia pacientilor însanatositi dintre cei tratati cu medicamentul A este egala cu
cea corespunzatoare pentru medicamentul B,
(5-H0) Salariul mediu al medicilor barbati este egal cu salariul mediu al medicilor femei,
(6-H0) Starea medie de sanatate a pacientilor, în urma unui tratament standard, nu sufera
nicio schimbare,
(7-H0) Scaderea medie în greutate a persoanelor ce urmeaza dieta saptamânala prescrisa
de faimosul dietetician Dr. C este de exact 2 kg.
R. A. Fisher a dat numele de „ipoteza nula” deoarece aceasta ipoteza ar trebui sa
fie„anulata”. Acest nume a fost retinut si a supravietuit probabil datorita faptului ca în multecazuri
ipoteza nula poate fi scrisa sub forma unei „egalitati cu zero”:
47
(H0) f (p) = 0 în care f este o functie de parametrii p ai populatiilor implicate în testare.
Poate ca cel mai bun exemplu este urmatorul:
(10) m f - mb = 0
în care parametrii m f si mb reprezinta IQ-ul mediu al fetelor, respectiv baietilor în vârsta
de 10 ani.
Exista întotdeauna posibilitatea ca ipoteza nula sa fie ea cea adevarata, deci prin
respingerea ei sa facem o eroare. Admitând ca dispunem de informatii complete despre
distributia populatiei, singura sursa de eroare ar ramâne maniera în care sunt alesi indivizii din
esantion. Atunci când esantionul este ales aleator, diferentele dintre ceea ce ne asteptam si ceea ce
constatam vor putea fi explicate doar prin factorul „sansa”. Vom putea impune un prag asupra
acestor diferente, separând diferentele „mici”, acceptabile, de cele „mari”, inacceptabile.
Acest prag este identificat odata cu specificarea nivelului de semnificatie.
48
considerate semnificative?
În orice experienţă studiem procesul dat în anumite condiţii, într-un anumit context:
la lecţie, la joc, în activităţile practice, în condiţii de laborator etc. Trebuie să admitem că, într-un fel
sau altul, întâmplarea poate interveni în desfăşurarea fenomenului cercetat prin condiţii neaşteptate,
prin compoziţia grupului, prin deosebiri în personalitatea profesorului etc. Datele obţinute sunt
afectate în felul acesta de un element aleator (întâmplător).
În consecinţă, alături de ipoteza specifică (Hs), ce stă la baza experienţei respective şi care
este o ipoteză psihologică sau pedagogică se poate formula şi o altă ipoteză care să atribuie numai
întâmplării tendinţele sau diferenţele constatate. Aceasta din urmă este "ipoteza întâplării"sau
ipoteza nulă (H0) şi se enunţă pentru toate cazurile în aceiaşi termeni. De notat că atât ipoteza nulă
(H0) cât şi ipoteza alternativă (Hs) se referă la populaţie, nu la eşantioane ca atare.
Preocupat să dovedească în mod temeinic justeţea ipotezei specifice, cercetătorul va
admite în mod provizoriu –în raţionamentul său – ipoteza nulă şi va determina şansele
(probabilitatea) ca diferenţele obţinute în experiment să aibă loc numai pe baza " legilor
întâmplării" (care sunt legi de probabilitate bine studiate). Ştim că probabilitatea ia valori între 0 şi
1, iar transcrisă în procente – între 0 şi 100%.
Dacă probabilitatea obţinerii diferenţei date, în baza ipotezei nule, este foarte mică
(de pildă, mai mică decât 0,05 ceea ce se scrie p < 0,05), atunci respingem ipoteza hazardului şi
arătăm toată încrederea ipotezei specifice. Dacă însă, probabilitatea determinată în lumina ipotezei
nule este mai mare (de pildă, p > 0,10 putând merge până la 1), atunci nu ne putem asuma riscul
respingerii ipotezei nule şi vom considera diferenţele efectiv obţinute ca fiind încă nesemnificative.
Prin urmare se acceptă ca semnificative acele rezultate care au şansele de a se
produce prin simpla întâmplare numai într-un număr mic de cazuri: sub 5% din cazuri, uneori sub
10%. Şansele de a obţine rezultatele respective prin simplul joc al factorilor aleatori se află în acest
caz sub 10%, respectiv 5% ( ceea ce se scrie p < 0,10 respectiv p < 0,05). Înseamnă că, acceptând
rezultatele unei experienţe drept proba justeţei ipotezei specifice, ne asumăm totodată riscul de a
greşi în mai puţin de 10%, respectiv 5% din cazuri. Fiecărei aserţiuni i se asociază astfel un prag de
semnificaţie, care indică riscul de a greşi pe care ni-l asumăm.
Rezumând: mecanismul logic al ipotezei nule permite infimarea ipotezei hazardului şi
acceptarea în consecinţă a ipotezei alternative (Hs). Ipoteza nulă şi ipoteza alternativă sunt
contradictorii; a respinge ipoteza nulă înseamnă a accepta ipoteza specifică. Dacă plasăm pe o axă
probabilităţile amintite vom avea situaţia din figura 4.3.
1 0,05 0,01 0
|-------------------- . . . -----------------|------------------|------------------>
H0 nu se consideră infirmată | H0 se consideră infirmată
49
şi se suspendă decizia | şi se acceptă Hs
50
independente.
Se poate proceda şi altfel. Se pot constitui eşantioane perechi. În cazul acesta,
fiecare element dintr-un eşantion corespunde unui element dintr-un alt eşantion (formează o pereche
cu el). De exemplu, pentru a compara două metode de instruire se constituie două grupe cu acelaşi
număr de elevi, astfel ca fiecărui elev dintr-o grupă să-i corespundă un elev din cealaltă grupă,
având acelaşi nivel de cunoştinţe, eventual acelaşi C.I. În felul acesta, compoziţia grupelor este
precizată pe baza unei probe anterioare, în virtutea căreia elementele celor două eşantioane nu se
determină la întâmplare. Fiecare individ dintr-o grupă are "corespondent” în grupa a doua, având
aceeaşi notă (sau acelaşi nivel) în proba preliminară. Situaţia este identică şi în cazul când acelaşi
grup de subiecţi este supus de două ori la probe diferite (de exemplu, înainte şi după acţiunea unui
anumit factor experimental). Se obţin atunci două grupe de măsurări efectuate pe aceiaşi subiecţi,
care constituie perechi.
Prin urmare putem alege grupele de studiu în mod independent şi atunci este vorba
de o alegere la întâmplare a elementelor; sau putem asocia într-un anumit fel - pe baza unui criteriu
precis - elementele celor două eşantioane, două câte două, şi atunci compoziţia lor este determinată
de regulă în virtutea unei probe prealabile: test de inteligenţă, test de cunoştinţe etc.
N1 N2
51
curbei normale schiţând valorile calculate (z cal) în raport cu valorile critice (1,96 şi 2,58). Dacă
valoarea ce va corespunde indicelui z cal este mai mare decât 1,96, atunci diferenţa între cele două
medii este semnificativă la pragul de p < 0,05, iar dacă z cal > 2,58, atunci diferenţa este
semnificativă la pragul de p < 0,01. Bineînţeles, dacă vom avea z cal < 1,96, atunci ipoteza nulă nu
va fi infirmată, iar diferenţa obţinută în cadrul experienţei nu va fi considerată concludentă pentru a
proba justeţea ipotezei specifice (vom suspenda decizia).
2
În exemplul considerat trebuie să cunoaştem cu privire la fiecare grup m , N şi .
2
m1 = 7,7; N1 = 33; 1 = 3,15;
2
m 2 = 6,7; N 2 = 34; 2 = 3,5;
Utilizând formula stabilită obţinem:
7,7 − 6,7
= 2,33 .
3,15 3,5
+
33 34
Raportul găsit este mai are decât 1,96 şi mai mic decât 2,58, deci p < 0,05. Făcând
un calcul de interpolare se află p = 0,02; deci diferenţa este net semnificativă, ipoteza nulă fiind
infirmată.
Când volumul datelor obţinute în fiecare eşantion este mai mic (numărul de măsurări
este mai mic decât 30) se utilizează un procedeu întrucâtva diferit.
Ipoteza nulă se enunţă la fel: presupunem că cele două grupe de date sunt două
eşantioane întâmplătoare ce provin din aceeşi colectivitate generală. Verificăm apoi şansa acestei
ipoteze pe baza criteriului t:
m1 − m 2
t = .
2 1 1
s ( + )
N1 N 2
s
2
=
(x − m ) + (x − m
1
2
2 )2
N1 + N 2 − 2
Formulele de la numărător ne sunt cunoscute de la calcularea dispersiei (sumei de
pătrate referitoare la cele două grupe), iar N1 şi N2 sunt efectivele celor două eşantioane.
Există un tabel special (întocmit de Student) în care figurează probabilităţile
raportului | t | corespunzător numărului "gradelor de libertate" care depinde de volumul
eşantioanelor (vezi Anexa 1.1.). În cazul nostru numărul acesta - notat n - este:
n = N1 + N2 - 2.
52
Să luăm un exemplu.
În procesul învăţării eşalonarea repetiţiilor este mai productivă decât concentrarea
lor. Într-o experienţă se ia câte o grupă formată fiecare din câte 10 subiecţi şi se experimentează în
cele două situaţii prevăzute: repetiţii eşalonate sau concentrate în timp. Încă din prima perioadă
subiecţii manifestă o diferenţă. Vrem să ştim dacă ea este semnificativă (după P. Oleron).
Datele consemnate de autor sunt:
m1 = 13,3; N 1 = 10; (x − m )1
2
= 82,1;
m 2 = 14,2; N 2 = 10; (x − m )
2
2
= 97,6;
2 82,1 + 97,6
s = = 9,98
18
14,2 − 13,3
t = = 0,63
1 1
9,98 +
10 10
53
ipotezei nule se răsfrânge asupra ipotezei specifice. Neinfirmarea ipotezei nule pune sub semnul
întrebării ipoteza specifică, infirmarea ipotezei nule consolidează foarte mult ipoteza specifică. Cele
două ipoteze H0 şi Hs sunt, cum s-a spus, contradictorii.
Când elementele celor două eşantioane sunt asociate într-un anumit mod două câte
două (de exemplu, rezultatele înregistrate înainte şi după acţiunea unui factor experimental),
procedeul cel mai simplu constă în a raţiona asupra diferenţelor pe care le prezintă fiecare pereche
de date asociate, corelate.
Să notăm cu x rezultatele din primul grup de măsurări (eşantion) şi cu x' valorile
asociate din eşantionul al doilea. Diferenţa corespunzătoare fiecărei perechi de note x - x' o
însemnăm cu d. Se obţin astfel patru coloane.
Exemplu:
Cu o grupă de 10 elevi s-a încercat la geografie, în decursul trimestrului II al anului
şcolar, o metodă nouă de învăţare individuală, pe baza unor întrebări de control fixate pe cartonaşe.
S-au înregistrat notele elevilor la geografie la începutul experienţei, adică la sfârşitul trimestrului I
şi apoi la încheierea trimestrului II. Vrem să ştim dacă metoda respectivă aduce o îmbunătăţire
semnificativă a situaţiei şcolare.
Pentru a determina acest lucru întocmim un tabel în care vom înscrie subiecţii,
rezultatele obţinute în cele două situaţii şi vom calcula diferenţele dintre ele (Tab.4.1.).
Se observă din tabel că avem diferenţe nule, pozitive şi negative.
Formulăm ipoteza nulă, adică atribuim numai întâmplării diferenţele constatate,
Dacă s-ar datora numai întâmplării, aceste diferenţe ar fluctua în jurul lui 0 într-un sens sau altul, iar
media lor ar fi egală cu zero md= 0 (cu md am notat media diferenţelor).
Note Note
Sub trim. II trim. I d d2
iecţi x` x
A 8 6 +2 4
B 7 5 +2 4
54
C 5 5 0 0
D 6 4 +2 4
E 5 6 -1 1
F 6 4 +2 4
G 6 5 +1 1
H 5 4 +1 1
I 4 6 -2 4
K 7 5 +2 4
N= Σd Σ
2
10 = +9 d = 27
Tabelul 4.1
Vom însuma algebric coloana d (ţinând deci seama de semne) şi vom afla
∑d = T. Apoi, făcând raportul T/N, vom afla media diferenţelor md.
În exemplul ales, md = T/N = 0,09, deci md diferă de zero; nu ştim dacă diferenţa
aceasta este suficient de mare pentru a putea fi considerată semnificativă sau nu.
Se utilizează criteriul:
md
t =
d
N
Făcând înlocuirile:
2 27 − 81 / 10
d = = 2,1
9
de unde
d = 2,1 = 1,4
Deci
55
0,9
t = = 2,0
1,4
10
Căutăm în Anexa 1.1. | t | ţinând seama de faptul că în acest caz numărul gradelor de
libertate este N - 1 (şi nu N1+N2- 2, ca în primul caz).
În exemplul de mai sus, N - 1 = 9. Căutând în tabel găsim pentu 9 grade de libertae,la
pragul de p = 0,05 cifra 2,26. Valoarea calculată de noi este inferioară acestei cifre. Înseamnă că nu
s-a demnostrat falsitatea ipotezei nule şi, în felul acesta nu se poate spune că rezultatele experienţei
sunt semnificative.
Când N este destul de mare (>60) putem raporta valoarea găsită prin calcul la
valorile z (1,96 şi 2,58) fără să mai facem apel la Tabelul lui Student.
Trebuie reamintit în încheiere că atât raportul | z | cât şi criteriul | t | presupun
drept condiţie aspectul normal al distribuţiilor supuse comparaţiei.
56
diferenţieze principale ferestre ale programului SPSS
identifice în bara de comenzi principalele categorii de comenzi şi funcţiile acestora
definească în editorul de date variabilele relevante ale studiului
Chiar dacă a fost cândva, actual statistica aplicată nu mai este o lume străină şi exotică
pentru cercetătorii din diferitele domenii ale ştiinţei. Un rol hotărâtor în penetrarea practicii de
cercetare de către statistică a avut-o informatizarea demersului statistic şi apariţia softurilor
statistice. Utilizarea softurilor a permis ca cercetătorii din diferite domenii ale ştiinţei să opereze cu
modele matematice complexe fără a avea în prealabil o formare în matematica aplicată.
Actual pe piaţa softurilor statistice există multe aplicaţii de analiză statistică, SPSS fiind
doar unul dintre acestea. Prima versiune a fost elaborată în 1968, variantele actuale (SPSS 14, SPSS
15) fiind considerate cele mai frecvent utilizate softuri statistice în cercetare (studii de marketing,
anchete sociale, studii experimentale, etc.). Există diferite verisuni ale programului, atât pentru
sistemul de operare Windows cât şi pentru sisteme Mac OS X şi Unix.
57
variabilelor în ceea ce priveşte caracterul: continuu sau discret, independent sau dependent, calitativ
sau cantitativ. Aceste caracteristici urmează a fi definite în mometul construcţiei bazei de date. În
Editorul de Variabile pe orizontală avem variabilele şi pe verticală avem caracteriticile acestora.
58
independente cât şi cele dependente. De altfel programul nu face distincţie între acestea,
cercetătorul prin caracteristicile definite diferenţiază variabilele manipulate de cele măsurate.
În editorul variabilelor în prima linie vom trece denumirea primei variabile independente:
gradul de asociere a cuvintelor. Această casuţă nu permite depăşirea a 8 caractere, ca urmare vom
recurge la o prescurtare a denumirii, ex. gdaac. După stabilirea denumirii vom stabilii alte detalii
ale acestei variabile: tipul variabilei (se referă la modul de codare a valorilor acestei variabile, în
cazul nostru vom accepta setarea iniţială – numerică). Astfel cele două modalităţi ale variabilei
gdaac vor fi codate cu 1 (pentru liste de cuvinte relaţionate semantic) şi 2 (pentru liste de cuvinte
nerelaţionate semantic). Setarea Width se referă la numărul caracterelor ce pot fi introduse în
coloana variabilei definite. Specificarea Decimals ne permite setarea numărului de zecimale afişate
în baza de date. Din moment ce avem o variabilă independentă codată numeric (subiecţii sunt sau în
grupul 1 sau în grupul 2) vom seta numărul zecimalelor la zero (nu există posibilitatea ca unul din
subiecţi să aibă 1,5 ceea ce ar însemna să nu fie inclus în niciuna din grupele definite pe baza
modalităţilor variabilei independente). Label reprezintă eticheta variabilei prescurtate. Este foarte
probabil ca o persoană care analizează datele introduse fără a avea infomaţii despre denumirea
variabilelor implicate în studiu, cu greu să îşi dea seama ce înseamnă exact gdaac. Ca urmare
această setare permite cercetătorului înregistrarea în baza de date a denumirii in extenso a variabilei
codate. Setarea Values este importantă în cazul variabilelor discrete, dacă dorim să etichetăm
diferitele nivele ale acesteia. Variabila independentă este una discretă, având modalităţi codate
numeric, însă acestor numere le putem asigna etichete lingvistice. Accesând această căsuţă se va
deschide o fereatră care permite asocierea unei etichete lingvistice fiecărui cod numeric. Stabilirea
unei legături se face prin comanda Add, după ce am trecut în căsuţele potrivite valoarea numerică şi
eticheta lingvistică asociată (ex. 1 – liste de cuvinte relaţionate şi 2 - liste de cuvinte nerelaţionate).
Pe coloana Missing vom specifica modalitatea de codare datelor lipsă. La această comandă vom
opta pentru a asocia valorile discrete lipsă cu 99. De obicei se alege o valoare care este în afara
plajei de valori ale variabilei codate. Setarea Columns se referă la lăţimea coloanei în care vor fi
introduse valorile variabilei definite (specificarea unei valori este opţională, din moment ce acest
parametru poate fi modificat în fereastra Editorului de Date cu ajutorul mouse-ului). Setarea Align
se referă la poziţionarea în căsuţă a valorii introduse, implicit fiind stabilită alinierea la dreapta.
Ultima specificare se referă la scala de măsură a variabilei. În cazul nostru variabila independentă
este una nominală, din moment ce toţi subiecţii sunt incluşi într-o grupă fără ca doi subiecţi să fie
incluşi în aceeaşi grupă. Diferenţele între grupe sunt de ordin calitativ, nici una din grupe nu
parcurge mai multe liste sau liste cu mai multe cuvinte. Ceea ce se modifică este caracterul
relaţionat sau nerelaţionat al cuvintelor de pe listă.
În mod similar se procedează pentru a doua variabilă independentă denumind-o sdpal (la
Label vom trece - Strategia de parcurgere a listei). În cazul variabilei dependente (numărul de
cuvinte reactualizate - ndcr) la setarea Values nu vom eticheta fiecare valoare a variabilei, deoarece
59
variabila măsurată este una cantitativă (numerică prin excelenţă). În momentul în care se trece la
Editorul de Date, denumirile variabilelor vor apare pe orizontală (fiecărei variabile îi va
corespunde o coloană). Ceea ce urmează este introducerea datelor în baza de date după următorul
algoritm: primul subiect aparţine grupului care a citit lista de cuvinte relaţionate semantic, în
coloana gdaac va avea 1, în coloana sdpal vom trece 1 (face parte din grupul căruia i s-a cerut
evaluarea conotaţiei afective a cuvintelor) şi la coloana ndcr vom trece numărul de cuvinte
reactualizate de acest subiect.
60
Modul 7. Utilizarea softurilor statistice în cercetare: modalităţi de
reprezentare grafică, calculul indicatorilor tendinţei centrale, ai dispersiei şi ai
distribuţiei.
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
reprezinte grafic distribuţia valorilor unei variabile (histograma)
calculeze indicatorii ce descriu o distribuţie: înclinarea şi gradul de aplatizare
calculeze indicatorii tendinţei centrale: medie, mediană şi mod
calculeze indicatorii de dispersiei ai unei distribuţii: abaterea standard, varianţa, eroarea
standard a mediei, amplitudinea, minimul şi maximul
În modulul anterior am parcurs paşii necesari configurării unei baze de date (am definit
variabilele independente şi dependente) precum şi cei necesari pentru introducerea datelor în
aceasta. În continuare vom parcurge paşii pentru a obţine primele informaţii de natură descriptivă
despre eşantionul nostru de date.
Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ndcr 20 12 28 18 20 22 24 18 19 25 27 26 23 20 22 23 15 18 15 22
Pentru a realiza o histogramă în SPSS vom accesa meniul Graphs de unde vom alege
opţiunea Histogram… . În fereastra astfel deschisă vom alege din lista de variabile aflată în stânga
61
numele variabilei pe care dorim să o reprezentăm (în cazul de faţă ndcr) şi o vom adăuga în câmpul
Variable. De asemenea vom bifa şi opţiunea Display normal curve (Afişează curba normală).
Precum se vede şi din figura de mai sus pe axa X avem reprezentate valorile variabile, iar pe
axa Y avem frecvenţa de apariţie a acestora în eşantionul nostru de date. În partea dreaptă a
histogramei avem trecute valorile: abaterii standard (Std. Dev), a mediei (Mean) şi numărul de
subiecţi / măsurători (N). De asemenea se poate observa că SPSS-ul afişează etichetele variabilelor
şi nu acele nume de maxim 8 caractere, tocmai pentru a uşura identificarea acestora.
62
În tabelul de output pe lângă valorile celor trei indicatori vom avea: numărul de subiecţi
incluşi în calcul şi numărul de date lipsă (subiecţi ce nu au valori introduse în baza de date pentru
variabila în cauză). O valoare a indicelui de înclinare sau a gradului de aplatizare care este peste de
două ori valoarea erorii standard a acestuia ne indică o distribuţie asimetrică.
63
În cazul unei distribuţii cvasinormale valorile medie, medianei şi modului vor fi apropiate.
În tabelul de output pe lângă valorile celor trei indicatori vom avea: numărul de subiecţi incluşi în
calcul şi numărul de date lipsă (subiecţi ce nu au valori introduse în baza de date pentru variabila în
cauză). În cazul în care există mai multe valori cu cea mai mare frecvenţă de apariţie în eşantionul
de date şi ca atare nu avem un mod unic, SPSS-ul va trece în tabel valoarea cea mai mică dintre
acestea.
Indicatori ai dispersiei
În afara tendinţei centrale care ne spune unde se situează majoritatea datelor din eşantion
este foarte important să ştim şi cum sunt distribuite aceste valori în cadrul eşantionului. SPSS ne
oferă posibilitatea să calculăm următorii indicatori ai dispersiei: eroarea standard a mediei, abaterea
standard, varianţa, amplitudinea, minimul şi maximul. Pentru a calcula aceşti indicatori vom accesa
meniul Analyze din care vom alege opţiunea Descriptive statistics şi mai apoi opţiunea
Frequencies... . În fereastra activată alegem din lista de variabile, numele variabilei pentru care
dorim să calculăm indicatorii dispersiei şi o adăugăm în lista Variable(s):. Accesăm opţiunea
Statistics şi bifăm opţiunile: Std. Deviation, Variance, Range, Minumum, Maximum şi S.E.
mean. Dăm click pe butonul Continue şi mai apoi pe butonul Ok. În fereastra de Output vom
obţine următorul rezultat:
Tabelul de output este similar cu cel obţinut pentru indicatorii ce descriu forma distribuţiei
sau cel al tendinţei centrale.
64
Modul 8. Utilizarea SPSS în statistica inferenţială: estimarea parametrilor
populaţiei.
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
efectueze calculul de estimare a mediei în populaţie utilizând softul SPSS 10.0
interpreteze statistic rezultatele procesării efectuate
salveze fereastra rezultatelor obţinute într-un fişier *.spo
Una dintre aplicaţiile esenţiale ale inferenţei statistice o reprezintă problema estimării
parametrilor populaţiei. Fără a intra în detaliile acestei probleme discutate în cadrul cursului de
Psihologie experimentală/metode de analiză a datelor (vezi suportul de curs Anul I), vom oferi un
exemplu concret de cercetare, câteva date (doar în scop didactic) şi ulterior vom descrie procedura
de calcul a intervalului de încredere prin utilizarea softului SPSS 10.0 și mai departe.
Activitatea fizică reprezintă o problemă esenţială a vieţii cotidiene, lipsa acesteia crescând
riscul apariţiei obezităţii şi a unor afecţiuni cardio-vasculare. Pentru a estima gradul de risc al
elevilor, cercetătorii de la OMS au aplicat unui eşantion de elevi un chestionar în care una din
întrebări se referea la numărul de ore/săptămână petrecute cu exerciţii fizice. Scopul cercetătorilor a
fost de a estima, pe baza datelor eşantionului, media în populaţia ţintă a numărului de ore de
exerciţiu fizic.
Întrebarea care se pune este, câte ore pe săptămână alocă elevii în medie exerciţiilor fizice?
Această medie pe populaţie nu poate fi calculată din moment ce nu avem posibilitatea de a
chestiona întreaga populaţie. Ca urmare am recurs la aplicarea chestionarului doar la un eşantion
extras din populaţia ţintă. Doar în scop didactic, să presupunem că volumul eşantionului este de
n=20. Datele obţinute sunt trecute în formă tabelară mai jos:
Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Ore/săptămână 5 5 2 3 7 5 4 3 6 2 8 4 5 6 4 5 6 2 3 4
Variabila măsurată: numărul de ore/săptămână alocate exerciţiului fizic a fost codată sub
denumirea de oefs. În Editorul de Date vom avea o singură coloană şi datele subiecţilor implicaţi
în studiu vor fi introduse în această coloană. Pentru a calcula intervalul de încredere în care se
situează, cu o anumită probabilitate, media populaţiei vom utiliza programul SPSS 10.0.
În meniul Analyze vom selecta comanda Descriptive Statistics →Explore unde vom trece
în căsuţa Dependent List variabila măsurată în studiu. La opţiunea Statistics vom seta valoarea
65
pragului α, care implicit este setat la 5% (adică la un interval de încredere de 95%) la 1% (adică
vom opta pentru un interval de încredere de 99%). Opţiunea Statistics ne oferă posibilitatea de a
alege prin bifare: calculul indicatorilor statistici şi indicatorilor formei distribuţiei (Descriptives),
estimarea medianei în populaţie (M-estimator), identificare valorilor extreme (Outliers) şi
distribuţia în centile a datelor obţinute (Percentile). În aces caz vom bifa doar opţiunea
Descriptives şi vom trece la pasul următor cu ajutorul butonuli Continue. Opţiunea Plots permite
realizarea unor reprezentări grafice (ex. histogramă), iar la Options putem seta criterii de
management al datelor lipsă. La opţiunea Display vom bifa Statistics pentru a rezuma procesarea
doar la calcul statistic fără a cere efectuarea unor reprezentări grafice. Terminând specificarea
procesărilor se apasă pe butonul OK. Outputul rezultat este prezentat mai jos:
Descriptives
Ceea ce ne interesează este valoarea mediei calculată pentru eşantion (4.45), valoarea erorii
standard (0.37) şi limitele intervalului de încredere, Limita inferioară = 3.38 şi Limita superioară =
5.51. În rest procesarea ne mai oferă o serie de date descriptive: ale tendinţei centrale în eşantion
(media ajustată (trimmed), mediana) ale dispersiei (varianţă, abatere standard, minim, maxim,
amplitudinea intervalului de valori, diferenţa interquartilă) şi indicatori ai formei distribuţiei
(Înclinarea şi Gradul de aplatizare).
În concluzie putem afirma (cu o anumită marjă de eroare asumată) că media numărului de
ore alocată exerciţiului fizic în populaţia elevilor este situată în intervalul 3.38 - 5.51.
În condiţiile în care rezultatele urmează a fi utilizate ulterior (ex. elaborarea ulterioară a unui
raport de cercetare) dar nu se doreşte reluarea paşilor descrişi anterior, fereastra Outputurilor poate
fi salvată în format *.spo urmând comenzile File→Save→... şi specificând denumirea fişierului.
66
Modul 9. Utilizarea SPSS în statistica inferenţială: probleme de
comparaţii inter- şi intra-grup.
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
elaboreze baza de date pentru un experiment inter-grup
elaboreze baza de date pentru un experiment intra-grup
să efectueze calculul coeficienţilor statistici utilizând programul SPSS 10.0
să interpreteze rezultatele analizelor statistice
Mediile calculate pe cele două grupuri sunt m1=4.2 şi m2=4.7. Se pare că subiecţii cărora li
s-a indus o stare emoţională negativă au reactualizat mai multe trăsături negative. Întrebarea este în
ce măsură putem considera că această diferenţă poate fi atribuită intervenţiei sau reprezintă doar un
rezultat al randomizării aleatoare a subiecţilor în cele două grupe? Pentru alte detalii ale
raţionamentului inferenţial vezi suportul de curs An I al disciplinei Psihologie experimentală şi
metode de analiză a datelor.
Fiind vorba de un design de bază cu grupuri independente în baza de date vom defini două
variabile, variabila independentă stare emoţională indusă (cu două modalităţi – neutră, codată cu 1
şi de tristeţe codată cu 2) şi variabila dependentă (numărul de trăsături negative reactualizate). Ca şi
exemplu subiectul 1 în prima coloană a Editorului de Date va avea 1 şi în a două coloană va avea
5; subiectul 16 va avea 2 în prima coloană (fiind din grupul experimental) şi 6 în a doua coloană.
67
Pentru a efectua compararea mediilor vom urma linia de comenzi Analyze→Compare
means→Independet Sample t Test. În câmpul Grouping Variable vom introduce variabila
independentă şi vom defini grupele prin Define Groups, Grupa 1 fiind 2 şi Grupa 2 fiind 1. Codarea
grupelor nu presupune întotdeauna utilizarea cifrelor 1 şi 2, la fel de bine am fi putut coda grupele
cu 1001 şi 48. Ceea ce „întreabă” programul este, care dintre grupe să fie grupa de referinţă, acesta
fiind introdus ulterior (vezi numărătorul formulei de calcul al coeficientului t). În cazul nostru grupa
de referinţă este 1, adică grupul a cărei stare emoţională nu a fost modificată. După definirea
grupelor comparate în câmpul Test Variable vom introduce variabila dependentă şi apăsăm pe
butonul OK. Rezultatele relevante ale procesării apar în tabelul de mai jos:
68
prima situaţie, cea de control, subiecţii citesc un pasaj şi ulterior răspund din memorie la întrebările
formulate. În situaţia experimentală subiecţii citesc un draft al unui text (altul decât cel din pre-test,
dar de acelaşi grad de dificultate) din care însă nu au fost şterse corecturile (există idei, informaţii
care nu sunt relevante din punct de vedere al formei finale a textului). Întrebările formulate şi de
această dată vizează textul, dar nu şi pasajele tăiate. Variabila măsurată în ambele situaţii este
gradul de acurateţe a răspunsurilor. Numărul de răspunsuri corecte înregistrate în celel două situaţii
sunt prezentate în tabelul de mai jos.
Grup Situaţie de control (pre-test) Situaţie experimentală (post-test)
Subiect 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Nr. Răspunsuri 6 3 2 3 4 5 6 3 4 2 6 4 3 6 4 6 7 5 4 4
corecte
În cazul unui design intra-grup baza de date va conţine două variabile, ambele reprezentând
variabila măsurată în cele două contexte ale variabilei independente (situaţia control şi situaţia
experimentală). În baza de date fiecare subiect va avea două valori, una măsurată în situaţia de
control şi una măsurată în situaţia experimentală. De exemplu, subiectul nr. 1 în situaţia de control a
înregistrat 6 răspunsuri corecte şi în situaţia de control tot 6.
Şirul de comenzi care permite calcularea coeficientului t este următorul:
Analyze→Compare means→Paired Sample t Test. În câmpul Paired variables vom introduce
perechea de valori ce urmează a fi comparată. Rezultatul afişat în fereastra outputurilor este cel
prezentat mai jos.
Lower Upper
-
-1.10000 .99443 .31447 -1.81137 -.38863 9 .007
3.498
Mean în acest caz reprezintă media diferenţelor, deoarece demersul inferenţial se bazează
pe diferenţe de scoruri şi media acestor diferenţe (vezi suportul de curs anul I). Pentru aceste
diferenţe se calculează o abatere standard (Std. Deviation) şi o eroare standard (Std. Error Mean),
pe baza formulelor de calcul deja cunoscute. Cunoaşterea valorii erorii standard şi setarea unui grad
de toleranţă (prag alfa) permite calcularea unui interval de încredere a mediei diferenţelor. Dacă
acest interval include valoarea zero atunci diferenţele între pre-test şi post-test nu sunt
69
semnificative. În cazul nostru intervalul nu include valoarea 0, valoarea calculată a testului t este -
3,498 şi valoarea lui p este de 0.007. p calculat este mai mic decât valoarea prag, de 0.05, ceea ce
confirmă încă odată semnificativitatea statistică a diferenţe între cele două situaţii experimentale.
70
Modul 10. Utilizarea SPSS în studiile corelaţionale
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
elaboreze baza de date corespunzătoare studiului corelaţional
calculeze coeficientul de corelaţie potrivit naturii variabilelor măsurate
soluţioneze problemele datelor lipsă
interpreteze rezultatele obţinute
Efectuarea unor studii experimentale nu este soluţia potrivită pentru orice context de
cercetare. În anumite situaţii trebuie să ne limităm la a stabilii relaţii de covarianţă existente între
două sau mai multe variabile măsurate. Reîntorcându-ne la exemplul de la modulul 4, să
presupunem că ceea ce interesează echipa de cercetare este identificarea tulburărilor asociate lipsei
activităţii fizice, concentrându-se mai ales asupra obezităţii. Obezitatea a fost exprimată în numărul
de kilograme deasupra celui prevăzut conform vârstei, genului şi înălţimii. Să presupunem (doar în
scop didactic) că datele obţinute într-un studiu (n=20) sunt cele redate în tabelul de mai jos:
Subiecţi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nr. Ore/Săptămână 5 5 2 3 7 5 4 3 6 2 8 4 5 6 4 5 6 2 3 4
Kg peste normal 4 6 7 6 3 4 5 6 3 7 2 5 4 3 5 4 3 8 4 5
În baza de date vom definii două variabile pentru cele două variabile măsurate (ore de
activitate fizică pe săptămână şi kg peste normal), ambele fiind de tip numeric. Pentru a calcula
gradul de asociere al acestora vom recurge la calculul coeficientului de corelaţie Pearson urmând
şirul de comenzi Analyze→Correlate→Bivariate. În câmpul Variables vom introduce variabilele
ce urmează a fi corelate, în cazul nostru cele două variabile măsurate. În continuare vom bifa
coeficientul de corelaţie ce urmează a fi calculat, în cazul de faţă dat fiind că ambele variabile sunt
numerice vom opta pentru coeficientul Pearson. Semnificaţia coeficientului de corelaţie calculat o
vom verifica printr-un test two-tailed. La Options se poate seta calculul unor componente parţiale
ale coeficientului standardizat de corelaţia Pearson (covarianţa, suma produselor) şi date
descriptive. Tot în această secţiune putem seta strategia de management al datelor lipsă (discuţia
este relevantă doar în cazul a trei sau mai multe variabile).
În urma setărilor se apasă butonul OK şi se obţine outputul prezentat mai jos.
71
Correlations
oefs kpn
oefs Pearson Correlation 1 -.897**
Sig. (2-tailed) .000
N 20 20
kpn Pearson Correlation -.897** 1
Sig. (2-tailed) .000
N 20 20
**. Correlation is significant at the 0.01 level
(2-tailed).
În fereastra Outputurilor este afişată matricea de corelaţie. Din moment ce este o matrice
simetrică, coeficienţii prezentaţi de o parte şi de alta a diagonalei principale sunt identici. Pe linii şi
pe coloane sunt prezentate aceleaşi variabile. Se observă că valoarea corelaţiei între oefs (ore
exerciţiu fizic săptămânal) şi kpn (kilograme peste normal) este de r =-.897. Valoarea calculată a lui
p este mai mică decît 0.01 (în table apare 0.000, ceea ce nu înseamnă că este 0). Probabilitatea ca să
se obţină doar datorită aleatorului o astfel de corelaţie este mică, chiar foarte mică dar nu este zero.
Pentru a evita o astfel de interpretare eronată, de obicei în prezentarea rezultatelor se trece 0.001.
72
Modul 11. Utilizarea SPSS în analiza designurilor factoriale
Obiective operaţionale:
După lectura acestui capitol, studenţii ar trebui să reuşească să:
elaboreze baza de date corespunzătoare unui studiu unifactorial şi bifactorial
calculeze indicatorii statistici ai principalelor efecte vizate în designurile factoriale
sa efectueze comparaţiile post-hoc
interpreteze rezultatele obţinute
În baza de date vom defini două variabile, una pentru variabila independentă (denumită
grup) cu trei valori (1=grup control, 2=grup placebo şi 3=grup experimental) şi o variabilă
(denumită scor) pentru a înregistra scorurile măsurate. Pentru a verifica semnificativitatea statistică
a diferenţelor vom recurge la analiză de varianţă pentru design unifactorial cu eşantioane
independente. Pentru a calcula valoarea testului F vom urma calea Analyze→Compare
means→One-Way Anova. În rubrica Dependent list vom introduce variabila măsurată (denumită
scor) şi în ribrica Factor vom introduce variabila care defineşte grupele variabile independente. La
secţiunea Options vom bifa Descriptives pentru a obţine datele descriptive şi Homogeneity of
variance test pentru a verifica asumpţia omogenităţii varianţelor în populaţie. La opţiunea Post-Hoc
73
vom bifa una din opţiunile de comparaţie post-hoc, de obicei se utilizează Tukey sau Scheffe, în
acest caz vom apela la cel de-al doilea. Rezultatele ferestrei output sunt cele prezentate mai jos.
Descriptives
95% Confidence Interval
for Mean
Std. Std. Lower Upper Minimu Maximu
N Mean Deviation Error Bound Bound m m
1.00 10 13.8000 1.47573 .46667 12.7443 14.8557 12.00 16.00
2.00 10 13.5000 1.43372 .45338 12.4744 14.5256 12.00 16.00
3.00 10 11.4000 1.71270 .54160 10.1748 12.6252 9.00 14.00
Total 30 12.9000 1.84484 .33682 12.2111 13.5889 9.00 16.00
În acest tabel avem datele descriptive ale celor trei eşantioane (N, Mean, Std. Deviation şi
Std. Error), precum şi intervalele de încredere (Lower Bound şi Upper Bound) şi intervalul de
variabilitate a datelor (Minimum şi Maximum). Se observă că există diferenţe între mediile celor
trei eşantioane, cel mai amre scor îl are grupul de control şi cel mai mic aparţine grupului
experimental. Rezultatul oferit de testul de omogenitate al varianţelor este nesemnificativ, p=0.8
(mai mare decât 0.05), ceea ce înseamnă că datele satisfac criteriul omogenităţii varianţei în
populaţie. Pentru a verifica dacă cel puţin una din diferenţele posibile (între grupele 1-2, 1-3, 2-3)
este semnificativă vom citi tabelul umător.
ANOVA
Sum of Mean
Squares df Square F Sig.
Between
34.200 2 17.100 7.158 .003
Groups
Within Groups 64.500 27 2.389
Total 98.700 29
74
statistic. Pentru a verifica, care dintre aceste comparaţii este aceea vom citi tabelul comparaţiilor
post-hoc.
Multiple Comparisons
Mean
Difference 95% Confidence Interval
(I) VAR00001 (J) VAR00001 (I-J) Std. Error Sig. Lower Bound Upper Bound
1.00 2.00 .30000 .69121 .910 -1.4903 2.0903
3.00 2.40000* .69121 .007 .6097 4.1903
2.00 1.00 -.30000 .69121 .910 -2.0903 1.4903
3.00 2.10000* .69121 .019 .3097 3.8903
3.00 1.00 -2.40000* .69121 .007 -4.1903 -.6097
2.00 -2.10000* .69121 .019 -3.8903 -.3097
*. The mean difference is significant at the .05 level.
Tabelul oferit de SPSS este unul redundant, din moment ce ne oferă toate comparaţiile
posibile (ex. Intre grupele 1 şi 2, respectiv între grupele 2 şi 1). În tabel vom urmări Mean
Difference (diferenţele de medii), Std. Error (eroarea standard), Sig. (valoarea calculată a lui p) şi
Confidence interval (intervalul de încredere). Se observă că numai diferenţa dintre grupele 1-3 şi 2-
3 este semnificativă, valoarea calculată a lui p pentru prima comparaţie este 0,007 şi 0.019 pentru a
doua, ambele fiind mai mici decât valoarea prag (0,05). Acest fapt este confirmat şi de intervalul de
încredere afişat, numai în cazul acestor comparaţii intervalul nu include valoarea 0, restul
diferenţelor fiind nesemnificativă.
Datele obţinute susţin eficienţa unui efect al intervenţiei medicamentoase, rezultatele
obţinute de acest diferă semnificativ atât de grupul de control cât şi de grupul placebo. Nu s-a
constatat nici o diferenţă între grupul de control şi grupul placebo, ceea ce indică o absenţă a
efectului placebo în acest studiu.
75
Grup Număr de cuvinte reactualizate
Tineri Femei 1 1 1 1 1 1 1 1 1 1
6 3 2 3 4 5 6 3 4 2
Bărbaţi 1 1 1 1 1 1 1 1 1 1
3 4 6 2 5 3 2 2 3 5
Vârstnici Femei 1 1 1 1 9 1 1 1 1 1
0 2 2 0 4 2 0 1 4
Bărbaţi 9 1 1 1 9 1 1 9 8 1
0 2 0 0 3 0
În baza de date vom defini trei variabile, două pentru variabilele independente ale cercetării.
Prima variabilă denumită vârstă va avea două modalităţi, 1=tineri şi 2=vârstnici, a doua variabilă
sex tot cu două modalităţi 1=femei şi 2=bărbaţi. În a treia variabilă (denumită scor) vom introduce
valorile variabilei măsurate. Datele colectate vor fi analizate prin ANOVA bifactorial 2x2. Pentru a
efectuat această analiză vom urma şirul de comenzi Analyze→General Linear
Model→Univariate ... . În rubrica Dependent list vom introduce variabila dependentă Scor, şi în
rubrica Fixed factors vom introduce variabilele independente ale modelului, Vârstă şi Gen. La
Options ... vom cere afişarea mediilor pentru toate efectele (vârstă, gen şi vârstă*gen). Pentru a
derula procesare vom apăsa OK. Rezultatele obţinute sunt prezentate mai jos. În primul tabel este
reprezentat structura designului utilizat şi efectivul fiecărei căsuţe.
Between-Subjects Factors
N
varsta 1.00 20
2.00 20
sex 1.00 20
2.00 20
Pe aceeaşi structură, tabelul următor afişează datele statistice descriptive (medie şi abatere
standard pentru fiecare căsuţă a designului).
76
Descriptive Statistics
Std.
varsta gen Mean Deviation N
1.00 1.00 13.8000 1.47573 10
2.00 13.5000 1.43372 10
Total 13.6500 1.42441 20
2.00 1.00 11.4000 1.71270 10
2.00 10.0000 1.49071 10
Total 10.7000 1.71985 20
Total 1.00 12.6000 1.98415 20
2.00 11.7500 2.29129 20
Total 12.1750 2.15891 40
Type III
Sum of Mean
Source Squares df Square F Sig.
Corrected
97.275(a) 3 32.425 13.814 .000
Model
Intercept 2526.06
5929.225 1 5929.225 .000
0
varsta 87.025 1 87.025 37.076 .000
gen 7.225 1 7.225 3.078 .088
varsta * gen 3.025 1 3.025 1.289 .264
Error 84.500 36 2.347
Total 6111.000 40
Corrected
181.775 39
Total
77
Primele două linii se referă la abordarea ANOVA din punct de vedere a regresiei (în acest
caz vom face abstracţie de aceste date). În linia Vârstă, Gen şi Varsta*Gen observăm că există un
efect al vârstei (p calculate este de 0.000 < 0.05), efectul genului nu este semnificativ (p calculat
este 0.088 > 0.05) şi nu există efect semnificativ al interacţiunii (p calculat este 0.264 > 0.05).
Tabele descriptive reiau pentru fiecare variabilă informaţiile deja prezentate în tabelul general,
oferind pentru fiecare şi un calcul al intervalului de încredere (vezi exemplul pentru variabila
vârstă).
1. varsta
95% Confidence Interval
Std. Lower Upper
varsta Mean Error Bound Bound
1.00 13.650 .343 12.955 14.345
2.00 10.700 .343 10.005 11.395
Pe baza rezultatelor statistice obţinute putem afirma că în acest studiu există un efect
principal semnificativ statistic al vârstei, însă nu există diferenţă semnificativă de gen şi nici efect al
interacţiunii celor două variabile.
78
Biblografie
79