Documente Academic
Documente Profesional
Documente Cultură
ajutorul unor unelte. O astfel de unealt, foarte util, este pachetul informatic SPSS (Statistical
Package for Social Sciences), ajuns n prezent la versiunea 10.0. Scopul manualului de fa
este de a v oferi un ghid de baz privind utilizarea acestei resurse important n realizarea
prelucrrilor statistice. Pentru alte informaii tehnice putei accesa site-ul oficial al companiei
care produce acest program, la adresa www.spss.com.
Pentru beneficiarii unor versiuni mai vechi ale acestui program, informaiile din ghidul de
fa sunt totui folositoare, chiar dac anumite operaii sau aranjarea output-ului (foaia de
prezentare a rezultatelor) sunt diferite.
Oricare metod vei folosi, programul se va activa, iar pe ecranul dumneavoastr va aprea
un tabel, ca n imaginea de mai jos:
Observai c avei pe ecran un tabel, deci linii si coloane. Este bine s reinei c ntotdeauna
coloanele tabelului reprezint variabilele cercetrii, n timp ce liniile tabelului, numerotate,
reprezint subiecii sau participanii la cercetare. Acest lucru sugereaz felul n care datele
trebuie introduse n tabel.
S analizm acum mai detaliat fereastra, pornind din partea superioar, ctre partea
inferioar. Banda colorat din marginea superioar a ferestrei v informeaz asupra numelui
fiierului si al programului aflat n uz. Urmeaz apoi o band cu meniurile uzuale ale
programului si o bar cu butoane, butoane care nu reprezint altceva dect scurtturi" ale
opiunilor ce pot fi activate si din meniurile uzuale. Vom analiza mai detaliat unele comenzi
din aceste meniuri, pe msur ce avansm cu acest ghid.
Deschiderea propriu-zis a bazei de date se face prin apsarea butonului OPEN din fereastradialog prezentat anterior, n momentul n care baza de date a fost ncrcat, ecranul va apare
astfel:
Acum, variabilele sunt aezate pe rnduri, iar coloanele reprezint diveri parametri,
diverse caliti pe care le au variabilele noastre. De exemplu, variabila G3 este de tip numeric,
are 8 caractere, dintre care dou sunt zecimale, iar ceea ce descrie aceast variabil se refer la
comportamentul nclin capul", .a.m.d.
Nrfia
1
2
3
4
5
6
7
8
9
10
IQ
85
96
98
112
102
101
86
99
105
108
IQ
98
89
88
98
106
104
94
91
93
105
Observai c avem trei variabile si zece perechi de subieci. Variabilele sunt: numrul fisei
(NRFISA) care arat numrul fielor completate de cei doi frai, coeficientul de inteligent al
primului nscut (QI1) si coeficientul de inteligent al celui de-al doilea nscut (QI2).
Ducei cursorul-text la nceputul bazei de date (celula cea mai din stnga-sus a tabelului) si
apoi tiprii de la tastatur l" si apsai ENTER sau butonul cu sgeata n jos. Pe ecran va
aprea imaginea de mai jos:
Definirea variabilelor
Definirea variabilelor se face din perspectiva VARIABLE VIEW. Aici se poate ajunge prin
dou metode:
1.- executnd un dublu-click pe numele variabilei (var000l), cel scris n capul
gri al tabelului
2.- apsnd pe opiunea VARIABLE VIEW din partea stng-jos a
ribctalui;
Oricare metod ar fi folosit rezultatul este acelai i pe ecran va apare imaginea urmtoare:
aici se definesc variabilele
Ajuni n acest punct, trebuie s definim anumii parametri ai variabilei, n cazul nostru, vom
defini doar numele variabilei (aa cum este el recunoscut de programul SPSS) i eticheta
variabilei (LABEL), care este de fapt o descriere mai detaliat a acesteia, folositoare mai ales
cnd avem nevoie s ne reamintim ce anume msoar respectiva variabil. Astfel, vom alege
numele NRFISA, iar n dreptul etichetei vom scrie numrul fiei" cci asta msoar sau
descrie variabila aleas de noi.
Dup ce am stabilit parametrii dorii (n alte capitole vom vorbi si despre ali parametri, nu
numai despre nume si etichet), vom reveni din nou la perspectiva DATA VIEW, ca s
introducem si celelalte date, la celelalte dou variabile, urmnd aceeai procedur, n acest
moment, pe ecran vei avea urmtoarea imagine, cu datele introduse la prima variabil si
coloana acesteia definit ca atare.
Continuai s introducei datele si s definii n mod adecvat cele dou variabile, att ca nume,
ct si ca etichet.
9
Salvarea fiierelor
Salvarea fiierelor are un dublu scop. Pe de o parte salvm datele pe discul dur al
computerului (hard-disk) pentru a le conserva n memoria de lung durat, permanent a
computerului n vederea folosirii lor ulterioare, pe de alt parte salvm datele pentru a nu le
pierde n eventualitatea apariiei unei pene de curent sau a unei ntreruperi inoportune a
computerului.
Salvarea datelor se face ca pentru orice fiier, fie acionnd butonul SAVE (al doilea din bara
de butoane, cel care seamn cu o dischet), fie din meniul FILE-SAVE, precum n imaginea
de mai jos:
Oricare ar fi metoda, atunci cnd se activeaz pentru prima dat comanda SAVE, se deschide o
fereastr-dialog, precum cea urmtoare:
10
Aici alegem directorul n care dorim s salvm fiierul nostru (folosind cmpul SAVE IN
din partea superioar a ferestrei) si denumim fiierul (n cazul nostru cu numele FRAI) n
cmpul FILE NAME din partea inferioar a ferestrei. Apsam apoi butonul SAVE al
ferestrei i operaiunea a luat sfrit.
Ouput-ul
Pn acum am analizat pe scurt dou din perspectivele programului SPSS: DATA VIEW i
VARIABLE VIEW. Trebuie ns s tii c mai exist o perspectiv, o fereastr de fapt, unde
programul v prezint rezultatele analizei statistice. Aceast perspectiv sau fereastr,
denumit OUTPUT, apare numai ca urmare a folosirii meniului ANALYZE (unde se
analizeaz datele) sau GRAPHS (unde se realizeaz ilustraiile grafice).
Pentru a ilustra modul n care apare aceast perspectiv, vom alege din meniul ANALYZE
opiunea DESCRIPTIVE STATISTICS i comanda DESCRIPTIVES ca n imaginea de
mai jos, fr a intra n detalii privind situaiile n care se folosete aceast comand (detalii ce
vor fi prezentate ulterior):
4
1
2
3
5
fereastra-dialog DESCRIPTIVES
Observai acum c sgeata dintre cmpuri i-a schimbat sensul; ea va avea mereu sensul n
funcie de cmpul n care a fost selectat variabila. Mai observai de asemenea c i butonul
12
OK,care nainte nu era activat a devenit activ. Nu vom folosi acum butoanele sau cmpurile
cu opiunile suplimentare pentru analiz, ci vom apsa direct butonul OK pentru a observa
cum se activeaz fereastra sau perspectiva OUTPUT a programului.
Mai nti, observai c aceast nou perspectiv v deschide cu adevrat o nou fereastr, n
sensul c apare n mod distinct n bara de sarcini din partea inferioar a ecranului. Revenirea
la meniul cu date se face fie prin comanda ALT+TAB (apsnd simultan, scurt, aceste
butoane) sau apsnd cu mouse-ul pe numele ferestrei din bara de sarcini.
Observai c aceast nou fereastr e organizat n dou cmpuri:
cmpul (1) - indic structura sau cuprinsul OUTPUT-ului,
cmpul (2) - arat coninutul acestuia.
Este ca si cum am avea n partea stng un catalog ce indic volumele aflate ntr-o
bibliotec, iar n partea dreapt am avea coninutul acelor volume.
Nu insistm acum asupra coninutului acestei analize, acesta fiind obiectul capitolelor
viitoare.
Exerciiu:
Realizai o analiz similar si pentru variabila QI2
13
Exist cteva motive pentru care este necesar studierea statisticii n psihologie si n tiinele
sociale n general. Mai nti, nelegerea metodelor statistice este crucial pentru nelegerea si
citirea corect a articolelor de specialitate. Cel ce nu cunoate metodele statistice nu va putea
s citeasc aceste materiale dect superficial i nu va fi capabil s neleag tabelele, graficele
i corectitudinea concluziilor deduse din cercetare. Al doilea motiv pentru care e necesar
studierea statisticii este acela c, fr a avea deprinderile necesare n mnuirea metodelor
statistice, nu se poate face cercetare experimental, n fine, nelegerea metodelor statistice
ajut la dezvoltarea gndirii analitice i critice.
Generaliti
Ce este ns statistica? Ea este un instrument care a evoluat din pornind de la procesele de
baz ale gndirii: atunci cnd observm un fapt ne ntrebm ce anume 1-a determinat, care a
fost cauza. Astfel, avem o anume intuiie asupra a ceea ce a provocat acel fapt, facem o
presupunere i n continuare ncercm s ne testm ipoteza printr-o alt observaie, uneori
ncercnd s facem unele mici modificri pentru a ne testa intuiia. Ceea ce ne intereseaz este
dac noua noastr observaie este exact, dac ceea ce observm din nou este un fapt regulat
i nu unul cauzat de ntmplare i dac avem dreptate n ceea ce privete intuiia noastr. n
acelai mod, statistica este o metod de a testa sau stabili adevrul. Desigur nu este vorba de
adevrul absolut, ci de stabilirea probabilitii ca observaia efectuat s aib cauze precise i
s nu fie provocat doar de ntmplare.
S considerm un exemplu hazliu, care ilustreaz ns foarte bine care este rolul metodelor
statistice. Imaginati-va c fierbem o oal de fasole. Dup un timp, dup ce am pus fasolele pe
foc, trebuie s verificm dac acestea au fiert. Ce facem? Lum ntr-o lingur cteva boabe
i le gustm. Dac acestea sunt fierte, decidem c i restul fasolelor sunt fierte. Este acest
raionament corect? De unde tim c nu am luat din ntmplare tocmai pe cele mai fierte
dintre boabe? Ei bine, metodele statistice fac tocmai acest lucru. Ele ne pot spune, cu
oarecare precizie, pornind de la aceste cteva boabe de fasole, dac i celelalte din toat oala
sunt fierte. Cu alte cuvinte, statistica ne ajut s facem generalizri ale unor efecte la nivelul
unor populaii largi, pornind de la rezultatele obinute pe eantioane sau grupuri mici de
oameni.
Spre exemplu, notele care se pot lua la scoal, zilele sptmnii, vrsta etc. sunt toate
variabile. O variabil este descris de valori. Spre exemplu, pentru variabila "nota colar"
valorile acesteia sunt toate notele de la l la 10 pe care le poate cineva lua la scoal. Pentru
variabila "zilele sptmnii" valorile sunt toate cele 7 zile ale sptmnii, n psihologie se face
distincia ntre valori si scoruri. Un scor este valoarea obinut de o persoan, fenomen, obiect,
proces situaie atunci cnd ne referim la o anume variabil. Spre exemplu, nota pe care o ia
George la scoal (s zicem 7) este un scor al acestui subiect la variabila "nota colar". Cu
toate acestea, valorile variabilei menionate sunt n numr de zece: l, 2, 3, 4, 5, 6, 7, 8, 9 i 10.
Dar un subiect nu poate avea dect una din aceste valori, iar aceea este numit scor.
De obicei, rezultatele unui experiment psihologic sunt date de un grup de scoruri.
Un procedeu prin care se poate analiza acest grup de scoruri este acela de a folosi dubele de
frecven. Un tabel de frecven arat ci subieci obin sau au o anume valoare la o variabil.
Spre exemplu, un tabel de frecven fcut pentru variabila "nota scolar" arat ci elevi dintrun grup au obinut o not anume, ca n tabelul de mai jos:
NOTA SCOLARA
10
9
8
7
6
5
4
3
2
1
FRECVEN
15
26
31
13
18
16
12
3
1
2
16
17
18
19
Observai c aceste cuburi sunt aezate similar cu segmentele din histogram, n aceleai
poziii. Acum urmeaz ntrebarea: unde anume trebuie s aezm un butean astfel nct
scndura i cuburile de pe ea s rmn n echilibru? Rspunsul este n dreptul mediei.
Pornind de la aceast constatare ajungem i la semnificaia acestei msurtori statistice:
media este punctul fat de care scorurile sunt egal deprtate, cu alte cuvinte, abaterile de la
medie ntr-o direcie (ex. ale scorurilor mai mici ca ea) sunt egale cu abaterile n cealalt
direcie (ex. scorurile mai mari).
O alt metod de a descrie tendina central a unui grup de scoruri este mediana. i ea
mparte distribuia n dou pri, dar de data aceasta din punctul de vedere al frecventelor.
Astfel, jumtate dintre scorurile dintr-o distribuie vor avea valori mai mici dect mediana, iar
restul - valori mai mari.
Pentru a calcula mediana sunt necesare dou etape:
1) ordonm scorurile cresctor sau descresctor
2) mprim numrul de scoruri (N) la 2.
Dac N este par, atunci "mijlocul" distribuiei "cade" ntre scorurile situate la mijloc; dac N
este impar, atunci mediana este chiar scorul situat la mijloc.
S urmm aceti pai pentru scorurile prezentate mai sus, care reprezint prerea studenilor
fat de statistic.
Pasul 1: ordonarea scorurilor.
Pornind de la distribuia:
4,6,2,2,1,2,3,2,4,4
prin ordonare ajungem la distribuia
1,2,2,2,2,3,4,4,4,6
Fiind 10 scoruri (deci numr de subieci par, iar jumtatea lui 10 fiind 5), mediana se va gsi
ntre scorurile din mijloc, deci ntre scorurile al 5-lea si al 6-lea. Sgeata de mai jos arat
poziia medianei, care este astfel 2,5 (media dintre aceste scoruri din mijloc).
20
1,2,2,2,2,3,4,4,4,6
Uneori, dei mai rar, obinuim s descriem o distribuie prin modul. Acesta este valoarea
cu frecvena cea mai mare.
n exemplul de mai sus, valoarea 2 este ntlnit cel mai frecvent (apare de 4 ori), deci
modulul distribuiei noastre va fi 2.
Cnd folosim totui una din aceste metode pentru a descrie tendina central a unei
distribuii? Care dintre ele este mai "bun" i n ce condiii? Pentru a rspunde la aceast
ntrebare s analizm ce factori influeneaz pe fiecare din ele.
Dac la exemplul de mai sus mai adugm nc un scor (s zicem un 5), observai ce se
modific:
Media va fi 3,18;
Mediana va fi 3;
Modulul va fi tot 2.
Dac lum din distribuie un scor, un 4 spre exemplu, schimbrile vor fi:
Media va fi 2,88;
Mediana va fi 2;
Modulul va fi tot 2.
Dac adugm 2 scoruri, un 2 i un 5, spre exemplu, vom avea urmtoarele
Media va f 3,08;
Mediana va fi 2,5;
Modulul va fi tot 2.
Din cele de mai sus, constatm c modulul este una dintre mrimile ce sunt cel mai mult
afectate de schimbri n structura distribuiei (numr de scoruri sau mrimea acestora ).
Mediana este i ea destul de stabil, ns media este cea mai "sensibil" dintre toate aceste
mrimi. Concluzia este aceea c media este cea mai descriptiv (ntruct arat orice
modificare survenit n distribuie), dar este recomandat s se foloseasc mai mult n
distribuiile simetrice i unimodale, n timp ce mediana i modulul, mai stabile sunt
recomandabile n descrierea distribuiilor asimetrice i multimodale. Un exemplu concret ar fi
de folos:
Exemplu
Pe o plantaie de cafea lucreaz 99 oameni care ctig 100 dolari lunar (deci ntr-o lun
ei ctig 9.900 dolari). Patronul plantaiei are un venit lunar de 2.100 dolari, n total,
cele 100 persoane (patronul i angajaii) de pe plantaie ctig 12.000 dolari lunar, deci
n medie 120 dolari/lun/persoan. Cu toate acestea, dac ne deplasm pe plantaie, n
99% de cazuri vom ntlni persoane care ctig sub valoarea medie, abia n 1% din
cazuri gsind pe cineva cu venituri peste medie (patronul). Dac ns calculm mediana
(ordonnd cei 99 de 100 i valoarea de 2100 - venitul patronului) vom vedea c valoarea
ei este exact 100 (mijlocul distribuiei va "cdea" exact ntre dou scoruri de 100), la fel
i modulul. Deci aceste dou din urm msurtori sunt mult mai aproape de realitate n
cazul unei distribuii anormale, asimetrice.
Cu toate aceste diferene ntre cele trei metode de stabilire a tendinelor centrale a unei
21
distribuii, media aritmetic rmne metoda cel mai des utilizat i ea intr n componena
multora dintre metodele statistice cunoscute. Exist ns cazuri (ex. testele neparametrice),
unde mediana i modulul sunt metodele folosite.
Analiza variabilitii
Cunoaterea mediei (sau a medianei) nu ne este uneori de folos n a descrie complet o
distribuie.
S presupunem c tim despre un grup de persoane c are media de vrst de 20 ani. Ce
nseamn acest lucru? Au toi membrii grupului exact 20 de ani fiecare? Sau poate jumtate
dintre ei au 10 ani i jumtate 30? Ori poate un sfert au 18, un sfert - 19, un sfert 21 i restul
22? Fiecare din aceste situaii ne arat lucruri diferite, nu-i aa?
Dup cum observai, cunoaterea doar a mediei nu este suficient pentru a ne oferi
informaii complete despre "realitatea" din grup; avem nevoie s cunoatem i gradul de
variabilitate din scorurile noastre. Mai precis, avem nevoie s tim ct de mult (i eventual cu
ct) se mprtie scorurile n jurul valorii medii, a tendinei centrale.
Un exemplu din viaa cotidian care s v arate c avem nevoie de cunoaterea variabilitii,
n general, este acela al pungilor de cafea (sau orice alt produs alimentar livrat ntr-un
ambalaj). O privire atent pe pung ne arat gramajul coninutului sub forma greutate net
l00g 5 g. Ce nseamn aceast indicaie? Faptul c pungile de cafea, dei ambalate de o
mainrie, nu sunt toate de greutate egal i c majoritatea pungilor au greutatea coninutului
cuprins ntre 95 i 105 grame. Suntem sau nu mai bine informai?
Varianta
Varianta unei distribuii arat ct de "mprtiate" sunt scorurile n jurul valorii centrale,
care este gradul de variabilitate n grupul nostru de rezultate.
S vedem etapele calculrii variantei. Vom utiliza ca exemplu nite date culese de la o
companie care are 10 departamente. Scorurile prezentate mai jos arat cte persoane lucreaz
n fiecare departament n parte:
2, 8, 12, 10, 20, 3, 7, 14, 6, 18
S vedem care sunt etapele de calcul ale variantei.
calcularea mediei
In primul rnd avem nevoie de cunoaterea mediei. Ea se obine pe calea obinuit,
mprind suma scorurilor la numrul lor. n cazul nostru, media este m=10.
calculul abaterilor simple de la medie
Prima dat cnd s-au gndit s calculeze varianta, matematicienii au pornit de la calculul
abaterilor simple de la medie. Pentru aceasta ei au realizat un tabel, diferit de cel al
frecvenelor, n sensul c folosea scorurile i nu valorile variabilei.
22
X
2
3
6
7
8
10
12
14
18
20
x-m
-8
-7
-4
-3
-2
0
+2
+4
+8
+10
Iniial matematicienii au dorit s lucreze cu aceste abateri simple de la medie, dar dup
cum observai unele sunt pozitive, altele sunt negative, astfel c adunate, ele se anuleaz una
pe alta (aceasta este de altfel si proprietatea mediei, nu?).
Atunci o soluie a fost s ridicm la ptrat aceste abateri simple de la medie, pentru a
obine prin adunare un numr pozitiv.
calculul ptratului abaterilor de la medie
Continund tabelul mai adugm nc o coloan unde vom calcula ptratul abaterilor de la
medie.
x
2
3
6
7
8
10
12
14
18
20
x-m
-8
-7
-4
-3
-2
0
+2
+4
+8
+10
(x-m)
64
49
16
9
4
0
4
16
64
100
Adunnd aceste ptrate obinem o valoare pozitiv (notat cu SS, din englezescul sum of
squares - suma ptratelor, ntlnit uneori n crile romneti de statistic sub prescurtarea
SP, suma ptratelor), n cazul nostru,
SS = 326.
Ce se ntmpl ns cu SS? Poate fi el folosit ca o msur a variabilitii? nc nu, pentru
c el depinde de numrul de scoruri.
Observai c dac mai adugm un scor la cele existente se schimb media, iar acest nou
23
scor va abate probabil de la noua medie cu o oarecare cantitate, ce, ridicat la ptrat, face ca
SS s creasc.
Similar, dac eliminm un scor, SS scade. Pentru a obine o valoare care s nu depind de
numrul de scoruri, vom mpri pe acesta la N, tocmai la numrul de scoruri.
divizarea la numrul de scoruri sau cazuri pentru ca SS s nu depind de N
Aceast valoare nou, obinut prin mprirea lui SS la N este tocmai varianta, notat SD.
Deci,
SD =
SS
(2)
N
Deviaia standard
Deviaia standard ne este mult mai util. Ea arat cu ct se mprtie scorurile n jurul
valorii centrale i - fapt poate mai important - se msoar n aceleai uniti de msur ca
i variabile iniial, X. Ea este pur i simplu rdcina ptrat a variantei, deci
SD= DT 2 (3)
n exemplul nostru valoarea lui SD este 5,70.
Semnificaia deviaiei standard
Acum, avnd la dispoziie i media i deviaia standard putem descrie mult mai bine
distribuia scorurilor din exemplul nostru. Cunoatem astfel c numrul de persoane ce
lucreaz la departamentele firmei sus-pomenite este de 10 5,7. Cu alte cuvinte tim c
limita minim a variaiei normale a scorurilor este 4,3 (obinut din 10-5,7), iar limita
maxim este 15,7 (obinut din 10+5,7). Aproximnd la numere ntregi, dei pierdem cte
ceva din vedere n acest fel, putem afirma c la firma respectiv lucreaz ntre 5 i 15
persoane n fiecare departament. Dac valoarea mediei descria doar un singur departament
din totalul de 10, observm c acest interval obinut de m SD descrie 6 departamente
(deci 60% din totalul populaiei).
Acesta este un aspect important al deviaiei standard, n mod obinuit, n intervalul
24
cuprins de o parte i alta a mediei de deviaia standard gsim aproximativ 2/3 din totalul
scorurilor, deci n acest interval vom avea scorurile considerate tipice sau normale pentru
acea distribuie. Imaginea de mai jos este mai sugestiv.
Din aceast cauz numim aceast deviaie "standard", pentru c orice am msura, oricare
ar fi forma distribuiei, gsim mereu aproximativ 2/3 din scoruri n acest interval.
Deviaia standard joac un rol foarte important n calcularea notelor z, denumite si note
standard. Prezentarea notelor z se va face ns n capitolul urmtor.
25
Baza de date prezint rezultatele unei anchete realizat n Statele Unite n anii '90 si
reprezint datele referitoare la angajaii unor bnci.
S ne alegem pentru prelucrare variabila salbe gin. Reamintim c numele variabilelor sunt
scrise n capul de tabel, de culoare gri. Ce reprezint aceast variabil? Nu putem ti n mod
direct. Pentru a afla acest lucru, trebuie s procedm ca si cum am dori s definim variabila.
De aceea, facem dublu-click n capul coloanei , acolo unde scrie numele variabilei. Va
aprea astfel perspectiva VARIABLE VIEW (ca n imaginea de mai jos):
Pentru a vedea ce reprezint salbegin ne uitm n cmpul LABEL, unde citim "beggining
salary", ceea ce nseamn "salariul iniial sau de nceput". Vom lucra astfel cu date ce arat
salariul iniial al subiecilor analizai.
S calculm unii parametrii ai distribuiei. Vom folosi pentru aceasta comanda
ANALYZE-SUMMARIZE-FREQUENCIES care deschide fereastra FREQUENCIES
de unde ne vom putea alege opiunile: calculul mediei, medianei, modulului, precum si al
deviaiei standard.
O dat aleas aceast opiune, pe ecran va aprea fereastra de mai jos care v permite
alegerea variabilelor de analizat, precum i opiunile de analiz:
26
Aici selectm variabila dorit ( ca n imagine ) i acionnd sgeata dintre cmpuri, vom
transfera variabila aleas n cmpul cu variabile de analiz. Pentru mai multe detalii revedei
ultima parte a capitolului precedent.
3
8
1
28
Observai c si aici avem dou cmpuri. Unul permite alegerea tipului de grafic (cu bare,
plcinte sau histograme), iar al doilea permite alegerea tipului de valori din grafic (frecvene
sau procentaje). V recomandm s nu alegei acum nici o opiune si s realizai graficele
separat, ntruct astfel vom avea o libertate mai mare n realizarea lor. Apsai CANCEL si
activai fereastra FORMAT prin apsarea pe butonul cu acelai nume, care deschide
fereastra:
i aici avem dou cmpuri: unul pentru opiuni privind aranjarea rezultatelor n ordine
cresctoare sau descresctoare, etc.) si altul privind compararea variabilelor sau organizarea
separat a foii de rezultate, n funcie de variabile.
29
Fereastra de mai sus ilustreaz modul n care se prezint foia de rezultate (OUTPUT), dup
ce ai revenit n fereastra principal DESCRIPTIVES si ai apsat butonul OK.
Observai organizarea ei: n partea superioar se afl o bar de butoane; n stnga este un
cmp care v arat structura OUTPUT-ului, iar n cmpul din partea dreapt - coninutul
OUPTUT-ului.
Dup titlul foii de rezultate (FREQUENCIES), observai c sunt prezentate dou tabele:
primul arat parametrii statistici pe care i-am cerut prin activarea ferestrei STATISTICS, iar
a doua fereastr prezint tabelul frecvenelor.
Observai c numrul din primul tabel, din dreptul meniunii VARIANCE (care arat
varianta rezultatelor) nu este prezentat normal, ci prescurtat, din cauza limii prea mici a
coloanei. Pentru a modifica orice dimensiune a tabelului, ca de altfel a oricrei forme de
prezentare a rezultatelor, executai un click-dublu asupra zonei dorite, n acel moment, un
cadru special sau chiar o fereastr nou va ncadra zona aleas si cu ajutorul mouse-ului
putei modifica dimensiunile (similar cu modificarea tabelelor n WORD sau EXCEL).
Tabelul urmtor prezint tabelul frecvenelor realizat pentru variabila aleas. El are cinci
coloane:
prima prezint rezultatele valide (adic nu si cazurile lips),
a doua coloan arat frecvena propriu-zis (ex. 4 persoane au un venit iniial de
$9000),
a treia coloan arat ce procentaj au aceste persoane raportat la numrul total al
subiecilor,
a patra coloan - procentajul raportat la numrul total al scorurilor valide (fr
cazuri lips adic),
a cincea coloan arat procentajul cumulat de cel mai mic scor pn la cel
prezent.
30
tabelul frecvenelor
Ea este similar cu cea de la FREQUENCIES, doar c are mai puine butoane cu opiuni
(unul n loc de trei). Alegei variabila pentru analiz (BEGINNING SALARY) si
transferai-o n cmpul pentru analiz, folosind sgeata dintre cmpuri. Opiunea din partea
stng-jos v permite salvarea n baza de date a unei noi variabile care va conine note z ale
variabilei analizate. Apsai apoi butonul OPTIONS care va deschide fereastra urmtoare:
31
Aici observai c gsim mai puine opiuni de analiz statistic dect n cazul meniului
anterior, sunt doar cele de baz; de aici si concluzia: comanda DESCRIPTIVES se aplic
atunci cnd avem de analizat din punct de vedere descriptiv, simultan, mai multe variabile
sau cnd ne intereseaz doar parametrii de baz ai variabilelor, fr tabelele de frecvene.
Apsam CONTINUE si apoi butonul OK pentru a face s v apar pe ecran OUTPUT-ul:
De aceast dat apare doar un singur tabel care v prezint parametrii statistici solicitai.
Observai c, din nou, varianta i deviaia standard nu sunt prezentate complet datorit
limii mici a coloanelor.
Executai click-dublu asupra tabelului i modificai-i dimensiunile, la fel ca n WORD.
32
fereastra histogramelor
n cadrul acestei ferestre alegem o singur variabil pentru care dorim s facem
reprezentarea grafic sub forma histogramei, n cazul nostru SALBEGIN (beginning salary)
si o introducem - cu ajutorul butonului cu sgeat - n cmpul denumit VARIABLE. Putem
bifa opiunea DISPLAY NORMAL CURVE, opiune care va afia curba normal a
populaiei de eantioane din care provine eantionul nostru, n cazul nostru nu vom bifa
aceast opiune. Pentru a obine graficul, dup aceste operaii apsam butonul OK.
33
O histogram, aa cum se vede si n imaginea de mai sus, este un grafic n care barele sunt
lipite una de alta. n ceea ce privete variabila prezentat grafic mai sus, constatm c ea are
o distribuie asimetric, valorile mici predominnd ca frecven. Aceast distribuie este
tipic pentru reprezentarea grafic a venitului n rndul oricrei populaii. Explicaia const
n aceea c n orice populaie exist civa indivizi care ctig mult, n timp ce majoritatea
ctig la un nivel mediu sau sczut, comparativ cu aceti indivizi. Observm n exemplul de
mai sus c n timp ce marea majoritate ctig pn la 20.000 dolari anual, exist cteva
persoane (barele de frecven din partea dreapt abia se zresc pe grafic) care ctig i pn
la 80.000 dolari anual.
Este posibil s dorim s modificm diferite aspecte ale graficului realizat de SPSS. Pentru
aceasta trebuie s efectum un dublu-click pe grafic si vom observa c se deschide o alt
fereastr numit CHART EDITOR, care are n partea de sus o bar cu meniuri si o alta cu
butoane ce folosesc la modificarea diferiilor parametrii ai graficului (ex. culoarea barelor,
haura lor, adugarea sau modificarea titlului, etc.), ca n imaginea de mai jos.
34
3
1
4
2
35
ntr-un mod similar putem modifica parametrii legai de axa vertical, efectund un dubluclick pe aceasta, aciune care va deschide fereastra de mai jos.
Aici putem modifica intervalul de msur, titlul axei si putem cere trasarea unor linii
orizontale la diferite niveluri.
36
Imediat, apare fereastra de mai jos, de unde trebuie selectat tipul de grafic cu bare ce dorim
s-l realizm.
37
Observai c aceast fereastr este mprit n mai multe zone (cmpuri) pe care le vom
descrie sumar mai jos:
(1) - este cmpul n care se gsesc variabilele existente n baza de date si
de unde alegem pe acelea care trebuie reprezentate grafic;
(2)- acest cmp precizeaz ce anume dorim s reprezinte variabilele noastre (ex. numrul
cazurilor, procentaje, etc.). n exemplul nostru, dorim s reprezentm media ctigului
salarial pe sexe. Deoarece media nu se gsete n opiuni, vom alege OTHER SUMMARY
38
(4) n acest cmp vom introduce variabila independent n funcie de care facem
reprezentarea grafic, n cazul nostru sexul subiecilor (GENDER).
(5) - este o opiune ce permite ca setrile (aranjamentele) pe care le-am folosit ntr-un grafic
executat anterior s fie aplicate si n cazul graficului de fa. Dac bifai aceast opiune
trebuie apoi s folosii butonul FILE pentru a selecta fiierul de unde dorii s
mprumutai" setrile.
(6) - folosind aceste butoane putei aduga un titlu graficului (butonul TITLE) sau s
activai alte opiuni (OPTIONS). De altfel, acest din urm buton, care deschide fereastra
prezentat n continuare, este important pentru a dezactiva opiunea DISPLAY
GROUPS DEFINED BY MISSING VALUES, care realizeaz graficul si pentru subiecii
care nu prezint valori ale variabilei independente (n cazul nostru pentru subiecii la care am
uitat s completm n baza de date care este sexul lor).
39
grafic cu bare
Atenie mare la graficele realizate! Prin construcia lui, programul SPSS alege diferite
intervale de reprezentare si - ca urmare - putei fi indui n eroare n ceea ce privete
magnitudinea diferenelor.
Spre exemplu, dac nu am fi ateni la intervalul de reprezentare (de la 12.000 USD/an la
22.000 USD/an), am putea crede c femeile ctig de vreo 5 ori mai puin dect brbaii
(ceea ce este fals, desigur), cnd n realitate, brbaii ctig de doar l ,5 ori mai mult.
Pentru a remedia o astfel de distorsiune grafic, putem modifica intervalul de reprezentare.
Facei dublu-click pe grafic, apoi pe axa vertical a graficului i n fereastra ce apare,
modificai limitele minime i maxime. O astfel de fereastr, numita SCALE AXIS este
prezentat n capitolul HISTOGRAME.
3.- Grafice cu linii.
Pentru graficele cu linii nu trebuie s intrm n detalii, ntruct realizarea lor este extrem de
similar cu cea a graficelor cu bare.
Odat selectat opiunea din meniul GRAPHS, apare fereastra:
40
Urmai aceeai pai ca i n cazul graficul cu bare i vei obine n final o reprezentare
precum cea de mai jos. Atenie, nu uitai s dezactivai opiunea DISPLAY GROUPS
DEFINED B Y MISSING VALUES de la butonul OPTIONS!
Vom alege prima dintre opiuni, ca i n cazurile anterioare. ntruct prezentm pri dintrun ntreg nu putem folosi media ca n graficele anterioare, ci vom folosi suma, aa cum e
reprezentat n pagina de mai jos:
41
Alegerea opiunii pentru folosirea sumei se face din butonul CHANGE SUMMARY.
Iat cum arat un grafic plcint:
42
ntruct ceea ce este reprezentat grafic este dinainte presetat cu acest tip de grafice, nu
mai avem aa multe opiuni n aceast fereastr. Alegem variabilele ca n imaginea de mai
sus si apsam OK.
Graficul rezultat arat astfel:
5
4
1
3
43
Exerciii:
44
British Club
Francis GaJton este considerat a fi inventatorul corelaiei statistice, dei
Karl Pearson i ali matematicieni au conceput de fapt formulele de calcul. Galton era
vr cu Charles Darwin, coleg cu Pearson i profesor al lui Gosset (inventatorul testului
t), n secolul XIX, dup cum observai, statistica era apanajul unui mic "club" britanic
organizat informai n rndul unor studeni de la Cambridge. Mai mult chiar, la vremea
respectiv, muli savani din alte tiine fceau parte din acest "club britanic".
Unul din membrii "clubului", Galton, era un gentleman bogat, independent i deosebit
de excentric. Dincolo de contribuia sa n statistic, el avea studii medicale, participase
la explorri n Africa, a inventat ochelarii pentru citit subacvatic, a fcut descoperiri n
meteorologie i antropologie, ba chiar a scris un articol despre captarea semnalelor
inteligente de pe alte planete.
Dincolo ns de toate acestea, Galton a fost un "numrtor" nfocat. El numra aproape
orice; de exemplu, el a numrat odat de cte ori casc audiena la o conferin, n
funcie de plictiseala indus de vorbitor. Alt dat, n timp ce un pictor i fcea
portretul, a numrat de cte ori trage acesta cu pensonul pe pnz (el a constatat c un
pictor d cu pensula cam de 20.000 ori n timp ce face un portret). Ajunsese chiar s-i
construiasc un mic dispozitiv de numrat, pe categorii. Pe acesta din urm 1-a folosit
n timp "ce cltorea n coloniile britanice din Pacific, nregistrnd frumuseea
localnicelor de acolo ca fiind "atrgtoare", "medie" i "neatrgtoare".
Dar corelaia s-a nscut din preocuparea lui Galton de a numra criminalii, geniile i
alte tipuri extreme umane n diverse familii. Adept al eugeniei (naterea sau creterea
controlat a oamenilor) Galton dorea s vad n ce msur caracteristicile genetice se
transmit de la prini la copii. Astfel el a descoperit o metod de a msura faptul c "un
lucru merge mpreun cu alt lucru" - de fapt corelaia, ns n acele vremuri, stabilirea
legturii dintre dou variabile era echivalent cu stabilirea unei legturi cauzale. Astfel,
Galton trgea concluzia c din moment ce putem arta matematic c oamenii cei mai
detepi provin din cteva
familii nstrite, de vi nobil, iar majoritatea celor puin
inteligeni - din familii
srace, inteligena este cauzat de anumite gene.
Era el oare ndreptit s afirme astea ? Voi din ce fel de familii v tragei?
45
Caz:
Gic este psihoterapeut. El este specializat n tratarea depresiei. La
o bere, el i povestete unui coleg c ultimul su pacient s-a vindecat
n 5 edine de terapie. "Avea depresie grav sau uoar?" ntreab
colegul. Gic d s rspund, dar i d seama c pentru a fi sigur
de rspuns ar avea nevoie de statistic. Scoate un carneel n care
avea notai ultimii si pacieni i constat c ei s-au vindecat n
medie n 8 edine. E suficient media pentru a stabili c pacientul
care s-a vindecat n 5 edine avea o depresie uoar?
Din moment ce deviaia standard i media ne spun care sunt scorurile tipice sau medii,
putem s stabilim dac un nou scor se abate de la distribuia noastr ntr-un sens mai mic
dect limita minim de variaie (m-SD) sau n altul mai mare dect limita maxim (m+SD).
n cazul lui Gic, cunoaterea mediei nu e suficient pentru a stabili c 5 edine sunt
anormal de puine pentru pacienii si, deci c acest ultim pacient avea o depresie uoar.
Pentru a stabili acest fapt avem nevoie i de deviaia standard.
Calculai singuri media i deviaia standard cunoscnd c distribuia scorurilor pentru
ultimii 10 pacieni ai lui Gic este cea de mai jos:
4, 12, 8, 8, 8, 9, 9, 6, 12, 4
Calculele arat c media este 8, iar deviaia standard este 2,64. Refcnd schema, vedem
c scorurile tipice sunt cuprinse n intervalul 5,32 i 10,64.
46
Rotunjind valorile la numere ntregi, aceasta nseamn c n mod obinuit, pacienii lui
Gic au nevoie de 6-10 edine pentru a se trata de depresie. Din moment ce intervalul 6-10
este considerat tipic, atunci ceea ce este n afara acestuia vor fi scoruri considerate atipice.
Astfel, cei care se trateaz de depresie n mai puin de 6 edine vor fi pacienii cu depresie
uoar, iar cei care se vindec n mai mult de 10 edine pot fi considerai ca avnd o
depresie grav. Acum, avem i rspunsul la cazul nostru: pacientul care s-a vindecat n 5
edine a avut ntr-adevr o depresie uoar. Dar dac el s-ar fi vindecat n 6 sau chiar 7
edine, el era cu depresie normal, ntruct scorul su s-ar fi ncadrat n intervalul tipic de
variaie. Este la fel cum punga de cafea de 96 grame este normal pentru intervalul de
variaie 100 5, abia una de 94 de grame abtndu-se de la standard.
Vedei aadar c n statistic, unde lucrm cu variabile, nu totdeauna un numr poate fi
considerat "mai mic" sau "mai mare" dect altul (n general dect media). Este necesar s
inem cont i de variabilitate. Situaia seamn cu aceea a cunoaterii intervalului de variaie
a adncimii unui ru. Acesta nu are mereu aceeai adncime; uneori este mai adnc, alteori
este mai puin adnc. Pe noi ne intereseaz care sunt fluctuaiile normale pentru a ti dac
mai putem naviga pe el ori dac va fi secet (limita minim a adncimii), precum i dac nu
cumva se anun vreo inundaie (limita maxim a adncimii, dincolo de care apele se
revars). La fel este cazul i cu variabilele n statistic. Ne intereseaz nu doar media
(adncimea medie a rului), ci si deviaia standard pentru a putea vedea limitele de variaie
tipic.
Pentru a nu face apel mereu la schema desenat anterior ori de cte ori dorim s
comparm un scor cu o distribuie (s spunem dac el este mic, mediu sau mare),
statisticienii au inventat notele Z. Formula pentru nota Z este:
Z=
xm
SD
(4)
Dac "citim" n cuvinte aceast formul vedem c nota Z, numit si not sau scor standard,
arat deviaia unui scor (x) de la medie (m), iar aceast abatere este exprimat n deviaii
standard (SD).
Mai precis, nota standard arat cu cte deviaii standard se abate un scor de la medie.
S vedem, pe schema de mai jos, ce note standard corespund mediei, precum si limitelor de
variaie, maxim si minim.
47
copii, copilul nostru este de 1,5 ori mai inteligent. Deci problema mizat de educatoare nu se
gsete la nivelul inteligenei.
La proba de interaciuni sociale s presupunem c distribuia scorurilor n populaia de
copii precolari are urmtorii parametri: m2 = 16 si SD2 = 4, care arat numrul de iniiative
ntr-o or dejoac cu ali copii. Aplicnd proba copilului investigat obinem scorul x2 = 8.
Exprimnd acest scor brut n scor standard obinem valoarea 72=-2. Deci, din punct de
vedere al interaciunilor sociale, copilul nostru este de dou ori mai timid, mai puin sociabil.
ntruct notele Z arat raporturi si sunt adimensionale (ele nu depind de ceea ce msurm),
putem s calculm un scor Z total, al celor dou probe. Astfel Z=Z1+Z2 ne ofer valoarea
Z=-0,5. Acest scor standard fiind unul mediu (cuprins n intervalul -1/+1) ne permite s
afirmm c subiectul investigat este normal pe ansamblu si nu necesit o educaie special.
Cauza problemelor sale sociale poate fi n cadrul familiei sau poate c st n
marginalizarea sa de ctre educatoare.
Corelaia
Cunoatei c a doua funcie a scorurilor Z este de a compara scorurile obinute de aceeai
persoan la probe diferite (v mai amintii de exemplul cu copilul considerat handicapat de
educatoare?). S vedem cum putem s ne folosim de aceast funcie pentru a studia relaia
dintre dou variabile.
Caz:
Un psiholog de la o firm este interesat s stabileasc dac ntre numrul
de subordonai i gradul de stres al managerilor exist vreo legtur.
Pentru aceasta alege 6 manageri de la diferite departamente ale firmei,
aplic un chestionar care msoar stresul i apoi msoar ci
subordonai are fiecare dintre managerii alei. Obine tabelul de rezultate
de mai jos, unde xl este scorul la chestionarul de stres i x2 este numrul
de subordonai.
X1
9
11
6
14
12
2
X2
18
29
11
35
25
8
Observai c numerele din cele dou coloane, nu numai c sunt diferite ca ordin de mrime
(prima coloan nu depete valoarea 20, iar a doua are aproape toate scorurile mai mari de
aceast valoare), dar ele msoar n plus lucruri diferite. Cum am putea atunci s le asociem?
Cel mai bine ar fi dac am transforma aceste scoruri brute (x1 i x2) n note Z (Zii Z2).
Atunci, fiecare not Z ar arta poziia scorului n cadrul distribuiei din care face parte i
putem apoi compara poziia scorurilor (adic s vedem, spre exemplu, dac scorurile "mici"
49
de la o variabil sunt asociate scorurilor "mici" la cealalt variabil, iar scorurile "mari" celor "mari").
Pentru aceasta avem nevoie de tabelul de mai jos, dup ce n prealabil am calculat mediile
celor dou variabile. Astfel, avem ml=9, iar m2=21.
X1
9
11
6
14
12
2
X2
18
29
11
35
25
8
X1-m1
0
+2
-3
+5
+3
-7
X2-m2
-3
+8
- 10
+14
+4
-13
(X1-m1)2 (X2-m2)2
0
9
4
64
9
100
25
196
9
16
49
169
Z1
0
+0,50
- 0,75
+1,25
+0,75
- 1,75
Z2
- 0,31
+8,83
- 1,04
+1,45
+0,41
- 1,35
SS1= 96, iar SS2=554. Putem calcula apoi varianta si deviaia standard. Astfel, SD1=4, iar
SD2=9,60. Avnd valorile mediei si deviaiilor standard putem completa ultimele dou
coloane ale tabelului.
Urmrii cu atenie si comparai ultimele dou coloane ale tabelului. Ce fel de scoruri avem
n ele. Conform semnificaiei scorurilor Z putem s "reformulm" ultimele dou coloane
astfel:
Z1
0
+0,50
- 0,75
+1,25
+0,75
- 1,75
Z2
- 0,31
+8,83
- 1,04
+1,45
+0,41
- 1,35
Semnificaia lui
Z1
Scor mediu
Scor mediu
Scor mediu
Scor mare
Scor mediu
Scor mic
Semnificaia lui
Z2
Scor mediu
Scor mediu
Scor mic
Scor mare
Scor mediu
Scor mic
Observm astfel c pare s existe o relaie ntre cele dou variabile: ntlnim cam aceleai
tipuri de scoruri la ambele variabile (scoruri mici asociate cu scoruri mici, iar cele mari);
singurul caz n care nu avem aceast "potrivire" este la managerul al treilea, care are scoruri
de tipuri diferite. Pe ansamblu ns putem spune c exist o relaie.
Cum putem face s ilustrm mai uor relaia ce exist ntre cele dou variabile? Cum am
putea avea doar un singur numr care s ne arate aceast relaie? Simplu, nmulind scorurile
Z i apoi adunndu-le. n acest fel, dac ele sunt de acelai tip (ambele pozitive sau ambele
negative) rezultatul acestei operaii va fi pozitiv, dac ele sunt de tipuri opuse (unul negativ
i altul pozitiv) - rezultatul va fi unul negativ, iar dac nu exist o tendin de asociere,
atunci numrul obinut va fi apropiat de zero.
S procedm n consecin
50
Z1
0
+0,50
- 0,75
+1,25
+0,75
- 1,75
Z2
- 0,31
+8,83
- 1,04
+1,45
+0,41
- 1,35
Z1*Z2
0
0,41
0,78
1,81
0,30
2,36
(Z1*Z2) = 5,66
Adunnd aceste produse (Z1*Z2) obinem numrul 5,66. ns acest numr nu este
suficient pentru a arta relaia de care avem nevoie. De ce? Pentru c el depinde ntr-o
oarecare msur de numrul de perechi de cazuri pe care le-am luat n calcul. Gndii-v c
el ar creste dac am fi aplicat msurtorile folosind 10 manageri n loc de 6. Ca s nu mai
depind acest numr de numrul de cazuri, trebuie s divizm suma obinut prin
N. Si astfel, obinem formula corelaiei Pearson:
r=
(Z1* Z 2)
N
(5)
51
QI1
109
101
104
106
112
115
116
109
115
121
120
113
102
104
106
104
108
106
106
124
QI2
110
102
103
106
115
115
119
104
121
110
123
111
114
101
106
106
109
105
107
103
Sex
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
52
n cazul n care avem variabile categoriale sau independente (variabile care arat
categorii de scoruri, cum ar fi sexul subiecilor, mediul de provenien, zilele sptmnii,
categorii de vrst, tipuri de boli, etc.), este indicat s definim aceste categorii pentru a ne
uura munca de analiz a rezultatelor si pentru a nu uita care scoruri corespund fiecrei
valori (n cazul nostru care sunt rezultatele femeilor si care sunt ale brbailor).
Definirea valorilor se face din perspectiva VARIABLE VIEW activat din josul paginii
(revedei primul capitol dac ai uitat cum se face acest lucru). Odat activat perspectiva
VARIABLE VIEW, pe ecran va apare imaginea:
Observai c butonul AD s-a activat dup ce ai scris. Drept urmare el trebuie apsat
pentru a activa codul i eticheta astfel alese.Dup apsare fereastra va arta ca n imaginea
urmtoare:
53
Revenii apoi n perspectiva DATA VIEW. Constatai c nu apare nici oschimbare vizibil.
Si totui, dac dorii s vizualizai etichetele alese, activai comanda VALUE LABELS din
meniul VIEW, ca mai jos:
54
S vedem acum cum calculm corelaia cu ajutorul programului SPSS. Toate prelucrrile
statistice se fac, reamintim, din meniul ANALYZE. De aici alegem comanda
CORRELATE, opiunea BIVARIATE (adic corelaia ntre dou variabile), ca n
imaginea urmtoare:
Activarea comenzii va deschide o fereastr din care putem alege opiunile ca n imaginea
de mai jos:
1
2
3
4
Putei folosi butonul OPTIONS pentru a solicita programului s fac o mic analiz
descriptiv a rezultatelor sau pentru a preciza cum s trateze valorile lips.
Observai n imaginea de mai sus c exist dou modaliti de a trata valorile lips (cmpul
MISSING VALUES). Prima opiune (EXCLUDE CASES PAIRWISE) exclude de la
analiz perechile de rezultate pentru care nu avem una din valori, n timp ce a doua opiune
(EXCLUDE CASES LISTWISE) exclude de la analiz un rnd ntreg din baza de date
dac doar una din valori lipsete. De obicei, mai frecvent este prima opiune, cea care si
este activ din start.
Apsai CONTINUE si apoi butonul OK. Programul va deschide automat fereastra
OUTPUT unde v sunt prezentate rezultatele.
56
Prag de semnificaie
S comentm puin ce este pragul de semnificaie. n statistic, avem nevoie s
generalizm concluziile studiilor, chiar i ale acelora descriptive, cum este corelaia. Astfel,
ne intereseaz s vedem dac relaia gsit de noi (la un grup de oameni) poate fi extins la
ntreaga populaie. Mai precis, ne intereseaz s tim n ce msur rezultatele noastre se
datoreaz ntmplrii i n ce msur - nu. Ei bine, acest p (prescurtare de la procent) ne
arat n ce msur ne nelm atunci cnd afirmm ceva (n cazul corelaiei: c exist o
legtur ntre dou sau mai multe variabile).
n cercetarea tiinific se lucreaz de obicei cu dou praguri de semnificaie,
corespunztoare procentajului de eroare: pragul de 0,01 (1% eroare) i pragul de 0,05 (5%
eroare).Cnd folosim unul sau altul? S lum un exemplu.
Exemplu:
S presupunem c suntei angajat de un mprat despotic ca i prezictor oficial.
mpratul se folosete de "puterile" voastre pentru a-i impresiona supuii, n general,
atunci cnd facem predicii se pot ntmpla patru situaii, conform tabelului de mai
jos:
57
Predicia
evenimentului
Apare
Nu apare
Evenimentul
Apare
Nu apare
Corect
Eroare 1
Eroare 2
Corect
legtura este de trie medie la o valoare cuprins ntre 0,30-0,50 si vorbim de legturi
puternice dac mrimea absolut este mai mare de 0,50. n exemplul nostru, tria legturii
este medie, pentru c nu depete cu mult valoarea de 0,50.
Toate aceste elemente trebuie s apar n interpretare, pentru ca ea s fie complet.
OBS: Ai observat c n interpretare am folosit cuvntul "exist tendina". De ce? Pentru
c relaia descoperit nu este ntlnit exact, n toate cazurile (nu uitai c noi lucrm cu
variabile, fenomene sociale care sunt influenate de mai muli factori), ci este vorba de o
relaie probabilistic.
i arunci, n ce msur gsim relaia n realitate?
Coeficientul de corelaie ridicat la ptrat ne indic proporia de variant explicat de relaia
gsit, mai precis ce procentaj din populaia general prezint exact relaia, n cazul nostru,
se observ c abia 25% din variaia observat n populaie o ntlnim n realitate, deci relaia
gsit este prezent exact n acest mod (direct proporional) la 25% dintre frai.
59
Fereastra este organizat ntr-un mod tipic: are n partea stng variabilele din baza de
date, iar n dreapta diverse opiuni. Pe noi ne intereseaz doar opiunea IF CONDITION IS
SATISFIED, pentru c dorim s selectm cazurile care ndeplinesc condiia c pentru
variabila SEX au valoarea 1 ( femeilor li s-a atribuit acest valoare n cadrul variabilei SEX).
Prin urmare vom alege acest opiune i vom activa butonul IF care deschide fereastra
urmtoare:
Aici, selectm variabila SEX, o trecem n cmpul din dreapta cu ajutorul sgeii si
adugm condiia SEX-1 (de la tastatur sau folosind butoanele din mijlocul ferestrei).
Observai c putem scrie aici condiii mult mai complicate si putem folosi pentru aceasta
diferite funcii (precizate n cmpul FUNCTIONS din partea dreapt-jos a ferestrei). Apsam
apoi butonul CONTINUE, apoi pe OK si observai ce se ntmpl n fereastra SELECT
CASES:
60
Vedei c apare o nou variabil la sfrit, intitulat FILTER_$, dup care se realizeaz
selecia. Mai observai c pe margine apar cazurile neselectate ca fiind "tiate", adic ele vor
fi ignorate de la analiz, iar n partea din dreapta-jos a ecranului apare anunul FILTER ON,
care v informeaz c selecia dup variabila filtru este activ.
Atenie! Muli se ateapt ca odat datele selectate computerul s efectueze i analiza
statistic dorit. Nu este aa! Selectarea datelor nu implic si efectuarea analizei statistice!
De aceea, dup ce ai selectat, facei din nou prelucrarea, n cazul nostru corelaia. Pentru
aceasta repetai paii efectuai anterior; adic activai comanda ANALYZE-CORRELATEBIVARIATE. Observai c variabilele se gsesc deja n rmpul pentru analiz. Ele au rmas
aa de la prelucrarea anterioar, aa c nu rmne dect s apsai butonul OK i va apare
rezultatul:
61
Interpretai singuri rezultatul astfel obinut, respectnd cele trei elemente ale interpretrii,
n ce proporie relaia gsit o ntlnim n realitate la femei?
Dup ce folosii acest "filtru" n prelucrarea statistic, este indicat s l dezactivai imediat
pentru a nu-1 uita activ pentru alte prelucrri la care nu avei nevoie de o analiz, doar pentru
femei. Pentru dezactivarea seleciei, mergei din nou n meniul iniial DATA-SELECT
CASES si n fereastra respectiv, n partea de jos, gsii un buton denumit RESET (atenie!
nu e butonul cu care resetai calculatorul). Apsai-1 si indicaia FILTER ON din dreaptajos trebuie s dispar, la fel si tieturile" din partea stng a bazei de date, ceea ce indic
faptul c acum analizm toate cazurile.
62
Odat activat, comanda SPLIT FILE deschide o fereastr precum cea de mai jos, de unde
putem alege opiunea noastr:
63
Interpretai rezultatele astfel obinute! Observai c relaia gsit iniial apare doar pentru
subiecii de sex feminin i nu pentru cei de sex masculin! Cum putei interpreta aceste
rezultate? Ce ai putea spune unor prini care v-ar ruga s precizai cum va fi al doilea
nscut al lor (mai inteligent sau mai puin inteligent), dac primul lor nscut este foarte
inteligent, precoce chiar?
De aici trebuie s selectm tipul graficului pe care dorim s-1 facem, n cazul nostru dorim
un grafic simplu, car s arate relaia dintre dou variabile. Observai c opiunea SIMPLE
este deja selectat (conturul mai gros din jurul opiunii).
64
Cele dou variabile se introduc n cmpul cu cele dou axe (nu conteaz prea mult care
variabil se introduce pe care ax) i apoi se apas OK. nainte de asta ns dezactivai
comanda DISPLAY GROUPS DEFINED BY MISSING VALUES din butonul
OPTIONS a crui fereastr este prezentat mai jos:
65
Graficul corelaiei este un nor de puncte cresctor (de la stnga-jos spre dreapta-sus) dac
relaia este pozitiv sau direct proporional. Dac relaia ar fi fost invers proporional,
norul ar fi fost orientat descresctor (din stnga-sus spre dreapta-jos). n cazul n care nu ar fi
nici o relaie, punctele ar fi fost distribuite uniform pe grafic.
66
67
Distribuia normal
Lumea n care trim nu este constant, ci mai degrab variabil. Cu toate acestea ea nu este
haotic. Deci variabilitatea de care vorbeam urmeaz totui nite reguli care pot fi modelate
matematic. S lum un exemplu. S presupunem c aruncai o greutate de mai multe ori i
msurai distana la care o aruncai. Desigur c aceasta va varia; cteodat vei arunca mai
departe, alteori - mai aproape. Fcnd msurtorile, vei observa o distane medie la care ai
aruncat mai des, dar i abateri de la ea. Mai mult, dac ar fi s desenm un poligon al
frecvenelor, care s arat de cte ori am aruncat greutatea la o anume distan am observa c
el ar avea forma unui clopot rsturnat (numit adesea distribuie gaussian) precum n
imaginea de mai jos.
Aceast distribuie are o descriere matematic foarte precis, dar nu este scopul
manualului de fa de a o detalia (exist de altfel suficiente lucrri de statistic matematic
care pot fi consultate pentru doritori). Ceea ce este importat de reinut este faptul c dac
fenomenul social observat este aleatoriu si este urmrit o perioad de timp mai ndelungat,
atunci distribuia rezultatelor se face dup curba normal, iar acest lucru poate fi demonstrat
matematic. Dar nu este scopul volumului de fa de a face acest lucru.
Unele caracteristici ale curbei normale
Atunci cnd am menionat prima dat poligoanele de frecven care arat distribuia
rezultatelor, am precizat c exist trei parametri, trei caracteristici prin care este descris
orice distribuie, pe care i reamintim n continuare:
modalitatea - este un aspect important al distribuiei care arat cte "vrfuri" are o
distribuie. Cu alte cuvinte, arat cte valori sunt n jurul crora se grupeaz foarte muli
subieci. Din acest punct se vedere, distribuiile pot fi unimodale, adic au un singur vrf,
sau ele pot fi multimodale, adic au mai multe vrfuri.
nclinarea - este un aspect al distribuiei care arat dac scorurile subiecilor testai au
tendina de a fi mai mari sau mai mici. Spre exemplu, notele colare au o distribuie
nclinat spre dreapta, adic elevii au tendina de a lua mai mult note mari dect note mici.
Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribuie nclinat
pozitiv. Atunci cnd distribuia este nclinat spre stnga, spunem c aceasta este negativ.
Dac nu se observ nici o tendin de nclinare, atunci distribuia este simetric.
68
turtirea- este un aspect ce se refer la faptul dac o distribuie este foarte turtit (adic
scorurile din cadrul ei variaz foarte mult) sau este mai ascuit (adic scorurile variaz
foarte puin).
Din perspectiva celor trei parametri, curba normal este unimodal, simetric si mediu
turtit.
n plus, curba normal mai posed anumite proprieti speciale. Astfel, maticienii au pus la
punct formule care permit calcularea diferitelor suprafee ale curbei, iar acestea sunt foarte
importante pentru statisticieni.
Pentru a nelege mai uor despre ce este vorba, s lum drept exemplu distribuirea
rezultatelor la un test de inteligen. Aceste teste sunt construite astfel nct la aplicaii
repetate, pe multe persoane, distribuia rezultatelor s fie normal, n plus, ele sunt astfel
construite ca media rezultatelor s fie 100, iar abaterea sau deviaia standard s fie de 16
puncte. S analizm puin aceast distribuie, care e prezentat n imaginea urmtoare:
Scoruri brute
Scoruri Z
68
-2
84
-1
100
0
116
+1
132
+1
ntruct distribuia normal este simetric, exact 50% din cazuri vor avea scoruri sub
valoarea medie (scorul 100); mai mult, aproximativ 34% din cazuri se vor afla ntre medie si
o abatere standard la stnga sau la dreapta. De altfel, dac urmrii cu atenie forma curbei
normale vei constata prezena unor puncte de inflexiune", adic puncte n care linia curb
i modific forma (mai precis, tangenta la curb trece din exterior spre interior sau invers).
Ei bine, aceste puncte corespund tocmai deviaiilor standard.
Dar la ce ne folosete cunoaterea acestor procentaje? In exemplul cu testul de inteligen
cunoscnd c rezultatele se distribuie normal vom ti c 34% dintre oameni au scorul cuprins
ntre medie (100) i o deviaie standard deasupra sau dedesubtul acestei valori. tiind c
deviaia standard e 16 tim astfel c 34% dintre indivizi vor avea scorul cuprins ntre 100 i
116 (cei cu IQ situat deasupra mediei) sau ntre 84 i 100 (cei cu IQ situat dedesubtul
mediei). Observai de asemenea c si mai puine cazuri sunt mai deprtate de medie; mai
precis, abia 16% din cazuri vor avea scoruri mai mici sau mai mari de o deviaie standard.
Cu alte cuvinte, numai 16% dintre oameni au coeficientul de inteligen mai sczut de 84 sau
mai ridicat de 116. Mai mult, doar aproximativ 2% dintre indivizi vor avea scoruri i mai
69
extreme, mai mici sau mai mari dect dou deviaii standard fa de medie (adic sub 68 sau
peste 132).
Observai astfel c exist o strns legtur ntre scorurile standard (notele z) i diferite
procentaje sau frecvene relative. Cunoscnd nota z a unui subiect i tiind c rezultatele la
prob se distribuie normal, putem cunoate cu precizie ci indivizi din populaie au scoruri
mai mici sau mai mari dect al subiectului investigat.
Orice manual de statistic are la sfrit un tabel care permite calcularea acestor procentaje
cu precizie, n acel tabel, pentru fiecare not z, este precizat un procent, care arat ci
subieci au scorurile cuprinse ntre medie si nota z cutat de noi.
S lum un exemplu. S presupunem c o persoan obine la testul de inteligen scorul
125. tiind c media la test este 100 i deviaia standard 16, putem calcula uor nota z a
acestui subiect care este 1,56 - din formula: (l25-100)716 (dac ai uitat formula de calcul a
notelor z i semnificaia lor, re vedei capitolele anterioare). Dac vom consulta unul din
tabelele de care aminteam anterior, vom vedea n dreptul lui 1,56 valoarea 44,06%. Aceasta
nseamn c de la medie (100) i pn la scorul nostru (125) sunt 44,06% dintre subieci.
Aceasta arat c doar 5,94% dintre indivizi vor avea scoruri mai mari (50%-44,06%) i
94,06% (50%+44,06%) vor avea scoruri mai mici dect subiectul ales de noi.
Populaie si eantion. Logica inferenei statistice.
V vom introduce acum n domeniul inferenei statistice pornind de la exemplul cu fiertul
boabelor de fasole. S presupunem c fierbem fasole; la un moment dat luai cteva boabe
ntr-o lingur i vedei dac ele sunt fierte, trgnd apoi concluzii despre cum sunt fierte
toate fasolele din oal. n acest exemplu, fasolele din oal reprezint populaia (ntregul set
de obiecte sau lucruri care ne intereseaz), iar cele din lingur - eantionul (un subset la care
avem de fapt acces), n ce msur ns suntei sigur c i restul oalei de fasole are aceleai
caliti ca si boabele pe care le gustai?
Pentru a vedea cum se realizeaz inferena statistic, vom lua cel mai simplu exemplu,
testul z pentru a compara un singur caz cu o populaie a cror parametri sunt cunoscui.
Exemplul are la baz urmtoarea istorioar (adaptat dup Aron & Aron,1995):
Un grup de farmaciti au sintetizat o vitamin care se presupune c accelereaz
procesele de asimilaie la copii nou-nscui, astfel c acetia vor cunoate o
dezvoltare mai rapid. Unul dintre efecte este scderea vrstei la care copii
ncep s mearg. Farmacitii au dorit s omologheze vitamina, dar Ministerul
Sntii din Statele Unite le-a cerut s demonstreze c ntr-adevr vitamina-lor
accelereaz mersul copiilor. Pentru aceasta farmacitilor li s-a dat voie s o
administreze numai unui singur copil nou-nscut, ales aleatoriu din populaie.
Copilul respectiv, dup administrarea vitaminei a mers la vrsta de 8 luni. Pot
farmacitii s susin c vrsta precoce la care a mers copilul se datoreaz
vitaminei lor tiind c vrsta la care merg copii prima dat, n populaia normal
este de 14 luni, cu o abatere standard de 3 luni? n ce msur se poate afirma c
efectul obinut se datoreaz vitaminei i nu altor factori?
raionamentul nostru.
Prezentm n continuare curba normal corespunztoare vrstei de debut al mersului la
copiii din populaia normal.
Scoruri Z
8 luni
-2
adevr un efect (probabil c mai trebuie s citii aceast propoziie nc o dat). In ce msur
a avut vitamina efect? In proporie de 98%.
Cum judecm? Dac fr vitamin doar 2% dintre copii mergeau pn la 8
luni,probabilitatea ca acel copil investigat de farmaciti s fac parte dintre aceti copii
precoce era de 2%. Numai atunci ne-am nela n concluzia noastr cnd din ntmplare am
da tocmai peste un astfel de copil precoce. Ar fi ca si cum am dori s testm efectul unei
buturi alcoolice asupra unei persoane care ar fi deja n stare de ebrietate; atunci nu ne-am
mai putea da seama ct din starea sa se datoreaz buturii testate si ct se datoreaz strii
sale iniiale, ntruct n cazul de fa avem 2% anse s dm peste un copil precoce, aceast
valoare arat care este de fapt probabilitatea de eroare. Deci vom avea dreptate n proporie
de 98%.
Acesta este un exemplu despre logica inferenei statistice. Este necesar s-1 aprofundai
pentru a nelege mecanismul care st la baza testrii ipotezelor n tiinele sociale.
Etapele testrii unei ipoteze. Testul Z pentru a compara un caz cu o populaie cunoscut
Vom descrie etapele testrii unei ipoteze folosind exemplul de mai sus, cu vitaminele.
Reamintim c scopul farmacitilor era s demonstreze c prin administrarea vitaminelor,
copiii care le iau vor merge mai devreme dect cei care nu le iau. Sunt cinci etape n
procesul testrii unei ipoteze.
1.- Reformularea ntrebrilor termenii ipotezelor de cercetare si de nul.
O ipotez, n statistic, este o afirmaie despre parametrii unei populaii, pentru c scopul
inferenei statistice este s descrie populaii pornind de la eantioane. Dou sunt ipotezele cu
care lucrm:
ipoteza de cercetare (notat H1): este o afirmaie generalizat la populaia supus
investigrii, n cazul nostru, HI este c vitamina va accelera mersul tuturor copiilor care o
iau sau - cu alte cuvinte - toi copiii care vor lua vitamina vor merge mai devreme dect cei
care nu o vor lua.
ipoteza de nul (notat H0): este de fapt ceea ce noi testm n realitate si descrie situaia
de la care se pornete, situaia n care intervenia nu ar avea nici un efect, n cazul de fa, H0
afirm c vitamina nu va accelera mersul copiilor care o iau, cu alte cuvinte, copiii care iau
vitamina vor merge la fel ca i cei care nu o iau.
Observaii c cele dou ipoteze sunt mutual exclusive: dac una este adevrat, atunci
cealalt este fals. Mai mult, ipoteza de nul se consider implicit adevrat. Inferena
statistic se face cu referire la ea, iar probabilitile statistice (pragurile de semnificaie) care
nsoesc orice test statistic fac referire tocmai la ipoteza de nul.
S facem acum o mic incursiune n logica simbolic (nu dai pagina i nu trecei mai
departe, nu e o chestie prea dificil pentru voi!).
Exist o regul n logic numit modusponens. Vom lua exemplul clasic:
AB
A
B
Raionamentul de mai sus este perfect rezonabil, nu? Dar exist o greeal care apare
frecvent n legtur cu acest raionament, eroare numit afirmarea consecinei. Ea este:
AB
A
B
Constatai c un astfel de raionament e greit, pentru c acel ceva poate fi orice fiin vie
(ex. un mgar). Dac vom exprima raionamentul de mai sus n termenii celor dou ipoteze
statistice, eroarea va apare astfel:
AB
B
A?
Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare.
Probabilitatea este mare.
De aceea H0 este adevrat.
Ceea ce este greit. Dar exist o soluie pentru aceasta pe care tot logica ne-o pune la
ndemn: regula denumit modus tolens.
AB
non B
non A
Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare.
Probabilitatea nu este mare.( deci p, pragul de semnificaie, este mic).
De aceea H0 este fals.
i dac ipoteza de nul este fals, atunci cea de cercetare este adevrat. Acesta este modul
n care ne confirmm ipotezele n statistic si n cercetare n general. Apropo, aceasta este si
ideea ce st la baza filosofici tiinei a lui Karl Popper: c progresul n tiin se obine
numai prin disconfirmare.
ncheiem aici incursiunea noastr n logica simbolic i v reamintesc c rolul acestei
prime etape este doar stabilirea celor dou ipoteze.
2.- Stabilirea caracteristicilor distribuiei de comparat (cea specificat prin ipoteza de nul)
Dup ce am stabilit ipotezele si populaiile la care fac ele referire, trebuie s ne stabilim
cadrul de referin, distribuia de comparat, ntruct ceea ce testm noi este ipoteza de nul,
evident c distribuia de referin va fi cea a populaiei corespunztoare ipotezei de nul.
n exemplul nostru, ipoteza de nul este aceea c vitamina nu are nici un efect, deci copiii
73
care iau vitamina vor merge la fel de devreme ca si cei care nu o iau. Distribuia la care ne
referim astfel este cea a vrstei de debut a mersului la copiii normali (care nu iau vitamina si
nici nu urmeaz vreun altfel de tratament special), deci avem o distribuie normal, care are
media 14 luni si abaterea standard de 3 luni.
Faptul c tim forma si parametrii distribuiei la care ne referim ne permite s cunoatem
tocmai probabilitile cu care diferite scoruri pot s apar atunci cnd alegem la ntmplare
indivizi din aceast populaie. Pe acest fapt se bazeaz testele statistice.
3.- Determinarea pragului de semnificaie i a zonei de respingere" a ipotezei de nul.
n aceast etap trebuie s stabilim care sunt acele valori extreme care ne permit
respingerea ipotezei de nul. Pentru aceasta trebuie s ne fixm un prag de semnificaie (o
probabilitate) sub care s respingem ipoteza de nul, prag pe care l vom fixa pe curba
normal corespunznd distribuiei de comparat.
Scoruri Z
8 luni
-2
Reamintim c sunt dou tipuri de praguri de semnificaie (am discutat despre ele n
capitolul anterior), cel de 1% si cel de 5%. n cazul de fa, cercettorii ar trebui s-i aleag
un prag de semnificaie mai strns, mai sever, pe cel de l % (consecinele n cazul unei erori
sunt foarte mari). Din tabelele care nsoesc orice manual de statistic vom constata c
punctului ce mparte distribuia normal n dou pri, una de 1% si restul de 99% i
corespunde nota z - 2,33. n cazul nostru, vom avea z = -2,33 pentru c ne referim la cele
mai mici l % dintre valorile populaiei, cele marcate de sgeat si haur pe figura
anterioar.
Aceasta reprezint si zona de respingere a ipotezei de nul. Ce nseamn acest lucru?
nseamn c dac n urma interveniei noastre (vitamina) vom obine un scor att de extrem
nct el se va ncadra n aceast zon, atunci vom fi siguri c doar n 1% din cazuri el ar fi
fost obinut dac ipoteza de nul ar fi fost adevrat, ntruct ipoteza de nul e adevrat n 1%
din cazuri, atunci n 99% din cazuri ea poate fi respins si ipoteza de cercetare acceptat.
74
Etapa I:
ipoteza de cercetare (notat Hi):toi studenii din C12 petrec mai mult timp la
. discoteca dect cei din universitate, m general.
ipoteza de nul (notat HO): studenii din C12petrec acelai timp la discotec ca i cei din
universitate n general.
Etapa II:
Distribuia de comparat este una normal, care are media 20 ore i abaterea standard de 3
ore.
Etapa III:
Pragul de semnificaie este de 5%, adic dorim s ne argumentm sau susine ipoteza de
cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de
75
nul va ncepe de la z = +1,64 (valoare luat din tabelele cu note z din crile de statistic,
calculate pentru o proporie de 45% de cazuri de la medie). Pe curba normal am
reprezentat zona de respingere printr-un cmp haurat. Deci, ca s respingem ipoteza de nul
cu o probabilitate de 5% trebuie s obinem din datele noastre o not z de
cel puin l ,64 sau mai mult.
14 ore
26 ore
Etapa IV
Culegem propriu-zis datele. Din exemplul oferit observm c am obinut la ntmplare o
not brut de 24 ore. Vom transforma aceast not brut n not standard, folosind formula
(4) din capitolul anterior.
Z=
xm
(4)
SD
24 20
= +1,33 (4)
3
Etapa V:
Comparm acum nota astfel obinut (z=l,33) cu cea corespunztoare zonei de
respingere a ipotezei de nul (z=l,64) si constatm c suntem n afara" acesteia (trebuia s
obinem o not mai mare sau cel puin egal cu z=l,64). Astfel, nu putem respinge
ipoteza de nul, deci nu putem demonstra c cei din C12 sunt mai petrecrei.
Ce s-ar ntmpla ns dac am lua n calcul nu un singur caz, ci un eantion? De ce s nu
ntrebm mai muli studeni din C12 ct timp petrec la discotec? S vedem ce se schimb n
acest caz.
76
20
77
Mai sus avem reprezentat populaia iniial, format din indivizi, care are o distribuie
normal, cu media 20 ore si abaterea standard de 3 ore. Dac vom extrage din ea toate
eantioanele de 10 persoane (toate combinaiile posibile) si vom calcula media acestor
eantioane, apoi vom reprezenta grafic aceast nou distribuie, vom obine distribuia de mai
jos:
20
Observai c media acestei distribuii de medii este tot 20. Ceea ce se schimb este ns
deviaia sau abaterea standard. De ce? Explicaia este simpl: comportamentul unui grup este
totdeauna mai puin variabil dect comportamentul individual. Exprimat n termeni de
probabilitate, probabilitatea ca ntr-un grup de 10 persoane extras la ntmplare, s avem
cazurile cele mai extreme din populaie (indivizii cei mai petrecrei, de exemplu) este foarte
mic, dat fiind c ei nu sunt aa numeroi n populaia iniial.
Ct va fi abaterea standard a acestei noi distribuii? Matematicienii au calculat acest lucru
pentru noi: dac extragem eantioane de N persoane din populaia iniial, atunci varianta
distribuiei de eantioane va fi de N ori mai mic dect varianta iniial.
Varianta este ptratul deviaiei standard. Deci, varianta distribuiei de medii va fi de 10 ori
mai mic dect varianta distribuiei iniiale (care este 9), deci va avea valoarea 0,90. Dac
varianta distribuiei de medii este 0,90, deviaia sa standard va fi rdcina ptrat a acestei
valori, deci va fi 0,94 (ore).
Acum, avem toate datele pentru a stabili care va fi distribuia de comparat. Ea este o
distribuie normal care are media 20 ore i abaterea standard de 0,94 ore. Deci,
grupurile de cte 10 studeni petrec n medie 20 ore la discotec, cu o abatere standard de
aproape o or.
Etapa III:
Pragul de semnificaie este de 5%, adic dorim s ne argumentm sau susine ipoteza de
cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de
nul va ncepe de la z = +1,64 ca i n exemplul anterior Deci, ca s respingem ipoteza de nul
cu o probabilitate de 5% trebuie s obinem din datele noastre o not z de cel puin 1,64 sau
mai mult. Dar, atenie, aceast zone de respingere este pe distribuia de medii, nu pe cea a
indivizilor izolai!
78
Etapa IV
Culegem propriu-zis datele. Din exemplul oferit observm c am obinut la ntmplare o
not brut de 23 ore. Vom transforma aceast not brut n not standard, folosind formula
(4) din capitolul anterior.
xm
Z=
(4)
SD
Astfel, scorul z pentru cazul nostru va fi:
Z=
23 20
= +3,19 (4)
0.94
Atenie! Deviaia standard folosit n formula de mai jos este cea a distribuiei de medii!
Etapa V
Comparm acum nota astfel obinut (z=3,19) cu cea corespunztoare zonei de respingere a
ipotezei de nul (z=l,64) si constatm c suntem n acest interval (cel haurat
din imaginea anterioar). Astfel, putem respinge ipoteza de nul, deci am demonstrat cu o
probabilitate de eroare de 5% c cei din C12 sunt mai petrecrei dect cei din
universitate n general.
calitilor lor, decidem c si cele din oal vor fi similare (la fel de fierte). Desigur c n
populaia iniial variabilitatea este mai mare dect n eantion, la fel cum n oal probabil c
vom gsi boabe mai fierte sau mai puin fierte dect cele din lingur.
S vedem acum care etap se schimb n acest caz. Prezentm mai jos modalitatea de
testare a ipotezei:
Etapa I:
ipoteza de cercetare (notat Hi):toi studenii din C12petrec mai mult timp la discotec
dect cei din universitate, n general.
ipoteza de nul (notat HO): studenii din C12petrec acelai timp la discotec ca si cei din
universitate n general.
Observai c prima etap rmne neschimbat.
Etapa II:
Aici, distribuia de comparat va fi una de medii, nu de indivizi, dup cum am vzut i n
exemplul analizat anterior, cnd cunoteam varianta populaiei iniiale. Aici apare ns
problema estimrii distribuiei iniiale, mai precis a variantei sale. Pentru aceasta avem
nevoie de datele brute ale eantionului nostru.
S presupunem c rezultatele celor 10 studeni din cminul C12 sunt urmtoarele:
X
18
25
23
20
21
28
26
23
25
21
Observai c media lor este aceeai ca si n exemplul anterior, m=23. Cum calculm
varianta?
Vom folosi aceeai metod ca i cea prezentat ntr-unul din capitolele anterioare:
80
x
18
25
23
20
21
28
26
23
25
21
x-m
-5
+2
0
-3
-2
+5
+3
0
+2
-2
(x-m)2
25
4
0
9
4
25
9
0
4
4
= 2 = 9,33 = 3,05
Populaia astfel estimat, care are media 20 ore si deviaia standard de 3,05 ore va fi
aproximativ normal. Am subliniat cuvntul aproximativ" pentru a reaminti c noi am
estimat varianta acestei populaii, nu am msurat-o. Ca urmare, ea va fi aproximativ
normal; mai precis, ea va fi o distribuie simetric, unimodal, dar mai turtit dect cea
normal. Aceast curb de distribuie este denumit curb t si a fost descris prima dat de
William Gosset, un statistician care i-a spus Student (despre care vei putea citi mai multe
n povestioara de la nceputul capitolului urmtor) si care a inventat testul t. Faptul c este
81
mai turtit dect curba normal permite o ajustare a testrii ipotezei care ine cont de
mrimea eantionului folosit n estimare. Astfel, cu ct vom avea un eantion mai mare de pe
baza cruia estimm populaia, cu att vom avea o curb t mai apropiat de cea normal.
Dar aceasta nu este dect populaia de indivizi, ori noi comparm un eantion cu o
distribuie de eantioane (revedei subcapitolul anterior dac ai uitat de ea). Ca urmare,
trebuie s comparm media eantionului nostru cu o distribuie tot de medii, a unei populaii
de eantioane de zece persoane extrase din populaia individual.
tim, din capitolul antenor, ca aceasta distribuie de eantioane va avea aceeai medie ca
2
2
).
si media de indivizi izolai (X = 0), dar o variant de N ori mai mic ( m =
N
Am folosit indicii m pentru a distinge ntre populaia de indivizi si cea de eantioane
(medii). Astfel, nlocuind n formule, populaia de eantioane va avea media 20 ore i
abaterea standard de 0,96 ore.
n concluzie la aceast mai degrab lung etap a Il-a din testarea ipotezelor, s amintim c
distribuia de comparat este n acest caz o distribuie t, de eantioane, care are media 20 ore
si abaterea standard de 0,96 ore.
Etapa III
n aceast etap ne stabilim pragul de semnificaie (5%) si zona de respingere a ipotezei de
nul. Pn acum am folosit notele z si tabelele corespunztoare de la sfritul crilor de
statistic pentru a determina de la care valoare a lui z vom respinge ipoteza de nul. Dar cum
acum nu mai avem o distribuie normal, va trebui s folosim alte note, notele t, care nu sunt
altceva dect notele standard ale distribuiei t. Fiind note standard, ele vor avea o formul
similar, n cazul nostru:
m m
t=
m
n aceast formul, m reprezint media eantionului nostru de zece studeni (23 ore) m
este media populaiei de eantioane de 10 studeni studeneti de la Al.I.Cuza", iar am este
deviaia standard a populaiei de medii sau a distribuiei de eantioane. Acest din urm
termen mai este numit eroarea standard a mediei.
Ce valoare vom lua n calcul pentru a stabili valoarea lui notei t de la care respingem
ipoteza de nul? Depinde de numrul persoanelor din eantion. S vedem cum arat un astfel
de tabel, pe care orice manual de statistic l are la sfrit. Prezentm mai jos un fragment:
82
(B)
(A)
.10
3.07
1.88
1,63
1.53
1.47
1.44
1.41
1.39
1.38
1.37
1.36
df
1
2
3
4
5
6
7
8
9
10
11
.05
6.31
2.92
2.35
2.13
2.01
1.94
1.89
1.86
1.83
1.81
1.79
.01
31.82
6.96
4.54
3.74
3.36
3.14
2.99
2.89
2.82
2.76
2.71
Etapa IV:
Este etapa culegerii datelor pentru a afla media eantionului nostru (m=23) si a afla poziia
sa n cadrul populaiei de eantioane. Pentru a afla aceast din urm informaie, vom folosi
formula pentru scorurile t (reamintim c lucrm cu o curb t si c notele standard n acest
caz sunt note t):
t=
m m 23 20
=
= 3,12
m
0,96
83
Etapa V:
Pe baza notei t calculate n etapa anterioar (3,12) si a notei t care stabilete zona de
respingere a ipotezei de nul (1,83) vom trage concluzia cercetrii noastre, ntruct nota t a
eantionului se gsete n zona de respingere (a se vedea imaginea urmtoare), vom
concluziona c, cu o eroare de 5% putem respinge ipoteza de nul, ceea ce nseamn
acceptarea ipotezei de cercetare cu o aceeai probabilitate de a grei.
3,13
n concluzie, putem afirma cu o eroare de 5% c cei din cminul C12 sunt mai petrecrei
dect studenii de la Universitatea Al.I.Cuza", n general.
84
Nota
8
7
7
8
9
10
5
4
7
7
8
9
6
9
8
10
8
7
10
7
8
7
8
9
8
7
8
10
10
5
Anx
6
7
5
5
6
7
5
6
7
6
5
4
6
4
5
7
8
5
5
6
4
2
3
4
2
3
4
5
3
2
Zi_exam
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Este vorba despre o cercetare n care psihologul a msurat gradul de anxietate al unor
studeni la un examen (variabila ANX, msurat pe o scal de la l - deloc anxios, la 9 - foarte
anxios), precum si notele nregistrate de aceti studeni la examen (variabila NOTA).
Psihologul a mai nregistrat si ziua din sptmn n care a avut loc examinarea (variabila
ZI_EXAM, cu valorile l="luni" si 2="miercuri"). Observai c avem 30 de cazuri si nu uitai
s definii valorile l si 2 pentru variabila ZI_EXAM din coloana VALUES, perspectiva
VARIABLE VIE W (aa cum artam n capitolul anterior).
Dup ce a cules datele i le-a introdus n SPSS, psihologul a fost interesat s vad dac cei
30 de studeni au obinut note mai ridicate dect 5. Cu alte cuvinte el dorete s afle dac
studenii investigai se deosebesc fundamental de o populaie studeneasc carear obine
media 5 la materia la care s-a dat examenul, ntruct accesul la o astfel de populaie
85
studeneasc este imposibil, deci nu putem msura ali parametri n afara mediei, trebuie s
estimm variabilitatea sa, deci va trebui s aplicm testul t pentru a compara un eantion cu
o populaie, aa cum am fcut anterior cu cei 10 studeni i timpul petrecut la discotec.
Aplicarea testului t pentru a compara un eantion se face din meniul ANALYZE, activnd
comanda ONE SAMPLE T TEST, ca n imaginea de mai jos:
2
1
De aici putem modifica pragul de semnificaie (pentru 5% vom lsa 95% n cmpul
CONFIDENCE INTERVAL, pentru un prag mai strns, de 1%, vom modifica valoarea din
acest cmp la 99). Indicat este s nu modificm setrile din aceast fereastr.
Apsai CONTINUE si apoi butonul OK din fereastra principal. Programul va deschide
automat o nou fereastr, n care v sunt prezentate rezultatele, ca n imaginea urmtoare:
Observai c rezultatele sunt grupate n dou tabele. Unul conine elemente de statistic
descriptiv (ONE SAMPLE STATISTICS), iar cellalt cuprinde date despre testul t propriuzis.
87
88
2
3
89
Odat ajuni n etapa ilustrat de imaginea de mai sus, apsam butonul OLD AND NEW
VALUES pentru a stabili care sunt valorile pe care dorim s le recodificm in noua
variabil. Apsarea butonului deschide fereastra:
4
1
2
3
90
91
Observai c variabila nou apare n stnga ultimei variabile din baza de date. Observai de
asemenea si corespondena dintre valorile noii variabile si cele vechi (ex. c n dreptul
studenilor care au note sub valoarea 8 apare valoarea l la variabila NOTATIP si valoarea 2
acolo unde notele sunt peste 8).
Recodificarea aceleiai variabile
Alteori ne este util s recodificm o aceeai variabil, fr a fi necesar s crem una nou.
Spre exemplu, s presupunem c nu avem nevoie de scorurile brute obinute de studenii din
exemplul anterior la testul de anxietate (variabila ANX), ci de mprirea lor n dou grupuri,
grupul de studeni care nu sunt anxioi (care au scorul mai mic sau egal cu 5) si cei crora
examenul le provoac anxietate (scorul la variabila ANX s fie mai mare ca 5). De obicei, o
astfel de mprire se face prin raportare la median.
Meniul pentru aceast transformare este urmtorul:
92
93
Observai c aici, aceast fereastr este identic cu cea prezentat la comanda anterioar
cnd recodificam variabila sub un alt nume. Diferena const aici c ne referim la valoarea 5
si nu la 8. Dup ce am efectuat modificrile dorite, apsam CONTINUE si apoi OK n
fereastra principal si vom constata faptul c valorile variabilei ANX au fost schimbate n
baza de date n conformitate cu criteriile stabilite de noi:
Exerciiu:
Codificai i variabila NOTA n acelai fel.
94
95
introvertit
extravertit
96
COMPARE
MEANS
Vom folosi un set de date pentru a putea s aplicm analizele statistice. Prezentm mai jos
aceste date, preciznd c ele sunt imaginare si ar descrie salariul iniial, la angajare si cel
dup cinci ani, pe care l aveau angajaii unei firme, n plus, n baza de date mai este trecut,
ca variabil ce grupeaz subiecii, nivelul studiilor acestora.
97
Studii
Sal_ini
Sal_fin5
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
158
165
145
189
198
197
168
201
185
156
175
198
199
201
201
220
210
214
205
301
332
341
221
206
298
301
332
358
598
654
214
258
245
268
198
158
199
201
220
205
203
185
168
178
201
203
225
260
280
274
298
305
582
542
392
445
401
502
403
503
402
854
954
425
725
625
Menionm c salariul este specificat n mii de lei. Valorile variabilei STUDII sunt: lprimare, 2-medii si 3-superioare. Aceste valori trebuie trecute n cmpul VALUES din
perspectiva VARIABLE VIEW (revedei primele capitole pentru aceasta).
Scopul analizei noastre este de a argumenta statistic dac salariul dup 5 ani este
semnificativ mai mare dect cel iniial, de la angajare. Ipoteza de nul este aceea c ntre cele
dou msurtori nu vom avea diferene semnificative, deci c salariul nu creste semnificativ.
S vedem cum analizm cu ajutorul programului SPSS.
Pentru a activa comanda necesar analizei statistice deschidem meniul ANALYZE si
alegem comanda PAIRED SAMPLES T TEST, ca n imaginea de mai jos:
98
1
3
99
Butonul OPTIONS este identic cu cel din fereastra testului t pentru compararea unui
eantion cu o populaie, discutat n capitolul anterior. De aici putem selecta intervalul de
ncredere (stabilit implicit la 95%).
Apsnd butonul OK, programul ncarc fereastra cu rezultate (OUTPUT) ca mai jos:
2
3
4
(5) - aici sunt reprezentate erorile standard ale mediilor sau, mai precis, deviaia standard a
populaiei de eantioane de N subieci din care provin eantioanele noastre
n al doilea tabel al foii de rezultate este trecut rezultatul corelaiei dintre cele dou
variabile. Astfel:
(6) - arat coeficientul de corelaie dintre cele dou variabile
(7) - arat pragul de semnificaie al corelaiei, care este probabilitatea de eroare atunci cnd
afirmm c ar exista o legtur ntre variabilele analizate.
Al treilea tabel conine propriu-zis date despre testul statistic. S-1 privim cu atenie si s-1
analizm detaliat.
4
2
1
(1) - arat numele perechii de variabile luat n calcul. Observai c se ia n calcul diferena
dintre salariul iniial si cel final (notai semnul minus ce exist ntre variabile, nu este o
simpl liniu)
(2) - aici este trecut media diferenei dintre mediile celor dou eantioane, deci aici apare
diferena dintre medii. Faptul c este o valoare negativ arat c salariul final este mai mare
dect cei iniial.
(3) - n aceast celul este trecut deviaia standard a eantionului rezultat din diferenele
celor dou eantioane.
(4) - reprezint deviaia standard a populaiei de eantioane de diferene de scoruri (revedei
partea teoretic de la nceputul capitolului dac v este neclar)
(5) - reprezint intervalul de ncredere al diferenei dintre mediile celor dou eantioane,
apreciat cu o probabilitate de 95%. Cu alte cuvinte, folosind ali 33 de subieci de la aceeai
firm
diferena
dintre
salariile
lor
iniiale
si
finale
s-ar fi ncadrat cu o probabilitate de 95% n intervalul de ncredere.
(6) - este valoarea testului t, de fapt nota t a eantionului de diferene n cadrul populaiei de
eantioane obinute prin diferena dintre scoruri.
(7) - reprezint gradele de libertate pentru care a fost calculat nota t, deci arat
caracteristicile curbei t la care ne-am raportat.
(8) - arat pragul de semnificaie sau probabilitatea de eroare atunci cnd respingem ipoteza
de nul. n cazul de fa, valoarea sa foarte mic ne ndreptete s respingem ipoteza de nul
ntr-o foarte mare msur.
101
Folosirea
SPSS:
meniul
ANALYZE COMPARE MEANS INDEPENDENT SAMPLES T TEST
Este ideal situaia experimental unde subiecii sunt i propriul lor grup de control
(situaia test-retest). n alte situaii ns pur i simplu nu avem cum s msurm subiecii
folosind metoda test-retest. De exemplu, folosind datele prezentate anterior, s presupunem
c ne-ar interesa s vedem dac nivelul studiilor afecteaz ctigul salarial. Cu alte cuvinte,
ne intereseaz s vedem dac o variabil independent (n cazul de fa nivelul studiilor)
afecteaz sau influeneaz o variabil dependent (venitul).
Nu avem cum s msurm ctigul subiecilor sub forma test-retest, pe msur ce ei trec da
la un nivel de educaie la altul, deoarece o astfel de trecere este - de obicei - continu, fr
pauze n cmpul muncii. Nici nu putem manipula direct variabila nivel de studii, putem cel
mult s o invocm , s o folosim pentru a mpri subiecii pe grupuri independente.
102
n acest caz avem nevoie de o alt metod, de testul t pentru eantioane independente.
Menionm c nu este necesar ca cele dou eantioane s aib acelai numr de subieci.
Folosind SPSS, din meniul ANALYZE activm comanda INDEPENDENT SAMPLES T
TEST, ca n imaginea de mai jos:
(primare, medii si superioare). Folosind butonul DEFINE GROUPS noi trebuie s precizm
doar dou dintre niveluri, ntre care dorim s facem diferentele.
Odat activat, butonul DEFINE GROUPS deschide fereastra de mai jos:
S presupunem c dorim s facem diferena ntre ctigul salarial al celor cu studii primare
si al celor cu studii medii, n csuele corespunztoare grupurilor, vom trece valorile
variabilei independente care definesc acele grupuri. Astfel, vom trece l pentru cei cu studii
primare (aa i-am definit cnd am introdus datele) i 2 pentru cei cu studii medii. V
reamintesc c aceste valori (l i 2) nu sunt numerice; pur i simplu ele sunt dou coduri ce
permit diferenierea celor dou grupuri. Noi puteam s fi avut orice alte dou numere
diferite.
Dup ce vom introduce valorile corespunztoare grupurilor apsai butonul CONTINUE
i observai ce se schimb n fereastra iniial:
10
11
9
104
cnd respingem ipoteza de nul i acceptm ipoteza noastr de cercetare, n cazul de fa vom
avea p=0,005. Aceast valoare arat faptul c exist o probabilitate de 5 la mie de a grei
atunci cnd respingem ipoteza de nul, deci putem accepta ipoteza de cercetare cu aceeai
probabilitate de eroare
Cum interpretm rezultatele concret obinute? Vom spune c analiza statistic realizat a
permis identificarea unor diferene semnificative ntre nivelul salariului iniial la cele dou
grupe de subieci sau, altfel spus, c variabila nivel de studii influeneaz nivelul salarial
iniial; testul t pentru eantioane independente t(20)=3,45 pentru p<0.01 argumenteaz
statistic aceast ipotez. Observai c am trecut valoarea absolut a testului t i nu pe cea cu
semnul minus. Aa se procedeaz n general, semnul plus sau minus pe care-1 poate avea
nota t fiind determinat de sensul n care facem diferena. Aa c trebuie s precizm n
interpretarea noastr n ce sens apare diferena; n cazul nostru trebuie s spunem c salariul
iniial al celor cu studii medii este semnificativ mai mare dect al celor cu studii primare.
Acest fapt se observ din primul tabel unde sunt trecute mediile eantioanelor.
106
Odat activat aceast comand va deschide o fereastr de unde vom putea face orice
combinaii din variabilele deja existente n baza de date. Fereastra este prezentat n
continuare:
4
1
2
5
mai jos:
Observai care este forma argumentelor acestei funcii (ceea ce este scris n paranteze).
Aceasta indic faptul c variabilele la care vom calcula media trebuie trecute ntre paranteze,
iar numele lor trebuie separat prin virgule. Vom proceda n consecin; alegem funcia, o
transferm n cmpul NUMERIC EXPRESSION si vom scrie numele variabilelor ntre
paranteze.
Dup ce scriem formula complet, apsam butonul OK si vom constata imediat urmrile n
baza de date. Vom vedea c la sfritul bazei, programul adaug noua variabil, precum n
imaginea de mai jos:
108
REGRESIALINIAR
- sau cum reuim s prezicem
Cuprins:
Regresia liniar - elemente teoretice
Regresia bivariat vs. Multivariat
Folosirea SPSS: Meniul ANALYZE - REGRESSION - LINEAR
Regresia cu dummy variables
109
110
n acest capitol vom vorbi despre metodele care ne ajut s putem face astfel de predicii.
Reamintim c predicia pe care o vom realiza este una de tip probabilistic, nu exact sau
precis, ntruct orice fenomen social este determinat de cauze multiple si este practic
imposibil de cunoscut variaia tuturor acestor factori-cauz. Dar, modelele noastre
probabilistice sunt oricum mult mai bune dect situaia n care nu am avea nici un instrument
la dispoziie.
Modelele probabilistice
Aa cum precizam anterior, modelele noastre de predicie sunt probabilistice. S vedem ce
nseamn acest lucru.
S lum un exemplu. Se tie c o component important n vnzarea unui produs o
reprezint suma de bani cheltuit pentru reclam. S presupunem c ne intereseaz s
realizm un model care s prezic, s modeleze deci, nivelul profitului obinut lunar din
vnzarea unui produs, n funcie de cheltuielile alocate pentru reclama produsului respectiv.
Prima ntrebare care ne vine n minte atunci cnd dorim s realizm acest model este dac
si ce fel de relaie exist ntre cele dou variabile (profit si cheltuiala pe reclam)? Putem
prezice exact valoarea profitului cunoscnd cheltuielile pe reclam? Trebuie s admitem c
acest lucru nu este posibil de cunoscut exact pentru c vnzrile depind si de ali factori, alii
dect cheltuielile de reclam (ex. sezonul, starea general a economiei, structura preului,
etc.). Chiar dac am ine cont de toi aceti factori tot nu am putea prezice exact-exact. Vor
exista variaii cauzate pur si simplu de fenomene aleatorii care fie nu pot fi explicate, fie nu
pot fi anticipate. Vom defini aceste influene aleatorii drept eroare aleatorie care va include
totalitatea influenelor ntmpltoare asupra variabilei care ne intereseaz.
Dac ar fi s construim un model exact, care s prezic exact valorile unei variabile
cunoscnd toate valorile factorilor sau variabilelor ce ar putea s o afecteze, atunci am avea
un model deterministic. Spre exemplu, dac considerm c profitul va fi exact de 10 ori mai
mare dect cheltuielile cu reclama, atunci putem scrie:
y=10*x,
unde :
y - arat profitul,
x - cheltuielile de reclam.
Dar ntruct profitul depinde si de ali factori, nu numai de cheltuielile de reclam, atunci
trebuie s folosim un model probabilistic de predicie, care s in cont si de influena
factorilor aleatorii. Un astfel de model ar fi:
y=10*x + eroarea aleatorie
unde: y - arat profitul,
x - cheltuielile de reclam
termenul de eroare aleatorie include toate celelalte influene ce nu pot
111
Nivel stres
Nr. subordonai
26
24
24
36
10
112
Observai c norul de puncte care descrie relaia este cresctor, deci relaia dintre
variabile este pozitiv: cu ct numrul de angajai supervizai creste, cu att si nivelul
stresului managerului care i supervizeaz este mai mare. Mai observai ns c relaia nu
este perfect; punctele nu se niruie toate pe o linie dreapt, ci n jurul unei linii drepte. Ei
bine, sarcina regresiei liniare este tocmai de a gsi aceast linie dreapt fa de care
punctele sunt cel mai puin deprtate.
S vedem care este criteriul dup care stabilim c punctele sunt cel mai puin deprtate de
linie, ceea ce n limbajul tehnic al statisticienilor nseamn a potrivi linia".
Criterii posibile pentru a potrivi linia"
Vom lua pentru aceasta un exemplu mai simplu, cu doar trei puncte.
1. Minimalizarea sumei tuturor erorilor
Aceasta ar nsemna ca abaterile simple de la linie s fie, nsumate, la un nivel minim.
Y
+
+
Am ilustrat mai sus faptul c acest criteriu, de minimalizare a erorilor sau abaterilor simple
de la linie nu este unul potrivit. i n figura din stnga si n cea din dreapta erorile sunt
minime (n sensul c cele pozitive le anuleaz pe cele negative), dar liniile sunt diferite.
Observm astfel c un astfel de criteriu nu distinge ntre liniile care ar potrivi" punctele, ori
noi avem nevoie de o singur linie si numai una.
113
y = * Zx
n cuvinte, formula s-ar traduce astfel: scorul standard prezis pentru variabila y ( y)
obinut de o persoan va fi obinut prin nmulirea scorului standard obinut de aceeai
persoan la variabila x (Zx)cu valoarea coeficientului de regresie standardizat ().
Observai tilda care se afl deasupra scorului standard a variabilei y; ea arat c valoarea
astfel obinut nu este cea real, msurat, ci este valoarea prezis.
Variabila y din model, cea a cror valori dorim s le prezicem, se numete variabil
dependent sau criteriu, n timp ce variabila x, cea pe baza creia facem predicia, se
numete variabil independent sau predictor.
114
y = 0,94 * Zx
Cum interpretm rezultatul? S presupunem c vom dori s prezicem nivelul stresului
managerilor cunoscnd numrul de subalterni supervizai. Deci variabila y este nivelul
stresului, iar variabila x va fi numrul de subordonai. Vom spune c scorul standard care
arat nivelul stresului managerului va fi 0,94 din scorul standard ce descrie numrul
subalternilor.
Cu alte cuvinte, dac unui manager i se mrete numrul subalternilor cu valoarea unei
deviaii standard din acea distribuie (adic scorul su , Zx, va crete cu 1), nivelul stresului
va crete de 0,94 ori. Altfel spus, dac avem o variaie de 100% a numrului de subalterni
repartizai unui manageri, nivelul stresului su variaz doar 94%. De aceea metoda se
cheam regresie, pentru c neavnd o relaie perfect ntre dou variabile (coeficientul de
corelaie s fie +1 sau -1), variaiei dintr-o variabil i va corespunde o variaie mai mic n
cadrul celeilalte, deci variaia regreseaz.
a
X
0
115
La fel, coeficientul B, arat care este valoarea cu care crete Y atunci cnd variabila X
crete cu o unitate. Mai precis, pentru cazul regresiei bivariate, el este dat de formula:
B1 = r
unde
SDy
SDX
SDy
2, 23
= 0,94 *
= 0, 22
SDX
9, 27
B0 = M B1 * M x = 5 0,22 * 24 = 0, 28
Deci, ecuaia de regresie va fi:
= -0,28 + 0,22*Y
Cum interpretm ecuaia? Pur i simplu nlocuim valorile lui X n ecuaie i aflm
valoarea prezis a lui Y. Spre exemplu, un manager care supervizeaz 10 angajai, va avea
valoarea stresului de (-0,28+0,22*10), adic 1,92, n timp ce un manager care supervizeaz
30 angajai va avea stresul 6,32.
Observai c valoarea coeficientului de regresie ne spune mai multe dect valoarea
coeficientului de corelaie: cu cte uniti crete variabila Y (stresul), cnd variabila X
116
Regresia multivariat
Pana acum am prezentat situaia m care am prezis rezultatele obinute de subieci la o
variabil n funcie de rezultatele lor msurate la o alt variabil. Dar n viaa real, o
variabil este n legtur cu mai multe variabile, nu numai cu una singur i atunci predicia
noastr s-ar mbunti dac am ine cont de relaia existent ntre toate variabilele si cea pe
care dorim sa o prezicem.
Coeficientul de corelaie multipl - asocierea dintre o variabil i dou sau mai multe
variabile - notat cu R, ne arat tocmai ct de mult putem noi s prezicem rezultatele
variabilei dependente cunoscnd pe cele ale variabilelor predictori. Mai precis, valoarea lui
R2 arat care este variaia din variabila Y (variabila dependent) explicat de variaia din
variabila (variabilele) X (variabilele predictori sau independente).
Y
Y
a1
a2
a
X2
X1
X
= B0 + B1 * X 1 + B2 * X 2 + ... + Bn * X n
VIRSTINI VENIT
STUDII
25
15
348
10
20
25
20
289
380
8
9
26
28
40
50
12
12
10
5
19
5
4
18
12
10
25
23
22
19
18
9
8
18
15
27
32
11
26
21
15
10
17
18
20
21
420
254
589
624
357
350
289
257
399
289
368
456
425
410
411
411
457
8
7
9
11
5
16
16
16
15
18
14
18
5
6
7
8
7
118
Definirea se face n coloana LABEL, ca mai sus. Nu vom mai face alte modificri.
Observai c toate variabilele sunt dependente (adic le-am msurat pe toate i nici una nu
grupeaz subiecii n vreo categorie) i exprimate numeric, cantitativ. Reamintim c datele
nu sunt reale, ci imaginare.
n acest exemplu, dorim s prezicem cantitatea de igri fumat zilnic de o persoan la
vrsta de 40 ani (NRCIGZI), n funcie de celelalte variabile cunoscute: vrsta de debut a
fumatului, venitul i educaia respectivei persoane.
Vom aplica pentru aceasta regresia liniar. Activarea meniului pentru regresia liniar se
face cu ajutorul comenzii LINEAR din meniul ANALYZE -> REGRESSION, ca n
imaginea de mai jos:
Odat apelat, comanda va activa fereastra urmtoare, pe care o vom explica n detaliu,
dar fr a folosi ulterior toate opiunile (ar trebui s dedicm un ntreg volum numai acestei
metode, foarte complexe).
119
2
3
1
4
5
6
7
10
11
12
121
Vom apsa din nou butonul NEXT si vom construi al treilea si ultimul bloc, punnd n
final, n cmpul cu variabile independente toate cele trei variabile predictor : VIRSTINI,
VENIT, STUDII ca n imaginea de mai jos:
Observai c pentru fiecare dintre blocuri am folosit metoda ENTER, astfel c variabilele
independente din fiecare din ele vor fi tratate ca un grup, iar modelul de predicie va fi
construit pornind de la aceast asumpie.
ntruct folosim metoda clasic, OLS, nu vom activa butonul WLS, care presupune
atribuirea unui numr cu care s ajustm valoarea coeficienilor de regresie. Nu intrm n
detalii privind aceast opiune.
122
dependent.
COLLINEARITY DIAGNOSTIC: pentru regresia multipl permite efectuarea unor
teste de colinearitate (o condiie ce trebuie evitat) ntre variabilele independente.
DURBIN-WATSON: este un test care msoar corelaia serial ntre reziduuri (erori),
fapt ce trebuie evitat pentru a avea un model acurat de predicie.
CASEWISE DIAGNOSTICS: arat cazurile pentru care erorile de predicie depesc 3
abateri standard i care trebuie reconsiderate.
n funcie de necesitile de analiz i avnd descrierea detaliat de mai sus, selectai
opiunile de care avei nevoie. Pentru exemplul nostru nu am bifat dect ESTIMATES,
MODEL FIT, R SQUARE CHANGE i CONFIDENCE INTERVALS.
Urmtoarea opiune se refer la reprezentarea grafic a modelului. Activnd butonul
PLOTS, pe ecran va apare fereastra:
3
4
Aceast fereastr conine opiuni ce permit salvarea n baza de date a unor noi variabile,
bazate pe modelul nostru de predicie sau calculul unor parametri care arat influena unor
cazuri individuale (suspectate de a fi atipice) asupra modelului de predicie, n vederea
eliminrii sau ajustrii lor.
125
2
3
126
127
7
1
pentru fiecare din cele trei modele, iar indicele d precizeaz care este variabila dependent
prezis.
n continuarea output-ului urmeaz un tabel coninnd analiza de variant pentru fiecare
model de regresie, analiz care arat ct de eficient este predicia modelului cunoscnd
variabilele independente, comparate cu situaia n care nu am cunoate nimic.
Acest tabel este prezentat n continuare, dar nu vom intra n detalii legate de el, ntruct nu
am prezentat pn acum analiza de variant (ANOVA).
n continuarea prezentrii rezultatelor urmeaz unul din tabelele cele mai importante ale
output-ului:
130
(8) - pe aceast coloan este trecut pragul de semnificaie al testului t menionat anterior.
Valorile semnificative, ca la orice test statistic, trebuie se situeaz sub nivelul de 0,05.
(9) - ultimele coloane ale tabelului prezentat conin limitele inferioar i superioar ale
intervalului de ncredere pentru coeficienii nestandardizai de regresie, corespunztor
probabilitii de 95%. Cu alte cuvinte, aici sunt trecute limitele de variaie ale
coeficienilor; de exemplu, coeficientul de regresie pentru variabila venit" este cuprins n
proporie de 95% n intervalul 0,009 i 0,132.
Dup prezentarea parametrilor corespunztori modelului, n foaia de rezultate urmeaz un
tabel nu mai puin important referitor la reziduuri, mai precis la valorile variabilei
dependente, cea prezise, comparate cu valorile reale. Aceste date sunt prezentate ntr-un
tabel identic cu cel urmtor:
132
Observm c ea nu respect curba normal, mai ales pentru valorile foarte sczute (sub 1,5 deviaii standard), ceea ce arat c modelul nostru are probleme n a prezice
comportamentul celor care fumeaz puin, dar este bun, pe de alt parte, pentru a prezice
valorile pentru cei care fumeaz mult.
Mai departe, n foaia de rezultate este prezentat graficul probabilitilor cumulate ale
notelor standard ale reziduurilor. Dac acestea s-ar distribui aproximativ normal (pentru un
model bun), ele ar trebui s urmeze linia procentelor cumulate descris de curba normal (o
linie dreapt situat pe diagonala graficului din stnga-jos, pn n dreapta-sus).
133
Dup cum se distribuie punctele noastre pe graficul de mai sus , observm c n partea
inferioar a graficului ( stnga), punctele depesc diagonala, n timp ce n partea superioar
avem o tendin opus. Aceasta arat c pentru valori mici ale variabilei dependente,
modelul nostru de regresie are tendina de a supraestima realitatea, n timp ce pentru valori
mari apare tendina de subestimare a realitii.
Concluzie:
n exemplul analizat pn acum am observat c dintre cele trei variabile independente pe
care le putem folosi ca predictori pentru variabila dependent (numrul de igri fumate
zilnic), vrsta iniial i venitul ne ajut cel mai bine n predicie. Desigur, predicia noastr
nu se suprapune total pe realitate, existnd abateri de la ea (abaterea medie este de 7
igri/zi) i mai apare tendina de a supraestima valorile mici i a subestima valorile mari.
Cu toate acestea , modelul nostru este mai bun dect lipsa acestuia, fapt dovedit de valoarea
destul de ridicat a coeficientului de corelaie multipl ptrat (R2).
134
Pentru a fi mai ilustrativi, vom lucra cu un exemplu, o serie de date care sunt prezentate n
tabelul de mai jos:
LUNI
ANGAJAI
TIPUL
40
30
40
31
21
26
18
28
16
27
20
20
16
20
75
90
100
90
120
120
150
160
162
170
210
220
0
0
1
1
1
0
1
0
0
1
1
0
16
15
15
2
3
11
14
230
240
280
280
310
310
310
1
0
0
1
1
0
0
= BO + B1 * X
unde Y este valoarea prezis a timpului de adoptare a noii strategii manageriale k firm,
X- numrul de angajai al acelei firme, iar B0,B1 sunt coeficienii ecuaiei de gresie.
135
Vom folosi comanda ANALYZE - LINEAR..., care activeaz fereastra tipic pentru
analiza, regresiei liniare, ca mai jos:
Vom selecta variabila LUNI si o vom introduce n cmpul pentru variabile dependente,
iar variabila ANGAJAI - n cmpul pentru variabile independente. Metoda folosit va fi
metoda implicit, ENTER, aa cum apare ea sub cmpul pentru variabile independente.
Activm apoi butonul STATISTICS pentru a solicita calculul anumitor parametri, ca n
imaginea urmtoare:
136
Dup aceste operaiuni apsm butonul CONTINUE i apsm butonul SAVE din
fereastra principal pentru a activa fereastra de mai jos:
De aici vom bifa opiunea STANDARDIZED din cmpul RESIDUALS pentru a salva n
baza de date o nou variabil ce reprezint scorurile standard ale abaterilor modelului nostru
de la realitate".
Vom apsa apoi butonul CONTINUE din aceast fereastr si butonul OK din fereastra
principal astfel ca programul s ne arate foia de rezultate (output).
137
Valoarea pragului de semnificaie, pe care l citim n coloana (1), este mai mic dect
0,05, ceea ce ne permite s afirmm cu o probabilitate de eroare de doar 5% c modelul
nostru explic semnificativ de mult din variaia variabilei dependente.
138
Din coloana notat cu (1) putem deduce ecuaia de regresie, care este:
nr. luni = 37,91 + (-0,09) * nr. angajai
Reamintim c numrul -9,826E-02 nseamn -9,82*102, adic -0,09. Putem folosi aceast
ecuaie pentru a face predicii; astfel, o firm cu 100 de angajai va adopta o inovaie
managerial n aproximativ 29 luni (37,91-9).
Desigur, predicia noastr nu este perfect, n tabelul urmtor, sunt trecute date ce permit
evaluarea abaterilor modelului de la realitate:
139
Aceste date le obinem dac aplicm metoda DESCRIPTIVES din meniul ANALYZE DESCRIPTIVE STATISTICS, ca n imaginea de mai jos:
140
Vom stabili s reprezentm pe axa Y variabila ce conine notele standard ale reziduurilor,
n funcie de variabila ANGAJAI, pe care o vom reprezenta pe axa X. Apsam butonul
OK si n fereastra de output va apare graficul:
Observai c norul de puncte astfel obinut este unul aleatoriu. Deci modelul nostru este
valid.
Pn aici toate sunt bune si frumoase. Am recapitulat noiunile referitoare la regresia
liniar. Dar credei c informaia legat de tipul firmei (de stat sau particular, variabila
TIPUL) nu are nici o importan? Credei c vom obine o aceeai ecuaie de regresie pentru
fiecare tip de firm? Cu alte cuvinte, credei c o inovaie este adoptat cu aceeai vitez la
o firm de stat'ca i la una particular, chiar dac cele dou firme au acelai numr de
angajai?
Pentru a rspunde la aceast ntrebare s reprezentm din nou norul de puncte, dar
marcnd de data aceasta punctele care provin de la firmele de stat i pe cele care . provin de
la firmele particulare.
141
Vom activa din nou comanda SCATTER din meniul GRAPHS i vom introduce variabila
TIPUL n cmpul SET MARKERS BY, ca n imaginea:
Apsam din nou butonul OK si pe ecran va apare acelai grafic ca si cel anterior, doar c
punctele provenite de la cele dou tipuri de firme vor fi acum colorate diferit (verde si rou).
Pentru a le diferenia n alb-negru, am preferat n graficul care este prezentat n continuare
s stabilesc diferite senine pentru cele dou tipuri. Astfel, firmele de stat vor fi reprezentate
cu cercuri, iar cele particulare - cu triunghiuri:
Observai c de data aceasta nu mai avem o dispunere aleatorie a punctelor; ele se separ
clar, astfel c modelul nostru de regresie nu va mai descrie n mod corect relaia care exist
ntre numrul de angajai si viteza de adoptare a inovaiei pentru cele dou tipuri de firme.
Vedem c modelul nostru subestimeaz timpul pentru firmele de stat (abaterile sunt
pozitive, situate deasupra axei) si l supraestimeaz pe cel din firmele particulare (punctele
sunt situate n majoritate dedesubtul axei).
Din aceast cauz este necesar s inem cont de tipul firmei (variabila TIPUL) n ecuaia
noastr de predicie.
142
Modelul dummy
O variabil dummy este o variabil categorial care poate s ia doar valorile 0 si l,
atribuite n mod convenional doar pentru dou din strile variabilei, n cazul nostru,
valoarea 0 este atribuit firmelor de stat, iar valoarea l - firmelor particulare (nu conteaz
cui atribuim valorile, conteaz ca ele s fie l si 0). Este posibil folosirea si a altor valori
dect l si 0, dar vei vedea n continuare care este avantajul acestei notaii.
Mai precizm c n eventualitatea n care avem o variabil categorial ce are mai mult de
dou categorii (s zicem variabila studii", cu trei categorii: studii primare, medii i
superioare), ea trebuie reprezentat prin variabile dummy cu numai dou categorii. Ca
regul, trebuie s tii c avem nevoie de n-1 variabile dummy pentru a reprezenta o
variabil categorial cu n categorii. De exemplu pentru variabila studii, care are trei
categorii, vom avea nevoie de dou variabile dummy, prin a cror valori combinate diferit
rezult toate valorile variabilei categoriale:
STUDII
DUMMY1
DUMMY2
primare
medii
1
0
0
1
superioare
143
Observaii
X2 = 0
X2 = 1
Y=B0+B1*X1
Y = (B0+B2)+B1*X1
Pentru a vedea dac obinem ceva n plus prin folosirea variabilei dummy, vom introduce
cele dou variabile independente ntr-un alt bloc, apsnd butonul NEXT din fereastra
principal a comenzii de regresie (revedei prile anterioare ale capitolului n caz c ai
uitat). Comenzile celelalte rmn neschimbate, doar c din fereastra butonului
STATISTICS vom bifa opiunea R SQUARED CHANGE care arat ct de mult se
mbuntete modelul folosind nc o variabil independent (n cazul nostru pe cea
dummy). Apsam CONTINUE, apoi OK din fereastra principal si vom obine foaia de
rezultate (output).
Vom analiza numai ceea ce ne intereseaz n mod special din output. Astfel, ne
intereseaz tabelul prezentat n continuare, care arat dac modelul ce conine si variabila
dummy este mai eficient dect cel care conine numai variabila ANGAJAI.
144
Dou sunt elementele ce ne permit s estimm c modelul cu variabila dummy este mai
eficient:
(1)- observai c valoarea ajustat a coeficientului ptrat de corelaie multipl este mai mare
n al doilea model.
(2)- nu numai c valoarea lui R2 este mai mare pentru modelul dummy' dar saltul" de la un
model la altul este statistic semnificativ.
Pn aici, concluzia este c variabila dummy, tipul firmei, ne mbuntete predicia.
Urmtorul tabel care ne intereseaz este cel ce prezint coeficienii ecuaiilor de regresie
corespunztoare celor dou modele:
145
Valorile lui X2
X2 = 0
= 42.79+ (-0.10) * X1
Observaii
Este ecuaia pentru firmele de stat.
Este ecuaia pentru firmele particulare.
= 35.58 + (-0.10)* X1
X2 = 1
Revenind la tabelul din output, de la pagina anterioar, elementele (2) si (3), precizeaz
rezultatele testului t, care ne arat importana relativ a coeficienilor de regresie.
Dac ar fi s reprezentm grafic liniile corespunztoare modelului de predicie ce
corespunde fiecrui tip de firm n parte, atunci am avea graficul:
LUNI
F = 42.79 + (-0.10)*X1
(FIRME DE STAT)
F = 35.58 + (-0.10)*X1
(FIRME PARTICULARE)
ANGAJAI
146
Din urmtorul tabel al foii de rezultate (prezentat mai sus), ne intereseaz s vedem dac
precizia prediciei noastre a crescut. Rspunsul este pozitiv la aceast ntrebare: comparnd
elementul (1) din tabelul de mai sus cu elementul similar din tabelul de la pagina 145 vom
vedea c abaterea de la realitate" s-a redus de la 5,18 luni la 3,68 luni atunci cnd am luat
n calcul si variabila dummy, deci erorile n predicie au sczut. Observai c si intervalul
delimitat de erorile minime si maxime a sczut.
O alt modalitate de a vedea dac ne-am mbuntit precizia folosind variabila dummy
este graficul probabilitilor cumulate ale reziduurilor standardizate:
147
Dar mai exist si alte dou variante de modele ce pot exista atunci cnd folosim variabile
dummy: modelul n care avem constante identice (graficul din stnga, prezentat mai jos) si
modelul n care avem interaciune (graficul din dreapta, unde att constantele, ct si pantele
liniilor sunt diferite).
X2 = 1
Observaii
= B0+B1*X1
=(B0+B2) + (B1+B3)*X1
Observai c n acest caz diferena dintre constantele celor dou ecuaii este B2, iar
diferena dintre pantele celor dou linii este dat de coeficientul B3.
148
ANALIZA DE VARIANT
(sau cum difereniem n contexte mai complexe)
Cuprins:
- Analiza de variant - elemente teoretice
Folosirea SPSS: Meniul ANALYZE - COMPARE MEANS - ONEWAY ANO VA
- Folosirea SPSS: Meniul ANALYZE - GENERAL LINEAR MODEL - UNTVARIATE
149
ANOVA
ANOVA nu este numele vreunui italian; este doar acronimul pentru analiza de variant
(din englezescul ANalysis Of VAriance). Pentru a putea deprinde logica acestei metode
statistice, s lum un exemplu imaginar. S presupunem c un cercettor este interesat n a
arta c oamenii de pe trei continente (s zicem Asia, America de Nord si Africa) ar fi
diferii ntre ei din punctul de vedere al nlimii, n sensul c nlimea depinde de
continentul n care triete persoana.
Cum ar putea aceast persoan s demonstreze acest lucru? Dac nlimea nu ar fi o
entitate care variaz, atunci ar fi simplu: am lua cte un individ din fiecare continent, i-am
msura pe cei trei si am stabili dac exist diferene. Dar nlimea este o proprietate care
variaz nu numai cnd comparm persoanele de la un continent la altul, ci si pentru indivizii
din interiorul unui continent.
150
Astfel, dei presupunem c asiaticii vor fi n general mai mici de statur dect
americanii, de exemplu, n realitate vom ntlni si asiatici mai nali dect unii americani, si
invers.
grupuri o depete pe cea intra-grupuri vom putea distinge bine ntre cele trei grupuri.
Analiza de variant, ANOVA, realizeaz tocmai acest lucru: calculeaz raportul dintre
variaia provocat de diferenele inter-grupuri i variaia cauzat de diferenele intra-grup i
stabilete dac acest raport este suficient de mare pentru a putea distinge ntre grupuri.
S lum n continuare un exemplu numeric simplu pentru a vedea exact logica ANOVA
n aciune.
Exemplu:
Un psiholog social este interesat s msoare influena informaiilor anterioare
(dac are sau nu antecedente) pe care o persoan le are despre un infractor n
evaluarea gradului de vinovie ntr-o infraciune. Astfel, la 15 subieci le este
artat o caset video care prezint procesul unei persoane condamnat pentru
falsificare de cecuri bancare. Anterior subiecii au primit dosarul inculpatului
care coninea aceleai informaii pentru toi subiecii, cu excepia faptului c
pentru 5 dintre acetia inculpatul era prezentat ca avnd antecedente, pentru ali
5 - era menionat c inculpatul era la prima abatere, iar pentru restul de 5 subieci
nu era fcut nici o meniune (grupul de control). Dup vizionarea casetei,
subiecii trebuiau s evalueze gradul de vinovie al persoanei inculpate pe o scal
de la l - sunt complet sigur C inculpatul e inocent" pn la 10 -sunt complet
sigur c inculpatul e vinovat".
Scopul cercetrii este de a arta c gradul de vinovie evaluat de subiecii din cele trei
grupuri este diferit semnificativ. Ipoteza de nul n acest caz este c cele trei grupuri de
subieci nu difer semnificativ, deci ele provin de fapt din aceeai populaie.
Rezultatele acestui studiu imaginar sunt prezentate n tabelul de mai jos:
Grupul cu antecedente"
Evaluarea
10
7
5
10
8
40
Deviaiil
e de la
media
grupului
+2
-1
-3
+2
0
0
fr antecedente"
Deviaiile
ptrate
4
1
9
4
0
18
Ml=40/5=8
Sl2=18/4=4,5
Grupul
Evaluarea
5
1
3
7
4
20
Devia
tiile de
la media
grupului
+1
-3
-1
+3
0
0
M2=20/5=4
S22=20/4=5
Grupul de control
Deviaiile
ptrate
Evaluarea
1
9
1
9
0
20
4
6
9
3
3
. 25
Deviaiil
e de la
media
grupului
-1
+1
4
-2
-2
0
Deviaiile
ptrate
1
1
16
4
4
26
M3=25/5=5
S32=26/4=6,5
Pentru fiecare grup n parte am calculat media i varianta populaiei din care presupunem
c provine acest grup. Reamintim c estimarea variantei populaiei din care face parte un
grup pe baza rezultatelor din acel grup se face folosind formula:
2 =
SS
SS
=
N 1 df
152
Pe baza ipotezei de nul, c cele trei grupuri provin toate din aceeai populaie, putem
calcula varianta acestei populaii totale care este determinat de variantele intra-grup.
Aceasta va fi de fapt media aritmetic a celor trei variante intra-grup:
MSw=(Sl2+S22+S32)/3=(4,5+5+6,5)/3=16/3=5,33
Simbolul w" desemneaz tocmai termenul intra-grup (din cuvntul englezesc withingroups).
Acum ar trebui s determinm componenta inter-grupuri a variantei populaiei totale.
Vom calcula aceast valoare pornind de la valorile mediilor fiecrui grup n parte si
considernd abaterile acestora de la marea medie.
Tabelul urmtor ne ajut s realizm acest lucru:
Mediile
grupurilor
(M)
4
8
5
17
GM=17/3=5,67; S2=8,67/(3-l)=8,67/2=4,34
Acum trebuie s estimm varianta populaiei totale cauzat de diferenele dintre mediile
celor trei grupuri. Acum trebuie s inversm unul din procedeele prezentate n capitolul
patru (paginile 92-94). Acolo estimam varianta unei populaii (distribuii) de medii pornind
de la rezultatele unei populaii individuale. Pentru aceasta, mpream varianta populaiei de
cazuri individuale la numrul de cazuri din fiecare eantion, conform formulei:
2
m
unde m este varianta distribuiei de medii (eantioane), iar 2 este varianta populaiei
de cazuri individuale.
n cazul nostru, situaia este tocmai invers: cunoatem varianta distribuiei de medii
(notat cu S ) si dorim s o estimm pe cea a populaiei. Deci va trebui s nmulim aceast
variant cu numrul cazurilor din fiecare eantion (n exemplul de mai sus, cu 5, pentru c
avem 5 subieci n fiecare eantion).
Astfel,
MSB= S2*N=4,34*5=21,7.
Acum avem toate elementele - cele dou componente ale variantei populaiei totale pentru a calcula testul F (ANOVA).
153
F =
MSB
M SW
Numele testului vine, evident, de la numele descoperitorului su, Sir Ronald Fisher.
Distribuia testului (dup care se calculeaz probabilitatea ca un anume rezultat s fie rodul
ntmplrii sau al unor factori de variaie sistematic) este prezent de obicei la sfritul
oricrui manual de statistic si se calculeaz n funcie de doi parametri: gradele de libertate
inter-grup (valoare dat de numrul de grupuri minus unu) si gradele de libertate intra-grup
(valoare dat de numrul total de subieci mai puin numrul grupurilor). Se alege astfel
valoarea-prag pentru care respingem ipoteza de nul si acceptm ipoteza de cercetare (la fel
ca si testul t). Evident, aceast valoare trebuie s fie supraunitar.
n cazul exemplului nostru, F=21,7/5,33=4,07. Valoarea-prag a lui F trebuie cutat n
tabele n dreptul lui 2 (gradele de libertate inter-grup) si 12 (gradele de libertate intra-grup),
pentru un prag de semnificaie de 0,05.
ntruct aici obinem valoarea 3,89, iar rezultatele noastre sunt mai mari, mai extreme
dect valoarea prag, vom putea respinge ipoteza de nul conform creia cele trei grupuri
provin din aceeai populaie i accepta ipoteza de cercetare care afirm c ele provin din
populaii diferite. Implicit, acest rezultat susine ideea c informaiile anterioare au
influenat semnificativ evaluarea vinoviei inculpatului.
154
Sal_ini
Sal_fin5
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
158
165
145
189
198
197
168
201
185
156
175
198
199
201
201
220
210
214
205
301
332
341
221
206
298
301
332
358
598
654
214
258
245
268
198
158
199
201
220
205
203
185
168
178
201
203
225
260
280
274
298
305
582
542
392
445
401
502
403
503
402
854
954
425
725
625
Exist mai multe tipuri de analiz de variant. Cel despre care am discutat pn n prezent
se mai numete ANOVA unifactorial, ntruct evideniem existena/influenta
unui singur factor de variaie (n exemplul nostru, informaia anterioar) asupra unei
variabile dependente.
S ncrcm baza de date (dac ai salvat-o n cursul parcurgerii capitolului 5) sau s o
reintroducem n computer si s definim valorile variabilei STUDII dup cum urmeaz:
155
Observai c avem trei variabile n baza de date: STUDII (variabil independent, cu trei
grade de intensitate, deci care mparte subiecii n trei grupuri), SAL_INI (salariul iniial la
angajare, exprimat n mii lei, variabil dependent) si SAL_FIN5 (salariul dup cinci ani,
exprimat tot n mii lei, tot variabil dependent).
Scopul cercetrii este s stabilim dac variabila independent, nivelul studiilor subiecilor,
influeneaz nivelul salarial al subiecilor (1-am luat n calcul numai pe cel iniial).
ntruct avem trei grupuri vom aplica testul F, ANOVA unifactorial. Dac am fi avut de
comparat doar dou grupuri, atunci am fi aplicat, ca de obicei, testul t.
ntruct n esen ajungem s stabilim dac grupurile difer ntre ele, deci dac au mediile
diferite, comanda pentru ANOVA unifactorial o vom gsi n submeniul COMPARE
MEANS din meniul ANALYZE, ca n imaginea de mai jos:
1
3
5
156
Nu v speriai c sunt att de multe opiuni, att de multe teste! Toate fac n principiu
acelai lucru: ajusteaz sau confirm faptul c diferenele obinute pe ansamblu prin analiza
testului F se regsesc si la nivelul comparaiilor dintre grupuri, luate dou cte dou. Este
logic s aplicm aceste teste. Gndii-v c am aplica ANOVA unifactorial pentru o
variabil care are 100 de grade de intensitate, deci vom avea 100 de grupuri ce vor trebui
comparate nu numai n ansamblu (ceea ce face testul F), ci si dou cte dou (cu testul t, de
exemplu). Chiar dac n realitate nu variabila independent nu ar avea nici un efect (fapt
confirmat sau infirmat de testul F), la comparaiile dintre grupuri luate dou cte dou avem
anse ca mcar pentru cinci dintre acestea s gsim diferene, care apar din ntmplare.
Astfel, pragurile de semnificaie pentru aceste teste t trebuie ajustate n funcie de numrul
grupurilor, tocmai ceea ce realizeaz testele de comparaie multipl din fereastra POSTHOC.
n cazul nostru vom alege BONFERRONI, unul din testele obinuite n acest caz.
Dup ce apsai CONTINUE i revenii n fereastra principal, activai butonul OPTIONS
pentru a vedea c putei calcula unii parametri descriptivi bifnd opiunile din fereastra care
astfel se deschide:
158
Apsai din nou butonul CONTINUE si apoi butonul OK din fereastra principal pentru
a activa foaia de rezultate.
S analizm fiecare component a foii de rezultate. Mai nti, apare un tabel, precum cel
care urmeaz si care este tabelul principal al analizei:
159
Tabelul urmtor din foaia de rezultate precizeaz tocmai acest lucru, fcnd comparaiile
multiple ntre toate perechile de dou grupuri (testul Bonferroni).
Vom introduce variabila independent n cmpul notat CATEGORY AXIS, iar variabila
dependent (SAL_INI) va fi introdus n cmpul VARIABLE. Reamintim c, la nceput,
acest cmp nu este activ. Pentru a-1 putea activa este necesar s marcai opiunea OTHER
SUMMARY FUNCTION situat deasupra sa.
Imediat ce am fcut aceste modificri, apsam butonul OK si graficul cu bare va apare
imediat n foaia de rezultate, ca n imaginea urmtoare:
efecte de interaciune: msoar influena combinat a dou sau mai multor variabile
independente asupra variabilei dependente.
Nu vom insista asupra detaliilor legate de combinaiile acestor efecte pe care le putem
ntlni n tiinele sociale. O trecere detaliat n revist a acestora poate di consultat n
volumul Metodologia cercetrii n tiinele sociale (Cornel Havrneanu, 2000, EROTA
TIPO).
Noi vom prezenta n continuare modul de folosire al programului SPSS pentru calcularea
testului F n analiza de variant simplu factorial.
Vom utiliza pentru aceasta o baz de date imaginar, referitoare la nota obinut de nite
studeni la un examen, n condiiile n care inem cont de ziua examinrii i nivelul lor de
anxietate.
162
NOTA
ANX
ZI EXAM
9
8
10
9
10
6
8
7
7
1
1
1
1
1
1
1
2
2
1
1
1
1
1
1
1
1
1
6
5
6
7
8
8
8
7
10
7
8
7
8
9
6
5
7
5
6
5
8
2
2
2
2
2
2
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
163
Odat introdus n computer baza de date ar trebui s arate ca n imaginea de mai jos, n
condiiile n care activm comanda VALUE LABELS din meniul VIEW:
Scopul cercetrii noastre ar fi s artm care este efectul nivelului anxietii si a zilei de
examinare (la nceputul sau la sfritul sptmnii) asupra notei obinute de studeni la
examen. Desigur, nota la un examen nu depinde prea mult de aceti factori, dar folosind
ANOVA simplu factorial putem vedea n ce msur ei o influeneaz.
Activarea comenzilor pentru ANOVA simplu factorial se face din meniul ANALYZE GENERAL LINEAR MODEL - UNIVARIATE, ca n imaginea de mai jos:
Faptul c metoda se gsete sub meniul GENERAL LINEAR MODEL, arat legtura
dintre analiza de variant si regresie (pe care nu o vom discuta aici), iar opiunea
UNIVARIATE indic faptul c avem doar o singur variabil dependent pe care o
msurm.
164
3
1
4
5
Vom explica aceast fereastr n detaliu, mai puin butoanele cu opiuni din partea sa
dreapt pe care le vom detalia mai trziu:
(1)- este cmpul ce conine variabilele din baza de date
(2)- aici se introduce variabila dependent. Observai c avem loc doar pentru o singur
variabil dependent
(3)- n acest cmp introducem variabilele independente (factorii) care ne intereseaz si
al cror efect l controlm sau l considerm fix, necauzat de ntmplare
(4)- variabilele ce pot fi considerate independente, care nu ne intereseaz n mod direct sau
a cror aciune nu o putem controla se introduc n acest cmp
(5)- dac n studiu avem variabile independente sau alte variabile dependente care bnuim
c ar fi n legtur sau ar influena variabila dependent ce ne intereseaz, le vom introduce
n acest cmp. Prin aceast operaiune vom putea s vedem dac factorii fici (cei din
cmpul FIXED FACTORS) influeneaz variabila dependent indiferent de aciunea
factorilor covariani.
(6)- aici se trec valorile pe care le putem folosi atunci cnd bnuim c unele variabile
independente (factori) ar corela ntre ei ceea ce ar afecta rezultatele. Este ns o opiune
pentru utilizatorii avansai si recomandm nefolosirea ei fr cunoaterea precis a
semnificaiei sale.
165
n cazul nostru, un exemplu simplu, vom considera cele dou variabile independente ca pe
factori fici i i vom introduce n cmpurile corespunztoare, ca n imaginea urmtoare:
Observai c n partea dreapt fereastra principal are o serie de butoane ce conin opiuni
complexe de analiz. Le vom discuta pe rnd, ncercnd s explicm ct mai multe din
opiunile aprute pe ferestrele acestor butoane. Cu toate acestea, precizm de la nceput c
nu vom folosi n analiz att de multe opiuni; ele sunt pentru utilizatorii avansai si pentru
design-uri experimentale mult mai complexe, n situaiile cele mai frecvente, opiunile de
care avem nevoie sunt mult mai puine.
1
Butonul MODEL activeaz o fereastr precum cea prezentat mai sus. Opiunile din
aceast fereastr folosesc la construirea unor modele care intereseaz pe experimentator, n
condiiile n care situaia investigat este prea complicat (ex. sunt foarte multe variabile
luate n calcul) si mai importante sunt nite modele mai simple, folosind factori mai puini.
S analizm puin fereastra:
(1)- este opiunea marcat implicit, care ia n calcul toate efectele posibile si toate
combinaiile de factori. Pentru modelele simple este recomandat s o lsai aa
(2)- n cazul n care dorii s simplificai modelul cu care lucrai i v intereseaz numai
166
anumite efecte sau numai anumii factori vom bifa aceast opiune care va activa automat
cmpurile i butoanele ce se gsesc dedesubt.
(3)- folosind opiunile ce se deschid din cmpul n care scrie INTERACTION, alegem
efectele care ne intereseaz s le analizm, iar cu ajutorul butonului cu sgeat vom selecta
factorii pentru care dorim s se calculeze acele efecte.
(4)- sunt opiuni ce permit alegerea tipului de interaciune dintre variabilele independente
(ct de complex s fie interaciunea) i permit calculul unor coeficieni de regresie ai
modelului (am precizat anterior c ntre regresie i ANOVA exist o legtur strns)
Pentru exemplul nostru, nu vom alege nici una din opiunile din aceast fereastr; vom
lsa marcat doar opiunea implicit, FULL-FACTORIAL. Apsai CONTINUE si
revenii n fereastra principal, pentru a activa urmtorul buton, CONTRAST, care v-a
deschide o fereastr ca cea de mai jos:
De opiunile acestei ferestre avem nevoie: ele compar ntre ele diferitele grupuri rezultate
din mprirea subiecilor dup valorile sau categoriile variabilelor independente. Observai
c doar variabilele independente sunt trecute aici. Cum se lucreaz cu aceste opiuni?
Alegei mai nti variabila independent pentru care dorii s calculai contrastul (diferena
dintre nivelele sale de variaie). Apoi, alegei tipul de contrast din cmpul CONTRAST. De
aici, tipul de contrast recomandat este DIFFERENCE. Ca exemplu, am ales, variabila
ANX, nivelul anxietii. Prin marcarea tipului de contrast prin diferen, noi cerem
programului s vad dac ntre cele dou nivele de anxietate pe care le pot avea subiecii
notri exist diferene n ceea ce privete notele obinute (adic vom verifica dac cei mai
anxioi obin note semnificativ diferite de cei mai puin anxioi).
Pentru a activa un anume tip de contrast, dup ce 1-ai ales trebuie s apsai butonul
CHANGE. Mai putei modifica i categoria de referin, alegnd-o pe prima sau pe ultima
dintre categoriile ce descriu o anume variabil independent. Apsai CONTINUE dup ce
ai ales tipul de contrast pentru a reveni la fereastra principal.
167
Butonul PLOTS, care activeaz fereastra de mai jos, este dedicat reprezentrilor grafice:
168
Apsam apoi butonul ADD, care abia acum s-a activat, iar imaginea va fi:
n acest fel putem realiza mai multe grafice, ntruct dup apsarea butonului ADD,
cmpurile ferestrei s-au golit.
Revenim din nou n fereastra principal pentru a activa butonul POST-HOC care va
deschide fereastra:
Acest buton are opiuni similare cu butonul cu acelai nume din fereastra ANOVA
ONE-WAY. El se folosete numai atunci cnd una sau mai multe dintre variabilele
independente are/au mai mult de dou nivele de variaie (deci mpart subiecii n mai mult
de dou grupuri). Se vor realiza astfel toate comparaiile ntre toate perechile de grupuri i
aceste teste ajusteaz pragul de semnificaie n funcie de numrul grupurilor de comparat
(revedei ANOVA unifactorial dac ai uitat la ce folosesc aceste teste). Ca i n cazul
anterior, vom recomanda de aici folosirea testului Bonferroni.
Pentru exemplul nostru nu avem nevoie de comparaii POST-HOC. De altfel, dac marcai
vreo opiune aici, programul va afia pe foaia de rezultate un mesaj de eroare prin care v
spune c nu a putut aplica testele ntruct sunt mai puin de trei categorii ale
variabilei/variabilelor independente.
Deci vom reveni n fereastra principal fr s activm nici o opiune. Butonul SAVE din
fereastra principal va activa o fereastra precum cea prezentat n continuare:
169
Observai c opiunile de aici sunt identice cu cele ale butonului SAVE din fereastra
pentru regresia liniar. Nu vom mai comenta opiunile de aici, care sunt identice cu cele de
la regresie; menionm doar faptul c ele faciliteaz tratarea analizei de variant ca un
model particular de regresie. Nu recomandm folosirea opiunilor de aici dect celor care
cunosc bine regresia.
Urmtorul buton din fereastra principal, care activeaz o fereastra precum cea de mai jos,
este unul specific analizei de variant simplu factoriale, aa c l vom analiza mai n detaliu.
2
1
Ca orice buton denumit OPTIONS din SPSS si acesta de fa ofer opiuni pentru
calcularea anumitor parametri statistici. Astfel:
(1)- prezint toate combinaiile de factori pentru care avem grupuri diferite de subieci si va
permite apoi calcularea mediei fiecrui grup de subieci n parte. Opiunea OVERALL se
refer la media calculat atunci cnd subiecii nu sunt mprii n grupuri, cnd rezultatele
lor sunt luate n calcul nedifereniind ntre nivelurile factorilor din model
170
(2)- este cmpul n care se trec factorii pentru care dorim s calculm mediile grupurilor de
subieci
(3)- reprezint opiuni ce permit calcularea mai multor parametri.
Dintre toate, ne intereseaz calculul parametrilor descriptivi (media, deviaia
standard, minimul si maximul), precum si testele de omogenitate (acestea trebuie s nu fie
semnificative pentru a putea aplica ANOVA simplu factorial).
Dac selectai corect opiunile corespunztoare pentru aceast fereastr, atunci ea ar trebui
s arate precum cea de mai jos:
171
Astfel, primul tabel precizeaz numrul de subieci folosii n cercetare pentru fiecare
grup n parte determinat de nivelurile fiecrei variabile independente (factor). Al doilea
tabel precizeaz mediile totale (cele din treimea inferioar a tabelului), precum si cele
corespunztoare fiecrui subgrup de subieci, subgrup determinat de categoriile factorilor
din model.
Ceea ce ne-a fost prezentat pn acum este rezultatul opiunilor marcate de noi din
fereastra butonului OPTIONS.
Mai departe, n foaia de rezultate sunt prezentate elementele cele mai importante ale
outputului, rezultatele testului F:
Tabelul cu testul lui Levene reprezint tocmai testul de omogenitate de care vorbeam la
fereastra butonului OPTIONS.
n analiza de variant simplu factorial, cele mai importante elemente se refer la testul F,
prezentat n tabelul anterior. Din tot tabelul pe noi ne intereseaz numai cele trei linii,
marcate prin acolade.
(1)- arat variabilele (factorii) ale cror efecte le lum n calcul. Astfel, linia cu ANX arat
efectul principal al acestui factor, indiferent de aciunea celuilalt factor, linia ZI_EXAM
arat efectul principal pentru aceast variabil, iar linia ANX*ZI EXAM se refer la efectul
de interaciune dintre cei doi factori, dac ei i combin efectele atunci cnd acioneaz
asupra variabilei dependente .
(2)- aici sunt prezentate testele sau notele F corespunztoare efectelor principale si de
interaciune din model
(3)- acestea sunt pragurile de semnificaie pentru testele F corespunztoare. Analiza acestui
tabel, n exemplul de fa, arat c dintre cele trei note sau teste F, doar unul singur este
semnificativ (p<0,05) si anume cel corespunztor rndului ANX, deci cel corespunztor
efectului principal al variabilei anxietate". Restul efectelor sunt nesemnificative.
172
Interpretarea general a acestui efect principal este aceea c anxietatea influeneaz nota
obinut de subieci la examen, indiferent de ziua de examinare.
Pentru a vedea n ce fel nivelul anxietii afecteaz nota la examen, trebuie s ne uitm n
tabelele de contrast (opiunile activate din fereastra butonului CONTRAST):
Din primul tabel de mai sus vedem c testul de contrast a fcut diferena dintre nota la
examen obinut de subiecii cu nivel ridicat de anxietate si cei cu un nivel sczut (LEVEL
2 vs. LEVEL1). Aceast diferen a fost comparat cu situaia n care cele dou grupuri ar
fi obinut valoarea zero (HYPOTHESIZED VALUE). Pragul de semnificaie (notat cu
SIG) ne arat c diferena a fost semnificativ, iar sensul diferenei (faptul c am obinut o
valoare negativ, -1,93) indic faptul c cei cu anxietate mare (LEVEL 2) aveau note
semnificativ mai mic dect cei cu anxietate mic (LEVEL 1).
n tabelul al doilea este prezentat suportul statistic pentru testul de contrast; observai c si
aici pragul de semnificaie este mai mic de 0,05, deci diferenele constatate sunt si ele
semnificative, anxietatea afectnd nota obinut la examen.
173
Tabelele urmtoare (prezentate mai sus) reiau analiza contrastelor pentru cellalt factor,
ziua examinrii. De observat c aici nu mai avem diferene semnificative (fapt confirmat si
de lipsa unui efect principal pentru aceast variabil), deci ziua examinrii nu afecteaz nota
obinut.
Tabelele ce urmeaz n continuare prezint mediile obinute pe ansamblu (tabelul l,
obinut pentru c am selectat OVERALL din butonul OPTIONS), obinute pentru fiecare
factor n parte (tabelele 2 si 3) si cele pentru grupurile de subieci rezultate prin combinarea
nivelurilor celor dou variabile independente.
n cazul n care nu tii s interpretai sensul diferenelor la testele de contrast sau n cazul
interaciunii variabilelor, aceste tabele cu mediile pe grupuri si subgrupuri v vor ajuta s
stabilii n ce sens difer mediile.
Pe lng valorile mediilor, tabelele urmtoare mai prezint si deviaiile standard, precum si
limitele valorii medii corespunztoare intervalului de ncredere de 95%.
174
175
176
Datele neparametrice
Mai frecvente n sociologie dect n psihologie, scalele de msur ordinale sau nominale
stau la baza conceptelor msurate prin cele mai multe dintre chestionare. Dat fiind c avem
de-a face cu scale nominale sau ordinale, parametrii obinuii pe care i-am folosit pn
acum n analiz (media, abaterea standard, etc.) nu ne mai sunt de nici un folos aici.
Datele pe care le obinem folosind aceste scale de msur nu mai pot fi deci analizate cu
metodele prezentate pn acum, ntruct ele nu se distribuie normal si nici nu sunt
corespunztoare unor variabile continui.
Cum le putem analiza n acest caz? ntruct n analiza lor nu ne mai putem folosi de
parametrii care descriu curba normal aceste date se numesc date neparametrice. Ele se
analizeaz pornind de la frecvenele de apariie ale diferitelor categorii ce sunt comparate cu
frecvene teoretice de apariie sau de la probabilitile de apariie ale acestor categorii.
Pentru datele neparametrice avem nevoie de teste specifice, denumite deci neparametrice;
chiar dac aplicarea acestor teste e mai facil dect folosirea testelor parametrice ntruct nu
exist restricii legate de distribuirea normal a rezultatelor, principalul dezavantaj al
acestor metode const n faptul c pot eua mai uor, comparativ cu testele parametrice, n a
demonstra diferentele acolo unde acestea exist n realitate. De aceea, recomandarea noastr
este ca atunci cnd v concepei instrumentele de msur pentru cercetrile voastre s
utilizai n special scalele de interval i de raport i nu pe cele nominale sau ordinale.
De exemplu, n loc s msurai preferina unei persoane pentru un anume tip de muzic
folosind o scal ordinal de tipul deloc, puin, mediu, mult, foarte mult", este mai indicat
s msurai preferina pe o scal de interval de tipul deloc l-2-3-4-5foarte mult" solicitnd
subiecilor s ncercuiasc un numr pe scal corespunztor preferinei. date fiind capetele
intervalului, n acest fel, nu numai c msurai mai precis, dar putei detecta mai uor
diferenele, acolo unde ele exist, folosind metodele parametrice.
n continuare, vom prezenta doar cteva din metodele neparametrice, foarte pe scurt, fr
a intra foarte mult n detaliile teoretice privind aceste teste. Prezentarea va cuprinele trei
pri: explicarea principiului de baz al testului, aplicarea sa folosind SPSS i interpretarea
rezultatelor.
Pentru toate metodele neparametrice vom folosi baza de date intitulat voter.sav care se
gsete n directorul unde este instalat programul SPSS, fcnd parte din pachetul software
care se livreaz mpreun cu acest program.
Aceast baz de date conine rezultate reale ale unui eantion de 1847 de alegtori
americani. Sunt ase variabile msurate:
1.PRES92 - cu cine a votat alegtorul la alegerile prezideniale din 1992 (cu BUSH,
PEROT sau CLINTON) - variabil nominal
2.AGE - vrsta respondentului - variabil msurat cantitativ
3.AGECAT - categoria de vrst - variabil ordinal
4.EDUC - anii de educaie - variabil cantitativ
5.DEGREE - tipul de educaie - variabil ordinal
6.SEX - sexul respondentului - variabil nominal.
177
ntruct n aceast cercetare predomin variabilele ordinale i nominale, testele cele mai
potrivite pentru analiza acestor rezultate vor fi cele neparametrice.
'
178
n fereastr vom selecta variabila de interes (sexul subiecilor) si o vom trece n cmpul
de analizat. Observai c putem folosi orice proporie dorim (n caz c nu dorim s utilizm
distribuia standard de 50/50) modificnd numrul din cmpul TEST PROPORTION. Mai
mult, programul ne permite s analizm si o variabil cantitativ definind o valoare limit
fa de care dorim s testm distribuia proporiilor.
De exemplu, poate c suntem interesai s vedem dac alegtorii americani sub 40 de ani
sunt semnificativ mai muli sau mai puini dect cei peste 40 de ani. Astfel, vom selecta
varabila AGE (cantitativ), iar n cmpul DEFINE DICHOTOMY vom alege valoarea 40
si o vom trece n cmpul din dreptul opiunii CUT POINT (dup ce n prealabil o marcm).
Dar n cazul de fa ne limitm la a testa dac n eantionul nostru proporia de femei si
brbai este 50/50.
Interpretarea
Primele trei coloane ale tabelului sunt descriptive, n timp ce ultimele trei conin
elementele ce permit interpretarea testului. Vedem astfel c proporiile observate pentru
distribuia pe sexe sunt 0,44/0,56. Acestea, comparate cu distribuia 0,50/0,50 sunt diferite
semnificativ, dup cum testul de semnificaie (prezentat n ultima coloan) ne arat. Notai
c valoarea sa este mai mic de 0,05, deci proporiile din eantionul nostru difer
semnificativ de cele ideale, femeile predominnd ntr-o proporie semnificativ.
179
180
3 Interpretarea
Rezultatul testului este prezentat sub forma a dou tabele, precum cele de mai
n primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvena
observat, cea teoretic la care se face raportarea i abaterile frecvenei observate de la
frecvena teoretic (coloana RESIDUALS).
Observai aici c, n timp ce frecvena celor ce voteaz cu Bush nu difer prea mult de la
frecvena teoretic, cei care voteaz cu Perot sunt foarte puini, iar cei care l voteaz pe
Clinton sunt foarte muli.
Valoarea statistic a testului, prezentat n tabelul al doilea, este semnificativ (rndul
ASYMP. SIG), ceea ce nseamn c votanii au o preferin format, iar din datele obinute
n primul tabel tim c ei sunt orientai ctre Clinton (ceea ce s-a i confirmat la alegerile
prezideniale din SUA, n 1996).
181
3 Interpretarea
S alegem pentru analiza noastr doar testul Mann-Whytney. Rezultatele sunt prezentate
mai jos:
183
constantinescu
nrsub
vot
2
3
4
5
6
7
8
1
1
1
0
1
0
1
1
2
3
1
1
3
2
3
1
1
3
2
2
1
9
10
11
1
0
0
2
2
1
1
1
2
12
13
14
1
0
1
1
2
2
2
3
1
15
16
1
0
3
3
1
1
17
18
19
20
22
1
1
0
1
3
1
1
2
1
2
2
2
23
24
25
26
27
1
0
1
1
0
2
2
2
2
3
1
1
1
2
2
28
184
29
30
1
0
3
3
1
1
3 Aplicarea sa
Dorim s vedem dac subiecii au o prere mai bun despre vreunul din candidai, ntruct
subiecii rspund la ntrebri referitoare la ambii candidai (deci dau perechi de valori la
fiecare msurtoare), trebuie s aplicm o metod care folosete compararea de eantioane
perechi. Dat fiind c scala de msur este ordinal, vom aplica o metod neparametric.
Vom activa fereastra corespunztoare meniului ANALYZE - NON PARAMETRIC
TESTS - TWO RELATED SAMPLES ca n fereastra prezentat n continuare:
Observai c fereastra de mai sus seamn cu cea a testului t pentru eantioane perechi. Ca
si pentru testul t, trebuie selectat o pereche de variabile pentru analiz, altfel butoanele
ferestrei nu se activeaz. Vom selecta si noi cele dou variabile de interes: ILIESCU si
CONSTANT, ca n imaginea de mai jos:
Observai c si aici putem aplica mai multe tipuri de teste. S le analizm pe scurt pe
fiecare n parte:
WILCOXON: se bazeaz pe rangul valorilor absolute al diferenelor dintre dou
variabile, comparnd separat diferenele pozitive i negative
SIGN: se bazeaz pe comparaia diferenelor pozitive i negative dintre cele dou
variabile utiliznd apoi testul binomial pentru a compara proporia de
diferene negative cu cea a diferenelor pozitive.
McNEMAR: testeaz dac oricare dou combinaii posibile de valori extreme au o
185
aceeai probabilitate de apariie. Aplicarea sa se face numai dac variabilele testate sunt
dihotomice.
n cazul nostru nu putem aplica testul McNemar, ci doar testul semnului sau Wilcoxon.
Vom alege pe ultimul dintre acestea.
3 Interpretarea
Aa cum ne-am obinuit, prezentarea rezultatelor testului se face n dou tabele, unul
pentru valorile descriptive i altul pentru semnificaia testului, ca mai jos:
n primul tabel sunt prezentate media i suma rangurilor diferenelor pozitive i negative,
precum i cazurile n care scorurile sunt la egalitate. Indicii de sub acest tabel arat sensul
diferenelor.
Din al doilea tabel observm c testul este semnificativ (p<0,05). Dup cum observai, n
coloana a doua din acest ultim tabel apare notaia CONSTANT-ILIESCU, ceea ce nseamn
c valorile absolute ale diferenelor (i pozitive i negative) sunt n defavoarea lui
Constantinescu.
Concluzia este c aceti subieci consider c situaia Romniei se va mbunti mai mult
dac ctig Iliescu dect dac ctig Constantinescu.
186
187