Documente Academic
Documente Profesional
Documente Cultură
Sã presupunem cã vrem sã facem histograma variabilei loc4 [Care este suprafaţa totalã (în
metri pãtraţi) a camerelor (fãrã baie, bucãtãrie, hol) pe care le ocupã gospodãria
dumneavoastrã?].
Vom trece variabila din stânga în dreapta, putem seta opţiunea Display normal curve,
deasemenea putem sã cãutãm un titlu adecvat graficului:
Suprafata totala
800
600
400
200
Std. Dev = 32.24
Mean = 53.0
0 N = 2100.00
0. 40 80 12 16 20 24 28 32 36 40
0 .0 .0 0. 0. 0. 0. 0. 0. 0. 0.
0 0 0 0 0 0 0 0
Care este suprafaþa totalã (în metri pãtraþi) a camerelor (fãrã baie, bu
6
6
5
Valorile de pe axa OY reprezintã
4
4
4
mediile veniturilor în milioane lei
3 3 în luna aprilie 2003. Se observã
2 2
3 din grafic modul cum influenţeazã
1
variabila independentã „studii”
1
1
1
1
variabila dependentã „venit”.
0 1
Pentru studii postuniversitare se
manifestã o scãdere a mediei
veniturilor!
5.0
4.5
4.0
3.5
3.0
2.5
2.0
Mean
1.5
În luna trecutã (apr Dar venitul dvs. per
Obs: scala folositã pe axa OY poate crea impresia unei disproporţii prea mari între mediile
celor douã variabile. Respectiva scalã poate fi modificatã dupã ce am dat dublu clic pe grafic şi
am intrat în fereastra Graph1 vom urma comenzile Chart→Axis→Scale dupã care vom
modifica în opţiunea Range limitele axei OY. Iatã cum aratã dupã o astfel de modificare
acelaşi grafic:
3.0
2.5
M e d ia v e n itu rilo r
2.0
1.5
În luna trecutã (apr Dar venitul dvs. per
O altã variantã de reprezentare graficã şi care este foarte des uzitatã este datã de opţiunea
reprezentãrii de tip cluster (apar grupuri de bare care se pot compara mai uşor). De exemplu
ne-ar interesa repartiţia din eşantionul folosit în aceeaşi cercetare dupã variabila scoala0 dar în
funcţie de sexul respondenţilor. Vom alege de data aceasta comenzile Charts→Bar
Charts→Clustered iar opţiunea Summaries for groups of cases rãmâne neschimbatã. Dupã
Define apare fereastra:
Observãm cã pentru axa
OX am ales aceeaşi
variabilã iar variabila care
dicteazã dispunerea
cluster este varibila sex.
Frecvenţele vor reprezenta
efectiv numãrul de
subiecţi (N of cases). Din
Option am deselectat
opţiunea Display groups
defined by missing values!
Graficul este urmãtorul:
400
300
200
Genul (respondent)
100
C ount
masculin
0 feminin
0
fã pr gi ºc tre lic ºc un un st N
rã im m oa ap eu oa iv iv ud R
ºc ar na la lã er er ii p
oa zi ta (9 si si
(1 a pr I po t t ost
lã -4 l( of de st ar ar
5 es 12 -li de de un
cl -8 io lic ce iv
as na eu cla a sc lu er
e) c la lã ( s lã ur n gã si
e) t t
Un alt tip de graphic este cel numit „box-plot” şi care este foarte util în a depista distribuţia
valorilor seriei dar şi dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de
graphic se mai numeşte cutia cu mustãţi şi are urmãtoarea conformaţie:
Mediana
Mustaţi
Lungimea
cutiei Quartila3
Quartila 1
În cazul acestui grafic 50% din date sunt în interiorul cutiei (care are bazele la 25% şi la 75%
din date adicã la quartilele 1 şi 3). Mustãţile pot avea o lungime de pânã la 1,5 lãţimi ale cutiei.
Valorile care cad înafara limitelor (desemnate prin drepte orizontale la capãtul „mustãţilor” şi
numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obţin scãzând
din Q1 lungimea cutiei înmulţitã cu 1,5 şi adunînd la Q3 aceeaşi distanţã. Dacã o valoare
extremã este mai îndepãrtatã de trei lungimi de cutie atunci este reprezentatã printr-o steluţã
marcatã şi cu numãrul cazului respectiv. Dacã mustãţile sunt egale distribuţia tinde la una
normalã. Dacã mustaţã superioarã este mai micã distribuşia este alungitã spre stânga.
Sã reprezentãm grafic variabila babymort din baza de date word95. Vom urma
comenzile Graphs→Boxplot:
În aceastã fereastrã vom seta opţiunile Simple şi
Summaries of separate variables. Apoi vom acţiona
butonul Define. În noua fereastrã am selectat şi mutat
variabila babymort şi de asemenea am considerat
variabila country prin intermediul cãreia se pot eticheta
cazurile speciale (extreme). Din butonul Option putem
alege o variantã referitoare la valorile lipsã.
28.00 0 . 4455555666666666777778888899
13.00 1 . 0122223467799
16.00 2 . 0001123555577788
8.00 3 . 45567999
6.00 4 . 135679
9.00 5 . 011222347 Acest tip de grafic cã şi box plotul a fost
5.00 6 . 03678 propus de cãtre Kohn W. Tukey şi este
7.00 7 . 4556679 asemãnãtor histogramei. În primul rind
1.00 8 . 5
1.00 9 . 4 sunt 28 de ţãri care au babymort egal cu
4.00 10 . 1569 4,4,5,5....Pe al doilea rînd sunt valorile 10,
7.00 11 . 0022378 12, 12, 12....Similitudinea cu histograma
2.00 12 . 46 este vizibilã. Dispunerea se face dupã
1.00 13 . 7 trunchi (stem) cu valorile 0,1,2,3....şi
1.00 Extremes (>=168)
frunzele (leaf) dispuse în partea dreaptã a
Stem width: 10.0 graficului.
Each leaf: 1 case(s)
Un alt grafic deosebit de util în cercetarea statisticã este cel denumit Error Bar Chart şi care e
destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de încredere pe
care îl putem estima pentru media dintr-o populaţie. Dupã cum se ştie atunci când extindem
rezultatele de la un eşantion la o populaţie întreagã suntem într-o situaţie de tipul urmãtor:
Interval de încredere
Sã facem graficul pentru variabila vensub (venitul subiectului) din baza de date
BOP_mai-2003_Gallup. Alegem comenzile Graphs→Error Bar:
9 5 % C I D a r v e n itu l d v s . p e rs o n a l în lu n a tre c u tã (a p rilie ) a fo s t c a m d e
2.1
Obs: Alte variante de reprezentãri grafice se
pot executa cu opţiunea Graphs→Interactive
2.0
N = 1871
din care putem alege tipul de grafic necesar
Dar venitul dvs. per
.
9. Notele (cotele) Z
Am vorbit şi în alte ocazii despre cotele z. Reluãm aici unele precizãri şi le vom aplica
apoi în cadrul programului SPSS. Cotele Z ne dau o imagine directă asupra poziţiei pe care o
are un subiect faţă de media colectivităţii respective cât şi faţă de dispersia datelor. Acest
indicator se numeşte măsura standard sau cota Z şi ne arată cu câte deviaţii standard se
abate o valoare de la medie. Nota Z are formula următoare:
x x x x
z= i sau îl gãsim cu notaţia z= i
SD
Pentru a înţelege importanţa acestei mărimi să preluăm un exemplu din A. Novak
[1995]. Astfel fie cazul unui student care a luat la statistică calificativul 7 iar în grupă media
m =5 şi =1. La obiectul psihologie acelaşi student a obţinut nota 9 iar în grupă m = 6 şi =2.
Se pune întrebarea la care dintre discipline nota a fost mai bună? Iniţial putem crede că nota a
doua este mai bună. Să calculăm şi cotele Z ale respectivelor calificative:
7-5 9-6
Z1 = =2 Z2= = 1,5
1 2
Din aceste valori deducem că la prima materie studentul se abate de la media grupei cu
două abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri
standard. Înseamnă că el se abate în primul caz cu 2 puncte iar în al doilea cu 3 puncte, de unde
rezultă că la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeaşi
colectivitate atunci cele două note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziţie în
ansamblu. O aplicaţie importantă a variabilei Z o găsim în diverse probleme care impun totuşi
utilizarea tablei legii normale (afişată în orice carte de statistică).
Pentru a înţelege astfel de aplicaţii să dăm un alt exemplu, după M. Colin et alii
[1995] :într-o universitate rezultatele obţinute la un test se distribuie după o lege normală cu
m=75 şi =8. Dacă luăm un student la întâmplare care sunt şansele ca el să aibă un rezultat
cuprins între 75 şi 95 ?
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
m-3 m-2 m- m m+ m+2 m+3
51 59 67 75 83 91 99
Fiind o distribuţie normală putem spune că 68,26% din rezultatele la examen se găsesc
între [59; 91] etc. Acest grafic poate fi reprezentat şi în cote Z.
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
-3 -2 -1 0 1 2 3
Vom calcula cotele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P ( 75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P ( 0< Z < 2,50) .
Căutând în tabelul legii normale [vezi tabelul de pe pagina urmãtoare ; în acest tabel
sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul
minus] se găseşte valoarea 0,4938 care reprezintă proporţia din suprafaţa delimitată de către
Arianormală,
curba de sub curba
axa OX normalã de 0 la x
şi perpendicularele ridicate în punctele 0 şi 2,5. Această valoare se
________________________________________________________________________
poate scrie şi 49,38 % şi reprezintă chiar probabilitatea căutată: sunt 49,38 % şanse ca
X
studentul0.00 0.01să aibă
respectiv 0.02calificativul
0.03 cuprins
0.04 între0.0575 şi0.06 0.07 s-a0.08
95. Practic 0.09
făcut următorul
________________________________________________________________________
transfer:
0.0 făcut
0.00000 0.00399transfer:
următorul 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586
0.1 0.03983 0.04380 75 0.04776 0.05172 95 0.05567 0.05962 0.0635600.06749 0.07142 2,5 0.07535
0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173
0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793
49,38
0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240
0.6 0.22575 0.22907 0.23237 0.2356549,38 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490
0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524
0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327
0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891
1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214
1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298
1.2 : din
Obs1 0.38493 0.38686
tabelul 0.38877
urmãtor atragem0.39065 0.39251
atenţia 0.39435
şi asupra 0.39617
valorii 0.39796 0.39973
corespunzãtoare 0.40147
lui z=1.96 care
1.3de 0,4750
este 0.40320valoare
0.40490pe0.40658
care dacã0.40824 0.40988 0.41149
o multiplicãm 0.41308
cu doi rezultã 0.41466
0.95. Citim0.41621
cã la un0.41774
nivel de
1.4 încredere
95% 0.41924z=1,96.
0.42073La0.42220 0.42364
fel raţionãm 0.42507
şi pentru 0.42647
o altã 0.42785
valoare 0.42922
importanta 0.43056 0.43189
z=2,58!
1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408
1.6 în0.44520
Obs2. general 0.44630 0.44738
se considerã 0.44845 z0.44950
cã scorurile trebuie 0.45053 0.45154
sã se înscrie 0.45254 [-3,+3].
în intervalul 0.45352Dacã
0.45449
z <-
1 1.7 0.45543
sau z.>+1 se 0.45637 0.45728
considerã 0.45818
cã valorile 0.45907 0.45994
respective sunt mici0.46080 0.46164
(respectiv 0.46246
mari) pentru0.46327
o serie
1.8 0.46407
statisticã datã. Dacã z [1,+1]
0.46485 0.46562 0.46638respectivã
mãrimea 0.46712 0.46784 0.46856medie.
este consideratã 0.46926 0.46995 0.47062
1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670
2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169
2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574
2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899
2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158
2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361
2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520
2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643
2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736
2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807
2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861
3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900
3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929
3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950
3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965
3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976
3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983
3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989
3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992
3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995
3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997
4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
Ne propunem sã calculãm cotele z pentru variabila salary din baza de date Employee Data.
Pentru aceasta vom urmãri comenzile Analyze→ Descriptiv Statistics→Descriptives:
Observaţie : în general metodele grafice sunt foarte utile pentru analiza prealabilã a datelor.
Astfel, înainte de a se trece la analiza propriu-zisã a datelor pe care le-am inserat în Data
Editor trebuie sã avem mai întâi o imagine generalã asupra variabilelor. Dupã cum am vãzut în
submeniul Explore putem sã obţinem o imagine de ansamblu a variabilelor şi reprezentarea
graficã a acestora. Prin aceste proceduri putem evita greşelile inerente : greşeli de înregistrare,
greşeli date de necunoaşterea distribuţiei variabilei, greşeli generate de cazurile lipsã (existã
diverse opţiuni cum ar fi Exclude cases pairwise-cînd un caz nu are o valoare pentru o
anumitã variabilã este exclus din analizã ) etc. Informaţii la fel de importante pot fi obţinute şi
din submeniul Descriptive.
În general majoritatea raţionamentelor umane sunt alcãtuite din combinaţii de douã sau
mai multe variabile. Este şi cazul ipotezelor statistice care nu sunt altceva decât aserţiuni
privind diverse fenomene naturale sau sociale, aserţiuni pe care la facem în vederea testãrii lor
ulterioare. O ipotezã statisticã este de obicei compusã dintr-un cuplu de douã enunţuri:
-H0 (ipoteza de nul) şi
-H1 ( ipoteza de lucru).
Primul enunţ H0 descrie, de obicei (dar nu e obligatoriu!) situaţia când o anumitã variabilã sau
fenomen nu este prezentã sau nu acţioneazã (sau cã, de exemplu, nu existã o diferenţã
semnificativã între douã condiţii). Este ca şi cum am spune cã un anumit lucru dacã se întâmplã
este doar rodul întâmplãrii. Ipoteza de nul este tocmai cea care este testatã.
Al doilea enunţ H1 descrie situaţia contrarã enunţului H0 când o variabilã sau fenomen
acţioneazã şi are o influenţã semnificativã:
Exemple: H1: sexul respondenţilor influenţeazã pãrerea acestora despre impozite.
H0: opinia despre impozite nu este influenţatã de sexul respondenţilor.
H1: autoturismul Dacia este mai bun ca unul din import
H0: autoturismul Dacia este la fel de bun ca unul din import.
Din astfel de exemple deducem cã în analiza statisticã suntem nevoiţi fie sã acceptãm H0 fie pe
H1, deoarece ambele sunt disjunctive. Un astfel de raţionament se va face întotdeauna în
termeni de prag de semnificaţie (sau interval de încredere) pentru cã în realitate orice
presupoziţie statisticã se face cu o anumitã marjã de eroare, cu o anumitã şansã de a ne înşela.
De exemplu când vorbim de un prag de semnificaţie (notat p) de 0.05 spunem de fapt cã sunt
5% şanse sã ne înşelãm atunci cînd facem o anumitã aserţiune statisticã (iar în “oglindã”
spunem cã sunt 95% şanse sã nu ne înşelãm când facem respectivul raţionament). La fel, când
vorbim de un prag de semnificaţie de 0,01 spunem cã sunt 1% şanse sã ne înşelãm (sau 99%
şanse sã nu ne înşelãm). Evident cã în cel de al doilea caz gradul de siguranţã este mai mare.
Şi în cazul testãrii ipotezelor intervin astfel de precizãri. Astfel cã vorbim de un prag de
semnificaţie de 0.05 în sensul cã “sunt 5% şanse de a ne înşela atunci cînd acceptãm ipoteza de
lucru H1 (sau respingem ipoteza de nul H0)”. În majoritatea cercetãrilor este acceptat un prag
maxim de 0.05 sau p 0.05 dar se întâlnesc şi praguri mai mari decât 0.05 (întotdeauna aceste
praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercetãtor).
Trebuie sã precizãm cã existã posibilitatea sã ne înşelãm chiar şi în aceste condiţii.
Adicã de exemplu sã acceptãm o ipotezã de lucru pentru cã toate datele statistice o confirmã
dar, în esenţã, acea ipotezã sã fie totuşi falsã. În general se pot comite douã feluri de erori:
Eroare de gradul I: respingem ipoteza nulã deşi este adevãratã
Eroare de gradul II: ipoteza nulã este acceptatã deşi este falsã.
Aceste douã tipuri de erori sunt complet diferite: eroarea de gradul I este consideratã mai gravã
şi tocmai de aceea se cere sã micşorãm pe cât posibil pragul de semnificaţie. Unii cercetãtori
recomandã aici un prag p 0.01 cu atât mai mult cu cât influenţa cercetãtorului poate fi
importantã. În cel de-al doilea caz gradul de influenţã al cercetãtorului este redusã şi se
recomandã un prag p 0.05. Legat de aceste erori sunt folosite în statistică noţiunile de putere
(sau probabilitatea de a respinge ipoteza nulă când de fapt ea este adevărată). [pentru o analiză
pe larg a acestei problematici a se vedea C.Coman, N. Medianu, 2002 ;144 şi urm.]
Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneazã
o comparaţie între o situaţie presupusã şi una rezultatã în urma cercetãrii de teren efective.
Comparaţiile în statistica socialã sunt foarte diverse: fie se fac observaţii pe o singurã variabilã,
fie se comparã valori din douã eşantioane, fie se comparã valorile dintr-un eşantion cu valorile
unei populaţii mai extinse, fie se analizeazã diverse situaţii experimentale etc. În general în
testarea ipotezelor se urmãreşte o anumitã direcţie, un anumit sens al legãturilor.Din acest
punct de vedere sunt douã tipuri de raţionamente: one-tailed (unilateral) şi two-tailed
(bilateral)! One-tailed este utilizat atunci când se cunoaşte dinainte sensul predicţiei statistice
iar varianta two- tailed este preferatã atunci când nu se cunoaşte „în avans” sensul predicţiei.
O altã precizare importantã este aceea cã sunt douã tipuri fundamentale de teste
statistice: parametrice şi non-parametrice. Testele parametrice sunt considerate mai puternice
dar pentru aceasta trebuie sã fie îndeplinite mai multe condiţii importante:
- populaţia din care a fost extras eşantionul sã aibã o distribuţie normalã (distribuţia
normalã trebuie sã se regãseascã şi în eşantion altfel se pot face anumite transformãri pentru a
se ajunge la o distribuţie normalã)
-regula omogenitãţii varianţei (dintre cea din eşantion şi cea din populaţie)
-în majoritatea cazurilor variabilele trebuie sã fie mãsurate pe scale de interval.
-nu trebuie sã existe scoruri extreme (metodele parametrice sunt sensibile în astfel de
situaţii).
Dacã testele parametrice folosesc metode numerice cele ne-parametrice folosesc
poziţiile pe care valorile le au în cadrul variabilelor. Nefiind vulnerabile la valori extreme unii
statisticieni vorbesc de o mai mare stabilitate a acestor teste.
In funcţie de aceste precizãri se recomandã folosirea unor teste diverse în funcţie de necesitãţi.
Din multele tipuri de clasificãri redãm una dintre ele consemnatã de Christine P. Dancey şi J.
Reidy (1999) [vezi tabelul urmãtor]. Spaţiul limitat al acestui curs nu permite însă decât
parcurgerea a câtorva proceduri din acest tabel.
Obs: 1.Testele incluse în tabelul respectiv reprezintã modalitãţi de analizã a legãturii dintre
variabile. Se disting astfel metode parametrice dar şi neparametrice de studiu a acestor legãturi.
2. Testarea diferenţei între douã condiţii reprezintã o modalitate foarte rãspînditã de
analizã. De exemplu putem analiza care este influenţa unei sesiuni de comunicari pentru
studenţii la sociologie. Probabil cã cei ce parcurg sesiunea respectivă vor avea cunoştinţe mai
bune. Pentru a testa acest lucru putem dispune de douã tehnici principale:
A. Se comparã douã grupuri diferite de studenţi (alocaţi aleator) unul care parcurge
respectiva sesiune şi unul care nu urmeazã acea sesiune, apoi se comparã rezultatele unei
examinãri. Acest tip de analizã se numeşte between participants design (rezultatele vin de la
douã grupuri).
B. Se comparã un singur grup care trece prin cele douã condiţii, odatã fãrã sã parcurgã
sesiunea respectivă iar a doua oarã dupã parcurgerea acesteia. Rezultatele unor examinãri
succesive vor decide care este influenţa urmãrii sesiunii. Acest tip de analizã se numeşte within
participant design (rezultatele vin de la acelaşi grup).
In fapt compararea între condiţii înseamnã compararea unor medii şi dacã diferenţa
dintre aceste medii este semnificativã. Testele folosite în aceste cazuri trebuie sã rãspundã la o
întrebare importantã: este diferenţa datã de erori de eşantionare sau cu adevãrat se manifestã
influenţa unei variabile independente cu efecte importante în variaţia variabilei dependente?
Nivel al Tip de statisticã descriptivã Tipuri de statisticã inferenţialã
mãsurãrii
Teste de Teste ale Teste ale diferenţei Teste referitoare la
corelatie/asociere diferentei intre mai mult de douã douã sau mai multe
douã condiţii condiţii var. Independ. Sau
asupra unei var. asupra unei var. var. depend
Independ. independente
Nominal Mode Testul 2 pentru
independenţã
Within- Within-
Scala
NU Mediana / participants participants
poate fi
de modul TestWilcoxon Friedman
Ordinal
interval? Spearman ( ) ANOVA
Between-
DA participants Between-
DA Mann participants
Whitney U Kruskal-
Test Wallace one
way ANOVA
Within-
Aveţi NU participants
valori Related t-test
extreme? NU Media
Coeficientul lui Between- One way Factorial
Interval/ratio Pearson participants ANOVA ANOVA
Sunt indeplinite Independent t- Multivariate
condiţiile test ANOVA
parametrice?
DA
11. Testarea normalitãţii unei distribuţii
-1
coincidenţa perfectã dintre cele douã
-2
grafice. În concluzie se recomandã în
astfel de cazuri folosirea testelor non-
-3 parametrice.
-100 0 100 200 300
Observed Value
Obs: În aplicarea testului de mai sus am ţinut seama şi de mãrimea eşantionului. Astfel se
considerã cã testul K.-Smirnov este valabil când eşantionul>50 de subiecţi. Dacã eşantionul
este mai mic atunci se aplicã testul W al lui Shapiro-Wilks. Programul SPSS calculeazã oricum
automat ambele teste. Formularea în sensul ipotezelor statistice ar fi urmãtoarea: Ho: “între
distribuţia variabilei şi cea teoreticã nu este o diferenţã semnificativã” iar H1: “între cele douã
distribuţii existã o diferenţã semnificativã”. Dacã p<0.05 atunci respingem ipoteza de nul şi o
admitem pe cea de lucru.
12. Corelaţia dintre douã variabile cantitative
r
x i x y i y
.
nSD x SD y
Din formulã se vede cã la numitor avem suma tuturor produselor distanţelor valorilor din cele
douã serii de la mediile respective iar la numitor produsul dintre numãrul de cazuri (n) şi cele
douã abateri standard din cele douã serii. Fiind aşadar un test parametric (luând în calcul în
mod direct toate valorile seriilor) calcularea acestui coeficient trebuie sã ţinã seama de
condiţiile din acest caz [A. Field, 2000; 37]:
1.Asumţia distribuţiei normale [datele trebuie sã provinã din populaţii normal
distribuite (se poate verifica acest lucru cu testul K.-Smirnov)],
2. Asumţia omogenitãţii varianţei [varianţele din cele douã variabile trebuie sã fie
stabile la orice nivel],
3. Asumţia scalei de mãsurare (scala de mãsurare trebuie sã fie cea de interval)
4. Asumţia independenţei (subiecţii de la care s-au obţinut valorile respective sã fie
independenţi unul de altul).
Coeficientul de corelaţie este întotdeauna cuprins în intervalul [-1, +1] înţelegând prin aceasta
toate valorile reale din acest interval. Interpretarea valorilor este urmãtoarea:
r→1 r→ -1 r→0
3. Coeficientul de corelaţie dã douã rezultate importante: puterea asocierii dintre variabile şi
sensul acestei asocieri. În general valorile din jurul valorilor 1 sugereazã o corelaţie foarte
puternicã, aproape perfectã. Valorile între 0,6 şi 0,8 denotã o corelaţie puternicã, valorile
din jurul valorilor de 0,5 dau o corelaţie de intensitate medie iar cele mãrimea 0,1 0,4
sugereazã corelaţii slabe. Sensul corelaţiilor este dat de semnul acestora: semnul +sugereazã cã
variabilele cresc sau scad în acelaşi timp iar semnul – sugereazã faptul cã valorile unei
variabile cresc în acelaşi timp ce valorile celeilalte variabile scad.
120000
20000
0
0 20000 40000 60000 80000 100000
Beginning Salary
Acestea fiind spuse putem calcula coeficientul de corelaţie dupã alegerea comenzilor:
Analyze→Correlate→Bivariate:
Varibilele de interes le-am trecut din
coloana din stânga în dreapta.
Coeficientul de corelaţie Pearson este
setat prin definiţie ceilalţi doi
coeficienţi fiind metode neparametrice
de calcul. Testele de semnificaţie
implicate sunt de douã feluri: two-
tailed (este folosit atunci când nu
putem prezice natura legãturii dintre
variabile şi este recomandat pentru mai
multã siguranţã); one-tailed (este
folosit când avem o ipotezã
direcţionalã sau putem prezice sensul
legãturii). Opţiunea Flag... va asigura
prezentarea datelor legate de pragul de
semnificaţie. Din butonul Option
putem alege elemente de statisticã
descriptivã dar şi modalitãţi de lucru în
cazul valorilor lipsã:
Exclude cases pairwise- eliminã
perechile de rezultate pentru care una
din valori lipseşte. Aceastã opţiune este
mai des întâlnitã.
Exclude cases listwise- eliminã din
analizã un rând întreg dacã lipseşte
doar una dintre valori. Dupã Continue
obţinem rezultatul urmãtor:
Correlations
Beginning
Salary Current Salary
Beginning Salary Pearson Correlation 1 .880**
Sig. (2-tailed) . .000
N 474 474
Current Salary Pearson Correlation .880** 1
Sig. (2-tailed) .000 .
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).
În partea dreaptã a tabelului se intersecteazã cele douã variabile. Vedem cã corelaţia dintre
Beginning Salary şi ea însãşi este perfecta (r=1). Corelaţia dintre Beginning Salary şi
Current Salary se dovedeşte a fi foarte puternicã şi de acelaşi sens (r=0.880). Pragul de
semnificaţie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolute ci în realitate
doar o valoare foarte mica. Corelaţia cuprinde în studiu un numãr de 474 perechi de valori sau
474 cazuri. Pe diagonalã observãm în matrice aceleaşi rezultate. Sub tabel este specificat faptul
cã corelaţia calculate este semnificativã la un prag de p= 0.01. În primul rand se observã cã
acest prag p<0.05 ceea ce ne aratã cã legãtura dintre variabile este semnificativã. În termeni de
probabilitate putem spune cã sunt 1% şanse sã ne înşelãm atunci când predicţionãm legãtura
dintre cele douã variabile (sau mãrimea şi sensul corelaţiei). În termenii testãrii statistice
spunem cã dacã H0 este enunţul “variabilele nu sunt corelate” iar H1 este enunţul “existã
corelaţie între cele douã variabile” atunci sunt 1% şanse sã ne înşelãm atunci când respingem
ipoteza de nul.
Obs. Se pot obţine şi matrici de corelaţie. De exemplu adãugând o a treia variabilã educ (nivel
educaţional în ani de zile):
Correlations
Beginning Educational
Salary Current Salary Level (years)
Beginning Salary Pearson Correlation 1 .880** .633**
Sig. (2-tailed) . .000 .000
N 474 474 474
Current Salary Pearson Correlation .880** 1 .661**
Sig. (2-tailed) .000 . .000
N 474 474 474
Educational Level (years) Pearson Correlation .633** .661** 1
Sig. (2-tailed) .000 .000 .
N 474 474 474
**. Correlation is significant at the 0.01 level (2-tailed).
Rezultatele se interpreteazã douã câte douã excluzând prima diagonalã unde corelaţiile sunt
perfecte! În unele analize nu este prezentatã decât partea de deasupra sau de dedesuptul acestei
diagonale!
12.1 Coeficientul de variaţie
70%
15%
15%
Cu cât suprafaţã intersecţiei este mai mare cu atât varianţa comun împãrtãşitã este mai mare. In
cazul nostru dacã am nota suprafaţã intersecţiei cu 100% putem deduce cã aproximativ 70%
este varianţã comunã restul de 30% nefiind comunã. Varianţa comunã ne dã o informaţie
despre dependenţa dintre variabile: putem spune cã 70% din varianţa unei variabile depinde de
varianţa celeilalte (altfel spus cât las sutã din variaţia unei variabile se explicã prin variaţia
celeilalte) iar 15% nu este varianţã împãrtãşitã sau este datoratã influenţei altor variabile. În
general varianţa comunã este calculatã prin ridicarea la pãtrat a coeficientului de corelaţie dar
se interpreteazã procentual. Se obţin astfel valorile urmãtoare [adaptat dupã Ch. P. Dancey şi J.
Reidy (1999)]:
Din consideraţiile de pânã acum se deduce faptul cã atunci când studiem corelaţia
dintre douã variabile poate exista şi influenţa altor variabile care vor explica evoluţia, variaţia
unei variabile. De exemplu o bunã parte din mãrimea salariului actual se poate explica prin
mãrimea salariului de debut dar pot exista şi alte variabile care sã influenţeze remuneraţia:
nivel de motivaţie, performanţa în muncã, numãrul de inovaţii aduse procesului muncii etc. Se
pune însã şi problema relaţiilor false dintre douã variabile când o corelaţie puternicã dintre
douã variabile sã depindã în primul rând de evoluţia unei a treia variabile. De exemplu P.
Lazarsfeld amintea de legãtura care se fãcea cândva între numãrul mare de berze apãrute
undeva în nordul Franţei şi numãrul de naşteri în creştere. Cu alte cuvinte se putea obţine o
corelaţie puternicã între cele douã variabile, ceea ce ar fi explicat mitul berzelor aducãtoare de
copii! Numai cã relaţia dintre variabile controlatã de o a treia (denumitã mediu) a arãtat cã
dacã rata natalitãţii se pãstra relativ ridicatã în mediul rural, ea scãdea semnificatif în mediul
urban. Un alt exemplu, cunoscut în literatura de specialitate se referea la corelaţia dintre
apariţia unui numãr crescut de furnici în cãutare de hranã şi numãrul turiştilor care au venit la
mare pe plajã. Corelaţia dintre fenomene se dovedeşte falsã din moment ce ele sunt controlate
de oa treia variabilã cãldura care va explica în final co-evoluţia primelor douã.
Vom calcula o corelaţie parţialã plecând de la baza de date World95 [pe larg şi în
SPSS Base 9.0 Application guide]. Vom analiza mai întâi variabilele urban (People living in
cities %) şi birth_rt (Birth rate per 1000 people). Pentru început vom calcula corelaţia simplã
între cele douã variabile:
Correlations
Obs: situaţia de pânã acum descrie corelaţia parţialã de prim ordin. Se pot face însã şi corelaţii
parţiale de al doilea ordin atunci când introducem douã variabile de control. Pot urma chiar mai
multe variabile de control.
Vom observa cã cele douã variabile sunt definite ca ordinale şi vor împãrţi populaţia în mai
multe categorii. De exemplu când un subiect primeşte eticheta 10 pentru variabila educ asta
inseamnã cã el intrã în clasa celor cu 10 ani de studii. La fel se procedeazã şi în variabila age.
În acest caz este mai recomandat coeficientul Spearman ( ) care are aceleaşi valori ca şi
coeficientul Pearson. Dupã aceleaşi etape şi dupã setarea coeficientului Spearman obţinem
rezultatul urmãtor:
Correlations
Highest Year
Age of of School
Respondent Completed
Spearman's rho Age of Respondent Correlation Coefficient 1.000 -.203**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.203** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).
Se observã cã corelaţia este = -0.203 şi este semnificativã (p=0.01). Corelaţia este slabã şi
de sens contrar.
În astfel de cazuri se recomandã chiar folosirea unui al treilea coeficient Kendall ( ).
El este util mai ales când existã foarte multe valori care cã aibã acelaşi rang. În cazul nostru de
exemplu 55 de subiecţi au poziţia 10 (ani de studiu) în timp ce poziţia 12 (12 ani de studiu)
este destinatã la 445 de subiecţi dintr-un eşantion de 1500. Se poate deci calcula şi acest
coeficient:
Correlations
Highest Year
Age of of School
Respondent Completed
Kendall's tau_b Age of Respondent Correlation Coefficient 1.000 -.142**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.142** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).
Se observã cã corelaţia este = -0.142 şi este semnificativã (p=0.01). Corelaţia este slabã de
sens contrar. Având în vedere condiţiile de aplicare se poate spune cã acest coeficient este mai
fidel în a reflecta corelaţia dintre variabile. Este deci important de a analiza atent variabilele
pentru a aplica mai apoi testarea corelaţiei.
13. Asocierea variabilelor calitative (nominale)
Facem precizarea cã situaţia teoreticã descrie în fapt situaţia de independenţã cînd toate
variantele de rãspuns ar fi indicate de acelaşi numãr de subiecţi. Faptul cã frecvenţele
observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferinţa
pentru acest gen muzical. Rezultatele sunt urmãtoarele:
Cazul a douã variabile dihotomice (ambele cu câte douã valori) este tratat pe larg în T. Rotariu
(1999; 121-133) şi de aceea vom face doar câteva precizãri sumare. Sã construim un tabel de
contingenţã plecând de la variabilele a1 (Credeţi cã în ţara noastrã lucrurile merg într-o direcţie
bunã sau într-o direcţie greşitã?) şi sex0 (sexul respondenţilor) din baza de date BOP_mai-
2003_Gallup. sav. Tabelul respectiv se obţine dupã comenzile Analyze→ Descriptive
Statistics→Crosstabs dupã ce în prealabil am considerat valorile care nu sunt principalele
douã variante de rãspuns ca fiind valori lipsã:
Dupã ce trecem cele douã variabile în
dreapta ca definind liniile (rows) şi
colooanele (columns) vom apela la
butonul Cells pentru o serie de opţiuni
suplimentare:
Se observã cã am selectat apoi opţiunile Observed, Expected precum şi procentajele pe linii
(Percentages Rows). Se mai pot alege opţiuni privind reziduurile care nu sunt altceva decât
diferenţele între frecvenţele observate şi cel aşteptate. Dupã Continue→OK tabelul este
urmãtorul:
Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie greºitã? * Genul
(respondent) Crosstabulation
Genul (respondent)
masculin feminin Total
Credeþi cã în þara direcþia este bunã Count 383 367 750
noastrã lucrurile merg Expected Count 358.9 391.1 750.0
într-o direcþie bunã sau % within Credeþi cã în
într-o direcþie greºitã? 51.1% 48.9% 100.0%
þara noastrã...
direcþia este greºitã Count 511 607 1118
Expected Count 535.1 582.9 1118.0
% within Credeþi cã în
45.7% 54.3% 100.0%
þara noastrã...
Total Count 894 974 1868
Expected Count 894.0 974.0 1868.0
% within Credeþi cã în
47.9% 52.1% 100.0%
þara noastrã...
Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre
respondenţii care cred cã direcţia este bunã sunt de gen masculin şi la fel 511 (45,7%) dintre
cei ce cred cã direcţia este greşitã. Se observã cã totalul cazurilor valide este de 1868 persoane
din care 894 bãrbaţi şi 974 femei. În fiecare celulã se gãsesc şi valorile numite Expected,
valori teoretice care corespund situaţiei când cele douã variabile sunt independente.
Atunci când analizãm problematica asocierii de fapt urmãm raţionamentul unei ipoteze
statistice:
H0: variabilele calitative nu sunt asociate
H1: variabilele sunt asociate.
Pentru mãsurarea asocierii dintre cele douã variabile se foloseşte testul 2 . Acest test
se bazeazã pe diferenţele calculate dintre douã tipuri de date: cele aşteptate (teoretice) care
reprezintã situaţia de independenţã dintre variabile şi cele observate (obţinute în urma
cercetãrii efective). Conform formulei de calcul 2 este o mãrime care se obţine din suma
pãtratelor diferenţelor dintre frecvenţele observate (fo) şi şi cele teoretice (ft) împãrţite la
f o f t 2
frecvenţele teoretice: 2
f . Se pleacã de la ideea cã cu cât acest coeficient este
t
mai mic cu atât cresc şansele ca variabilele sã fie independente şi cu cât coeficientul este mai
mare cu atât mai sigur variabilele sunt asociate. Pentru cã aceste aprecieri au nevoie de
intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori,
considerate teoretice şi care se gãsesc în tabele statistice speciale. De fapt se ajunge la
reformularea ipotezei statistice de care vorbeam:
1. Dacã 2 calculat 2 teoretic atunci resping H0 şi admit H1
2. Dacã 2 calculat 2 teoretic atunci resping H1 şi admit H0.
Df\ Praguri semnif .10 .05 .02 .01 .001
1. 2. .1 .2
iar celelalte sunt frecvenţe marginale (cele ce sunt sumele pe linii şi pe coloane ale frecvenţelor
2
din tabel). Acelaşi coeficient se mai calculeazã cu formula . În aceastã ultimã
n
formulã 2 este o mãrime care se obţine din suma pãtratelor diferenţelor dintre frecvenţele
f f 2
observate (fo) şi şi cele teoretice (ft) împãrţite la frecvenţele teoretice: o t .
2
ft
Dacã >0 tendinţa datelor este sã se grupeze pe diagonala principalã caz în care existã o
asociere pozitivã între variabile. Asocierea este negativã dacã <0.
k11 k 22 k12 k 21
2. Coeficientul Q al lui Yule are formula urmãtoare: Q= şi ia valori în
k11 k 22 k12 k 21
intervalul [-1, +1]. Interpretarea este asemãnãtoare cu aceea de la corelaţie (pentru Q=0 situaţia
este de independenţã).
3. Coeficientul Y al lui Yule, pe care nu îl mai detaliem aici şi care are valori tot între
[-1,+1].
Pentru variabile categoriale cu mai mult de douã variante se impun şi alţi coeficienţi:
2
C= , formula în care n este volumul eşantionului.
n
2
Acest coeficient dacã e aplicat în cazul a douã variabile dihotomice are valoarea
maxima de 0,707. Aceastã valoare creşte apoi odatã cu creşterea tabelului de contingenţã darn
u va atinge niciodatã valoare 1 deoarece fracţia de sub radical este subunitarã. T. Rotariu
[1999;135] recomandã folosirea acestui coefficient pentru tabele mari. Oricum dacã C→1
atunci asocierea dintre variabile este puternicã iar dacã C→0 asocierea este slabã.
2
V= , formula în care s*=min (n,m) adicã minimul din nr. de linii/coloane.
n s 1
Cases
Valid Missing Total Se observã cã au fost procesate
N Percent N Percent N Percent un numãr de 995 cazuri valide
Marital Status * Is iar 504 au fost considerate lipsã.
996 66.4% 504 33.6% 1500 100.0%
Life Exciting or Dull
Asymp. Sig.
Value df (2-sided) Value Approx. Sig.
Pearson Chi-Square 39.220a 8 .000 Nominal by Phi .198 .000
Nominal Cramer's V .140 .000
Likelihood Ratio 31.911 8 .000
Linear-by-Linear Contingency Coefficient .195 .000
.034 1 .854 N of Valid Cases 996
Association
N of Valid Cases 996 a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null
a. 1 cells (6.7%) have expected count less than 5. The
hypothesis.
minimum expected count is 1.63.
Directional Measures
Asymp.
a b
Value Std. Error Approx. T Approx. Sig.
Nominal by Lambda Symmetric .026 .016 1.640 .101
Nominal Marital Status Dependent .000 .000 .c .c
Is Life Exciting or Dull
.050 .030 1.640 .101
Dependent
Goodman and Marital Status Dependent .009 .004 .000d
Kruskal tau Is Life Exciting or Dull d
.011 .005 .004
Dependent
Uncertainty Coefficient Symmetric .015 .006 2.639 .000e
Marital Status Dependent .012 .005 2.639 .000e
Is Life Exciting or Dull e
.018 .007 2.639 .000
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.
d. Based on chi-square approximation
e. Likelihood ratio chi-square probability.
Chi-Square Tests
Risk Estimate
95% Confidence
Interval
Value Lower Upper
Odds Ratio for Favor or
Oppose Gun Permits .353 .251 .496
(Favor / Oppose)
For cohort Respondent's
.603 .524 .695
Sex = Male
For cohort Respondent's
1.710 1.391 2.103
Sex = Female
N of Valid Cases 984
Din rezultatele obţinute se observã cã cele douã variabile sunt asociate [deoarece 2
calculat=37,6> teoretic=10,83 pentru 1 grad de libertate şi p=0.000 deci vom accepta H1]. Cu alte
2
cuvinte sexul respondenţilor influenţeazã opinia despre portul armei. Şansa ca un respondent sã
fie de acord este diferitã pentru bãrbaţi şi pentru femei. Pentru bãrbaţi este de 314/111=2,82 iar
pentru femei este de 497/62= 8.01 valoare semnificativ mai mare. Raportul de şanse dintre
femei şi bãrbaţi este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8 şanse ca o femeie sã fie de
acord faţã de un bãrbat. Aceastã valoare cu cât este mai mare decât 1 cu atât sunt mai
pronunţate diferenţele dintre grupuri. Pentru cei ce sunt de acord coeficientul de risc este de
1.20 iar pentru cei ce nu sunt de acord 0,42.