Sunteți pe pagina 1din 36

8.

Alte proceduri pentru reprezentãri grafice în SPSS

Comenzile pentru diverse alte grafice le putem gãsi în meniul


Graphs. Din acest meniu vom detalia câteva opţiuni care sunt
mai uzuale. Vom gãsi şi aici de exemplu opţiunea Histogram
dar cu o fereastrã uşor diferitã:

Sã presupunem cã vrem sã facem histograma variabilei loc4 [Care este suprafaţa totalã (în
metri pãtraţi) a camerelor (fãrã baie, bucãtãrie, hol) pe care le ocupã gospodãria
dumneavoastrã?].

Vom trece variabila din stânga în dreapta, putem seta opţiunea Display normal curve,
deasemenea putem sã cãutãm un titlu adecvat graficului:
Suprafata totala
800

600

400

200
Std. Dev = 32.24
Mean = 53.0
0 N = 2100.00
0. 40 80 12 16 20 24 28 32 36 40
0 .0 .0 0. 0. 0. 0. 0. 0. 0. 0.
0 0 0 0 0 0 0 0

Care este suprafaþa totalã (în metri pãtraþi) a camerelor (fãrã baie, bu

Din acelaşi meniu Graphs putem obţine pentru graficele de


tip Bar Charts o serie de reprezentãri mai sugestive. Vom
încerca sã reprezentãm grafic altã variabilã scoala0 [Ultima
scoala absolvitã?] din baza BOP_mai-2003_Gallup
FINAL.sav. Ne propunem sã reprezentãm aceastã variabilã
ţinând cont de venitul respondenţilor. Vom deschide
fereastra necesarã dupã comenzile Graphs→Bar. Din
aceastã fereastrã vom pãstra opţiunea Simple care este
potrivitã situaţiei noastre deoarece existã o singurã variabilã
independentã scoala0. Din partea de jos vom lãsa setarea
Summaries for groups of cases (barele reprezintã grupuri
de cazuri). Clic pe butonul Define:

Se observã în aceastã fereastrã cã


am deplasat variabila scoala0 în
rubrica Category Axis (este
variabila independentã care va
defini axa OX) iar în rubrica
Variable am trecut variabila
vensub iar pentru aceasta în grafic
vor apare pe axa OY mediile
veniturilor. De altfel aceastã
opţiune a fost aleasã de program în
mod automat dar ea poate fi
schimbatã din butonul Change
Sumary. Pentru exemplul nostru
vom lãsa aceste setãri şi vom
continua cu OK!
Obs: Dacã variabila independentã
are „valori lipsã” atunci din
butonul Options se va dezactiva
comanda Display groups defined
by missing values!
M ea n D a r ve nitu l d vs. p e rso n a l în lu n a trecutã (a p rilie ) a fost ca m d e .

6
6
5
Valorile de pe axa OY reprezintã
4
4
4
mediile veniturilor în milioane lei
3 3 în luna aprilie 2003. Se observã
2 2
3 din grafic modul cum influenţeazã
1
variabila independentã „studii”
1
1
1
1
variabila dependentã „venit”.
0 1
Pentru studii postuniversitare se
manifestã o scãdere a mediei
veniturilor!

Ultima ºcoalã absolvitã (respondent)

Sã presupunem cã dorim sã reprezentãm grafic variabila ven (venitul familiei) şi variabila


vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceasta dupã
opţiunea Summarise of separate variables. Dupã acţionarea butonului Define va apare
fereastra urmãtoare apoi graficul:
5.5

5.0

4.5

4.0

3.5

3.0

2.5

2.0
Mean

1.5
În luna trecutã (apr Dar venitul dvs. per

Obs: scala folositã pe axa OY poate crea impresia unei disproporţii prea mari între mediile
celor douã variabile. Respectiva scalã poate fi modificatã dupã ce am dat dublu clic pe grafic şi
am intrat în fereastra Graph1 vom urma comenzile Chart→Axis→Scale dupã care vom
modifica în opţiunea Range limitele axei OY. Iatã cum aratã dupã o astfel de modificare
acelaşi grafic:

3.0

2.5
M e d ia v e n itu rilo r

2.0

1.5
În luna trecutã (apr Dar venitul dvs. per

O altã variantã de reprezentare graficã şi care este foarte des uzitatã este datã de opţiunea
reprezentãrii de tip cluster (apar grupuri de bare care se pot compara mai uşor). De exemplu
ne-ar interesa repartiţia din eşantionul folosit în aceeaşi cercetare dupã variabila scoala0 dar în
funcţie de sexul respondenţilor. Vom alege de data aceasta comenzile Charts→Bar
Charts→Clustered iar opţiunea Summaries for groups of cases rãmâne neschimbatã. Dupã
Define apare fereastra:
Observãm cã pentru axa
OX am ales aceeaşi
variabilã iar variabila care
dicteazã dispunerea
cluster este varibila sex.
Frecvenţele vor reprezenta
efectiv numãrul de
subiecţi (N of cases). Din
Option am deselectat
opţiunea Display groups
defined by missing values!
Graficul este urmãtorul:

400

300

200

Genul (respondent)
100
C ount

masculin

0 feminin

Ultima ºcoalã absolvitã (respondent)

Revenind la primul exemplu care se referea la variabilele scoala0 şi vensub le vom


reprezenta un nou grafic cu linii dupã ce vom urma comenzile Graphs→Line.
Procedurile sun asemãnãtoare cu cele dinainte şi vom obţine urmãtorul grafic(în fapt un
poligon al frecvenţelor!):
Mean Dar venitul dvs. personal în luna trecutã (aprilie) a fost
7

0
fã pr gi ºc tre lic ºc un un st N
rã im m oa ap eu oa iv iv ud R
ºc ar na la lã er er ii p
oa zi ta (9 si si
(1 a pr I po t t ost
lã -4 l( of de st ar ar
5 es 12 -li de de un
cl -8 io lic ce iv
as na eu cla a sc lu er
e) c la lã ( s lã ur n gã si
e) t t

Ultima ºcoalã absolvitã (respondent)

Un alt tip de graphic este cel numit „box-plot” şi care este foarte util în a depista distribuţia
valorilor seriei dar şi dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de
graphic se mai numeşte cutia cu mustãţi şi are urmãtoarea conformaţie:

Mediana
Mustaţi

Lungimea
cutiei Quartila3

Quartila 1

În cazul acestui grafic 50% din date sunt în interiorul cutiei (care are bazele la 25% şi la 75%
din date adicã la quartilele 1 şi 3). Mustãţile pot avea o lungime de pânã la 1,5 lãţimi ale cutiei.
Valorile care cad înafara limitelor (desemnate prin drepte orizontale la capãtul „mustãţilor” şi
numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obţin scãzând
din Q1 lungimea cutiei înmulţitã cu 1,5 şi adunînd la Q3 aceeaşi distanţã. Dacã o valoare
extremã este mai îndepãrtatã de trei lungimi de cutie atunci este reprezentatã printr-o steluţã
marcatã şi cu numãrul cazului respectiv. Dacã mustãţile sunt egale distribuţia tinde la una
normalã. Dacã mustaţã superioarã este mai micã distribuşia este alungitã spre stânga.
Sã reprezentãm grafic variabila babymort din baza de date word95. Vom urma
comenzile Graphs→Boxplot:
În aceastã fereastrã vom seta opţiunile Simple şi
Summaries of separate variables. Apoi vom acţiona
butonul Define. În noua fereastrã am selectat şi mutat
variabila babymort şi de asemenea am considerat
variabila country prin intermediul cãreia se pot eticheta
cazurile speciale (extreme). Din butonul Option putem
alege o variantã referitoare la valorile lipsã.

În cazul graficului obţinut se


observã o singurã valoare
extremã: mortalitatea
infantilã cea mai ridicatã
este în Afganistan. De altfel
se pot compara reperele
grafice cu principalele valori
statistice obţinute din
Analyze→Descriptive
Statistics→Frequencies:
Statistics

Infant mortality (deaths per 1000 live births)


N 109
Obs1: dacã cutia este situatã mai jos distribuţia este alungitã spre dreapta şi existã o
0
concentrare a valorilor mici în partea stângã. Mean 42.313
Obs2: daca linia medianei este exact în mijlocul cutiei atunci distribuţia
Medianeste normalã 27.700
O altã analizã graficã importantã se poate face cu ajutorul comenzilor Analyze→Descriptive
Std. Deviation 38.0792
Statistics→Explore: Skewness 1.090
Am
Amtrecut
trecutvariabila
variabilade
deinters
interes Std. Error of Skewness .231
în sectorul Dependent List şi Kurtosis .365
apoi vom alege anumite Std. Error of Kurtosis .459
Range 164.0
opţiuni din cele douã butoane
Percentiles 9.250
Statistics şi Plots. Se pot seta
27.700
elemente de statisticã
64.500
descriptivã, intervalul de
încredere pentru medie, lista
cu primele/ultimele valori din
serie, percentilele 5, 10, 25,
50, 75, 90, 95. De asemenea se
pot alege graficele histograma
şi graficul de tip stem-and-
leaf. Acest graphic este expus
mai jos:
Opţiunea Factor levels together ajutã la compararea categoriilor variabilei independente iar
opţiunea Dependent together ajutã la comparãri între mai multe variabile sau între mai multe
situaţii în timp ale aceleeaşi variabile.

Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot


Frequency Stem & Leaf

28.00 0 . 4455555666666666777778888899
13.00 1 . 0122223467799
16.00 2 . 0001123555577788
8.00 3 . 45567999
6.00 4 . 135679
9.00 5 . 011222347 Acest tip de grafic cã şi box plotul a fost
5.00 6 . 03678 propus de cãtre Kohn W. Tukey şi este
7.00 7 . 4556679 asemãnãtor histogramei. În primul rind
1.00 8 . 5
1.00 9 . 4 sunt 28 de ţãri care au babymort egal cu
4.00 10 . 1569 4,4,5,5....Pe al doilea rînd sunt valorile 10,
7.00 11 . 0022378 12, 12, 12....Similitudinea cu histograma
2.00 12 . 46 este vizibilã. Dispunerea se face dupã
1.00 13 . 7 trunchi (stem) cu valorile 0,1,2,3....şi
1.00 Extremes (>=168)
frunzele (leaf) dispuse în partea dreaptã a
Stem width: 10.0 graficului.
Each leaf: 1 case(s)

Un alt grafic deosebit de util în cercetarea statisticã este cel denumit Error Bar Chart şi care e
destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de încredere pe
care îl putem estima pentru media dintr-o populaţie. Dupã cum se ştie atunci când extindem
rezultatele de la un eşantion la o populaţie întreagã suntem într-o situaţie de tipul urmãtor:

Am definit anterior intervalul


de încredere ca fiind tocmai [
 x   x ; x   x  unde  x este
Media din populatie eroarea standard (adicã eroarea
datã de poziţia eşantionului în
populaţia de eşantioane).
Media din eşantion SD unde t=1,96 pentru
x  t
n
µ x un nivel de încredere de 95%.
SD şi n-deviaţia standard şi
mãrimea eşantionului.

Interval de încredere
Sã facem graficul pentru variabila vensub (venitul subiectului) din baza de date
BOP_mai-2003_Gallup. Alegem comenzile Graphs→Error Bar:
9 5 % C I D a r v e n itu l d v s . p e rs o n a l în lu n a tre c u tã (a p rilie ) a fo s t c a m d e

Putem observa limitele intervalului de


2.4
încredere pentru o probabilitate de 95%
(sau un prag de semnificaţie de 0.05).
2.3 Spunem cã sunt 5% şanse sã ne înşelãm
atunci cînd facem predicţia cã media
veniturilor din populaţie este cuprinsã în
2.2
intervalul respectiv.

2.1
Obs: Alte variante de reprezentãri grafice se
pot executa cu opţiunea Graphs→Interactive
2.0
N = 1871
din care putem alege tipul de grafic necesar
Dar venitul dvs. per
.

9. Notele (cotele) Z
Am vorbit şi în alte ocazii despre cotele z. Reluãm aici unele precizãri şi le vom aplica
apoi în cadrul programului SPSS. Cotele Z ne dau o imagine directă asupra poziţiei pe care o
are un subiect faţă de media colectivităţii respective cât şi faţă de dispersia datelor. Acest
indicator se numeşte măsura standard sau cota Z şi ne arată cu câte deviaţii standard se
abate o valoare de la medie. Nota Z are formula următoare:
x x x x
z= i sau îl gãsim cu notaţia z= i
SD 
Pentru a înţelege importanţa acestei mărimi să preluăm un exemplu din A. Novak
[1995]. Astfel fie cazul unui student care a luat la statistică calificativul 7 iar în grupă media
m =5 şi =1. La obiectul psihologie acelaşi student a obţinut nota 9 iar în grupă m = 6 şi  =2.
Se pune întrebarea la care dintre discipline nota a fost mai bună? Iniţial putem crede că nota a
doua este mai bună. Să calculăm şi cotele Z ale respectivelor calificative:
7-5 9-6
Z1 = =2 Z2= = 1,5
1 2
Din aceste valori deducem că la prima materie studentul se abate de la media grupei cu
două abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri
standard. Înseamnă că el se abate în primul caz cu 2 puncte iar în al doilea cu 3 puncte, de unde
rezultă că la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeaşi
colectivitate atunci cele două note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziţie în
ansamblu. O aplicaţie importantă a variabilei Z o găsim în diverse probleme care impun totuşi
utilizarea tablei legii normale (afişată în orice carte de statistică).
Pentru a înţelege astfel de aplicaţii să dăm un alt exemplu, după M. Colin et alii
[1995] :într-o universitate rezultatele obţinute la un test se distribuie după o lege normală cu
m=75 şi =8. Dacă luăm un student la întâmplare care sunt şansele ca el să aibă un rezultat
cuprins între 75 şi 95 ?
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:
m-3 m-2 m- m m+ m+2 m+3
51 59 67 75 83 91 99

Fiind o distribuţie normală putem spune că 68,26% din rezultatele la examen se găsesc
între [59; 91] etc. Acest grafic poate fi reprezentat şi în cote Z.
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:

-3 -2 -1 0 1 2 3
Vom calcula cotele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P ( 75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P ( 0< Z < 2,50) .
Căutând în tabelul legii normale [vezi tabelul de pe pagina urmãtoare ; în acest tabel
sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul
minus] se găseşte valoarea 0,4938 care reprezintă proporţia din suprafaţa delimitată de către
Arianormală,
curba de sub curba
axa OX normalã de 0 la x
şi perpendicularele ridicate în punctele 0 şi 2,5. Această valoare se
________________________________________________________________________
poate scrie şi 49,38 % şi reprezintă chiar probabilitatea căutată: sunt 49,38 % şanse ca
X
studentul0.00 0.01să aibă
respectiv 0.02calificativul
0.03 cuprins
0.04 între0.0575 şi0.06 0.07 s-a0.08
95. Practic 0.09
făcut următorul
________________________________________________________________________
transfer:
0.0 făcut
0.00000 0.00399transfer:
următorul 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586
0.1 0.03983 0.04380 75 0.04776 0.05172 95 0.05567 0.05962 0.0635600.06749 0.07142 2,5 0.07535
0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173
0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793
49,38
0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240
0.6 0.22575 0.22907 0.23237 0.2356549,38 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490
0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524
0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327
0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891
1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214
1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298
1.2 : din
Obs1 0.38493 0.38686
tabelul 0.38877
urmãtor atragem0.39065 0.39251
atenţia 0.39435
şi asupra 0.39617
valorii 0.39796 0.39973
corespunzãtoare 0.40147
lui z=1.96 care
1.3de 0,4750
este 0.40320valoare
0.40490pe0.40658
care dacã0.40824 0.40988 0.41149
o multiplicãm 0.41308
cu doi rezultã 0.41466
0.95. Citim0.41621
cã la un0.41774
nivel de
1.4 încredere
95% 0.41924z=1,96.
0.42073La0.42220 0.42364
fel raţionãm 0.42507
şi pentru 0.42647
o altã 0.42785
valoare 0.42922
importanta 0.43056 0.43189
z=2,58!
1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408
1.6 în0.44520
Obs2. general 0.44630 0.44738
se considerã 0.44845 z0.44950
cã scorurile trebuie 0.45053 0.45154
sã se înscrie 0.45254 [-3,+3].
în intervalul 0.45352Dacã
0.45449
z <-
1 1.7 0.45543
sau z.>+1 se 0.45637 0.45728
considerã 0.45818
cã valorile 0.45907 0.45994
respective sunt mici0.46080 0.46164
(respectiv 0.46246
mari) pentru0.46327
o serie
1.8 0.46407
statisticã datã. Dacã z  [1,+1]
0.46485 0.46562 0.46638respectivã
mãrimea 0.46712 0.46784 0.46856medie.
este consideratã 0.46926 0.46995 0.47062
1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670
2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169
2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574
2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899
2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158
2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361
2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520
2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643
2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736
2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807
2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861
3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900
3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929
3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950
3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965
3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976
3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983
3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989
3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992
3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995
3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997
4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
Ne propunem sã calculãm cotele z pentru variabila salary din baza de date Employee Data.
Pentru aceasta vom urmãri comenzile Analyze→ Descriptiv Statistics→Descriptives:

Vom trece în dreapta variabila de


interes şi vom seta opţiunea Save
standardized values as
variables. Din butonul Options
se pot alege diverse valori
generale da statisticã descriptivã.
În bazã va apare o nouã variabilã:
În cazul variabilei zsalary vom putea sã comentãm în ce mãsurã anumite valori sunt
mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un
scor z de 1,32 ceea ce semnificã o valoare mare printre valorile seriei. Valoare salariului se
abate 1,32 abateri standard de la media salarialã.

Observaţie : în general metodele grafice sunt foarte utile pentru analiza prealabilã a datelor.
Astfel, înainte de a se trece la analiza propriu-zisã a datelor pe care le-am inserat în Data
Editor trebuie sã avem mai întâi o imagine generalã asupra variabilelor. Dupã cum am vãzut în
submeniul Explore putem sã obţinem o imagine de ansamblu a variabilelor şi reprezentarea
graficã a acestora. Prin aceste proceduri putem evita greşelile inerente : greşeli de înregistrare,
greşeli date de necunoaşterea distribuţiei variabilei, greşeli generate de cazurile lipsã (existã
diverse opţiuni cum ar fi Exclude cases pairwise-cînd un caz nu are o valoare pentru o
anumitã variabilã este exclus din analizã ) etc. Informaţii la fel de importante pot fi obţinute şi
din submeniul Descriptive.

10. Testarea ipotezelor statistice; praguri de semnificaţie

În general majoritatea raţionamentelor umane sunt alcãtuite din combinaţii de douã sau
mai multe variabile. Este şi cazul ipotezelor statistice care nu sunt altceva decât aserţiuni
privind diverse fenomene naturale sau sociale, aserţiuni pe care la facem în vederea testãrii lor
ulterioare. O ipotezã statisticã este de obicei compusã dintr-un cuplu de douã enunţuri:
-H0 (ipoteza de nul) şi
-H1 ( ipoteza de lucru).
Primul enunţ H0 descrie, de obicei (dar nu e obligatoriu!) situaţia când o anumitã variabilã sau
fenomen nu este prezentã sau nu acţioneazã (sau cã, de exemplu, nu existã o diferenţã
semnificativã între douã condiţii). Este ca şi cum am spune cã un anumit lucru dacã se întâmplã
este doar rodul întâmplãrii. Ipoteza de nul este tocmai cea care este testatã.
Al doilea enunţ H1 descrie situaţia contrarã enunţului H0 când o variabilã sau fenomen
acţioneazã şi are o influenţã semnificativã:
Exemple: H1: sexul respondenţilor influenţeazã pãrerea acestora despre impozite.
H0: opinia despre impozite nu este influenţatã de sexul respondenţilor.
H1: autoturismul Dacia este mai bun ca unul din import
H0: autoturismul Dacia este la fel de bun ca unul din import.
Din astfel de exemple deducem cã în analiza statisticã suntem nevoiţi fie sã acceptãm H0 fie pe
H1, deoarece ambele sunt disjunctive. Un astfel de raţionament se va face întotdeauna în
termeni de prag de semnificaţie (sau interval de încredere) pentru cã în realitate orice
presupoziţie statisticã se face cu o anumitã marjã de eroare, cu o anumitã şansã de a ne înşela.
De exemplu când vorbim de un prag de semnificaţie (notat p) de 0.05 spunem de fapt cã sunt
5% şanse sã ne înşelãm atunci cînd facem o anumitã aserţiune statisticã (iar în “oglindã”
spunem cã sunt 95% şanse sã nu ne înşelãm când facem respectivul raţionament). La fel, când
vorbim de un prag de semnificaţie de 0,01 spunem cã sunt 1% şanse sã ne înşelãm (sau 99%
şanse sã nu ne înşelãm). Evident cã în cel de al doilea caz gradul de siguranţã este mai mare.
Şi în cazul testãrii ipotezelor intervin astfel de precizãri. Astfel cã vorbim de un prag de
semnificaţie de 0.05 în sensul cã “sunt 5% şanse de a ne înşela atunci cînd acceptãm ipoteza de
lucru H1 (sau respingem ipoteza de nul H0)”. În majoritatea cercetãrilor este acceptat un prag
maxim de 0.05 sau p  0.05 dar se întâlnesc şi praguri mai mari decât 0.05 (întotdeauna aceste
praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercetãtor).
Trebuie sã precizãm cã existã posibilitatea sã ne înşelãm chiar şi în aceste condiţii.
Adicã de exemplu sã acceptãm o ipotezã de lucru pentru cã toate datele statistice o confirmã
dar, în esenţã, acea ipotezã sã fie totuşi falsã. În general se pot comite douã feluri de erori:
Eroare de gradul I: respingem ipoteza nulã deşi este adevãratã
Eroare de gradul II: ipoteza nulã este acceptatã deşi este falsã.
Aceste douã tipuri de erori sunt complet diferite: eroarea de gradul I este consideratã mai gravã
şi tocmai de aceea se cere sã micşorãm pe cât posibil pragul de semnificaţie. Unii cercetãtori
recomandã aici un prag p  0.01 cu atât mai mult cu cât influenţa cercetãtorului poate fi
importantã. În cel de-al doilea caz gradul de influenţã al cercetãtorului este redusã şi se
recomandã un prag p  0.05. Legat de aceste erori sunt folosite în statistică noţiunile de putere
(sau probabilitatea de a respinge ipoteza nulă când de fapt ea este adevărată). [pentru o analiză
pe larg a acestei problematici a se vedea C.Coman, N. Medianu, 2002 ;144 şi urm.]
Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneazã
o comparaţie între o situaţie presupusã şi una rezultatã în urma cercetãrii de teren efective.
Comparaţiile în statistica socialã sunt foarte diverse: fie se fac observaţii pe o singurã variabilã,
fie se comparã valori din douã eşantioane, fie se comparã valorile dintr-un eşantion cu valorile
unei populaţii mai extinse, fie se analizeazã diverse situaţii experimentale etc. În general în
testarea ipotezelor se urmãreşte o anumitã direcţie, un anumit sens al legãturilor.Din acest
punct de vedere sunt douã tipuri de raţionamente: one-tailed (unilateral) şi two-tailed
(bilateral)! One-tailed este utilizat atunci când se cunoaşte dinainte sensul predicţiei statistice
iar varianta two- tailed este preferatã atunci când nu se cunoaşte „în avans” sensul predicţiei.
O altã precizare importantã este aceea cã sunt douã tipuri fundamentale de teste
statistice: parametrice şi non-parametrice. Testele parametrice sunt considerate mai puternice
dar pentru aceasta trebuie sã fie îndeplinite mai multe condiţii importante:
- populaţia din care a fost extras eşantionul sã aibã o distribuţie normalã (distribuţia
normalã trebuie sã se regãseascã şi în eşantion altfel se pot face anumite transformãri pentru a
se ajunge la o distribuţie normalã)
-regula omogenitãţii varianţei (dintre cea din eşantion şi cea din populaţie)
-în majoritatea cazurilor variabilele trebuie sã fie mãsurate pe scale de interval.
-nu trebuie sã existe scoruri extreme (metodele parametrice sunt sensibile în astfel de
situaţii).
Dacã testele parametrice folosesc metode numerice cele ne-parametrice folosesc
poziţiile pe care valorile le au în cadrul variabilelor. Nefiind vulnerabile la valori extreme unii
statisticieni vorbesc de o mai mare stabilitate a acestor teste.
In funcţie de aceste precizãri se recomandã folosirea unor teste diverse în funcţie de necesitãţi.
Din multele tipuri de clasificãri redãm una dintre ele consemnatã de Christine P. Dancey şi J.
Reidy (1999) [vezi tabelul urmãtor]. Spaţiul limitat al acestui curs nu permite însă decât
parcurgerea a câtorva proceduri din acest tabel.

Obs: 1.Testele incluse în tabelul respectiv reprezintã modalitãţi de analizã a legãturii dintre
variabile. Se disting astfel metode parametrice dar şi neparametrice de studiu a acestor legãturi.
2. Testarea diferenţei între douã condiţii reprezintã o modalitate foarte rãspînditã de
analizã. De exemplu putem analiza care este influenţa unei sesiuni de comunicari pentru
studenţii la sociologie. Probabil cã cei ce parcurg sesiunea respectivă vor avea cunoştinţe mai
bune. Pentru a testa acest lucru putem dispune de douã tehnici principale:
A. Se comparã douã grupuri diferite de studenţi (alocaţi aleator) unul care parcurge
respectiva sesiune şi unul care nu urmeazã acea sesiune, apoi se comparã rezultatele unei
examinãri. Acest tip de analizã se numeşte between participants design (rezultatele vin de la
douã grupuri).
B. Se comparã un singur grup care trece prin cele douã condiţii, odatã fãrã sã parcurgã
sesiunea respectivă iar a doua oarã dupã parcurgerea acesteia. Rezultatele unor examinãri
succesive vor decide care este influenţa urmãrii sesiunii. Acest tip de analizã se numeşte within
participant design (rezultatele vin de la acelaşi grup).
In fapt compararea între condiţii înseamnã compararea unor medii şi dacã diferenţa
dintre aceste medii este semnificativã. Testele folosite în aceste cazuri trebuie sã rãspundã la o
întrebare importantã: este diferenţa datã de erori de eşantionare sau cu adevãrat se manifestã
influenţa unei variabile independente cu efecte importante în variaţia variabilei dependente?
Nivel al Tip de statisticã descriptivã Tipuri de statisticã inferenţialã
mãsurãrii
Teste de Teste ale Teste ale diferenţei Teste referitoare la
corelatie/asociere diferentei intre mai mult de douã douã sau mai multe
douã condiţii condiţii var. Independ. Sau
asupra unei var. asupra unei var. var. depend
Independ. independente
Nominal Mode Testul  2 pentru
independenţã
Within- Within-
Scala
NU Mediana / participants participants
poate fi
de modul TestWilcoxon Friedman
Ordinal
interval? Spearman (  ) ANOVA
Between-
DA participants Between-
DA Mann participants
Whitney U Kruskal-
Test Wallace one
way ANOVA
Within-
Aveţi NU participants
valori Related t-test
extreme? NU Media
Coeficientul lui Between- One way Factorial
Interval/ratio Pearson participants ANOVA ANOVA
Sunt indeplinite Independent t- Multivariate
condiţiile test ANOVA
parametrice?
DA
11. Testarea normalitãţii unei distribuţii

Nu de puţine ori asumţia ca un eşantion sau o populaţie sã aibã o distribuţie normalã


dupã o variabilã cantitativã este necesarã pentru a executa anumite analize statistice. O primã
impresie poate fi datã de histograma seriei dar nu este suficient acest lucru. Un test care poate
susţine aceastã analizã este testul Kolmogorov-Smirnov şi care de fapt comparã distribuţia din
eşantion cu o altã distribuţie (normalã) care are aceeaşi medie şi abatere standard. Sã
presupunem cã dorim sã verificãm normalitatea variabilei horsepower (puterea motorului) din
baza de date Cars din programul SPSS. Vom urma comenzile Analyze→Descrtiptive
Statistics→Explore:

În rubrica Dependent list


am trecut variabila care
urmeazã sã fie analizatã. Din
butonul Statistics putem
selecta principalele valori de
statisticã descriptivã iar din
butonul Plots nu trebuie
uitatã setarea Normality
plots with tests.

Rezultatul testului este urmãtorul:

Interpretarea testului este urmãtoarea: dacã


Tests of Normality
pragul de semnificaţie este p<0.05 atunci
Kolmogorov-Smirnov
a testul este semnificativ în sensul cã
Statistic df Sig. distribuţia din eşantion este semnificativ
Horsepower .160 400 .000
a. Lilliefors Significance Correction
diferitã de o distribuţie normalã. Este şi
aici cazul pt. Sig.=0.000.
Normal Q-Q Plot of Horsepower Aceastã concluzie apare simplu şi din
3
graficul de tip Q-Q plots. În figura
alãturatã linia oblicã reprezintã valorile
2
teoretice (aşteptate) ale distribuţiei
normale. Linia curbã reprezintã
1
valorile observate ale variabilei
studiate. Cu cât diferenţa faţã de linia
0
dreaptã este mai mare cu atât deviaţia
de la normalitate este mai mare.
Situaţia de normalitate ar însemna
Expected Normal

-1
coincidenţa perfectã dintre cele douã
-2
grafice. În concluzie se recomandã în
astfel de cazuri folosirea testelor non-
-3 parametrice.
-100 0 100 200 300

Observed Value

Obs: În aplicarea testului de mai sus am ţinut seama şi de mãrimea eşantionului. Astfel se
considerã cã testul K.-Smirnov este valabil când eşantionul>50 de subiecţi. Dacã eşantionul
este mai mic atunci se aplicã testul W al lui Shapiro-Wilks. Programul SPSS calculeazã oricum
automat ambele teste. Formularea în sensul ipotezelor statistice ar fi urmãtoarea: Ho: “între
distribuţia variabilei şi cea teoreticã nu este o diferenţã semnificativã” iar H1: “între cele douã
distribuţii existã o diferenţã semnificativã”. Dacã p<0.05 atunci respingem ipoteza de nul şi o
admitem pe cea de lucru.
12. Corelaţia dintre douã variabile cantitative

Se pune deseori problema de a analiza legãtura dintre douã variabile cantitative în


sensul de a vedea în ce mãsurã valorile respective co-variazã (de exemplu valorile mari dintr-o
variabilã coreleazã cu valorile mari din cealaltã variabilã). Corelaţia mãsoarã relaţia liniarã
dintre variabile şi se mãsoarã cu coeficientul de corelaţie Pearson (r). Acest coeficient are o
formulã simplã şi care sugereazã modul cum este calculat:

r
 x i  x  y i  y 
.
nSD x SD y

Din formulã se vede cã la numitor avem suma tuturor produselor distanţelor valorilor din cele
douã serii de la mediile respective iar la numitor produsul dintre numãrul de cazuri (n) şi cele
douã abateri standard din cele douã serii. Fiind aşadar un test parametric (luând în calcul în
mod direct toate valorile seriilor) calcularea acestui coeficient trebuie sã ţinã seama de
condiţiile din acest caz [A. Field, 2000; 37]:
1.Asumţia distribuţiei normale [datele trebuie sã provinã din populaţii normal
distribuite (se poate verifica acest lucru cu testul K.-Smirnov)],
2. Asumţia omogenitãţii varianţei [varianţele din cele douã variabile trebuie sã fie
stabile la orice nivel],
3. Asumţia scalei de mãsurare (scala de mãsurare trebuie sã fie cea de interval)
4. Asumţia independenţei (subiecţii de la care s-au obţinut valorile respective sã fie
independenţi unul de altul).
Coeficientul de corelaţie este întotdeauna cuprins în intervalul [-1, +1] înţelegând prin aceasta
toate valorile reale din acest interval. Interpretarea valorilor este urmãtoarea:

1. r tinde sau este foarte aproape de  1 atunci corelaţia este puternicã


(de acelaşi sens sau de sens contrar)
2. r tinde la 0 atunci corelaţia nu existã
3. r tinde la  0,5 corelaţia este de intensitate medie.

Se impun aici o serie de observaţii:


1. Relaţia de corelaţie nu trebuie privitã ca şi o relaţie cauzã- efect, de la o variabilã
independentã la una dependentã, deşi de multe ori se face un astfel de raţionament.
Interpretarea nu priveşte decât faptul cã valorile ambelor variabile co-variazã într-un anume
sens!
2. In general dacã variabilele sunt independente atunci coeficientul r se anuleazã. Dar reciproca
nu este adevãratã: nu este sigur cã dacã r se anuleazã atunci şi variabilele sunt independente [a
se vedea T. Rotariu, 1999; 173]. Aici se impune o observaţie importantã: când r=0 suntem
siguri doar cã nu existã o corelaţie liniarã a celor douã variabile dar poate exista o corelaţie de
alt fel (curbilinie). Când vorbim de corelaţie liniarã înţelegem faptul cã dacã reprezentãm
grafic corelaţia cu ambele variabile axe de coordonate vom obţine un „nor de puncte” care se
poate alinia dupã o dreaptã (întotdeauna este recomandat sã verificãm şi grafic corelaţia
deoarece ea este valabilã doar ca şi corelaţie liniarã). Situaţiile pot fi urmãtoarele:



  

 
  

r→1 r→ -1 r→0
3. Coeficientul de corelaţie dã douã rezultate importante: puterea asocierii dintre variabile şi
sensul acestei asocieri. În general valorile din jurul valorilor  1 sugereazã o corelaţie foarte
puternicã, aproape perfectã. Valorile între  0,6 şi  0,8 denotã o corelaţie puternicã, valorile
din jurul valorilor de  0,5 dau o corelaţie de intensitate medie iar cele mãrimea  0,1  0,4
sugereazã corelaţii slabe. Sensul corelaţiilor este dat de semnul acestora: semnul +sugereazã cã
variabilele cresc sau scad în acelaşi timp iar semnul – sugereazã faptul cã valorile unei
variabile cresc în acelaşi timp ce valorile celeilalte variabile scad.

Sã dã un exemplu clasic din literatura de specialitate: corelaţia dintre variabilele


salbegin şi salary din baza de date Employee Data. Mai întâi vom face analiza asumţiilor
destinate metodelor parametrice. Apoi este recomandatã vizualizarea graficã a corelaţiei
urmând comenzile Graphs→Scatter şi vom alege varianta Simple apoi Define:

Cele douã variabile vor defini chiar


axele de coordonate. Opţiunea Set
Markers by ajutã la analiza corelaţiei
dupã diferite categorii de subiecţi.
Label Cases by ajutã la identificarea
cazurilor dupã o anumitã variabilã (din
care putem ataşa etichete sau numere
de ordine). Graficul este urmãtorul:
140000

120000

Se observã gruparea punctelor din


100000
plan dupã o dreaptã înclinatã la
aproximativ 450 faţã de axa OX.
80000
Putem fi deci siguri privind
60000
linearitatea legãturii iar ca şi
intensitate se prefigureazã o
40000 legãturã puternicã de acelaşi sens.
Current Salary

20000

0
0 20000 40000 60000 80000 100000

Beginning Salary

Acestea fiind spuse putem calcula coeficientul de corelaţie dupã alegerea comenzilor:
Analyze→Correlate→Bivariate:
Varibilele de interes le-am trecut din
coloana din stânga în dreapta.
Coeficientul de corelaţie Pearson este
setat prin definiţie ceilalţi doi
coeficienţi fiind metode neparametrice
de calcul. Testele de semnificaţie
implicate sunt de douã feluri: two-
tailed (este folosit atunci când nu
putem prezice natura legãturii dintre
variabile şi este recomandat pentru mai
multã siguranţã); one-tailed (este
folosit când avem o ipotezã
direcţionalã sau putem prezice sensul
legãturii). Opţiunea Flag... va asigura
prezentarea datelor legate de pragul de
semnificaţie. Din butonul Option
putem alege elemente de statisticã
descriptivã dar şi modalitãţi de lucru în
cazul valorilor lipsã:
Exclude cases pairwise- eliminã
perechile de rezultate pentru care una
din valori lipseşte. Aceastã opţiune este
mai des întâlnitã.
Exclude cases listwise- eliminã din
analizã un rând întreg dacã lipseşte
doar una dintre valori. Dupã Continue
obţinem rezultatul urmãtor:
Correlations

Beginning
Salary Current Salary
Beginning Salary Pearson Correlation 1 .880**
Sig. (2-tailed) . .000
N 474 474
Current Salary Pearson Correlation .880** 1
Sig. (2-tailed) .000 .
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

În partea dreaptã a tabelului se intersecteazã cele douã variabile. Vedem cã corelaţia dintre
Beginning Salary şi ea însãşi este perfecta (r=1). Corelaţia dintre Beginning Salary şi
Current Salary se dovedeşte a fi foarte puternicã şi de acelaşi sens (r=0.880). Pragul de
semnificaţie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolute ci în realitate
doar o valoare foarte mica. Corelaţia cuprinde în studiu un numãr de 474 perechi de valori sau
474 cazuri. Pe diagonalã observãm în matrice aceleaşi rezultate. Sub tabel este specificat faptul
cã corelaţia calculate este semnificativã la un prag de p= 0.01. În primul rand se observã cã
acest prag p<0.05 ceea ce ne aratã cã legãtura dintre variabile este semnificativã. În termeni de
probabilitate putem spune cã sunt 1% şanse sã ne înşelãm atunci când predicţionãm legãtura
dintre cele douã variabile (sau mãrimea şi sensul corelaţiei). În termenii testãrii statistice
spunem cã dacã H0 este enunţul “variabilele nu sunt corelate” iar H1 este enunţul “existã
corelaţie între cele douã variabile” atunci sunt 1% şanse sã ne înşelãm atunci când respingem
ipoteza de nul.
Obs. Se pot obţine şi matrici de corelaţie. De exemplu adãugând o a treia variabilã educ (nivel
educaţional în ani de zile):

Correlations

Beginning Educational
Salary Current Salary Level (years)
Beginning Salary Pearson Correlation 1 .880** .633**
Sig. (2-tailed) . .000 .000
N 474 474 474
Current Salary Pearson Correlation .880** 1 .661**
Sig. (2-tailed) .000 . .000
N 474 474 474
Educational Level (years) Pearson Correlation .633** .661** 1
Sig. (2-tailed) .000 .000 .
N 474 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Rezultatele se interpreteazã douã câte douã excluzând prima diagonalã unde corelaţiile sunt
perfecte! În unele analize nu este prezentatã decât partea de deasupra sau de dedesuptul acestei
diagonale!
12.1 Coeficientul de variaţie

Dupã cum am spus mai înainte corelaţia nu se interpreteazã ca şi o relaţie cauzalã


deoarece nu se poate dovedi statistic care dintre variabile o influenţeazã pe alta chiar dacã
uneori noi raţionãm în acest sens. Pe de altã parte în evoluţia unei variabile pot interveni şi alte
variabile decât cele considerate în calculul corelaţiei. Imaginea dependenţei dintre douã
variabile putem sã o avem dupã ce am analizat varianţa comun împãrtãşitã de acestea. Dacã am
avea douã variabile şi am reprezenta grafic varianţele lor prin douã diagrame circulare putem
spune cã partea din intersecţia comunã este varianţã comun împãrtãşitã:

70%
15%

15%

Variabila 1 Variabila 2 Varianţã comun împãrãşitã

Cu cât suprafaţã intersecţiei este mai mare cu atât varianţa comun împãrtãşitã este mai mare. In
cazul nostru dacã am nota suprafaţã intersecţiei cu 100% putem deduce cã aproximativ 70%
este varianţã comunã restul de 30% nefiind comunã. Varianţa comunã ne dã o informaţie
despre dependenţa dintre variabile: putem spune cã 70% din varianţa unei variabile depinde de
varianţa celeilalte (altfel spus cât las sutã din variaţia unei variabile se explicã prin variaţia
celeilalte) iar 15% nu este varianţã împãrtãşitã sau este datoratã influenţei altor variabile. În
general varianţa comunã este calculatã prin ridicarea la pãtrat a coeficientului de corelaţie dar
se interpreteazã procentual. Se obţin astfel valorile urmãtoare [adaptat dupã Ch. P. Dancey şi J.
Reidy (1999)]:

Coeficientul de Pãtratul coeficientului Procentul varianţei


corelaţie r2 comun împãrtãşite Se observã cã de exemplu o
r corelaţie care este foarte
0.0 0.00 0% puternicã de 0,8 desemneazã
doar 64% din varianţã
0.1 0.01 1%
comunã. De asemenea se
0.2 0.04 4% observã cã o corelaţie de 0.8
0.3 0.09 5% este in realitate de patru ori
0.4 0.16 16% mai puternicã decât o
0.5 0.25 25% corelaţie de 0.4 (varianţa
0.6 0.36 36% comunã creşte de la 16% la
0.7 0.49 49% 64%). Aceste interpretãri nu
0.8 0.64 64% trebuie însã vazute ca
0.9 0.81 81% relaţii de tip cauzã-efect!
1.0 1.00 100%
12.2 Corelaţie parţialã

Din consideraţiile de pânã acum se deduce faptul cã atunci când studiem corelaţia
dintre douã variabile poate exista şi influenţa altor variabile care vor explica evoluţia, variaţia
unei variabile. De exemplu o bunã parte din mãrimea salariului actual se poate explica prin
mãrimea salariului de debut dar pot exista şi alte variabile care sã influenţeze remuneraţia:
nivel de motivaţie, performanţa în muncã, numãrul de inovaţii aduse procesului muncii etc. Se
pune însã şi problema relaţiilor false dintre douã variabile când o corelaţie puternicã dintre
douã variabile sã depindã în primul rând de evoluţia unei a treia variabile. De exemplu P.
Lazarsfeld amintea de legãtura care se fãcea cândva între numãrul mare de berze apãrute
undeva în nordul Franţei şi numãrul de naşteri în creştere. Cu alte cuvinte se putea obţine o
corelaţie puternicã între cele douã variabile, ceea ce ar fi explicat mitul berzelor aducãtoare de
copii! Numai cã relaţia dintre variabile controlatã de o a treia (denumitã mediu) a arãtat cã
dacã rata natalitãţii se pãstra relativ ridicatã în mediul rural, ea scãdea semnificatif în mediul
urban. Un alt exemplu, cunoscut în literatura de specialitate se referea la corelaţia dintre
apariţia unui numãr crescut de furnici în cãutare de hranã şi numãrul turiştilor care au venit la
mare pe plajã. Corelaţia dintre fenomene se dovedeşte falsã din moment ce ele sunt controlate
de oa treia variabilã cãldura care va explica în final co-evoluţia primelor douã.
Vom calcula o corelaţie parţialã plecând de la baza de date World95 [pe larg şi în
SPSS Base 9.0 Application guide]. Vom analiza mai întâi variabilele urban (People living in
cities %) şi birth_rt (Birth rate per 1000 people). Pentru început vom calcula corelaţia simplã
între cele douã variabile:
Correlations

People living Birth rate per


in cities (%) 1000 people
People living in cities (%) Pearson Correlation 1 -.629**
Sig. (2-tailed) . .000
N 108 108
Birth rate per 1000 people Pearson Correlation -.629** 1
Sig. (2-tailed) .000 .
N 108 109
**. Correlation is significant at the 0.01 level (2-tailed).

Rezultatul ne aratã o corelaţie puternicã de sens contrar (r = - 0.629) la un prag de


semnificaţie de 0.01. Ceea ce însemnã cã cifrele înalte ale urbanizãrii sunt însoţite de cifre
scãzute ale ratei natalitãţii. Se pune problema dacã aceastã corelaţie rãmâne validã dacã o
controlãm cu o a treia variabilã. Am ales pentru control variabila log_gdp (logaritm zecimal
din produsul intern brut /locuitor). Aceastã variabilã a fost obţinutã prin logaritmare din
variabila gdp_cap dar sensul acesteia este acelaşi: gradul de prosperitate al unei ţãri oarecare.
Aceastã operaţie a fost necesarã pentru a normaliza distribuţia variabilei şi astfel pentru a putea
intra în calculele de tip parametric!
Pentru a genera o corelaţie parţialã vom urma comenzile urmãtoare: Analyze→
Correlate→Partial dupã care a va apare fereastra urmãtoare:
În aceastã fereastrã am trecut în
dreapta variabilele de corelat iar
în rubrica Controlling for am
trecut variabila de control. Din
butonul Option pot fi selectate şi
alte elemente de statisticã
descriptivã şi chiar matricea
corelaţiilor dintre toate cel trei
variabile. Rezultatul corelaţiei
parţiale este vizibil în
urmãtoarea situaţia de mai jos.
Se observã cã corelaţia dintre
variabilele urban şi birth_rt
scade semnificativ la -0.11
aproape de zero ceea ce face ca
relaţia dintre variabile sã se
anuleze. Dacã se întâmplã acest
lucru spunem cã influenţa
variabilei de control este
semnificativã şi cã fosta
corelaţie nu se mai pãstreazã.
Este ca şi cum am spune cã rata
natalitãţii se va menţine ridicatã
în zonele cu o populaţie urbanã
mai puţin prosperã. Dacã
coeficientul de corelaţie rãmânea
aproximativ la fel atunci se
considera cã influenţa variabilei
de control este neglijabilã.

Obs: situaţia de pânã acum descrie corelaţia parţialã de prim ordin. Se pot face însã şi corelaţii
parţiale de al doilea ordin atunci când introducem douã variabile de control. Pot urma chiar mai
multe variabile de control.

12.3 Corelaţia ca metodã neparametricã

Dupã cum am observat corelaţia se leagã de variabile exprimate cantitativ (prin


numere). Aceste variabile pentru a putea fi tratate prin metode parametrice trebuie sã
îndeplineascã o serie de condiţii (asumţii). Dacã aceste condiţii nu sunt îndeplinite se
recomandã folosirea metodelor neparametrice deoarece în acest caz se va lucra cu poziţiile
valorilor respective şi nu cu valorile în sine. Apelãm la astfel de tehnici atunci cînd, de
exemplu, variabilele de interes nu provin dintr-o populaţie normal distribuitã sau când anumite
valori extreme (outliers) pot vicia rezultatele statistice. Practic se produce o trasnsformare a
unor date numerice oarecare într-o variabilã ordinalã dar în care distanţele dintre valori sunt
egale. De exemplu dacã într-o serie avem 5 subiecţi cu salariile de 1,5; 2,3; 4,8; 3,9 şi 25,4
milioane de lei, având în vedere distribuţia seriei putem sã le dãm poziţii acestora dupã salariul
respectiv: 5, 4, 2,3, 1. Aceste valori nu sunt cantitative dar genereazã o ordine exact ca şi pe o
scarã de interval cu intervale egale.
Pentru exemplificare sã alegem variabilele age şi educ din baza de date GSS93 subset.

Vom observa cã cele douã variabile sunt definite ca ordinale şi vor împãrţi populaţia în mai
multe categorii. De exemplu când un subiect primeşte eticheta 10 pentru variabila educ asta
inseamnã cã el intrã în clasa celor cu 10 ani de studii. La fel se procedeazã şi în variabila age.
În acest caz este mai recomandat coeficientul Spearman (  ) care are aceleaşi valori ca şi
coeficientul Pearson. Dupã aceleaşi etape şi dupã setarea coeficientului Spearman obţinem
rezultatul urmãtor:

Correlations

Highest Year
Age of of School
Respondent Completed
Spearman's rho Age of Respondent Correlation Coefficient 1.000 -.203**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.203** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).

Se observã cã corelaţia este  = -0.203 şi este semnificativã (p=0.01). Corelaţia este slabã şi
de sens contrar.
În astfel de cazuri se recomandã chiar folosirea unui al treilea coeficient Kendall (  ).
El este util mai ales când existã foarte multe valori care cã aibã acelaşi rang. În cazul nostru de
exemplu 55 de subiecţi au poziţia 10 (ani de studiu) în timp ce poziţia 12 (12 ani de studiu)
este destinatã la 445 de subiecţi dintr-un eşantion de 1500. Se poate deci calcula şi acest
coeficient:
Correlations

Highest Year
Age of of School
Respondent Completed
Kendall's tau_b Age of Respondent Correlation Coefficient 1.000 -.142**
Sig. (2-tailed) . .000
N 1495 1491
Highest Year of Correlation Coefficient -.142** 1.000
School Completed Sig. (2-tailed) .000 .
N 1491 1496
**. Correlation is significant at the 0.01 level (2-tailed).

Se observã cã corelaţia este  = -0.142 şi este semnificativã (p=0.01). Corelaţia este slabã de
sens contrar. Având în vedere condiţiile de aplicare se poate spune cã acest coeficient este mai
fidel în a reflecta corelaţia dintre variabile. Este deci important de a analiza atent variabilele
pentru a aplica mai apoi testarea corelaţiei.
13. Asocierea variabilelor calitative (nominale)

Dacã pentru variabilele cantitative vorbim de corelaţie atunci pentru variabile


categoriale (calitative) vorbim de asociere. Exemple de astfel de variabie sunt foarte frecvente
în analizele sociale: sexul respondenţilor, religia respondenţilor, statut marital, aprecierea
despre şeful direct (1. foarte bunã, 2. bunã, 3.proastã, 4. foarte proastã, 5. ns/nr), etc. În toate
aceste variabile subiecţii sunt împãrţiţi în mai multe categorii dupã o caracteristicã sau rãspuns
dat cu precizarea cã fiecare subiect va intra într-o singurã categorie. Se pune deci problema de
a vedea în ce mãsurã douã variabile de acest fel sunt asociate. De exemplu dacã sexul
respondenţilor influenţeazã opinia despre şeful direct. Datele obţinute în urma anchetelor sau
cercetãrilor se introduc în ceea ce se numeşte tabel de contingenţã asemãnãtor cu o matrice în
care pe linie intrã categoriile unei variabile iar pe coloanã categoriile celeilalte variabile. În
aceste condiţii fiecare celulã este la intersecţia a douã variante de rãspuns din cele douã
variabile. În general se disting mai multe cãi de a studia asocierea:
-cînd ne referim doar la o singurã variabilã
-cînd ne referim la douã variabile dihotomice
-când ne referim la asocierea dintre variabile cu mai mult de douã categorii.
Ne propunem în continuare sã ne ocupãm de problematica asocierii dar numai pentru
variabile categoriale nominale cei interesaţi putând urmãri tematica pentru variabile ordinale şi
din bibliografia anexatã cursului.
Când ne referim doar la o singurã variabilã analizãm practic o grupare de subiecţi dupã
diverse valori nominale sau ordinale ale unei variabile. Ideea este de a compara frecvenţele
observate cu o serie de valori impuse de cercetãtor şi care sunt considerate valori teoretice. Sã
analizãm un exemplu din baza de date GSS 93 subset. Una din variabile este opera şi
reprezintã rãspunsurile subiecţilor privitoare la acest gen muzical. Se pune întrebarea dacã
respondenţii au o pãrere formatã despre acest gen muzical. Se va apela la comenzile
Analyze→Nonparametric Tests→ Chi-Square Test:

Dupã ce am trecut variabila


de interes în dreapta putem
alege variante privind
valorile teoretice. Astfel
vom alege opţiunea All
categories equal care ar fi
situaţia teoreticã în care
toate variantele de rãspuns
sunt egale cantitativ. Pot fi
alese şi alte cofiguraţii
teoretice prin opţiunea
Values→Add sau date de
anumute ranguri (Use
specified ranges).

Facem precizarea cã situaţia teoreticã descrie în fapt situaţia de independenţã cînd toate
variantele de rãspuns ar fi indicate de acelaşi numãr de subiecţi. Faptul cã frecvenţele
observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferinţa
pentru acest gen muzical. Rezultatele sunt urmãtoarele:

Se observã variaţiile scorurilor


Opera
obţinute faţã de situaţia teoreticã:
Observed N Expected N Residual cei ce declarã „Like Very Much”
Like Very Much 66 282.0 -216.0 sunt cei mai puţini iar cei mai
Like It 239 282.0 -43.0 mulţi declarã contrariul ( „Dislike
Mixed Feelings 332 282.0 50.0 Very Much”). Frecvenţele
Dislike It 480 282.0 198.0 teoretice se distribuie în mod egal
Dislike Very Much 293 282.0 11.0 prin împãrţirea celor 1410 de
Total 1410 variante de rãspuns la 5 posibile
rãspunsuri în mod egal. În partea
a doua se observã cã pragul de
Test Statistics semnificaţie este foarte mic
Opera (Asymp. Sig. =0.000) ceea ce
Chi-Square a 320.319 denotã cã valoarea testului este
df 4 semnificativã deci respondenţii au
Asymp. Sig. .000 o pãrere formatã despre muzica
a. 0 cells (.0%) have expected frequencies less than de operã. Din pãcate cei mai
5. The minimum expected cell frequency is 282.0. mulţi resping acest gen muzical.

Cazul a douã variabile dihotomice (ambele cu câte douã valori) este tratat pe larg în T. Rotariu
(1999; 121-133) şi de aceea vom face doar câteva precizãri sumare. Sã construim un tabel de
contingenţã plecând de la variabilele a1 (Credeţi cã în ţara noastrã lucrurile merg într-o direcţie
bunã sau într-o direcţie greşitã?) şi sex0 (sexul respondenţilor) din baza de date BOP_mai-
2003_Gallup. sav. Tabelul respectiv se obţine dupã comenzile Analyze→ Descriptive
Statistics→Crosstabs dupã ce în prealabil am considerat valorile care nu sunt principalele
douã variante de rãspuns ca fiind valori lipsã:
Dupã ce trecem cele douã variabile în
dreapta ca definind liniile (rows) şi
colooanele (columns) vom apela la
butonul Cells pentru o serie de opţiuni
suplimentare:
Se observã cã am selectat apoi opţiunile Observed, Expected precum şi procentajele pe linii
(Percentages Rows). Se mai pot alege opţiuni privind reziduurile care nu sunt altceva decât
diferenţele între frecvenţele observate şi cel aşteptate. Dupã Continue→OK tabelul este
urmãtorul:

Credeþi cã în þara noastrã lucrurile merg într-o direcþie bunã sau într-o direcþie greºitã? * Genul
(respondent) Crosstabulation

Genul (respondent)
masculin feminin Total
Credeþi cã în þara direcþia este bunã Count 383 367 750
noastrã lucrurile merg Expected Count 358.9 391.1 750.0
într-o direcþie bunã sau % within Credeþi cã în
într-o direcþie greºitã? 51.1% 48.9% 100.0%
þara noastrã...
direcþia este greºitã Count 511 607 1118
Expected Count 535.1 582.9 1118.0
% within Credeþi cã în
45.7% 54.3% 100.0%
þara noastrã...
Total Count 894 974 1868
Expected Count 894.0 974.0 1868.0
% within Credeþi cã în
47.9% 52.1% 100.0%
þara noastrã...

Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre
respondenţii care cred cã direcţia este bunã sunt de gen masculin şi la fel 511 (45,7%) dintre
cei ce cred cã direcţia este greşitã. Se observã cã totalul cazurilor valide este de 1868 persoane
din care 894 bãrbaţi şi 974 femei. În fiecare celulã se gãsesc şi valorile numite Expected,
valori teoretice care corespund situaţiei când cele douã variabile sunt independente.
Atunci când analizãm problematica asocierii de fapt urmãm raţionamentul unei ipoteze
statistice:
H0: variabilele calitative nu sunt asociate
H1: variabilele sunt asociate.
Pentru mãsurarea asocierii dintre cele douã variabile se foloseşte testul  2 . Acest test
se bazeazã pe diferenţele calculate dintre douã tipuri de date: cele aşteptate (teoretice) care
reprezintã situaţia de independenţã dintre variabile şi cele observate (obţinute în urma
cercetãrii efective). Conform formulei de calcul  2 este o mãrime care se obţine din suma
pãtratelor diferenţelor dintre frecvenţele observate (fo) şi şi cele teoretice (ft) împãrţite la
 f o f t  2
frecvenţele teoretice:  2
  f . Se pleacã de la ideea cã cu cât acest coeficient este
t
mai mic cu atât cresc şansele ca variabilele sã fie independente şi cu cât coeficientul este mai
mare cu atât mai sigur variabilele sunt asociate. Pentru cã aceste aprecieri au nevoie de
intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori,
considerate teoretice şi care se gãsesc în tabele statistice speciale. De fapt se ajunge la
reformularea ipotezei statistice de care vorbeam:
1. Dacã  2 calculat   2 teoretic atunci resping H0 şi admit H1
2. Dacã  2 calculat   2 teoretic atunci resping H1 şi admit H0.
Df\ Praguri semnif .10 .05 .02 .01 .001

1 2.71 3.84 5.41 6.64 10.83

2 4.60 5.99 7.82 9.21 13.82

3 6.25 7.82 9.84 11.34 16.27 Aceste raţionamente trebuie


sã ţinã seama de urmãtoarele
4 7.78 9.49 11.67 13.28 18.46 condiţii:
a. relaţiile de mai sus se specificã
5 9.24 11.07 13.39 15.09 20.52 pentru un anumit prag de
semnificaţie
6 10.64 12.59 15.03 16.81 22.46 b. trebuie avute în vedere gradele
de libertate ale tabelului de
7 12.02 14.07 16.62 18.48 24.32 contingenţã. Se noteazã cu df
(degree of freedom) şi se
8 13.36 15.51 18.17 20.09 26.12 calculeazã cu formula: df= (n-1)
(m-1), unde n este numãrul de linii
9 14.68 16.92 19.68 21.67 27.88 ale tabloului iar m numãrul de
coloane.
10 15.99 18.31 21.16 23.21 29.59 c. În tabloul de contingenţã trebuie
sã nu existe celule în care valoarea
11 17.28 19.68 22.62 24.72 31.26 frecvenţelor aşteptate (Expected
Count) sã fie mai mici de 5. În
12 18.55 21.03 24.05 26.22 32.91 unele calcule se cere ca numãrul
acestor cazuri sã fie mai mic de
13 19.81 22.36 25.47 27.69 34.53 20%. Reducerea numãrului de
cazuri este însã foarte importantã:
14 21.06 23.68 26.87 29.14 36.12 dacă creşte mãrimea tabelului de
contingenţã şi invariabil creşte şi
15 22.31 25.00 28.26 30.58 37.70 coeficientul  2 !
d. valorile teoretice (sau critice) ale
16 23.54 26.30 29.63 32.00 39.25 coeficientului sunt cele din
urmãtoarea listã:
17 24.77 27.59 31.00 33.41 40.79
Se obsevã în acest tabel pe prima
18 25.99 28.87 32.35 34.80 42.31 linie orizontalã pragurile de
semnificaţie de las 0.1 la 0.001. Pe
19 27.20 30.14 33.69 36.19 43.82 prima coloanã se gãsesc gradele de
libertate. Valoarea criticã a lui  2
20 28.41 31.41 35.02 37.57 45.32 se citeşte la intersecţia unui prag
de semnificaţie şi a unui anumit
21 29.62 32.67 36.34 38.93 46.80 numãr de grade de libertate. Se
comparã apoi valoarea
22 30.81 33.92 37.66 40.29 48.27 coeficientului cu valoarea calculatã
(de cãtre computer) şi se urmãreşte
raţionamentul de mai sus.
23 32.01 35.17 38.97 41.64 49.73
Pentru a calcula coeficientul  2
vom apela în fereastra de mai sus
24 33.20 36.42 40.27 42.98 51.18
la butonul Statistics şi vom alege
doar varianta Chi-Square din
25 34.38 37.65 41.57 44.31 52.62 colţul din stânga sus apoi
Continue→OK:
26 35.56 38.88 42.86 45.64 54.05

27 36.74 40.11 44.14 46.96 55.48


Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 5.168b 1 .023
Continuity Correctiona 4.955 1 .026
Likelihood Ratio 5.168 1 .023
Fisher's Exact Test .023 .013
Linear-by-Linear
5.165 1 .023
Association
N of Valid Cases 1868
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
358.94.

Rezultatul se interpreteazã din acest tabel. Coeficientul  2 =5,168 pentru 1 grad de


libertate şi un prag de semnificaţie de 0.023 (Asymp. Sig). Programul mai calculeazã un
coeficient de corecţie care se aplicã de obicei când existã celule cu valori teoretice mai mici
decât 5; un coeficient echivalent cu primul (Likelihood Ratio) apoi un gen de corelaţie care nu
este semnificativã aici (Linear-by-Linear Association). Distingem valorile testului Fisher 
(ale cãrui valori le vom detalia în continuare) care confirmã lipsa asocierii. Sunt precizate
numãrul de cazuri valide (aici 1868) iar la final se precizeazã câte celule au valori aşteptate în
numãr mai mic decât 5. Valoarea lui  2 =5,168 se comparã cu cea din tabelul de mai înainte şi
anume cu valoarea 5,41 (pentru df=1 şi p=0.02). Deducem urmãtoarele:

 2 calculat=5,168<  2 teoretic=5,41 din care cauzã vom respinge H1 şi admitem H0.


În concluzie nu existã o asociere între sexul respondenţilor şi aprecierea privind direcţia
de dezvoltare a ţãrii sau altfel spus nu avem diferenţe majore în rãspunsurile respondenţilor
diferenţiate dupã sexul acestora.

13.1. Sensul şi intensitatea asocierii


Coeficientul  2 poate atesta prezenţa asocierii dar nu şi intensitatea sau sensul acesteia.
Tocmai de aceea se folosesc şi alţi coeficienţi pentru o astfel de analizã. Iatã pentru început unii
coeficienţi utili pentru cazul a douã variabile dihotomice nominale:
nk k k
1. Coeficientul  = k k k k în care k11 este frecvenţa observatã din celula 11
11 1. .1

1. 2. .1 .2

iar celelalte sunt frecvenţe marginale (cele ce sunt sumele pe linii şi pe coloane ale frecvenţelor
2
din tabel). Acelaşi coeficient se mai calculeazã cu formula    . În aceastã ultimã
n
formulã  2 este o mãrime care se obţine din suma pãtratelor diferenţelor dintre frecvenţele
 f  f 2
observate (fo) şi şi cele teoretice (ft) împãrţite la frecvenţele teoretice:    o t .
2

ft
Dacã  >0 tendinţa datelor este sã se grupeze pe diagonala principalã caz în care existã o
asociere pozitivã între variabile. Asocierea este negativã dacã  <0.
k11 k 22  k12 k 21
2. Coeficientul Q al lui Yule are formula urmãtoare: Q= şi ia valori în
k11 k 22  k12 k 21
intervalul [-1, +1]. Interpretarea este asemãnãtoare cu aceea de la corelaţie (pentru Q=0 situaţia
este de independenţã).
3. Coeficientul Y al lui Yule, pe care nu îl mai detaliem aici şi care are valori tot între
[-1,+1].

Pentru variabile categoriale cu mai mult de douã variante se impun şi alţi coeficienţi:

1. Coeficientul de contingenţã (C) ia valori în intervalul [0,1] şi are formula:

2
C= , formula în care n este volumul eşantionului.
 n
2

Acest coeficient dacã e aplicat în cazul a douã variabile dihotomice are valoarea
maxima de 0,707. Aceastã valoare creşte apoi odatã cu creşterea tabelului de contingenţã darn
u va atinge niciodatã valoare 1 deoarece fracţia de sub radical este subunitarã. T. Rotariu
[1999;135] recomandã folosirea acestui coefficient pentru tabele mari. Oricum dacã C→1
atunci asocierea dintre variabile este puternicã iar dacã C→0 asocierea este slabã.

2. Coeficientul V (Cramer) ia valori tot în intervalul [0,1] interpretarea fiind aceeaşi.


Formula de calcul este urmãtoarea:

2
V= , formula în care s*=min (n,m) adicã minimul din nr. de linii/coloane.
n s   1

3. Coeficientul  (Goodman şi Kruskal) ia valori în intervalul [0,1] dar


interpretarea lui este diferitã: el urmãreşte proporţia cu care se reduc erorile prin introducerea
variabilei independente. Dacã  tinde la 0 atunci variabila independentã nu are un aport în
predicţia variabilei dependente. Dacã  tinde la 1 atunci aportul în predicţie este mare. O
variantã este coeficientul  cu interpretãri apropiate.
4. Coeficientul de incertitudine U se mai numeşte coeficientul de entropie şi ia
valori în intervalul [0,1]. El reprezintã procentul de reducere a a erorilor de interpretare a
variaţiei variabilei dependente când acţioneazã variabila independentã (varianţa este definitã
în termeni de entropie sau grad de nedeterminare dat de plasarea subiecţilor în categoriile din
tabelul de contingenţã) . dacã U→0 variabila independentã nu explicã varianţa celei
dependente situaţia fiind opusã dacã U→1.
Vom încerca sã aplicãm şi aceşti din urmã coeficienţi la o analizã pentru variabile
nominale cu mai mult de douã categorii. Din baza de date GSS93 subset vom analiza asocierea
dintre variabilele race şi life: ne intereseazã dacã rasa respondenţilor influenţeazã opinia
despre viaţã în general. Rasa are trei categorii principale (white, black şi others) iar variabila
life [“Is life exciting or dull?”] are şi ea trei variante principale (exciting, routine şi dull). Vom
urma aceleaşi comenzi: Analyze→ Descriptive Statistics→Crosstabs şi vom opta şi pentru
cei patru coeficienţi din fereastra Statistics: Contingency Coefficient, Phi and Cramer’s V,
Lambda şi Uncertainty coefficient. Rezultatele sunt urmãtoarele:

Case Processing Summary

Cases
Valid Missing Total Se observã cã au fost procesate
N Percent N Percent N Percent un numãr de 995 cazuri valide
Marital Status * Is iar 504 au fost considerate lipsã.
996 66.4% 504 33.6% 1500 100.0%
Life Exciting or Dull

Marital Status * Is Life Exciting or Dull Crosstabulation

Is Life Exciting or Dull


Dull Routine Exciting Total
Marital married Count 21 241 251 513
Status Expected Count 33.5 236.4 243.1 513.0
% within Marital Status 4.1% 47.0% 48.9% 100.0%
widowed Count 17 54 40 111
Expected Count 7.2 51.2 52.6 111.0
% within Marital Status 15.3% 48.6% 36.0% 100.0%
divorced Count 10 74 65 149
Expected Count 9.7 68.7 70.6 149.0
% within Marital Status 6.7% 49.7% 43.6% 100.0%
separated Count 6 11 8 25
Expected Count 1.6 11.5 11.8 25.0
% within Marital Status 24.0% 44.0% 32.0% 100.0%
never married Count 11 79 108 198
Expected Count 12.9 91.2 93.8 198.0
% within Marital Status 5.6% 39.9% 54.5% 100.0%
Total Count 65 459 472 996
Expected Count 65.0 459.0 472.0 996.0
% within Marital Status 6.5% 46.1% 47.4% 100.0%
Chi-Square Tests Symmetric Measures

Asymp. Sig.
Value df (2-sided) Value Approx. Sig.
Pearson Chi-Square 39.220a 8 .000 Nominal by Phi .198 .000
Nominal Cramer's V .140 .000
Likelihood Ratio 31.911 8 .000
Linear-by-Linear Contingency Coefficient .195 .000
.034 1 .854 N of Valid Cases 996
Association
N of Valid Cases 996 a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null
a. 1 cells (6.7%) have expected count less than 5. The
hypothesis.
minimum expected count is 1.63.

Directional Measures

Asymp.
a b
Value Std. Error Approx. T Approx. Sig.
Nominal by Lambda Symmetric .026 .016 1.640 .101
Nominal Marital Status Dependent .000 .000 .c .c
Is Life Exciting or Dull
.050 .030 1.640 .101
Dependent
Goodman and Marital Status Dependent .009 .004 .000d
Kruskal tau Is Life Exciting or Dull d
.011 .005 .004
Dependent
Uncertainty Coefficient Symmetric .015 .006 2.639 .000e
Marital Status Dependent .012 .005 2.639 .000e
Is Life Exciting or Dull e
.018 .007 2.639 .000
Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Cannot be computed because the asymptotic standard error equals zero.
d. Based on chi-square approximation
e. Likelihood ratio chi-square probability.

Symmetric Measures Observãm  2 calculat=32,2>  2 teoretic=26,1 pentru 8


grade de libertate şi p=0.000. Acceptãm ipoteza H1
Value Approx. Sig.
deci variabilele sunt asociate. Intensitatea asocierii
Nominal by Phi .198 .000 este totuşi slabã (C=0.190;V=0.140) iar direcţia
Nominal Cramer's V .140 .000 presupusã de var independentã race explicând var.
Contingency Coefficient .195 .000 dependentã life este mai plauzibilã (  =0.05> 
N of Valid Cases 996 =0.00 sau  =0.011>  =0.009). Se observã de
a. Not assuming the null hypothesis. asemenea valorile mici pentru coeficientul U.
b. Using the asymptotic standard error assuming the null
hypothesis.

13.2 Asocierea şi raporturile de şanse (odds ratio)

Cu ajutorul tabelului de contingenţã se poate analiza şansa (probabilitatea) ca un anumit


fenomen sã se petreacã. Dacã un fenomen, sã spunem, are o probabilitate p de apariţie atunci
prin şansã se înţelege raportul p/ (1-p). Dintr-un exemplu anterior vom spune cã existã
probabilitatea de 0.511 ca subiecţii care cred cã “direcţia este bunã” sã fie bãrbaţi. Altfel şansa
ca un intervievat sã fie bãrbat a fost 511/(1-0.511)= 1.04.
Sã analizãm aceastã problematicã plecând de la baza de date GSS93 subset şi de la
douã variabile sex şi gunlaw (acordul sau dezacordul portului armei). Dupã ce am transferat
variabilele pe linie şi coloanã din fereastra statistics alegem doar Chi-square şi Risk:
Respondent's Sex * Favor or Oppose Gun Permits Crosstabulation

Favor or Oppose Gun


Permits
Favor Oppose Total
Respondent's Male Count 314 111 425
Sex Expected Count 350.3 74.7 425.0
% within
73.9% 26.1% 100.0%
Respondent's Sex
Female Count 497 62 559
Expected Count 460.7 98.3 559.0
% within
88.9% 11.1% 100.0%
Respondent's Sex
Total Count 811 173 984
Expected Count 811.0 173.0 984.0
% within
82.4% 17.6% 100.0%
Respondent's Sex

Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 37.622b 1 .000
Continuity Correctiona 36.592 1 .000
Likelihood Ratio 37.417 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear
37.584 1 .000
Association
N of Valid Cases 984
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
74.72.

Risk Estimate

95% Confidence
Interval
Value Lower Upper
Odds Ratio for Favor or
Oppose Gun Permits .353 .251 .496
(Favor / Oppose)
For cohort Respondent's
.603 .524 .695
Sex = Male
For cohort Respondent's
1.710 1.391 2.103
Sex = Female
N of Valid Cases 984

Din rezultatele obţinute se observã cã cele douã variabile sunt asociate [deoarece  2
calculat=37,6>  teoretic=10,83 pentru 1 grad de libertate şi p=0.000 deci vom accepta H1]. Cu alte
2

cuvinte sexul respondenţilor influenţeazã opinia despre portul armei. Şansa ca un respondent sã
fie de acord este diferitã pentru bãrbaţi şi pentru femei. Pentru bãrbaţi este de 314/111=2,82 iar
pentru femei este de 497/62= 8.01 valoare semnificativ mai mare. Raportul de şanse dintre
femei şi bãrbaţi este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8 şanse ca o femeie sã fie de
acord faţã de un bãrbat. Aceastã valoare cu cât este mai mare decât 1 cu atât sunt mai
pronunţate diferenţele dintre grupuri. Pentru cei ce sunt de acord coeficientul de risc este de
1.20 iar pentru cei ce nu sunt de acord 0,42.

S-ar putea să vă placă și