Sunteți pe pagina 1din 23

II.

ALTE PROCEDURI PENTRU REPREZENT RI GRAFICE N SPSS

Comenzile pentru diverse alte grafice le putem g si n meniul Graphs . Din acest meniu vom detalia cteva op#iuni care sunt mai uzuale. Vom g si $i aici de exemplu op#iunea Histogram dar cu o fereastr u$or diferit :

Din acela$i meniu Graphs putem ob#ine pentru graficele de tip Bar Charts o serie de reprezent ri mai sugestive. Vom ncerca s reprezent m grafic alt variabil scoala0 [Ultima scoala absolvit ?] din baza BOP_mai2003_Gallup FINAL.sav. Ne propunem s reprezent m aceast variabil #innd cont de venitul responden#ilor. Vom deschide fereastra necesar dup comenzile Graphs#Bar. Din aceast fereastr vom p stra op#iunea Simple care este potrivit situa#iei noastre deoarece exist o singur variabil independent scoala0. Din partea de jos vom l sa setarea Summaries for groups of cases (barele reprezint grupuri de cazuri). Clic pe butonul Define: Se observ n aceast fereastr c am deplasat variabila scoala0 n rubrica Category Axis (este variabila independent care va defini axa OX) iar n rubrica Variable am trecut variabila vensub iar pentru aceasta n grafic vor apare pe axa OY mediile veniturilor. De altfel aceast op#iune a fost aleas de program n mod automat dar ea poate fi schimbat din butonul Change Sumary. Pentru exemplul nostru vom l sa aceste set ri $i vom continua cu OK! Obs: Dac variabila independent are valori lips atunci din butonul Options se va dezactiva comanda Display groups defined by missing values!
Mean D ar ve nitu l d vs. perso nal n lu na tre
7 6 6 5 4 4 3 2 1 1 0 1 3 2 1 1 1 3 4

S presupunem c vrem s facem histograma variabilei loc4 [Care este suprafa#a total (n metri p tra#i) a camerelor (f r baie, buc t rie, hol) pe care le ocup gospod ria dumneavoastr ?]. Vom trece variabila din stnga n dreapta, putem seta op#iunea Display normal curve, de asemenea putem s c ut m un titlu adecvat graficului:
Suprafata totala
800

600

400

200 Std. Dev = 32.24 Mean = 53.0 0 N = 2100.00

Ultima coal absolvit (respondent)

Valorile de pe axa OY reprezint mediile veniturilor n milioane lei n luna aprilie 2003. Se observ din grafic modul cum influen#eaz variabila independent studii variabila dependent venit. Pentru studii postuniversitare se manifest o sc dere a mediei veniturilor!

f r l oa c

ar m pri (1 -4

z ia na gim l( 5 ) se cla

ala co pro fe cla -8

tre ta ap Id e l na sio

e lic u (9 eu lic (

l oa c

sit NR er niv stu po i g ud st lun e rd it a rs t ur ive sc un e rd ta rs i ive l un ea lic ) st- s e a po cl 12

Care este suprafaa total (n metri ptrai) a camerelor (fr baie, bu

0 0.

40 .0

80 .0

12 0. 0

16 0. 0

20 0. 0

111

24 0 .0

28 0 .0

32 0 .0

36 0 .0

40 0. 0

112

S presupunem c dorim s reprezent m grafic variabila ven (venitul familiei) $i variabila vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceasta dup op#iunea Summarise of separate variables. Dup ac#ionarea butonului Define va apare fereastra urm toare apoi graficul:

O alt variant de reprezentare grafic $i care este foarte des uzitat este dat de op#iunea reprezent rii de tip cluster (apar grupuri de bare care se pot compara mai u$or). De exemplu ne-ar interesa reparti#ia din e$antionul folosit n aceea$i cercetare dup variabila scoala0 dar n func#ie de sexul responden#ilor. Vom alege de data aceasta comenzile Charts#Bar Charts#Clustered iar op#iunea Summaries for groups of cases r mne neschimbat . Dup Define apare fereastra : Observ m c pentru axa OX am ales aceea$i variabil iar variabila care dicteaz dispunerea cluster este varibila sex. Frecven#ele vor reprezenta efectiv num rul de subiec#i (N of cases). Din Option am deselectat op#iunea Display groups defined by missing values! Graficul este urm torul:

5.5

5.0

4.5

4.0

3.5

3.0

2.5

2.0

Mean

1.5 n luna trecut (apr Dar venitul dvs. per

400

Obs: scala folosit pe axa OY poate crea impresia unei dispropor#ii prea mari ntre mediile celor dou variabile. Respectiva scal poate fi modificat dup ce am dat dublu clic pe grafic $i am intrat n fereastra Graph1 vom urma comenzile Chart#Axis#Scale dup care vom modifica n op#iunea Range limitele axei OY. Iat cum arat dup o astfel de modificare acela$i grafic:

300

200

Genul (respondent)
3.0

100

Count

masculin 0 feminin

f r

pr im c oa

gi m na ar

c oa la z ia

t re ap

l ic e u ta

c (9

it rs ive un N R ost un g ii p d e l ud rt r st ta cu i s rs e ive r d ) un al e it a rs l i c el a s ive t- c s po 1 2 ( oa l

un

2.5

pr

(1 -4

Id

of

Ultima coal absolvit (respondent)


2.0

l( 5 se )

e e li c

es

c la

-8

n io

a cl

al

Media veniturilor

1.5 n luna trecut (apr Dar venitul dvs. per

Revenind la primul exemplu care se referea la variabilele scoala0 $i vensub le vom reprezenta un nou grafic cu linii dup ce vom urma comenzile Graphs'Line. Procedurile sun asem n toare cu cele dinainte $i vom ob#ine urm torul grafic(n fapt un poligon al frecven#elor!):

113

114

Mean Dar venitul dvs. personal n luna tre

7 6 5 4 3 2 1 0
r f o c al pr im ar g im -4 (1 t si er iv R N un st po ng ii lu ud de st ar t s it ur er sc iv e un rd ta si l er ea iv -l ic un st ) po se l c la oa c 12 ( (9 eu eu li c l ic e Id l ta na ap io tr e es of pr la c -8 5 l( z ia e) na as cl la oa c

n aceast fereastr vom seta op#iunile Simple $i Summaries of separate variables . Apoi vom ac#iona butonul Define. n noua fereastr am selectat $i mutat variabila babymort $i de asemenea am considerat variabila country prin intermediul c reia se pot eticheta cazurile speciale (extreme). Din butonul Option putem alege o variant referitoare la valorile lips .

Ultima coal absolvit (respondent)

Un alt tip de graphic este cel numit box-plot $i care este foarte util n a depista distribu#ia valorilor seriei dar $i dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de graphic se mai nume$te cutia cu must #i $i are urm toarea conforma#ie:

Mediana

Must #i
200
Afghanistan

n cazul graficului ob#inut se observ o singur valoare extrem : mortalitatea infantil cea mai ridicat este n Afganistan. De altfel se pot compara reperele grafice cu principalele valori statistice ob#inute din Analyze#Descriptive Statistics#Frequencies:
Statistics Infant mortality (deaths per 1000 live births) N 109 0 Mean 42.313 Median 27.700 Std. Deviation 38.0792 Skewness 1.090 Std. Error of Skewness .231 Kurtosis .365 Std. Error of Kurtosis .459 Range 164.0 Percentiles 9.250 27.700 64.500

Lungimea cutiei

Quartila3
100

Quartila 1

n cazul acestui grafic 50% din date sunt n interiorul cutiei (care are bazele la 25% $i la 75% din date adic la quartilele 1 $i 3). Must #ile pot avea o lungime de pn la 1,5 l #imi ale cutiei. Valorile care cad nafara limitelor (desemnate prin drepte orizontale la cap tul must #ilor $i numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se ob#in sc znd din Q1 lungimea cutiei nmul#it cu 1,5 $i adunnd la Q3 aceea$i distan# . Dac o valoare extrem este mai ndep rtat de trei lungimi de cutie atunci este reprezentat printr-o stelu# marcat $i cu num rul cazului respectiv. Dac must #ile sunt egale distribu#ia tinde la una normal . Dac musta# superioar este mai mic distribu$ia este alungit spre stnga. S reprezent m grafic variabila babymort din baza de date word95. Vom urma comenzile Graphs#Boxplot:

-100
N= 109

Infant mortality (de

Obs1: dac cutia este situat mai jos distribu#ia este alungit spre dreapta $i exist o concentrare a valorilor mici n partea stng . Obs2: daca linia medianei este exact n mijlocul cutiei atunci distribu#ia este normal .

O alt analiz grafic important se poate face cu ajutorul comenzilor Analyze#Descriptive Statistics#Explore:

115

116

Am trecut variabila de interes n sectorul Dependent List $i apoi vom alege anumite op#iuni din cele dou butoane Statistics $i Plots. Se pot seta elemente de statistic descriptiv , intervalul de ncredere pentru medie, lista cu primele/ultimele valori din serie, percentilele 5, 10, 25, 50, 75, 90, 95. De asemenea se pot alege graficele histograma $i graficul de tip stem-and-leaf . Acest graphic este expus mai jos:

Un alt grafic deosebit de util n cercetarea statistic este cel denumit Error Bar Chart $i care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de ncredere pe care l putem estima pentru media dintr-o popula#ie. Dup cum se $tie atunci cnd extindem rezultatele de la un e$antion la o popula#ie ntreag suntem ntr-o situa#ie de tipul urm tor: Am definit anterior intervalul de ncredere ca fiind tocmai [ [x x ; x + x ] unde x este eroarea standard (adic eroarea dat de pozi#ia e$antionului n popula#ia de e$antioane).

x = t

SD n

unde t=1,96 pentru un $i

nivel de ncredere de 95%. SD $i n-devia#ia standard m rimea e$antionului.

S facem graficul pentru variabila vensub (venitul subiectului) din baza de date BOP_mai-2003_Gallup. Alegem comenzile Graphs#Error Bar: Op#iunea Factor levels together ajut la compararea categoriilor variabilei independente iar op#iunea Dependent together ajut la compar ri ntre mai multe variabile sau ntre mai multe situa#ii n timp ale aceleea$i variabile. Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot Frequency Stem & Leaf
28.00 0 . 4455555666666666777778888899 13.00 1 . 0122223467799 16.00 2 . 0001123555577788 8.00 3 . 45567999 6.00 4 . 135679 9.00 5 . 011222347 5.00 6 . 03678 Acest tip de grafic ca $i box plotul a fost 7.00 7 . 4556679 propus de c tre Kohn W. Tukey $i este 1.00 8 . 5 asem n tor histogramei. n primul rind sunt 28 1.00 9 . 4 de # ri care au babymort egal cu 4,4,5,5....Pe 4.00 10 . 1569 7.00 11 . 0022378 al doilea rnd sunt valorile 10, 12, 12, 2.00 12 . 46 12....Similitudinea cu histograma este vizibil . 1.00 13 . 7 Dispunerea se face dup trunchi (stem) cu 1.00 Extremes (>=168) valorile 0,1,2,3....$i frunzele (leaf) dispuse n Stem width: 10.0 Each leaf: 1 case(s)

95% CI Dar venitul dvs. personal n luna trecut (aprilie

2.4

2.3

2.2

2.1

partea dreapt a graficului.

2.0
N= 187 1

Putem observa limitele intervalului de ncredere pentru o probabilitate de 95% (sau un prag de semnifica#ie de 0.05). Spunem c sunt 5% $anse s ne n$el m atunci cnd facem predic#ia c media veniturilor din popula#ie este cuprins n intervalul respectiv.
Dar venitul dvs. per

117

118

Obs: Alte variante de reprezent ri grafice se pot executa cu op#iunea Graphs#Interactive din care putem alege tipul de grafic necesar.

III. Notele (cotele) Z


n acest capitol vom relua pe scurt cteva preciz ri din statistica descriptiv $i le vom aplica apoi n cadrul programului SPSS. Cotele Z ne dau o imagine direct asupra pozi#iei pe care o are un subiect fa# de media colectivit #ii respective ct $i fa# de dispersia datelor. Acest indicator se nume$te m%sura standard sau cota Z $i ne arat cu cte devia$ii standard se abate o valoare de la medie. Nota Z are formula urm toare:
z= xi x x x sau l g sim cu nota#ia z = i SD

n final amintim $i de graficul clasic n statistica descriptiv numit $i curba frecven$elor cumulate. Acest grafic este posibil n SPSS doar pentru variabile cu tipul de m sur scale. Fie o baz de date de exemplu world95.sav $i s presupunem c dorim s facem graficul respectiv pentru variabila babymort cea care reune$te cifrele mortalit #ii infantile pentru cele 109 # ri din baz . Vom recurge la $irul de comenzi Graphs Interactive Histogram dup care a ap rut fereastra urm toare:

100

III. Notele (cotele) Z


75

50

25

n aceast fereastr am adus variabila babymort pe viitoarea ax OX, am bifat op#iunea Cumulative histogram, apoi din celelalte ferestre am ales comenzile HistogramNormal Curve $i OptionCount din indica#iile privitoare la modul de definire al axei OY. Evident c toate aceste comenzi pot fi salvate $i ntr-un fi$ier de tip sintax cu coman da Paste. Du toate aceste set ri graficul de mai jos. Dup cum se $tie, ntr-un astfel de grafic apar frecven#ele de la un moment dat dar cumulate cu valorile inferioare $i la care se adi#ioneaz apoi celelalte valori. Dac tras m dou segmente de dreapt paralele cu axele de coordonate putem trage concluzia c doar un num r de 50 de state au o mortalitate infantil mai mic de 40 (adic 40 de copii cu vrsta de pn un an deceda#i la 1000 de n scu#i vii). Oricum $i aceast cifr este ridicat . Statele dezvoltate din punct de vedere economic au cifra de sub 10.

Pentru a n#elege importan#a acestei m rimi s prelu m un exemplu din A. Novak [1995]. Astfel, fie cazul unui student care a luat la statistic calificativul 7 iar n grup media m =5 $i =1. La obiectul psihologie acela$i student a ob#inut nota 9 iar n grup m = 6 $i =2. Se pune ntrebarea la care dintre discipline nota a fost mai bun ? Ini#ial putem crede c nota a doua este mai bun . S calcul m $i cotele Z ale respectivelor calificative:

Z1 =

75 =2 2

Z2 =

96 = 1,5 2

Din aceste valori deducem c la prima materie studentul se abate de la media grupei cu dou abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri standard. nseamn c el se abate n primul caz cu 2 puncte iar n al doilea cu 3 puncte, de unde rezult c la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceea$i colectivitate atunci cele dou note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o pozi#ie n ansamblu. O aplica#ie important a variabilei Z o g sim n diverse probleme care impun totu$i utilizarea tablei legii normale (afi$at n orice carte de statistic ). Pentru a n#elege astfel de aplica#ii s d m un alt exemplu, dup M. Colin et alii [1995]: ntr-o universitate rezultatele ob#inute la un test se distribuie dup o lege normal cu m=75 $i =8. Dac lu m un student la ntmplare care sunt $ansele ca el s aib un rezultat cuprins ntre 75 $i 95 ? Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urm toare: m-3 m-2 m- m m+ m+2 m+3

Count

0 40.0 80.0 120.0 160.0

Infant mortality (deaths per 1000 live births)

51

59

67

75

83

91

99

119

120

Fiind o distribu#ie normal putem spune c 68,26% din rezultatele la examen se g sesc ntre [59; 91] etc. Acest grafic poate fi reprezentat $i n cote Z. Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urm toare:

Obs. 2 : n general se consider c scorurile z trebuie s se nscrie n intervalul [-3,+3]. Dac z <-1 sau z>+1 se consider c valorile respective sunt mici (respectiv mari) pentru o serie statistic dat . Dac z [-1, +1] m rimea respectiv este considerat medie. Aria de sub curba normal% de 0 la x ________________________________________________________________________ X 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 ________________________________________________________________________ 0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586 0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535 0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409 0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173 0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793 0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240 0.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490 0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524 0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327 0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891 1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214 1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298 1.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.40147 1.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41308 0.41466 0.41621 0.41774 1.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.43189 1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408 1.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.45449 1.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.46327 1.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.47062 1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670 2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169 2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574 2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899 2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158 2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361 2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520 2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643 2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736 2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807 2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861 3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900 3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929 3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950 3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965 3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976 3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983 3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989 3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992 3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995 3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997 4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998

-3

-2

-1

Vom calcula cotele Z pentru principalele valori din problem : Zm=( 75-75)/8 = 0 Z1 = (X 75) / 8 Z2= (95 75)/ 8= 2,50 Dac rezum m pe scurt problema noastr cu enun#ul P (75< X < 95) [a se citi probabilitatea ] atunci n limbajul notelor Z acest enun# devine P (0< Z < 2,50) . C utnd n tabelul legii normale [vezi tabelul de pe pagina urm toare ; n acest tabel sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul minus] se g se$te valoarea 0,4938 care reprezint propor#ia din suprafa#a delimitat de c tre curba normal , axa OX $i perpendicularele ridicate n punctele 0 $i 2,5. Aceast valoare se poate scrie $i 49,38 % $i reprezint chiar probabilitatea c utat : sunt 49,38 % $anse ca studentul respectiv s aib calificativul cuprins ntre 75 $i 95. Practic s-a f cut urm torul transfer:

49,38% 49,38%

75

95

2,5

Obs. 1 : din tabelul urm tor atragem aten#ia $i asupra valorii corespunz toare lui z=1.96 care este de 0,4750 valoare pe care dac o multiplic m cu doi rezult 0.95. Citim c la un nivel de 95% ncredere z=1,96. La fel ra#ion m $i pentru o alt valoare importanta z=2,58!

121

122

Ne propunem s calcul m cotele z pentru variabila salary din baza de date Employee Data. Pentru aceasta vom urm ri comenzile Analyze# Descriptiv Statistics#Descriptives: Vom trece n dreapta variabila de interes $i vom seta op#iunea Save standardized values as variables. Din butonul Options se pot alege diverse valori generale da statistic descriptiv . n baz va apare o nou variabil :

IV. TESTAREA IPOTEZELOR STATISTICE; PRAGURI DE SEMNIFICA'IE


n general majoritatea ra#ionamentelor umane sunt alc tuite din combina#ii de dou sau mai multe variabile. Este $i cazul ipotezelor statistice care nu sunt altceva dect aser#iuni privind diverse fenomene naturale sau sociale, aser#iuni pe care la facem n vederea test rii lor ulterioare. O ipotez statistic este de obicei compus dintr-un cuplu de dou enun# uri: - H0 (ipoteza de nul) $i - H1 (ipoteza de lucru). Primul enun# H0 descrie, de obicei (dar nu e obligatoriu!) situa#ia cnd o anumit variabil sau fenomen nu este prezent sau nu ac#ioneaz (sau c , de exemplu, nu exist o diferen# semnificativ ntre dou condi#ii). Este ca $i cum am spune c un anumit lucru dac se ntmpl este doar rodul ntmpl rii. Ipoteza de nul este tocmai cea care este testat . Al doilea enun# H1 descrie situa#ia contrar enun#ului H0 cnd o variabil sau fenomen ac#ioneaz $i are o influen# semnificativ : Exemple: H1: sexul responden#ilor influen#eaz p rerea acestora despre impozite. H0: opinia despre impozite nu este influen#at de sexul responden#ilor. H1: autoturismul Dacia este mai bun ca unul din import H0: autoturismul Dacia este la fel de bun ca unul din import. Din astfel de exemple deducem c n analiza statistic suntem nevoi#i fie s accept m H0 fie pe H1, deoarece ambele sunt disjunctive. Un astfel de ra#ionament se va face ntotdeauna n termeni de prag de semnifica ie (sau interval de ncredere) pentru c n realitate orice presupozi#ie statistic se face cu o anumit marj de eroare, cu o anumit $ans de a ne n$ela. De exemplu cnd vorbim de un prag de semnifica#ie (notat p) de 0.05 spunem de fapt c sunt 5% $anse s ne n$el m atunci cnd facem o anumit aser#iune statistic (iar n oglind spunem c sunt 95% $anse s nu ne n$el m cnd facem respectivul ra#ionament). La fel, cnd vorbim de un prag de semnifica#ie de 0,01 spunem c sunt 1% $anse s ne n$el m (sau 99% $anse s nu ne n$el m). Evident c n cel de al doilea caz gradul de siguran# este mai mare. (i n cazul test rii ipotezelor intervin astfel de preciz ri. Astfel c vorbim de un prag de semnifica#ie de 0.05 n sensul c sunt 5% $anse de a ne n$ela atunci cnd accept m ipoteza de lucru H1 (sau respingem ipoteza de nul H0). n majoritatea cercet rilor este acceptat un prag maxim de 0.05 sau p 0.05 dar se ntlnesc $i praguri mai mari dect 0.05 (ntotdeauna aceste praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercet tor). Trebuie s preciz m c exist posibilitatea s ne n$el m chiar $i n aceste condi#ii. Adic de exemplu s accept m o ipotez de lucru pentru c toate datele statistice o confirm dar, n esen# , acea ipotez s fie totu$i fals . n general se pot comite dou feluri de erori: Eroare de gradul I: respingem ipoteza nul de$i este adev rat Eroare de gradul II: ipoteza nul este acceptat de$i este fals . Aceste dou tipuri de erori sunt complet diferite: eroarea de gradul I este considerat mai grav $i tocmai de aceea se cere s mic$or m pe ct posibil pragul de semnifica#ie.

n cazul variabilei zsalary vom putea s coment m n ce m sur anumite valori sunt mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un scor z de 1,32 ceea ce semnific o valoare mare printre valorile seriei. Valoare salariului se abate 1,32 abateri standard de la media salarial . Obs.3 :n general metodele grafice sunt foarte utile pentru analiza prealabil a datelor. Astfel, nainte de a se trece la analiza propriu-zis a datelor pe care le-am inserat n Data Editor trebuie s avem mai nti o imagine general asupra variabilelor. Dup cum am v zut n submeniul Explore putem s ob#inem o imagine de ansamblu a variabilelor $i reprezentarea grafic a acestora. Prin aceste proceduri putem evita gre$elile inerente: gre$eli de nregistrare, gre$eli date de necunoa$terea distribu#iei variabilei, gre$eli generate de cazurile lips (exist diverse op#iuni cum ar fi Exclude cases pairwise- cnd un caz nu are o valoare pentru o anumit variabil este exclus din analiz ) etc. Informa#ii la fel de importante pot fi ob#inute $i din submeniul Descriptive.

123

124

Unii cercet tori recomand aici un prag p 0.01 cu att mai mult cu ct influen#a cercet torului poate fi important . n cel de-al doilea caz gradul de influen# al cercet torului este redus $i se recomand un prag p 0.05. Legat de aceste erori sunt folosite n statistic no#iunile de putere - sau probabilitatea de a respinge ipoteza nul cnd de fapt ea este adev rat ; pentru o analiz pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 $i urm). Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneaz o compara#ie ntre o situa#ie presupus $i una rezultat n urma cercet rii de teren efective. Compara#iile n statistica social sunt foarte diverse: fie se fac observa#ii pe o singur variabil , fie se compar valori din dou e$antioane, fie se compar valorile dintr-un e$antion cu valorile unei popula#ii mai extinse, fie se analizeaz diverse situa#ii experimentale etc. n general n testarea ipotezelor se urm re$te o anumit direc ie , un anumit sens al leg turilor.Din acest punct de vedere sunt dou tipuri de ra#ionamente: one-tailed (unilateral) $i two-tailed (bilateral)! One-tailed este utilizat atunci cnd se cunoa$te dinainte sensul predic#iei statistice iar varianta two-tailed este preferat atunci cnd nu se cunoa$te n avans sensul predic#iei. O alt precizare important este aceea c sunt dou tipuri fundamentale de teste statistice: parametrice $i non-parametrice. Testele parametrice sunt considerate mai puternice dar pentru aceasta trebuie s fie ndeplinite mai multe condi#ii importante: - popula#ia din care a fost extras e$antionul s aib o distribu#ie normal (distribu#ia normal trebuie s se reg seasc $i n e$antion altfel se pot face anumite transform ri pentru a se ajunge la o distribu#ie normal ) - regula omogenit #ii varian#ei (dintre cea din e$antion $i cea din popula#ie) - n majoritatea cazurilor variabilele trebuie s fie m surate pe scale de interval - nu trebuie s existe scoruri extreme (metodele parametrice sunt sensibile n astfel de situa#ii). Dac testele parametrice folosesc metode numerice cele ne-parametrice folosesc pozi#iile pe care valorile le au n cadrul variabilelor. Nefiind vulnerabile la valori extreme unii statisticieni vorbesc de o mai mare stabilitate a acestor teste. n func#ie de aceste preciz ri se recomand folosirea unor teste diverse n func#ie de necesit #i. Din multele tipuri de clasific ri red m una dintre ele consemnat de Christine P. Dancey $i J. Reidy (1999) [vezi tabelul urm tor].
Obs. 1: Testele incluse n tabelul respectiv reprezint modalit #i de analiz a leg turii dintre variabile. Se disting astfel metode parametrice dar $i neparametrice de studiu a acestor leg turi. Obs. 2: Testarea diferen#ei ntre dou condi#ii reprezint o modalitate foarte r spndit de analiz . De exemplu putem analiza care este influen#a unei sesiuni de comunic ri pentru studen#ii la sociologie. Probabil c cei ce parcurg sesiunea respectiv vor avea cuno$tin#e mai bune. Pentru a testa acest lucru putem dispune de dou tehnici principale: A. Se compar dou grupuri diferite de studen#i (aloca#i aleator) unul care parcurge respectiva sesiune $i unul care nu urmeaz acea sesiune, apoi se compar rezultatele unei examin ri. Acest tip de analiz se nume$te between participants design (rezultatele vin de la dou grupuri). B. Se compar un singur grup care trece prin cele dou condi#ii, odat f r s parcurg sesiunea respectiv iar a doua oar dup parcurgerea acesteia. Rezultatele unor examin ri succesive vor decide care este influen#a urm ririi sesiunii. Acest tip de analiz se nume$te within participant design (rezultatele vin de la acela$i grup). n fapt compararea ntre condi#ii nseamn compararea unor medii $i dac diferen#a dintre aceste medii este semnificativ . Testele folosite n aceste cazuri trebuie s r spund la o ntrebare important : este diferen#a dat de erori de e$antionare sau cu adev rat se manifest influen#a unei variabile independente cu efecte importante n varia#ia variabilei dependente?

125

126

V. TESTAREA NORMALIT 'II UNEI DISTRIBU'II


Nu de pu#ine ori asum#ia ca un e$antion sau o popula#ie s aib o distribu#ie normal dup o variabil cantitativ este necesar pentru a executa anumite analize statistice. O prim impresie poate fi dat de histograma seriei dar nu este suficient acest lucru. Un test care poate sus#ine aceast analiz este testul Kolmogorov-Smirnov $i care de fapt compar distribu#ia din e$antion cu o alt distribu#ie (normal ) care are aceea$i medie $i abatere standard. S presupunem c dorim s verific m normalitatea variabilei horsepower (puterea motorului) din baza de date Cars din programul SPSS. Vom urma comenzile Analyze#Descrtiptive Statistics#Explore: n rubrica Dependent list am trecut variabila care urmeaz s fie analizat . Din butonul Statistics putem selecta principalele valori de statistic descriptiv iar din butonul Plots nu trebuie uitat setarea Normality plots with tests.

Normal Q-Q Plot of Horsepower


3

-1

-2

-3 -100 0 100 200 300

Observed Value

Aceast concluzie apare simplu $i din graficul de tip Q-Q plots. n figura al turat linia oblic reprezint valorile teoretice (a$teptate) ale distribu#iei normale. Linia curb reprezint valorile observate ale variabilei studiate. Cu ct diferen#a fa# de linia dreapt este mai mare cu att devia#ia de la normalitate este mai mare. Situa#ia de normalitate ar nsemna coinciden#a perfect dintre cele dou grafice. n concluzie se recomand n astfel de cazuri folosirea testelor non-parametrice.

Obs: n aplicarea testului de mai sus am #inut seama $i de m rimea e$antionului. Astfel se consider c testul K.-Smirnov este valabil cnd e$antionul>50 de subiec#i. Dac e$antionul este mai mic atunci se aplic testul W al lui Shapiro-Wilks. Programul SPSS calculeaz oricum automat ambele teste. Formularea n sensul ipotezelor statistice ar fi urm toarea: Ho: ntre distribu#ia variabilei $i cea teoretic nu este o diferen# semnificativ iar H1: ntre cele dou distribu#ii exist o diferen# semnificativ . Dac p<0.05 atunci respingem ipoteza de nul $i o admitem pe cea de lucru.

Rezultatul testului este urm torul: Interpretarea testului este urm toarea: dac pragul de semnifica#ie este p<0.05 atunci testul este semnificativ n sensul c distribu#ia din e$antion este semnificativ diferit de o distribu#ie normal . Este $i aici cazul pt. Sig.=0.000.

Tests of Normality Kolmogorov-Smirnov df 400


a

Horsepower

Statistic .160

Sig. .000

a. Lilliefors Significance Correction

127

Expected Normal

128

VI. CORELA'IA DINTRE DOU VARIABILE CANTITATIVE

important : cnd r=0 suntem siguri doar c nu exist o corela#ie liniar a celor dou variabile dar poate exista o corela#ie de alt fel (curbilinie). Cnd vorbim de corela#ie liniar n#elegem faptul c dac reprezent m grafic corela#ia cu ambele variabile axe de coordonate vom ob#ine un nor de puncte care se poate alinia dup o dreapt (ntotdeauna este recomandat s verific m $i grafic corela#ia deoarece ea este valabil doar ca $i corela#ie liniar ). Situa#iile pot fi urm toarele:

Se pune deseori problema de a analiza leg tura dintre dou variabile cantitative n sensul de a vedea n ce m sur valorile respective co-variaz (de exemplu valorile mari dintr-o variabil coreleaz cu valorile mari din cealalt variabil ). Corela# ia m soar rela#ia liniar dintre variabile $i se m soar cu coeficientul de corela#ie Pearson (r). Acest coeficient are o formul simpl $i care sugereaz modul cum este calculat:

r=

(x

x )( yi y )
. 3. Coeficientul de corela#ie d dou rezultate importante: puterea asocierii dintre variabile $i sensul acestei asocieri. n general valorile din jurul valorilor 1 sugereaz o corela#ie foarte puternic , aproape perfect . Valorile ntre 0,6 $i 0,8 denot o corela#ie puternic , valorile din jurul valorilor de 0,5 dau o corela#ie de intensitate medie iar cele m rimea 0,1 0,4 sugereaz corela#ii slabe. Sensul corela#iilor este dat de semnul acestora: semnul +sugereaz c variabilele cresc sau scad n acela$i timp iar semnul sugereaz faptul c valorile unei variabile cresc n acela$i timp ce valorile celeilalte variabile scad. S d un exemplu clasic din literatura de specialitate: corela#ia dintre variabilele salbegin $i salary din baza de date Employee Data. Mai nti vom face analiza asum#iilor destinate metodelor parametrice. Apoi este recomandat vizualizarea grafic a corela#iei urmnd comenzile Graphs#Scatter $i vom alege varianta Simple apoi Define:

nSD x SD y

Din formul se vede c la numitor avem suma tuturor produselor distan#elor valorilor din cele dou serii de la mediile respective iar la numitor produsul dintre num rul de cazuri (n) $i cele dou abateri standard din cele dou serii. Fiind a$adar un test parametric (lund n calcul n mod direct toate valorile seriilor) calcularea acestui coeficient trebuie s #in seama de condi#iile din acest caz [A. Field, 2000; 37]: 1.Asum#ia distribu#iei normale [datele trebuie s provin din popula#ii normal distribuite (se poate verifica acest lucru cu testul K.-Smirnov)], 2. Asum#ia omogenit #ii varian#ei [varian#ele din cele dou variabile trebuie s fie stabile la orice nivel], 3. Asum#ia scalei de m surare (scala de m surare trebuie s fie cea de interval) 4. Asum#ia independen#ei (subiec#ii de la care s-au ob#inut valorile respective s fie independen#i unul de altul). Coeficientul de corela#ie este ntotdeauna cuprins n intervalul [-1, +1] n#elegnd prin aceasta toate valorile reale din acest interval. Interpretarea valorilor este urm toarea: 1. r tinde sau este foarte aproape de 1 atunci corela#ia este puternic (de acela$i sens sau de sens contrar) 2. r tinde la 0 atunci corela#ia nu exist 3. r tinde la 0,5 corela#ia este de intensitate medie. Se impun aici o serie de observa#ii: 1. Rela#ia de corela#ie nu trebuie privit ca $i o rela#ie cauz - efect, de la o variabil independent la una dependent , de$i de multe ori se face un astfel de ra#ionament. Interpretarea nu prive$te dect faptul c valorile ambelor variabile co-variaz ntr-un anume sens! 2. n general dac variabilele sunt independente atunci coeficientul r se anuleaz . Dar reciproca nu este adev rat : nu este sigur c dac r se anuleaz atunci $i variabilele sunt independente [a se vedea T. Rotariu, 1999; 173]. Aici se impune o observa#ie

Cele dou variabile vor defini chiar axele de coordonate. Op#iunea Set Markers by ajut la analiza corela#iei dup diferite categorii de subiec#i. Label Cases by ajut la identificarea cazurilor dup o anumit variabil (din care putem ata$a etichete sau numere de ordine). Graficul este urm torul:

129

130

140000

Correlations Beginning Salary 1 . 474 .880** .000 474

120000

100000

80000

60000

Current Salary

40000

Se observ gruparea punctelor din plan dup o dreapt nclinat la aproximativ 450 fa# de axa OX. Putem fi deci siguri privind linearitatea leg turii iar ca $i intensitate se prefigureaz o leg tur puternic de acela$i sens.

Beginning Salary

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Current Salary .880** .000 474 1 . 474

Current Salary

**. Correlation is significant at the 0.01 level (2-tailed).

20000

0 0 20000 40000 60000 80000 100000

Beginning Salary

Acestea fiind spuse putem calcula coeficientul de corela#ie dup comenzilor: Analyze#Correlate#Bivariate:

alegerea

Varibilele de interes le-am trecut din coloana din stnga n dreapta. Coeficientul de corela#ie Pearson este setat prin defini#ie ceilal#i doi coeficien#i fiind metode neparametrice de calcul. Testele de semnifica#ie implicate sunt de dou feluri: twotailed (este folosit atunci cnd nu putem prezice natura leg turii dintre variabile $i este recomandat pentru mai mult siguran# ); one-tailed (este folosit cnd avem o ipotez direc#ional sau putem prezice sensul leg turii). Op#iunea Flag... va asigura prezentarea datelor legate de pragul de semnifica#ie. Din butonul Option putem alege elemente de statistic descriptiv dar $i modalit #i de lucru n cazul valorilor lips : Exclude cases pairwise- elimin perechile de rezultate pentru care una din valori lipse$te. Aceast op#iune este mai des ntlnit . Exclude cases listwise- elimin din analiz un rnd ntreg dac lipse$te doar una dintre valori. Dup Continue ob#inem rezultatul urm tor:

n partea dreapt a tabelului se intersecteaz cele dou variabile. Vedem c corela#ia dintre Beginning Salary $i ea ns $i este perfecta (r=1). Corela#ia dintre Beginning Salary $i Current Salary se dovede$te a fi foarte puternic $i de acela$i sens (r=0.880). Pragul de semnifica#ie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolut ci n realitate doar o valoare foarte mic . Corela#ia cuprinde n studiu un num r de 474 perechi de valori sau 474 cazuri. Pe diagonal observ m n matrice acelea$i rezultate. Sub tabel este specificat faptul c corela#ia calculat este semnificativ la un prag de p= 0.01. n primul rand se observ c acest prag are proprietatea p<0.05 ceea ce ne arat c leg tura dintre variabile este semnificativ *. n termeni de probabilitate putem spune c sunt 1% $anse s ne n$el m atunci cnd predic#ion m leg tura dintre cele dou variabile (sau m rimea $i sensul corela#iei). n termenii test rii statistice spunem c dac H0 este enun#ul variabilele nu sunt corelate iar H1 este enun#ul exist corela#ie ntre cele dou variabile atunci sunt 1% $anse s ne n$el m atunci cnd respingem ipoteza de nul.
Obs. Se pot ob#ine $i matrici de corela#ie. De exemplu ad ugnd o a treia variabil educ (nivel educa#ional n ani de zile):
Correlations Beginning Educational Salary Current Salary Level (years) 1 .880** .633** . .000 .000 474 474 474 .880** 1 .661** .000 . .000 474 474 474 .633** .661** 1 .000 .000 . 474 474 474

Beginning Salary

Current Salary

Educational Level (years)

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Rezultatele se interpreteaz dou cte dou excluznd prima diagonal unde corela#iile sunt perfecte! n unele analize nu este prezentat dect partea de deasupra sau de dedesuptul acestei diagonale!
* O analiz deosebit de important prive$te limitele de ncredere pentru coeficientul de corela#ie (sau a estim rii corela#iei la nivelul ntregii popula#ii din care provine e$antionul studiat !). A se vedea pe larg n M. Popa, Statistic! psihologic!, Ed. Universit #ii Bucure$ti, 2004, pp. 100-102

131

132

VI.1. Coeficientul de varia$ie


Dup cum am spus mai nainte corela#ia nu se interpreteaz ca $i o rela#ie cauzal deoarece nu se poate dovedi statistic care dintre variabile o influen#eaz pe alta chiar dac uneori noi ra#ion m n acest sens. Pe de alt parte n evolu#ia unei variabile pot interveni $i alte variabile dect cele considerate n calculul corela#iei. Imaginea dependen#ei dintre dou variabile putem s o avem dup ce am analizat varian#a comun mp rt $it de acestea. Dac am avea dou variabile $i am reprezenta grafic varian#ele lor prin dou diagrame circulare putem spune c partea din intersec#ia comun este varian# comun mp rt $it (pe larg n Ch. P. Dancey, J. Reidi ; 1999) :

VI.2. Corela$ie par$ial%


Din considera#iile de pn acum se deduce faptul c atunci cnd studiem corela#ia dintre dou variabile poate exista $i influen#a altor variabile care vor explica evolu#ia, varia#ia unei variabile. De exemplu o bun parte din m rimea salariului actual se poate explica prin m rimea salariului de debut dar pot exista $i alte variabile care s influen#eze remunera#ia: nivel de motiva#ie, performan#a n munc , num rul de inova #ii aduse procesului muncii etc. Se pune ns $i problema rela#iilor false dintre dou variabile cnd o corela#ie puternic dintre dou variabile s depind n primul rnd de evolu#ia unei a treia variabile. De exemplu P. Lazarsfeld amintea de leg tura care se f cea cndva ntre num rul mare de berze ap rute undeva n nordul Fran#ei $i num rul de na$teri n cre$tere. Cu alte cuvinte se putea ob#ine o corela#ie puternic ntre cele dou variabile, ceea ce ar fi explicat mitul berzelor aduc toare de copii! Numai c rela #ia dintre variabile controlat de o a treia (denumit mediu) a ar tat c dac rata natalit #ii se p stra relativ ridicat n mediul rural, ea sc dea semnificativ n mediul urban. Un alt exemplu, cunoscut n literatura de specialitate se referea la corela#ia dintre apari#ia unui num r crescut de furnici n c utare de hran $i num rul turi$tilor care au venit la mare pe plaj . Corela#ia dintre fenomene se dovede$te fals din moment ce ele sunt controlate de o a treia variabil c%ldura care va explica n final co-evolu#ia primelor dou . Vom calcula o corela#ie par#ial plecnd de la baza de date World95 [pe larg $i n SPSS Base 9.0 Application guide]. Vom analiza mai nti variabilele urban (People living in cities %) $i birth_rt (Birth rate per 1000 people). Pentru nceput vom calcula corela#ia simpl ntre cele dou variabile:
Correlations People living Birth rate per in cities (%) 1000 people 1 -.629** . .000 108 108 -.629** 1 .000 . 108 109

Cu ct suprafa# intersec#iei este mai mare cu att varian#a comun mp rt $it este mai mare. In cazul nostru dac am nota suprafa# intersec#iei cu 100% putem deduce c aproximativ 70% este varian# comun restul de 30% nefiind comun . Varian#a comun ne d o informa#ie despre dependen#a dintre variabile: putem spune c 70% din varian#a unei variabile depinde de varian#a celeilalte (altfel spus ct la sut din varia#ia unei variabile se explic prin varia#ia celeilalte) iar 15% nu este varian# mp rt $it sau este datorat influen#ei altor variabile. n general varian#a comun este calculat prin ridicarea la p trat a coeficientului de corela#ie dar se interpreteaz procentual. Se ob#in astfel valorile urm toare (adaptat dup Ch. P. Dancey $i J. Reidy, 1999): Coeficientul de corela#ie r 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 P tratul coeficientului r2 0.00 0.01 0.04 0.09 0.16 0.25 0.36 0.49 0.64 0.81 1.00 Procentul varian#ei comun mp rt $ite 0% 1% 4% 5% 16% 25% 36% 49% 64% 81% 100% Se observ c de exemplu o corela#ie care este foarte puternic de 0,8 desemneaz doar 64% din varian# comun . De asemenea se observ c o corela#ie de 0.8 este n realitate de patru ori mai puternic dect o corela#ie de 0.4 (varian#a comun cre$te de la 16% la 64%). Aceste interpret ri nu trebuie ns v zute ca rela#ii de tip cauz -efect!

People living in cities (%)

Birth rate per 1000 people

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Rezultatul ne arat o corela#ie puternic de sens contrar (r = - 0.629) la un prag de semnifica#ie de 0.01. Ceea ce nsemn c cifrele nalte ale urbaniz rii sunt nso#ite de cifre sc zute ale ratei natalit #ii. Se pune problema dac aceast corela#ie r mne valid dac o control m cu o a treia variabil . Am ales pentru control variabila log_gdp (logaritm zecimal din produsul intern brut/locuitor). Aceast variabil a fost ob#inut prin logaritmare din variabila gdp_cap dar sensul acesteia este acela$i: gradul de prosperitate al unei # ri oarecare. Aceast opera#ie a fost necesar pentru a normaliza distribu#ia variabilei $i astfel pentru a putea intra n calculele de tip parametric!

133

134

Pentru a genera o corela#ie par#ial vom urma comenzile urm toare: Analyze# Correlate#Partial dup care a va apare fereastra urm toare: n aceast fereastr am trecut n dreapta variabilele de studiat iar n rubrica Controlling for am trecut variabila de control. Din butonul Option pot fi selectate $i alte elemente de statistic descriptiv $i chiar matricea corela#iilor dintre toate cel trei variabile. Rezultatul corela#iei par#iale este vizibil n urm toarea situa#ia de mai jos. Se observ c corela#ia dintre variabilele urban $i birth_rt scade semnificativ la -0.11 aproape de zero ceea ce face ca rela#ia dintre variabile s se anuleze. Dac se ntmpl acest lucru spunem c influen#a variabilei de control este semnificativ $i c fosta corela#ie nu se mai p streaz . Este ca $i cum am spune c rata natalit #ii se va men#ine ridicat n zonele cu o popula#ie urban mai pu#in prosper . Dac coeficientul de corela#ie r mnea aproximativ la fel atunci se considera c influen#a variabilei de control este neglijabil . Obs: situa#ia de pn acum descrie corela#ia par#ial de prim ordin. Se pot face ns $i
corela#ii par#iale de al doilea ordin atunci cnd introducem dou variabile de control. Pot urma chiar mai multe variabile de control.

salariile de 1,5; 2,3; 4,8; 3,9 $i 25,4 milioane de lei, avnd n vedere distribu#ia seriei putem s le d m pozi#ii acestora dup salariul respectiv: 5, 4, 2, 3, 1. Aceste valori nu sunt cantitative dar genereaz o ordine exact ca $i pe o scar de interval cu intervale egale. Pentru exemplificare s alegem variabilele age $i educ din baza de date GSS93 subset. Vom observa c cele dou variabile sunt definite ca ordinale $i vor mp r#i popula#ia n mai multe categorii. De exemplu cnd un subiect prime$te eticheta 10 pentru variabila educ asta inseamn c el intr n clasa celor cu 10 ani de studii. La fel se procedeaz $i n variabila age. n acest caz este mai recomandat coeficientul Spearman ( ) care are acelea$i valori ca $i coeficientul Pearson. Dup acelea$i etape $i dup setarea coeficientului Spearman ob#inem rezultatul urm tor:
Correlations Highest Year Age of of School Respondent Completed Spearman's rho Age of RespondentCorrelation Coefficient 1.000 -.203** Sig. (2-tailed) . .000 N 1495 1491 Highest Year of Correlation Coefficient -.203** 1.000 School Completed Sig. (2-tailed) .000 . N 1491 1496 **. Correlation is significant at the 0.01 level (2-tailed).

Se observ c corela#ia este = -0.203 $i este semnificativ (p=0.01). Corela#ia este slab $i de sens contrar. n astfel de cazuri se recomand chiar folosirea unui al treilea coeficient Kendall ( ). El este util mai ales cnd exist foarte multe valori care c aib acela$i rang. n cazul nostru de exemplu 55 de subiec#i au pozi# ia 10 (ani de studiu) n timp ce pozi#ia 12 (12 ani de studiu) este destinat la 445 de subiec#i dintr-un e$antion de 1500. Se poate deci calcula $i acest coeficient:
Correlations Highest Year Age of of School Respondent Completed Kendall's tau_b Age of RespondentCorrelation Coefficient 1.000 -.142** Sig. (2-tailed) . .000 N 1495 1491 Highest Year of Correlation Coefficient -.142** 1.000 School Completed Sig. (2-tailed) .000 . N 1491 1496 **. Correlation is significant at the 0.01 level (2-tailed).

VI.3. Corela$ia ca metod% neparametric%


Dup cum am observat corela#ia se leag de variabile exprimate cantitativ (prin numere). Aceste variabile pentru a putea fi tratate prin metode parametrice trebuie s ndeplineasc o serie de condi#ii (asum#ii). Dac aceste condi#ii nu sunt ndeplinite se recomand folosirea metodelor neparametrice deoarece n acest caz se va lucra cu pozi#iile valorilor respective $i nu cu valorile n sine. Apel m la astfel de tehnici atunci cnd, de exemplu, variabilele de interes nu provin dintr-o popula#ie normal distribuit sau cnd anumite valori extreme (outliers) pot vicia rezultatele statistice. Practic se produce o trasnsformare a unor date numerice oarecare ntr-o variabil ordinal dar n care distan#ele dintre valori sunt egale. De exemplu dac ntr-o serie avem 5 subiec#i cu

Se observ c corela#ia este = -0.142 $i este semnificativ (p=0.01). Corela#ia este slab de sens contrar. Avnd n vedere condi#iile de aplicare se poate spune c acest coeficient este mai fidel n a reflecta corela#ia dintre variabile. Este deci important de a analiza atent variabilele pentru a aplica mai apoi testarea corela#iei.

135

136

VII. REGRESIA

Dup cum am v zut analiza corela#iei dintre variabile dispune $i de metode grafice. Se pleac de la ideea c , de exemplu un subiect statistic, din moment ce are valoarea xi pentru variabila X $i valoarea yi pentru variabila Y, atunci acestea se pot reprezenta n plan, ntr-un sistem de coordonate, rezultnd astfel un nor de puncte. S-a pus apoi problema de a se g si ecua#ia unei drepte sau a unei curbe care s aproximeze ct mai bine acest nor sau s treac ct mai aproape de acest nor. Grafic se consider c axa OX este a variabilei independente iar axa OY a celei dependente. Dac lu m un exemplu de lucru din programul SPSS atunci am v zut c exist posibilitatea vizualiz rii dreptei de corela#ie mai precis a dreptei de regresie. Fie baza de date World95 $i s calcul m corela#ia dintre variabilele lifeexpf $i lifeexpm. Se ob#ine foarte u$or un coeficient de corela#ie r = 0,982 ceea ce denot o corela#ie foarte puternic $i de acela$i sens pentru p=0.01. Pentru reprezentarea grafic putem apela la comenzile deja cunoscute Graphs Scatter Simple Define etc. Dup ce am ob#inut graficul se poate intra n Chart Options dup care apare fereastra urm toare n care este setat op#iunea Fit Line Total :
90

Din aceste grafice se observ c o dreapt sau o curb pot aproxima destul de bine un nor de puncte. De asemenea trebuie precizat c pentru fiecare xi din seria statistic corespunde un yi, cel real dar $i un yi* adic valoarea care corespunde pe dreapta sau curba de regresie. Scopul m sur rilor n cazul regresiei este acela de a g si ecua#ia dreptei (curbei) pentru care suma distan#elor yi yi* este minim (se poate demonstra de fapt c acea dreapt sau curb este unic ).

VII.1. Dreapta de regresie


Ne vom ocupa aici doar de regresia simpl liniar urmnd ca lectorii interesa# i s parcurg n continuare n volumele de specialitate regresia multiliniar ct $i regresia non-liniar (graficul nu este o dreapt ). Am nunte despre aceste teme se pot g si n capitolele 8 $i 9 din T. Rotariu [1999]. Dup cum am spus, principiul afl rii ecua#iei dreptei de regresie pleac de la minimizarea unei expresii de tipul R = ( yi yi*)2, aceast expresie reprezentnd suma tuturor diferen#elor dintre valorile reale ale seriei $i cele a$teptate (de pe dreapta de regresie), ridicarea la p trat f cndu-se pentru a nu apare n plus problema semnului acestor diferen#e. O alt problem este aceea a determin rii ecua#iei unei drepte de tipul y* = a + bx , determinare care nseamn n fapt calcularea celor doi parametri a $i b. n acest moment putem nlocui n prima rela#ie expresia lui y*. Va rezulta rela#ia: R = ( yi a bxi )2 S-a ob#inut practic o ecua#ie cu dou necunoscute al c rei minim nseamn anularea celor dou derivate par#iale dup a $i b. Se ob#in astfel dou ecua#ii care formeaz un sistem:

80

Average female life expectancy

70

60

50

40 40 50 60 70 80

Average male life expectancy

Dup cum se observ dreapta din imagine traverseaz norul de puncte aproximnd destul de bine ntreaga mul#ime a punctelor respective fiind o imagine a rela#ion rii (dependen#ei) dintre variabile. Metoda folosit pentru a analiza dependen#a dintre variabile n acest mod poart denumirea de regresie iar curba (dreapta) respectiv se nume$te curb% de regresie. n func#ie de num rul factorilor care influen#eaz variabila dependent se disting: regresia simpl (unifactorial ) $i regresia multipl (multifactorial ). n cadrul acestui capitol ne vom m rgini doar la regresia unifactorial . Iat dou exemple de leg turi exprimate grafic:

na + b x = y a x +b x2 = xy

137

138

Evident c , aflnd a $i b, ecua#ia dreptei respective este complet determinat : y* = a + bx, formul n care coeficientul a (pozitiv sau negativ) reprezint valoarea ecua#iei cnd x=0 sau punctul prin care este intersectat axa OY. Coeficientul b (coeficient de regresie) semnific cum se modific n medie variabila dependent n cazul n care variabila independent variaz cu o unitate, evident admi#nd c ntre cele dou variabile exist o rela#ie de dependen# . Dac coeficientul b > 0 sau b< 0 corela#ia este fie direct fie invers (cnd valorile unei variabile cresc valorile celeilalte descresc) iar cnd b =0 variabilele sunt independente ntre ele. Aceste cazuri se pot reprezenta grafic foarte simplu ca $i n cazul corela#iei:

Se poate verifica fidelitatea ajust rii prin calcularea coeficientului de varia#ie a ajust rii care se exprim n procente $i nu trebuie s dep $easc 5% pentru ca ajustarea s fie optim .

cv =
Y 3,8 4,6 5,7 6,9 8,0 9,0 Media=6,3

Sy y

100
y*

Sy =

2 1 ( y y* ) n

y y* -56,96 -55.02 -52.78 -50.44 -48.20 -46.06

(y y *) 2 3244.4 3027.2 5812.9 2544.1 2323.2 2121.5

60,76 59,62 58,48 57,34 56,20 55,06

Cu ajutorul acestui tabel putem calcula Sy $i Cv pentru a vedea valoarea acestuia $i a-l compara cu pragul de 5% ! b> 0 Exemplu: X 1 2 3 4 5 6 21 Y 3,8 4,6 5,7 6,9 8,0 9,0 38 x2 1 4 9 16 25 36 91 xy 3,8 8 27 64 40 216 396,8 b<0 Obs. 1. n calculele de mai sus Sy reprezint abarea medie a valorilor m surate fa# de valorile indicate prin dreapta de regresie. ns statisticienii s-au ntrebat dac se poate face o leg tur cu abaterea medie p tratic n general a seriei respective! Dup cum vom observa $i n T. Rotariu [1991; 183-184] s-a ajuns la o formul foarte simpl care face leg tura de care vorbeam :
2 2 2 = Sy + r 2 y

n aceast formul abaterea medie p tratic general care trebuie explicat! este egal cu abaterea medie a valorilor seriei fa# de cele ale dreptei de regresie (aceasta fiind varian a neexplicat!) la care se adaug un termen ce sintetizeaz varian#a punctelor de pe dreapta de regresie n jurul mediei $i care reprezint partea din varian a variabilei dependente explicat! de variabila independent!). Reprezentarea grafic a acestor m rimi simplific modul lor de n#elegere (a se vedea n E. Jaba, 2004; 237):

n tabelul de mai sus observ m c am calculat m rimile care apar chiar n sistemul de ecua#ii stabilit anterior. Le nlocuim $i ob#inem: a + b 21 = 38 a 21 + b 91 = 396,8 de unde a= 61,9 $i b = -1,14 Ecua#ia de regresie este y = 61,9- 1,14x Se pune problema n ce m sur ajustarea dat de aceast ecua#ie este fidel pentru c dac nlocuim valorile lui x n aceast ecua#ie ob#inem cu totul alte valori care constituie practic o serie ajustat , teoretic : x = 1 y = 60,76 x = 3 y = 58,48 x = 2 y = 59,62 x = 4 y = 57,34 x = 5 y = 56,2 x=6 y = 55,06

139

140

Se observ $i nota#iile aferente : VT= varian#a total , VE=varian#a explicat , VR=varian#a rezidual . Suma ultimelor dou apare clar n cea de a patra figur . Se observ c pentru un punct oarecare al seriei (yi) exist un corespondent n variabila independent (xi). Punctul respectiv din plan (xi , yi ) are o abatere total compus din abaterea fa# de medie $i abaterea fa# de dreapta de regresie. Extras din formula de mai sus coeficientul r2 (notat deseori $i R2) se mai nume$te coeficient de determina ie, ia valori ntre 0 $i +1 iar n termeni procentuali el $i denot ct la sut din varian#a variabilei dependente se explic prin varian#a variabilei independente. Restul pn la 100% este reprezentat de varian#a neexplicat (vezi cap. VI.1).
Obs.2: n cazul acestei ajust ri se observ c b< 0 deci exist o corela#ie invers ntre variabile. Obs. 3: numero$i autori atrag aten#ia asupra faptului c studiul corela#iei $i regresiei trebuie s fie foarte judicios interpretat deoarece dou variabile pot fi corelate dar nu este obligatoriu s avem imediat o semnifica#ie explicativ sau cauzal . Exist deci $i ceea ce s-a numit corela#ie aparent atunci cnd de exemplu o variabil se modific de fapt sub influen#a unei alte variabile necunoscute (variabil test). Numai analiza de regresie poate sugera o eventual rela#ie de cauzalitate. Obs. 4: Calcularea coeficien#ilor de regresie de mai sus se face ntotdeauna cu o anumit probabilitate deoarece se pleac ndeob$te de la e$antioane. Putem spune, deci, c aceste valori

considera dou variabile consacrate n manualele de profil $i anume cele numite salary $i salbegin din baza de date Employee Data. Dup parcurgerea comenzilor StatisticsRegressionLinear se ob#ine fereastra urm toare :

Y = + X + , formul sunt estim ri punctuale ale unui model general de regresie de tipul: n care * $i - au acelea$i semnifica#ii ca $i coeficien#ii a $i b iar $ nu reprezint altceva dect o variabil aleatoare de eroare sau reziduu (explicat prin influen#a altor variabile dect cele introduse n model). Generalizarea trebuie s #in cont de faptul c * $i - se g sesc n urm toarele intervale de ncredere : (a t p SDa ; a + t p SDa )
;

(b t p SDb ; b + t p SDb )

Limitele acestor intervale pleac de la valorile a $i b la care se adaug sau se scad produsul dintre valorile tp (care sunt de fapt valorile din distribu#ia teoretic t-Student pentru un prag 2p de semnifica#ie $i un num r n-2 de grade de libertate) $i SDa,b erori standard ale coeficien#ilor a $i b. La rndul lui $i coeficientul de corela#ie r poate fi de ajutor pentru a estima un coeficient general de corela#ie. Prin astfel de calcule se caut un interval de ncredere pentru - $i se urm re$te dac originea este inclus n interval (n cazul n care -=0 se $tie c variabilele sunt independente) ; dac intervalul nu con#ine $i originea atunci se trage concluzia c pentru un anumit prag de semnifica#ie variabila dependent este semnificativ influen#at de variabila independent . Obs. 5. Distan#ele de la punctele din plan la dreapta de regresie (de fapt segmentele care intersecteaz dreapta de regresie $i sunt perpendiculare pe axa OX) se mai numesc reziduuri $i reprezint ceea ce nu este explicat n model prin variabilele alese. Se cere imperios ca aceste reziduuri s fie analizate grafic cu toat aten#ia. Obs. 6. Ca $i n cazul corela#iei analiza de regresie presupune o serie de condi#ii prealabile. C. Coman $i N. Medianu (2003 ; 295) enumer aceste condi#ii : alegerea atent a variabilelor dependente $i verificarea normalit #ii distribu#iei, verificarea existen#ei corela#iei $i a pertinen#ei acesteia, verificarea independen#ei variabilelor etc.

Se observ n aceast fereastr cele dou variabile importante ale analizei specificate fiecare ca fiind dependent sau independent . Metoda de analiz este Enter (o variant general de studiu a regresiei) dup care putem s alegem $i alte instrumente de lucru din ultimile butoane orizontale. Exist $i op#iunea de a restric#iona cercetarea de exemplu doar pentru subiec#ii care au cel pu#in 12 ani de $coal (se trece variabila Educational Level n rubrica Selection Variable $i apoi se pune condi#ia respectiv din butonul Rule ). Prin ap sarea pe butonul Statistics ob#inem fereastra urm toare: Cele mai uzuale set ri n aceast fereastr sunt: Estimates (se estimeaz coeficien#ii din regresie ai variabilei independente), Confidence interval (la un prag de semnifica#ie de 0.05 se estimeaz intervalele ntre care coeficien#ii de regresie sunt valizi), Model Fit (estimeaz coeficien#ii R, R2 etc. $i spune dac modelul propus este viabil ; dac modelul nu este viabil orice alt analiz nu este acceptabil ) iar Descriptives (calculeaz Mean, Standard Deviation etc. pentru variabile).

* * * Pentru a calcula elementele dreptei de regresie prin intermediul programului SPSS vom recurge la comenzile AnalizeRegressionLinear dup care vom

141

142

Dac se aleg set rile de mai nainte se poate ac#iona butonul Continue apoi vom alege butonul Plots rezultnd fereastra urm toare: Se observ c am ales n aceast fereastr o serie de reprezent ri grafice utile: zpred $i zresid, dou op#iuni pentru valorile normalizate predictive $i pentru valorile reziduale normalizate $i care pot da informa#ii pre#ioase privind eficien#a modelului (se cere de exemplu ca distribu#ia reziduurilor s fie normal etc.). Nu vom insista ns n acest volum pe semnifica#ia acestor grafice. Ct prive$te comanda Regression Save va apare fereastra din imagine n care dac sunt setate variantele Unstandardized Predicted Values (se refer la valorile predic#ionate de c tre modelul statistic pentru fiecare caz n parte) $i Unstandardized Reziduals (se afi$eaz valoarea efectiv din cadrul variabilei dependente din care s-a sc zut valoare predic#ionat de c tre modelul de regresie) vom observa c n baza de date apar noi variabile cu semnifica#iile specificate mai nainte. Prediction interval se refer la limitele intervalelor n care sunt predic#ionate media $i valorile individuale la un interval de ncredere de 95%. Iat cum vor ar ta noile variabile din baza de date aici numite pre_1 $i res_1 :
Model 1

b Variables Entered/Removed

Variables Entered Beginning a Salary

Variables Removed

Method . Enter

a. All requested variables entered. b. Dependent Variable: Current Salary

Se vede din prima configura#ie care sunt variabilele intrate n model: beginning $i current salary. Urmeaz s citim valoarea lui Sig. din tabelul ANOVA de mai jos. Din moment ce valoarea este mai mic de 0.05 atunci modelul propus este bun n sensul c putem presupune doar cu o $ans de a ne n$ela de maximul 0.05 c variabila dependent este n mod semnificativ explicat de c tre variabila independent . n exemplul nostru p=0.000 ceea ce ne asigur de potrivirea (goodness of fit) a modelului. n tabelul al turat Model Summary revedem precizat tipul de variabile care intr n model .

ModelSummaryb Adjusted R Square .774 Std. Error of the Estimate $8,115.356

Model 1

R .880 a

R Square .775

a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary

De asemenea vom depista valorile R Square= 0.775 $i Adjusted R Square= 0.774 (care ne arat propor#ia din varian#a variabilei dependente explicat de varian#a din variabila independent ) precum $i dispersia n cadrul variabilei dependente (estimat ).
ANOVA Sum of Squares 1.07E+11 3.11E+10 1.38E+11
b

Model 1

df 1 472 473

Regression Residual Total

Mean Square 1.068E+11 65858997.22

F 1622.118

Sig. .000a

a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary

Coefficients a Unstandardized Coefficients Model 1 (Constant) Beginning Salary B 1928.206 1.909 Std. Error 888.680 .047 Standardized Coefficients Beta .880 t 2.170 40.276 Sig. .031 .000

a. Dependent Variable: Current Salary

Rezultatele din Output se prezint ca n imaginile urm toare $i plecnd de la acestea s adopt m apoi interpret rile asupra modelului.

n tabelul Coefficients vom putea identifica coloana B unde este specificat influen#a variabilei independente cu un anumit grad de ncredere a acestei influen#e (a se vedea coloana Sig.). Ca de obicei valoarea respectiv trebuie s fie mai mic de 0.05 (unii anali$ti ofer totu$i o marj de pn la 0.1 prag peste care nu se poate admite estimarea respectiv ). Valoarea de 1.909 este de fapt coeficientul de regresie n timp ce valoarea de 0.880 (Standardized coefficient) reprezint coeficientul de corela#ie Pearson. Valorile din coloana B sunt de ajutor pentru a scrie ecua#ia de regresie : Current sallary = 1928.2+1.9* beginning salary

143

144

n acest moment putem trage urm toarea concluzie: modelul propus urm re$te predic#ia salariului actual n func#ie de salariul de nceput. Rezultatul ob#inut este semnificativ statistic deoarece F=1622 la un prag de semnifica#ie p< 0.001. Ecua#ia rela#iei dintre variabile este sallary = 1928.2+1.9* salbegin. Se mai observ c Adjusted R Square= 0.774 ceea ce justific faptul c o mare parte a varian#ei variabilei dependente este explicat de varian#a variabilei dependente. Obs. 7. Atragem aten#ia c restul varian#ei variabilei dependente este datorat altor variabile. De asemenea preciz m c valoarea de 1.9 reprezint sporul valoric n variabila dependent dac variabila independent ar cre$te cu o unitate. Din modelul prezentat deducem c salariul ini#ial este un bun predictor al salariului actual ns nu este singurul. Putem deduce c $i alte variabile precum nivel de interes, num r de inova#ii etc. pot justifica $i ele cre$terea salarial . Cu toate acestea ponderea cea mai mare o are salariul de nceput. Obs. 8. Revenind la o imagine anterioar n care am precizat noile variabile care apar n baz acum putem preciza c variabila pre_1 este valoarea prezis prin intermediul ecua#iei de regresie n timp ce variabila res_1 nu con#ine dect valorile diferen #elor dintre cele ale variabilei salary $i pre_1 (sau reziduurile) :

VIII. ASOCIEREA VARIABILELOR CALITATIVE (NOMINALE)


Dac pentru variabilele cantitative vorbim de corela#ie atunci pentru variabile categoriale (calitative) vorbim de asociere. Exemple de astfel de variabie sunt foarte frecvente n analizele sociale: sexul responden#ilor, religia responden#ilor, statut marital, aprecierea despre $eful direct (1. foarte bun , 2. bun , 3.proast , 4. foarte proast , 5. ns/nr), etc. n toate aceste variabile subiec#ii sunt mp r#i#i n mai multe categorii dup o caracteristic sau r spuns dat cu precizarea c fiecare subiect va intra ntr-o singur categorie. Se pune deci problema de a vedea n ce m sur dou variabile de acest fel sunt asociate. De exemplu dac sexul responden#ilor influen#eaz opinia despre $eful direct. Datele ob#inute n urma anchetelor sau cercet rilor se introduc n ceea ce se nume$te tabel de contingen$% asem n tor cu o matrice n care pe linie intr categoriile unei variabile iar pe coloan categoriile celeilalte variabile. n aceste condi#ii fiecare celul este la intersec#ia a dou variante de r spuns din cele dou variabile. n general se disting mai multe c i de a studia asocierea: - cnd ne referim doar la o singur variabil - cnd ne referim la dou variabile dihotomice - cnd ne referim la asocierea dintre variabile cu mai mult de dou categorii. Ne propunem n continuare s ne ocup m de problematica asocierii dar numai pentru variabile categoriale nominale cei interesa#i putnd urm ri tematica pentru variabile ordinale $i din bibliografia anexat cursului. Cnd ne referim doar la o singur variabil analiz m practic o grupare de subiec#i dup diverse valori nominale sau ordinale ale unei variabile. Ideea este de a compara frecven#ele observate cu o serie de valori impuse de cercet tor $i care sunt considerate valori teoretice. S analiz m un exemplu din baza de date GSS 93 subset. Una din variabile este opera $i reprezint r spunsurile subiec#ilor privitoare la acest gen muzical. Se pune ntrebarea dac responden#ii au o p rere format despre acest gen muzical. Se va apela la comenzile Analyze#Nonparametric Tests# Chi-Square Test: Dup ce am trecut variabila de interes n dreapta putem alege variante privind valorile teoretice. Astfel vom alege op#iunea All categories equal care ar fi situa#ia teoretic n care toate variantele de r spuns sunt egale cantitativ. Pot fi alese $i alte cofigura#ii teoretice prin op#iunea Values'Add sau date de anumute ranguri (Use specified ranges).

Obs. 9. Principiile de lucru enun#ate pn acum se p streaz $i n cazul regresiei multiple atunci cnd variabilele independente sunt mai multe. Vom dezvolta $i aceast problematic ntr-un viitor volum. Alte preciz ri pe aceast tem se g sesc $i n bibliografia indicat n acest volum. Obs. 10. Studiul regresiei poate fi extins $i pentru alte situa#ii speciale: regresia logistic , regresia cu variabile dummy etc. Vom dezvolta aceste cazuri ntr-un viitor volum.

145

146

Facem precizarea c situa#ia teoretic descrie n fapt situa#ia de independen# cnd toate variantele de r spuns ar fi indicate de acela$i num r de subiec#i. Faptul c frecven#ele observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferin#a pentru acest gen muzical. Rezultatele sunt urm toarele:
Opera Like Very Much Like It Mixed Feelings Dislike It Dislike Very Much Total Observed N 66 239 332 480 293 1410 Expected N 282.0 282.0 282.0 282.0 282.0 Residual -216.0 -43.0 50.0 198.0 11.0

Se observ c am selectat apoi op#iunile Observed, Expected precum $i procentajele pe linii (Percentages Rows). Se mai pot alege op#iuni privind reziduurile care nu sunt altceva dect diferen#ele ntre frecven#ele observate $i cel a$teptate. Dup Continue'OK tabelul este urm torul:
Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit? * Genul (respondent) Crosstabulation Genul (respondent) masculin feminin 383 367 358.9 391.1 51.1% 511 535.1 45.7% 894 894.0 47.9% 48.9% 607 582.9 54.3% 974 974.0 52.1%

Test Statistics Chi-Square a df Asymp. Sig. Opera 320.319 4 .000

a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 282.0.

Se observ varia#iile scorurilor ob#inute fa# de situa#ia teoretic : cei ce declar Like Very Much sunt cei mai pu#ini iar cei mai mul#i declar contrariul (Dislike Very Much). Frecven#ele teoretice se distribuie n mod egal prin mp r#irea celor 1410 de variante de r spuns la 5 posibile r spunsuri n mod egal. n partea a doua se observ c pragul de semnifica#ie este foarte mic (Asymp. Sig. =0.000) ceea ce denot c valoarea testului este semnificativ deci responden#ii au o p rere format despre muzica de oper . Din p cate cei mai mul#i resping acest gen muzical.

Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit?

direcia este bun

direcia este greit

Total

Count Expected Count % within Credei c n ara noastr... Count Expected Count % within Credei c n ara noastr... Count Expected Count % within Credei c n ara noastr...

Total 750 750.0 100.0% 1118 1118.0 100.0% 1868 1868.0 100.0%

Cazul a dou variabile dihotomice (ambele cu cte dou valori) este tratat pe larg n T. Rotariu (1999; 121-133) $i de aceea vom face doar cteva preciz ri sumare. S construim un tabel de contingen# plecnd de la variabilele a1 (Crede#i c n #ara noastr lucrurile merg ntr-o direc#ie bun sau ntr-o direc#ie gre$it ?) $i sex0 (sexul responden#ilor) din baza de date BOP_mai-2003_Gallup. sav. Tabelul respectiv se ob#ine dup comenzile Analyze' Descriptive Statistics'Crosstabs dup ce n prealabil am considerat valorile care nu sunt principalele dou variante de r spuns ca fiind valori lips : Dup ce trecem cele dou variabile n dreapta ca definind liniile (rows) $i colooanele (columns) vom apela la butonul Cells pentru o serie de op#iuni suplimentare:

Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre responden#ii care cred c direc#ia este bun sunt de gen masculin $i la fel 511 (45,7%) dintre cei ce cred c direc#ia este gre$it . Se observ c totalul cazurilor valide este de 1868 persoane din care 894 b rba#i $i 974 femei. n fiecare celul se g sesc $i valorile numite Expected, valori teoretice care corespund situa#iei cnd cele dou variabile sunt independente. Atunci cnd analiz m problematica asocierii de fapt urm m ra#ionamentul unei ipoteze statistice: H0: variabilele calitative nu sunt asociate H1: variabilele sunt asociate. Pentru m surarea asocierii dintre cele dou variabile se folose$te testul 2 . Acest test se bazeaz pe diferen#ele calculate dintre dou tipuri de date: cele a$teptate (teoretice) care reprezint situa#ia de independen# dintre variabile $i cele observate (ob#inute n urma cercet rii efective). Conform formulei de calcul 2 este o m rime care se ob#ine din suma p tratelor diferen#elor dintre frecven#ele observate (fo) $i $i cele teoretice (ft) mp r#ite la frecven#ele teoretice: 2 =

(f oft )2
ft

. Se pleac de la ideea c

cu ct acest coeficient este mai mic cu att cresc $ansele ca variabilele s fie independente $i cu ct coeficientul este mai mare cu att mai sigur variabilele sunt asociate. Pentru c aceste aprecieri au nevoie de intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori, considerate teoretice $i care se g sesc n tabele statistice speciale. De fapt se ajunge la reformularea ipotezei statistice de care vorbeam: 1. Dac 2 calculat < 2 teoretic atunci resxzping H0 $i admit H1 2. Dac 2 calculat > 2 teoretic atunci resping H1 $i admit H0.

147

148

Aceste ra#ionamente trebuie s #in seama de urm toarele condi#ii: a. rela#iile de mai sus se specific pentru un anumit prag de semnifica#ie b. trebuie avute n vedere gradele de libertate ale tabelului de contingen# . Se noteaz cu df (degree of freedom) $i se calculeaz cu formula: df= (n-1)(m-1), unde n este num rul de linii ale tabloului iar m num rul de coloane. c. n tabloul de contingen# trebuie s nu existe celule n care valoarea frecven#elor a$teptate (Expected Count) s fie mai mici de 5. n unele calcule se cere ca num rul acestor cazuri s fie mai mic de 20%. Reducerea num rului de cazuri este ns foarte important : dac cre$te m rimea tabelului de contingen# $i invariabil cre$te $i coeficientul 2 ! d. valorile teoretice (sau critice) ale coeficientului sunt cele din urm toarea list :
Df\ Praguri semnif 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 .10 .05 .02 .01 .001

Chi-Square Tests Value 5.168b 4.955 5.168 df 1 1 1 Asymp. Sig. (2-sided) .023 .026 .023 Exact Sig. (2-sided) Exact Sig. (1-sided)

Pearson Chi-Square Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases

.023 5.165 1868 1 .023

.013

a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 358.94.

2.71 4.60 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26

3.84 5.99 7.82 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.88 40.11 41.34 42.56 43.77

5.41 7.82 9.84 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31.00 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96

6.64 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.80 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89

10.83 13.82 16.27 18.46 20.52 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.32 46.80 48.27 49.73 51.18 52.62 54.05 55.48 .56.89 58.30 59.70

Se obsev n acest tabel pe prima linie orizontal pragurile de semnifica#ie de la 0.1 la 0.001. Pe prima coloan se g sesc gradele de libertate. Valoarea critic a lui 2 se cite$te la intersec#ia unui prag de semnifica#ie $i a unui anumit num r de grade de libertate. Se compar apoi valoarea coeficientului cu valoarea calculat (de c tre computer) $i se urm re$te ra#ionamentul de mai sus. Pentru a calcula coeficientul 2 vom apela n fereastra de mai sus la butonul Statistics $i vom alege doar varianta Chi-Square din col#ul din stnga sus apoi Continue'OK:

Rezultatul se interpreteaz din acest tabel. Coeficientul 2 =5,168 pentru 1 grad de libertate $i un prag de semnifica#ie de 0.023 (Asymp. Sig). Programul mai calculeaz un coeficient de corec#ie care se aplic de obicei cnd exist celule cu valori teoretice mai mici dect 5; un coeficient echivalent cu primul (Likelihood Ratio) apoi un gen de corela#ie care nu este semnificativ aici (Linear-by-Linear Association). Distingem valorile testului Fisher (ale c rui valori le vom detalia n continuare) care confirm lipsa asocierii. Sunt precizate num rul de cazuri valide (aici 1868) iar la final se precizeaz cte celule au valori a$teptate n num r mai mic dect 5. Valoarea lui

2 =5,168 se compar cu cea din tabelul de mai nainte $i anume cu valoarea 5,41
(pentru df=1 $i p=0.02). Deducem urm toarele:
2 calculat=5,168< 2 teoretic=5,41 din care cauz vom respinge H1 $i admitem H0.

n concluzie nu exist o asociere ntre sexul responden#ilor $i aprecierea privind direc#ia de dezvoltare a # rii sau altfel spus nu avem diferen#e majore n r spunsurile responden#ilor diferen#iate dup sexul acestora.

VIII.1. Sensul (i intensitatea asocierii


Coeficientul 2 poate atesta prezen#a asocierii dar nu $i intensitatea sau sensul acesteia. Tocmai de aceea se folosesc $i al#i coeficien#i pentru o astfel de analiz . Iat pentru nceput unii coeficien#i utili pentru cazul a dou variabile dihotomice nominale: 1. Coeficientul =
nk11 k 1. k .1 k 1. k 2. k .1 k .2

n care k11 este frecven#a observat din celula

11 iar celelalte sunt frecven#e marginale (cele ce sunt sumele pe linii $i pe coloane ale frecven#elor din tabel). Acela$i coeficient se mai calculeaz cu formula =
2 . n n

aceast ultim formul 2 este o m rime care se ob#ine din suma p tratelor diferen#elor dintre frecven#ele observate (fo) $i $i cele teoretice (ft) mp r#ite la frecven#ele teoretice:
2 =

(f oft )2
ft

149

150

Dac >0 tendin#a datelor este s se grupeze pe diagonala principal caz n care exist o asociere pozitiv ntre variabile. Asocierea este negativ dac <0. 2. Coeficientul Q al lui Yule are formula urm toare: Q =
k 11 k 22 k 12 k 21 $i ia k 11 k 22 + k 12 k 21

Statistics'Crosstabs $i vom opta $i pentru cei patru coeficien#i din fereastra Statistics: Contingency Coefficient, Phi and Cramers V, Lambda (i Uncertainty coefficient. Rezultatele sunt urm toarele:
Case Processing Summary Cases Missing N Percent 504 33.6%

valori n intervalul [-1, +1]. Interpretarea este asem n toare cu aceea de la corela#ie (pentru Q=0 situa#ia este de independen# ). 3. Coeficientul Y al lui Yule, pe care nu l mai detaliem aici $i care are valori tot ntre [-1,+1]. Pentru variabile categoriale cu mai mult de dou variante se impun $i al#i coeficien# i: 1. Coeficientul de contingen$% (C) ia valori n intervalul [0,1] $i are formula:
C=
2

Valid N Percent Marital Status * Is Life Exciting or Dull 996 66.4%

Total N Percent 1500 100.0%

Se observ c au fost procesate un num r de 995 cazuri valide iar 504 au fost considerate lips .

Marital Status * Is Life Exciting or Dull Crosstabulation Is Life Exciting or Dull Routine Exciting 241 251 236.4 243.1 47.0% 48.9% 54 40 51.2 52.6 48.6% 36.0% 74 65 68.7 70.6 49.7% 43.6% 11 8 11.5 11.8 44.0% 32.0% 79 108 91.2 93.8 39.9% 54.5% 459 472 459.0 472.0 46.1% 47.4%
Symmetric Measures Asymp. Sig. (2-sided) .000 .000 .854 Value .198 .140 .195 996 Approx. Sig. .000 .000 .000

Dull Marital Status married Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status

Total 513 513.0 100.0% 111 111.0 100.0% 149 149.0 100.0% 25 25.0 100.0% 198 198.0 100.0% 996 996.0 100.0%

2 +n

, formula n care n este volumul e$antionului.

widowed

Acest coeficient dac e aplicat n cazul a dou variabile dihotomice are valoarea maxima de 0,707. Aceast valoare cre$te apoi odat cu cre$terea tabelului de contingen# dar nu va atinge niciodat valoare 1 deoarece frac#ia de sub radical este subunitar . T. Rotariu (1999; 135) recomand folosirea acestui coeficient pentru tabele mari. Oricum dac C'1 atunci asocierea dintre variabile este puternic iar dac C'0 asocierea este slab . 2. Coeficientul V (Cramer) ia valori tot n intervalul [0,1] interpretarea fiind aceea$i. Formula de calcul este urm toarea:
V = n s 1
Total

divorced

separated

never married

21 33.5 4.1% 17 7.2 15.3% 10 9.7 6.7% 6 1.6 24.0% 11 12.9 5.6% 65 65.0 6.5%

, formula n care s *=min (n,m) adic minimul din nr. de linii/coloane.


Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases

Chi-Square Tests Value 39.220a 31.911 .034 996 df 8 8 1

3. Coeficientul (Goodman $i Kruskal) ia valori n intervalul [0,1] dar interpretarea lui este diferit : el urm re$te propor#ia cu care se reduc erorile prin introducerea variabilei independente. Dac tinde la 0 atunci variabila independent nu are un aport n predic#ia variabilei dependente. Dac tinde la 1 atunci aportul n predic#ie este mare. O variant este coeficientul cu interpret ri apropiate. 4. Coeficientul de incertitudine U se mai nume$te coeficientul de entropie $i ia valori n intervalul [0,1]. El reprezint procentul de reducere a a erorilor de interpretare a varia#iei variabilei dependente cnd ac#ioneaz variabila independent (varian#a este definit n termeni de entropie sau grad de nedeterminare dat de plasarea subiec#ilor n categoriile din tabelul de contingen# ) : dac U'0 variabila independent nu explic varian#a celei dependente situa#ia fiind opus dac U'1. Vom ncerca s aplic m $i ace$ti din urm coeficien#i la o analiz pentru variabile nominale cu mai mult de dou categorii. Din baza de date GSS93 subset vom analiza asocierea dintre variabilele marital status $i life: ne intereseaz dac rasa responden#ilor influen#eaz opinia despre via# n general. Marital status are cinci categorii iar variabila life [Is life exciting or dull?] are $i ea trei variante principale (exciting, routine $i dull ). Vom urma acelea$i comenzi: Analyze' Descriptive

Nominal by Nominal N of Valid Cases

Phi Cramer's V Contingency Coefficient

a. 1 cells (6.7%) have expected count less than 5. The minimum expected count is 1.63.

a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
Directional Measures Asymp. a Std. Error .016 .000 .030 .004 .005 .006 .005 .007 2.639 2.639 2.639
b

Nominal by Nominal

Lambda

Goodman and Kruskal tau Uncertainty Coefficient

Symmetric Marital Status Dependent Is Life Exciting or Dull Dependent Marital Status Dependent Is Life Exciting or Dull Dependent Symmetric Marital Status Dependent Is Life Exciting or Dull Dependent

Value .026 .000 .050 .009 .011 .015 .012 .018

Approx. T 1.640

Approx. Sig. .101 .c .101 .000d


d

.c 1.640

.004 .000e .000e


e

.000

a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Cannot be computed because the asymptotic standard error equals zero. d. Based on chi-square approximation e. Likelihood ratio chi-square probability.

151

152

Symmetric Measures Value Approx. Sig. Phi .198 .000 Cramer's V .140 .000 Contingency Coefficient .195 .000 N of Valid Cases 996 Nominal by Nominal a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.

Observ m c 2 calculat=32,2> 2 teoretic=26,1 pentru 8 grade de libertate $i p=0.000. Accept m ipoteza H1 deci variabilele sunt asociate. Intensitatea asocierii este totu$i slab (C=0.190;V=0.140) iar direc#ia presupus de var. independent marital status explicnd var. dependent life este mai plauzibil ( =0.05> =0.00 sau =0.011> =0.009). Se observ de asemenea valorile mici pentru coeficientul U.

Din rezultatele ob#inute se observ c cele dou variabile sunt asociate [deoarece 2 calculat=37,6> 2 teoretic=10,83 pentru 1 grad de libertate $i p=0.000 deci vom accepta H1]. Cu alte cuvinte sexul responden#ilor influen#eaz opinia despre portul armei. (ansa ca un respondent s fie de acord este diferit pentru b rba #i $i pentru femei. Pentru b rba#i este de 314/111=2,82 iar pentru femei este de 497/62= 8.01 valoare semnificativ mai mare. Raportul de $anse dintre femei $i b rba#i este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8 $anse ca o femeie s fie de acord fa# de un b rbat. Aceast valoare cu ct este mai mare dect 1 cu att sunt mai pronun#ate diferen#ele dintre grupuri. Pentru cei ce sunt de acord coeficientul de risc este de 1.20 iar pentru cei ce nu sunt de acord 0,42.

VIII.2. Asocierea (i raporturile de (anse (odds ratio)


Cu ajutorul tabelului de contingen# se poate analiza $ansa (probabilitatea) ca un anumit fenomen s se petreac . Dac un fenomen, s spunem, are o probabilitate p de apari#ie atunci prin $ans se n#elege raportul p/ (1-p). Dintr-un exemplu anterior vom spune c exist probabilitatea de 0.511 ca subiec#ii care cred c direc#ia este bun s fie b rba#i. Altfel $ansa ca un intervievat s fie b rbat a fost 511/(1-0.511)= 1.04. S analiz m aceast problematic plecnd de la baza de date GSS93 subset $i de la dou variabile sex $i gunlaw (acordul sau dezacordul portului armei). Dup ce am transferat variabilele pe linie $i coloan din fereastra statistics alegem doar Chi-square $i Risk:
Respondent's Sex * Favor or Oppose Gun Permits Crosstabulation Favor or Oppose Gun Permits Favor Oppose 314 111 350.3 74.7 73.9% 497 460.7 88.9% 811 811.0 82.4% 26.1% 62 98.3 11.1% 173 173.0 17.6%

Respondent's Sex

Male

Female

Total

Count Expected Count % within Respondent's Sex Count Expected Count % within Respondent's Sex Count Expected Count % within Respondent's Sex

Total 425 425.0 100.0% 559 559.0 100.0% 984 984.0 100.0%

Chi-Square Tests Value Pearson Chi-Square37.622b a 36.592 Continuity Correction LikelihoodRatio 37.417 Fisher's Exact Test Linear-by-Linear 37.584 Association N of Valid Cases 984 Asymp. Sig. Exact Sig. Exact Sig. df (2-sided) (2-sided) (1-sided) 1 .000 1 .000 1 .000 .000 .000

Risk Estimate 95% Confidence Interval Lower Upper .251 .524 1.391 .496 .695 2.103

Value .353 .603 1.710 984

Odds Ratio for Favor or Oppose Gun Permits (Favor / Oppose) For cohort Respondent's 1 .000 Sex = Male For cohort Respondent's a. Computed only for a 2x2 table Sex = Female b. 0 cells (.0%) have expected count less than 5. The minimum expected count is N of Valid Cases
74.72.

153

154

IX. ANALIZA VARIABILELOR CU VALORI MULTIPLE


Dup cum se $tie exist mai multe tipuri de ntreb ri folosite ntr-un chestionar: ntreb ri nchise, ntreb ri deschise, ntreb ri semi-nchise (sau semi/deschise). Toate aceste tipuri de ntreb ri se pot transpune imediat n cadrul unei baze de date dup procedurile deja expuse pn acum. Un caz special l constituie ntreb rile cu alegeri multiple atunci cnd respondentul poate alege mai multe r spunsuri deodat . Iat un exemplu: ntrebare: Ce tip de emisiuni TV prefera#i s viziona#i? 1. Buletin de $tiri 2. Divertisment 3. Talk-show 4. Filme 5. Sport 6. Documentare 7. Culturale 8. Clipuri muzicale 9. Anchete sociale Vom tasta Add pentru ca programul s salveze aceast op#iune iar calculul efectiv se face dup ce am ales Close $i am revenit cu comenzile AnalyseMultiple response Frequencies. Rezultatul este urm torul:
Group $VIZUALE Dotarea locuintei cu media vizuale (Value tabulated = 1) Pct of Pct of Responses Cases 34.8 46.1 9.8 9.4 ----100.0 66.4 87.9 18.6 18.0 ----191.0

n acest caz respondentul poate alege mai multe r spunsuri (de la unu pn la nou r spunsuri) sau poate s nu aleag nici o variant . Evident c n cazul a sute de chestionare analiza se complic $i se cere o subrutin special din cadrul programului SPSS. S folosim aceast subrutin pe o baz de date cum ar fi bd_bop_oct_2004 pe care o putem g si pe acela$i site www.osf.ro $i care reprezint barometrul de opinie din toamna anului 2004. Iat un fragment din aceast baz :

Dichotomy label cablu / anten parabolic televizor color televizor alb negru video

Name APRC TVC TVAN VID Total responses

Count 1102 1459 309 298 ------3168

141 missing cases; 1,659 valid cases

Putem observa r spunsurile celor chestiona#i la o serie de ntreb ri privind dotarea personal sau a gospod riei cu telefon mobil (variabila telemo ), telefon fix (variabila tel), frigider (frig), cablu sau anten parabolic (aprc), televizor color (tvc ), televizor alb negru (tvan), video (vid), congelator (cong), ma$in de sp lat ne-automat $i automat (ms $i maut), etc. Se observ c r spunsurile/valorile posibile au fost: 1=da, 2=nu, 9=nu r spund, ceea ce demonstreaz c ntrebarea cu r spunsuri multiple se transpune n baza de date n tot attea variabile dihotomice cte variante de r spuns exist . De asemenea observ m c un acela$i respondent poate alege mai multe variante de r spuns. Ne propunem aici s cuantific m doar variabilele aprc, tvc, tvan $i vid n ideea de a vedea gradul de dotare n ce prive$te mijloace media vizuale. Pentru aceasta vom deschide submeniul AnalyseMultiple response Define sets dup care se va deschide fereastra urm toare. n acea fereastr am trecut variabilele de interes din stnga n dreapta ca f cnd parte dintr-un set $i n cadrul c ruia vom cuantifica doar valorile 1=da (din op#iunea Dichotomies Counted value). Noul set l vom denumi generaliznd vizuale iar numele pe lung Dotarea locuin ei cu mijloace media vizuale.

Se observ c r spunsurile con#in 141 cazuri missing (141 de responden#i nu au ales nici o variant ), au fost n total 3168 de alegeri la un num r de 1659 de responden#i care au avut m car o alegere. Din totalul de alegeri 46,1% reprezint dotarea cu TV color urmeaz apoi dotarea cu cablu/anten - 34,8% din r spunsuri etc. Se specific apoi procentele din totalul de responden#i valizi : astfel 66,4% dintre responden#ii valizi declar c de#in n dotare respectivul cablu/anten etc. L Tem%. Folosind mai departe comenzile AnalyseMultiple response Crosstabs. ncerca#i s vede#i care sunt diferen#ele care apar n cazul setului de variabile repartizate dup mediul de reziden# (rural/urban).

155

156

S-ar putea să vă placă și