Spss Curs Id2

II.
Alte proceduri pentru reprezentri grafice n SPSS
Comenzile pentru diverse alte grafice le putem gsi n meniul Graphs. Din acest meniu vom detalia cteva opiuni care sunt mai uzuale. Vom gsi i aici de exemplu opiunea Histogram dar cu o fereastr uor diferit:
S presupunem c vrem s facem histograma variabilei loc4 [Care este suprafaa total (n metri ptrai) a camerelor (fr baie, buctrie, hol) pe care le ocup gospodria dumneavoastr?]. Vom trece variabila din stnga n dreapta, putem seta opiunea Display normal curve, de asemenea putem s cutm un titlu adecvat graficului:
Suprafata totala
800
600
400
200 Std. Dev = 32.24 Mean = 53.0 0

0 0. .0 40 .0 80 0 0. 12 0 0. 16 0 0. 20 0 0. 24 0 0. 28 0 0. 32 0 0. 36
N = 2100.00
0 0. 40
Care este suprafaa total (n metri ptrai) a camerelor (fr baie, bu
Din acelai meniu Graphs putem obine pentru graficele de tip Bar Charts o serie de reprezentri mai sugestive. Vom ncerca s reprezentm grafic alt variabil scoala0 [Ultima scoala absolvit?] din baza BOP_mai-2003_Gallup FINAL.sav. Ne propunem s reprezentm aceast variabil innd cont de venitul respondenilor. Vom deschide fereastra necesar dup comenzile GraphsBar. Din aceast fereastr vom pstra opiunea Simple care este potrivit situaiei noastre deoarece exist o singur variabil independent scoala0. Din partea de jos vom lsa setarea Summaries for groups of cases (barele reprezint grupuri de cazuri). Clic pe butonul Define:
Mean Dar venitul dvs. personal n luna tre
7 6 6 5 4 4 3 2 1 1 0 1
r f c oa l im pr ar -4 (1 cl as e) gi m na zi ( al 5 -8 cl a c tre lic c iv un iv un st ud oa e oa ap u
Se observ n aceast fereastr c am deplasat variabila scoala0 n rubrica Category Axis (este variabila independent care va defini axa OX) iar n rubrica Variable am trecut variabila vensub iar pentru aceasta n grafic vor apare pe axa OY mediile veniturilor. De altfel aceast opiune a fost aleas de program n mod automat dar ea poate fi schimbat din butonul Change Sumary. Pentru exemplul nostru vom lsa aceste setri i vom continua cu OK ! Obs: Dac variabila independent are valori lips atunci din butonul Options se va dezactiva comanda Display groups defined by missing values!
4
3 3 2 1 1 1
N R
Ultima coal absolvit (respondent)
Valorile de pe axa OY reprezint mediile veniturilor n milioane lei n luna aprilie 2003. Se observ din grafic modul cum influeneaz variabila independent studii variabila dependent venit. Pentru studii postuniversitare se manifest o scdere a mediei veniturilor!
er
er
ii
la of pr i es
ta Id e lic eu al ( on
(9 1
s po
si
si
po st - li al ce ) e s la c 2
r ta de sc ur t
r ta de lu ng
tu ni ve i rs t
S presupunem c dorim s reprezentm grafic variabila ven (venitul familiei) i variabila vensub (venitul respondentului la chestionar). Reprezentarea se alege de data aceasta dup opiunea Summarise of separate variables. Dup acionarea butonului Define va apare fereastra urmtoare apoi graficul:
5.5
5.0
4.5
4.0
3.5
3.0
2.5
2.0
Mean
1.5 n luna trecut (apr Dar venitul dvs. per
Obs: scala folosit pe axa OY poate crea impresia unei disproporii prea mari ntre mediile celor dou variabile. Respectiva scal poate fi modificat dup ce am dat dublu clic pe grafic i am intrat n fereastra Graph1 vom urma comenzile ChartAxisScale dup care vom modifica n opiunea Range limitele axei OY. Iat cum arat dup o astfel de modificare acelai grafic:
3.0
2.5
2.0
Media veniturilor
1.5 n luna trecut (apr Dar venitul dvs. per
O alt variant de reprezentare grafic i care este foarte des uzitat este dat de opiunea reprezentrii de tip cluster (apar grupuri de bare care se pot compara mai uor). De exemplu ne-ar interesa repartiia din eantionul folosit n aceeai cercetare dup variabila scoala0 dar n funcie de sexul respondenilor. Vom alege de data aceasta comenzile ChartsBar ChartsClustered iar opiunea Summaries for groups of cases rmne neschimbat. Dup Define apare fereastra: Observm c pentru axa OX am ales aceeai variabil iar variabila care dicteaz dispunerea cluster este varibila sex. Frecvenele vor reprezenta efectiv numrul de subieci (N of cases). Din Option am deselectat opiunea Display groups
defined by missing values!
Graficul este urmtorul:

400
300
200
Genul (respondent)
100
Count
masculin 0
r f im pr al m gi na 14 o c it rs ive un g st NR n po lu ii e ud rt rd st ita scu rs e ive r d ) un ita e alse rs ic a ive st-l cl o 2 un p l 1 oa ( c 9 ( eu u l ic e e lic I d n al ta io ap es la of c pr tre a al ( ar o c
feminin
Revenind la primul exemplu care se referea la variabilele scoala0 i vensub le vom reprezenta un nou grafic cu linii dup ce vom urma comenzile GraphsLine. Procedurile sun asemntoare cu cele dinainte i vom obine urmtorul grafic(n fapt un poligon al frecvenelor!):
al zi (5 ) se cla
-8
Mean Dar venitul dvs. personal n luna tre
7 6 5 4 3 2 1 0
r f t si er iv R N un st po ng ii lu ud e st rd ta t si ur er sc iv e un rd ta si al er iv ce -li un st ) po se l cla oa c 12 ( (9 eu eu lic lic e Id l ta na ap io tre es of pr cla la -8 oa c (5 al zi e) na as cl m gi -4 (1 ar im pr l oa c
Un alt tip de graphic este cel numit box-plot i care este foarte util n a depista distribuia valorilor seriei dar i dispunerea valorilor (scorurilor) extreme ale variabilei. Acest tip de graphic se mai numete cutia cu musti i are urmtoarea conformaie: Mediana Mustai
Lungimea cutiei
Quartila3 Quartila 1
n cazul acestui grafic 50% din date sunt n interiorul cutiei (care are bazele la 25% i la 75% din date adic la quartilele 1 i 3). Mustile pot avea o lungime de pn la 1,5 limi ale cutiei. Valorile care cad nafara limitelor (desemnate prin drepte orizontale la captul mustilor i numite uneori valori adiacente) se numesc valori extreme. Valorile adiacente se obin scznd din Q1 lungimea cutiei nmulit cu 1,5 i adunnd la Q3 aceeai distan. Dac o valoare extrem este mai ndeprtat de trei lungimi de cutie atunci este reprezentat printr-o stelu marcat i cu numrul cazului respectiv. Dac mustile sunt egale distribuia tinde la una normal. Dac musta superioar este mai mic distribuia este alungit spre stnga. S reprezentm grafic variabila babymort din baza de date word95. Vom urma comenzile GraphsBoxplot:
n aceast fereastr vom seta opiunile Simple i Summaries of separate variables. Apoi vom aciona butonul Define. n noua fereastr am selectat i mutat variabila babymort i de asemenea am considerat variabila country prin intermediul creia se pot eticheta cazurile speciale (extreme). Din butonul Option putem alege o variant referitoare la valorile lips.
n cazul graficului obinut se observ o singur valoare extrem: mortalitatea infantil cea mai ridicat este n Afganistan. De altfel se pot compara reperele grafice cu principalele valori statistice obinute din AnalyzeDescriptive StatisticsFrequencies:
Statistics Infant mortality (deaths per 1000 live births) N 109
200
Afghanistan
100
0 Mean 42.313 Median 27.700 Std. Deviation 38.0792 Skewness 1.090 Std. Error of Skewness .231 Kurtosis .365 Std. Error of Kurtosis .459 Range 164.0 Percentiles 9.250 27.700 64.500
-100
N= 109
Infant mortality (de
Obs1: dac cutia este situat mai jos distribuia este alungit spre dreapta i exist o concentrare a valorilor mici n partea stng. Obs2: daca linia medianei este exact n mijlocul cutiei atunci distribuia este normal O alt analiz grafic important se poate face cu ajutorul comenzilor AnalyzeDescriptive
StatisticsExplore:
Am trecut variabila Am trecut variabilade deinters interes

n sectorul Dependent List i apoi vom alege anumite opiuni din cele dou butoane Statistics i Plots. Se pot seta elemente de statistic descriptiv, intervalul de ncredere pentru medie, lista cu primele/ultimele valori din serie, percentilele 5, 10, 25, 50, 75, 90, 95. De asemenea se pot alege graficele histograma i graficul de tip stem-andleaf. Acest graphic este expus mai jos:
Opiunea Factor levels together ajut la compararea categoriilor variabilei independente iar opiunea Dependent together ajut la comparri ntre mai multe variabile sau ntre mai multe situaii n timp ale aceleeai variabile.
Infant mortality (deaths per 1000 live births) Stem-and-Leaf Plot Frequency Stem & Leaf 28.00 0 13.00 1 16.00 2 8.00 3 6.00 4 9.00 5 5.00 6 7.00 7 1.00 8 1.00 9 4.00 10 7.00 11 2.00 12 1.00 13 1.00 Extremes Stem width: Each leaf: . . . . . . . . . . . . . . 4455555666666666777778888899 0122223467799 0001123555577788 45567999 135679 Acest tip de grafic c i box plotul a fost 011222347 03678 propus de ctre Kohn W. Tukey i este 4556679 asemntor histogramei. n primul rind 5 sunt 28 de ri care au babymort egal cu 4 4,4,5,5....Pe al doilea rnd sunt valorile 10, 1569 12, 12, 12....Similitudinea cu histograma 0022378 46 este vizibil. Dispunerea se face dup 7 trunchi (stem) cu valorile 0,1,2,3....i (>=168)
10.0 1 case(s)
frunzele (leaf) dispuse n partea dreapt a graficului.
Un alt grafic deosebit de util n cercetarea statistic este cel denumit Error Bar Chart i care e destinat variabilelor numerice. Cu ajutorul acestuia putem reprezenta intervalul de ncredere pe care l putem estima pentru media dintr-o populaie. Dup cum se tie atunci cnd extindem rezultatele de la un eantion la o populaie ntreag suntem ntr-o situaie de tipul urmtor:
Media din populatie
Media din eantion
Am definit anterior intervalul de ncredere ca fiind tocmai [ [x x ; x + x ] unde x este eroarea standard (adic eroarea dat de poziia eantionului n populaia de eantioane). SD x = t unde t=1,96 pentru un n nivel de ncredere de 95%. SD i n-deviaia standard i mrimea eantionului.
Interval de ncredere
S facem graficul pentru variabila vensub (venitul subiectului) din baza de date BOP_mai-2003_Gallup. Alegem comenzile GraphsError Bar:
95% CI Dar venitul dvs. personal n luna trecut (aprilie
2.4
2.3
Putem observa limitele intervalului de ncredere pentru o probabilitate de 95% (sau un prag de semnificaie de 0.05). Spunem c sunt 5% anse s ne nelm atunci cnd facem predicia c media veniturilor din populaie este cuprins n intervalul respectiv.
2.2
Obs: Alte variante de reprezentri grafice

2.1
se pot executa cu opiunea GraphsInteractive din care putem alege

N= 1871
2.0 Dar venitul dvs. per
tipul de grafic necesar.
n final amintim i de graficul clasic n statistica descriptiv numit i curba frecvenelor cumulate. Acest grafic este posibil n SPSS doar pentru variabile tipul de msur scale. Fie o baz de date de exemplu world95.sav i s presupunem c dorim s facem graficul respectiv pentru variabila babymort cea care reunete cifrele mortalitii infantile pentru cele 109 ri din baz. Vom recurge la irul de comenzi Graphs Interactive Histogram dup care a aprut fereastra urmtoare:
100
75
50
25
n aceast fereastr am adus variabila babymort pe viitoarea ax OX, am bifat opiunea Cumulative histogram, apoi din celelalte ferestre am ales comenzile HistogramNormal Curve i OptionCount din indicaiile privitoare la modul de definire al axei OY. Evident c toate aceste comenzi pot fi salvate i ntr-un fiier de tip sintax cu coman da Paste. Du toate aceste setri graficul de mai jos. Dup cum se tie, ntr-un astfel de grafic apar frecvenele de la un moment dat dar cumulate cu valorile inferioare i la care se adiioneaz apoi celelalte valori. Dac trasm dou segmente de dreapt paralele cu axele de coordonate putem trage concluzia c doar un numr de 50 de state au o mortalitate infantil mai mic de 40 (adic 40 de copii cu vrsta de pn un an decedai la 1000 de nscui vii). Oricum i aceast cifr este ridicat. Statele dezvoltate din punct de vedere economic au cifra de sub 10.
40.0 80.0 120.0 160.0
Count
Infant mortality (deaths per 1000 live births)
III. Notele (cotele) Z n acest capiutol vom relua pe scurt cteva precizri din statistica descriptiv i le vom aplica apoi n cadrul programului SPSS. Cotele Z ne dau o imagine direct asupra poziiei pe care o are un subiect fa de media colectivitii respective ct i fa de dispersia datelor. Acest indicator se numete msura standard sau cota Z i ne arat cu cte deviaii standard se abate o valoare de la medie. Nota Z are formula urmtoare: x x x x z= i sau l gsim cu notaia z= i SD Pentru a nelege importana acestei mrimi s prelum un exemplu din A. Novak [1995]. Astfel, fie cazul unui student care a luat la statistic calificativul 7 iar n grup media m =5 i =1. La obiectul psihologie acelai student a obinut nota 9 iar n grup m = 6 i =2. Se pune ntrebarea la care dintre discipline nota a fost mai bun? Iniial putem crede c nota a doua este mai bun. S calculm i cotele Z ale respectivelor calificative: Z1 = 75 =2 2 Z2 = 96 = 1,5 2
Din aceste valori deducem c la prima materie studentul se abate de la media grupei cu dou abateri standard iar la cea de a doua materie se abate de la media grupei cu 1,5 abateri standard. nseamn c el se abate n primul caz cu 2 puncte iar n al doilea cu 3 puncte, de unde rezult c la prima materie studentul este mai bine plasat. Deoarece datele provin de la aceeai colectivitate atunci cele dou note Z pot fi cumulate: (2+1,5)/2=1,75 care poate da o poziie n ansamblu. O aplicaie important a variabilei Z o gsim n diverse probleme care impun totui utilizarea tablei legii normale (afiat n orice carte de statistic). Pentru a nelege astfel de aplicaii s dm un alt exemplu, dup M. Colin et alii [1995]: ntr-o universitate rezultatele obinute la un test se distribuie dup o lege normal cu m=75 i =8. Dac lum un student la ntmplare care sunt ansele ca el s aib un rezultat cuprins ntre 75 i 95 ? Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare: m-3 m-2 m- m m+ m+2 m+3
51
59
67
75
83
91
99
Fiind o distribuie normal putem spune c 68,26% din rezultatele la examen se gsesc ntre [59; 91] etc. Acest grafic poate fi reprezentat i n cote Z.
Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare:
-3
-2
-1
Vom calcula cotele Z pentru principalele valori din problem: Zm=( 75-75)/8 = 0 Z 1 = (X 75) / 8 Z2= (95 75)/ 8= 2,50 Dac rezumm pe scurt problema noastr cu enunul P (75< X < 95) [a se citi probabilitatea ] atunci n limbajul notelor Z acest enun devine P (0< Z < 2,50) . Cutnd n tabelul legii normale [vezi tabelul de pe pagina urmtoare ; n acest tabel sunt date doar valorile pozitive, cele negative find simetrice vor fi considerate cu semnul minus] se gsete valoarea 0,4938 care reprezint proporia din suprafaa delimitat de ctre curba normal, axa OX i perpendicularele ridicate n punctele 0 i 2,5. Aceast valoare se poate scrie i 49,38 % i reprezint chiar probabilitatea cutat: sunt 49,38 % anse ca studentul respectiv s aib calificativul cuprins ntre 75 i 95. Practic s-a fcut urmtorul transfer: fcut urmtorul transfer:
49,38 49,38
75
95
2,5
Obs1 : din tabelul urmtor atragem atenia i asupra valorii corespunztoare lui z=1.96 care este de 0,4750 valoare pe care dac o multiplicm cu doi rezult 0.95. Citim c la un nivel de 95% ncredere z=1,96. La fel raionm i pentru o alt valoare importanta z=2,58! Obs2 : n general se consider c scorurile z trebuie s se nscrie n intervalul [-3,+3]. Dac z <-1 sau z.>+1 se consider c valorile respective sunt mici (respectiv mari) pentru o serie statistic dat. Dac z [-1, +1] mrimea respectiv este considerat medie.
Aria de sub curba normal de 0 la x ________________________________________________________________________ X 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 ________________________________________________________________________ 0.0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586 0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535 0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409 0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173 0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793 0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240 0.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490 0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524 0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327 0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891 1.0 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214 1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298 1.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.40147 1.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41308 0.41466 0.41621 0.41774 1.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.43189 1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408 1.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.45449 1.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.46327 1.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.47062 1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670 2.0 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169 2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574 2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899 2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158 2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361 2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520 2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643 2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736 2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807 2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861 3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900 3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929 3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950 3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965 3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976 3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983 3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989 3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992 3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995 Ne propunem s calcul0.49996 m cotele0.49996 z pentru0.49996 variabila salary 0.49996 din baza de date0.49997 Employee Data. 3.9 0.49995 0.49995 0.49996 0.49996 0.49997 Pentru aceasta vom urm ri comenzile Analyze Descriptiv Statistics Descriptives: 4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
Vom trece n dreapta variabila de interes i vom seta opiunea Save standardized values as variables. Din butonul Options se pot alege diverse valori generale da statistic descriptiv. n baz va apare o nou variabil:
n cazul variabilei zsalary vom putea s comentm n ce msur anumite valori sunt mici, mari sau medii. De exemplu subiectul nr.1 cu un salar mediu anual de 57.000$ are un scor z de 1,32 ceea ce semnific o valoare mare printre valorile seriei. Valoare salariului se abate 1,32 abateri standard de la media salarial. Observaie : n general metodele grafice sunt foarte utile pentru analiza prealabil a datelor. Astfel, nainte de a se trece la analiza propriu-zis a datelor pe care le-am inserat n Data Editor trebuie s avem mai nti o imagine general asupra variabilelor. Dup cum am vzut n submeniul Explore putem s obinem o imagine de ansamblu a variabilelor i reprezentarea grafic a acestora. Prin aceste proceduri putem evita greelile inerente: greeli de nregistrare, greeli date de necunoaterea distribuiei variabilei, greeli generate de cazurile lips (exist diverse opiuni cum ar fi Exclude cases pairwise- cnd un caz nu are o valoare pentru o anumit variabil este exclus din analiz) etc. Informaii la fel de importante pot fi obinute i din submeniul Descriptive.
IV. Testarea ipotezelor statistice; praguri de semnificaie n general majoritatea raionamentelor umane sunt alctuite din combinaii de dou sau mai multe variabile. Este i cazul ipotezelor statistice care nu sunt altceva dect aseriuni privind diverse fenomene naturale sau sociale, aseriuni pe care la facem n vederea testrii lor ulterioare. O ipotez statistic este de obicei compus dintr-un cuplu de dou enunuri: -H0 (ipoteza de nul) i -H1 (ipoteza de lucru). Primul enun H0 descrie, de obicei (dar nu e obligatoriu!) situaia cnd o anumit variabil sau fenomen nu este prezent sau nu acioneaz (sau c, de exemplu, nu exist o diferen semnificativ ntre dou condiii). Este ca i cum am spune c un anumit lucru dac se ntmpl este doar rodul ntmplrii. Ipoteza de nul este tocmai cea care este testat. Al doilea enun H1 descrie situaia contrar enunului H0 cnd o variabil sau fenomen acioneaz i are o influen semnificativ: Exemple: H1: sexul respondenilor influeneaz prerea acestora despre impozite. H0: opinia despre impozite nu este influenat de sexul respondenilor. H1: autoturismul Dacia este mai bun ca unul din import H0: autoturismul Dacia este la fel de bun ca unul din import. Din astfel de exemple deducem c n analiza statistic suntem nevoii fie s acceptm H0 fie pe H1, deoarece ambele sunt disjunctive. Un astfel de raionament se va face ntotdeauna n termeni de prag de semnificaie (sau interval de ncredere) pentru c n realitate orice presupoziie statistic se face cu o anumit marj de eroare, cu o anumit ans de a ne nela. De exemplu cnd vorbim de un prag de semnificaie (notat p) de 0.05 spunem de fapt c sunt 5% anse s ne nelm atunci cnd facem o anumit aseriune statistic (iar n oglind spunem c sunt 95% anse s nu ne nelm cnd facem respectivul raionament). La fel, cnd vorbim de un prag de semnificaie de 0,01 spunem c sunt 1% anse s ne nelm (sau 99% anse s nu ne nelm). Evident c n cel de al doilea caz gradul de siguran este mai mare. i n cazul testrii ipotezelor intervin astfel de precizri. Astfel c vorbim de un prag de semnificaie de 0.05 n sensul c sunt 5% anse de a ne nela atunci cnd acceptm ipoteza de lucru H1 (sau respingem ipoteza de nul H0). n majoritatea cercetrilor este acceptat un prag maxim de 0.05 sau p 0.05 dar se ntlnesc i praguri mai mari dect 0.05 (ntotdeauna aceste praguri trebuie amintite pentru a se clarifica gradul de precizie dorit de cercettor). Trebuie s precizm c exist posibilitatea s ne nelm chiar i n aceste condiii. Adic de exemplu s acceptm o ipotez de lucru pentru c toate datele statistice o confirm dar, n esen, acea ipotez s fie totui fals. n general se pot comite dou feluri de erori: Eroare de gradul I: respingem ipoteza nul dei este adevrat Eroare de gradul II: ipoteza nul este acceptat dei este fals. Aceste dou tipuri de erori sunt complet diferite: eroarea de gradul I este considerat mai grav i tocmai de aceea se cere s micorm pe ct posibil pragul de semnificaie. Unii cercettori recomand aici un prag p 0.01 cu att mai mult cu ct influena cercettorului poate fi important. n cel de-al doilea caz gradul de influen al cercettorului este redus i se recomand un prag p 0.05. Legat de aceste erori sunt folosite n statistic noiunile de putere - sau probabilitatea de a respinge ipoteza nul cnd de fapt ea este adevrat ; pentru o analiz pe larg a acestei problematici a se vedea C.Coman, N. Medianu (2002 ; pp. 144 i urm). Ipotezele statistice sunt testate prin teste statistice. De obicei testul statistic desemneaz o comparaie ntre o situaie presupus i una rezultat n urma cercetrii de teren efective.
Comparaiile n statistica social sunt foarte diverse: fie se fac observaii pe o singur variabil, fie se compar valori din dou eantioane, fie se compar valorile dintr-un eantion cu valorile unei populaii mai extinse, fie se analizeaz diverse situaii experimentale etc. n general n testarea ipotezelor se urmrete o anumit direcie, un anumit sens al legturilor.Din acest punct de vedere sunt dou tipuri de raionamente: one-tailed (unilateral) i two-tailed (bilateral)! One-tailed este utilizat atunci cnd se cunoate dinainte sensul prediciei statistice iar varianta twotailed este preferat atunci cnd nu se cunoate n avans sensul prediciei. O alt precizare important este aceea c sunt dou tipuri fundamentale de teste statistice: parametrice i non-parametrice. Testele parametrice sunt considerate mai puternice dar pentru aceasta trebuie s fie ndeplinite mai multe condiii importante: - populaia din care a fost extras eantionul s aib o distribuie normal (distribuia normal trebuie s se regseasc i n eantion altfel se pot face anumite transformri pentru a se ajunge la o distribuie normal) -regula omogenitii varianei (dintre cea din eantion i cea din populaie) -n majoritatea cazurilor variabilele trebuie s fie msurate pe scale de interval. -nu trebuie s existe scoruri extreme (metodele parametrice sunt sensibile n astfel de situaii). Dac testele parametrice folosesc metode numerice cele ne-parametrice folosesc poziiile pe care valorile le au n cadrul variabilelor. Nefiind vulnerabile la valori extreme unii statisticieni vorbesc de o mai mare stabilitate a acestor teste. In funcie de aceste precizri se recomand folosirea unor teste diverse n funcie de necesiti. Din multele tipuri de clasificri redm una dintre ele consemnat de Christine P. Dancey i J. Reidy (1999) [vezi tabelul urmtor]. Spaiul limitat al acestui curs nu permite ns dect parcurgerea a ctorva proceduri din acest tabel. Obs: 1.Testele incluse n tabelul respectiv reprezint modaliti de analiz a legturii dintre variabile. Se disting astfel metode parametrice dar i neparametrice de studiu a acestor legturi. 2. Testarea diferenei ntre dou condiii reprezint o modalitate foarte rspndit de analiz. De exemplu putem analiza care este influena unei sesiuni de comunicari pentru studenii la sociologie. Probabil c cei ce parcurg sesiunea respectiv vor avea cunotine mai bune. Pentru a testa acest lucru putem dispune de dou tehnici principale: A. Se compar dou grupuri diferite de studeni (alocai aleator) unul care parcurge respectiva sesiune i unul care nu urmeaz acea sesiune, apoi se compar rezultatele unei examinri. Acest tip de analiz se numete between participants design (rezultatele vin de la dou grupuri). B. Se compar un singur grup care trece prin cele dou condiii, odat fr s parcurg sesiunea respectiv iar a doua oar dup parcurgerea acesteia. Rezultatele unor examinri succesive vor decide care este influena urmrii sesiunii. Acest tip de analiz se numete within participant design (rezultatele vin de la acelai grup). In fapt compararea ntre condiii nseamn compararea unor medii i dac diferena dintre aceste medii este semnificativ. Testele folosite n aceste cazuri trebuie s rspund la o ntrebare important: este diferena dat de erori de eantionare sau cu adevrat se manifest influena unei variabile independente cu efecte importante n variaia variabilei dependente?
Nivel msurrii
al
Tip de statistic descriptiv Teste corelatie/asociere de
Tipuri de statistic inferenial Teste ale diferentei intre dou condiii asupra unei var. Independ. Teste ale diferenei mai mult de dou condiii asupra unei var. independente Teste referitoare la dou sau mai multe var. Independ. Sau var. depend
Nominal
Mode Scala poate fi de interval?
Testul 2 pentru independen
NU
Ordinal
Mediana /modul
Spearman ( )
Withinparticipants TestWilcoxon Betweenparticipants Mann Whitney U Test Withinparticipants Related t-test
Withinparticipants Friedman ANOVA Betweenparticipants KruskalWallace one way ANOVA
DA DA
Avei valori extreme? Interval/ratio
NU NU Media
Coeficientul lui Pearson
Sunt indeplinite condiiile parametrice?
Betweenparticipants Independent ttest
One way ANOVA
Factorial ANOVA Multivariate ANOVA
DA
V. Testarea normalitii unei distribuii Nu de puine ori asumia ca un eantion sau o populaie s aib o distribuie normal dup o variabil cantitativ este necesar pentru a executa anumite analize statistice. O prim impresie poate fi dat de histograma seriei dar nu este suficient acest lucru. Un test care poate susine aceast analiz este testul Kolmogorov-Smirnov i care de fapt compar distribuia din eantion cu o alt distribuie (normal) care are aceeai medie i abatere standard. S presupunem c dorim s verificm normalitatea variabilei horsepower (puterea motorului) din baza de date Cars din programul SPSS. Vom urma comenzile AnalyzeDescrtiptive StatisticsExplore:
n rubrica Dependent list am trecut variabila care urmeaz s fie analizat. Din butonul Statistics putem selecta principalele valori de statistic descriptiv iar din butonul Plots nu trebuie uitat setarea Normality plots with tests.
Rezultatul testului este urmtorul:
Tests of Normality Kolmogorov-Smirnov df 400

a
Horsepower
Statistic .160
Sig. .000
a. Lilliefors Significance Correction
Interpretarea testului este urmtoarea: dac pragul de semnificaie este p<0.05 atunci testul este semnificativ n sensul c distribuia din eantion este semnificativ diferit de o distribuie normal. Este i aici cazul pt. Sig.=0.000.
Normal Q-Q Plot of Horsepower

3
Expected Normal
-1
-2
-3 -100 0 100 200 300
Aceast concluzie apare simplu i din graficul de tip Q-Q plots. n figura alturat linia oblic reprezint valorile teoretice (ateptate) ale distribuiei normale. Linia curb reprezint valorile observate ale variabilei studiate. Cu ct diferena fa de linia dreapt este mai mare cu att deviaia de la normalitate este mai mare. Situaia de normalitate ar nsemna coincidena perfect dintre cele dou grafice. n concluzie se recomand n astfel de cazuri folosirea testelor nonparametrice.
Observed Value
Obs: n aplicarea testului de mai sus am inut seama i de mrimea eantionului. Astfel se consider c testul K.-Smirnov este valabil cnd eantionul>50 de subieci. Dac eantionul este mai mic atunci se aplic testul W al lui Shapiro-Wilks. Programul SPSS calculeaz oricum automat ambele teste. Formularea n sensul ipotezelor statistice ar fi urmtoarea: Ho: ntre distribuia variabilei i cea teoretic nu este o diferen semnificativ iar H1: ntre cele dou distribuii exist o diferen semnificativ. Dac p<0.05 atunci respingem ipoteza de nul i o admitem pe cea de lucru.
VI. Corelaia dintre dou variabile cantitative Se pune deseori problema de a analiza legtura dintre dou variabile cantitative n sensul de a vedea n ce msur valorile respective co-variaz (de exemplu valorile mari dintr-o variabil coreleaz cu valorile mari din cealalt variabil). Corelaia msoar relaia liniar dintre variabile i se msoar cu coeficientul de corelaie Pearson (r). Acest coeficient are o formul simpl i care sugereaz modul cum este calculat: r=
(x
x )( yi y )
nSD x SD y
Din formul se vede c la numitor avem suma tuturor produselor distanelor valorilor din cele dou serii de la mediile respective iar la numitor produsul dintre numrul de cazuri (n) i cele dou abateri standard din cele dou serii. Fiind aadar un test parametric (lund n calcul n mod direct toate valorile seriilor) calcularea acestui coeficient trebuie s in seama de condiiile din acest caz [A. Field, 2000; 37]: 1.Asumia distribuiei normale [datele trebuie s provin din populaii normal distribuite (se poate verifica acest lucru cu testul K.-Smirnov)], 2. Asumia omogenitii varianei [varianele din cele dou variabile trebuie s fie stabile la orice nivel], 3. Asumia scalei de msurare (scala de msurare trebuie s fie cea de interval) 4. Asumia independenei (subiecii de la care s-au obinut valorile respective s fie independeni unul de altul). Coeficientul de corelaie este ntotdeauna cuprins n intervalul [-1, +1] nelegnd prin aceasta toate valorile reale din acest interval. Interpretarea valorilor este urmtoarea: 1. r tinde sau este foarte aproape de 1 atunci corelaia este puternic (de acelai sens sau de sens contrar) 2. r tinde la 0 atunci corelaia nu exist 3. r tinde la 0,5 corelaia este de intensitate medie. Se impun aici o serie de observaii: 1. Relaia de corelaie nu trebuie privit ca i o relaie cauz- efect, de la o variabil independent la una dependent, dei de multe ori se face un astfel de raionament. Interpretarea nu privete dect faptul c valorile ambelor variabile co-variaz ntr-un anume sens! 2. In general dac variabilele sunt independente atunci coeficientul r se anuleaz. Dar reciproca nu este adevrat: nu este sigur c dac r se anuleaz atunci i variabilele sunt independente [a se vedea T. Rotariu, 1999; 173]. Aici se impune o observaie important: cnd r=0 suntem siguri doar c nu exist o corelaie liniar a celor dou variabile dar poate exista o corelaie de alt fel (curbilinie). Cnd vorbim de corelaie liniar nelegem faptul c dac reprezentm grafic corelaia cu ambele variabile axe de coordonate vom obine un nor de puncte care se poate alinia dup o dreapt (ntotdeauna este recomandat s verificm i grafic corelaia deoarece ea este valabil doar ca i corelaie liniar). Situaiile pot fi urmtoarele:
)) ) ) ) r1 r -1 r0 ) ) ) ) ) ) )
3. Coeficientul de corelaie d dou rezultate importante: puterea asocierii dintre variabile i sensul acestei asocieri. n general valorile din jurul valorilor 1 sugereaz o corelaie foarte puternic, aproape perfect. Valorile ntre 0,6 i 0,8 denot o corelaie puternic, valorile din jurul valorilor de 0,5 dau o corelaie de intensitate medie iar cele mrimea 0,1 0,4 sugereaz corelaii slabe. Sensul corelaiilor este dat de semnul acestora: semnul +sugereaz c variabilele cresc sau scad n acelai timp iar semnul sugereaz faptul c valorile unei variabile cresc n acelai timp ce valorile celeilalte variabile scad. S d un exemplu clasic din literatura de specialitate: corelaia dintre variabilele salbegin i salary din baza de date Employee Data. Mai nti vom face analiza asumiilor destinate metodelor parametrice. Apoi este recomandat vizualizarea grafic a corelaiei urmnd comenzile GraphsScatter i vom alege varianta Simple apoi Define:
Cele dou variabile vor defini chiar axele de coordonate. Opiunea Set Markers by ajut la analiza corelaiei dup diferite categorii de subieci. Label Cases by ajut la identificarea cazurilor dup o anumit variabil (din care putem ataa etichete sau numere de ordine). Graficul este urmtorul:
140000
120000
100000
80000
60000
Current Salary
40000
Se observ gruparea punctelor din plan dup o dreapt nclinat la aproximativ 450 fa de axa OX. Putem fi deci siguri privind linearitatea legturii iar ca i intensitate se prefigureaz o legtur puternic de acelai sens.
20000
0 0 20000 40000 60000 80000 100000
Beginning Salary
Acestea fiind spuse putem calcula coeficientul de corelaie dup alegerea comenzilor: AnalyzeCorrelateBivariate:
Varibilele de interes le-am trecut din coloana din stnga n dreapta. Coeficientul de corelaie Pearson este setat prin definiie ceilali doi coeficieni fiind metode neparametrice de calcul. Testele de semnificaie implicate sunt de dou feluri: twotailed (este folosit atunci cnd nu putem prezice natura legturii dintre variabile i este recomandat pentru mai mult siguran); one-tailed (este folosit cnd avem o ipotez direcional sau putem prezice sensul legturii). Opiunea Flag... va asigura prezentarea datelor legate de pragul de semnificaie. Din butonul Option putem alege elemente de statistic descriptiv dar i modaliti de lucru n cazul valorilor lips: Exclude cases pairwise- elimin perechile de rezultate pentru care una din valori lipsete. Aceast opiune este mai des ntlnit. Exclude cases listwise- elimin din analiz un rnd ntreg dac lipsete doar una dintre valori. Dup Continue obinem rezultatul urmtor:
Correlations Beginning Salary Beginning Salary Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 1 . 474 .880** .000 474
Current Salary .880** .000 474 1 . 474
Current Salary
**. Correlation is significant at the 0.01 level (2-tailed).
n partea dreapt a tabelului se intersecteaz cele dou variabile. Vedem c corelaia dintre Beginning Salary i ea nsi este perfecta (r=1). Corelaia dintre Beginning Salary i Current Salary se dovedete a fi foarte puternic i de acelai sens (r=0.880). Pragul de semnificaie Sig. (2-tailed) este de 0.000 valoare care nu este un zero absolut ci n realitate doar o valoare foarte mic. Corelaia cuprinde n studiu un numr de 474 perechi de valori sau 474 cazuri. Pe diagonal observm n matrice aceleai rezultate. Sub tabel este specificat faptul c corelaia calculat este semnificativ la un prag de p= 0.01. n primul rand se observ c acest prag are proprietatea p<0.05 ceea ce ne arat c legtura dintre variabile este semnificativ*. n termeni de probabilitate putem spune c sunt 1% anse s ne nelm atunci cnd predicionm legtura dintre cele dou variabile (sau mrimea i sensul corelaiei). n termenii testrii statistice spunem c dac H0 este enunul variabilele nu sunt corelate iar H1 este enunul exist corelaie ntre cele dou variabile atunci sunt 1% anse s ne nelm atunci cnd respingem ipoteza de nul. Obs. Se pot obine i matrici de corelaie. De exemplu adugnd o a treia variabil educ (nivel educaional n ani de zile):
Correlations Beginning Educational Salary Current Salary Level (years) 1 .880** .633** . .000 .000 474 474 474 .880** 1 .661** .000 . .000 474 474 474 .633** .661** 1 .000 .000 . 474 474 474
Beginning Salary
Current Salary
Educational Level (years)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
O analiz deosebit de important privete limitele de ncredere pentru coeficientul de corelaie (sau a estimrii corelaiei la nivelul ntregii populaii din care provine eantionul studiat !). A se vedea pe larg n M. Popa, Statistic psihologic, Ed. Universitii Bucureti, 2004, pp. 100-102
*
Rezultatele se interpreteaz dou cte dou excluznd prima diagonal unde corelaiile sunt perfecte! n unele analize nu este prezentat dect partea de deasupra sau de dedesuptul acestei diagonale! VI.1 Coeficientul de variaie Dup cum am spus mai nainte corelaia nu se interpreteaz ca i o relaie cauzal deoarece nu se poate dovedi statistic care dintre variabile o influeneaz pe alta chiar dac uneori noi raionm n acest sens. Pe de alt parte n evoluia unei variabile pot interveni i alte variabile dect cele considerate n calculul corelaiei. Imaginea dependenei dintre dou variabile putem s o avem dup ce am analizat variana comun mprtit de acestea. Dac am avea dou variabile i am reprezenta grafic varianele lor prin dou diagrame circulare putem spune c partea din intersecia comun este varian comun mprtit: 70%
15%
15% Variabila 1 Variabila 2 Varian comun mprit
Cu ct suprafa interseciei este mai mare cu att variana comun mprtit este mai mare. In cazul nostru dac am nota suprafa interseciei cu 100% putem deduce c aproximativ 70% este varian comun restul de 30% nefiind comun. Variana comun ne d o informaie despre dependena dintre variabile: putem spune c 70% din variana unei variabile depinde de variana celeilalte (altfel spus ct la sut din variaia unei variabile se explic prin variaia celeilalte) iar 15% nu este varian mprtit sau este datorat influenei altor variabile. n general variana comun este calculat prin ridicarea la ptrat a coeficientului de corelaie dar se interpreteaz procentual. Se obin astfel valorile urmtoare [adaptat dup Ch. P. Dancey i J. Reidy (1999)]:
Coeficientul de corelaie r Ptratul coeficientului r2 Procentul varianei comun mprtite
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.00 0.01 0.04 0.09 0.16 0.25 0.36 0.49 0.64 0.81 1.00
0% 1% 4% 5% 16% 25% 36% 49% 64% 81% 100%
Se observ c de exemplu o corelaie care este foarte puternic de 0,8 desemneaz doar 64% din varian comun. De asemenea se observ c o corelaie de 0.8 este n realitate de patru ori mai puternic dect o corelaie de 0.4 (variana comun crete de la 16% la 64%). Aceste interpretri nu
trebuie ns vzute ca relaii de tip cauz-efect!
VI.2 Corelaie parial Din consideraiile de pn acum se deduce faptul c atunci cnd studiem corelaia dintre dou variabile poate exista i influena altor variabile care vor explica evoluia, variaia unei variabile. De exemplu o bun parte din mrimea salariului actual se poate explica prin mrimea salariului de debut dar pot exista i alte variabile care s influeneze remuneraia: nivel de motivaie, performana n munc, numrul de inovaii aduse procesului muncii etc. Se pune ns i problema relaiilor false dintre dou variabile cnd o corelaie puternic dintre dou variabile s depind n primul rnd de evoluia unei a treia variabile. De exemplu P. Lazarsfeld amintea de legtura care se fcea cndva ntre numrul mare de berze aprute undeva n nordul Franei i numrul de nateri n cretere. Cu alte cuvinte se putea obine o corelaie puternic ntre cele dou variabile, ceea ce ar fi explicat mitul berzelor aductoare de copii! Numai c relaia dintre variabile controlat de o a treia (denumit mediu) a artat c dac rata natalitii se pstra relativ ridicat n mediul rural, ea scdea semnificativ n mediul urban. Un alt exemplu, cunoscut n literatura de specialitate se referea la corelaia dintre apariia unui numr crescut de furnici n cutare de hran i numrul turitilor care au venit la mare pe plaj. Corelaia dintre fenomene se dovedete fals din moment ce ele sunt controlate de o a treia variabil cldura care va explica n final co-evoluia primelor dou. Vom calcula o corelaie parial plecnd de la baza de date World95 [pe larg i n SPSS Base 9.0 Application guide]. Vom analiza mai nti variabilele urban (People living in cities %) i birth_rt (Birth rate per 1000 people). Pentru nceput vom calcula corelaia simpl ntre cele dou variabile:
Correlations People living Birth rate per in cities (%) 1000 people 1 -.629** . .000 108 108 -.629** 1 .000 . 108 109
People living in cities (%)
Birth rate per 1000 people
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
Rezultatul ne arat o corelaie puternic de sens contrar (r = - 0.629) la un prag de semnificaie de 0.01. Ceea ce nsemn c cifrele nalte ale urbanizrii sunt nsoite de cifre sczute ale ratei natalitii. Se pune problema dac aceast corelaie rmne valid dac o controlm cu o a treia variabil. Am ales pentru control variabila log_gdp (logaritm zecimal din produsul intern brut/locuitor). Aceast variabil a fost obinut prin logaritmare din variabila gdp_cap dar sensul acesteia este acelai: gradul de prosperitate al unei ri oarecare. Aceast operaie a fost necesar pentru a normaliza distribuia variabilei i astfel pentru a putea intra n calculele de tip parametric!
Pentru a genera o corelaie parial vom urma comenzile urmtoare: Analyze CorrelatePartial dup care a va apare fereastra urmtoare:
n aceast fereastr am trecut n dreapta variabilele de studiat iar n rubrica Controlling for am trecut variabila de control. Din butonul Option pot fi selectate i alte elemente de statistic descriptiv i chiar matricea corelaiilor dintre toate cel trei variabile. Rezultatul corelaiei pariale este vizibil n urmtoarea situaia de mai jos. Se observ c corelaia dintre variabilele urban i birth_rt scade semnificativ la -0.11 aproape de zero ceea ce face ca relaia dintre variabile s se anuleze. Dac se ntmpl acest lucru spunem c influena variabilei de control este semnificativ i c fosta corelaie nu se mai pstreaz. Este ca i cum am spune c rata natalitii se va menine ridicat n zonele cu o populaie urban mai puin prosper. Dac coeficientul de corelaie rmnea aproximativ la fel atunci se considera c influena variabilei de control este neglijabil.
Obs: situaia de pn acum descrie corelaia parial de prim ordin. Se pot face ns i corelaii pariale de al doilea ordin atunci cnd introducem dou variabile de control. Pot urma chiar mai multe variabile de control. VI.3 Corelaia ca metod neparametric Dup cum am observat corelaia se leag de variabile exprimate cantitativ (prin numere). Aceste variabile pentru a putea fi tratate prin metode parametrice trebuie s ndeplineasc o serie de condiii (asumii). Dac aceste condiii nu sunt ndeplinite se recomand folosirea metodelor neparametrice deoarece n acest caz se va lucra cu poziiile valorilor respective i nu cu valorile n sine. Apelm la astfel de tehnici atunci cnd, de exemplu, variabilele de interes nu provin dintr-o populaie normal distribuit sau cnd anumite valori extreme (outliers) pot vicia rezultatele statistice. Practic se produce o trasnsformare a unor date numerice oarecare ntr-o variabil ordinal dar n care distanele dintre valori sunt
egale. De exemplu dac ntr-o serie avem 5 subieci cu salariile de 1,5; 2,3; 4,8; 3,9 i 25,4 milioane de lei, avnd n vedere distribuia seriei putem s le dm poziii acestora dup salariul respectiv: 5, 4, 2,3, 1. Aceste valori nu sunt cantitative dar genereaz o ordine exact ca i pe o scar de interval cu intervale egale. Pentru exemplificare s alegem variabilele age i educ din baza de date GSS93 subset. Vom observa c cele dou variabile sunt definite ca ordinale i vor mpri populaia n mai multe categorii. De exemplu cnd un subiect primete eticheta 10 pentru variabila educ asta inseamn c el intr n clasa celor cu 10 ani de studii. La fel se procedeaz i n variabila age. n acest caz este mai recomandat coeficientul Spearman ( ) care are aceleai valori ca i coeficientul Pearson. Dup aceleai etape i dup setarea coeficientului Spearman obinem rezultatul urmtor:
Correlations Highest Year Age of of School Respondent Completed Spearman's rho Age of RespondentCorrelation Coefficient 1.000 -.203** Sig. (2-tailed) . .000 N 1495 1491 Highest Year of Correlation Coefficient -.203** 1.000 School Completed Sig. (2-tailed) .000 . N 1491 1496 **. Correlation is significant at the 0.01 level (2-tailed).
Se observ c corelaia este = -0.203 i este semnificativ (p=0.01). Corelaia este slab i de sens contrar. n astfel de cazuri se recomand chiar folosirea unui al treilea coeficient Kendall ( ). El este util mai ales cnd exist foarte multe valori care c aib acelai rang. n cazul nostru de exemplu 55 de subieci au poziia 10 (ani de studiu) n timp ce poziia 12 (12 ani de studiu) este destinat la 445 de subieci dintr-un eantion de 1500. Se poate deci calcula i acest coeficient:
Correlations Highest Year Age of of School Respondent Completed Kendall's tau_b Age of RespondentCorrelation Coefficient 1.000 -.142** Sig. (2-tailed) . .000 N 1495 1491 Highest Year of Correlation Coefficient -.142** 1.000 School Completed Sig. (2-tailed) .000 . N 1491 1496 **. Correlation is significant at the 0.01 level (2-tailed).
Se observ c corelaia este = -0.142 i este semnificativ (p=0.01). Corelaia este slab de sens contrar. Avnd n vedere condiiile de aplicare se poate spune c acest coeficient este mai
fidel n a reflecta corelaia dintre variabile. Este deci important de a analiza atent variabilele pentru a aplica mai apoi testarea corelaiei.
VII. Regresia Dup cum am vzut analiza corelaiei dintre variabile dispune i de metode grafice. Se pleac de la ideea c, de exemplu un subiect statistic, din moment ce are valoarea xi pentru variabila X i valoarea yi pentru variabila Y, atunci acestea se pot reprezenta n plan, ntr-un sistem de coordonate, rezultnd astfel un nor de puncte. S-a pus apoi problema de a se gsi ecuaia unei drepte sau a unei curbe care s aproximeze ct mai bine acest nor sau s treac ct mai aproape de acest nor. Grafic se consider c axa OX este a variabilei independente iar axa OY a celei dependente. Dac lum un exemplu de lucru din programul SPSS atunci am vzut c exist posibilitatea vizualizrii dreptei de corelaie mai precis a dreptei de regresie. Fie baza de date World95 i s calculm corelaia dintre variabilele lifeexpf i lifeexpm. Se obine foarte uor un coeficient de corelaie r = 0,982 ceea ce denot o corelaie foarte puternic i de acelai sens pentru p=0.01. Pentru reprezentarea grafic putem apela la comenzile deja cunoscute Graphs Scatter Simple Define etc. Dup ce am obinut graficul se poate intra n Chart Options dup care apare fereastra urmtoare n care este setat opiunea Fit Line Total :
90
80
Average female life expectancy
70
60
50
40 40 50 60 70 80
Average male life expectancy
Dup cum se observ dreapta din imagine traverseaz norul de puncte aproximnd destul de bine ntreaga mulime a punctelor respective fiind o imagine a relaionrii (dependenei) dintre variabile. Metoda folosit pentru a analiza dependena dintre variabile n acest mod poart denumirea de regresie iar curba (dreapta) respectiv se numete curb de regresie. n funcie de numrul factorilor care influeneaz variabila dependent se disting: regresia simpl (unifactorial) i regresia multipl (multifactorial). n cadrul acestui capitol ne vom mrgini doar la regresia unifactorial. Iat dou exemple de legturi exprimate grafic:
yi* yi
xi Din aceste grafice se observ c o dreapt sau o curb poate aproxima destul de bine un nor de puncte i bineneles msura n care cele dou variabile sunt corelate. De asemenea trebuie precizat c pentru fiecare xi din seria statistic corespunde un yi, cel real dar i un yi* adic valoarea care corespunde pe dreapta sau curba de regresie. Scopul msurrilor n cazul regresiei este acela de a gsi ecuaia dreptei (curbei) pentru care suma distanelor yi yi* este minim ( se poate demonstra de fapt c acea dreapt sau curb este unic). VII.1. Dreapta de regresie Dup cum am spus, ne vom ocupa aici doar de regresia simpl liniar urmnd ca lectorii interesai s parcurg n continuare n volumele de specialitate regresia multiliniar ct i regresia non-liniar (graficul nu este o dreapt). Amnunte despre aceste teme se pot gsi n capitolele 8 i 9 din T. Rotariu [1999]. Dup cum am spus, principiul aflrii ecuaiei dreptei de regresie pleac de la minimizarea unei expresii de tipul R = ( yi yi*)2, aceast expresie reprezentnd suma tuturor diferenelor dintre valorile reale ale seriei i cele ateptate (de pe dreapta de regresie), ridicarea la ptrat fcndu-se pentru a nu apare n plus problema semnului acestor diferene. O alt problem este aceea a determinrii ecuaiei unei drepte de tipul y* = a + bx , determinare care nseamn n fapt calcularea celor doi parametri a i b. n acest moment putem nlocui n prima relaie expresia lui y*. Va rezulta relaia: R = ( yi a bxi )2 S-a obinut practic o ecuaie cu dou necunoscute al crei minim nseamn anularea celor dou derivate pariale dup a i b. Se obin astfel dou ecuaii care formeaz un sistem: na + b x = y a x +b x2 = xy
Evident c determinnd a i b ecuaia dreptei respective este complet determinat: y* = a + bx, formul n care coeficientul a (pozitiv sau negativ) reprezint valoarea ecuaiei cnd x=0 sau punctul prin care este intersectat axa OY. Coeficientul b (coeficient de regresie) semnific cum se modific n medie variabila dependent n cazul n care variabila independent variaz cu o unitate, evident admind c ntre cele dou variabile exist o relaie de dependen. Dac coeficientul b > 0 sau b< 0 corelaia este fie direct fie invers (cnd valorile unei variabile cresc valorile celeilalte descresc) iar cnd b =0 variabilele sunt independente ntre ele. Aceste cazuri se pot reprezenta grafic foarte simplu ca i n cazul corelaiei:
b> 0 Exemplu:
X 1 2 3 4 5 6 21 Y 3,8 4,6 5,7 6,9 8,0 9,0 38 x2 1 4 9 16 25 36 91
b<0
xy 3,8 8 27 64 40 216 396,8
n tabelul de mai sus observm c am calculat mrimile care apar chiar n sistemul de ecuaii stabilit anterior. Le nlocuim i obinem: a + b 21 = 38 a 21 + b 91 = 396,8 de unde a= 61,9 i b = -1,14 Ecuaia de regresie este y = 61,9- 1,14x Se pune problema n ce msur ajustarea dat de aceast ecuaie este fidel pentru c dac nlocuim valorile lui x n aceast ecuaie obinem cu totul alte valori care constituie practic o serie ajustat, teoretic: x = 1 y = 60,76 x = 2 y = 59,62 x = 3 y = 58,48 x = 4 y = 57,34 x = 5 y = 56,2 x=6 y = 55,06
Se poate verifica fidelitatea ajustrii prin calcularea coeficientului de variaie a ajustrii care se exprim n procente i nu trebuie s depeasc 5% pentru ca ajustarea s fie optim. cv =
Y 3,8 4,6 5,7 6,9 8,0 9,0 Media=6,3
Sy y
100
y* 60,76 59,62 58,48 57,34 56,20 55,06
Sy =
2 1 ( y y* ) n
y y* -56,96 -55.02 -52.78 -50.44 -48.20 -46.06
(y y *) 2 3244.4 3027.2 5812.9 2544.1 2323.2 2121.5
Cu ajutorul acestui tabel putem calcula Sy i Cv pentru a vedea valoarea acestuia i a-l compara cu pragul de 5% ! Obs1. n calculele de mai sus Sy reprezint abarea medie a valorilor msurate fa de valorile indicate prin dreapta de regresie. ns statisticienii s-au ntrebat dac se poate face o legtur cu abaterea medie ptratic n general a seriei respective! Dup cum vom observa i n T. Rotariu [1991; 183-184] s-a ajuns la o formul foarte simpl care face legtura de care vorbeam :
2 2 2 = Sy + r 2 y
n aceast formul abaterea medie ptratic general care trebuie explicat este egal cu abaterea medie a valorilor seriei fa de cele ale dreptei de regresie (aceasta fiind variana neexplicat) la care se adaug un termen ce sintetizeaz variana punctelor de pe dreapta de regresie n jurul mediei i care reprezint partea din variana variabilei dependente explicat de variabila independent). Reprezentarea grafic a acestor mrimi simplific modul lor de nelegere (a se vedea n E. Jaba, 2004; 237):
Se observ i notaiile aferente : VT= variana total, VE=variana explicat, VR=variana rezidual. Suma ultimelor dou apare clar n cea de a patra figur. Se observ c pentru un punct oarecare al seriei (yi) exist un corespondent n variabila independent (xi). Punctul respectiv din plan (xi , yi ) are o abatere total compus din abaterea fa de medie i abaterea fa de dreapta de regresie. Extras din formula de mai sus coeficientul r2 (notat deseori i R2) se mai numete coeficient de determinaie, ia valori ntre 0 i +1 iar n termeni procentuali el i denot ct la sut din variana variabilei dependente se explic prin variana variabilei independente. Restul pn la 100% este reprezentat de variana neexplicat. Obs.2 : n cazul acestei ajustri se observ c b< 0 deci exist o corelaie invers ntre variabile. Obs. 3 : numeroi autori atrag atenia asupra faptului c studiul corelaiei i regresiei trebuie s fie foarte judicios interpretat deoarece dou variabile pot fi corelate dar nu este obligatoriu s avem imediat o semnificaie explicativ sau cauzal. Exist deci i ceea ce s-a numit corelaie aparent atunci cnd de exemplu o variabil se modific de fapt sub influena unei alte variabile necunoscute (variabil test). Numai analiza de regresie poate sugera o eventual relaie de cauzalitate. Obs. 4 : Calcularea coeficienilor de regresie de mai sus se face ntotdeauna cu o anumit probabilitate deoarece se pleac ndeobte de la eantioane. Putem spune, deci, c aceste valori sunt estimri punctuale ale unui model general de regresie de tipul: Y = + X + , formul n care i au aceleai semnificaii ca i coeficienii a i b iar nu reprezint altceva dect o variabil aleatoare de eroare sau reziduu (explicat prin influena altor variabile dect cele introduse n model). Generalizarea trebuie s in cont de faptul c i se gsesc n urmtoarele intervale de ncredere : (a t p SDa ; a + t p SDa ) ; (b t p SDb ; b + t p SDb ) . Limitele acestor intervale pleac de la valorile a i b la care se adaug sau se scad produsul dintre valorile tp (care sunt de fapt valorile din distribuia teoretic t-Student pentru un prag 2p de semnificaie i un numr n-2 de grade de libertate) i SDa,b erori standard ale coeficienilor a i b. La rndul lui i coeficientul de corelaie r poate fi de ajutor pentru a estima un coeficient general de corelaie. Prin astfel de calcule se caut un interval de ncredere pentru i se urmrete dac originea este inclus n interval (n cazul n care =0 se tie c variabilele sunt independente) ; dac intervalul nu conine i originea atunci se trage concluzia c pentru un anumit prag de semnificaie variabila dependent este semnificativ influenat de variabila independent. Obs. 5 Distanele de la punctele din plan la dreapta de regresie (de fapt segmentele care intersecteaz dreapta de regresie i sunt perpendiculare pe axa OX) se mai numesc reziduuri i reprezint ceea ce nu este explicat n model prin variabilele alese. Se cere imperios ca aceste reziduuri s fie analizate grafic cu toat atenia. *** Pentru a calcula elementele dreptei de regresie prin intermediul programului SPSS vom recurge la comenzile AnalizeRegressionLinear dup care vom considera dou variabile consacrate n manualele de profil i anume cele numite salary i salbegin din baza de date
Employee Data. Dup parcurgerea comenzilor StatisticsRegressionLinear se obine fereastra urmtoare :
Se observ n aceast fereastr cele dou variabile importante ale analizei specificate fiecare ca fiind dependent sau independent. Metoda de analiz este Enter (o variant general de studiu a regresiei) dup care putem s alegem i alte instrumente de lucru din ultimile butoane orizontale. Exist i opiunea de a restriciona cercetarea de exemplu doar pentru subiecii care au cel puin 12 ani de coal (se trece variabila Educational Level n rubrica Selection Variable i apoi se pune condiia respectiv din butonul Rule). Prin apsarea pe butonul Statistics obinem fereastra urmtoare: Cele mai uzuale setri n aceast fereastr sunt: Estimates (se estimeaz coeficienii din regresie ai variabilei independente), Confidence interval (la un prag de semnificaie de 0.05 se estimeaz intervalele ntre care coeficienii de regresie sunt valizi), Model Fit (estimeaz coeficienii R, R2 etc. i spune dac modelul propus este viabil ; dac modelul nu este viabil orice alt analiz nu este acceptabil) iar Descriptives (calculeaz Mean, Standard Deviation etc. pentru variabile).
Dac se aleg setrile de mai nainte se poate aciona butonul Continue apoi vom alege butonul Plots rezultnd fereastra urmtoare : Se observ c am ales n aceast fereastr o serie de reprezentri grafice utile: zpred i zresid, dou opiuni pentru valorile normalizate predictive i pentru valorile reziduale normalizate i care pot da informaii preioase privind eficiena modelului (se cere de exemplu ca distribuia reziduurilor s fie normal etc.). Nu vom insista ns n acest volum pe semnificaia acestor grafice. Ct privete comanda Regression Save va apare fereastra din imagine n care dac sunt setate variantele Unstandardized Predicted Values (se refer la valorile predicionate de ctre modelul statistic pentru fiecare caz n parte) i Unstandardized Reziduals (se afieaz valoarea efectiv din cadrul variabilei dependente din care s-a sczut valoare predicionat de ctre modelul de regresie) vom observa c n baza de date apar noi variabile cu semnificaiile specificate mai nainte. Prediction interval se refer la limitele intervalelor n care sunt predicionate media i valorile individuale la un interval de ncredere de 95%. Iat cum vor arta noile variabile din baza de date aici numite pre_1 i res_1 :
Rezultatele din Output se prezint ca n imaginile urmtoare i plecnd de la acestea s adoptm apoi interpretrile asupra modelului.
b Variables Entered/Removed
Model 1
Variables Entered Beginning a Salary
Variables Removed .
Method Enter
a. All requested variables entered. b. Dependent Variable: Current Salary
Se vede din prima configuraie care sunt variabilele intrate n model: beginning i current salary. Urmeaz s citim valoarea lui Sig. din tabelul ANOVA de mai jos. Din moment ce valoarea este mai mic de 0.05 atunci modelul propus este bun n sensul c putem presupune doar cu o ans de a ne nela de maximul 0.05 c variabila dependent este n mod semnificativ explicat de ctre variabila independent. n exemplul nostru p=0.000 ceea ce ne asigur de potrivirea (goodness of fit) a modelului. n tabelul alturat Model Summary revedem precizat tipul de variabile care intr n model .
Model Summaryb Adjusted R Square .774 Std. Error of the Estimate $8,115.356
Model 1
R .880a
R Square .775
a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary
De asemenea vom depista valorile R Square= 0.775 i Adjusted R Square= 0.774 (care ne arat proporia din variana variabilei dependente explicat de variana din variabila independent) precum i dispersia n cadrul variabilei dependente (estimat).
b
ANOVA Sum of Squares Regression Residual Total 1.07E+11 3.11E+10 1.38E+11
Model 1
df 1 472 473
Mean Square 1.068E+11 65858997.22
F 1622.118
Sig. .000a
a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary
Coefficients Unstandardized Coefficients Model 1 (Constant) Beginning Salary B 1928.206 1.909 Std. Error 888.680 .047
Standardized Coefficients Beta .880 t 2.170 40.276 Sig. .031 .000
a. Dependent Variable: Current Salary
n tabelul Coefficients vom putea identifica coloana B unde este specificat influena variabilei independente cu un anumit grad de ncredere a acestei influene (a se vedea coloana Sig.). Ca de obicei valoarea respectiv trebuie s fie mai mic de 0.05 (unii analiti ofer totui o marj de pn la 0.1 prag peste care nu se poate admite estimarea respectiv).
Valoarea de 1.909 este de fapt coeficientul de regresie n timp ce valoarea de 0.880 (Standardized coefficient) reprezint coeficientul de corelaie Pearson. Valorile din coloana B sunt de ajutor pentru a scrie ecuaia de regresie : Current sallary = 1928.2+1.9* beginning salary n acest moment putem trage urmtoarea concluzie: modelul propus urmrete predicia salariului actual n funcie de salariul de nceput. Rezultatul obinut este semnificativ statistic deoarece F=1622 la un prag de semnificaie p< 0.001. Ecuaia relaiei dintre variabile este sallary = 1928.2+1.9* salbegin. Se mai observ c Adjusted R Square= 0.774 ceea ce justific faptul c o mare parte a varianei variabilei dependente este explicat de variana variabilei dependente. Obs6. Atragem atenia c restul varianei variabilei dependente este datorat altor variabile. De asemenea precizm c valoarea de 1.9 reprezint sporul valoric n variabila dependent dac variabila independent ar crete cu o unitate. Din modelul prezentat deducem c salariul iniial este un bun predictor al salariului actual ns nu este singurul. Putem deduce c i alte variabile precum nivel de interes, numr de inovaii etc. pot justifica i ele creterea salarial. Cu toate acestea ponderea cea mai mare o are salariul de nceput. Obs7. Revenind la o imagine anterioar n care am precizat noile variabile care apar n baz acum putem preciza c variabila pre_1 este valoarea prezis prin intermediul ecuaiei de regresie n timp ce variabila res_1 nu conine dect valorile diferenelor dintre cele ale variabilei salary i pre_1 (sau reziduurile) :
Obs. 7. Principiile de lucru enunate pn acum se pstreaz i n cazul regresiei multiple atunci cnd variabilele independente sunt mai multe. Vom dezvolta i aceast problematic ntr-un viitor volum. Alte precizri pe aceast tem se gsesc i n bibliografia indicat n acest volum.
VIII. Asocierea variabilelor calitative (nominale) Dac pentru variabilele cantitative vorbim de corelaie atunci pentru variabile categoriale (calitative) vorbim de asociere. Exemple de astfel de variabie sunt foarte frecvente n analizele sociale: sexul respondenilor, religia respondenilor, statut marital, aprecierea despre eful direct (1. foarte bun, 2. bun, 3.proast, 4. foarte proast, 5. ns/nr), etc. n toate aceste variabile subiecii sunt mprii n mai multe categorii dup o caracteristic sau rspuns dat cu precizarea c fiecare subiect va intra ntr-o singur categorie. Se pune deci problema de a vedea n ce msur dou variabile de acest fel sunt asociate. De exemplu dac sexul respondenilor influeneaz opinia despre eful direct. Datele obinute n urma anchetelor sau cercetrilor se introduc n ceea ce se numete tabel de contingen asemntor cu o matrice n care pe linie intr categoriile unei variabile iar pe coloan categoriile celeilalte variabile. n aceste condiii fiecare celul este la intersecia a dou variante de rspuns din cele dou variabile. n general se disting mai multe ci de a studia asocierea: -cnd ne referim doar la o singur variabil -cnd ne referim la dou variabile dihotomice -cnd ne referim la asocierea dintre variabile cu mai mult de dou categorii. Ne propunem n continuare s ne ocupm de problematica asocierii dar numai pentru variabile categoriale nominale cei interesai putnd urmri tematica pentru variabile ordinale i din bibliografia anexat cursului. Cnd ne referim doar la o singur variabil analizm practic o grupare de subieci dup diverse valori nominale sau ordinale ale unei variabile. Ideea este de a compara frecvenele observate cu o serie de valori impuse de cercettor i care sunt considerate valori teoretice. S analizm un exemplu din baza de date GSS 93 subset. Una din variabile este opera i reprezint rspunsurile subiecilor privitoare la acest gen muzical. Se pune ntrebarea dac respondenii au o prere format despre acest gen muzical. Se va apela la comenzile AnalyzeNonparametric Tests Chi-Square Test: Dup ce am trecut variabila de interes n dreapta putem alege variante privind valorile teoretice. Astfel vom alege opiunea All categories equal care ar fi situaia teoretic n care toate variantele de rspuns sunt egale cantitativ. Pot fi alese i alte cofiguraii teoretice prin opiunea ValuesAdd sau date de anumute ranguri (Use specified ranges). Facem precizarea c situaia teoretic descrie n fapt situaia de independen cnd toate variantele de rspuns ar fi indicate de acelai numr de subieci. Faptul c frecvenele
observate (cele din teren) nu coincid cu cele teoretice ne poate da o sugestie privind preferina pentru acest gen muzical. Rezultatele sunt urmtoarele:
Opera Like Very Much Like It Mixed Feelings Dislike It Dislike Very Much Total Observed N 66 239 332 480 293 1410 Expected N 282.0 282.0 282.0 282.0 282.0 Residual -216.0 -43.0 50.0 198.0 11.0
Test Statistics Chi-Square a df Asymp. Sig. Opera 320.319 4 .000
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 282.0.
Se observ variaiile scorurilor obinute fa de situaia teoretic: cei ce declar Like Very Much sunt cei mai puini iar cei mai muli declar contrariul ( Dislike Very Much). Frecvenele teoretice se distribuie n mod egal prin mprirea celor 1410 de variante de rspuns la 5 posibile rspunsuri n mod egal. n partea a doua se observ c pragul de semnificaie este foarte mic (Asymp. Sig. =0.000) ceea ce denot c valoarea testului este semnificativ deci respondenii au o prere format despre muzica de oper. Din pcate cei mai muli resping acest gen muzical.
Cazul a dou variabile dihotomice (ambele cu cte dou valori) este tratat pe larg n T. Rotariu (1999; 121-133) i de aceea vom face doar cteva precizri sumare. S construim un tabel de contingen plecnd de la variabilele a1 (Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit?) i sex0 (sexul respondenilor) din baza de date BOP_mai2003_Gallup. sav. Tabelul respectiv se obine dup comenzile Analyze Descriptive StatisticsCrosstabs dup ce n prealabil am considerat valorile care nu sunt principalele dou variante de rspuns ca fiind valori lips:
Dup ce trecem cele dou variabile n dreapta ca definind liniile (rows) i colooanele (columns) vom apela la butonul Cells pentru o serie de opiuni suplimentare:
Se observ c am selectat apoi opiunile Observed, Expected precum i procentajele pe linii (Percentages Rows). Se mai pot alege opiuni privind reziduurile care nu sunt altceva dect diferenele ntre frecvenele observate i cel ateptate. Dup ContinueOK tabelul este urmtorul:
Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit? * Genul (respondent) Crosstabulation Genul (respondent) masculin feminin 383 367 358.9 391.1 51.1% 511 535.1 45.7% 894 894.0 47.9% 48.9% 607 582.9 54.3% 974 974.0 52.1%
Credei c n ara noastr lucrurile merg ntr-o direcie bun sau ntr-o direcie greit?
direcia este bun
direcia este greit
Total
Count Expected Count % within Credei c n ara noastr... Count Expected Count % within Credei c n ara noastr... Count Expected Count % within Credei c n ara noastr...
Total 750 750.0 100.0% 1118 1118.0 100.0% 1868 1868.0 100.0%
Datele din astfel de tablouri sunt relativ simplu de interpretat. Astfel 389 (51%) dintre respondenii care cred c direcia este bun sunt de gen masculin i la fel 511 (45,7%) dintre cei ce cred c direcia este greit. Se observ c totalul cazurilor valide este de 1868 persoane din care 894 brbai i 974 femei. n fiecare celul se gsesc i valorile numite Expected, valori teoretice care corespund situaiei cnd cele dou variabile sunt independente. Atunci cnd analizm problematica asocierii de fapt urmm raionamentul unei ipoteze statistice: H0: variabilele calitative nu sunt asociate H1: variabilele sunt asociate. Pentru msurarea asocierii dintre cele dou variabile se folosete testul 2 . Acest test se bazeaz pe diferenele calculate dintre dou tipuri de date: cele ateptate (teoretice) care reprezint situaia de independen dintre variabile i cele observate (obinute n urma cercetrii efective). Conform formulei de calcul 2 este o mrime care se obine din suma ptratelor diferenelor dintre frecvenele observate (fo) i i cele teoretice (ft) mprite la ( f f )2 frecvenele teoretice: 2 = o t . Se pleac de la ideea c cu ct acest coeficient este ft mai mic cu att cresc ansele ca variabilele s fie independente i cu ct coeficientul este mai mare cu att mai sigur variabilele sunt asociate. Pentru c aceste aprecieri au nevoie de intervale precise de fapt se impune compararea valorilor coeficientului cu alte valori, considerate teoretice i care se gsesc n tabele statistice speciale. De fapt se ajunge la reformularea ipotezei statistice de care vorbeam: 1. Dac 2 calculat < 2 teoretic atunci resping H0 i admit H1 2. Dac 2 calculat > 2 teoretic atunci resping H1 i admit H0.
Aceste raionamente trebuie s in seama de urmtoarele condiii: a. relaiile de mai sus se specific pentru un anumit prag de semnificaie b. trebuie avute n vedere gradele de libertate ale tabelului de contingen. Se noteaz cu df (degree of freedom) i se calculeaz cu formula: df= (n-1)(m-1), unde n este numrul de linii ale tabloului iar m numrul de coloane. c. n tabloul de contingen trebuie s nu existe celule n care valoarea frecvenelor ateptate (Expected Count) s fie mai mici de 5. n unele calcule se cere ca numrul acestor cazuri s fie mai mic de 20%. Reducerea numrului de cazuri este ns foarte important: dac crete mrimea tabelului de contingen i invariabil crete i coeficientul 2 ! d. valorile teoretice (sau critice) ale coeficientului sunt cele din urmtoarea list:
Df\ Praguri semnif
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
.10 2.71 4.60 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26
.05 3.84 5.99 7.82 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.88 40.11 41.34 42.56 43.77
.02 5.41 7.82 9.84 11.67 13.39 15.03 16.62 18.17 19.68 21.16 22.62 24.05 25.47 26.87 28.26 29.63 31.00 32.35 33.69 35.02 36.34 37.66 38.97 40.27 41.57 42.86 44.14 45.42 46.69 47.96
.01 .001 6.64 10.83 9.21 13.82 11.34 16.27 13.28 18.46 15.09 20.52 16.81 22.46 18.48 24.32 20.09 26.12 21.67 27.88 23.21 29.59 24.72 31.26 26.22 32.91 27.69 34.53 29.14 36.12 30.58 37.70 32.00 39.25 33.41 40.79 34.80 42.31 36.19 43.82 37.57 45.32 38.93 46.80 40.29 48.27 41.64 49.73 42.98 51.18 44.31 52.62 45.64 54.05 46.96 55.48 48.28 .56.89 49.59 58.30 50.89 59.70
Se obsev n acest tabel pe prima linie orizontal pragurile de semnificaie de las 0.1 la 0.001. Pe prima coloan se gsesc gradele de libertate. Valoarea critic a lui 2 se citete la intersecia unui prag de semnificaie i a unui anumit numr de grade de libertate. Se compar apoi valoarea coeficientului cu valoarea calculat (de ctre computer) i se urmrete raionamentul de mai sus. Pentru a calcula coeficientul 2 vom apela n fereastra de mai sus la butonul Statistics i vom alege doar varianta Chi-Square din colul din stnga sus apoi ContinueOK:
Chi-Square Tests Value 5.168b 4.955 5.168 df 1 1 1 Asymp. Sig. (2-sided) .023 .026 .023 Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square Continuity Correction Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases
.023 5.165 1 .023
.013
1868 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 358.94.
Rezultatul se interpreteaz din acest tabel. Coeficientul 2 =5,168 pentru 1 grad de libertate i un prag de semnificaie de 0.023 (Asymp. Sig). Programul mai calculeaz un coeficient de corecie care se aplic de obicei cnd exist celule cu valori teoretice mai mici dect 5; un coeficient echivalent cu primul (Likelihood Ratio) apoi un gen de corelaie care nu este semnificativ aici (Linear-by-Linear Association). Distingem valorile testului Fisher (ale crui valori le vom detalia n continuare) care confirm lipsa asocierii. Sunt precizate numrul de cazuri valide (aici 1868) iar la final se precizeaz cte celule au valori ateptate n numr mai mic dect 5. Valoarea lui 2 =5,168 se compar cu cea din tabelul de mai nainte i anume cu valoarea 5,41 (pentru df=1 i p=0.02). Deducem urmtoarele: 2 calculat=5,168< 2 teoretic=5,41 din care cauz vom respinge H1 i admitem H0. n concluzie nu exist o asociere ntre sexul respondenilor i aprecierea privind direcia de dezvoltare a rii sau altfel spus nu avem diferene majore n rspunsurile respondenilor difereniate dup sexul acestora. 13.1. Sensul i intensitatea asocierii Coeficientul 2 poate atesta prezena asocierii dar nu i intensitatea sau sensul acesteia. Tocmai de aceea se folosesc i ali coeficieni pentru o astfel de analiz. Iat pentru nceput unii coeficieni utili pentru cazul a dou variabile dihotomice nominale: nk k k 1. Coeficientul = 11 1. .1 n care k11 este frecvena observat din celula 11 iar k1. k 2. k.1 k.2 celelalte sunt frecvene marginale (cele ce sunt sumele pe linii i pe coloane ale frecvenelor 2 . n aceast ultim din tabel). Acelai coeficient se mai calculeaz cu formula = n formul 2 este o mrime care se obine din suma ptratelor diferenelor dintre frecvenele observate (fo) i i cele teoretice (ft) mprite la frecvenele teoretice: =
2
. ft Dac >0 tendina datelor este s se grupeze pe diagonala principal caz n care exist o asociere pozitiv ntre variabile. Asocierea este negativ dac <0.
( f o f t )2
k11 k 22 k12 k 21 i ia valori n k11 k 22 + k12 k 21 intervalul [-1, +1]. Interpretarea este asemntoare cu aceea de la corelaie (pentru Q=0 situaia este de independen). 3. Coeficientul Y al lui Yule, pe care nu l mai detaliem aici i care are valori tot ntre [-1,+1]. 2. Coeficientul Q al lui Yule are formula urmtoare: Q= Pentru variabile categoriale cu mai mult de dou variante se impun i ali coeficieni: 1. Coeficientul de contingen (C) ia valori n intervalul [0,1] i are formula: 2 C= , formula n care n este volumul eantionului. 2 +n Acest coeficient dac e aplicat n cazul a dou variabile dihotomice are valoarea maxima de 0,707. Aceast valoare crete apoi odat cu creterea tabelului de contingen darn u va atinge niciodat valoare 1 deoarece fracia de sub radical este subunitar. T. Rotariu [1999;135] recomand folosirea acestui coefficient pentru tabele mari. Oricum dac C1 atunci asocierea dintre variabile este puternic iar dac C0 asocierea este slab. 2. Coeficientul V (Cramer) ia valori tot n intervalul [0,1] interpretarea fiind aceeai. Formula de calcul este urmtoarea: 2 V= , formula n care s*=min (n,m) adic minimul din nr. de linii/coloane. n(s 1) 3. Coeficientul (Goodman i Kruskal) ia valori n intervalul [0,1] dar interpretarea lui este diferit: el urmrete proporia cu care se reduc erorile prin introducerea variabilei independente. Dac tinde la 0 atunci variabila independent nu are un aport n predicia variabilei dependente. Dac tinde la 1 atunci aportul n predicie este mare. O variant este coeficientul cu interpretri apropiate. 4. Coeficientul de incertitudine U se mai numete coeficientul de entropie i ia valori n intervalul [0,1]. El reprezint procentul de reducere a a erorilor de interpretare a variaiei variabilei dependente cnd acioneaz variabila independent (variana este definit n termeni de entropie sau grad de nedeterminare dat de plasarea subiecilor n categoriile din tabelul de contingen) . dac U0 variabila independent nu explic variana celei dependente situaia fiind opus dac U1. Vom ncerca s aplicm i aceti din urm coeficieni la o analiz pentru variabile nominale cu mai mult de dou categorii. Din baza de date GSS93 subset vom analiza asocierea dintre variabilele marital status i life: ne intereseaz dac rasa respondenilor influeneaz opinia despre via n general. Marital status are cinci categorii iar variabila life [Is life exciting or dull?] are i ea trei variante principale (exciting, routine i dull). Vom urma aceleai comenzi: Analyze Descriptive StatisticsCrosstabs i vom opta i pentru cei patru coeficieni din fereastra Statistics: Contingency Coefficient, Phi and Cramers V, Lambda i Uncertainty coefficient. Rezultatele sunt urmtoarele:
Case Processing Summary Cases Missing N Percent 504 33.6%
Valid N Percent Marital Status * Is Life Exciting or Dull 996 66.4%
Total Percent 100.0%
1500
Se observ c au fost procesate un numr de 995 cazuri valide iar 504 au fost considerate lips.
Marital Status * Is Life Exciting or Dull Crosstabulation Is Life Exciting or Dull Routine Exciting 21 241 251 33.5 236.4 243.1 4.1% 47.0% 48.9% 54 51.2 48.6% 74 68.7 49.7% 11 11.5 44.0% 79 91.2 39.9% 459 459.0 46.1% 40 52.6 36.0% 65 70.6 43.6% 8 11.8 32.0% 108 93.8 54.5% 472 472.0 47.4%
Dull Marital Status married Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Count Expected Count % within Marital Status Total Count Expected Count % within Marital Status
Total 513 513.0 100.0% 111 111.0 100.0% 149 149.0 100.0% 25 25.0 100.0% 198 198.0 100.0% 996 996.0 100.0%
widowed
17 7.2 15.3% 10 9.7 6.7% 6 1.6 24.0% 11 12.9 5.6% 65 65.0 6.5%
divorced
separated
never married
Chi-Square Tests Value 39.220a 31.911 .034 996 df 8 8 1 Asymp. Sig. (2-sided) .000 .000 .854
Symmetric Measures
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
Nominal by Nominal N of Valid Cases
Phi Cramer's V Contingency Coefficient
Value .198 .140 .195 996
Approx. Sig. .000 .000 .000
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
a. 1 cells (6.7%) have expected count less than 5. The minimum expected count is 1.63.
Directional Measures
Nominal by Nominal
Lambda
Goodman and Kruskal tau Uncertainty Coefficient
Symmetric Marital Status Dependent Is Life Exciting or Dull Dependent Marital Status Dependent Is Life Exciting or Dull Dependent Symmetric Marital Status Dependent Is Life Exciting or Dull Dependent
Value .026 .000 .050 .009 .011 .015 .012 .018
Asymp. a Std. Error .016 .000 .030 .004 .005 .006 .005 .007
Approx. T 1.640 .c 1.640
Approx. Sig. .101 .c .101 .000d .004

d
2.639 2.639 2.639
.000e .000e
e
.000
a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Cannot be computed because the asymptotic standard error equals zero. d. Based on chi-square approximation e. Likelihood ratio chi-square probability.
Symmetric Measures Value Approx. Sig. Phi .198 .000 Cramer's V .140 .000 Contingency Coefficient .195 .000 N of Valid Cases 996 Nominal by Nominal a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis.
Observm calculat=32,2> teoretic=26,1 pentru 8 grade de libertate i p=0.000. Acceptm ipoteza H1 deci variabilele sunt asociate. Intensitatea asocierii este totui slab (C=0.190;V=0.140) iar direcia presupus de var independent marital status explicnd var. dependent life este mai plauzibil ( =0.05> =0.00 sau =0.011> =0.009). Se observ de asemenea valorile mici pentru coeficientul U.
2 2
13.2 Asocierea i raporturile de anse (odds ratio) Cu ajutorul tabelului de contingen se poate analiza ansa (probabilitatea) ca un anumit fenomen s se petreac. Dac un fenomen, s spunem, are o probabilitate p de apariie atunci prin ans se nelege raportul p/ (1-p). Dintr-un exemplu anterior vom spune c exist probabilitatea de 0.511 ca subiecii care cred c direcia este bun s fie brbai. Altfel ansa ca un intervievat s fie brbat a fost 511/(1-0.511)= 1.04. S analizm aceast problematic plecnd de la baza de date GSS93 subset i de la dou variabile sex i gunlaw (acordul sau dezacordul portului armei). Dup ce am transferat variabilele pe linie i coloan din fereastra statistics alegem doar Chi-square i Risk:
Respondent's Sex * Favor or Oppose Gun Permits Crosstabulation Favor or Oppose Gun Permits Favor Oppose 314 111 350.3 73.9% 497 460.7 88.9% 811 811.0 82.4% 74.7 26.1% 62 98.3 11.1% 173 173.0 17.6%
Respondent's Sex
Male
Female
Total
Count Expected Count % within Respondent's Sex Count Expected Count % within Respondent's Sex Count Expected Count % within Respondent's Sex
Total 425 425.0 100.0% 559 559.0 100.0% 984 984.0 100.0%
Risk Estimate
Chi-Square Tests Asymp. Sig. Exact Sig. Exact Sig. (2-sided) (2-sided) (1-sided) 1 .000 1 .000 1 .000 .000 .000
Value Pearson Chi-Square 37.622b a 36.592 Continuity Correction Likelihood Ratio 37.417 Fisher's Exact Test Linear-by-Linear 37.584 Association N of Valid Cases 984
df
Value .353 .603 1.710 984
95% Confidence Interval Lower Upper .251 .524 1.391 .496 .695 2.103
Odds Ratio for Favor or Oppose Gun Permits (Favor / Oppose) 1 .000 For cohort Respondent's Sex = Male a. Computed only for a 2x2 table For cohort Respondent's b. 0 cells (.0%) have expected count less than 5. The minimum expected countSex is = Female 74.72. N of Valid Cases
Din rezultatele obinute se observ c cele dou variabile sunt asociate [deoarece 2 calculat=37,6> 2 teoretic=10,83 pentru 1 grad de libertate i p=0.000 deci vom accepta H1]. Cu alte cuvinte sexul respondenilor influeneaz opinia despre portul armei. ansa ca un respondent s fie de acord este diferit pentru brbai i pentru femei. Pentru brbai este de 314/111=2,82 iar pentru femei este de 497/62= 8.01 valoare semnificativ mai mare. Raportul de anse dintre femei i brbai este de 8.01/2.82= 2,84 cu alte cuvinte sunt 2,8 anse ca o femeie s fie de acord fa de un brbat. Aceast valoare cu ct este mai mare dect 1 cu att sunt mai pronunate diferenele dintre grupuri. Pentru cei ce sunt de acord coeficientul de risc este de 1.20 iar pentru cei ce nu sunt de acord 0,42.

Spss Curs Id2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Spss Curs Id2

Încărcat de

Drepturi de autor:

Formate disponibile

II.

Alte proceduri pentru reprezentri grafice n SPSS

200 Std. Dev = 32.24 Mean = 53.0 0

Care este suprafaa total (n metri ptrai) a camerelor (fr baie, bu

Mean Dar venitul dvs. personal n luna tre

Ultima coal absolvit (respondent)

1.5 n luna trecut (apr Dar venitul dvs. per

1.5 n luna trecut (apr Dar venitul dvs. per

Graficul este urmtorul:

Ultima coal absolvit (respondent)

Mean Dar venitul dvs. personal n luna tre

Ultima coal absolvit (respondent)

Infant mortality (de

Am trecut variabila Am trecut variabilade deinters interes

frunzele (leaf) dispuse n partea dreapt a graficului.

Media din populatie

Media din eantion

95% CI Dar venitul dvs. personal n luna trecut (aprilie

Obs: Alte variante de reprezentri grafice

se pot executa cu opiunea GraphsInteractive din care putem alege

2.0 Dar venitul dvs. per

tipul de grafic necesar.

Infant mortality (deaths per 1000 live births)

Dac am reprezenta grafic aceast serie atunci ea ar fi de forma urmtoare:

Tip de statistic descriptiv Teste corelatie/asociere de

Mode Scala poate fi de interval?

Testul 2 pentru independen

Withinparticipants TestWilcoxon Betweenparticipants Mann Whitney U Test Withinparticipants Related t-test

Withinparticipants Friedman ANOVA Betweenparticipants KruskalWallace one way ANOVA

Avei valori extreme? Interval/ratio

Coeficientul lui Pearson

Sunt indeplinite condiiile parametrice?

Betweenparticipants Independent ttest

One way ANOVA

Factorial ANOVA Multivariate ANOVA

Rezultatul testului este urmtorul:

Tests of Normality Kolmogorov-Smirnov df 400

a. Lilliefors Significance Correction

Normal Q-Q Plot of Horsepower

-3 -100 0 100 200 300

0 0 20000 40000 60000 80000 100000

Current Salary .880** .000 474 1 . 474

**. Correlation is significant at the 0.01 level (2-tailed).

Educational Level (years)

**. Correlation is significant at the 0.01 level (2-tailed).

15% Variabila 1 Variabila 2 Varian comun mprit

0% 1% 4% 5% 16% 25% 36% 49% 64% 81% 100%

trebuie ns vzute ca relaii de tip cauz-efect!

People living in cities (%)

Birth rate per 1000 people

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Average female life expectancy

Average male life expectancy

xy 3,8 8 27 64 40 216 396,8

y y* -56,96 -55.02 -52.78 -50.44 -48.20 -46.06

(y y *) 2 3244.4 3027.2 5812.9 2544.1 2323.2 2121.5

Employee Data. Dup parcurgerea comenzilor StatisticsRegressionLinear se obine fereastra urmtoare :

Variables Entered Beginning a Salary

a. All requested variables entered. b. Dependent Variable: Current Salary

a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary

ANOVA Sum of Squares Regression Residual Total 1.07E+11 3.11E+10 1.38E+11

Mean Square 1.068E+11 65858997.22

a. Predictors: (Constant), Beginning Salary b. Dependent Variable: Current Salary