Ovidiu Lungu

OVIDIU LUNGU
SERIA PSIHOLOGIE EXPERIMENTAL I APLICAT
FAMILIARIZAREA CU PROGRAMUL SPSS 10.0

Cuprins: - deschiderea programului si prile componente - deschiderea unei baze de date - crearea unei baze de date - definirea variabilelor - salvarea fiierelor - output-ul Banaliti importante pentru studenii poei. Muli studeni vin la psihologie pentru a scpa de numere, de matematic i pentru c le place s "se joace" cu cuvintele. Probabil c aa se ntmpl i cu dumneavoastr. Ai ales psihologia pentru c suntei fascinai de oameni, de comportamentul lor, de viaa lor interioar, chiar de viaa voastr proprie. V spun bine ai venit la acest curs de statistic aplicat i v asigur c el este un curs special, ncrederea mea, ncercnd s fiu un ghid n lumea statisticii, vine de la faptul c i ali studeni ca voi au reuit s nvee s aplice statistica cu succes, chiar dac anterior au avut eecuri n domeniu. i voi vei nva statistic i o vei face bine. Cuvntul statistic provine din limba italian (statista) i, n trecut, desemna persoana care se ocupa de afacerile statului. Se referea la indivizii care numrau populaia sau alte elemente ce ajutau statul s gestioneze mai bine politica de taxe i costurile rzboaielor. Statistica, ca tiin, deriv din numeroase surse, unele chiar inedite. Ideea de baz de a aduna date provine de la necesitile celor ce guvernau (pentru a stabili taxele), dar i din timpuri mai vechi, cnd armatorii i calculau costurile echiprii corbiilor (folosind probabilitatea de a fi atacate de pirai sau de a naufragia). Teoria modern a corelaiei provine din biologie, din analiza similaritilor dintre prini i copiii lor; teoria analizei de variant i are originea n fabricatele de bere din secolul XVIII i pe cmpurile de orz, unde alegerea soiului potrivit de orz i a timpului potrivit de fermentare permitea promovarea unui anumit gust al berii (dar i supravieuirea a sute de ferme mici); teoria msurrii i are originea n studiul personalitii umane i n special n studiul inteligenei, iar dezvoltarea testelor neparametrice se datoreaz n special sociologiei unde se punea adesea problema apartenenei la diferite clase sociale. Pornind de la ncercrile timpurii ale statisticienilor care erau preocupai s demonstreze existena lui Dumnezeu cu ajutorul numerelor, de la calculele lui John Adams, unul din preedinii americani, care a reuit s obin ajutorul Olandei n Rzboiul de Independen demonstrnd statistic c populaia coloniilor este n cretere i poate s ofere 20.000 militari anual i pn la calculele moderne referitoare la pia i care asigur succesul unei firme, statistica poate sjoace un rol important n viaa noastr Si atunci cine spune c statistica nu are suflet sau nu este uman? Aa cum un chirurg, orict de renumit ar fi el, are nevoie de instrumente specializate pentru a-i face bine treaba, la fel i statisticienii din ziua de azi nu ar putea s analizeze datele fr
2
ajutorul unor unelte. O astfel de unealt, foarte util, este pachetul informatic SPSS (Statistical Package for Social Sciences), ajuns n prezent la versiunea 10.0. Scopul manualului de fa este de a v oferi un ghid de baz privind utilizarea acestei resurse important n realizarea prelucrrilor statistice. Pentru alte informaii tehnice putei accesa site-ul oficial al companiei care produce acest program, la adresa www.spss.com. Pentru beneficiarii unor versiuni mai vechi ale acestui program, informaiile din ghidul de fa sunt totui folositoare, chiar dac anumite operaii sau aranjarea output-ului (foaia de prezentare a rezultatelor) sunt diferite.
Deschiderea programului i prile componente.

Ca orice instrument modern, programul SPSS nu poate fi folosit pn nu este mai nti activat sau deschis. Accesul la program se poate face n dou modaliti. Mai nti, fi putei accesa prin efectuarea unui click-dublu asupra pictogramei programului, care ara ca n imaginea de mai jos i se gsete pe desktop-ul computerului, n eventualitatea c ai creat un short-cut pentru program. O a doua modalitate de a pune n funciune SPSS-ul este cu ajutorul meniului STARTPROGRAMS prezent n orice versiune WINDOWS mai recent. Astfel, apsai butonul START, apoi un click-simplu pe opiunea PROGRAMS, de unde vei alege opiunea SPSS FOR WINDOWS - SPSS 10.0 FOR WINDOWS, ca n imaginea urmtoare:
deschiderea programului SPSS din meniul START
Oricare metod vei folosi, programul se va activa, iar pe ecranul dumneavoastr va aprea un tabel, ca n imaginea de mai jos:
aa se prezint programul SPSS la deschidere
Observai c avei pe ecran un tabel, deci linii si coloane. Este bine s reinei c ntotdeauna coloanele tabelului reprezint variabilele cercetrii, n timp ce liniile tabelului, numerotate, reprezint subiecii sau participanii la cercetare. Acest lucru sugereaz felul n care datele trebuie introduse n tabel. S analizm acum mai detaliat fereastra, pornind din partea superioar, ctre partea inferioar. Banda colorat din marginea superioar a ferestrei v informeaz asupra numelui fiierului si al programului aflat n uz. Urmeaz apoi o band cu meniurile uzuale ale programului si o bar cu butoane, butoane care nu reprezint altceva dect scurtturi" ale opiunilor ce pot fi activate si din meniurile uzuale. Vom analiza mai detaliat unele comenzi din aceste meniuri, pe msur ce avansm cu acest ghid.
Deschiderea unei baze de date

De multe ori dorim s lucrm cu baze de date pe care le-am creat anterior sau pe care altcineva naintea noastr a lucrat. Pentru aceasta vom activa meniul FILE - OPEN si vom alege opiunea DATA. Odat activat comanda, computerul va deschide o fereastr-dialog care v permite s selectai att directorul unde se gsete baza voastr de date, ct si fiierul dorit, n exemplul ce urmeaz, am selectat fiierul pretestare din directorul S.P.S.S. Observai n imaginea ce urmeaz c terminaia fiierelor cu date din SPSS este sav.
fereastr-dialog pentru deschiderea unei baze de date
Deschiderea propriu-zis a bazei de date se face prin apsarea butonului OPEN din fereastradialog prezentat anterior, n momentul n care baza de date a fost ncrcat, ecranul va apare astfel:
Aceasta este fereastra care v prezint datele brute. Observai variabilele din studiu, coloanele tabelului adic; de exemplu, variabila GEN descrie genul subiecilor (masculin sau feminin), variabila CONDIIE arat condiia
5
experimental n care se aflau participanii la studiu, G l sunt notele obinute de subieci la o anume prob, .a.m.d. Fiecare linie a tabelului arat rezultatele unui singur subiect. Astfel, dac observm linia a 11-a, vedem c rezultatele acestei persoane se gsesc n fia cu numrul 11, c este o persoan de sex feminin, n condiia neactivat", care a obinut nota 7 la variabila Gl, nota 7 la G2, nota 13 la G3 etc. Dac dorim s aflm informaii despre tipul variabilelor aflate n baza noastr de date, trebuie s activm opiunea VARIABLE VIEW din partea inferioar a ecranului. Astfel va apare imaginea urmtoare:
aici aflm informaii despre variabile
Acum, variabilele sunt aezate pe rnduri, iar coloanele reprezint diveri parametri, diverse caliti pe care le au variabilele noastre. De exemplu, variabila G3 este de tip numeric, are 8 caractere, dintre care dou sunt zecimale, iar ceea ce descrie aceast variabil se refer la comportamentul nclin capul", .a.m.d.
Crearea unei baze de date noi

Crearea unei baze noi se face din perspectiva DATA VIEW. Observai c n tabel avem un cursor-text sub forma unui contur mai ngroat care nconjur o celul. Acesta fi mutat n tabel cu ajutorul butoanelor cu sgei, din partea dreapt-jos a tastaturii. Dac dorim putem s introducem n computer baza de date redat n tabelul de mai jos, care arat scorurile IQ la un test de inteligen aplicat unor adolesceni, frai de acelasi sex:
Nrfia 1 2 3 4 5 6 7 8 9 10
IQ 85 96 98 112 102 101 86 99 105 108

aceasta este baza de date ce dorim s o crem
IQ 98 89 88 98 106 104 94 91 93 105
Observai c avem trei variabile si zece perechi de subieci. Variabilele sunt: numrul fisei (NRFISA) care arat numrul fielor completate de cei doi frai, coeficientul de inteligent al primului nscut (QI1) si coeficientul de inteligent al celui de-al doilea nscut (QI2). Ducei cursorul-text la nceputul bazei de date (celula cea mai din stnga-sus a tabelului) si apoi tiprii de la tastatur l" si apsai ENTER sau butonul cu sgeata n jos. Pe ecran va aprea imaginea de mai jos:
Observai c programul definete automat variabila (var000l), cursorul coboar pe celula urmtoare, iar indicativul primei linii devine activ (cifra l de pe margine nu mai este gri). Continuai s introducei astfel toate datele corespunztoare primei variabile, pn ce ajungei la cifra 10. Aceasta este faza introducerii datelor sau crerii unei noi baze de date. Dar pentru a putea folosi aceste date mai uor, avem nevoie s definim variabilele cu care lucrm. Este ceea ce vom prezenta n continuare.
7
Definirea variabilelor
Definirea variabilelor se face din perspectiva VARIABLE VIEW. Aici se poate ajunge prin dou metode: 1.- executnd un dublu-click pe numele variabilei (var000l), cel scris n capul gri al tabelului 2.- apsnd pe opiunea VARIABLE VIEW din partea stng-jos a ribctalui; Oricare metod ar fi folosit rezultatul este acelai i pe ecran va apare imaginea urmtoare:
aici se definesc variabilele
Ajuni n acest punct, trebuie s definim anumii parametri ai variabilei, n cazul nostru, vom defini doar numele variabilei (aa cum este el recunoscut de programul SPSS) i eticheta variabilei (LABEL), care este de fapt o descriere mai detaliat a acesteia, folositoare mai ales cnd avem nevoie s ne reamintim ce anume msoar respectiva variabil. Astfel, vom alege numele NRFISA, iar n dreptul etichetei vom scrie numrul fiei" cci asta msoar sau descrie variabila aleas de noi.
aici am definit numele (NAME) i eticheta (LABEL) variabilei alese.
Dup ce am stabilit parametrii dorii (n alte capitole vom vorbi si despre ali parametri, nu numai despre nume si etichet), vom reveni din nou la perspectiva DATA VIEW, ca s introducem si celelalte date, la celelalte dou variabile, urmnd aceeai procedur, n acest moment, pe ecran vei avea urmtoarea imagine, cu datele introduse la prima variabil si coloana acesteia definit ca atare.
Continuai s introducei datele si s definii n mod adecvat cele dou variabile, att ca nume, ct si ca etichet.
9
Salvarea fiierelor
Salvarea fiierelor are un dublu scop. Pe de o parte salvm datele pe discul dur al computerului (hard-disk) pentru a le conserva n memoria de lung durat, permanent a computerului n vederea folosirii lor ulterioare, pe de alt parte salvm datele pentru a nu le pierde n eventualitatea apariiei unei pene de curent sau a unei ntreruperi inoportune a computerului. Salvarea datelor se face ca pentru orice fiier, fie acionnd butonul SAVE (al doilea din bara de butoane, cel care seamn cu o dischet), fie din meniul FILE-SAVE, precum n imaginea de mai jos:
salvarea datelor din meniul FILE
Oricare ar fi metoda, atunci cnd se activeaz pentru prima dat comanda SAVE, se deschide o fereastr-dialog, precum cea urmtoare:
fereastra-dialog pentru salvarea bazei de date
10
Aici alegem directorul n care dorim s salvm fiierul nostru (folosind cmpul SAVE IN din partea superioar a ferestrei) si denumim fiierul (n cazul nostru cu numele FRAI) n cmpul FILE NAME din partea inferioar a ferestrei. Apsam apoi butonul SAVE al ferestrei i operaiunea a luat sfrit.
Ouput-ul
Pn acum am analizat pe scurt dou din perspectivele programului SPSS: DATA VIEW i VARIABLE VIEW. Trebuie ns s tii c mai exist o perspectiv, o fereastr de fapt, unde programul v prezint rezultatele analizei statistice. Aceast perspectiv sau fereastr, denumit OUTPUT, apare numai ca urmare a folosirii meniului ANALYZE (unde se analizeaz datele) sau GRAPHS (unde se realizeaz ilustraiile grafice). Pentru a ilustra modul n care apare aceast perspectiv, vom alege din meniul ANALYZE opiunea DESCRIPTIVE STATISTICS i comanda DESCRIPTIVES ca n imaginea de mai jos, fr a intra n detalii privind situaiile n care se folosete aceast comand (detalii ce vor fi prezentate ulterior):
activarea comenzii DESCRITIVES
Odat activat comanda DESCRIPTIVES pe ecran va apare o fereastr-dialog, tipic pentru prelucrarea datelor n SPSS. S o analizm puin:
11
4 1
2 3 5
fereastra-dialog DESCRIPTIVES
Oricare fereastra-dialog, folosit la prelucrarea datelor, cuprinde patru zone importante: (1) cmpul ce cuprinde variabilele existente deja n baza de date, (2) cmpul ce cuprinde variabilele pe care dorim s le analizm, (3) butoane sau cmpuri privind opiunile de analiz (4) butoanele obinuite ale oricrei ferestrei. Butonul cu sgeat (5) este folosit pentru a transfera" variabilele ntre cmpurile (1) si (2). n exemplul de fa, vom transfera variabila QI1 din cmpul (1) n cmpul (2), pentru a o analiza. Pentru aceasta o vom selecta mai nti, executnd un click simplu pe numele variabilei. Astfel, numele va fi ncadrat ntr-un cmp albastru, faptul indicnd c acea variabil a fost selectat. Apoi, apsam pe sgeata (5) si vom observa c variabila se va transfera n cmpul (2), ca n imaginea urmtoare:
transferul unei variabile n cmpul pentru analizat
Observai acum c sgeata dintre cmpuri i-a schimbat sensul; ea va avea mereu sensul n funcie de cmpul n care a fost selectat variabila. Mai observai de asemenea c i butonul
12
OK,care nainte nu era activat a devenit activ. Nu vom folosi acum butoanele sau cmpurile cu opiunile suplimentare pentru analiz, ci vom apsa direct butonul OK pentru a observa cum se activeaz fereastra sau perspectiva OUTPUT a programului.
perspectiva sau fereastra OUTPUT
Mai nti, observai c aceast nou perspectiv v deschide cu adevrat o nou fereastr, n sensul c apare n mod distinct n bara de sarcini din partea inferioar a ecranului. Revenirea la meniul cu date se face fie prin comanda ALT+TAB (apsnd simultan, scurt, aceste butoane) sau apsnd cu mouse-ul pe numele ferestrei din bara de sarcini. Observai c aceast nou fereastr e organizat n dou cmpuri: cmpul (1) - indic structura sau cuprinsul OUTPUT-ului, cmpul (2) - arat coninutul acestuia. Este ca si cum am avea n partea stng un catalog ce indic volumele aflate ntr-o bibliotec, iar n partea dreapt am avea coninutul acelor volume. Nu insistm acum asupra coninutului acestei analize, acesta fiind obiectul capitolelor viitoare.
Exerciiu: Realizai o analiz similar si pentru variabila QI2
13
STATISTICA DESCRIPTIVA (1) - cum s dm un neles datelor brute

Cuprins: 1.- Generaliti 2.- Identificarea tendinei centrale 3.- Analiza variabilitii - Folosirea SPSS: meniul ANALYZE - FREQUENCIES - Folosirea SPSS: meniul ANALYZE - DESCRIPTIVES Folosirea SPSS: - Grafice - histograme, bare, linii, plcint", box-plot
Cum v place berea, cu etichet sau fr etichet?

Multe departamente de marketing ale firmelor productoare de alimente sunt interesate de preferinele consumatorilor. Una din cele mai acerbe concurene pe pia este ntre firmele productoare de bere. Bani grei au fost alocai de marile firme pentru a testa gustul clienilor fideli. Nu e puin lucru s tii ce apreciaz butorul de bere la o anumit marc. n general, dou tipuri de informaii sunt de interes pentru departamentele de marketing: (1) preferina consumatorilor (estimat pe o scal) pentru marca proprie fa de cele ale competitorilor atunci cnd sticlele sunt clar etichetate i (2) preferina acelorai consumatori atunci cnd servesc butura din sticle neetichetate, cnd singurul indiciu de apreciere rmne gustul. Avnd aceste informaii, departamentele de marketing sunt capabile s determine dac preferina pentru o anume marc depinde de calitile fizice ale produsului sau doar de imaginea mrcii, promovat prin reclam (care este i ea, n ultim instan rodul muncii celor de la marketing, nu?). Un studiu faimos, folosind astfel de date a fost realizat de R. Allison i K. Uhl, n 1965, n Statele Unite. Ei au ales un eantion reprezentativ de 326 butori de bere (brbai ce consumau bere de cel puin trei ori pe sptmn). In prima sptmn ei le-au dat s bea bere din sticle etichetate ale diverselor mrci de prestigiu din domeniu. La sfrit ei au apreciat pe o scal preferina pentru fiecare dintre acele mrci de bere. n sptmna urmtoare experimentul s-a repetat, de data aceasta ns consumatorii nemaiavnd la ndemn etichetele pe sticlele de bere. La sfrit, ei au apreciat din nou preferina pentru o anume bere, fr a ti crei marc aparine. Rezultatele obinute de cei doi cercettori au artat c consumatorii nu au fost capabili s identifice o anume marc de bere numai pe baza gustului. Mai mult, metodele statistice le-au permis acestora s infereze faptul c rezultatul este apHcabil butorilor de bere n general, nu numai celor 326 luai n calcul n studiu. Ulterior, astfel de studii s-au fcut i pentru buturi rcoritoare (Coca-Cola i Pepsi), precum i pentru mrci celebre de cafea. Concluzia studiilor este aceea c noi, ca i consumatori, suntem mult mai ml itfle imaginea unei mrci, a unui produs dect de calitile fizice, "reale" ale uia. Aviz departamentelor de marketing i cheltuielilor publicitare, nu? Deci, cum v place berea: cu etichet sau fr etichet? 14
Exist cteva motive pentru care este necesar studierea statisticii n psihologie si n tiinele sociale n general. Mai nti, nelegerea metodelor statistice este crucial pentru nelegerea si citirea corect a articolelor de specialitate. Cel ce nu cunoate metodele statistice nu va putea s citeasc aceste materiale dect superficial i nu va fi capabil s neleag tabelele, graficele i corectitudinea concluziilor deduse din cercetare. Al doilea motiv pentru care e necesar studierea statisticii este acela c, fr a avea deprinderile necesare n mnuirea metodelor statistice, nu se poate face cercetare experimental, n fine, nelegerea metodelor statistice ajut la dezvoltarea gndirii analitice i critice.
Generaliti
Ce este ns statistica? Ea este un instrument care a evoluat din pornind de la procesele de baz ale gndirii: atunci cnd observm un fapt ne ntrebm ce anume 1-a determinat, care a fost cauza. Astfel, avem o anume intuiie asupra a ceea ce a provocat acel fapt, facem o presupunere i n continuare ncercm s ne testm ipoteza printr-o alt observaie, uneori ncercnd s facem unele mici modificri pentru a ne testa intuiia. Ceea ce ne intereseaz este dac noua noastr observaie este exact, dac ceea ce observm din nou este un fapt regulat i nu unul cauzat de ntmplare i dac avem dreptate n ceea ce privete intuiia noastr. n acelai mod, statistica este o metod de a testa sau stabili adevrul. Desigur nu este vorba de adevrul absolut, ci de stabilirea probabilitii ca observaia efectuat s aib cauze precise i s nu fie provocat doar de ntmplare.
S considerm un exemplu hazliu, care ilustreaz ns foarte bine care este rolul metodelor statistice. Imaginati-va c fierbem o oal de fasole. Dup un timp, dup ce am pus fasolele pe foc, trebuie s verificm dac acestea au fiert. Ce facem? Lum ntr-o lingur cteva boabe i le gustm. Dac acestea sunt fierte, decidem c i restul fasolelor sunt fierte. Este acest raionament corect? De unde tim c nu am luat din ntmplare tocmai pe cele mai fierte dintre boabe? Ei bine, metodele statistice fac tocmai acest lucru. Ele ne pot spune, cu oarecare precizie, pornind de la aceste cteva boabe de fasole, dac i celelalte din toat oala sunt fierte. Cu alte cuvinte, statistica ne ajut s facem generalizri ale unor efecte la nivelul unor populaii largi, pornind de la rezultatele obinute pe eantioane sau grupuri mici de oameni.
Exist dou ramuri principale privind metodele statistice n psihologie: statistica descriptiv - cuprinde metodele ce ajut psihologii s descrie si s grupeze n diferite moduri grupurile de rezultate obinute n cercetri, metode ce ajut la descrierea scorurilor. statistica inferenial - cuprinde metodele ce ajut psihologii s trag concluzii pe baza rezultatelor obinute si s le generalizeze la populaii mai largi dect cele testate iniial. In general, ntr-o cercetare este preferabil s utilizm ambele metode, pentru c fiecare dintre ele ne ofer anumite tipuri de informaii. De regul, metodele infereniale nici nu se utilizeaz dac nu se aplic mai nti cele descriptive, n cercetarea psihologic se lucreaz cu variabile. O variabil este acea proprietate a unui fenomen, obiect sau proces care poate s ia diferite valori, deci care poate s varieze.
15
Spre exemplu, notele care se pot lua la scoal, zilele sptmnii, vrsta etc. sunt toate variabile. O variabil este descris de valori. Spre exemplu, pentru variabila "nota colar" valorile acesteia sunt toate notele de la l la 10 pe care le poate cineva lua la scoal. Pentru variabila "zilele sptmnii" valorile sunt toate cele 7 zile ale sptmnii, n psihologie se face distincia ntre valori si scoruri. Un scor este valoarea obinut de o persoan, fenomen, obiect, proces situaie atunci cnd ne referim la o anume variabil. Spre exemplu, nota pe care o ia George la scoal (s zicem 7) este un scor al acestui subiect la variabila "nota colar". Cu toate acestea, valorile variabilei menionate sunt n numr de zece: l, 2, 3, 4, 5, 6, 7, 8, 9 i 10. Dar un subiect nu poate avea dect una din aceste valori, iar aceea este numit scor. De obicei, rezultatele unui experiment psihologic sunt date de un grup de scoruri. Un procedeu prin care se poate analiza acest grup de scoruri este acela de a folosi dubele de frecven. Un tabel de frecven arat ci subieci obin sau au o anume valoare la o variabil. Spre exemplu, un tabel de frecven fcut pentru variabila "nota scolar" arat ci elevi dintrun grup au obinut o not anume, ca n tabelul de mai jos:
NOTA SCOLARA 10 9 8 7 6 5 4 3 2 1
FRECVEN 15 26 31 13 18 16 12 3 1 2
Exist trei pai n realizarea unui tabel de frecvene fr ajutorul calculatorului: se face o list cu toate valorile posibile pe care le poate lua variabila si se trec ntr-o coloan, unele sub altele, n ordine descresctoare. se parcurg toate scorurile obinute corespunztoare fiecrei valori ale variabilei si se bifeaz. se trece n tabel numrul de bifri astfel obinut. Un tabel de frecven realizeaz o descriere a grupului prin aceea c arat care sunt tendinele, cum au subiecii tendina de a se grupa n jurul anumitor valori. Tabelele de frecven se pot reprezenta si grafic prin histograme, caz n care tendinele dintr-un grup de rezultate se observ mai bine. Histograma tabelului de frecven de mai sus este prezentat n continuare:
16
Exist patru etape n realizarea unei histograme, fr ajutorul calculatorului: se face mai nti un tabel de frecvene. pe axa orizontal (X) se trec toate valorile pe care le poate lua variabila. pe axa vertical (Y) se marcheaz frecvena sau numrul de subieci ce au obinut un anume rezultat. se traseaz bare verticale pentru fiecare valoare n parte a variabilei, ce vor avea nlimea egal cu numrul de subieci ce au obinut o anume valoare. O alt modalitate grafic de a reprezenta un tabel de frecvene este prin poligoanele de frecven. Acestea se obin din histograme, prin unirea mijloacelor prilor superioare ale barelor sau histogramelor, aa cum este artat mai jos.
17
Un poligon de frecven exprim o distribuie a rezultatelor, n sensul c arat cum se distribuie sau cum se "mprtie" rezultatele n jurul anumitor valori ale unei variabile. De aceea, forma pe care o ia aceast distribuie este un alt mod de a descrie un pup de rezultate. Exist trei parametri, trei caracteristici prin care este descris o distribuie: 1.- modalitatea - este un aspect important al distribuiei care arat cte "vrfuri" are o distribuie. Cu alte cuvinte, arat cte valori sunt n jurul crora se grupeaz foarte muli subieci. Din acest punct se vedere, distribuiile pot fi unimodale, adic au un singur vrf, sau ele pot fi multimodale, adic au mai multe vrfuri. 2.- nclinarea - este un aspect al distribuiei care arat dac scorurile subiecilor testai au tendina de a fi mai mari sau mai mici. Spre exemplu, notele colare au o distribuie nclinat spre dreapta, adic elevii au tendina de a lua mai mult note mari dect note mici. Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribuie nclinat pozitiv. Atunci cnd distribuia este nclinat spre stnga, spunem c aceasta este negativ. Dac nu se observ nici o tendin de nclinare, atunci distribuia este simetric. 3.- turtirea- este un aspect ce se refer la faptul dac o distribuie este foarte turtit (adic scorurile din cadrul ei variaz foarte mult) sau este mai ascuit (adic scorurile variaz foarte puin). Vom reveni asupra acestui aspect atunci cnd vom discuta despre curba normal. Definiii: Variabil: o proprietate a unui fenomen care poate lua diferite valori. Valoare: o msur calitativ sau cantitativ a unui fenomen. Scor: o valoare particular obinut de un anumit subiect. Distribuie: modul n care se prezint un grup. de rezultate.
Criterii de clasificare a variabilelor: a) dup natura msurii: - cantitative (variaz cantitatea); - calitative (variaz felul). b) dup felul variaiei: - continui (ntre oricare dou valori mai gsim o a treia); - discrete (variaz lund valori dinainte specificate). c) dup scopul folosirii lor n studii: - independente (manipulate sau invocate de experimentator, stimuli); - dependente (observate la subieci, rspunsuri).
18
Identificarea tendinei centrale

Dac o parte din metodele descriptive ne folosesc uneori s organizm rezultatele sau scorurile noastre, alteori avem nevoie de metode pentru a putea descrie mult mai pe scurt ceea ce se ntmpl n distribuia noastr. Avem astfel nevoie de metode ce arat tendina central (ce tendine apar) ntr-o mulime de scoruri. Astfel, matematicienii s-au gndit s descrie un grup de scoruri printr-un singur numr. Media aritmetic este un astfel de numr. Media aritmetic este considerat a fi o metod descriptiv pentru c ea descrie tendina central ntr-un grup de rezultate sau arat valoarea tipic sau reprezentativ pentru acele scoruri. Formula matematic a mediei aritmetice este: M= x (1) N Ce arat sau care este mai precis semnificaia mediei? S lum un exemplu. Mai jos v prezentm un grup de scoruri care arat preferina studenilor fa de statistic, pe o scal de la l (nu-mi place deloc) pn la 6 (mi place foarte mult): 4,6,2,2,1,2,3,2,4,4 Calculul mediei, conform formulei (1) este: M= x = 30 = 3 N 10 Care este semnificaia acestui "3"? Ce arat el dincolo de suma scorurilor mprit la numrul total de scoruri? Ne vom folosi de histograma acestei distribuii pentru a defini media, ntr-un mod intuitiv.
Imaginai-v c pe o scndur aezm nite cuburi, egale ca dimensiune unul cu altul, la diferite distane, ca n imaginea de mai jos:
19
Observai c aceste cuburi sunt aezate similar cu segmentele din histogram, n aceleai poziii. Acum urmeaz ntrebarea: unde anume trebuie s aezm un butean astfel nct scndura i cuburile de pe ea s rmn n echilibru? Rspunsul este n dreptul mediei. Pornind de la aceast constatare ajungem i la semnificaia acestei msurtori statistice: media este punctul fat de care scorurile sunt egal deprtate, cu alte cuvinte, abaterile de la medie ntr-o direcie (ex. ale scorurilor mai mici ca ea) sunt egale cu abaterile n cealalt direcie (ex. scorurile mai mari). O alt metod de a descrie tendina central a unui grup de scoruri este mediana. i ea mparte distribuia n dou pri, dar de data aceasta din punctul de vedere al frecventelor. Astfel, jumtate dintre scorurile dintr-o distribuie vor avea valori mai mici dect mediana, iar restul - valori mai mari. Pentru a calcula mediana sunt necesare dou etape: 1) ordonm scorurile cresctor sau descresctor 2) mprim numrul de scoruri (N) la 2. Dac N este par, atunci "mijlocul" distribuiei "cade" ntre scorurile situate la mijloc; dac N este impar, atunci mediana este chiar scorul situat la mijloc. S urmm aceti pai pentru scorurile prezentate mai sus, care reprezint prerea studenilor fat de statistic. Pasul 1: ordonarea scorurilor. Pornind de la distribuia: 4,6,2,2,1,2,3,2,4,4 prin ordonare ajungem la distribuia 1,2,2,2,2,3,4,4,4,6 Fiind 10 scoruri (deci numr de subieci par, iar jumtatea lui 10 fiind 5), mediana se va gsi ntre scorurile din mijloc, deci ntre scorurile al 5-lea si al 6-lea. Sgeata de mai jos arat poziia medianei, care este astfel 2,5 (media dintre aceste scoruri din mijloc).
20
1,2,2,2,2,3,4,4,4,6 Uneori, dei mai rar, obinuim s descriem o distribuie prin modul. Acesta este valoarea cu frecvena cea mai mare. n exemplul de mai sus, valoarea 2 este ntlnit cel mai frecvent (apare de 4 ori), deci modulul distribuiei noastre va fi 2. Cnd folosim totui una din aceste metode pentru a descrie tendina central a unei distribuii? Care dintre ele este mai "bun" i n ce condiii? Pentru a rspunde la aceast ntrebare s analizm ce factori influeneaz pe fiecare din ele. Dac la exemplul de mai sus mai adugm nc un scor (s zicem un 5), observai ce se modific: Media va fi 3,18; Mediana va fi 3; Modulul va fi tot 2. Dac lum din distribuie un scor, un 4 spre exemplu, schimbrile vor fi: Media va fi 2,88; Mediana va fi 2; Modulul va fi tot 2. Dac adugm 2 scoruri, un 2 i un 5, spre exemplu, vom avea urmtoarele Media va f 3,08; Mediana va fi 2,5; Modulul va fi tot 2. Din cele de mai sus, constatm c modulul este una dintre mrimile ce sunt cel mai mult afectate de schimbri n structura distribuiei (numr de scoruri sau mrimea acestora ). Mediana este i ea destul de stabil, ns media este cea mai "sensibil" dintre toate aceste mrimi. Concluzia este aceea c media este cea mai descriptiv (ntruct arat orice modificare survenit n distribuie), dar este recomandat s se foloseasc mai mult n distribuiile simetrice i unimodale, n timp ce mediana i modulul, mai stabile sunt recomandabile n descrierea distribuiilor asimetrice i multimodale. Un exemplu concret ar fi de folos:
Exemplu Pe o plantaie de cafea lucreaz 99 oameni care ctig 100 dolari lunar (deci ntr-o lun ei ctig 9.900 dolari). Patronul plantaiei are un venit lunar de 2.100 dolari, n total, cele 100 persoane (patronul i angajaii) de pe plantaie ctig 12.000 dolari lunar, deci n medie 120 dolari/lun/persoan. Cu toate acestea, dac ne deplasm pe plantaie, n 99% de cazuri vom ntlni persoane care ctig sub valoarea medie, abia n 1% din cazuri gsind pe cineva cu venituri peste medie (patronul). Dac ns calculm mediana (ordonnd cei 99 de 100 i valoarea de 2100 - venitul patronului) vom vedea c valoarea ei este exact 100 (mijlocul distribuiei va "cdea" exact ntre dou scoruri de 100), la fel i modulul. Deci aceste dou din urm msurtori sunt mult mai aproape de realitate n cazul unei distribuii anormale, asimetrice.
Cu toate aceste diferene ntre cele trei metode de stabilire a tendinelor centrale a unei
21
distribuii, media aritmetic rmne metoda cel mai des utilizat i ea intr n componena multora dintre metodele statistice cunoscute. Exist ns cazuri (ex. testele neparametrice), unde mediana i modulul sunt metodele folosite.
Analiza variabilitii
Cunoaterea mediei (sau a medianei) nu ne este uneori de folos n a descrie complet o distribuie. S presupunem c tim despre un grup de persoane c are media de vrst de 20 ani. Ce nseamn acest lucru? Au toi membrii grupului exact 20 de ani fiecare? Sau poate jumtate dintre ei au 10 ani i jumtate 30? Ori poate un sfert au 18, un sfert - 19, un sfert 21 i restul 22? Fiecare din aceste situaii ne arat lucruri diferite, nu-i aa? Dup cum observai, cunoaterea doar a mediei nu este suficient pentru a ne oferi informaii complete despre "realitatea" din grup; avem nevoie s cunoatem i gradul de variabilitate din scorurile noastre. Mai precis, avem nevoie s tim ct de mult (i eventual cu ct) se mprtie scorurile n jurul valorii medii, a tendinei centrale. Un exemplu din viaa cotidian care s v arate c avem nevoie de cunoaterea variabilitii, n general, este acela al pungilor de cafea (sau orice alt produs alimentar livrat ntr-un ambalaj). O privire atent pe pung ne arat gramajul coninutului sub forma greutate net l00g 5 g. Ce nseamn aceast indicaie? Faptul c pungile de cafea, dei ambalate de o mainrie, nu sunt toate de greutate egal i c majoritatea pungilor au greutatea coninutului cuprins ntre 95 i 105 grame. Suntem sau nu mai bine informai?
Varianta
Varianta unei distribuii arat ct de "mprtiate" sunt scorurile n jurul valorii centrale, care este gradul de variabilitate n grupul nostru de rezultate. S vedem etapele calculrii variantei. Vom utiliza ca exemplu nite date culese de la o companie care are 10 departamente. Scorurile prezentate mai jos arat cte persoane lucreaz n fiecare departament n parte: 2, 8, 12, 10, 20, 3, 7, 14, 6, 18 S vedem care sunt etapele de calcul ale variantei. calcularea mediei In primul rnd avem nevoie de cunoaterea mediei. Ea se obine pe calea obinuit, mprind suma scorurilor la numrul lor. n cazul nostru, media este m=10. calculul abaterilor simple de la medie Prima dat cnd s-au gndit s calculeze varianta, matematicienii au pornit de la calculul abaterilor simple de la medie. Pentru aceasta ei au realizat un tabel, diferit de cel al frecvenelor, n sensul c folosea scorurile i nu valorile variabilei.
22
X 2 3 6 7 8 10 12 14 18 20
x-m -8 -7 -4 -3 -2 0 +2 +4 +8 +10
Iniial matematicienii au dorit s lucreze cu aceste abateri simple de la medie, dar dup cum observai unele sunt pozitive, altele sunt negative, astfel c adunate, ele se anuleaz una pe alta (aceasta este de altfel si proprietatea mediei, nu?). Atunci o soluie a fost s ridicm la ptrat aceste abateri simple de la medie, pentru a obine prin adunare un numr pozitiv. calculul ptratului abaterilor de la medie Continund tabelul mai adugm nc o coloan unde vom calcula ptratul abaterilor de la medie. x 2 3 6 7 8 10 12 14 18 20 x-m -8 -7 -4 -3 -2 0 +2 +4 +8 +10 (x-m) 64 49 16 9 4 0 4 16 64 100
Adunnd aceste ptrate obinem o valoare pozitiv (notat cu SS, din englezescul sum of squares - suma ptratelor, ntlnit uneori n crile romneti de statistic sub prescurtarea SP, suma ptratelor), n cazul nostru, SS = 326. Ce se ntmpl ns cu SS? Poate fi el folosit ca o msur a variabilitii? nc nu, pentru c el depinde de numrul de scoruri. Observai c dac mai adugm un scor la cele existente se schimb media, iar acest nou
23
scor va abate probabil de la noua medie cu o oarecare cantitate, ce, ridicat la ptrat, face ca SS s creasc. Similar, dac eliminm un scor, SS scade. Pentru a obine o valoare care s nu depind de numrul de scoruri, vom mpri pe acesta la N, tocmai la numrul de scoruri. divizarea la numrul de scoruri sau cazuri pentru ca SS s nu depind de N Aceast valoare nou, obinut prin mprirea lui SS la N este tocmai varianta, notat SD. Deci, SD =
SS (2) N
n exemplul nostru SD = 32,6 Aceasta este tocmai varianta. Repet, ea este o msur a gradului de variabilitate a scorurilor i arat ct de mult se abat ele de la tendina central. Cu ct este mai mare aceast valoare, cu att mai mult se mprtie scorurile n jurul valorii centrale. Este ca i cum am cunoate strlucirea unui bec (n sensul c e foarte strlucitor sau mai puin strlucitor), dar nu am ti ci wai are el (75 sau 100?). Pentru a cunoate exact cu ct variaz, scorurile n medie (acele 5 grame n plus sau n minus de pe punga de cafea), este nevoie s calculm deviaia standard.
Deviaia standard
Deviaia standard ne este mult mai util. Ea arat cu ct se mprtie scorurile n jurul valorii centrale i - fapt poate mai important - se msoar n aceleai uniti de msur ca i variabile iniial, X. Ea este pur i simplu rdcina ptrat a variantei, deci SD= DT 2 (3) n exemplul nostru valoarea lui SD este 5,70. Semnificaia deviaiei standard Acum, avnd la dispoziie i media i deviaia standard putem descrie mult mai bine distribuia scorurilor din exemplul nostru. Cunoatem astfel c numrul de persoane ce lucreaz la departamentele firmei sus-pomenite este de 10 5,7. Cu alte cuvinte tim c limita minim a variaiei normale a scorurilor este 4,3 (obinut din 10-5,7), iar limita maxim este 15,7 (obinut din 10+5,7). Aproximnd la numere ntregi, dei pierdem cte ceva din vedere n acest fel, putem afirma c la firma respectiv lucreaz ntre 5 i 15 persoane n fiecare departament. Dac valoarea mediei descria doar un singur departament din totalul de 10, observm c acest interval obinut de m SD descrie 6 departamente (deci 60% din totalul populaiei). Acesta este un aspect important al deviaiei standard, n mod obinuit, n intervalul
24
cuprins de o parte i alta a mediei de deviaia standard gsim aproximativ 2/3 din totalul scorurilor, deci n acest interval vom avea scorurile considerate tipice sau normale pentru acea distribuie. Imaginea de mai jos este mai sugestiv.
Din aceast cauz numim aceast deviaie "standard", pentru c orice am msura, oricare ar fi forma distribuiei, gsim mereu aproximativ 2/3 din scoruri n acest interval. Deviaia standard joac un rol foarte important n calcularea notelor z, denumite si note standard. Prezentarea notelor z se va face ns n capitolul urmtor.
Folosirea SPSS: meniul ANALYZE FREQUENCIES

Vom arta n continuare cum se calculeaz parametrii unei distribuii (media si abaterea standard) folosind SPSS, mai precis, meniul ANALYZE - FREQUENCIES. Mai nti s deschidem sau s ncrcm fiierul denumit employee data.sav. Pentru aceasta folosim comanda FILE -> OPEN -> DATA, comand prezentat n capitolul anterior. Din fereastra care se deschide (prezentat mai jos), alegem fiierul dorit (employee data.sav) fcnd click asupra lui, apoi apsnd butonul OPEN.
selectarea fiierului dorit din meniul FILE OPEN
25
Baza de date prezint rezultatele unei anchete realizat n Statele Unite n anii '90 si reprezint datele referitoare la angajaii unor bnci. S ne alegem pentru prelucrare variabila salbe gin. Reamintim c numele variabilelor sunt scrise n capul de tabel, de culoare gri. Ce reprezint aceast variabil? Nu putem ti n mod direct. Pentru a afla acest lucru, trebuie s procedm ca si cum am dori s definim variabila. De aceea, facem dublu-click n capul coloanei , acolo unde scrie numele variabilei. Va aprea astfel perspectiva VARIABLE VIEW (ca n imaginea de mai jos):
descrierea variabilei SALBEGIN n perspectiva VARIABLE VIEW
Pentru a vedea ce reprezint salbegin ne uitm n cmpul LABEL, unde citim "beggining salary", ceea ce nseamn "salariul iniial sau de nceput". Vom lucra astfel cu date ce arat salariul iniial al subiecilor analizai. S calculm unii parametrii ai distribuiei. Vom folosi pentru aceasta comanda ANALYZE-SUMMARIZE-FREQUENCIES care deschide fereastra FREQUENCIES de unde ne vom putea alege opiunile: calculul mediei, medianei, modulului, precum si al deviaiei standard.
O dat aleas aceast opiune, pe ecran va aprea fereastra de mai jos care v permite alegerea variabilelor de analizat, precum i opiunile de analiz:
26
Aici selectm variabila dorit ( ca n imagine ) i acionnd sgeata dintre cmpuri, vom transfera variabila aleas n cmpul cu variabile de analiz. Pentru mai multe detalii revedei ultima parte a capitolului precedent.
3
8 1
Vom prezenta detaliat aceast fereastr, urmnd ca la altele asemntoare s nu mai insistm detaliat ulterior, ntruct aproape toate ferestrele de analiz au aceast structur. Unde va fi ns cazul vom prezenta elementele de noutate. (1) reprezint cmpul unde sunt prezentate variabilele din baza de date; (2) aceasta este o opiune; seninul din ptrel (similar cu sigla Nike sau Rexona) indic faptul c opiunea este activ, n cazul de fa, activarea opiunii permite realizarea tabelului de frecvene; menionm c, din start, opiunea este activ, iar dezactivarea ei atrage dup sine un mesaj de avertisment din partea programului; (3) este sgeata care permite transferul variabilelor din cmpul cu lista din baza de date, n cel de analiz; (4) este cmpul unde trebuie transferate variabilele de analizat; (5) este un buton care deschide o fereastr cu opiunile de prelucrare statistic (va fi prezentat n continuare); (6) un buton care permite realizarea graficelor concomitent cu prelucrarea statistic; (7) este un buton ce permite modificarea formei OUTPUT-ului;
27
(8) acestea sunt butoanele comune, obinuite ale ferestrei. Dup ce am ales variabila sau variabilele pe care dorim s le analizm, trebuie selectate opiunile de analiz statistic, apsnd butonul STATISTICS. Pe ecran va apare fereastra de mai jos:
Observai c fereastra cuprinde opiuni, grupate n patru cmpuri. Aceste cmpuri au un titlu si sunt delimitate de o linie gri-deschis. Din titlul cmpurilor putei deduce la ce se refer opiunile respective: percentile values: permite calcularea diferitelor valori percentile corespunztoare mpririi subiecilor n grupuri egale sau n funcie de un anumit procentaj ales; dispersion: permite calculul diferiilor parametri referitori la dispersia sau mprtierea datelor n jurul valorii centrale (media, de obicei); central tendency: permite calculul parametrilor ce arat tendinele centrale ale distribuiei (media, mediana, etc.) distribution: permite calcularea turtirii i nclinrii distribuiei pentru a fi comparat cu cea normal (vom reveni ulterior cu detalii, atunci cnd vom vorbi despre curba normal). Din aceast fereastr vom alege pentru moment (bifnd sau fcnd click cu mouse-ul n ptrelul opiunii) doar: media, mediana, modul, varianta, deviaia standard, minimul si maximul. Apsai apoi CONTINUE si deschidei fereastra CHARTS. Pe ecran va apare o fereastr precum cea urmtoare:
28
Observai c si aici avem dou cmpuri. Unul permite alegerea tipului de grafic (cu bare, plcinte sau histograme), iar al doilea permite alegerea tipului de valori din grafic (frecvene sau procentaje). V recomandm s nu alegei acum nici o opiune si s realizai graficele separat, ntruct astfel vom avea o libertate mai mare n realizarea lor. Apsai CANCEL si activai fereastra FORMAT prin apsarea pe butonul cu acelai nume, care deschide fereastra:
i aici avem dou cmpuri: unul pentru opiuni privind aranjarea rezultatelor n ordine cresctoare sau descresctoare, etc.) si altul privind compararea variabilelor sau organizarea separat a foii de rezultate, n funcie de variabile.
29
Fereastra de mai sus ilustreaz modul n care se prezint foia de rezultate (OUTPUT), dup ce ai revenit n fereastra principal DESCRIPTIVES si ai apsat butonul OK. Observai organizarea ei: n partea superioar se afl o bar de butoane; n stnga este un cmp care v arat structura OUTPUT-ului, iar n cmpul din partea dreapt - coninutul OUPTUT-ului. Dup titlul foii de rezultate (FREQUENCIES), observai c sunt prezentate dou tabele: primul arat parametrii statistici pe care i-am cerut prin activarea ferestrei STATISTICS, iar a doua fereastr prezint tabelul frecvenelor. Observai c numrul din primul tabel, din dreptul meniunii VARIANCE (care arat varianta rezultatelor) nu este prezentat normal, ci prescurtat, din cauza limii prea mici a coloanei. Pentru a modifica orice dimensiune a tabelului, ca de altfel a oricrei forme de prezentare a rezultatelor, executai un click-dublu asupra zonei dorite, n acel moment, un cadru special sau chiar o fereastr nou va ncadra zona aleas si cu ajutorul mouse-ului putei modifica dimensiunile (similar cu modificarea tabelelor n WORD sau EXCEL).
cadrul de modificare al tabelului
Tabelul urmtor prezint tabelul frecvenelor realizat pentru variabila aleas. El are cinci coloane: prima prezint rezultatele valide (adic nu si cazurile lips), a doua coloan arat frecvena propriu-zis (ex. 4 persoane au un venit iniial de $9000), a treia coloan arat ce procentaj au aceste persoane raportat la numrul total al subiecilor, a patra coloan - procentajul raportat la numrul total al scorurilor valide (fr cazuri lips adic), a cincea coloan arat procentajul cumulat de cel mai mic scor pn la cel prezent.
30
tabelul frecvenelor
EXERCIIU: facei aceeai analiz pentru variabila CURRENT SALARY
Folosirea SPSS: meniul ANALYZE DESCRIPTIVES

Acum s prezentm analiza descriptiv a rezultatelor realizat cu ajutorul comenzii DESCRIPTIVES. Dup cum veti vedea, exist similariti cu comanda precedent, dar si diferene. Din meniul ANALYZE activai comanda DESCRIPTIVES, care va deschide fereastra de mai jos:
Ea este similar cu cea de la FREQUENCIES, doar c are mai puine butoane cu opiuni (unul n loc de trei). Alegei variabila pentru analiz (BEGINNING SALARY) si transferai-o n cmpul pentru analiz, folosind sgeata dintre cmpuri. Opiunea din partea stng-jos v permite salvarea n baza de date a unei noi variabile care va conine note z ale variabilei analizate. Apsai apoi butonul OPTIONS care va deschide fereastra urmtoare:
31
Aici observai c gsim mai puine opiuni de analiz statistic dect n cazul meniului anterior, sunt doar cele de baz; de aici si concluzia: comanda DESCRIPTIVES se aplic atunci cnd avem de analizat din punct de vedere descriptiv, simultan, mai multe variabile sau cnd ne intereseaz doar parametrii de baz ai variabilelor, fr tabelele de frecvene. Apsam CONTINUE si apoi butonul OK pentru a face s v apar pe ecran OUTPUT-ul:
fereastra cu rezultatele analizei DESCRIPTIVES
De aceast dat apare doar un singur tabel care v prezint parametrii statistici solicitai. Observai c, din nou, varianta i deviaia standard nu sunt prezentate complet datorit limii mici a coloanelor. Executai click-dublu asupra tabelului i modificai-i dimensiunile, la fel ca n WORD.
32
Folosirea SPSS: Grafice - histograme, bare, linii, plcint", box-plot

Se spune c o imagine face ct o mie de cuvinte. Vom prezenta n continuare diferite moduri de reprezentare grafic a rezultatelor. Toate se gsesc n meniul GRAPHS, dar apar uneori i ca opiuni n unele ferestre de prelucrare statistic din meniul ANALYZE. 1.- Histograme Vom alege pentru nceput opiunea HISTOGRAM, ca n imaginea de mai jos:
alegerea meniului pentru histograme
O dat activat aceast opiune, ea va deschide urmtoarea fereastr:
fereastra histogramelor
n cadrul acestei ferestre alegem o singur variabil pentru care dorim s facem reprezentarea grafic sub forma histogramei, n cazul nostru SALBEGIN (beginning salary) si o introducem - cu ajutorul butonului cu sgeat - n cmpul denumit VARIABLE. Putem bifa opiunea DISPLAY NORMAL CURVE, opiune care va afia curba normal a populaiei de eantioane din care provine eantionul nostru, n cazul nostru nu vom bifa aceast opiune. Pentru a obine graficul, dup aceste operaii apsam butonul OK.
33
histograma variabilei SALBEGIN
O histogram, aa cum se vede si n imaginea de mai sus, este un grafic n care barele sunt lipite una de alta. n ceea ce privete variabila prezentat grafic mai sus, constatm c ea are o distribuie asimetric, valorile mici predominnd ca frecven. Aceast distribuie este tipic pentru reprezentarea grafic a venitului n rndul oricrei populaii. Explicaia const n aceea c n orice populaie exist civa indivizi care ctig mult, n timp ce majoritatea ctig la un nivel mediu sau sczut, comparativ cu aceti indivizi. Observm n exemplul de mai sus c n timp ce marea majoritate ctig pn la 20.000 dolari anual, exist cteva persoane (barele de frecven din partea dreapt abia se zresc pe grafic) care ctig i pn la 80.000 dolari anual. Este posibil s dorim s modificm diferite aspecte ale graficului realizat de SPSS. Pentru aceasta trebuie s efectum un dublu-click pe grafic si vom observa c se deschide o alt fereastr numit CHART EDITOR, care are n partea de sus o bar cu meniuri si o alta cu butoane ce folosesc la modificarea diferiilor parametrii ai graficului (ex. culoarea barelor, haura lor, adugarea sau modificarea titlului, etc.), ca n imaginea de mai jos.
34
3 1 4 2
unele butoane utile ale editorului de grafice
Pentru a modifica un anume parametru al graficului, se selecteaz zona pe care dorim s o modificm (ex. dac dorim modificarea barelor, facem un click simplu pe ele) si apoi se activeaz unul din butoane. Am selectat mai sus doar patru din butoanele mai importante. Ele vor deschide mici ferestre de unde putei modifica parametrii, dup care apsai pe butonul APPLY si nchidei mica fereastr. (1) acest buton va modifica haura barelor (2) de aici se modific culoarea barelor (3) acest buton servete la modificarea tipului i mrimii literelor titlurilor sau meniunilortext din grafic (4) butonul permite afiarea valorilor numerice pe bare. S lum un exemplu i s vedem cum putem aduga un titlu graficului nostru. Vom face acest lucru din meniul CHART, comanda TITLE, ca n imaginea de mai jos.
35
n fereastra care se va deschide tiprii titlul SALARIUL DE LA NCEPUT si apsai butonul OK. Titlul va apare deasupra graficului. Mai putem, de asemenea, s modificm si ali parametri. De exemplu, un dublu-click asupra axei orizontale a graficului deschide fereastra de mai jos de unde putem modifica aranjamentul titlului axei (opiunea TITLE JUSTIFICATION), titlul n sine, etichetele (adic sumele corespunztoare fiecrei bare a histogramei), etc.
ntr-un mod similar putem modifica parametrii legai de axa vertical, efectund un dubluclick pe aceasta, aciune care va deschide fereastra de mai jos. Aici putem modifica intervalul de msur, titlul axei si putem cere trasarea unor linii orizontale la diferite niveluri.
Pentru a modifica parametrii oricrui titlu, efectuai un click-dublu, care va deschide fereastra de mai jos, de unde se modific stilul si mrimea literelor. Dup care apsai butonul APPLY si apoi CLOSE.
36
2.- Grafice cu bare Pentru a realiza grafice cu bare trebuie activat meniul urmtor:
Imediat, apare fereastra de mai jos, de unde trebuie selectat tipul de grafic cu bare ce dorim s-l realizm.
Dou sunt opiunile ce le putem face aici: (1) alegerea graficului n funcie de variabilele din cercetarea noastr simple: alegem aceast opiune cnd dorim s prezentm variabila sau variabilele dependente din cercetarea noastr n funcie de una din variabilele independente. clustered: se folosete pentru a reprezenta una sau mai multe variabile dependente n funcie de dou variabile independente. stacked: se folosete la fel ca opiunea de mai sus, doar graficul este realizat altfel.
37
(2) alegerea graficului n funcie de date summariesfor groups of cases: este opiunea cea mai frecvent i dac este aleas, atunci fiecare bar reprezint rezultatele unui grup de cazuri (ex. numai pentru grupul subiecilor femei). summaries of separate variables: fiecare bar reprezint n acest caz o variabil; aceast opiune e folosit mai ales n studiile de tip test-retest sau pentru variabilele care msoar de obicei acelai lucru (sau mcar se exprim n aceleai uniti de msur). values of individual cases: dup cum spune i numele, aceast opiune face ca barele s reprezinte valoarea cazurilor individuale; n acest caz graficul va semna mult cu o histogram. Pentru exemplul nostru, vom alege s reprezentm variabila dependent SALBEGIN (salariul iniial), n funcie de sexul subiecilor (GENDER). Vom alege astfel tipul de grafic simplu (simple) si opiunea de grafic pentru grupuri de cazuri (adic fiecare bar va reprezenta valorile pentru unul din sexe). Apsam apoi butonul DEFINE si pe ecran va apare fereastra:
2
Observai c aceast fereastr este mprit n mai multe zone (cmpuri) pe care le vom descrie sumar mai jos: (1) - este cmpul n care se gsesc variabilele existente n baza de date si de unde alegem pe acelea care trebuie reprezentate grafic; (2)- acest cmp precizeaz ce anume dorim s reprezinte variabilele noastre (ex. numrul cazurilor, procentaje, etc.). n exemplul nostru, dorim s reprezentm media ctigului salarial pe sexe. Deoarece media nu se gsete n opiuni, vom alege OTHER SUMMARY
38
FUNCTION i n momentul n care introducem variabila aleas n cmpul respectiv (cu ajutorul butonului cu sgeat), vom constata c acolo apare cuvntul MEAN (adic media). Dac ns am dori s reprezentm altceva dect media, spre exemplu mediana, atunci ar trebui s apsam pe butonul CHANGE SUMMARY. (3) - odat apsat acest buton, el deschid o alt fereastr, cu multe opiuni. Fereastra este prezentat mai jos i constatm c ea conine foarte multe opiuni (ex. s reprezentm deviaia standard sau doar procentajele cazurilor ce depesc o anume valoare, etc.)
de aici ne alegem mai detaliat ceea ce vrem s reprezentm grafic
(4) n acest cmp vom introduce variabila independent n funcie de care facem reprezentarea grafic, n cazul nostru sexul subiecilor (GENDER). (5) - este o opiune ce permite ca setrile (aranjamentele) pe care le-am folosit ntr-un grafic executat anterior s fie aplicate si n cazul graficului de fa. Dac bifai aceast opiune trebuie apoi s folosii butonul FILE pentru a selecta fiierul de unde dorii s mprumutai" setrile. (6) - folosind aceste butoane putei aduga un titlu graficului (butonul TITLE) sau s activai alte opiuni (OPTIONS). De altfel, acest din urm buton, care deschide fereastra prezentat n continuare, este important pentru a dezactiva opiunea DISPLAY GROUPS DEFINED BY MISSING VALUES, care realizeaz graficul si pentru subiecii care nu prezint valori ale variabilei independente (n cazul nostru pentru subiecii la care am uitat s completm n baza de date care este sexul lor).
fereastra butonului OPTIONS
39
Dup ce am selectat variabilele i opiunile , vom apsa butonul OK i computerul va realiza graficul cu bare, ca n imaginea de mai jos:
grafic cu bare
Atenie mare la graficele realizate! Prin construcia lui, programul SPSS alege diferite intervale de reprezentare si - ca urmare - putei fi indui n eroare n ceea ce privete magnitudinea diferenelor. Spre exemplu, dac nu am fi ateni la intervalul de reprezentare (de la 12.000 USD/an la 22.000 USD/an), am putea crede c femeile ctig de vreo 5 ori mai puin dect brbaii (ceea ce este fals, desigur), cnd n realitate, brbaii ctig de doar l ,5 ori mai mult. Pentru a remedia o astfel de distorsiune grafic, putem modifica intervalul de reprezentare. Facei dublu-click pe grafic, apoi pe axa vertical a graficului i n fereastra ce apare, modificai limitele minime i maxime. O astfel de fereastr, numita SCALE AXIS este prezentat n capitolul HISTOGRAME. 3.- Grafice cu linii. Pentru graficele cu linii nu trebuie s intrm n detalii, ntruct realizarea lor este extrem de similar cu cea a graficelor cu bare. Odat selectat opiunea din meniul GRAPHS, apare fereastra:
de aici selectm tipul de grafic
40
Urmai aceeai pai ca i n cazul graficul cu bare i vei obine n final o reprezentare precum cea de mai jos. Atenie, nu uitai s dezactivai opiunea DISPLAY GROUPS DEFINED B Y MISSING VALUES de la butonul OPTIONS!
aa arat graficul cu linii
i aici trebuie s avei n vedere problema scalrii rezultatelor ( intervalul de reprezentare). 4.- Grafice plcint Graficele de tip plcint" sunt folosite mai ales pentru a reprezenta grafic valorile (mai ales procentuale) pe diferite categorii, dintr-un ntreg dat. Ele sunt denumite plcint" pentru c valorile sunt reprezentate grafic ca si felii dintr-un tort. Activarea opiunii din meniul GRAPHS deschide fereastra de mai jos, care conine doar jumtate din opiunile ce apar la graficele cu bare sau cu linii. Nu le mai prezentm ntru ct am vorbit despre ele la tipurile anterioare de grafice.
Vom alege prima dintre opiuni, ca i n cazurile anterioare. ntruct prezentm pri dintrun ntreg nu putem folosi media ca n graficele anterioare, ci vom folosi suma, aa cum e reprezentat n pagina de mai jos:
41
Alegerea opiunii pentru folosirea sumei se face din butonul CHANGE SUMMARY. Iat cum arat un grafic plcint:
5.- Graficul box-plot Numele acestui tip specific de grafic este dificil de tradus n limba romn, aa c vom folosi numele preluat din limba englez. Box-plot-urile sunt grafice speciale, care sunt folosite la reprezentarea simultan a indicatorilor de nivel (medie, median) i a celor de dispersie. Vom explica n continuare, detaliat ce nseamn acest lucru. Odat activat opiunea BOXPLOT din meniul GRAPHS, va apare fereastra:
42
De aici putem alege aproape aceleai opiuni de reprezentare grafic ca i n meniul de reprezentare cu bare, doar c avem la dispoziie mai puine opiuni. Pentru exemplul nostru vom alege graficul SIMPLE i opiunea SUMMARIES FOR GROUPS OF CASES. Dup ce apsm butonul DEFINE activm fereastra urmtoare:
ntruct ceea ce este reprezentat grafic este dinainte presetat cu acest tip de grafice, nu mai avem aa multe opiuni n aceast fereastr. Alegem variabilele ca n imaginea de mai sus si apsam OK. Graficul rezultat arat astfel:
5 4 1 3 2
43
Cinci sunt elementele graficului care trebuie s ne atrag atenia: (1) - linia ngroat din interiorul cutiei" reprezint mediana, deci tendina central. Dac ea este mai apropiat de marginea de jos, atunci distribuia este nclinat spre stnga (predomin valorile mici si sunt puine cazuri cu valori mari, dar extreme), dac e mai apropiat de marginea superioar, atunci distribuia este nclinat spre dreapta. (2) - cutia" propriu-zis reprezint distribuia a 50% dintre subieci. Astfel, marginea de jos a cutiei arat valoarea percentilului 25%, iar marginea superioar - pe cea a percentilului 75%. Cu ct cutia" este mai mare, cu att variabilitatea rezultatelor este mai mare. (3) - limitele exterioare ale graficului, acele linii orizontale deasupra dedesubtul cutiei (numite n englez whiskers, adic musti c pisic") sunt trasate de la cea mai mic la cea mai mare valoare situate n limitele a 1,5 lungimi de cutie". i ele reprezint o msuri a variabilitii rezultatelor. (4) - cazurile extreme situate n intervalul 1,5-3 lungimi de cutie", sui reprezentate prin mici o - uri care au trecute n dreptul lor numrul cazului sau al subiectului respectiv. (5) - cazurile extreme situate la distane mai mari de 3 lungimi de cutie sunt reprezentate prin mici * (asteriscuri), care au trecute n drepi lor numrul cazului sau al subiectului respectiv.
Exerciii: Realizai reprezentarea grafic similar, cu toate tipurile de grafice si pentru variabila SALARY, care arat salariul curent al subiecilor Comentai n special graficul box-plot.
44
STATISTICA DESCRIPTIV (2) - sau cum s mai dm un neles datelor brute

Cuprins: Notele z Corelaia - Folosirea SPSS: meniul ANALYZE - CORRELATE - BIVARIATE - Folosirea SPSS: meniul DATA - SELECT CASES - Folosirea SPSS: meniul DATA - SPLIT FILES - Folosirea SPSS: meniul GRAPHS SCATTER
British Club Francis GaJton este considerat a fi inventatorul corelaiei statistice, dei Karl Pearson i ali matematicieni au conceput de fapt formulele de calcul. Galton era vr cu Charles Darwin, coleg cu Pearson i profesor al lui Gosset (inventatorul testului t), n secolul XIX, dup cum observai, statistica era apanajul unui mic "club" britanic organizat informai n rndul unor studeni de la Cambridge. Mai mult chiar, la vremea respectiv, muli savani din alte tiine fceau parte din acest "club britanic". Unul din membrii "clubului", Galton, era un gentleman bogat, independent i deosebit de excentric. Dincolo de contribuia sa n statistic, el avea studii medicale, participase la explorri n Africa, a inventat ochelarii pentru citit subacvatic, a fcut descoperiri n meteorologie i antropologie, ba chiar a scris un articol despre captarea semnalelor inteligente de pe alte planete. Dincolo ns de toate acestea, Galton a fost un "numrtor" nfocat. El numra aproape orice; de exemplu, el a numrat odat de cte ori casc audiena la o conferin, n funcie de plictiseala indus de vorbitor. Alt dat, n timp ce un pictor i fcea portretul, a numrat de cte ori trage acesta cu pensonul pe pnz (el a constatat c un pictor d cu pensula cam de 20.000 ori n timp ce face un portret). Ajunsese chiar s-i construiasc un mic dispozitiv de numrat, pe categorii. Pe acesta din urm 1-a folosit n timp "ce cltorea n coloniile britanice din Pacific, nregistrnd frumuseea localnicelor de acolo ca fiind "atrgtoare", "medie" i "neatrgtoare". Dar corelaia s-a nscut din preocuparea lui Galton de a numra criminalii, geniile i alte tipuri extreme umane n diverse familii. Adept al eugeniei (naterea sau creterea controlat a oamenilor) Galton dorea s vad n ce msur caracteristicile genetice se transmit de la prini la copii. Astfel el a descoperit o metod de a msura faptul c "un lucru merge mpreun cu alt lucru" - de fapt corelaia, ns n acele vremuri, stabilirea legturii dintre dou variabile era echivalent cu stabilirea unei legturi cauzale. Astfel, Galton trgea concluzia c din moment ce putem arta matematic c oamenii cei mai detepi provin din cteva familii nstrite, de vi nobil, iar majoritatea celor puin inteligeni - din familii srace, inteligena este cauzat de anumite gene. Era el oare ndreptit s afirme astea ? Voi din ce fel de familii v tragei?
45
Am vzut n capitolul anterior c pentru a descrie complet o distribuie trebuie s cunoatem nu numai tendina central (de obicei media), ci si gradul de mprtiere a scorurilor n jurul acestei valori. Necesitatea cunoaterii ambelor valori rezid n faptul c n tiinele sociale avem de-a face cu mrimi variabile, ca urmare trebuie s lum n consideraie i variabilitatea, nu numai valoarea medie.
Notele z i funciile lor

Dup ce au descoperit formula de calcul a variantei i a deviaiei standard, statisticienii au simit nevoia calculrii unei mrimi care s sintetizeze att tendina central, ct i variabilitatea i care s, descrie scorurile unei distribuii din ambele perspective simultan. Aceast nevoie a aprut astfel din necesitatea de a putea compara un scor cu o distribuie (de a estima de fapt poziia scorului n raport cu celelalte) i din trebuina de a compara dou distribuii diferite.
Estimarea unui scor n cadrul unei distribuii
Caz: Gic este psihoterapeut. El este specializat n tratarea depresiei. La o bere, el i povestete unui coleg c ultimul su pacient s-a vindecat n 5 edine de terapie. "Avea depresie grav sau uoar?" ntreab colegul. Gic d s rspund, dar i d seama c pentru a fi sigur de rspuns ar avea nevoie de statistic. Scoate un carneel n care avea notai ultimii si pacieni i constat c ei s-au vindecat n medie n 8 edine. E suficient media pentru a stabili c pacientul care s-a vindecat n 5 edine avea o depresie uoar? Din moment ce deviaia standard i media ne spun care sunt scorurile tipice sau medii, putem s stabilim dac un nou scor se abate de la distribuia noastr ntr-un sens mai mic dect limita minim de variaie (m-SD) sau n altul mai mare dect limita maxim (m+SD). n cazul lui Gic, cunoaterea mediei nu e suficient pentru a stabili c 5 edine sunt anormal de puine pentru pacienii si, deci c acest ultim pacient avea o depresie uoar. Pentru a stabili acest fapt avem nevoie i de deviaia standard. Calculai singuri media i deviaia standard cunoscnd c distribuia scorurilor pentru ultimii 10 pacieni ai lui Gic este cea de mai jos: 4, 12, 8, 8, 8, 9, 9, 6, 12, 4 Calculele arat c media este 8, iar deviaia standard este 2,64. Refcnd schema, vedem c scorurile tipice sunt cuprinse n intervalul 5,32 i 10,64.
46
Rotunjind valorile la numere ntregi, aceasta nseamn c n mod obinuit, pacienii lui Gic au nevoie de 6-10 edine pentru a se trata de depresie. Din moment ce intervalul 6-10 este considerat tipic, atunci ceea ce este n afara acestuia vor fi scoruri considerate atipice. Astfel, cei care se trateaz de depresie n mai puin de 6 edine vor fi pacienii cu depresie uoar, iar cei care se vindec n mai mult de 10 edine pot fi considerai ca avnd o depresie grav. Acum, avem i rspunsul la cazul nostru: pacientul care s-a vindecat n 5 edine a avut ntr-adevr o depresie uoar. Dar dac el s-ar fi vindecat n 6 sau chiar 7 edine, el era cu depresie normal, ntruct scorul su s-ar fi ncadrat n intervalul tipic de variaie. Este la fel cum punga de cafea de 96 grame este normal pentru intervalul de variaie 100 5, abia una de 94 de grame abtndu-se de la standard. Vedei aadar c n statistic, unde lucrm cu variabile, nu totdeauna un numr poate fi considerat "mai mic" sau "mai mare" dect altul (n general dect media). Este necesar s inem cont i de variabilitate. Situaia seamn cu aceea a cunoaterii intervalului de variaie a adncimii unui ru. Acesta nu are mereu aceeai adncime; uneori este mai adnc, alteori este mai puin adnc. Pe noi ne intereseaz care sunt fluctuaiile normale pentru a ti dac mai putem naviga pe el ori dac va fi secet (limita minim a adncimii), precum i dac nu cumva se anun vreo inundaie (limita maxim a adncimii, dincolo de care apele se revars). La fel este cazul i cu variabilele n statistic. Ne intereseaz nu doar media (adncimea medie a rului), ci si deviaia standard pentru a putea vedea limitele de variaie tipic. Pentru a nu face apel mereu la schema desenat anterior ori de cte ori dorim s comparm un scor cu o distribuie (s spunem dac el este mic, mediu sau mare), statisticienii au inventat notele Z. Formula pentru nota Z este:
Z= xm SD
(4)
Dac "citim" n cuvinte aceast formul vedem c nota Z, numit si not sau scor standard, arat deviaia unui scor (x) de la medie (m), iar aceast abatere este exprimat n deviaii standard (SD). Mai precis, nota standard arat cu cte deviaii standard se abate un scor de la medie. S vedem, pe schema de mai jos, ce note standard corespund mediei, precum si limitelor de variaie, maxim si minim.
47
nlocuind datele n formula (4) constatm c mediei i corespunde mereu (oricare ar fi ea si orice am msura) scorul standard Z = 0. Similar, limitei minime de variaie tipic i corespunde scorul standard Z = -1 , iar limitei maxime de variaie normal i corespunde nota standard Z = +1. Acum putem stabili nite reguli simple, care ne permit s stabilim imediat ce fel de scor este x n raport cu o distribuie la care cunoatem media (m) i abaterea sau deviaia standard (SD) pe baza calculrii scorului Z corespunztor lui: un scor x va ficonsiderat "mic"n raport cu o distribuie la care cunoatem media i deviaia standard, dac scorul su Z va fi mai mic dect -1; un scor x va fi considerat "mediu" n raport cu o distribuie la care cunoatem media si deviaia standard, dac scorul su Z va fi cuprins n intervalul [-l, +11]. un scor x va fi considerat "mare" n raport cu o distribuie la care cunoatem media si deviaia standard, dac scorul su Z va fi mai mare dect +1. Din regulile de mai sus deducem prima funcie pe care o joac scorurile Z: aceea de a compara un scor cu o distribuie la care cunoatem parametrii (media si deviaia standard), cu alte cuvinte de a preciza dac un scor este mic, mediu sau mare. Interesant este de tiut c notele Z arat nu numai poziia unui scor fa de o distribuie, dar i de cte ori acel scor este mai mare sau mai mic dect media (innd cont i de variabilitate). Spre exemplu, dac scorurile la un test de inteligen ntr-o populaia sunt descrise de media m=100 i deviaia standard SD=15, o persoan considerat "de dou ori mai detept ca ceilali" nu va avea un coeficient de inteligen de 200, cum am fi tentai s credem la prima vedere (inteligena nu e o constant, nu?), ci doar unul de 130 (Z = +2; adic el se abate de la medie cu dou deviaii standard n plus). Compararea a dou distribuii diferite Dar notele Z mai au o funcie: aceea de a compara scorurile aceleiai persoane obinute la probe diferite.
EX: O educatoare vine la psihologul grdiniei afirmnd c un copil din clasa ei este handicapat i ar trebui transferat la o alt grdini, cu program special. Psihologul nu poate da o recomandare fr investigarea prealabil a copilului. Astfel, el/ea i aplic copilului o prob de inteligen (ex. testul WISC - Wechsler Intelligence Scale for Children) i o prob de interaciuni sociale (ex. de cte ori copilul ia iniiativa n timp de o or atunci cnd se joac cu ali copii). Pot fi rezultatele de la cele dou probe comparate sau considerate mpreun? Scorurile lor brute nu pot fi comparate direct (la urma urmei, ele msoar lucruri diferite, nu?), dar scorurile lor standard - da.
S presupunem c la testul WISC, copii de vrsta subiectului investigat n exemplul de mai sus obin n general media ml=60 cu o deviaie standard de SD1=14. Copilul investigat de psiholog obine la aceast prob scorul x l =81. Dac transformm acest scor n not standard, conform formulei (4), obinem nota Z 1=1,5. Ea ne spune c, comparativ cu ceilali
48
copii, copilul nostru este de 1,5 ori mai inteligent. Deci problema mizat de educatoare nu se gsete la nivelul inteligenei. La proba de interaciuni sociale s presupunem c distribuia scorurilor n populaia de copii precolari are urmtorii parametri: m2 = 16 si SD2 = 4, care arat numrul de iniiative ntr-o or dejoac cu ali copii. Aplicnd proba copilului investigat obinem scorul x2 = 8. Exprimnd acest scor brut n scor standard obinem valoarea 72=-2. Deci, din punct de vedere al interaciunilor sociale, copilul nostru este de dou ori mai timid, mai puin sociabil. ntruct notele Z arat raporturi si sunt adimensionale (ele nu depind de ceea ce msurm), putem s calculm un scor Z total, al celor dou probe. Astfel Z=Z1+Z2 ne ofer valoarea Z=-0,5. Acest scor standard fiind unul mediu (cuprins n intervalul -1/+1) ne permite s afirmm c subiectul investigat este normal pe ansamblu si nu necesit o educaie special. Cauza problemelor sale sociale poate fi n cadrul familiei sau poate c st n marginalizarea sa de ctre educatoare.
Corelaia
Cunoatei c a doua funcie a scorurilor Z este de a compara scorurile obinute de aceeai persoan la probe diferite (v mai amintii de exemplul cu copilul considerat handicapat de educatoare?). S vedem cum putem s ne folosim de aceast funcie pentru a studia relaia dintre dou variabile.
Caz: Un psiholog de la o firm este interesat s stabileasc dac ntre numrul de subordonai i gradul de stres al managerilor exist vreo legtur. Pentru aceasta alege 6 manageri de la diferite departamente ale firmei, aplic un chestionar care msoar stresul i apoi msoar ci subordonai are fiecare dintre managerii alei. Obine tabelul de rezultate de mai jos, unde xl este scorul la chestionarul de stres i x2 este numrul de subordonai.
X1 9 11 6 14 12 2
X2 18 29 11 35 25 8
Observai c numerele din cele dou coloane, nu numai c sunt diferite ca ordin de mrime (prima coloan nu depete valoarea 20, iar a doua are aproape toate scorurile mai mari de aceast valoare), dar ele msoar n plus lucruri diferite. Cum am putea atunci s le asociem? Cel mai bine ar fi dac am transforma aceste scoruri brute (x1 i x2) n note Z (Zii Z2). Atunci, fiecare not Z ar arta poziia scorului n cadrul distribuiei din care face parte i putem apoi compara poziia scorurilor (adic s vedem, spre exemplu, dac scorurile "mici"
49
de la o variabil sunt asociate scorurilor "mici" la cealalt variabil, iar scorurile "mari" celor "mari"). Pentru aceasta avem nevoie de tabelul de mai jos, dup ce n prealabil am calculat mediile celor dou variabile. Astfel, avem ml=9, iar m2=21. X1 9 11 6 14 12 2 X2 18 29 11 35 25 8 X1-m1 0 +2 -3 +5 +3 -7 X2-m2 -3 +8 - 10 +14 +4 -13 (X1-m1)2 (X2-m2)2 0 9 4 64 9 100 25 196 9 16 49 169 Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75 Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35
SS1= 96, iar SS2=554. Putem calcula apoi varianta si deviaia standard. Astfel, SD1=4, iar SD2=9,60. Avnd valorile mediei si deviaiilor standard putem completa ultimele dou coloane ale tabelului. Urmrii cu atenie si comparai ultimele dou coloane ale tabelului. Ce fel de scoruri avem n ele. Conform semnificaiei scorurilor Z putem s "reformulm" ultimele dou coloane astfel: Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75 Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35 Semnificaia lui Z1 Scor mediu Scor mediu Scor mediu Scor mare Scor mediu Scor mic Semnificaia lui Z2 Scor mediu Scor mediu Scor mic Scor mare Scor mediu Scor mic
Observm astfel c pare s existe o relaie ntre cele dou variabile: ntlnim cam aceleai tipuri de scoruri la ambele variabile (scoruri mici asociate cu scoruri mici, iar cele mari); singurul caz n care nu avem aceast "potrivire" este la managerul al treilea, care are scoruri de tipuri diferite. Pe ansamblu ns putem spune c exist o relaie. Cum putem face s ilustrm mai uor relaia ce exist ntre cele dou variabile? Cum am putea avea doar un singur numr care s ne arate aceast relaie? Simplu, nmulind scorurile Z i apoi adunndu-le. n acest fel, dac ele sunt de acelai tip (ambele pozitive sau ambele negative) rezultatul acestei operaii va fi pozitiv, dac ele sunt de tipuri opuse (unul negativ i altul pozitiv) - rezultatul va fi unul negativ, iar dac nu exist o tendin de asociere, atunci numrul obinut va fi apropiat de zero. S procedm n consecin
50
Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75
Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35
Z1*Z2 0 0,41 0,78 1,81 0,30 2,36 (Z1*Z2) = 5,66
Adunnd aceste produse (Z1*Z2) obinem numrul 5,66. ns acest numr nu este suficient pentru a arta relaia de care avem nevoie. De ce? Pentru c el depinde ntr-o oarecare msur de numrul de perechi de cazuri pe care le-am luat n calcul. Gndii-v c el ar creste dac am fi aplicat msurtorile folosind 10 manageri n loc de 6. Ca s nu mai depind acest numr de numrul de cazuri, trebuie s divizm suma obinut prin N. Si astfel, obinem formula corelaiei Pearson: r=
(Z1* Z 2)
N
(5)
n cazul nostru, r=0,94. Coeficienii de corelaie au valori cuprinse ntre -l (care arat existenta unei legturi perfect si invers proporional ntre variabile), O (care arat independena total a variabilelor luate n analiz) i +1 (care arat existena unei legturi perfecte, direct proporional). Acum calculai singuri coeficientul de corelaie dintre greutatea (n kg.) si nlimea (n cm.) colegilor din subgrupa voastr.
Folosirea SPSS: meniul ANALYZE - CORRELATE BIVARIATE

Corelaia este o metod statistic descriptiv, ntruct ea descrie ce se petrece ntr-un grup de rezultate, "cine cu cine merg mpreun", dar nu arat o relaie cauzal. Pentru a putea exemplifica cum folosim SPSS pentru calculul corelaiei, avem nevoie de o baz de date. Aa c vom lucra cu o baza de date pe care o vom crea acum, dar care va fi similar cu cea denumit "frai", pe care am creat-o n primul capitol. Vom deschide programul SPSS si vom introduce datele n computer, ca n tabelul de mai jos:
51
QI1 109 101 104 106 112 115 116 109 115 121 120 113 102 104 106 104 108 106 106 124
QI2 110 102 103 106 115 115 119 104 121 110 123 111 114 101 106 106 109 105 107 103
Sex 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
Reamintim c datele arat coeficientul de inteligen msurat la perechi de frai (primul nscut - QI1 si al doilea nscut - QI2) de acelai sex. Salvai baza de date cu numele corei". Folosii pentru aceasta butonul de salvare sau comanda SAVE din meniul FILE. Observai c am codificat sexul subiecilor folosind cifrele l" (pentru feminin") si 2" (pentru masculin"). Aceste cifre sunt la libera noastr alegere, ele fiind pur si simplu coduri si fr s aib semnificaia de numr (adic, n acest caz l nu este de dou ori mai mic dect 2, ci pur si simplu un alt cod). La fel de bine puteam s avem 23 si 68, n loc de l si 2. n programul SPSS, aceast baz de date ar trebui s arate astfel, dup ce definii n prealabil si numele variabilelor:
52
n cazul n care avem variabile categoriale sau independente (variabile care arat categorii de scoruri, cum ar fi sexul subiecilor, mediul de provenien, zilele sptmnii, categorii de vrst, tipuri de boli, etc.), este indicat s definim aceste categorii pentru a ne uura munca de analiz a rezultatelor si pentru a nu uita care scoruri corespund fiecrei valori (n cazul nostru care sunt rezultatele femeilor si care sunt ale brbailor). Definirea valorilor se face din perspectiva VARIABLE VIEW activat din josul paginii (revedei primul capitol dac ai uitat cum se face acest lucru). Odat activat perspectiva VARIABLE VIEW, pe ecran va apare imaginea:
Observai c n dreptul variabilei SEX, pe coloana VALUES avem meniunea NONE. Aici trebuie s definim noi valorile acestei variabile (adic s asociem codurile l si 2 cu cele dou sexe). Pentru aceasta executai un click pe coloana VALUES n dreptul variabilei SEX. Va apare fereastra de mai jos:
Observai c butonul AD s-a activat dup ce ai scris. Drept urmare el trebuie apsat pentru a activa codul i eticheta astfel alese.Dup apsare fereastra va arta ca n imaginea urmtoare:
53
Se observ c 1 este un cod care are semnificaia feminin i nu semnificaia sa obinuit de numr. La fel se procedeaz i pentru cellalt cod, ca n imaginea de mai jos:
Revenii apoi n perspectiva DATA VIEW. Constatai c nu apare nici oschimbare vizibil. Si totui, dac dorii s vizualizai etichetele alese, activai comanda VALUE LABELS din meniul VIEW, ca mai jos:
Astfel, pe ecran va aprea eticheta aleas, n dreptul variabilei SEX:
54
S vedem acum cum calculm corelaia cu ajutorul programului SPSS. Toate prelucrrile statistice se fac, reamintim, din meniul ANALYZE. De aici alegem comanda CORRELATE, opiunea BIVARIATE (adic corelaia ntre dou variabile), ca n imaginea urmtoare:
Activarea comenzii va deschide o fereastr din care putem alege opiunile ca n imaginea de mai jos:
1 2 3 4
S analizm puin fereastra: (1) - este, ca de obicei, cmpul ce prezint variabilele din baza de date (2) - este cmpul n care introducem variabilele de analizat. Atenie! Putem introduce aici mai mult de dou variabile, chiar dac metoda se cheam BIVARIATE. Programul va calcula apoi corelaiile ntre toate variabilele, luate dou cte dou. (3) - de aici putem selecta tipul corelaiei pe care dorim s-1 folosim. Ele au la baz diferite formule. Corelaia PEARSON se folosete pentru date parametrice (rezultate din msurtori ce au la baz scale ordinale, de interval sau de raport). Corelaiile Kendall si Spearman sunt folosite pentru variabile categoriale, ordinale sau atunci cnd datele noastre se abat puternic de la distribuia normal.
55
(4) - permite selectarea pragului de semnificaie n funcie de tipul ipotezei de cercetare. Recomandarea mea este ns s folosii totdeauna pragul bidirecional, TWOTAILED, pentru a avea mai mult ncredere n rezultatele astfel obinute. (5) - bifarea acestei opiuni (care este activ din start) face ca n dreptul corelaiilor ce sunt semnificative s apar un asterisc (*). Introducei variabilele pentru analiz, ca n imaginea de mai jos:
Putei folosi butonul OPTIONS pentru a solicita programului s fac o mic analiz descriptiv a rezultatelor sau pentru a preciza cum s trateze valorile lips.
Observai n imaginea de mai sus c exist dou modaliti de a trata valorile lips (cmpul MISSING VALUES). Prima opiune (EXCLUDE CASES PAIRWISE) exclude de la analiz perechile de rezultate pentru care nu avem una din valori, n timp ce a doua opiune (EXCLUDE CASES LISTWISE) exclude de la analiz un rnd ntreg din baza de date dac doar una din valori lipsete. De obicei, mai frecvent este prima opiune, cea care si este activ din start. Apsai CONTINUE si apoi butonul OK. Programul va deschide automat fereastra OUTPUT unde v sunt prezentate rezultatele.
56
S vedem acum n ce mod se citesc si se interpreteaz informaiile de pe ecran, n primul rnd, observai dispunerea rezultatelor: ele seamn cu datele despre distana dintre orae pe care le gsim n mod obinuit n agende. Pe rndul orizontal de sus sunt aezate toate variabilele alese pentru corelaie (aa cum erau scrise oraele ntre care calculam distantele n agende); pe vertical, de asemenea avem toate variabilele. Corelaia dintre dou variabile se citete la intersecia numelor lor pe vertical i orizontal (la fel cum citeam distanele). Desigur, ntre o variabil i ea nsi nu putem avea corelaie (de fapt ea exist, dar are valoarea l , adic corelaie perfect pozitiv), fapt observat prin absena lui p (despre p vom discuta ulterior), deci nu vom lua n seam corelaiile de pe aceast diagonal. Mai observai c ceea ce se gsete n dreapta diagonalei este identic cu ceea ce se afl n stnga ei (adic corelaia dintre variabilele A i B este aceeai cu cea dintre variabilele B i A).
Prag de semnificaie
S comentm puin ce este pragul de semnificaie. n statistic, avem nevoie s generalizm concluziile studiilor, chiar i ale acelora descriptive, cum este corelaia. Astfel, ne intereseaz s vedem dac relaia gsit de noi (la un grup de oameni) poate fi extins la ntreaga populaie. Mai precis, ne intereseaz s tim n ce msur rezultatele noastre se datoreaz ntmplrii i n ce msur - nu. Ei bine, acest p (prescurtare de la procent) ne arat n ce msur ne nelm atunci cnd afirmm ceva (n cazul corelaiei: c exist o legtur ntre dou sau mai multe variabile). n cercetarea tiinific se lucreaz de obicei cu dou praguri de semnificaie, corespunztoare procentajului de eroare: pragul de 0,01 (1% eroare) i pragul de 0,05 (5% eroare).Cnd folosim unul sau altul? S lum un exemplu.
Exemplu: S presupunem c suntei angajat de un mprat despotic ca i prezictor oficial. mpratul se folosete de "puterile" voastre pentru a-i impresiona supuii, n general, atunci cnd facem predicii se pot ntmpla patru situaii, conform tabelului de mai jos: 57
Predicia evenimentului
Apare Nu apare
Evenimentul Apare Nu apare Corect Eroare 1 Eroare 2 Corect
Observai c sunt dou situaii n care putem s greim: (I) afirmm c un eveniment se produce cnd n realitate nu se produce; (II) - afirmm c un eveniment nu se produce atunci cnd el se produce. Cnd va fi mpratul mai suprat c greim? R: n situaia (I); atunci el apare prost n ochii supuilor si, mai mult dect n situaia (II). De altfel, dac suntei ateni, situaia (I) corespunde cu minciuna, iar situaia (II) - cu ignorana. i n tiin exist aceste dou situaii n care noi putem grei. Deoarece prima greeal are consecine mai grave, preferm n cazul acesta pragul de semnificaie de 0,01; dac dorim ns s avem mai multe anse n a demonstra ceva i consecinele nu sunt aa grave n caz de greeal, atunci preferm pragul de eroare de 5%, deci un p=0,05 n concluzie, vom considera un test statistic ca fiind semnificativ dac pragul de semnificaie este mai mic sau egal cu valoarea 0,05. Interpretarea corelaiei Revenind la exemplul nostru (rezultatele, aa cum sunt ele prezentate n SPSS) s vedem acum cum anume se interpreteaz corelaia, cunoscnd si felul n care se interpreteaz pragul de semnificaie. Cele trei numere prezentate de computer la intersecia dintre numele variabilelor sunt, n ordine de sus n jos: coeficientul de corelaie (n exemplul nostru r=0,50), pragul de semnificaie (n exemplul nostru p=0,02) si numrul de subieci (n exemplul nostru, numrul 20). Trei sunt elementele ce conteaz n interpretarea corelaiei: pragul de semnificaie: dac este mai mic de 0,05, atunci putem considera c exist o relaie ntre variabilele studiate; n cazul nostru putem spune c exist o legtur ntre coeficientul de inteligent al primului nscut si al celui de-al doilea nscut de acelai sex. Reamintim c pragul de semnificaie arat probabilitatea de a grei atunci cnd afirmm c ntre variabile ar fi o legtur. Deci el trebuie s fie ct mai mic pentru a putea face aceast afirmaie. semnul corelaiei: arat natura legturii care exist: direct proporional, dac semnul este pozitiv sau invers proporional cnd semnul este negativ, n cazul nostru, semnul este pozitiv, deci legtura este direct proporional sau, dac interpretm folosind cuvintele: dac primul nscut are un coeficient de inteligen ridicat, atunci exist tendina ca si al doilea s aib un coeficient similar, mrimea absolut a coeficientului: descrie tria legturii ce exist ntre variabile; se consider astfel c legtura este slab dac valoarea absolut a lui r nu depete 0,30;
58
legtura este de trie medie la o valoare cuprins ntre 0,30-0,50 si vorbim de legturi puternice dac mrimea absolut este mai mare de 0,50. n exemplul nostru, tria legturii este medie, pentru c nu depete cu mult valoarea de 0,50. Toate aceste elemente trebuie s apar n interpretare, pentru ca ea s fie complet. OBS: Ai observat c n interpretare am folosit cuvntul "exist tendina". De ce? Pentru c relaia descoperit nu este ntlnit exact, n toate cazurile (nu uitai c noi lucrm cu variabile, fenomene sociale care sunt influenate de mai muli factori), ci este vorba de o relaie probabilistic. i arunci, n ce msur gsim relaia n realitate? Coeficientul de corelaie ridicat la ptrat ne indic proporia de variant explicat de relaia gsit, mai precis ce procentaj din populaia general prezint exact relaia, n cazul nostru, se observ c abia 25% din variaia observat n populaie o ntlnim n realitate, deci relaia gsit este prezent exact n acest mod (direct proporional) la 25% dintre frai.
Folosirea SPSS: meniul DATA - SELECT CASES

Uneori ne este util s selectm anumite cazuri din populaie pentru a face o prelucrare statistic. Spre exemplu, credei c acelai coeficient de corelaie l vom gsi n egal msur si la femeile si la brbaii din studiul nostru? Nu, desigur. Spre exemplu, dac la o petrecere 25% dintre participani se mbat (astfel c toat lumea a avut impresia c "s-a but, nu glum!"), iar petrecerea a avut loc n trei camere, vom gsi n fiecare din acele trei camere exact 25% de persoane n stare de ebrietate? Nu se poate ti. Este posibil, dar la fel de bine, cei bei se puteau gsi doar ntre-o singur camer, nu-i aa? La fel i n exemplul nostru. Suntem interesai s vedem dac relaia dintre coeficienii de inteligen a celor doi frai o gsim, s zicem, la subiecii de sex feminin? Pentru aceasta vom folosi comanda SELECT CASES din meniul DATA, ca n imaginea urmtoare (atenie!, pentru a avea meniul DATA activ, trebuie s revenii la perspectiva DATA VIEW. Facei click pe numele fiierului din bara de sarcini situat la baza ecranului, cea care are butonul START n stnga sau activai numele fiierului din meniul WINDOWS).
59
Odat activat acest comand deschide fereastra:
Fereastra este organizat ntr-un mod tipic: are n partea stng variabilele din baza de date, iar n dreapta diverse opiuni. Pe noi ne intereseaz doar opiunea IF CONDITION IS SATISFIED, pentru c dorim s selectm cazurile care ndeplinesc condiia c pentru variabila SEX au valoarea 1 ( femeilor li s-a atribuit acest valoare n cadrul variabilei SEX). Prin urmare vom alege acest opiune i vom activa butonul IF care deschide fereastra urmtoare:
Aici, selectm variabila SEX, o trecem n cmpul din dreapta cu ajutorul sgeii si adugm condiia SEX-1 (de la tastatur sau folosind butoanele din mijlocul ferestrei). Observai c putem scrie aici condiii mult mai complicate si putem folosi pentru aceasta diferite funcii (precizate n cmpul FUNCTIONS din partea dreapt-jos a ferestrei). Apsam apoi butonul CONTINUE, apoi pe OK si observai ce se ntmpl n fereastra SELECT CASES:
60
n dreptul butonului IF a aprut condiia specificat de noi. Atenie! Avei grij ca n partea de jos a ferestrei n cmpul UNSELECTED CASES ARE s fie marcat opiunea FILTERED si nu DELETED, altfel programul va terge datele neselectate! Apsai butonul OK si observai ce se ntmpl n baza de date:
Vedei c apare o nou variabil la sfrit, intitulat FILTER_$, dup care se realizeaz selecia. Mai observai c pe margine apar cazurile neselectate ca fiind "tiate", adic ele vor fi ignorate de la analiz, iar n partea din dreapta-jos a ecranului apare anunul FILTER ON, care v informeaz c selecia dup variabila filtru este activ. Atenie! Muli se ateapt ca odat datele selectate computerul s efectueze i analiza statistic dorit. Nu este aa! Selectarea datelor nu implic si efectuarea analizei statistice! De aceea, dup ce ai selectat, facei din nou prelucrarea, n cazul nostru corelaia. Pentru aceasta repetai paii efectuai anterior; adic activai comanda ANALYZE-CORRELATEBIVARIATE. Observai c variabilele se gsesc deja n rmpul pentru analiz. Ele au rmas aa de la prelucrarea anterioar, aa c nu rmne dect s apsai butonul OK i va apare rezultatul:
61
Interpretai singuri rezultatul astfel obinut, respectnd cele trei elemente ale interpretrii, n ce proporie relaia gsit o ntlnim n realitate la femei? Dup ce folosii acest "filtru" n prelucrarea statistic, este indicat s l dezactivai imediat pentru a nu-1 uita activ pentru alte prelucrri la care nu avei nevoie de o analiz, doar pentru femei. Pentru dezactivarea seleciei, mergei din nou n meniul iniial DATA-SELECT CASES si n fereastra respectiv, n partea de jos, gsii un buton denumit RESET (atenie! nu e butonul cu care resetai calculatorul). Apsai-1 si indicaia FILTER ON din dreaptajos trebuie s dispar, la fel si tieturile" din partea stng a bazei de date, ceea ce indic faptul c acum analizm toate cazurile.
Folosirea SPSS: meniul DATA - SPLIT FILE

Uneori ns dorim s vedem ce se ntmpl pentru fiecare subgrup de subieci n parte; n cazul nostru, de exemplu, dorim s tim ce se ntmpl cu relaia gsit de noi n general nu numai la femei, ci si la brbai. Pentru a nu repeta comanda SELECT CASES de multe ori (imaginai-v ce ar fi dac am avea o variabil de grupare legat de zilele sptmnii: ar trebui s repetm comanda SELECT CASES de 7 ori) vom apela la o alt comand din meniul DATA (dup ce am revenit n prealabil n perspectiva DATA VIE W), anume SPLIT FILE, pe care o activm ca n imaginea urmtoare:
62
Odat activat, comanda SPLIT FILE deschide o fereastr precum cea de mai jos, de unde putem alege opiunea noastr:
Dintre opiunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS si apoi, cu ajutorul sgeii, introducem variabila de grupare (SEX, n cazul nostru) n cmpul GROUPS BASED ON. Dup ce apsai OK. n partea dreapt-jos apare anunul SPLIT FILE ON, care v informeaz c baza de date este deja mprit dup condiiile variabilei de grupare, ca n imaginea de mai jos:
La fel ca si n cazul comenzii SELECT CASES, simpla mprire a bazei de date nu v asigur si prelucrarea statistic. De aceea, trebuie s facei din nou corelaia dup ce ai mprit baza de date, pentru a vedea care este situaia n grupul de femei i n cel de brbai. Pe ecran va apare OUTPUT-ul:
63
Interpretai rezultatele astfel obinute! Observai c relaia gsit iniial apare doar pentru subiecii de sex feminin i nu pentru cei de sex masculin! Cum putei interpreta aceste rezultate? Ce ai putea spune unor prini care v-ar ruga s precizai cum va fi al doilea nscut al lor (mai inteligent sau mai puin inteligent), dac primul lor nscut este foarte inteligent, precoce chiar?
Folosirea SPSS: meniul GRAPHS SCATTER

Relaia dintre dou variabile poate fi reprezentat grafic sub forma unui nor de puncte. Practic, graficul l alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:
De aici trebuie s selectm tipul graficului pe care dorim s-1 facem, n cazul nostru dorim un grafic simplu, car s arate relaia dintre dou variabile. Observai c opiunea SIMPLE este deja selectat (conturul mai gros din jurul opiunii).
Apsm apoi butonul DEFINE, care deschide urmtoarea fereastr:
64
Cele dou variabile se introduc n cmpul cu cele dou axe (nu conteaz prea mult care variabil se introduce pe care ax) i apoi se apas OK. nainte de asta ns dezactivai comanda DISPLAY GROUPS DEFINED BY MISSING VALUES din butonul OPTIONS a crui fereastr este prezentat mai jos:
65
Graficul va apare astfel:
Graficul corelaiei este un nor de puncte cresctor (de la stnga-jos spre dreapta-sus) dac relaia este pozitiv sau direct proporional. Dac relaia ar fi fost invers proporional, norul ar fi fost orientat descresctor (din stnga-sus spre dreapta-jos). n cazul n care nu ar fi nici o relaie, punctele ar fi fost distribuite uniform pe grafic.
66
ELEMENTE DE STATISTIC INFERENTIAL - sau cum s vedem dac BOABELE DE FASOLE sunt fierte CUPRINS: Distribuia normal Etapele testrii unei ipoteze. Testul Z pentru a compara un caz cu o populaie cunoscut - Testul Z pentru a compara un eantion cu o populaie cunoscut - Testul t pentru a compara un eantion cu o populaie la care tim doar media Folosirea SPSS: meniul ANALYZE - COMPARE MEANS '- ONESAMPLE T-TEST Folosirea SPSS: meniul TRANSFORME - RECODE
Cnd nu amestecm bine legumele din oal

Anul 1948 a fost un an nefast pentru cele mai mari trei institute de sondare a opiniei publice n Statele Unite: Gallup, Crossley i Roper. Toate trei au prezis victoria n alegerile prezideniale a a republicanului Dewey fa de Truman, democratul. Rezultatul a infirmat toate prezicerile: Truman a ctigat alegerile, victoria sa punnd sub semnul ntrebrii modalitatea de eantionare folosit. Ce se ntmplase de fapt? Pn atunci, institutele de sondare a opiniei publice foloseau o metod de eantionare pe cote". Fiecrui operator de teren i se aloca un numr fix de interviuri pe care trebuia s-1 realizeze i i se ddea libertatea s aleag persoanele intervievate, cu condiia s respecte anumite categorii sociale (vrst, sex, status economic, ras, etc.). Nimeni nu a realizat atunci c republicanii aveau anse mai mari dect democraii s fie alei n interviurilor pentru c ei erau mai uor de gsit; aveau telefon mai frecvent dect democraii, triau n case mai bune, etc.). Acest fapt a distorsionat rezultatele sondajelor din 1948 n ciuda faptului c au fost folosii zeci de mii de subieci (e\. Gallup a intervievat 50.000 persoane). De atunci, sondajele nu au mai greit att de grosolan, chiar dac eantioanele folosite de institute nu depesc de regul cteva mii de persoane. Spre exemplu, eantionul reprezentativ folosit astzi de institutul Gallup numr aproximativ 4100 persoane, eantion reprezentativ pentru cele 300 milioane de americani. Metoda de eantionare folosit azi este probabilistic i pornete de la principiul c fiecare cetean cu drept de vot trebuie s aib aceeai probabilitate de a fi selectat pentru interviu. Astfel, erorile n predicie nu vor fi mai mari de 3%. Metoda iniial folosit pn n 1948 era ca i cum, dorind s vedem dac legumele din oal sunt fierte, nu am amesteca bine coninutul i le-am lua n lingur doar pe cele mai fierte sau mai puin fierte.
67
Distribuia normal
Lumea n care trim nu este constant, ci mai degrab variabil. Cu toate acestea ea nu este haotic. Deci variabilitatea de care vorbeam urmeaz totui nite reguli care pot fi modelate matematic. S lum un exemplu. S presupunem c aruncai o greutate de mai multe ori i msurai distana la care o aruncai. Desigur c aceasta va varia; cteodat vei arunca mai departe, alteori - mai aproape. Fcnd msurtorile, vei observa o distane medie la care ai aruncat mai des, dar i abateri de la ea. Mai mult, dac ar fi s desenm un poligon al frecvenelor, care s arat de cte ori am aruncat greutatea la o anume distan am observa c el ar avea forma unui clopot rsturnat (numit adesea distribuie gaussian) precum n imaginea de mai jos.
Aceast distribuie are o descriere matematic foarte precis, dar nu este scopul manualului de fa de a o detalia (exist de altfel suficiente lucrri de statistic matematic care pot fi consultate pentru doritori). Ceea ce este importat de reinut este faptul c dac fenomenul social observat este aleatoriu si este urmrit o perioad de timp mai ndelungat, atunci distribuia rezultatelor se face dup curba normal, iar acest lucru poate fi demonstrat matematic. Dar nu este scopul volumului de fa de a face acest lucru. Unele caracteristici ale curbei normale Atunci cnd am menionat prima dat poligoanele de frecven care arat distribuia rezultatelor, am precizat c exist trei parametri, trei caracteristici prin care este descris orice distribuie, pe care i reamintim n continuare: modalitatea - este un aspect important al distribuiei care arat cte "vrfuri" are o distribuie. Cu alte cuvinte, arat cte valori sunt n jurul crora se grupeaz foarte muli subieci. Din acest punct se vedere, distribuiile pot fi unimodale, adic au un singur vrf, sau ele pot fi multimodale, adic au mai multe vrfuri. nclinarea - este un aspect al distribuiei care arat dac scorurile subiecilor testai au tendina de a fi mai mari sau mai mici. Spre exemplu, notele colare au o distribuie nclinat spre dreapta, adic elevii au tendina de a lua mai mult note mari dect note mici. Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribuie nclinat pozitiv. Atunci cnd distribuia este nclinat spre stnga, spunem c aceasta este negativ. Dac nu se observ nici o tendin de nclinare, atunci distribuia este simetric.
68
turtirea- este un aspect ce se refer la faptul dac o distribuie este foarte turtit (adic scorurile din cadrul ei variaz foarte mult) sau este mai ascuit (adic scorurile variaz foarte puin). Din perspectiva celor trei parametri, curba normal este unimodal, simetric si mediu turtit. n plus, curba normal mai posed anumite proprieti speciale. Astfel, maticienii au pus la punct formule care permit calcularea diferitelor suprafee ale curbei, iar acestea sunt foarte importante pentru statisticieni. Pentru a nelege mai uor despre ce este vorba, s lum drept exemplu distribuirea rezultatelor la un test de inteligen. Aceste teste sunt construite astfel nct la aplicaii repetate, pe multe persoane, distribuia rezultatelor s fie normal, n plus, ele sunt astfel construite ca media rezultatelor s fie 100, iar abaterea sau deviaia standard s fie de 16 puncte. S analizm puin aceast distribuie, care e prezentat n imaginea urmtoare:
Scoruri brute Scoruri Z
68 -2
84 -1
100 0
116 +1
132 +1
distribuirea normal a rezultatelor obinute la un test de inteligen
ntruct distribuia normal este simetric, exact 50% din cazuri vor avea scoruri sub valoarea medie (scorul 100); mai mult, aproximativ 34% din cazuri se vor afla ntre medie si o abatere standard la stnga sau la dreapta. De altfel, dac urmrii cu atenie forma curbei normale vei constata prezena unor puncte de inflexiune", adic puncte n care linia curb i modific forma (mai precis, tangenta la curb trece din exterior spre interior sau invers). Ei bine, aceste puncte corespund tocmai deviaiilor standard. Dar la ce ne folosete cunoaterea acestor procentaje? In exemplul cu testul de inteligen cunoscnd c rezultatele se distribuie normal vom ti c 34% dintre oameni au scorul cuprins ntre medie (100) i o deviaie standard deasupra sau dedesubtul acestei valori. tiind c deviaia standard e 16 tim astfel c 34% dintre indivizi vor avea scorul cuprins ntre 100 i 116 (cei cu IQ situat deasupra mediei) sau ntre 84 i 100 (cei cu IQ situat dedesubtul mediei). Observai de asemenea c si mai puine cazuri sunt mai deprtate de medie; mai precis, abia 16% din cazuri vor avea scoruri mai mici sau mai mari de o deviaie standard. Cu alte cuvinte, numai 16% dintre oameni au coeficientul de inteligen mai sczut de 84 sau mai ridicat de 116. Mai mult, doar aproximativ 2% dintre indivizi vor avea scoruri i mai
69
extreme, mai mici sau mai mari dect dou deviaii standard fa de medie (adic sub 68 sau peste 132). Observai astfel c exist o strns legtur ntre scorurile standard (notele z) i diferite procentaje sau frecvene relative. Cunoscnd nota z a unui subiect i tiind c rezultatele la prob se distribuie normal, putem cunoate cu precizie ci indivizi din populaie au scoruri mai mici sau mai mari dect al subiectului investigat. Orice manual de statistic are la sfrit un tabel care permite calcularea acestor procentaje cu precizie, n acel tabel, pentru fiecare not z, este precizat un procent, care arat ci subieci au scorurile cuprinse ntre medie si nota z cutat de noi. S lum un exemplu. S presupunem c o persoan obine la testul de inteligen scorul 125. tiind c media la test este 100 i deviaia standard 16, putem calcula uor nota z a acestui subiect care este 1,56 - din formula: (l25-100)716 (dac ai uitat formula de calcul a notelor z i semnificaia lor, re vedei capitolele anterioare). Dac vom consulta unul din tabelele de care aminteam anterior, vom vedea n dreptul lui 1,56 valoarea 44,06%. Aceasta nseamn c de la medie (100) i pn la scorul nostru (125) sunt 44,06% dintre subieci. Aceasta arat c doar 5,94% dintre indivizi vor avea scoruri mai mari (50%-44,06%) i 94,06% (50%+44,06%) vor avea scoruri mai mici dect subiectul ales de noi. Populaie si eantion. Logica inferenei statistice. V vom introduce acum n domeniul inferenei statistice pornind de la exemplul cu fiertul boabelor de fasole. S presupunem c fierbem fasole; la un moment dat luai cteva boabe ntr-o lingur i vedei dac ele sunt fierte, trgnd apoi concluzii despre cum sunt fierte toate fasolele din oal. n acest exemplu, fasolele din oal reprezint populaia (ntregul set de obiecte sau lucruri care ne intereseaz), iar cele din lingur - eantionul (un subset la care avem de fapt acces), n ce msur ns suntei sigur c i restul oalei de fasole are aceleai caliti ca si boabele pe care le gustai? Pentru a vedea cum se realizeaz inferena statistic, vom lua cel mai simplu exemplu, testul z pentru a compara un singur caz cu o populaie a cror parametri sunt cunoscui. Exemplul are la baz urmtoarea istorioar (adaptat dup Aron & Aron,1995):
Un grup de farmaciti au sintetizat o vitamin care se presupune c accelereaz procesele de asimilaie la copii nou-nscui, astfel c acetia vor cunoate o dezvoltare mai rapid. Unul dintre efecte este scderea vrstei la care copii ncep s mearg. Farmacitii au dorit s omologheze vitamina, dar Ministerul Sntii din Statele Unite le-a cerut s demonstreze c ntr-adevr vitamina-lor accelereaz mersul copiilor. Pentru aceasta farmacitilor li s-a dat voie s o administreze numai unui singur copil nou-nscut, ales aleatoriu din populaie. Copilul respectiv, dup administrarea vitaminei a mers la vrsta de 8 luni. Pot farmacitii s susin c vrsta precoce la care a mers copilul se datoreaz vitaminei lor tiind c vrsta la care merg copii prima dat, n populaia normal este de 14 luni, cu o abatere standard de 3 luni? n ce msur se poate afirma c efectul obinut se datoreaz vitaminei i nu altor factori?
Pentru a rspunde cu dovezi statistice la o astfel de ntrebare, trebuie s facem apel la distribuia normal a variabilei alese n cadrul populaiei si s respectm anumite etape n
70
raionamentul nostru. Prezentm n continuare curba normal corespunztoare vrstei de debut al mersului la copiii din populaia normal.
Scoruri Z
8 luni -2
11 luni 14 luni 17 luni 20 luni -1 0 +1 +2
distribuia normal a vrstei de debut a mersului la copil
n primul rnd, trebuie s vedem care e semnificaia procentajelor prezentate pe curba normal. Pe de o parte, ele arat - aa cum precizam anterior - ci subieci din populaii normal au scoruri cuprinse ntre anumite valori. De exemplu, n cazul de fat, 34 dintre copii ncep s mearg ntre 11 si 14 luni (de la medie la o abatere standard spre stnga), sau 16% (14%+2%) dintre copii merg dup vrsta de 17 luni (scoruri situate peste valoarea unei abateri standard). Pe de alt parte, aceste procentaje pot fi privite si ca prob abiliti. De exemplu care este probabilitatea ca, alegnd un copil la ntmplare, el s mearg ntre 11 si 14 luni? Rspunsul este 34% (adic procentul de copii care merg n mod normal ntre aceste vrste). Sau: care este probabilitatea ca un copil ales la ntmplare s mearg mai ra de 17 luni? Rspunsul este: 16%. Observai c am subliniat faptul c acel copil trebuie ales la ntmplare (ceea ce nseamn c el nu e supus unor condiii speciale de cretere L altfel aceste procente nu pot fi considerate drept probabiliti. S revenim la exemplul nostru cu farmacitii. Reamintim c dup ce copilul, ala la ntmplare, a luat vitaminele el a mers la vrsta de 8 luni. S vedem acum, care este probabilitatea ca n condiii normale fr vitamine - un copil s mearg la 8 luni sau mai devreme de aceast vrst? Observai c vrsta de 8 luni corespunde pe curba normal unui scor z = -2 si c doar 2% dintre copii merg nainte de aceast vrst n condiii normale. Deci, probabilitatea ca un copil, ales la ntmplare din populaie, s mearg fr nici un ajutor extern, fr nici o condiie special nainte de 8 luni este de 2%. O probabilitate foarte mic, nu? n exemplul nostru, copilul a mers la 8 luni dup ce a luat vitaminele. Deci putem respinge argumentul c vitamina nu a avut efect si s acceptm faptul c ea a avut ntr71
adevr un efect (probabil c mai trebuie s citii aceast propoziie nc o dat). In ce msur a avut vitamina efect? In proporie de 98%. Cum judecm? Dac fr vitamin doar 2% dintre copii mergeau pn la 8 luni,probabilitatea ca acel copil investigat de farmaciti s fac parte dintre aceti copii precoce era de 2%. Numai atunci ne-am nela n concluzia noastr cnd din ntmplare am da tocmai peste un astfel de copil precoce. Ar fi ca si cum am dori s testm efectul unei buturi alcoolice asupra unei persoane care ar fi deja n stare de ebrietate; atunci nu ne-am mai putea da seama ct din starea sa se datoreaz buturii testate si ct se datoreaz strii sale iniiale, ntruct n cazul de fa avem 2% anse s dm peste un copil precoce, aceast valoare arat care este de fapt probabilitatea de eroare. Deci vom avea dreptate n proporie de 98%. Acesta este un exemplu despre logica inferenei statistice. Este necesar s-1 aprofundai pentru a nelege mecanismul care st la baza testrii ipotezelor n tiinele sociale. Etapele testrii unei ipoteze. Testul Z pentru a compara un caz cu o populaie cunoscut Vom descrie etapele testrii unei ipoteze folosind exemplul de mai sus, cu vitaminele. Reamintim c scopul farmacitilor era s demonstreze c prin administrarea vitaminelor, copiii care le iau vor merge mai devreme dect cei care nu le iau. Sunt cinci etape n procesul testrii unei ipoteze. 1.- Reformularea ntrebrilor termenii ipotezelor de cercetare si de nul. O ipotez, n statistic, este o afirmaie despre parametrii unei populaii, pentru c scopul inferenei statistice este s descrie populaii pornind de la eantioane. Dou sunt ipotezele cu care lucrm: ipoteza de cercetare (notat H1): este o afirmaie generalizat la populaia supus investigrii, n cazul nostru, HI este c vitamina va accelera mersul tuturor copiilor care o iau sau - cu alte cuvinte - toi copiii care vor lua vitamina vor merge mai devreme dect cei care nu o vor lua. ipoteza de nul (notat H0): este de fapt ceea ce noi testm n realitate si descrie situaia de la care se pornete, situaia n care intervenia nu ar avea nici un efect, n cazul de fa, H0 afirm c vitamina nu va accelera mersul copiilor care o iau, cu alte cuvinte, copiii care iau vitamina vor merge la fel ca i cei care nu o iau. Observaii c cele dou ipoteze sunt mutual exclusive: dac una este adevrat, atunci cealalt este fals. Mai mult, ipoteza de nul se consider implicit adevrat. Inferena statistic se face cu referire la ea, iar probabilitile statistice (pragurile de semnificaie) care nsoesc orice test statistic fac referire tocmai la ipoteza de nul. S facem acum o mic incursiune n logica simbolic (nu dai pagina i nu trecei mai departe, nu e o chestie prea dificil pentru voi!). Exist o regul n logic numit modusponens. Vom lua exemplul clasic: AB A B Dac cineva este om (A), atunci () el este muritor (B). Socrate este om. De aceea, Socrate este muritor.
72
Raionamentul de mai sus este perfect rezonabil, nu? Dar exist o greeal care apare frecvent n legtur cu acest raionament, eroare numit afirmarea consecinei. Ea este:
AB A B
Dac cineva este om (A), atunci () el este muritor (B) Iat ceva ce este muritor. De aceea, acel ceva este un om.
Constatai c un astfel de raionament e greit, pentru c acel ceva poate fi orice fiin vie (ex. un mgar). Dac vom exprima raionamentul de mai sus n termenii celor dou ipoteze statistice, eroarea va apare astfel: AB B A? Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare. Probabilitatea este mare. De aceea H0 este adevrat.
Ceea ce este greit. Dar exist o soluie pentru aceasta pe care tot logica ne-o pune la ndemn: regula denumit modus tolens.
AB non B non A
Dac cineva este om (A), atunci () el este muritor (B) Iat ceva ce nu este muritor. De aceea, acel ceva nu este un om.
Aceasta este o interferen valid, care se folosete de disconformare. n termenii ipotezelor statistice vom avea: AB non B nonA Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare. Probabilitatea nu este mare.( deci p, pragul de semnificaie, este mic). De aceea H0 este fals.
i dac ipoteza de nul este fals, atunci cea de cercetare este adevrat. Acesta este modul n care ne confirmm ipotezele n statistic si n cercetare n general. Apropo, aceasta este si ideea ce st la baza filosofici tiinei a lui Karl Popper: c progresul n tiin se obine numai prin disconfirmare. ncheiem aici incursiunea noastr n logica simbolic i v reamintesc c rolul acestei prime etape este doar stabilirea celor dou ipoteze. 2.- Stabilirea caracteristicilor distribuiei de comparat (cea specificat prin ipoteza de nul) Dup ce am stabilit ipotezele si populaiile la care fac ele referire, trebuie s ne stabilim cadrul de referin, distribuia de comparat, ntruct ceea ce testm noi este ipoteza de nul, evident c distribuia de referin va fi cea a populaiei corespunztoare ipotezei de nul. n exemplul nostru, ipoteza de nul este aceea c vitamina nu are nici un efect, deci copiii
73
care iau vitamina vor merge la fel de devreme ca si cei care nu o iau. Distribuia la care ne referim astfel este cea a vrstei de debut a mersului la copiii normali (care nu iau vitamina si nici nu urmeaz vreun altfel de tratament special), deci avem o distribuie normal, care are media 14 luni si abaterea standard de 3 luni. Faptul c tim forma si parametrii distribuiei la care ne referim ne permite s cunoatem tocmai probabilitile cu care diferite scoruri pot s apar atunci cnd alegem la ntmplare indivizi din aceast populaie. Pe acest fapt se bazeaz testele statistice. 3.- Determinarea pragului de semnificaie i a zonei de respingere" a ipotezei de nul. n aceast etap trebuie s stabilim care sunt acele valori extreme care ne permit respingerea ipotezei de nul. Pentru aceasta trebuie s ne fixm un prag de semnificaie (o probabilitate) sub care s respingem ipoteza de nul, prag pe care l vom fixa pe curba normal corespunznd distribuiei de comparat.
Scoruri Z
8 luni -2
11 luni 14 luni 17 luni 20 luni -1 0 +1 +2
distribuia normal a vrstei de debut a mersului la copil
Reamintim c sunt dou tipuri de praguri de semnificaie (am discutat despre ele n capitolul anterior), cel de 1% si cel de 5%. n cazul de fa, cercettorii ar trebui s-i aleag un prag de semnificaie mai strns, mai sever, pe cel de l % (consecinele n cazul unei erori sunt foarte mari). Din tabelele care nsoesc orice manual de statistic vom constata c punctului ce mparte distribuia normal n dou pri, una de 1% si restul de 99% i corespunde nota z - 2,33. n cazul nostru, vom avea z = -2,33 pentru c ne referim la cele mai mici l % dintre valorile populaiei, cele marcate de sgeat si haur pe figura anterioar. Aceasta reprezint si zona de respingere a ipotezei de nul. Ce nseamn acest lucru? nseamn c dac n urma interveniei noastre (vitamina) vom obine un scor att de extrem nct el se va ncadra n aceast zon, atunci vom fi siguri c doar n 1% din cazuri el ar fi fost obinut dac ipoteza de nul ar fi fost adevrat, ntruct ipoteza de nul e adevrat n 1% din cazuri, atunci n 99% din cazuri ea poate fi respins si ipoteza de cercetare acceptat.
74
4.- Determinarea scorului eantionului analizat n cadrul distribuiei de comparat n aceast etap colectm datele de la eantionul analizat i localizm scorul astfel obinut n cadrul distribuiei de comparat. Revenind la exemplul nostru, farmacitii trebuie s msoare la ce vrst ncepe s mearg copilul ales pentru cercetare. El merge la 8 luni. ntruct distribuia este normal, iar notele z folosesc la a stabili poziia unui scor ntr-o distribuie, trebuie s transformm aceast not brut n not standard, n exemplul nostru, dup cum observai i pe curba normal trasat anterior, notei 8 i corespunde scorul z = -2. 5.- Luarea deciziei de acceptare sau respingere a ipotezei de nul. Acum, trebuie luat decizia. Comparm scorul obinut pentru zona de respingere a ipotezei de nul (z = -2,33) cu cel obinut n cursul cercetrii (z =-2). Pentru a respinge ipoteza de nul cu o probabilitate de eroare de doar 1%, noi ar fi trebuit s obinem un scor standard mai mic sau cel mult egal cu z =-2,33. Din datele noastre, observm c scorul obinut este z = -2. n acest caz, nu putem respinge ipoteza de nul cu o probabilitate de eroare de 1%, deci farmacitii notri au euat n a demonstra eficacitatea vitaminei lor. Alt exemplu: S considerm un alt exemplu, pentru a nelege mai bine i a recapitula etapele testrii ipotezei. Exemplul are la baz povestioara:
Un ziar studenesc afirm c studenii Universitii Al.I.Cuza" Iai au petrecut n luna martie 20 ore n medie la discotec, abaterea standard fiind de 3 ore. Deci, studenii petrec n medie ntre 17 i 23 ore pe lun la discotec. Cunoscndu-i pe cei din cminul C12 din complexul Codrescu, un student la psihologie consider c cei din acel cmin sunt mai petrecrei, deci c ei petrec mai mult timp la discotec. Aa c alege la ntmplare un student din cminul C12 i l ntreab ct timp a stat la discotec n luna martie 24 ore la discotec. Poate sau nu studentul nostru s afirme, cu o probabilitate de eroare de 5% c cei din C12 sunt mai petrecrei dect cei din universitate n general?
Etapa I: ipoteza de cercetare (notat Hi):toi studenii din C12 petrec mai mult timp la . discoteca dect cei din universitate, m general. ipoteza de nul (notat HO): studenii din C12petrec acelai timp la discotec ca i cei din universitate n general. Etapa II: Distribuia de comparat este una normal, care are media 20 ore i abaterea standard de 3 ore. Etapa III: Pragul de semnificaie este de 5%, adic dorim s ne argumentm sau susine ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de
75
nul va ncepe de la z = +1,64 (valoare luat din tabelele cu note z din crile de statistic, calculate pentru o proporie de 45% de cazuri de la medie). Pe curba normal am reprezentat zona de respingere printr-un cmp haurat. Deci, ca s respingem ipoteza de nul cu o probabilitate de 5% trebuie s obinem din datele noastre o not z de cel puin l ,64 sau mai mult.
14 ore
17 ore 20 ore 23 ore
26 ore
Etapa IV Culegem propriu-zis datele. Din exemplul oferit observm c am obinut la ntmplare o not brut de 24 ore. Vom transforma aceast not brut n not standard, folosind formula (4) din capitolul anterior. Z= xm (4) SD
Astfel scorul Z pentru cazul nostru va fi: Z= Etapa V: Comparm acum nota astfel obinut (z=l,33) cu cea corespunztoare zonei de respingere a ipotezei de nul (z=l,64) si constatm c suntem n afara" acesteia (trebuia s obinem o not mai mare sau cel puin egal cu z=l,64). Astfel, nu putem respinge ipoteza de nul, deci nu putem demonstra c cei din C12 sunt mai petrecrei. Ce s-ar ntmpla ns dac am lua n calcul nu un singur caz, ci un eantion? De ce s nu ntrebm mai muli studeni din C12 ct timp petrec la discotec? S vedem ce se schimb n acest caz.
76
24 20 = +1,33 (4) 3
Testul Z pentru a compara un eantion cu o populaie cunoscut Vom utiliza aceeai povestire ca si cea anterioar, doar c vom lua n calcul rezultatele a 10 studeni alei la ntmplare din cminul C12. S presupunem c media celor 10 persoane este 23, deci cei zece studeni petrec n medie 23 ore la discotec. Vom folosi tot testul z, doar c vom compara un eantion cu o populaie. S vedem dac cele cinci etape se schimb cumva. Etapa I: ipoteza de cercetare (notat HO:toi studenii din C12 petrec mai mult timp la discotec dect cei din universitate, n general. ipoteza de nul (notat H0): studenii din C12 petrec acelai timp la discotec ca si cei din universitate n general. Observai c prima etap rmne neschimbat. Etapa II: Aici nu mai putem lucra cu aceeai distribuie de comparat. De ce? Pentru c acum noi avem de comparat rezultatele unui eantion de 10 persoane care se comport ca un grup, cu rezultatele obinute de studeni, msurai ca indivizi izolai. Ori aa ceva nu este corect. S presupunem c avem n livad o grmad de mere pe jos, de mai multe soiuri. Lum la ntmplare o ldi cu mere. Nu putem compara caracteristicile ldiei de mere (s zicem c avem n lad 80% mere ionatane i 20% - mere parmen auriu) cu cele ale 'grmezii de mere (mere care sunt fie ionatane, fie parmen auriu). Pentru a le putea compara, ar trebui s aranjm i merele din grmad n ldie de aceeai dimensiune. n acelai mod, comportamentul grupului nostru de 10 studeni trebuie comparat cu cel al altor grupuri similare. Astfel, distribuia noastr va fi o distribuie de eantioane de cte 10 persoane, extrase din populaia de indivizi izolai. Mai precis, noua distribuie va conine mediile tuturor acestor eantioane, drept pentru care ea mai este denumit distribuie de medii. Care vor fi caracteristicile acestei noi distribuii, provenite din cea iniial? Imaginea urmtoare este sugestiv n acest sens:
20
77
Mai sus avem reprezentat populaia iniial, format din indivizi, care are o distribuie normal, cu media 20 ore si abaterea standard de 3 ore. Dac vom extrage din ea toate eantioanele de 10 persoane (toate combinaiile posibile) si vom calcula media acestor eantioane, apoi vom reprezenta grafic aceast nou distribuie, vom obine distribuia de mai jos:
20
Observai c media acestei distribuii de medii este tot 20. Ceea ce se schimb este ns deviaia sau abaterea standard. De ce? Explicaia este simpl: comportamentul unui grup este totdeauna mai puin variabil dect comportamentul individual. Exprimat n termeni de probabilitate, probabilitatea ca ntr-un grup de 10 persoane extras la ntmplare, s avem cazurile cele mai extreme din populaie (indivizii cei mai petrecrei, de exemplu) este foarte mic, dat fiind c ei nu sunt aa numeroi n populaia iniial. Ct va fi abaterea standard a acestei noi distribuii? Matematicienii au calculat acest lucru pentru noi: dac extragem eantioane de N persoane din populaia iniial, atunci varianta distribuiei de eantioane va fi de N ori mai mic dect varianta iniial. Varianta este ptratul deviaiei standard. Deci, varianta distribuiei de medii va fi de 10 ori mai mic dect varianta distribuiei iniiale (care este 9), deci va avea valoarea 0,90. Dac varianta distribuiei de medii este 0,90, deviaia sa standard va fi rdcina ptrat a acestei valori, deci va fi 0,94 (ore). Acum, avem toate datele pentru a stabili care va fi distribuia de comparat. Ea este o distribuie normal care are media 20 ore i abaterea standard de 0,94 ore. Deci, grupurile de cte 10 studeni petrec n medie 20 ore la discotec, cu o abatere standard de aproape o or. Etapa III: Pragul de semnificaie este de 5%, adic dorim s ne argumentm sau susine ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de nul va ncepe de la z = +1,64 ca i n exemplul anterior Deci, ca s respingem ipoteza de nul cu o probabilitate de 5% trebuie s obinem din datele noastre o not z de cel puin 1,64 sau mai mult. Dar, atenie, aceast zone de respingere este pe distribuia de medii, nu pe cea a indivizilor izolai!
78
Zona haurat este zona de respingere.
Etapa IV Culegem propriu-zis datele. Din exemplul oferit observm c am obinut la ntmplare o not brut de 23 ore. Vom transforma aceast not brut n not standard, folosind formula (4) din capitolul anterior. xm Z= (4) SD Astfel, scorul z pentru cazul nostru va fi: Z= 23 20 = +3,19 (4) 0.94
Atenie! Deviaia standard folosit n formula de mai jos este cea a distribuiei de medii! Etapa V Comparm acum nota astfel obinut (z=3,19) cu cea corespunztoare zonei de respingere a ipotezei de nul (z=l,64) si constatm c suntem n acest interval (cel haurat din imaginea anterioar). Astfel, putem respinge ipoteza de nul, deci am demonstrat cu o probabilitate de eroare de 5% c cei din C12 sunt mai petrecrei dect cei din universitate n general.
Testul t pentru a compara un eantion cu o populaie la care tim doar media

De cele mai multe ori ns, nu cunoatem toi parametrii distribuiei. Folosind exemplul de mai sus, cel cu studenii i discoteca, s presupunem c citim n ziarul studenesc numai faptul c n luna martie studenii de la Al.I.Cuza" au petrecut n medie 23 de ore la discotec, fr ca autorul articolului s precizeze abaterea standard. Ce facem n acest caz? Noi avem nevoie de abaterea standard pentru a cunoate toi parametrii ce descriu curba normal. Sunm la redacie, dar aflm c ei nu mai dispun de datele brute. S-ar prea c suntem ntr-o situaie fr ieire. Dar nu este aa. Eantionul la care noi avem acces, cei 10 studeni din cminul C12, fac i ei parte din populaia tuturor studenilor de la Al.I.Cuza", nu? i atunci, probabil c o parte din caracteristicile acestui eantion, mai ales cele referitoare la varianta sa, se vor regsi i n populaia iniial, nu? E ca si cum am lua nite boabe de fasole ntr-o lingur si, pe baza
79
calitilor lor, decidem c si cele din oal vor fi similare (la fel de fierte). Desigur c n populaia iniial variabilitatea este mai mare dect n eantion, la fel cum n oal probabil c vom gsi boabe mai fierte sau mai puin fierte dect cele din lingur. S vedem acum care etap se schimb n acest caz. Prezentm mai jos modalitatea de testare a ipotezei: Etapa I: ipoteza de cercetare (notat Hi):toi studenii din C12petrec mai mult timp la discotec dect cei din universitate, n general. ipoteza de nul (notat HO): studenii din C12petrec acelai timp la discotec ca si cei din universitate n general. Observai c prima etap rmne neschimbat. Etapa II: Aici, distribuia de comparat va fi una de medii, nu de indivizi, dup cum am vzut i n exemplul analizat anterior, cnd cunoteam varianta populaiei iniiale. Aici apare ns problema estimrii distribuiei iniiale, mai precis a variantei sale. Pentru aceasta avem nevoie de datele brute ale eantionului nostru. S presupunem c rezultatele celor 10 studeni din cminul C12 sunt urmtoarele: X 18 25 23 20 21 28 26 23 25 21
Observai c media lor este aceeai ca si n exemplul anterior, m=23. Cum calculm varianta? Vom folosi aceeai metod ca i cea prezentat ntr-unul din capitolele anterioare:
80
x 18 25 23 20 21 28 26 23 25 21
x-m -5 +2 0 -3 -2 +5 +3 0 +2 -2
(x-m)2 25 4 0 9 4 25 9 0 4 4
Ca s putem calcula varianta trebuie s calculm S S (suma ptratelor abaterilor de la medie), n cazul nostru, adunnd coloana a treia vom obine SS=84. Dac am dori s calculm varianta din eantion, ar trebui s mprim acest numr la 10 (numrul cazurilor). Aceast informaie, varianta eantionului, este ceea ce obinem noi n lingur cnd vrem s vedem dac legumele din oal sunt fierte. Dar v reamintesc c noi trebuie s calculm varianta populaiei din care a fost extras, deci trebuie s estimm ce se afl n oal. Cum facem? Nu putem dect s estimm aceast valoare, fr a o putea msura exact. O vom obine astfel cu probabilitate, iar matematicienii au stabilit c varianta populaiei din care provine un eantion este cu puin mai mare dect cea a eantionului. Mai exact, n loc s dividem SS la numrul de cazuri din eantion, pentru a afla varianta populaiei, vom mpri pe SS la N-l. Formula de calcul a variantei populaiei va fi astfel: SS = N 1 Observai c am folosit litere greceti n loc de litere latine. Convenia n statistic este aceea ca parametrii populaiei s fie notai cu litere greceti, iar cei ai eantioanelor - cu litere latine. Deci n loc de m (pentru medie), vom nota media populaiei cu deviaia standard n loc de SD se noteaz , iar varianta n loc de SD2 se noteaz cu 2. 84 Variana populaiei va fi astfel a = = 9,33 . Deviaia standard n acest populaie va fi = 2 = 9,33 = 3,05 Populaia astfel estimat, care are media 20 ore si deviaia standard de 3,05 ore va fi aproximativ normal. Am subliniat cuvntul aproximativ" pentru a reaminti c noi am estimat varianta acestei populaii, nu am msurat-o. Ca urmare, ea va fi aproximativ normal; mai precis, ea va fi o distribuie simetric, unimodal, dar mai turtit dect cea normal. Aceast curb de distribuie este denumit curb t si a fost descris prima dat de William Gosset, un statistician care i-a spus Student (despre care vei putea citi mai multe n povestioara de la nceputul capitolului urmtor) si care a inventat testul t. Faptul c este
81
mai turtit dect curba normal permite o ajustare a testrii ipotezei care ine cont de mrimea eantionului folosit n estimare. Astfel, cu ct vom avea un eantion mai mare de pe baza cruia estimm populaia, cu att vom avea o curb t mai apropiat de cea normal. Dar aceasta nu este dect populaia de indivizi, ori noi comparm un eantion cu o distribuie de eantioane (revedei subcapitolul anterior dac ai uitat de ea). Ca urmare, trebuie s comparm media eantionului nostru cu o distribuie tot de medii, a unei populaii de eantioane de zece persoane extrase din populaia individual. tim, din capitolul antenor, ca aceasta distribuie de eantioane va avea aceeai medie ca 2 2 ). si media de indivizi izolai (X = 0), dar o variant de N ori mai mic ( m = N Am folosit indicii m pentru a distinge ntre populaia de indivizi si cea de eantioane (medii). Astfel, nlocuind n formule, populaia de eantioane va avea media 20 ore i abaterea standard de 0,96 ore. n concluzie la aceast mai degrab lung etap a Il-a din testarea ipotezelor, s amintim c distribuia de comparat este n acest caz o distribuie t, de eantioane, care are media 20 ore si abaterea standard de 0,96 ore. Etapa III n aceast etap ne stabilim pragul de semnificaie (5%) si zona de respingere a ipotezei de nul. Pn acum am folosit notele z si tabelele corespunztoare de la sfritul crilor de statistic pentru a determina de la care valoare a lui z vom respinge ipoteza de nul. Dar cum acum nu mai avem o distribuie normal, va trebui s folosim alte note, notele t, care nu sunt altceva dect notele standard ale distribuiei t. Fiind note standard, ele vor avea o formul similar, n cazul nostru: m m t= m n aceast formul, m reprezint media eantionului nostru de zece studeni (23 ore) m este media populaiei de eantioane de 10 studeni studeneti de la Al.I.Cuza", iar am este deviaia standard a populaiei de medii sau a distribuiei de eantioane. Acest din urm termen mai este numit eroarea standard a mediei. Ce valoare vom lua n calcul pentru a stabili valoarea lui notei t de la care respingem ipoteza de nul? Depinde de numrul persoanelor din eantion. S vedem cum arat un astfel de tabel, pe care orice manual de statistic l are la sfrit. Prezentm mai jos un fragment:
82
(B)
(A)
df 1 2 3 4 5 6 7 8 9 10 11
.10 3.07 1.88 1,63 1.53 1.47 1.44 1.41 1.39 1.38 1.37 1.36
.05 6.31 2.92 2.35 2.13 2.01 1.94 1.89 1.86 1.83 1.81 1.79
.01 31.82 6.96 4.54 3.74 3.36 3.14 2.99 2.89 2.82 2.76 2.71
Dou sunt elementele care ne intereseaz pentru a determina valoarea lui t: (A)- gradul de libertate, (calculat dup formula df =N-l)Acesta arat numrul de observaii independente necesare pentru a determina omedie (dac cunoatem N-l scoruri si media, al al N-lea este determinat de primele, nu mai poate lua orice valoare), n cazul nostru df =9. (B)- pragul de semnificaie, stabilit de noi anterior la 5%. Valoarea lui t se va gsi astfel n tabel la intersecia" acestor dou elemente. Constatm c t = l,83, deci zona de respingere a ipotezei de nul va fi reprezentat descorurile mai mn de aceasta valoare, aa cum este reprezentat m figura de mai jos (zona haurat):
Etapa IV: Este etapa culegerii datelor pentru a afla media eantionului nostru (m=23) si a afla poziia sa n cadrul populaiei de eantioane. Pentru a afla aceast din urm informaie, vom folosi formula pentru scorurile t (reamintim c lucrm cu o curb t si c notele standard n acest caz sunt note t): t= m m 23 20 = = 3,12 m 0,96
83
Etapa V: Pe baza notei t calculate n etapa anterioar (3,12) si a notei t care stabilete zona de respingere a ipotezei de nul (1,83) vom trage concluzia cercetrii noastre, ntruct nota t a eantionului se gsete n zona de respingere (a se vedea imaginea urmtoare), vom concluziona c, cu o eroare de 5% putem respinge ipoteza de nul, ceea ce nseamn acceptarea ipotezei de cercetare cu o aceeai probabilitate de a grei.
3,13
n concluzie, putem afirma cu o eroare de 5% c cei din cminul C12 sunt mai petrecrei dect studenii de la Universitatea Al.I.Cuza", n general.
Folosirea SPSS: meniul ANALYZE - COMPARE MEANS - ONE-SAMPLE T-TEST
S vedem acum cum reuim s aplicm testul t pentru a compara un eantion cu o populaie la care cunoatem doar media folosind programul SPSS. Introducerea teoretic expus anterior (i pe care nu o vom mai repeta n cele ce urmeaz cu alte metode statistice) a avut rolul de a v familiariza cu logica testrii oricrei ipoteze. Prezentm n continuare baza de date cu care vom lucra mai departe si pe care trebuie s o introducei n programul SPSS (revedei capitolele anterioare dac avei dificulti n introducerea datelor):
84
Nota 8 7 7 8 9 10 5 4 7 7 8 9 6 9 8 10 8 7 10 7 8 7 8 9 8 7 8 10 10 5
Anx 6 7 5 5 6 7 5 6 7 6 5 4 6 4 5 7 8 5 5 6 4 2 3 4 2 3 4 5 3 2
Zi_exam 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Este vorba despre o cercetare n care psihologul a msurat gradul de anxietate al unor studeni la un examen (variabila ANX, msurat pe o scal de la l - deloc anxios, la 9 - foarte anxios), precum si notele nregistrate de aceti studeni la examen (variabila NOTA). Psihologul a mai nregistrat si ziua din sptmn n care a avut loc examinarea (variabila ZI_EXAM, cu valorile l="luni" si 2="miercuri"). Observai c avem 30 de cazuri si nu uitai s definii valorile l si 2 pentru variabila ZI_EXAM din coloana VALUES, perspectiva VARIABLE VIE W (aa cum artam n capitolul anterior). Dup ce a cules datele i le-a introdus n SPSS, psihologul a fost interesat s vad dac cei 30 de studeni au obinut note mai ridicate dect 5. Cu alte cuvinte el dorete s afle dac studenii investigai se deosebesc fundamental de o populaie studeneasc carear obine media 5 la materia la care s-a dat examenul, ntruct accesul la o astfel de populaie
85
studeneasc este imposibil, deci nu putem msura ali parametri n afara mediei, trebuie s estimm variabilitatea sa, deci va trebui s aplicm testul t pentru a compara un eantion cu o populaie, aa cum am fcut anterior cu cei 10 studeni i timpul petrecut la discotec. Aplicarea testului t pentru a compara un eantion se face din meniul ANALYZE, activnd comanda ONE SAMPLE T TEST, ca n imaginea de mai jos:
Odat activat comanda, pe ecran apare fereastra de mai jos:
2 1
Fereastra are elemente pe care le cunoatem din exemplele anterioare de folosire a programului SPSS, dar si elemente noi. Astfel: (1) - este cmpul cu variabilele prezente n baza de date; (2) - este cmpul unde vom introduce variabilele pentru analizat (folosind butonul cu sgeat dintre cele dou cmpuri si selectnd anterior variabila/variabilele cu ajutorul mouse-ului); (3) - reprezint valoarea la care testm noi ipoteza de nul, este media populaiei la care ne referim, cu care facem comparaia eantionului.
86
Observai un buton cu opiuni (OPTIONS) n partea dreapt-jos a ferestrei. Activat, acest buton va deschide la rndul su o fereastr precum cea de mai jos:
De aici putem modifica pragul de semnificaie (pentru 5% vom lsa 95% n cmpul CONFIDENCE INTERVAL, pentru un prag mai strns, de 1%, vom modifica valoarea din acest cmp la 99). Indicat este s nu modificm setrile din aceast fereastr. Apsai CONTINUE si apoi butonul OK din fereastra principal. Programul va deschide automat o nou fereastr, n care v sunt prezentate rezultatele, ca n imaginea urmtoare:
Observai c rezultatele sunt grupate n dou tabele. Unul conine elemente de statistic descriptiv (ONE SAMPLE STATISTICS), iar cellalt cuprinde date despre testul t propriuzis.
87
S analizm detaliat elementele OUTPUT-ului. (1) - n aceast celul este prezentat media eantionului nostru, m=7,80; (2) - deviaia standard a eantionului investigat, SD=1,54, este trecut aici; (3) - ultima celul a acestui prim tabel cuprinde eroarea standard a mediei, mai precis deviaia standard a populaiei de eantioane de cte 30 de subieci din care ar proveni un eantion precum este cel investigat de noi, m =0,28; (4) - este nota t a eantionului nostru raportat la populaia de eantioane care ar avea media = 5 (valoarea la care ne raportm) i abaterea standard m = 0,28. Valoarea lui t=9,95 a fost obinut dup formula: m m 7.80 5 t= = = 9,95 0, 28 m (5) - aici sunt trecute gradele de libertate pentru care a fost calculat valoarea lui t i probabilitatea de respingere a ipotezei de nul; (6) - aici este trecut pragul de semnificaie real (numai primele trei zecimale). Pragul de semnificaie arat care este probabilitatea de a grei atunci cnd respingem ipoteza de nul, deci probabilitatea de a grei n susinerea ipotezei de cercetare, n exemplul nostru, valoarea p=0,000 nu arat c suntem perfeci n ceea ce susinem (computerul nu a mai avut loc s arate toate zecimalele), ci doar c probabilitatea de eroare este foarte mic. ntr-un astfel de caz, atunci cnd raportm valoarea lui p vom scrie p<0,01" artnd c eroarea este mai mic de 1%; cnd avem un numr valid n dreptul lui p, vom trece primele dou zecimale. (7) - aici este pur i simplu trecut diferena dintre media eantionului nostru i cea a populaiei la care ne raportm (8) - reprezint intervalul de ncredere al diferenei dintre cele dou medii (7,80 i 5) corespunztor pragului de semnificaie de 5%. Cum se interpreteaz el? Diferena real dintre media populaiei din care provine eantionul investigat de noi i cea a populaiei de referin se va gsi n intervalul 2,22 - 3,37. Deci ntre cele dou populaii am fi gsit, cu o probabilitate de eroare de doar 5% mcar o diferen de 2,22 puncte i una de cel mult 3,37. n interpretarea statistic a testului t, oricare ar fi tipul de test ales, elementele pe care ne bazm interpretarea sunt: pragul de semnificaie: care este probabilitatea de eroare atunci cnd acceptm ca adevrat ipoteza noastr de cercetare. Pentru a ne confirma ipoteza de cercetare, pragul de semnificaie trebuie s fie mai mic sau cel mult egal cu 0,05; eroarea nu trebuie s depeasc 5%. gradul de libertate: arat care este mrimea eantionului pe care s-a fcut testarea ipotezei; cu ct este mai mare, cu att mai mult putem avea ncredere n rezultatele obinute, indiferent dac ele confirm sau nu ipoteza de cercetare. sensul diferenei: este dat de valoarea mediilor comparate i arat n ce sens apare diferena (care medie este mai mare sau mai mic). n exemplul nostru, diferena dintre medii este obinut n favoarea eantionului nostru.
88
Valoarea testului - t(29)=9,95 - i a pragului de semnificaie p<0.01, arat c aceast diferen este semnificativ, deci studenii notri sunt semnificativ diferii de cei care ar avea media 5 la materia respectiv, deci ei provin dintr-o populaie diferit. Aceast concluzie poate fi afirmat cu o probabilitate de eroare mai mic de 1%.
Folosirea SPSS: meniul TRANSFORM RECODE

Ceea ce v prezentm n continuare nu se refer propriu-zis la prelucrarea statistic a datelor, ci la diferite operaii de transformare a variabilelor de care s-ar putea s avem nevoie pe parcursul analizelor noastre. Transformarea variabilelor nu nseamn modificarea datelor, ci realizarea unor combinaii valide pe seama variabilelor existente. Recodificarea ntr-o variabil nou. Spre exemplu, s presupunem c pentru o analiz ulterioar am dori s mprtim studenii din cercetarea descris mai sus n dou grupuri: pe de o parte pe cei care au luat 8 sau mai puin la examen, iar pe de alta pe cei care au luat peste 8. Cum facem? Va trebui s recodificm variabila NOTA ntr-o nou variabil, s-o notm NOTATIP, iar pentru aceasta vom folosi comanda RECODE - INTO DIFFERENT VARIABLE din meniul TRANSFORM. Prezentm n continuare meniul corespunztor acestei comenzi:
Aceast comand va activa fereastra de mai jos:
2 3 89
S analizm puin aceast fereastr: (1) - este cmpul ce conine variabilele din baza de date; (2) - este un buton ce activeaz diferite condiii (similar cu butonul IF descris n capitolul anterior la comanda SELECT CASES); (3) - este cmpul n care introducem numele noii variabile pe care dorim s o crem. El se va activa imediat ce introducem o variabil n cmpul INPUT VARIABLE - OUTPUT VARIABLE; (4) - aici stabilim valorile noii variabile prin raportare la valorile vechii variabile. Selectai acum variabila NOTA, introducei-o n cmpul din dreapta, cu ajutorul butonului cu sgeat de pe fereastr. Alegei apoi numele noii variabile si apsai butonul CHANGE. Vei constata astfel schimbarea care se produce, la fel ca n imaginea urmtoare:
Odat ajuni n etapa ilustrat de imaginea de mai sus, apsam butonul OLD AND NEW VALUES pentru a stabili care sunt valorile pe care dorim s le recodificm in noua variabil. Apsarea butonului deschide fereastra:
4 1
2 3
90
S analizm mai amnunit fereastra pentru a vedea cum o vom folosi: (1) - este opiunea marcat implicit si care permite nlocuirea unei singure valori din vechea variabil cu una din noua variabil; (2) - permite nlocuirea unui ntreg interval (la care cunoatem limitele inferioar si superioar) cu o singur valoare; (3) - permite nlocuirea unui interval pornind de la valoarea minim pn la o valoare selectat de noi, inclusiv aceasta din urm, cu o valoare nou; (4) - permite nlocuirea unui interval pornind de la o valoare selectat, exclusiv, pn la valoarea maxim cu o valoare nou; (5) - este butonul folosit pentru a pune n legtur dou valori, una de la vechea variabil cu una de la variabila nou definit. n cazul nostru, avem nevoie de opiunile (3) si (4). Vom seta intervalul de la valoarea minim la valoarea 8 s aib valoarea l n noua variabil si intervalul de la 8 la valoarea maxim - valoarea 2, ca n imaginea de mai jos:
Dac am procedat corect, n final ar trebui s obinem fereastra urmtoare:
91
Apsam butonul CONTINUE si apoi butonul OK pe fereastra principal. Observai apoi ce se ntmpl n baza de date:
Observai c variabila nou apare n stnga ultimei variabile din baza de date. Observai de asemenea si corespondena dintre valorile noii variabile si cele vechi (ex. c n dreptul studenilor care au note sub valoarea 8 apare valoarea l la variabila NOTATIP si valoarea 2 acolo unde notele sunt peste 8). Recodificarea aceleiai variabile Alteori ne este util s recodificm o aceeai variabil, fr a fi necesar s crem una nou. Spre exemplu, s presupunem c nu avem nevoie de scorurile brute obinute de studenii din exemplul anterior la testul de anxietate (variabila ANX), ci de mprirea lor n dou grupuri, grupul de studeni care nu sunt anxioi (care au scorul mai mic sau egal cu 5) si cei crora examenul le provoac anxietate (scorul la variabila ANX s fie mai mare ca 5). De obicei, o astfel de mprire se face prin raportare la median. Meniul pentru aceast transformare este urmtorul:
Comanda va fi activat din fereastra de mai jos:
92
Observai c aceast fereastr este asemntoare cu cea discutat anterior, cnd recodificam variabila sub un nume diferit. Mai mult, avem opiuni mai puine. Aici, singurul buton mai important, dar care exista si n cealalt fereastr, este butonul IF, descris mai jos:
Observai c alctuirea acestei ferestre, activat de butonul IF este identic cu cea prezentat n capitolul anterior, pentru comanda SELECT CASES. De aceea, nu mai "prezentm detalii acum, mai ales c pentru exemplul de fa nu avem nevoie de o parte din cazuri, ci dorim s le transformm pe toate.
93
Revenim la butonul OLD AND NEW VALUES care deschide fereastra:
Observai c aici, aceast fereastr este identic cu cea prezentat la comanda anterioar cnd recodificam variabila sub un alt nume. Diferena const aici c ne referim la valoarea 5 si nu la 8. Dup ce am efectuat modificrile dorite, apsam CONTINUE si apoi OK n fereastra principal si vom constata faptul c valorile variabilei ANX au fost schimbate n baza de date n conformitate cu criteriile stabilite de noi:
Exerciiu: Codificai i variabila NOTA n acelai fel.
94
TESTE DE COMPARAIE (DIFEREN) PENTRU VARIABILE CANTITATIVE (scale de interval sau de raport)
Cuprins: Comparaia variabilelor cantitative Folosirea SPSS: meniul ANALYZE -COMPARE MEANS PAIRED SAMPLES T TEST Folosirea SPSS: meniul ANALYZE -COMPARE MEANS-INDEPENDENT SAMPLES T TEST Folosirea SPSS: meniul TRANSFORME COMPUTE
Gosset, statisticianul berar Cnd William S. Gosset a absolvit Universitatea Oxford cu o diplom n matematic i alta n chimie, faimosul productor de bere Guinness din Dublin, Irlanda, cuta tineri savani pentru a produce bere dup metode tiinifice, o premier n acele vremuri. Astfel, tnrul Gosset s-a trezit de pe bncile colii ntre cazane i butoaie cu bere. Problema cu care se confrunta Gosset a fost aceea de a face berea ct mai puin variabil i de a gsi cauza erorilor (ex. de ce unele trane de bere nu aveau gustul ateptat). Orice savant i-ar fi recomandat lui Gosset s realizeze experimente. Dar ce productor de bere i permitea s cheltuie sume importante de bani pentru a supune experimentelor zeci de butoaie cu bere? Astfel, Gosset trebuia s se mulumeasc cu cele cteva butoaie care ddeau gre i s calculeze probabilitatea ca un anumit soi de cereale folosit s fi cauzat eroarea. La asta se mai aduga i faptul c el nu avea nici o idee despre variabilitatea diferitelor soiuri de cereale (ex. poate regiunea n care creteau influena caracteristicile lor). Situaia 1-a forat astfel pe Gosset s gseasc o metod simpl prin care s poat compara diferitele soiuri de bere, o formul pe care s-o poat ine minte uor i folosi adecvat. Pentru aceasta a trebuit s se descurce pe cont propriu. Pentru colegii si de la fabrica de bere, el era un profesor de matematic; pentru colegii si de la Laboratorul Biometric al Universitii din Londra el nu era dect un simplu berar. Forat s aplice ce a nvat n coal la situaiile ntlnite n fabrica de bere, Gosset a descoperit distribuia t i a inventat testul t - simplicitatea nsi - pentru situaiile cnd avem eantioane mici i variabilitatea populaiei este necunoscut. Cea mai mare parte din munca sa statistic s-a petrecut n biroul su din curtea fabricii, printre butoaie i anvelope uzate, n final, metoda sa a fost recunoscut i foarte apreciat de comunitatea statistic dup ce - la insistenele unor editori - a publicat un articol despre metode de realizare a berii". Pn azi, cei mai muli statisticieni numesc testul t ca fiind testul lui Student" pentru c Gosset a scris articolul cu pricina sub numele anonim de Student"; firma Guinness n-ar fi admis niciodat c n butoaiele sale se poate produce bere proast!
95
Comparaia variabilelor cantitative Cum menionam n primele capitole, variabilele sunt de mai multe tipuri, n funcie de natura mrimii care variaz, ele pot fi cantitative si calitative. De fapt, dac facem referire la scalele de msur cele mai cunoscute (nominal, ordinal, de interval si de raport), observm c variabilelor calitative le corespund scalele de msur nominal si ordinal, n timp ce variabilelor cantitative - scalele de interval si cele de raport. n psihologie, majoritatea variabilelor dependente pe care le msurm sunt cantitative. Chiar si acele variabile care descriu caliti psihologice sunt, pentru statistic, tot variabile cantitative, pentru c mrimea care variaz este o cantitate. Spre exemplu, variabile extrovesiune - introversiune nu este o variabil calitativ, aa cum s-ar atepta un novice n ale psihologiei; oamenii nu se mpart n dou categorii: n introvertii i extravertii. Nu, mai degrab exist un continuum care are la cei doi poli trsturile extreme, iar oamenii se situeaz undeva pe acest continuum:
introvertit
extravertit
De altfel, acest lucru este observabil si dac analizm construcia instrumentului de msur, a chestionarului care arat ct de introvertit sau extravertit este un individ, ntrebrile sunt aceleai pentru ambele caliti psihologice, ceea ce difer este rspunsul subiecilor," care sunt rugai s estimeze frecvena cu care fac anumite comportamente (ex: De cte ori mergei la petreceri?}, deci avem acelai criteriu de variaie, un criteriu cantitativ. Dat fiind natura msurtorilor psihologice i comoditatea folosirii scalelor de interval i de raport (care ofer cele mai multe informaii), majoritatea metodelor statistice pe care le vom ntlni n psihologie sunt metode cantitative, care folosesc ca msurtori dependente variabile cantitative, spre deosebire de sociologie, de exemplu, unde metodele sunt adaptate variabilelor ordinale sau nominale, folosite preponderent n sondajele de opinie. n capitolul anterior am vzut cum procedm atunci cnd dorim s comparm un individ sau un eantion cu o populaie despre care cunoatem unele informaii (de obicei numai media). Situaiile cu care ne confruntm n viata de zi cu zi sunt ns de alt natur: de cele mai multe ori, noi comparm dou eantioane ntre ele i dorim apoi s generalizm rezultatele la populaiile din care provin aceste eantioane, ntr-o astfel de situaie, nu cunoatem nimic despre populaiile din care provin ele; nimic cu excepia datelor din eantioane i asta este suficient ca, aplicnd metoda dezvoltat de Gosset, s putem constata diferenele.
96
Compararea a dou eantioane perechi

Cea mai simpl situaie de comparare a eantioanelor este situaia de tip test - retest, n care dorim s msurm dac ceva se schimb ca urmare a unor intervenii. Spre exemplu, msurm pacienii nainte de terapie i apoi i msurm la ceva timp dup ce au nceput terapia pentru a constata dac tratamentul a avut vreun efect. Cum procedm ntr-o atare situaie? Care este ipoteza de nul i care este populaia la care ne referim? S ne gndim puin. S presupunem c tratm pacienii de depresie. Noi nu cunoatem nici nivelul (media) depresiei populaiei de pacieni nainte de a veni la terapie (tim doar media depresiei celor care au venit, nu a populaiei din care ei provin) i nici nivelul populaiei dup terapie. Dar nici nu ne intereseaz acest lucru (!). Noi suntem de fapt interesai de diferena dintre cele dou populaii, oricare ar fi nivelul lor absolut. Este ca i cum nu am cunoate adncimea unui ru, dar putem msura totui nivelul de variaie al apei, dac plasm un reper pe mal. Deci ipoteza noastr de nul i cea de cercetare trebuie s se refere tocmai la scorul diferentelor dintre cele dou msurtori. Astfel, ipoteza de nul va fi aceea c nu exist nici o diferen ntre msurtori, deci media populaiei de diferente va fi nul, iar ipoteza de cercetare va fi aceea c totui media diferenelor nu va fi zero. Cum procedm mai departe? Noi avem rezultatele a dou eantioane perechi (msurtorile nainte de terapie i msurtorile dup terapie) i ne raportm la o singur distribuie, cea a diferenelor. Pentru a putea s facem aceast raportare ar trebui s avem tot un eantion, acela al diferentelor. Astfel, vom crea un nou eantion (este ca i cum am recodifica variabilele) ale crui scoruri vor fi tocmai diferenele dintre scorurile finale si cele iniiale obinute de la pacienii notri. Astfel, ajungem n situaia dinainte, unde comparam un eantion (acela al diferenelor dintre scorurile finale i cele iniiale) cu o populaie la care cunoatem medie (media va fi 0 zero, conform ipotezei de nul c nu vor fi diferene semnificative). Aceasta este logica testului t pentru eantioane perechi; similar vom judeca i n cazul n care eantioanele sunt independente. Nu vom mai insista asupra aspectelor teoretice, ci vom trece la aplicaiile practice folosind SPSS-ul.
Folosirea SPSS: meniul ANALYZE PAIRED SAMPLES T TEST
COMPARE
MEANS
Vom folosi un set de date pentru a putea s aplicm analizele statistice. Prezentm mai jos aceste date, preciznd c ele sunt imaginare si ar descrie salariul iniial, la angajare si cel dup cinci ani, pe care l aveau angajaii unei firme, n plus, n baza de date mai este trecut, ca variabil ce grupeaz subiecii, nivelul studiilor acestora.
97
Studii 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3
Sal_ini 158 165 145 189 198 197 168 201 185 156 175 198 199 201 201 220 210 214 205 301 332 341 221 206 298 301 332 358 598 654 214 258 245
Sal_fin5 268 198 158 199 201 220 205 203 185 168 178 201 203 225 260 280 274 298 305 582 542 392 445 401 502 403 503 402 854 954 425 725 625
Menionm c salariul este specificat n mii de lei. Valorile variabilei STUDII sunt: lprimare, 2-medii si 3-superioare. Aceste valori trebuie trecute n cmpul VALUES din perspectiva VARIABLE VIEW (revedei primele capitole pentru aceasta). Scopul analizei noastre este de a argumenta statistic dac salariul dup 5 ani este semnificativ mai mare dect cel iniial, de la angajare. Ipoteza de nul este aceea c ntre cele dou msurtori nu vom avea diferene semnificative, deci c salariul nu creste semnificativ. S vedem cum analizm cu ajutorul programului SPSS. Pentru a activa comanda necesar analizei statistice deschidem meniul ANALYZE si alegem comanda PAIRED SAMPLES T TEST, ca n imaginea de mai jos:
98
Odat activat comanda se deschide urmtoarea fereastr:
1 3
Analiznd fereastra mai n detaliu vom constata urmtoarele: (1)- variabilele existente n baza de date sunt trecute, ca de obicei la orice fereastra de analizm SPSS, n acest cmp; (2) - cmpul de mai jos arat selecia curent, variabilele selectate pentru analiz. Atenie! Spre deosebire de alte analize, pentru acest test se selecteaz dou variabile (o pereche); selecia se face consecutiv. (3) - este cmpul unde se va introduce perechea de variabile pentru analiz. Dup selecie si introducere n cmpul de analiz, fereastra de mai sus ar trebui s arate precum cea urmtoare:
99
Butonul OPTIONS este identic cu cel din fereastra testului t pentru compararea unui eantion cu o populaie, discutat n capitolul anterior. De aici putem selecta intervalul de ncredere (stabilit implicit la 95%). Apsnd butonul OK, programul ncarc fereastra cu rezultate (OUTPUT) ca mai jos:
2 3 4 1 5
Output-ul este organizat n trei tabele. Prezentm detaliat primele dou: (1) - aici este trecut perechea de variabile analizat. Atenie! Pentru a putea face analiza, variabilele trebuie ntr-adevr s fie perechi". Asta nseamn pe de o parte c ele trebuie s provin de la aceeai subieci, sau de la perechi de subieci care au o legtur ntre ei (ex. frai). Pe de alt parte, ntruct facem diferena ntre variabile, ele trebuie s se msoare n aceleai uniti de msur. (2) - n aceast coloan sunt trecute mediile celor dou eantioane (3) - numrul de subieci luat n calcul la analiz din fiecare eantion este reprezentat aici (4) - deviaiile standard ale rezultatelor fiecrui eantion sunt trecute n aceast coloan.
100
(5) - aici sunt reprezentate erorile standard ale mediilor sau, mai precis, deviaia standard a populaiei de eantioane de N subieci din care provin eantioanele noastre n al doilea tabel al foii de rezultate este trecut rezultatul corelaiei dintre cele dou variabile. Astfel: (6) - arat coeficientul de corelaie dintre cele dou variabile (7) - arat pragul de semnificaie al corelaiei, care este probabilitatea de eroare atunci cnd afirmm c ar exista o legtur ntre variabilele analizate. Al treilea tabel conine propriu-zis date despre testul statistic. S-1 privim cu atenie si s-1 analizm detaliat.
4 5 3
2 1
(1) - arat numele perechii de variabile luat n calcul. Observai c se ia n calcul diferena dintre salariul iniial si cel final (notai semnul minus ce exist ntre variabile, nu este o simpl liniu) (2) - aici este trecut media diferenei dintre mediile celor dou eantioane, deci aici apare diferena dintre medii. Faptul c este o valoare negativ arat c salariul final este mai mare dect cei iniial. (3) - n aceast celul este trecut deviaia standard a eantionului rezultat din diferenele celor dou eantioane. (4) - reprezint deviaia standard a populaiei de eantioane de diferene de scoruri (revedei partea teoretic de la nceputul capitolului dac v este neclar) (5) - reprezint intervalul de ncredere al diferenei dintre mediile celor dou eantioane, apreciat cu o probabilitate de 95%. Cu alte cuvinte, folosind ali 33 de subieci de la aceeai firm diferena dintre salariile lor iniiale si finale s-ar fi ncadrat cu o probabilitate de 95% n intervalul de ncredere. (6) - este valoarea testului t, de fapt nota t a eantionului de diferene n cadrul populaiei de eantioane obinute prin diferena dintre scoruri. (7) - reprezint gradele de libertate pentru care a fost calculat nota t, deci arat caracteristicile curbei t la care ne-am raportat. (8) - arat pragul de semnificaie sau probabilitatea de eroare atunci cnd respingem ipoteza de nul. n cazul de fa, valoarea sa foarte mic ne ndreptete s respingem ipoteza de nul ntr-o foarte mare msur.
101
Cum interpretm rezultatele concret obinute? Vom spune c analiza statistic realizat a permis identificarea unor diferene semnificative ntre nivelul salariului dup cinci ani i cel al salariului iniial; testul t pentru eantioane perechi t(32)=5,31 pentru p<0.01 argumenteaz statistic aceast ipotez. Observai c am trecut valoarea absolut a testului t i nu pe cea cu semnul minus. Aa se procedeaz n general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul n care facem diferena. Aa c trebuie s precizm n interpretarea noastr n ce sens apare diferena; n cazul nostru trebuie s spunem c salariul final, dup cinci ani este mai mare semnificativ dect cel iniial. Acest fapt se observ din primul tabel unde sunt trecute mediile eantioanelor. Si corelaia joac rolul su n analiza datelor de fat. Ea arat dac subiecii i schimb ierarhia unii fat de alii, nu numai nivelul variabilei dependente de la o msurtoare la alta. Avem aici trei cazuri posibile: nu avem corelaie semnificativ: n acest caz nu exist nici o legtur ntre ierarhia subiecilor la prima msurtoare i cea obinut la a doua msurtoare. Un astfel de rezultat, care arat c cele dou variabile perechi luate n calcul sunt independente una de alta, ar putea fi interpretat n sensul c diferenele obinute nu sunt sistematice, intervenia noastr afectnd subiecii ntr-un mod oarecum haotic corelaie semnificativ, pozitiv: este cazul pe care l avem de fa. Arat faptul c ierarhia subiecilor se pstreaz ntr-o oarecare proporie de la o msurtoare la alta (ex. chiar dac salariul final crete la toat lumea, cei care aveau salariul iniial mare comparativ cu restul, l vor avea mare i n final, comparativ cu ceilali), n acest caz, am putea aprecia c intervenia noastr (n cazul de fa simpla trecere a timpului) afecteaz pe toat lumea n acelai grad corelaie semnificativ, negativ: ilustreaz inversarea ierarhiei subiecilor de la o msurtoare la alta; chiar dac nivelul general se schimb, cei care aveau scoruri iniiale mici comparativ cu restul vor ajunge n final s aib scoruri mari fa de ceilali i invers. Un astfel de rezultat ar arta ca intervenia este mai puternic la cei care aveau iniial scoruri mici, pattern ntlnit adesea n testele care msoar eficacitatea unor tratamente. Atenie! Testul t arat dac de la starea iniial la cea final se schimb nivelul general, n timp ce corelaia arat dac avem n acelai timp i o schimbare de ierarhiei
Folosirea SPSS: meniul ANALYZE COMPARE MEANS INDEPENDENT SAMPLES T TEST

Este ideal situaia experimental unde subiecii sunt i propriul lor grup de control (situaia test-retest). n alte situaii ns pur i simplu nu avem cum s msurm subiecii folosind metoda test-retest. De exemplu, folosind datele prezentate anterior, s presupunem c ne-ar interesa s vedem dac nivelul studiilor afecteaz ctigul salarial. Cu alte cuvinte, ne intereseaz s vedem dac o variabil independent (n cazul de fa nivelul studiilor) afecteaz sau influeneaz o variabil dependent (venitul). Nu avem cum s msurm ctigul subiecilor sub forma test-retest, pe msur ce ei trec da la un nivel de educaie la altul, deoarece o astfel de trecere este - de obicei - continu, fr pauze n cmpul muncii. Nici nu putem manipula direct variabila nivel de studii, putem cel mult s o invocm , s o folosim pentru a mpri subiecii pe grupuri independente.
102
n acest caz avem nevoie de o alt metod, de testul t pentru eantioane independente. Menionm c nu este necesar ca cele dou eantioane s aib acelai numr de subieci. Folosind SPSS, din meniul ANALYZE activm comanda INDEPENDENT SAMPLES T TEST, ca n imaginea de mai jos:
Odat activat comanda , se va deschide fereastra:

2
S analizm aceast fereastr: (1) - este cmpul unde se afl toate variabilele existente n baza de date (2) - este cmpul unde vom introduce variabilele dependente (observai c putem introduce mai mult de o singur variabil, deci putem vedea simultan efectul unei variabile independente asupra variabilelor dependente). Reinei c n acest cmp introducem ceea ce msurm noi, variabila asupra creia dorim s observm influena variabilei independente. (3) - este cmpul unde se introduce variabila independent sau variabila de grupare, a crei influen va afecta variabila sau variabilele de msurat. (4) - variabilele independente sau de grupare au, de obicei, mai multe nivele de msur, n cazul nostru, avem trei nivele, trei grupuri, corespunztoare celor trei nivele de studii
103
(primare, medii si superioare). Folosind butonul DEFINE GROUPS noi trebuie s precizm doar dou dintre niveluri, ntre care dorim s facem diferentele. Odat activat, butonul DEFINE GROUPS deschide fereastra de mai jos:
S presupunem c dorim s facem diferena ntre ctigul salarial al celor cu studii primare si al celor cu studii medii, n csuele corespunztoare grupurilor, vom trece valorile variabilei independente care definesc acele grupuri. Astfel, vom trece l pentru cei cu studii primare (aa i-am definit cnd am introdus datele) i 2 pentru cei cu studii medii. V reamintesc c aceste valori (l i 2) nu sunt numerice; pur i simplu ele sunt dou coduri ce permit diferenierea celor dou grupuri. Noi puteam s fi avut orice alte dou numere diferite. Dup ce vom introduce valorile corespunztoare grupurilor apsai butonul CONTINUE i observai ce se schimb n fereastra iniial:
Abia acum se activeaz i butonul OK, care va deschide urmtorul OUPUT:

1 2 3 5 4
10 11
9 104
S analizm rezultatele n detaliu, rezultate prezentate n doar dou tabele: (1) - arat variabila dependent (salariul iniial) care este analizat n funcie de nivelurile sau grupurile determinate de cea independent (studii) (2) - arat numrul de subieci din fiecare grup independent luat n calcul (3) - ilustreaz media fiecrui grup sau eantion independent luat n calcul, n cazul de faa putem observa cat ctiga cei cu studii primare i cat ctiga n medie cei cu studii medii. (4) - arat care este deviaia standard n fiecare eantion n parte. Observm astfel c exist o mai mare variaie a ctigurilor pentru cei cu studii medii dect pentru cei cu studii primare (5) - precizeaz care este deviaia standard pentru populaiile de eantioane de N subieci din care ar proveni grupurile noastre. Observai i aici diferene ntre cele dou grupuri. Facem aici o mic i necesar intervenie, prin care s artm ct de importante sunt informaiile de la punctul (4) i (5), fcnd apel din nou la exemplul cu oala de fasole S presupunem c dorim s artm c dou soiuri de fasole, (s zicem albe i negre) fierb diferit. Cum procedm? Le punem pe amndou n aceeai oal, le fierbem un timp, apoi lum ntr-o lingur boabe din ambele soiuri (dup ce amestecm n prealabil foarte bine) i gustm. Dac vom simi diferene (adic cele dou soiuri de fasole se sfarm diferit), atunci concluzionm c ele fierb diferit. E corect raionamentul? Parial, pentru c diferene privind consistena boabelor puteau exista de la nceput (un soi s fie mai tare dect cellalt, nefiert). i atunci? Ar trebui s inem cont de acest fapt cumva. n acest punct vom folosi testul lui Levene (punctele 6, 7 i 8 din explicaiile ferestrei) care testeaz egalitatea variantelor populaiilor din care provin eantioanele noastre (prezentat la punctul 5 din explicaii). Testul lui Levene, notat cu F, testeaz ipoteza de nul care afirm c variantele populaiilor din care provin cele dou eantioane sunt egale. S continum cu explicaiile ferestrei de OUTPUT: (6) - precizeaz cele dou situaii posibile: cnd variantele sunt egale sau cnd ele sunt inegale; (7) - arat valoarea testului F, a lui Levene (vom discuta despre aceasta la capitolul despre analiza de variant) (8) - arat pragul de semnificaie sau probabilitatea de eroare pentru respingerea ipotezei de nul n cazul testului lui Levene. n exemplul nostru, ntruct valoarea este mai mic de 0,05, ipoteza de nul a egalitii variantelor este respins, deci putem accepta faptul c variantele nu sunt egale. Ajuni aici tim dac va trebui s ne uitm n continuarea tabelului pe primul sau pe al doilea rnd (aceste situaii/rnduri sunt descrise la punctul 6 al explicaiilor), n cazul nostru, ne vom uita pe rndul EQUAL VARIANCES NOT ASSUMED, adic ne aflm n situaia cnd cele dou eantioane provin din populaii cu variant diferit. (9) - este valoarea testului t. Ea se ia n consideraie n valoarea absolut i aceasta se raporteaz n cercetri; semnul notei t arat pur i simplu sensul diferenei, dar de acesta din urm ne putem da seama uitndu-ne la valoarea mediilor celor dou eantioane. (10) - arat gradele de libertate pentru care a fost calculat semnificaia notei t. Aceast valoare se raporteaz n articolele tiinifice ntre paranteze. Chiar ' dac ne uitm pe linia EQUAL VARIANCES NOT ASSUMED, unde avem valoarea lui df=12,26, de obicei se raporteaz prima valoare a lui df, cea care este 20. (11) - aici este trecut pragul de semnificaie sau probabilitatea de eroare care apare atunci
105
cnd respingem ipoteza de nul i acceptm ipoteza noastr de cercetare, n cazul de fa vom avea p=0,005. Aceast valoare arat faptul c exist o probabilitate de 5 la mie de a grei atunci cnd respingem ipoteza de nul, deci putem accepta ipoteza de cercetare cu aceeai probabilitate de eroare Cum interpretm rezultatele concret obinute? Vom spune c analiza statistic realizat a permis identificarea unor diferene semnificative ntre nivelul salariului iniial la cele dou grupe de subieci sau, altfel spus, c variabila nivel de studii influeneaz nivelul salarial iniial; testul t pentru eantioane independente t(20)=3,45 pentru p<0.01 argumenteaz statistic aceast ipotez. Observai c am trecut valoarea absolut a testului t i nu pe cea cu semnul minus. Aa se procedeaz n general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul n care facem diferena. Aa c trebuie s precizm n interpretarea noastr n ce sens apare diferena; n cazul nostru trebuie s spunem c salariul iniial al celor cu studii medii este semnificativ mai mare dect al celor cu studii primare. Acest fapt se observ din primul tabel unde sunt trecute mediile eantioanelor.
Ca exerciiu, demonstrai aceeai ipotez n legtur cu salariul final, dup 5 ani.
Folosirea SPSS: meniul TRANSFORM COMPUTE

Uneori, pe parcursul prelucrrii datelor este necesar s lucrm cu o combinaie format din variabilele deja existente n baza noastr de date. Spre exemplu, dac vom aplica testul 16PF (un inventar de personalitate) si vom introduce n computer datele brute (rspunsurile subiecilor la cele peste 400 si ceva de ntrebri), va trebui s grupm cumva aceste ntrebri pentru a obine scorurile pentru cei 16 factori msurai de test. Programul SPSS ofer o comand complex care este folosit tocmai pentru astfel de transformri. O vom folosi ilustrativ n cele ce urmeaz. S presupunem c, folosind baza de date discutat anterior, ne-ar interesa ctigul salarial mediu din cei cinci ani. Cu alte cuvinte, ar trebui s crem o nou variabil n baza noastr de date care s fie media salariului iniial si a celui final, dup cinci ani. Pentru aceasta vom activa comanda COMPUTE din meniul TRANSFORME, ca n imaginea de mai jos:
106
Odat activat aceast comand va deschide o fereastr de unde vom putea face orice combinaii din variabilele deja existente n baza de date. Fereastra este prezentat n continuare:
4 1 2 5 6
S analizm aceast fereastr n detaliu: (1) - este manele noii variabile. Nu trebuie s depeasc 8 caractere si nu trebuie s conin caractere speciale (ex, spaii, virgule, etc.)- i alegem dup dorina. (2) - folosind acest buton vom activa o fereastr de unde putem modifica tipul noii variabile si putem atribui o etichet. Reamintim c eticheta este o descriere mai detaliat a variabilei. Este opional aceast comand. (3) - este cmpul ce conine variabilele existene n baza de date (4) - acesta este cmpul unde vom edita combinaia de variabile care va sta la baza noii variabile. Dup cum observai este vorba de combinaii numerice. (5)- este un cmp cu butoane care permit realizarea diferitelor combinaii numerice realizate cu numele variabilelor, n realizarea combinaiilor se aplic regulile tradiionale referitoare la ordinea operaiilor. (6) - este un buton IF identic cu cel descris ntr-un capitol anterior, la comanda SELECT CASES. (7) - este un cmp care prezint diverse funcii matematice. Ele se selecteaz, ,apoi se introduc n cmpul unde scriem combinaiile numerice, cu ajutorul butonului cu sgeat de deasupra acestui cmp. Funciile sunt prezentate n ordine alfabetic, iar n paranteze este trecut modalitatea n care trebuie scrise argumentele funciei). n exemplul nostru, unde dorim s realizm media celor dou variabile menionate, putem s folosim o formul matematic de tipul celei deja scris n cmpul NUMERIC EXPRESSION din fereastra prezentat anterior. Dar, acelai rezultat l putem avea folosind si funcia MEAN. Avantajul acesteia const n faptul c este mult mai facil atunci cnd dorim s calculm media a foarte multe variabile. Cum procedm? Selectm funcia MEAN din cmpul FUNCTIONS, ca n imaginea de
107
mai jos:
Observai care este forma argumentelor acestei funcii (ceea ce este scris n paranteze). Aceasta indic faptul c variabilele la care vom calcula media trebuie trecute ntre paranteze, iar numele lor trebuie separat prin virgule. Vom proceda n consecin; alegem funcia, o transferm n cmpul NUMERIC EXPRESSION si vom scrie numele variabilelor ntre paranteze.
Dup ce scriem formula complet, apsam butonul OK si vom constata imediat urmrile n baza de date. Vom vedea c la sfritul bazei, programul adaug noua variabil, precum n imaginea de mai jos:
EXERCIIU: ncercai s creai o nou variabil care s fie suma celor dou variabile, salariul iniial i cel dup 5 ani. Aplicai funcia SUM.
108
REGRESIALINIAR - sau cum reuim s prezicem
Cuprins: Regresia liniar - elemente teoretice Regresia bivariat vs. Multivariat Folosirea SPSS: Meniul ANALYZE - REGRESSION - LINEAR Regresia cu dummy variables
Pascal i-a nceput prediciile statistice la masa de joc, apoi a nvat s parieze pe Dumnezeu n timp ce n Anglia statistica a nceput s fie folosit de timpuri pentru a ine evidena populaiei, a msura influena bolilor i a dovedi existena lui Dumnezeu, francezii i italienii i-au adus propria lor contribuie n statistic, dar la ... masa de joc! n mod special, problema punctelor", cum era ea numit a atras atenia: mprirea punctelor ntr-un joc de cri, dup ce acesta s-a ntrerupt, cunoscnd numrul partidelorjucate pn atunci i numrul total de partide dejoc planificate. Problema a fost pus nc din 1494 de Luca Pacioli, un prieten de-al lui Leonardo da Vinci, dar a rmas nerezolvat pn n 1654, cnd Blaise Pascal, celebrul geniu francez, i-a gsit rezolvarea cu ajutorul teoriei probabilitilor. Fiind n coresponden cu Pierre Fermat, un alt celebru matematician francez, Pascal nu a rezolvat numai problema punctelor", ci a progresat mult n teoria probabilitilor aducndu-i contribuii importante n descrierea curbei normale. Interesant este c imediat dup rezolvarea acestei probleme, Pascal a devenit brusc religios. Aflat ntr-o trsur, a scpat de la nec dup ce s-a rupt un pod imediat ce trsura 1-a traversat, iar hamurile cailor au rezistat pn n ultimul moment. Pascal a considerat aceast ntmplare drept un avertisment divin de a-i abandona munca matematic n favoarea scrierilor religioase, astfel c mai trziu el a formulat principiul pariului lui Pascal": valoarea unui joc este valoarea premiului obinut prin ctigarea sa nmulit cu probabilitatea de a-1 ctiga. De aceea, chiar dac probabilitatea ca Dumnezeu s exist ar fi extrem de mic, ar trebui s credem n el pentru c valoarea premiului ar fi infinit, n timp ce dac nu credem, valoarea Jocului" se reduce la o finit plcere lumeasc.
109
Regresia - elemente teoretice

Pn acum nu ne-am pus problema prediciei n tot ceea ce am discutat anterior. Cu toate acestea, n viaa de zi cu zi, ca psihologi sau cercettori n domeniul tiinelor sociale apare adesea situaia prognosticrii unor anumite rezultate. Cum procedm atunci? S lum un exemplu. S presupunem c vi se cere s facei un studiu asupra pieei imobiliare din oraul Iai. n acest caz v-ar interesa s putei prezice care sunt preurile practicate pe aceast pia pentru diferite tipuri de apartamente. Din ceea ce am nvat pn acum, am putea proceda astfel: lum la ntmplare un eantion de apartamente dintre acelea expuse pentru vnzare i calculm media preului de vnzare a lor. S presupunem c media preului de vnzare astfel obinut ar fi de 125 milioane lei. Am putea folosi aceast valoare pentru a face predicii asupra preului de vnzare? Sigur c da, numai c apar aici anumite probleme: utiliznd aceast procedur - care e mai bun totui dect situaia n care nu am avea nici o informaie - ignorm ali factori ce ar putea avea legtur cu preul de vnzare al apartamentelor, cum ar fi suprafaa locuibil, zona de reziden a oraului, etc. n exemplul de mai sus, ca i n situaiile descrise n capitolele anterioare, media a fost tratat ca i un parametru constant, fix ce descrie o distribuie. Aceast abordare ns, dup cum am vzut, are limite. Mai degrab ne-ar fi de folos s tratm media ca o variabil ce ia valori ntr-un anumit interval. Putem face acest lucru dac lum n seam deviaia standard a preului de vnzare. S zicem c variaia, adic deviaia standard, a preului de vnzare ar fi de 50 milioane lei. Deja tim mai multe: preul de vnzare al aproximativ dou treimi dintre apartamentele din Iai este acum cuprins n intervalul de la 75 milioane lei i pn la 175 milioane lei (12550). Acum ansele noastre de a prezice preul unui apartament anume din Iai au crescut. Mult mai acurai n ceea ce prezicem am fi ns dac am ine cont, de exemplu, de suprafaa locuibil a apartamentului. Spre exemplu, dac am avea o formul de genul: Media preului de vnzare = 40 milioane lei + 1,2 milioane lei * suprafaa locuibil (mp) Ce ne-ar spune o astfel de formul? C preul de vnzare al unui apartament ar porni de la suma minim de 40 milioane lei, n condiiile n care ar avea 0 (zero) metri ptrai de suprafa locuibil. Desigur, o astfel de situaie este imposibil, n cel mai ru caz, o garsonier are suprafaa de cel puin 16-20 metri ptrai, n acest caz preul unei garsoniere ar fi: Pre = 40 milioane + 1,2 milioane * 20 mp - 64 milioane lei. Dac am avea un apartament cu dou camere, de 40 metri ptrai ca suprafa, preul ar fi: Pre = 40 milioane + l,2 milioane *40mp = 88 milioane lei. Observai c acum suntem mult mai precii n predicia noastr. Acum, valoarea mediei pe care o prezicem pentru costul apartamentului este variabil si ajustat n funcie de suprafaa apartamentului. Desigur, predicia nu este nici n acest caz perfect, dar oricum e mult mai aproape de realitate. Chiar dac nu toate apartamentele de 40 mp. cost 88 milioane lei, variaia preului n jurul acestei valori va fi de 15-20 milioane lei si nu de 50 de milioane, ca n situaia n care suprafaa apartamentului nu este luat n calcul.
110
n acest capitol vom vorbi despre metodele care ne ajut s putem face astfel de predicii. Reamintim c predicia pe care o vom realiza este una de tip probabilistic, nu exact sau precis, ntruct orice fenomen social este determinat de cauze multiple si este practic imposibil de cunoscut variaia tuturor acestor factori-cauz. Dar, modelele noastre probabilistice sunt oricum mult mai bune dect situaia n care nu am avea nici un instrument la dispoziie. Modelele probabilistice Aa cum precizam anterior, modelele noastre de predicie sunt probabilistice. S vedem ce nseamn acest lucru. S lum un exemplu. Se tie c o component important n vnzarea unui produs o reprezint suma de bani cheltuit pentru reclam. S presupunem c ne intereseaz s realizm un model care s prezic, s modeleze deci, nivelul profitului obinut lunar din vnzarea unui produs, n funcie de cheltuielile alocate pentru reclama produsului respectiv. Prima ntrebare care ne vine n minte atunci cnd dorim s realizm acest model este dac si ce fel de relaie exist ntre cele dou variabile (profit si cheltuiala pe reclam)? Putem prezice exact valoarea profitului cunoscnd cheltuielile pe reclam? Trebuie s admitem c acest lucru nu este posibil de cunoscut exact pentru c vnzrile depind si de ali factori, alii dect cheltuielile de reclam (ex. sezonul, starea general a economiei, structura preului, etc.). Chiar dac am ine cont de toi aceti factori tot nu am putea prezice exact-exact. Vor exista variaii cauzate pur si simplu de fenomene aleatorii care fie nu pot fi explicate, fie nu pot fi anticipate. Vom defini aceste influene aleatorii drept eroare aleatorie care va include totalitatea influenelor ntmpltoare asupra variabilei care ne intereseaz. Dac ar fi s construim un model exact, care s prezic exact valorile unei variabile cunoscnd toate valorile factorilor sau variabilelor ce ar putea s o afecteze, atunci am avea un model deterministic. Spre exemplu, dac considerm c profitul va fi exact de 10 ori mai mare dect cheltuielile cu reclama, atunci putem scrie: y=10*x, unde : y - arat profitul, x - cheltuielile de reclam.
Dar ntruct profitul depinde si de ali factori, nu numai de cheltuielile de reclam, atunci trebuie s folosim un model probabilistic de predicie, care s in cont si de influena factorilor aleatorii. Un astfel de model ar fi: y=10*x + eroarea aleatorie unde: y - arat profitul, x - cheltuielile de reclam termenul de eroare aleatorie include toate celelalte influene ce nu pot
111
fi prezise, msurate, n acest caz termenul 10*y este numit componenta deterministic a modelului probabilistic. n general, n tiinele sociale modelele de predicie sunt probabilistice, iar forma general a acestora este: y= componenta deterministic + eroarea aleatorie Aa cum vom observa n continuare, termenul aleatoriu joac un rol important n predicie pentru c el ne va ajuta s stabilim magnitudinea de variaie a termenului deterministic din model, permind astfel o predicie ct mai precis (dar, reamintim, niciodat perfect).
Regresia bivariat vs. regresia multivariat

Cel mai simplu model de predicie este regresia bivariat. Termenul de regresie" denumete metoda folosit, iar termenul bivariat" arat c n model sunt doar dou variabile. Acest model folosete rezultatele obinute de subiect la o variabil pentru a prezice rezultatele sale la o alt variabil. Prezumia care st la baza acestei metode este c ntre cele dou variabile exist o legtur, o corelaie, de fapt. Cum artam n capitolele anterioare, atunci cnd vorbeam de corelaie, reprezentarea grafic a unei corelaii se fcea cu ajutorul unui nor de puncte. S lum n consideraie un exemplu. S presupunem c am fi interesai s reprezentm grafic nivelul stresului unor manageri n funcie de numrul subalternilor supervizai. Datele ar fi urmtoarele:
Nivel stres 5 6 4 8 2
Nr. subordonai 26 24 24 36 10
112
Reprezentarea grafic ar fi urmtoarea:
Observai c norul de puncte care descrie relaia este cresctor, deci relaia dintre variabile este pozitiv: cu ct numrul de angajai supervizai creste, cu att si nivelul stresului managerului care i supervizeaz este mai mare. Mai observai ns c relaia nu este perfect; punctele nu se niruie toate pe o linie dreapt, ci n jurul unei linii drepte. Ei bine, sarcina regresiei liniare este tocmai de a gsi aceast linie dreapt fa de care punctele sunt cel mai puin deprtate. S vedem care este criteriul dup care stabilim c punctele sunt cel mai puin deprtate de linie, ceea ce n limbajul tehnic al statisticienilor nseamn a potrivi linia". Criterii posibile pentru a potrivi linia" Vom lua pentru aceasta un exemplu mai simplu, cu doar trei puncte. 1. Minimalizarea sumei tuturor erorilor Aceasta ar nsemna ca abaterile simple de la linie s fie, nsumate, la un nivel minim.
Y + X + X + Y
Am ilustrat mai sus faptul c acest criteriu, de minimalizare a erorilor sau abaterilor simple de la linie nu este unul potrivit. i n figura din stnga si n cea din dreapta erorile sunt minime (n sensul c cele pozitive le anuleaz pe cele negative), dar liniile sunt diferite. Observm astfel c un astfel de criteriu nu distinge ntre liniile care ar potrivi" punctele, ori noi avem nevoie de o singur linie si numai una.
113
2. Minimalizarea sumei ptratelor tuturor erorilor Este un criteriu mult mai bun, pentru c anuleaz semnul abaterilor si un punct care se abate cu o distant deasupra liniei va conta la fel de mult ca si altul care se abate cu aceeai distant, dar dedesubtul ei. Observai c dac am ridica la ptrat erorile (abaterile de la linie) din figurile de mai sus, n imaginea din stnga am obine o sum mai mic dect n cea din dreapta. Deci linia din dreapta, cea cresctoare pare mai potrivit pentru a descrie norul de puncte. Mai mult, matematic se poate demonstra c utiliznd acest criteriu exist numai i numai o singur linie care potrivete" cel mai bine toate punctele. Deci acest criteriu st la baza gsirii liniei de regresie. ***
Fr a intra n detaliile matematice legate de calculul coeficientului de regresie care presupun cunoaterea algebrei matriceale, din clasa a Xl-a de liceu) vom preciza c prin aplicarea regresiei liniare vom obine ecuaia algebric a liniei care ndeplinete criteriul menionat anterior (acela de minimalizare a sumei ptratelor distanelor tuturor punctelor pn la linie).
Regresia bivariat folosind notele Z

Vom reveni acum la exemplul cu managerii i subalternii. Dac vom calcula coeficientul de corelaie, vom obine r=0,94. Cel mai simplu model de regresie sau predicie bivariat este cel folosind scorurile z: cunoscnd nota z a unei persoane la o variabil s ncercm s prezicem valoarea notei z a aceleiai persoane obinut pentru cealalt variabil. Acest din urm scor l vom afla multiplicnd prima not z cu un coeficient (numit coeficient de regresie),ca n formula de mai jos:
y = * Zx
n cuvinte, formula s-ar traduce astfel: scorul standard prezis pentru variabila y ( y) obinut de o persoan va fi obinut prin nmulirea scorului standard obinut de aceeai persoan la variabila x (Zx)cu valoarea coeficientului de regresie standardizat (). Observai tilda care se afl deasupra scorului standard a variabilei y; ea arat c valoarea astfel obinut nu este cea real, msurat, ci este valoarea prezis. Variabila y din model, cea a cror valori dorim s le prezicem, se numete variabil dependent sau criteriu, n timp ce variabila x, cea pe baza creia facem predicia, se numete variabil independent sau predictor.
114
Fr a intra n detaliile matematice, trebuie s precizm c valoarea coeficientului standardizat de regresie este tocmai valoarea coeficientului de corelaie dintre variabilele x i y. Astfel, n exemplul cu managerii vom avea ecuaia de regresie:
y = 0,94 * Zx
Cum interpretm rezultatul? S presupunem c vom dori s prezicem nivelul stresului managerilor cunoscnd numrul de subalterni supervizai. Deci variabila y este nivelul stresului, iar variabila x va fi numrul de subordonai. Vom spune c scorul standard care arat nivelul stresului managerului va fi 0,94 din scorul standard ce descrie numrul subalternilor. Cu alte cuvinte, dac unui manager i se mrete numrul subalternilor cu valoarea unei deviaii standard din acea distribuie (adic scorul su , Zx, va crete cu 1), nivelul stresului va crete de 0,94 ori. Altfel spus, dac avem o variaie de 100% a numrului de subalterni repartizai unui manageri, nivelul stresului su variaz doar 94%. De aceea metoda se cheam regresie, pentru c neavnd o relaie perfect ntre dou variabile (coeficientul de corelaie s fie +1 sau -1), variaiei dintr-o variabil i va corespunde o variaie mai mic n cadrul celeilalte, deci variaia regreseaz.
Regresia bivariat folosind notele brute

Folosirea scorurilor standard este ns anevoioas i ne este mai util s folosim direct scorurile brute pentru a face prediciile. Desigur am putea transforma scorurile brute n scoruri standard i invers, dar asta ar fi o operaie care ne ia timp. n plus, folosirea scorurilor brute este mult mai apropiat de nelesul regresiei liniare (de a gsi o linie care s potriveasc" punctele). Ecuaia regresiei bivariate liniare folosind scorurile brute este: = B0 + B1 * X Observai c aceast ecuaie este foarte apropiat de ecuaia general a unei linii, y=a + bx, iar nelesul coeficienilor de regresie este acelai ca i al coeficienilor din ecuaia unei linii. Coeficientul a arat intersecia liniei cu axa OY, iar coeficientul b este valoarea tangentei unghiului d, adic arat cu cte uniti crete variabila Y atunci cnd variabila X crete cu o singur unitate. Y
a X 0 115
La fel, coeficientul B, arat care este valoarea cu care crete Y atunci cnd variabila X crete cu o unitate. Mai precis, pentru cazul regresiei bivariate, el este dat de formula:
B1 = r
unde
SDy SDX
- r este coeficientul de corelaie, - SD arat, deviaiile standard pentru cele dou variabile.
Coeficientul B0 se calculeaz cu formula: B0 = My B1* Mx Revenind la exemplul cu managerii i subalternii avem: r = 0,94 MY = 5 Mx = 24 SDY = 2,23 SDX = 9,27 Nu are importan cum am calculat aceste valori. Ideea este s vedem cum anume calculm coeficienii de regresie: Astfel, B1 = r SDy 2, 23 = 0,94 * = 0, 22 SDX 9, 27
B0 = M B1 * M x = 5 0,22 * 24 = 0, 28
Deci, ecuaia de regresie va fi:
= -0,28 + 0,22*Y
Cum interpretm ecuaia? Pur i simplu nlocuim valorile lui X n ecuaie i aflm valoarea prezis a lui Y. Spre exemplu, un manager care supervizeaz 10 angajai, va avea valoarea stresului de (-0,28+0,22*10), adic 1,92, n timp ce un manager care supervizeaz 30 angajai va avea stresul 6,32. Observai c valoarea coeficientului de regresie ne spune mai multe dect valoarea coeficientului de corelaie: cu cte uniti crete variabila Y (stresul), cnd variabila X
116
(numrul subalternilor) crete cu o unitate. Sau putem interpreta situaia i altfel: coeficientul de regresie Bl arat care este diferena n nivelul stresului la doi manageri atunci cnd ei sunt identici din toate punctele de vedere, iar unul dintre ei are cu un subaltern mai mult n subordine.
Regresia multivariat
Pana acum am prezentat situaia m care am prezis rezultatele obinute de subieci la o variabil n funcie de rezultatele lor msurate la o alt variabil. Dar n viaa real, o variabil este n legtur cu mai multe variabile, nu numai cu una singur i atunci predicia noastr s-ar mbunti dac am ine cont de relaia existent ntre toate variabilele si cea pe care dorim sa o prezicem. Coeficientul de corelaie multipl - asocierea dintre o variabil i dou sau mai multe variabile - notat cu R, ne arat tocmai ct de mult putem noi s prezicem rezultatele variabilei dependente cunoscnd pe cele ale variabilelor predictori. Mai precis, valoarea lui R2 arat care este variaia din variabila Y (variabila dependent) explicat de variaia din variabila (variabilele) X (variabilele predictori sau independente).
Y Y b a X1 X X2 a1 b a2
n diagramele prezentate anterior am reprezentat cazul regresiei bivariate (stnga) fa de cazul regresiei multiple (dreapta). Cercurile reprezint variaia total a variabilelor. Ceea ce noi putem explica prin modelele noastre de regresie este tocmai zona delimitat cu a. Iar valoarea lui R2 se refer tocmai la aceast poriune de variant. Zona notat cu b este varianta fenomenului Y pe care modelul nostru nu o explic, deci influena altor factori pe care nu-i putem prevedea sau msura. Observai c la regresia multipl, avem avantajul c fiecare din variabilele predictori explic (sau ar trebui s explice) cte o poriune din varianta variabilei dependente Y, astfel c pe ansamblu vom explica mai bine fenomenul (zona b se micoreaz). Nu intrm acum n detalii legate de posibilele erori care pot apare n modelele de regresie multipl (ex. multicolinearitatea sau existena relaiilor supraordonate) si care fac obiectul analizei reziduurilor sau a erorilor (elemente de statistic avansat). Menionm c ecuaia de regresie pentru cazul regresiei liniare multiple se obine prin extinderea ecuaiei de regresie bivariat dup cum urmeaz:
117
= B0 + B1 * X 1 + B2 * X 2 + ... + Bn * X n
Prezentm n continuare cum se realizeaz o analiz de regresie folosind programul SPSS (pentru a ti care este meniul si opiunile ce le avem la dispoziie), lsnd la latitudinea cititorului s aprofundeze domeniul regresiei folosind lucrrile de specialitate deja existente pe pia (vedei lista crilor recomandate la sfritul acestui volum).
Folosirea SPSS; meniul ANALYZE - REGRESSION LINEAR

Pentru a putea demonstra modalitatea n care programul SPSS se folosete la regresie, vom lucra cu o baz de date conceput pentru acest scop. Datele arat informaii culese despre fumtori (informaii imaginare), referitoare la numrul de igri fumat zilnic (NRCIGZI), vrsta iniial la care persoana a nceput s fumeze (VIRSTINI), venitul persoanei (VENIT) si nivelul studiilor, msurat prin anii de studiu (STUDII). Baza de date este prezentat n tabelul urmtor, iar introducerea ei n baz se face dup cum am prezentat si n capitolele anterioare.
NRCIGZI 25 10 20 26 28 40 50 12 12 10 5 19 5 4 18 12 10 25 23 22 VIRSTINI VENIT 15 25 20 19 18 9 8 18 15 27 32 11 26 21 15 10 17 18 20 21 348 289 380 420 254 589 624 357 350 289 257 399 289 368 456 425 410 411 411 457 STUDII 8 8 9 8 7 9 11 5 16 16 16 15 18 14 18 5 6 7 8 7
Dup ce am introdus datele, le vom defini (folosind perspectiva VARIABLE VIEW), aa cum este prezentat n imaginea de mai jos:
118
Definirea se face n coloana LABEL, ca mai sus. Nu vom mai face alte modificri. Observai c toate variabilele sunt dependente (adic le-am msurat pe toate i nici una nu grupeaz subiecii n vreo categorie) i exprimate numeric, cantitativ. Reamintim c datele nu sunt reale, ci imaginare. n acest exemplu, dorim s prezicem cantitatea de igri fumat zilnic de o persoan la vrsta de 40 ani (NRCIGZI), n funcie de celelalte variabile cunoscute: vrsta de debut a fumatului, venitul i educaia respectivei persoane. Vom aplica pentru aceasta regresia liniar. Activarea meniului pentru regresia liniar se face cu ajutorul comenzii LINEAR din meniul ANALYZE -> REGRESSION, ca n imaginea de mai jos:
Odat apelat, comanda va activa fereastra urmtoare, pe care o vom explica n detaliu, dar fr a folosi ulterior toate opiunile (ar trebui s dedicm un ntreg volum numai acestei metode, foarte complexe).
119
2 3 1 4 5 6 7
10
11
12
S analizm fereastra anterioar n detaliu: (1) - este cmpul ce cuprinde toate variabilele existente n baza de date; (2) - este cmpul unde trebuie introdus variabila dependent, cea pe care dorim s o prezicem; (3) - desemneaz butoanele folosite pentru a construi modele de regresie construite ierarhic, prin adugarea sau scoaterea, pe rnd a cte unei variabile independente (sau grup de variabile independente) din model; (4) - este cmpul folosit pentru inserarea variabilelor independente, n cazul folosirii modelelor ierarhice, n care variabilele sunt adugate una cte una n model, se introduce procedeaz astfel: se introduce prima variabil (bloc de variabile), apoi se apas butonul NEXT de deasupra, se introduce urmtoarea variabil si iar se apas NEXT, etc. (5) - n acest spaiu vom preciza metoda aleas pentru a face regresia (este o opiune pentru cunosctorii avansai), si este folosit tot la modelele de regresie ierarhic, cnd dorim s analizm influena variabilelor independente adugate sau scoase pe rnd din model. Varianta implicit este suficient de bun pentru modelele simple. Pentru o mai bun informare s comentm opiunile din acest spaiu, menionnd c rolul acestei opiuni este de a analiza influena separat a unei variabile (sau grup de variabile) asupra variabilei dependente: a. ENTER: toate variabilele independente care se gsesc n cmpul de mai sus vor fi tratate ca un bloc comun de variabile si introduse ca atare n analiz; b. STEPWISE: fiecare bloc de variabile independente care nu este nc inclus n ecuaie este raportat la criteriul de selecie (despre acesta vom vorbi mai departe la butonul OPTIONS), apoi variabila (blocul de variabile) este introdus n ecuaie sau scoas din model. Procedeul se repet pn cnd toate variabilele independente sunt introduse n model sau excluse. c. REMOVE: exclude de la analiz variabilele dintr-un bloc. d. BACKWARD: Variabilele deja existente n ecuaie sunt excluse una cte una, dac ndeplinesc criteriul de excludere, pn cnd nici o variabil din ecuaie
120
nu mai satisface acest criteriu. e. FORWARD: Este un procedeu invers celui anterior: variabilele ce nu se gsesc n ecuaie sunt evaluate conform cu criteriul de excludere si sunt introduse n ecuaie una cte una. (6) - n acest cmp putem introduce variabile pentru a selecta anumite cazuri sau anumite condiii. De obicei se introduc variabile categoriale, dar pot fi introduse si variabile cantitative, specificnd cu ajutorul butonului RULE, regula dup care s se fac selecia cazurilor luate n calcul (ex. pentru scoruri egale sau mai mici dect o anumit valoare, etc.). (7) - n acest cmp se introduc de obicei variabile categoriale, programul va executa regresia n mod obinuit, doar c la executarea graficelor (de tip scatter-plot, ca si cele ale corelaiei), punctele vor fi etichetate (vor primi un nume), n funcie de valorile variabilei selectate n acest cmp; (8) - prescurtarea WLS provine din englezescul WEIGHTED LEAST SQUARES si reprezint o variant a metodei obinuite de regresie numit prescurtat OLS (ORDINARY LEAST SQUARES). (9) - cuprinde butonul care permite calcularea diferiilor parametri despre care vom vorbi detaliat n continuare. (10) - permite realizarea diferitelor grafice prin care se analizeaz reziduurile sau erorile modelului pentru a vedea validitatea i puterea de predicie a acestuia. (11) - acest buton activeaz comenzile pentru crearea a noi variabile n baza de date, n funcie de modelul regresiei. Vom analiza detaliat opiunile n cele ce urmeaz. (12) - de aici vom selecta criteriile folosite pentru metodele de selecie a variabilelor n model, descrise la punctul (5). n exemplul ales demonstrativ, vom alege un model mai simplu de regresie. Vom construi, n pai, trei modele teoretice de predicie, adugnd pe rnd variabilele independente. Prima dat, primul model va conine ca variabil independent variabila VIRSTINI, vrsta la care persoana s-a apucat de fumat. Pentru aceasta vom introduce variabila dependent (NRCIGZI) n cmpul pentru variabile dependent si VIRSTINI n cmpul cu variabile independente, ca n imaginea de mai jos:
121
Apsam butonul NEXT, pentru a construi urmtorul bloc de variabile independente, urmtorul model de regresie. Observai c prin apsarea lui NEXT, cmpul cu variabile independente se golete. Acum vom pune n el variabilele VIRSTINI si VENIT, acestea dou formnd acum al doilea bloc, al doilea model de regresie. Fereastra de pe ecran ar trebui s fie ca n imaginea urmtoare:
Vom apsa din nou butonul NEXT si vom construi al treilea si ultimul bloc, punnd n final, n cmpul cu variabile independente toate cele trei variabile predictor : VIRSTINI, VENIT, STUDII ca n imaginea de mai jos:
Observai c pentru fiecare dintre blocuri am folosit metoda ENTER, astfel c variabilele independente din fiecare din ele vor fi tratate ca un grup, iar modelul de predicie va fi construit pornind de la aceast asumpie. ntruct folosim metoda clasic, OLS, nu vom activa butonul WLS, care presupune atribuirea unui numr cu care s ajustm valoarea coeficienilor de regresie. Nu intrm n detalii privind aceast opiune.
122
Programul SPSS calculeaz implicit anumii parametri ai modelului de regresie. Cu toate acestea, opiunile pe care le avem la ndemn sunt mult mai variate. Ele se gsesc n fereastra activat de butonul STATISTICS, pe care o vom analiza detaliat n cele ce urmeaz. Pentru a solicita programului s calculeze anumii parametri trebuie s bifai n ptrelul corespunztor fiecruia dintre acetia.
S analizm pe rnd opiunile: ESTIMATES: pentru fiecare variabil independent introdus n model programul calculeaz coeficienii standardizai si cei nestandardizai de regresie, eroarea standard a acestora, si pragul de semnificaie pentru testul t care testeaz ipoteza de nul c valoarea acestui coeficient este zero. CONFIDENCE INTERVALS: pentru fiecare coeficient nestandardizat de regresie este calculat intervalul de ncredere corespunznd lui 95% (probabilitatea ca valoarea real a coeficientului s se gseasc n intervalul de ncredere este de 95%). COVARIANCEMATRIX: pentru modelele de regresie multipl (cum este si cazul nostru) programul SPSS afieaz o matrice ptrat, care conine covananele coeficienilor nestandardizai de regresie dispuse sub diagonala principal, corelaiile - deasupra diagonalei principale i variantele -pe diagonala. MODEL FIT: solicit calcularea coeficientului de corelaie multipl R i a ptratului acestuia R2 care arat ct de mult din var^ia variabilei dependente este prezis de modelul nostru. R SQUARE CHANGE: arat, pentru modelele ierarhice, n care variabilele independente sunt introduse pe rnd, ct de mult se schimb valoarea lui R2 de la un model la altu1, permind astfel s estimm dac introducerea unei variabile sau bloc de variabile independente mbuntete puterea de predicie a modelului. DESCRIPTIVES: arat media si abaterea standard pentru toate variabilele selectate si o matrice de corelaie. PART AND PARIAL CORRELATIONS: arat coeficienii de corelaie pariali ntre variabilele independente si cei pariali dintre fiecare variabil independent si cea
123
dependent. COLLINEARITY DIAGNOSTIC: pentru regresia multipl permite efectuarea unor teste de colinearitate (o condiie ce trebuie evitat) ntre variabilele independente. DURBIN-WATSON: este un test care msoar corelaia serial ntre reziduuri (erori), fapt ce trebuie evitat pentru a avea un model acurat de predicie. CASEWISE DIAGNOSTICS: arat cazurile pentru care erorile de predicie depesc 3 abateri standard i care trebuie reconsiderate. n funcie de necesitile de analiz i avnd descrierea detaliat de mai sus, selectai opiunile de care avei nevoie. Pentru exemplul nostru nu am bifat dect ESTIMATES, MODEL FIT, R SQUARE CHANGE i CONFIDENCE INTERVALS. Urmtoarea opiune se refer la reprezentarea grafic a modelului. Activnd butonul PLOTS, pe ecran va apare fereastra:
Opiunile din fereastra anterioar ne permit s solicitm programului s realizeze grafice cu puncte (scatterplots) dintre variabila sau variabilele dependente si oricare din reziduurile (erorile) din list. Erorile sau reziduurile sunt abateri ale modelului prediciei de la realitate, iar pentru a fi siguri c modelul nostru este unul corect, ar trebui s nu avem nici o legtur ntre variabilele reprezentate grafic, deci norul de puncte trebuie s fie aleatoriu. Graficele se realizeaz alegnd oricare dintre perechile de variabile si introducnd-o n cmpul destinat axei X sau Y. Realizarea mai multor grafice se face folosind butonul NEXT. S prezentm pe scurt fiecare variabil cu care se poate realiza graficul: DEPENDNT: este variabila dependent (prezis), scorul brut al acesteia ZPRED: sunt valorile standardizate ale variabilei prezise, dependente. ZRESID: sunt valorile standardizate ale erorilor (reziduurilor sau abaterilor de la model) DRESID: sunt reziduurile terse sau excluse de la analiz (unde este cazul) ADJPRED: este valoarea ajustat si prezis a unui caz atunci cnd este exclus de la analiz. SRESID: notele t ale reziduurilor SDRESID: notele t ale reziduurilor excluse de la analiz.
124
Observai c n fereastr mai sunt nite opiuni. S le discutm si pe acestea: PRODUCE ALL PARIAL PLOTS - sunt grafice care arat corelaia dintre oricare dou variabile independente, pentru a verifica c acestea nu se coreleaz unele cu altele, fapt care ar distorsiona modelul de predicie. HISTOGRAM - realizeaz histograma reziduurilor standardizate pentru a vedea dac ele sunt normal distribuite (cum ar trebui s fie pentru ca modelul nostru s fie valid). NORMAL PROBABILITY PLOT - (numit si P-PPLOT) are aceeai funcie ca i opiunea anterioar, doar c verific normalitatea distribuiei prin comparaie chiar cu abaterile de la curba normal. n exemplul nostru vom bifa doar NORMAL PROBABILITY PLOT i HISTOGRAM, apoi apsam butonul CONTINUE. n continuare vom analiza fereastra care apare la apsarea butonului SAVE, prezentat mai jos:
2 1
3 4
Aceast fereastr conine opiuni ce permit salvarea n baza de date a unor noi variabile, bazate pe modelul nostru de predicie sau calculul unor parametri care arat influena unor cazuri individuale (suspectate de a fi atipice) asupra modelului de predicie, n vederea eliminrii sau ajustrii lor.
125
Vom prezenta aceast fereastr la un nivel mai general. Astfel, (1)- este cmpul ce conine opiuni pentru salvarea n baza de date a variabilei dependente (prezise). Se pot salva astfel scorurile brute, cele standard, cele ajustate sau eroarea standard a mediei. (2)- folosind opiunile din acest cmp vom salva n baza de date abaterile scorurilor prezise fa de cele reale, pe baza crora s-a fcut predicia. Aceste abateri se numesc reziduuri sau erori. (3)- aici sunt nite parametri ce msoar potrivirea" unui caz n model, sau - cu alte cuvinte - ct de mult influeneaz acesta predicia. a. MAHALANOBIS: msoar distana de la un caz pn la media valorilor tuturor variabilelor independente. b. COOK'S: arat ct de mult se schimb erorile sau reziduurile tuturor scorurilor, dac un anume caz este exclus de la analiz. c. LEVERAGE VALUES: msoar ct de mult un caz poate afecta potrivirea" modelului de regresie (R2) (4)- n acest cmp avem opiuni ce permit calcularea unor parametri sau salvarea unor variabile care arat care ar fi schimbrile survenite n model dac un scor ar fi omis de la analiz. (5)- opiunile din acest cmp permit salvarea n baza de date a cte dou variabile (fiecare opiune) coninnd marginea inferioar i cea superioar a intervalului de ncredere (stabilit implicit la 95%) pentru medie (opiunea MEAN) sau pentru un caz individual (opiunea INDIVIDUAL), date fiind valorile actuale ale variabilelor independente. n exemplul nostru vom marca opiunile ADJUSTED (din cmpul PREDICTED VALUES) si INDIVIDUAL (din cmpul PREDICTION INTERVALS) apoi apsam butonul CONTINUE. Ultimul buton din fereastra principal este butonul OPTIONS, care activat va deschide fereastra de mai jos:
1
2 3
126
Trei sunt elementele principale ale acestei ferestre: (1) - alegerea criteriului de selecie a variabilelor n model n cazul n care folosim alt metod dect ENTER. Valorile stabilite implicit de program sunt cele folosite adesea, aa c recomandabil este s nu modificai aceste opiuni. Acest F despre care se vorbete in acest cmp arata daca proporia de varianta din variabila prezis explicat de variabila sau grupul de variabile independente introduse n model este o proporie semnificativ. (2) - permite s modificm ecuaia de regresie prin introducerea sau eliminarea coeficientului B0. (3) - arat modul n care sunt luate n calcul valorile lips. a. EXCLUDE CASES LISTWISE : este opiunea recomandat i aleas implicit. Se refer la eliminarea de la analiz a rezultatelor subiecilor crora le lipsete fie si o singur valoare din lista de variabile independente. b. EXCLUDE CASES PAIRWISE: va exclude de la analiz perechile de scoruri pentru care lipsete o valoare. De exemplu, dac aveai trei variabile independente, A, B i C, iar un subiect nu are scorul la variabila B, acest subiect nu este exclus de la analiz (ca n primul caz, LISTWISE), ci sunt excluse pentru acest subiect numai acele perechi de scoruri ce conine variabila lips, n cazul nostru nu vor fi analizate AB i BC pentru aceast persoan, dar va fi luat n calcul perechea AC pentru care subiectul are scoruri. c. REPLACE WITH MEAN: nlocuiete scorurile lips cu media grupului din care face parte subiectul. n exemplul nostru, vom lsa aceste opiuni aa cum sunt ele stabilite implicit, aa c apsam CONTINUE, apoi OK n fereastra principal pentru a obine OUTPUT-ul, adic foaia de rezultate.
127
n continuarea foii de rezultate ne sunt prezentate ntr-un tabel informaii referitoare la puterea de predicie a modelului nostru, la potrivirea" sa cu realitatea pe care dorim s o prezicem.
7 1 2 3 4 5 6
S analizm mai detaliat tabelul de mai sus: (1) - arat cte modele de regresie avem si le atribuie un cod numeric acestora (2) - arat coeficientul de corelaie multipl R, pentru fiecare din modele (3) - arat valoarea coeficientului de corelaie multipl ridicat la ptrat, R2 valoare care arat ce proporie din variaia variabilei dependente sau prezise este explicat de un model. (4) - este valoarea ajustat a lui R2; ea trebuie luat n calcul atunci cnd judecm potrivirea" unui model sau puterea sa de predicie. (5) - arat eroarea standard a variabilei dependente, prezise. Cu alte cuvinte arat care este deviaia standard a numrului igrilor fumate zilnic de o persoan de 40 ani, cunoscnd valoarea variabilelor independente din model. Observai c modelele 2 i 3, unde numrul variabilelor independente este mai mare, permite o apreciere mai bun a numrului de igri fumate zilnic (intervalul de variaie fiind mai mic). (6) - arat ct de mult se schimb valoarea lui R2 atunci cnd n model mai adugm variabile. (7) - este testul F al lui Fisher (vom discuta despre el la capitolul cu analiza de variant), care arat dac schimbarea lui R2 , msurat la Punctul (6) este semnificativ, n cazul nostru, ne vom uita n coloana SIG F CHANGE, unde este trecut pragul de semnificaie pentru testul F i unde constatm c schimbarea este semnificativ doar pentru primele dou modele. Concluzia ar fi c al treilea model (ce conine n plus fat de al doilea variabila STUDII) nu contribuie semnificativ la puterea de predicie a regresiei. Mai mult, dac v uitai la coloana unde avem valoarea ajustat a lui R2 vei constata o scdere a puterii de predicie. Rezultatul se datoreaz probabil faptului c variabila independent VENIT coreleaz cu variabila STUDII, deci a doua variabil nu mai aduce mult informaie nou n plus, fat de prima. La fel ca i n tabelul anterior, indicii care se gsesc n tabel sunt explicai n observaiile menionate sub acesta, n cazul nostru, indicii a, b si c arat care sunt variabilele predictor
128
pentru fiecare din cele trei modele, iar indicele d precizeaz care este variabila dependent prezis. n continuarea output-ului urmeaz un tabel coninnd analiza de variant pentru fiecare model de regresie, analiz care arat ct de eficient este predicia modelului cunoscnd variabilele independente, comparate cu situaia n care nu am cunoate nimic. Acest tabel este prezentat n continuare, dar nu vom intra n detalii legate de el, ntruct nu am prezentat pn acum analiza de variant (ANOVA).
2 1
S analizm puin acest tabel: (1)- aici sunt prezentate modelele de regresie si componentele variantei: ct este explicat de model (pe rndul notat REGRESSION), ct este rezidual, neexplicat de model (pe rndul RESIDUAL) si ct variant are n total variabila dependent (rndul notat TOTAL). Pe baza elementelor componente ale variantei se calculeaz valoarea notei F (despre ea vom vorbi n capitolul cu analiza de variant), care arat dac variaia explicat de model este semnificativ mai mare dect cea rezidual, deci dac modelul nostru este eficient n predictie. (2) - n acest cmp este trecut valoarea notei F. (3)- aceast coloan cuprinde pragul de semnificaie pentru testul F; un prag mai mic de 0,05 arat c putem afirma cu o probabilitate eroare de 5% c modelul nostru explic semnificativ mai mult variaie dect cea datorat altor factori, neprevzui sau necontrolai. n exemplul ales de noi, toate cele trei modele sunt eficiente, n sensul c explic o cantitate semnificativ de variaie din cea total. Mai mult, observai c valoarea pragului de semnificaie este cea mai mic pentru modelul al doilea, fapt care arat c acesta este modelul cel mai bun dintre toate trei. Indicii prezeni n dreptul fiecrui prag de semnificaie sunt explicai sub tabel si arat pe baza cror variabile independente se face predicia.
129
n continuarea prezentrii rezultatelor urmeaz unul din tabelele cele mai importante ale output-ului:
S analizm pe ndelete acest tabel important: (1) - pe aceast coloan este trecut descrierea fiecrui model n parte. In cele ce urmeaz, vom analiza mai detaliat modelul al doilea care, aa cum reiese din analiza de pn acum a rezultatelor, este cel mai bun n termeni de predicie. (2) - un model are inclus n el o constant, o valoare cu care predicia noastr este ajustat. (3) - partea cea mai important a modelului se refer la variabilele independente incluse n el, la predictorii modelului. Observai c n modelul al doilea pe care 1-am luat n discuie avem dou variabile independente: vrsta iniial la care a debutat fumatul si venitul persoanei exprimat n mii de lei. (4) - este, poate, partea cea mai important a tabelului ntruct conine coeficienii nestandardizai de regresie, pe baza crora putem construi ecuaia de regresie. Valoarea 7,0E-02 nu este o anomalie, ci este stilul programului SPSS de a afia uneori numerele foarte mici sau foarte mari. Valoarea aceasta se citete 7,0 * 102, adic de fapt este valoarea 0,07. Dac ar fi fost 7,0E + 04 atunci se face referire la valoarea 7,0 * 104, adic valoarea 70.000. Ajuni aici se impune o observaie. Cu datele trecute n acest cmp trebuie s redactm ecuaia de regresie. Reamintim c pentru regresia multipl ( cnd avem mai mult de dou variabile independente sau predictor ), ecuaia general de regresie folosind notele brute este:
= B0 + B1 * X 1 + B2 * X 2 + ... + Bn * X n
unde B0 reprezint constanta modelului, iar B1..Bn sunt coeficieni nestandardizai de regresie, calculai pentru fiecare variabil independent n parte.
130
n cazul nostru, ecuaia de regresie este: nr igri/zi la 40 ani = (-1,30) + (-0,40)*vrst iniial + (0,07)*venit. Cum interpretm aceti coeficieni? n primul rnd trebuie s precizm c scopul unei astfel de ecuaii este acela de a prezice. Deci, fr prea multe interpretri, putem folosi ecuaia s prezicem cte igri va fuma zilnic o persoan de 40 ani cunoscnd la ce vrst a nceput s fumeze, precum si venitul lunar al su*. OBS: Atenie! Datele referitoare la venit sunt raportate la ctigurile romnilor din anul 1996, cnd dolarul american era la aproximativ 3000 lei. Dac ai dori s aplicai ecuaia la salariile actuale, ele trebuie ajustate la cursul dolarului, altfel predicia nu are sens, ntruct ordinele de mrime ale acestei variabile s-au schimbat i ele afecteaz coeficienii nestandardizai de regresie. O alt variant ar fi s utilizai coeficienii standardizai i astfel problema aceasta va disprea. Spre exemplu, pentru o persoan care a nceput s fumeze la 20 ani i are un venit lunar de 300 mii lei, vom prezice c ea fumeaz cu aproximaie 11-12 igri zilnic [(-l,30)+(0,40)*20+(0,07)*300]. n al doilea rnd, o informaie preioas ne ofer coeficienii nestandardizai de regresie. Ei arat cu ct se modific variabila dependent, cea prezis, dac variabila independent se modific cu o unitate, n condiiile n care toate celelalte rmn constante. Spre exemplu, dac la 40 de ani dou persoane au acelai venit, dar una dintre ele a nceput s fumeze mai devreme cu 10 ani dect cealalt, atunci vom prezice c cea care a nceput mai de timpuriu s fumeze va fuma cu 4 igri mai mult dect cea care a nceput mai trziu. S revenim acum cu explicaiile detaliate legate de tabelul anterior. (5) - n aceast coloan sunt trecute abaterile standard ale coeficienilor nestandardizai de regresie. Ele arat care este intervalul n care variaz predicia noastr n mod obinuit. De exemplu, pentru coeficientul nestandardizat al vrstei iniiale de debut al fumatului, deviaia standard este de 0,45, ceea ce arat c valoarea acestui coeficient variaz de la o persoan la alta cu 0,45. (6) - n acest cmp sunt trecui coeficienii standardizai de regresie, care descriu modelul nostru, atunci cnd lum n calcul notele standard (z) ale variabilelor. (7) - coloana aceasta conine testul t aplicat coeficienilor nestandardizai de regresie, pentru a testa ipoteza conform creia ei sunt semnificativ diferii de zero. Mai precis, aceste note t arat care este importana relativ n model a predictorilor notri. Pentru a putea fi important, un predictor trebuie s aib scorul t cel puin mai mare dect +2 sau mai mic dect -2. Observai c n cazul nostru numai variabila venit" este important pentru model, celelalte avnd i ele o contribuie, dar mai puin important.
131
(8) - pe aceast coloan este trecut pragul de semnificaie al testului t menionat anterior. Valorile semnificative, ca la orice test statistic, trebuie se situeaz sub nivelul de 0,05. (9) - ultimele coloane ale tabelului prezentat conin limitele inferioar i superioar ale intervalului de ncredere pentru coeficienii nestandardizai de regresie, corespunztor probabilitii de 95%. Cu alte cuvinte, aici sunt trecute limitele de variaie ale coeficienilor; de exemplu, coeficientul de regresie pentru variabila venit" este cuprins n proporie de 95% n intervalul 0,009 i 0,132. Dup prezentarea parametrilor corespunztori modelului, n foaia de rezultate urmeaz un tabel nu mai puin important referitor la reziduuri, mai precis la valorile variabilei dependente, cea prezise, comparate cu valorile reale. Aceste date sunt prezentate ntr-un tabel identic cu cel urmtor:
Coloanele tabelului conin elementele descriptive (media, minimul, maximul, deviaia standard si numrul cazurilor din studiu) ale variabilei dependente, prezis de modelul nostru. S analizm cteva din elementele mai importante ale tabelului: PREDICTED VALUE: este valoarea brut prezis de model. De exemplu, pe baza sa, media igrilor fumate zilnic de o persoan de 40 de ani la care cunoatem vrsta de debut al fumatului, venitul si studiile este de 18 tigri/zi, cu un minim de 3 si un maxim de 38. STD PREDICTED VALUE: este valoarea notei standard obinut prin convertirea notelor brute menionate anterior. RESIDUAL: arat abaterile modelului nostru de la realitate. Astfel observm c ne putem abate fie n minus (prezicnd un numr de igri mai mic cu 14 igri dect cel fumate n realitate), fie n plus (prezicnd un numr cu pn la 17 igri n plus). Dac ns observm ct este media acestei variabile (o valoare foarte mic, foarte apropiat de zero) si abaterea standard (aproximativ 7), atunci putem afirma c modelul nostru prezice n fapt destul de bine numrul igrilor fumate de un individ de 40 ani zilnic cu o abatere medie de 7. Cam acestea sunt elementele ce sunt de interes din acest tabel.
132
n continuarea foii de rezultate sunt prezentate graficele pe care le-am solicitat programului. Mai nti este prezentat histograma notelor standard ale reziduurilor (erorilor sau abaterilor modelului de la realitate).
Observm c ea nu respect curba normal, mai ales pentru valorile foarte sczute (sub 1,5 deviaii standard), ceea ce arat c modelul nostru are probleme n a prezice comportamentul celor care fumeaz puin, dar este bun, pe de alt parte, pentru a prezice valorile pentru cei care fumeaz mult. Mai departe, n foaia de rezultate este prezentat graficul probabilitilor cumulate ale notelor standard ale reziduurilor. Dac acestea s-ar distribui aproximativ normal (pentru un model bun), ele ar trebui s urmeze linia procentelor cumulate descris de curba normal (o linie dreapt situat pe diagonala graficului din stnga-jos, pn n dreapta-sus).
133
Dup cum se distribuie punctele noastre pe graficul de mai sus , observm c n partea inferioar a graficului ( stnga), punctele depesc diagonala, n timp ce n partea superioar avem o tendin opus. Aceasta arat c pentru valori mici ale variabilei dependente, modelul nostru de regresie are tendina de a supraestima realitatea, n timp ce pentru valori mari apare tendina de subestimare a realitii. Concluzie: n exemplul analizat pn acum am observat c dintre cele trei variabile independente pe care le putem folosi ca predictori pentru variabila dependent (numrul de igri fumate zilnic), vrsta iniial i venitul ne ajut cel mai bine n predicie. Desigur, predicia noastr nu se suprapune total pe realitate, existnd abateri de la ea (abaterea medie este de 7 igri/zi) i mai apare tendina de a supraestima valorile mici i a subestima valorile mari. Cu toate acestea , modelul nostru este mai bun dect lipsa acestuia, fapt dovedit de valoarea destul de ridicat a coeficientului de corelaie multipl ptrat (R2).
Regresia cu variabile dummy
De multe ori se ntmpl ca informaiile pe care le avem la ndemn pentru a face predicii s nu fie cantitative, ci categoriale, msurate pe scale ordinale sau nominale. Spre exemplu, dac am dori s prezicem preul apartamentelor pe piaa imobiliar din Iai, o variabil independent care ne-ar putea fi util n predicie (pe lng suprafaa locativ) ar putea fi zona de rezident a imobilului, tiut fiind c anumite zone din ora sunt mai cutate dect altele. Cum reuim s construim un model n care s folosim drept predictori variabile de tip categorial? Capitolul de fat ncearc s ilustreze tocmai acest lucru. OBS: * dummy este un termen englezesc ce se refer la manechinele de plastic folosite pentru vitrinele magazinelor de haine i suzeta/biberonul copiilor sugari. De asemenea, expresia englezeasc dummy run care desemneaz o repetiie sau intenia de a ncerca ceva este mai apropiat de sensul pe care1 are acest cuvnt n contextul de fa.
134
Pentru a fi mai ilustrativi, vom lucra cu un exemplu, o serie de date care sunt prezentate n tabelul de mai jos:
LUNI 40 40 31 21 26 18 28 16 27 20 20 16 20 16 15 15 2 3 11 14 ANGAJAI 30 75 90 100 90 120 120 150 160 162 170 210 220 230 240 280 280 310 310 310 TIPUL 1 0 0 1 1 1 0 1 0 0 1 1 0 1 0 0 1 1 0 0
Introducei tabelul n SPSS. Vom recapitula cu aceast ocazie noiunile prezentate anterior n acest capitol. Aceste date (imaginare) reprezint situaia timpului, msurat n luni, n care o inovaie legat de management este adoptat de diverse firme variabila LUNI). Concomitent cu aceast msurtoare, cercettorul mai are urmtoarele informaii despre aceste firme: numrul de angajai (variabila ANGAJAI) si tipul firmei (variabila TIPUL, care are valorile O = firm de stat" si l = firm particular"). Problema pe care i-o pune cercettorul este aceea de a prezice timpul n care va fi adoptat o nou strategie de management cunoscnd numrul de angajai pe care l are Pentru aceasta, vom aplica metoda regresiei si ne propunem s aflm coeficienii ecuaiei de regresie, care n cazul nostru este:
= BO + B1 * X
unde Y este valoarea prezis a timpului de adoptare a noii strategii manageriale k firm, X- numrul de angajai al acelei firme, iar B0,B1 sunt coeficienii ecuaiei de gresie.
135
Vom folosi comanda ANALYZE - LINEAR..., care activeaz fereastra tipic pentru analiza, regresiei liniare, ca mai jos:
Vom selecta variabila LUNI si o vom introduce n cmpul pentru variabile dependente, iar variabila ANGAJAI - n cmpul pentru variabile independente. Metoda folosit va fi metoda implicit, ENTER, aa cum apare ea sub cmpul pentru variabile independente. Activm apoi butonul STATISTICS pentru a solicita calculul anumitor parametri, ca n imaginea urmtoare:
Pe lng opiunile marcate implicit de program (ESTIMATES si MODEL FIT), vom mai bifa opiunea CONFIDENCE INTERVALS, dup care vom apsa butonul CONTINUE. Opiunea R SQUARED CHANGE nu o bifm n acest caz ntruct nu avem mai multe variabile independente cu care s construim mai multe modele de regresie, ci doar o singur variabil predictor. Din fereastra principal a regresiei vom activa apoi butonul PLOTS pentru a realiza unele reprezentri grafice. De aici vom bifa opiunea NORMAL PROBABILITY PLOT, astfel c, n final, fereastra trebuie s arate precum cea din continuare:
136
Dup aceste operaiuni apsm butonul CONTINUE i apsm butonul SAVE din fereastra principal pentru a activa fereastra de mai jos:
De aici vom bifa opiunea STANDARDIZED din cmpul RESIDUALS pentru a salva n baza de date o nou variabil ce reprezint scorurile standard ale abaterilor modelului nostru de la realitate". Vom apsa apoi butonul CONTINUE din aceast fereastr si butonul OK din fereastra principal astfel ca programul s ne arate foia de rezultate (output).
137
Primele informaii oferite de program se refer la modelul folosit si estimarea general a eficienei sale:
Trei sunt elementele care ne intereseaz din aceste dou tabele: (1) - care sunt variabilele ce intr n model (2) - coeficientul de corelaie multipl (care aici este identic cu cel de corelaie bivariat ntruct avem doar dou variabile n model) (3) - coeficientul de corelaie multipl ptratic ajustat, care arat gradul total de potrivire" a modelului, eficiena sa. Observm astfel c modelul nostru, care folosete doar o singur variabil independent (nr. de angajai), explic 71% din variaia variabilei dependente (timpul de adoptare a noii strategii). Tabelul ce urmeaz ne arat dac aceast proporie de variant explicat de modelul nostru este semnificativ.
1
Valoarea pragului de semnificaie, pe care l citim n coloana (1), este mai mic dect 0,05, ceea ce ne permite s afirmm cu o probabilitate de eroare de doar 5% c modelul nostru explic semnificativ de mult din variaia variabilei dependente.
138
Tabelul urmtor descrie ecuaia de regresie:

1
Din coloana notat cu (1) putem deduce ecuaia de regresie, care este: nr. luni = 37,91 + (-0,09) * nr. angajai Reamintim c numrul -9,826E-02 nseamn -9,82*102, adic -0,09. Putem folosi aceast ecuaie pentru a face predicii; astfel, o firm cu 100 de angajai va adopta o inovaie managerial n aproximativ 29 luni (37,91-9). Desigur, predicia noastr nu este perfect, n tabelul urmtor, sunt trecute date ce permit evaluarea abaterilor modelului de la realitate:
Spre exemplu, observam ca abaterea medie de la realitate a modelului nostru predictiv este de aproximativ 5 luni (1), n plus sau n minus. Oricum, modelul nostru este mult mai precis sau mai aproape de realitate dect situaia n care nu am cunoate variabila ANGAJAI. n acel caz, cnd nu am ti numrul angajailor, cea mai bun predicie ce o putem face ar fi situaia n care am cunoate doar rezultatele timpului de adoptare a noii strategii pentru cele 20 de firme luate n calcul i care este de 20 luni, cu o abatere standard de aproximativ 10 luni.
139
Aceste date le obinem dac aplicm metoda DESCRIPTIVES din meniul ANALYZE DESCRIPTIVE STATISTICS, ca n imaginea de mai jos:
In cazul n care cunoatem si numrul de angajai, observai c variaia medie (deviaia standard) scade la jumtate (de la 10 luni la 5 luni), n timp ce media valorii prezise este identic (19,95 n ambele cazuri, dup cum arat tabelele anterioare). Deci este mai rentabil" s folosim modelul nostru de regresie. n continuarea output-ului regresiei programul ne arat distribuia reziduurilor standardizate comparativ cu distribuia normal.
Dup cum observm, punctele corespunztoare probabilitilor cumulate obinute n urma modelului nostru de regresie urmeaz ndeaproape pe cele ale curbei normale, deci modelul nostru este valid. V reamintii c am solicitat programului s salveze n baza de date o variabil care s arate notele standard ale erorilor modelului. S reprezentm acum grafic, sub forma unui nor de puncte, aceste note standardizate n funcie de variabila independent. Dac modelul este valid, norul de puncte astfel obinut trebuie s arate aleatoriu. Activm comanda SCATTER, din meniul GRAPHS. Vom alege un grafic simplu din fereastra care va apare, dup aceea vom apsa pe butonul DEFINE pentru a stabili ce variabile vor fi reprezentate grafic, ca n imaginea:
140
Vom stabili s reprezentm pe axa Y variabila ce conine notele standard ale reziduurilor, n funcie de variabila ANGAJAI, pe care o vom reprezenta pe axa X. Apsam butonul OK si n fereastra de output va apare graficul:
Observai c norul de puncte astfel obinut este unul aleatoriu. Deci modelul nostru este valid. Pn aici toate sunt bune si frumoase. Am recapitulat noiunile referitoare la regresia liniar. Dar credei c informaia legat de tipul firmei (de stat sau particular, variabila TIPUL) nu are nici o importan? Credei c vom obine o aceeai ecuaie de regresie pentru fiecare tip de firm? Cu alte cuvinte, credei c o inovaie este adoptat cu aceeai vitez la o firm de stat'ca i la una particular, chiar dac cele dou firme au acelai numr de angajai? Pentru a rspunde la aceast ntrebare s reprezentm din nou norul de puncte, dar marcnd de data aceasta punctele care provin de la firmele de stat i pe cele care . provin de la firmele particulare.
141
Vom activa din nou comanda SCATTER din meniul GRAPHS i vom introduce variabila TIPUL n cmpul SET MARKERS BY, ca n imaginea:
Apsam din nou butonul OK si pe ecran va apare acelai grafic ca si cel anterior, doar c punctele provenite de la cele dou tipuri de firme vor fi acum colorate diferit (verde si rou). Pentru a le diferenia n alb-negru, am preferat n graficul care este prezentat n continuare s stabilesc diferite senine pentru cele dou tipuri. Astfel, firmele de stat vor fi reprezentate cu cercuri, iar cele particulare - cu triunghiuri:
Observai c de data aceasta nu mai avem o dispunere aleatorie a punctelor; ele se separ clar, astfel c modelul nostru de regresie nu va mai descrie n mod corect relaia care exist ntre numrul de angajai si viteza de adoptare a inovaiei pentru cele dou tipuri de firme. Vedem c modelul nostru subestimeaz timpul pentru firmele de stat (abaterile sunt pozitive, situate deasupra axei) si l supraestimeaz pe cel din firmele particulare (punctele sunt situate n majoritate dedesubtul axei). Din aceast cauz este necesar s inem cont de tipul firmei (variabila TIPUL) n ecuaia noastr de predicie.
142
Modelul dummy
O variabil dummy este o variabil categorial care poate s ia doar valorile 0 si l, atribuite n mod convenional doar pentru dou din strile variabilei, n cazul nostru, valoarea 0 este atribuit firmelor de stat, iar valoarea l - firmelor particulare (nu conteaz cui atribuim valorile, conteaz ca ele s fie l si 0). Este posibil folosirea si a altor valori dect l si 0, dar vei vedea n continuare care este avantajul acestei notaii. Mai precizm c n eventualitatea n care avem o variabil categorial ce are mai mult de dou categorii (s zicem variabila studii", cu trei categorii: studii primare, medii i superioare), ea trebuie reprezentat prin variabile dummy cu numai dou categorii. Ca regul, trebuie s tii c avem nevoie de n-1 variabile dummy pentru a reprezenta o variabil categorial cu n categorii. De exemplu pentru variabila studii, care are trei categorii, vom avea nevoie de dou variabile dummy, prin a cror valori combinate diferit rezult toate valorile variabilei categoriale:
STUDII
DUMMY1
DUMMY2
primare medii superioare
1 0 0
0 1 0
S revenim ns la exemplul cu viteza de inovaie n cele dou tipuri de firme. Variabila TIPUL este variabila noastr categorial; ntruct ea are deja dou categorii care sunt notate cu 1 si 0, ea poate fi folosit ca variabil dummy. La ecuaia de regresie iniial care era: = fl0 + B1 * X va trebui s adaugm noua variabil independent, tipul firmei. Astfel, ecuaia noastr de regresie cu variabil dummy va fi: = B0 + B1 * X1 + B2 * X2 Acum, X1, este variabila ANGAJAI, iar X2 este variabila TIPUL (variabila dummy). Observai c ecuaia nu are nimic deosebit de ceea ce am nvat pn acum. Dar variabila X2 poate s ia doar dou valori. S vedem ce se ntmpl n fiecare caz n parte dac nlocuim valorile 1 si 0 n ecuaia original:
143
Ecuaia original este: Y= B0 + B1 * X1 + B2 * X2

Valorile lui X2 Ecuaia de regresie devine: X2 = 0 Y=B0+B1*X1 Observaii Este ecuaia pentru firmele de stat. Este ecuaia pentru firmele particulare. Observai c am comasat coeficienii B0 si B1 care nu au alturat vreo variabil independent.
X2 = 1
Y = (B0+B2)+B1*X1
Cu ajutorul programului SPSS ecuaia original de regresie se obine n mod obinuit, introducnd variabila dummy n cmpul pentru variabile independente, ca orice alte variabile independente:
Pentru a vedea dac obinem ceva n plus prin folosirea variabilei dummy, vom introduce cele dou variabile independente ntr-un alt bloc, apsnd butonul NEXT din fereastra principal a comenzii de regresie (revedei prile anterioare ale capitolului n caz c ai uitat). Comenzile celelalte rmn neschimbate, doar c din fereastra butonului STATISTICS vom bifa opiunea R SQUARED CHANGE care arat ct de mult se mbuntete modelul folosind nc o variabil independent (n cazul nostru pe cea dummy). Apsam CONTINUE, apoi OK din fereastra principal si vom obine foaia de rezultate (output). Vom analiza numai ceea ce ne intereseaz n mod special din output. Astfel, ne intereseaz tabelul prezentat n continuare, care arat dac modelul ce conine si variabila dummy este mai eficient dect cel care conine numai variabila ANGAJAI.
144
Dou sunt elementele ce ne permit s estimm c modelul cu variabila dummy este mai eficient: (1)- observai c valoarea ajustat a coeficientului ptrat de corelaie multipl este mai mare n al doilea model. (2)- nu numai c valoarea lui R2 este mai mare pentru modelul dummy' dar saltul" de la un model la altul este statistic semnificativ. Pn aici, concluzia este c variabila dummy, tipul firmei, ne mbuntete predicia. Urmtorul tabel care ne intereseaz este cel ce prezint coeficienii ecuaiilor de regresie corespunztoare celor dou modele:
Din acest tabel ne intereseaz urmtoarele elemente: (1) coeficienii nestandardizai de regresie. Astfel, ecuaia original de regresie va fi: nr. luni = 42,79 + (-0,10)* nr. angajai + (-7,21)* tipul firmei Acum putem s precizm ecuaiile separate pentru cele dou tipuri de forme fcnd apel la tabelul prezentat la pagina 144:
145
Ecuaia original este: Valorile lui X2 X2 = 0
=42.79 + (-0.10) * X1, + (-7.21) * X2

Observaii Este ecuaia pentru firmele de stat. Este ecuaia pentru firmele particulare.
Ecuaia de regresie devine: = 42.79+ (-0.10) * X1
X2 = 1
= 35.58 + (-0.10)* X1
Observai c am comasat coeficienii B0 si B1 care nu au alturat vreo variabil independent.
Revenind la tabelul din output, de la pagina anterioar, elementele (2) si (3), precizeaz rezultatele testului t, care ne arat importana relativ a coeficienilor de regresie. Dac ar fi s reprezentm grafic liniile corespunztoare modelului de predicie ce corespunde fiecrui tip de firm n parte, atunci am avea graficul:
LUNI
Diferena dintre modele. Difer doar constantele cu valoarea B2.
F = 42.79 + (-0.10)*X1
(FIRME DE STAT)
F = 35.58 + (-0.10)*X1
(FIRME PARTICULARE)
ANGAJAI
Observm c aa cum am construit modelul nostru, am presupus c intensitatea (natura) relaiei dintre numrul de angajai si viteza de inovare este aceeai, ntre cele dou tipuri de firme diferind doar nivelul (viteza) de implementare. Aceast diferen ntre modele este dat de coeficientul B2, corespunztor variabilei dummy. ntruct acestui coeficient i corespunde o valoare semnificativ a testului t (a se vedea elementele 2 i 3 ale tabelului de la pagina anterioar), vom spune c tipul firmei afecteaz nivelul vitezei de implementare a inovaiei, n cazul n care natura relaiei dintre numrul angajailor i timpul de adoptare a inovaiei ar rmne aceeai.
146
Din urmtorul tabel al foii de rezultate (prezentat mai sus), ne intereseaz s vedem dac precizia prediciei noastre a crescut. Rspunsul este pozitiv la aceast ntrebare: comparnd elementul (1) din tabelul de mai sus cu elementul similar din tabelul de la pagina 145 vom vedea c abaterea de la realitate" s-a redus de la 5,18 luni la 3,68 luni atunci cnd am luat n calcul si variabila dummy, deci erorile n predicie au sczut. Observai c si intervalul delimitat de erorile minime si maxime a sczut. O alt modalitate de a vedea dac ne-am mbuntit precizia folosind variabila dummy este graficul probabilitilor cumulate ale reziduurilor standardizate:
Comparativ cu acelai grafic n situaia n care nu ineam cont de variabila dummy (graficul similar de la pagina 140) observai c punctele din graficul anterior sunt mult mai apropiate de linia corespunztoare probabilitilor cumulate ale curbei normale, nc un element ce susine puterea ridicat de predicie a modelului cu variabila dummy.
147
Dar mai exist si alte dou variante de modele ce pot exista atunci cnd folosim variabile dummy: modelul n care avem constante identice (graficul din stnga, prezentat mai jos) si modelul n care avem interaciune (graficul din dreapta, unde att constantele, ct si pantele liniilor sunt diferite).
Recomandat este modelul de interaciune (cel prezentat n dreapta) pentru c ia n calcul toate posibilele diferene introduse de variabila dummy. Pentru a afla coeficienii de regresie ntr-un astfel de caz, n baza de date trebuie creat o variabil nou obinut prin nmulirea variabilei dummy cu variabila (variabilele) independente. Acest produs, X1*X2 se numete termen de interaciune. Astfel, ecuaia general de regresie (cea pe care o obinem folosind SPSS) cu variabile dummy si interaciune devine: = B0 + B1*X1 + B2*X2 + B3*X1*X2 Pentru a afla apoi ecuaiile specifice, vom nlocui n ecuaie variabila dummy, X2, cu valorile 0 si l. Folosind exemplul cu firmele vom avea:
A Ecuaia original este:
= B0 + B1*X1 + B2*X2 + B3*X1*X2

Observaii Este ecuaia pentru firmele de stat. Este ecuaia pentru firmele particulare. Observai c am comasat coeficienii B0 i B1 care nu au alturat vreo variabil independent.
Valorile lui X2 Ecuaia de regresie devine: X2 = 0 = B0+B1*X1
X2 = 1
=(B0+B2) + (B1+B3)*X1
Observai c n acest caz diferena dintre constantele celor dou ecuaii este B2, iar diferena dintre pantele celor dou linii este dat de coeficientul B3.
148
ANALIZA DE VARIANT (sau cum difereniem n contexte mai complexe)
Cuprins: - Analiza de variant - elemente teoretice Folosirea SPSS: Meniul ANALYZE - COMPARE MEANS - ONEWAY ANO VA - Folosirea SPSS: Meniul ANALYZE - GENERAL LINEAR MODEL - UNTVARIATE
ir Ronald Fisher - geniul caustic al statisticii Fisher, contemporan cu ali statisticieni britanici faimoi, a fost - probabil dac nu cumva cel mai strlucit, atunci cu siguran unul din cei mai productivi statisticieni ai tuturor timpurilor. Cu 300 de articole i 7 cri la activ, Fisher a dezvoltat multe dintre conceptele de baz ale statisticii moderne: analiza de variant, pragul de semnificaie, ipoteza de nul, randomizarea subiecilor, etc. Legenda spune c Fisher a dovedit aptitudini pentru matematic nc de la 3 ani, cnd i-a ntrebat bona Ct e o jumtate dintr-o jumtate?". Cnd i s-a rspuns c aceasta face un sfert, copilul a continuat i ct e o jumtate dintr-un sfert?" Dup ce i s-a spus c asta e o optime i apoi c o jumtate dintr-o optime e o aisprezecime, micul Fisher a continuat fr s mai ntrebe: i bnuiesc c o jumtate de aisprezecime e o trezecidoime, nu?" n viaa adult, Fisher a fost un singuratic; nu se putea abine s fac comentarii caustice la adresa celor din jur, indiferent de poziia ocupat de acetia, astfel nct cei din jur l apreciau mai mult prin munca lui dect prin manierele sale. Ca i Gosset, o mare parte din conceptele teoretice propuse de Fisher i au originea n cei 14 ani n care el a lucrat la o ferm agricol experimental din nordul Londrei, unde fcea studii privind productivitatea cartofilor i a cerealelor. Dar Fisher a devenit foarte cunoscut n cei cinci ani n care a fost invitat s petreac verile n mijlocul Statelor Unite la lowa State College din Ames, unde exista un puternic departament agronomic. Aici, unde se zice c verile erau aa toride nct Fisher i inea toat ziua cearceafurile n frigider, el i-a cunoscut pe G. Snedecor i pe E.F. Lindquist care au popularizat i cizelat ideile brute ale lui Fisher rspndindu-le att n tiinele exacte, ct i n domeniul educaiei i psihologiei. Poate c fr verile fierbini din Ames, Ronald Fisher, un adept nfocat al controlului naterilor (eugenia), nu i-ar fi extins aa repede ideile valoroase dincolo de creterea cartofilor...
149
Analiza de variant - elemente teoretice

Se spune c cine st cu capul n ap nu poate s vad apa. Cu analiza de variant s-a produs un fenomen similar: ea face att de mult parte din felul nostru de a judeca lumea n care trim, nct este de mirare de ce a fost descoperit aa trziu n statistic. S lum cteva exemple: S zicem c intrai la o recepie, ntr-o sal foarte mare, plin de invitai. Brusc, chiar dac oamenii sunt amestecai unii cu alii, fr a se separa ntr-un fel anume, avei impresia c n sal sunt trei grupuri de persoane. Cum v-ai dat seama de asta? Probabil pentru c cei care fac parte din acelai grup (de exemplu asiaticii) sunt mult mai puin diferii ntre ei dect cei care fac parte din grupuri diferite. Fr s v fii contieni, ai aplicat aici principiul pe care se bazeaz analiza de variant. Alt exemplu. S presupunem c mergei ntr-o ar nou. n prima zi, observai o femeie cu prul scurt care pune o scrisoare ntr-o cutie rotund, albastr. Dac pe msur ce cltorii n acea ar vei vedea c i alte femei tunse scurt vor pune scrisori n cutii de tot felul de dimensiuni i culori, vei concluziona c ceea ce conteaz sunt sexul i lungimea prului persoanei. Dac ns vei observa c toat lumea, indiferent de sex i lungimea prului, pune scrisorile numai n cutii rotunde i albastre, atunci cutiile potale sunt cele ce conteaz, n timp ce persoanele sunt neimportante pentru concluziile noastre privind obiceiurile din acea ar. Am folosit din nou, fr s tim, principiul analizei de variant. Dac suntei familiarizai cu psihologia dezvoltrii i cu teoria lui Jean Piaget, atunci v vei da seama c analiza de variant este un tip de gndire, de raionament, care face parte din ceea ce el a numit operaii formale", un stil de gndire abstract ce se achiziioneaz n jurul vrstei de 14 ani. Deci ar trebui s nu avei nici o problem n a asimila logica analizei de variant; o folosii implicit de atia ani!
ANOVA
ANOVA nu este numele vreunui italian; este doar acronimul pentru analiza de variant (din englezescul ANalysis Of VAriance). Pentru a putea deprinde logica acestei metode statistice, s lum un exemplu imaginar. S presupunem c un cercettor este interesat n a arta c oamenii de pe trei continente (s zicem Asia, America de Nord si Africa) ar fi diferii ntre ei din punctul de vedere al nlimii, n sensul c nlimea depinde de continentul n care triete persoana. Cum ar putea aceast persoan s demonstreze acest lucru? Dac nlimea nu ar fi o entitate care variaz, atunci ar fi simplu: am lua cte un individ din fiecare continent, i-am msura pe cei trei si am stabili dac exist diferene. Dar nlimea este o proprietate care variaz nu numai cnd comparm persoanele de la un continent la altul, ci si pentru indivizii din interiorul unui continent.
150
Astfel, dei presupunem c asiaticii vor fi n general mai mici de statur dect americanii, de exemplu, n realitate vom ntlni si asiatici mai nali dect unii americani, si invers.
Dac am ncerca o reprezentare grafic a situaiei descris de exemplul nostru, ea ar arta ca n imaginea de mai sus. Astfel, cele trei linii curbe mici diferite descriu distribuia nlimii n cele trei continente (Asia, Africa si America, de la stnga la dreapta). Linia mai mare descrie distribuia nlimii pe toate trei continentele luate la un loc. Observai c avem trei medii (notate aici cu litere latine n loc de litere greceti, pentru a fi mai uor de citit) corespunztoare mediei nlimii pe fiecare continent n parte (M1 - pentru Asia, M2 pentru Africa i M3 - pentru America). Mai avem i o medie a nlimii populaiei totale, de pe cele trei continente, notat aici cu GM (din englezescul grand mean - marea medie). n partea dreapt a desenului am reprezentat poziia unui scor x din populaia american fa de media grupului din care face parte (distana notat cu a pe desen) i fa de media total a populaiei celor trei continente (distana notat cu b). Cum ar trebui s judecm pentru a ne confirma ipoteza conform creia oamenii de pe cele trei continente au nlimi ce difer semnificativ, sau - altfel spus continentul de provenien afecteaz nlimea locuitorilor si? Putem face aici o analogie cu un aparat de radio la care ncercm s distingem trei posturi de radio, trei staii ce emit pe frecvene apropiate. Ca s putem s le distingem, ar trebui ca semnalele emise de fiecare staie s depeasc n intensitate zgomotul" produs de interferene (zonele unde se intersecteaz semnalul de la dou staii). n cazul nostru, variaia total a nlimii populaiei celor trei continente poate fi descompus n dou pri: o parte din variaie se datoreaz abaterilor fiecrui scor de la media grupului din care face (distana a), iar cealalt parte de variaie este produs de abaterile fiecrui scor de la media total a populaiei (distana b ). Pentru a putea distinge ntre grupuri, ar trebui ca prima component a variaiei s fie mai mic dect cea de-a doua. Cu alte cuvinte, ar trebui ca persoanele aflate n acelai grup (pe acelai continent) s difere mai puin ntre ele, dect persoanele aflate pe continente diferite. Atunci cnd variaia inter151
grupuri o depete pe cea intra-grupuri vom putea distinge bine ntre cele trei grupuri. Analiza de variant, ANOVA, realizeaz tocmai acest lucru: calculeaz raportul dintre variaia provocat de diferenele inter-grupuri i variaia cauzat de diferenele intra-grup i stabilete dac acest raport este suficient de mare pentru a putea distinge ntre grupuri. S lum n continuare un exemplu numeric simplu pentru a vedea exact logica ANOVA n aciune. Exemplu:
Un psiholog social este interesat s msoare influena informaiilor anterioare (dac are sau nu antecedente) pe care o persoan le are despre un infractor n evaluarea gradului de vinovie ntr-o infraciune. Astfel, la 15 subieci le este artat o caset video care prezint procesul unei persoane condamnat pentru falsificare de cecuri bancare. Anterior subiecii au primit dosarul inculpatului care coninea aceleai informaii pentru toi subiecii, cu excepia faptului c pentru 5 dintre acetia inculpatul era prezentat ca avnd antecedente, pentru ali 5 - era menionat c inculpatul era la prima abatere, iar pentru restul de 5 subieci nu era fcut nici o meniune (grupul de control). Dup vizionarea casetei, subiecii trebuiau s evalueze gradul de vinovie al persoanei inculpate pe o scal de la l - sunt complet sigur C inculpatul e inocent" pn la 10 -sunt complet sigur c inculpatul e vinovat".
Scopul cercetrii este de a arta c gradul de vinovie evaluat de subiecii din cele trei grupuri este diferit semnificativ. Ipoteza de nul n acest caz este c cele trei grupuri de subieci nu difer semnificativ, deci ele provin de fapt din aceeai populaie. Rezultatele acestui studiu imaginar sunt prezentate n tabelul de mai jos:
Grupul cu antecedente" Evaluarea Deviaiil e de la media grupului +2 -1 -3 +2 0 0 Deviaiile ptrate Grupul Evaluarea fr antecedente" Devia tiile de la media grupului +1 -3 -1 +3 0 0 Deviaiile ptrate Evaluarea Grupul de control Deviaiil e de la media grupului -1 +1 4 -2 -2 0 Deviaiile ptrate
10 7 5 10 8
40 Ml=40/5=8 Sl2=18/4=4,5
4 1 9 4 0 18
5 1 3 7 4 20 M2=20/5=4 S22=20/4=5
1 9 1 9 0 20
4 6 9 3 3 . 25
1 1 16 4 4 26
M3=25/5=5 S32=26/4=6,5
Pentru fiecare grup n parte am calculat media i varianta populaiei din care presupunem c provine acest grup. Reamintim c estimarea variantei populaiei din care face parte un grup pe baza rezultatelor din acel grup se face folosind formula:
2 = SS SS = N 1 df 152
Pe baza ipotezei de nul, c cele trei grupuri provin toate din aceeai populaie, putem calcula varianta acestei populaii totale care este determinat de variantele intra-grup. Aceasta va fi de fapt media aritmetic a celor trei variante intra-grup: MSw=(Sl2+S22+S32)/3=(4,5+5+6,5)/3=16/3=5,33 Simbolul w" desemneaz tocmai termenul intra-grup (din cuvntul englezesc withingroups). Acum ar trebui s determinm componenta inter-grupuri a variantei populaiei totale. Vom calcula aceast valoare pornind de la valorile mediilor fiecrui grup n parte si considernd abaterile acestora de la marea medie. Tabelul urmtor ne ajut s realizm acest lucru:
Mediile grupurilor (M) 4 8 5 17 Deviaiile lor de la marea medie Deviaiile ptratice de la marea medie (M-GM) (M-GM)2 -1,67 2,79 +2,33 5,43 -0,67 0,45 -0,01 8,67
GM=17/3=5,67; S2=8,67/(3-l)=8,67/2=4,34
Acum trebuie s estimm varianta populaiei totale cauzat de diferenele dintre mediile celor trei grupuri. Acum trebuie s inversm unul din procedeele prezentate n capitolul patru (paginile 92-94). Acolo estimam varianta unei populaii (distribuii) de medii pornind de la rezultatele unei populaii individuale. Pentru aceasta, mpream varianta populaiei de cazuri individuale la numrul de cazuri din fiecare eantion, conform formulei:
2 m
2 N
unde m este varianta distribuiei de medii (eantioane), iar 2 este varianta populaiei de cazuri individuale. n cazul nostru, situaia este tocmai invers: cunoatem varianta distribuiei de medii (notat cu S ) si dorim s o estimm pe cea a populaiei. Deci va trebui s nmulim aceast variant cu numrul cazurilor din fiecare eantion (n exemplul de mai sus, cu 5, pentru c avem 5 subieci n fiecare eantion). Astfel, MSB= S2*N=4,34*5=21,7. Acum avem toate elementele - cele dou componente ale variantei populaiei totale pentru a calcula testul F (ANOVA).
153
Formula testului este:
F =
MSB M SW
Numele testului vine, evident, de la numele descoperitorului su, Sir Ronald Fisher. Distribuia testului (dup care se calculeaz probabilitatea ca un anume rezultat s fie rodul ntmplrii sau al unor factori de variaie sistematic) este prezent de obicei la sfritul oricrui manual de statistic si se calculeaz n funcie de doi parametri: gradele de libertate inter-grup (valoare dat de numrul de grupuri minus unu) si gradele de libertate intra-grup (valoare dat de numrul total de subieci mai puin numrul grupurilor). Se alege astfel valoarea-prag pentru care respingem ipoteza de nul si acceptm ipoteza de cercetare (la fel ca si testul t). Evident, aceast valoare trebuie s fie supraunitar. n cazul exemplului nostru, F=21,7/5,33=4,07. Valoarea-prag a lui F trebuie cutat n tabele n dreptul lui 2 (gradele de libertate inter-grup) si 12 (gradele de libertate intra-grup), pentru un prag de semnificaie de 0,05. ntruct aici obinem valoarea 3,89, iar rezultatele noastre sunt mai mari, mai extreme dect valoarea prag, vom putea respinge ipoteza de nul conform creia cele trei grupuri provin din aceeai populaie i accepta ipoteza de cercetare care afirm c ele provin din populaii diferite. Implicit, acest rezultat susine ideea c informaiile anterioare au influenat semnificativ evaluarea vinoviei inculpatului.
154
Folosirea SPSS: Meniul ANALYZE - COMPARE MEANS - ONE-WAY ANOVA

S vedem acum cum folosim programul SPSS pentru a calcula testul F. Vom utiliza ca baz de date, rezultatele de la pagina 98, unde prezentam nivelul salarial la angajare si la cinci ani dup aceea pentru 30 de subieci, dintre care 10 aveau studii primare, 10 - studii medii si 10 - studii superioare.
Studii 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 Sal_ini 158 165 145 189 198 197 168 201 185 156 175 198 199 201 201 220 210 214 205 301 332 341 221 206 298 301 332 358 598 654 214 258 245 Sal_fin5 268 198 158 199 201 220 205 203 185 168 178 201 203 225 260 280 274 298 305 582 542 392 445 401 502 403 503 402 854 954 425 725 625
Exist mai multe tipuri de analiz de variant. Cel despre care am discutat pn n prezent se mai numete ANOVA unifactorial, ntruct evideniem existena/influenta unui singur factor de variaie (n exemplul nostru, informaia anterioar) asupra unei variabile dependente. S ncrcm baza de date (dac ai salvat-o n cursul parcurgerii capitolului 5) sau s o reintroducem n computer si s definim valorile variabilei STUDII dup cum urmeaz:
155
valoarea l desemneaz studiile primare, valoarea 2 - studiile medii si valoarea 3 - studiile superioare. Baza de date ar trebui s arate astfel (dac n prealabil ai marcat opiunea VALUE LABELS din meniul VIEW).
Observai c avem trei variabile n baza de date: STUDII (variabil independent, cu trei grade de intensitate, deci care mparte subiecii n trei grupuri), SAL_INI (salariul iniial la angajare, exprimat n mii lei, variabil dependent) si SAL_FIN5 (salariul dup cinci ani, exprimat tot n mii lei, tot variabil dependent). Scopul cercetrii este s stabilim dac variabila independent, nivelul studiilor subiecilor, influeneaz nivelul salarial al subiecilor (1-am luat n calcul numai pe cel iniial). ntruct avem trei grupuri vom aplica testul F, ANOVA unifactorial. Dac am fi avut de comparat doar dou grupuri, atunci am fi aplicat, ca de obicei, testul t. ntruct n esen ajungem s stabilim dac grupurile difer ntre ele, deci dac au mediile diferite, comanda pentru ANOVA unifactorial o vom gsi n submeniul COMPARE MEANS din meniul ANALYZE, ca n imaginea de mai jos:
Odat activat aceast comand, ea va ncrca pe ecran fereastra de mai jos:

2
1 3
5 156
S analizm detaliat fereastra: (1)- este, ca de obicei n SPSS, cmpul ce prezint toate variabilele din baza de date. (2)- este cmpul unde vom introduce variabilele dependente (n cazul nostru SAL_INI) (3)- aici se introduce variabila independent (pentru noi STUDII) (4)- butonul acesta permite planificarea dinainte a unor comparaii ntre grupurile generate de variabila independent. Dac nu bifam nimic din fereastra care se deschide prin apsarea butonului, atunci programul va lua n calcul toate comparaiile posibile, dar post-hoc. (5)- este butonul ce stabilete tipul testelor de contrast post-hoc (vom discuta detaliat n continuare) (6)- este un buton obinuit ce conine elemente de statistic descriptiv. Dac ai introdus corect variabila dependent i pe cea independent, fereastra ar trebui s arate astfel:
Prezentm n continuare fereastra corespunztoare butonului CONTRASTS, dei nu vom marca nici una din opiunile ei.
Ar trebui s intrm n prea multe detalii de statistic superioar, legate si de analiza de variant si de regresie pentru a explica cum se folosesc opiunile din aceast fereastr. Pentru uzul comun ns, neluarea n seam a opiunilor acestui buton nu afecteaz
157
rezultatele obinute. Apsai CANCEL si revenii la fereastra principal. Activm butonul POST-HOC, de care avem nevoie si care deschide pe ecran fereastra de mai jos:
Nu v speriai c sunt att de multe opiuni, att de multe teste! Toate fac n principiu acelai lucru: ajusteaz sau confirm faptul c diferenele obinute pe ansamblu prin analiza testului F se regsesc si la nivelul comparaiilor dintre grupuri, luate dou cte dou. Este logic s aplicm aceste teste. Gndii-v c am aplica ANOVA unifactorial pentru o variabil care are 100 de grade de intensitate, deci vom avea 100 de grupuri ce vor trebui comparate nu numai n ansamblu (ceea ce face testul F), ci si dou cte dou (cu testul t, de exemplu). Chiar dac n realitate nu variabila independent nu ar avea nici un efect (fapt confirmat sau infirmat de testul F), la comparaiile dintre grupuri luate dou cte dou avem anse ca mcar pentru cinci dintre acestea s gsim diferene, care apar din ntmplare. Astfel, pragurile de semnificaie pentru aceste teste t trebuie ajustate n funcie de numrul grupurilor, tocmai ceea ce realizeaz testele de comparaie multipl din fereastra POSTHOC. n cazul nostru vom alege BONFERRONI, unul din testele obinuite n acest caz. Dup ce apsai CONTINUE i revenii n fereastra principal, activai butonul OPTIONS pentru a vedea c putei calcula unii parametri descriptivi bifnd opiunile din fereastra care astfel se deschide:
158
Apsai din nou butonul CONTINUE si apoi butonul OK din fereastra principal pentru a activa foaia de rezultate. S analizm fiecare component a foii de rezultate. Mai nti, apare un tabel, precum cel care urmeaz si care este tabelul principal al analizei:
Elementele acestui tabel sunt: (1)- sursele de variaie. Pe aceast coloan sunt trecute componentele variantei populaiei totale. (2)- aici sunt notate deviaiile ptratice care intr n componena fiecrui tip de variant (intra-grup si inter-grup) (3)- n aceast coloan programul arat gradele de libertate corespunztoare modelului nostru experimental si pentru care se calculeaz valoarea-prag a testului F. (4)- acestea sunt componentele testului F, adic MSW i MSB. Dac observai cu atenie, mprind suma ptratelor de pe un rnd la numrul gradelor de libertate corespunztor, obinem valorile pentru MS-uri. (5)- aici este valoarea testului F, obinut prin mprirea mediei variaiei inter-grup la valoarea mediei variaiei intra-grup (MSBj MS\j) (6)- este valoarea pragului de semnificaie pentru testul F, sau probabilitatea de a grei atunci cnd respingem ipoteza de nul. n cazul de fa, pentru c valoarea lui p este foarte mic (mai mic de 0,05), putem s respingem ipoteza de nul si s acceptm ipoteza de cercetare. Pn acum, din datele foii de rezultate putem concluziona c, pe ansamblu, studiile afecteaz nivelul de salarizare avut iniial de subiecii notri. Vedei c am subliniat pe ansamblu" pentru c rezultatul analizei de variant ANOVA unifactorial se refer la diferenele globale ce apar ntre grupuri, care se reflect n variaia populaiei totale, fr a preciza ntre care anume grupuri apar diferenele.
159
Tabelul urmtor din foaia de rezultate precizeaz tocmai acest lucru, fcnd comparaiile multiple ntre toate perechile de dou grupuri (testul Bonferroni).
Tabelul conine cteva elemente mai importante: (1)- nivelul de referin al variabilei independente, fa de care se face comparaia. El este notat aici cu I (2)- este coloana ce arat celelalte nivele ale variabile independente ce sunt comparate cu nivelul de referin (aceste nivele sunt notate cu J) (3)- n aceast coloan este prezentat diferena dintre nivelele I si J, n aceast ordine. Spre exemplu, diferena salarial medie dintre cei cu studii primare (nivelul I) si cei cu studii superioare (nivelul J) este de - 158,90 mii lei, aa cum arat explicaia (3) (4)- stelua care apare n dreptul valorilor de pe coloana (3) este explicat sub tabel si arat unde anume, ntre care grupuri apare o diferen semnificativ (pragul de semnificaie mai mic de 0,05) ntre medii. (5)- valoarea exact a pragului de semnificaie este trecut n aceast coloan. Din tabelul de mai sus vedem c apare doar o singur diferen semnificativ ntre dou grupuri, ntre cei cu studii primare si cei cu studii superioare. O ilustrare grafic ar fi mai util. Graficele ANOVA se reprezint de obicei, corect, sub forma graficelor-bar, unde barele arat categoriile sau grupurile determinate de variabila independent, iar nlimea barelor reprezint nivelul acestor grupuri din perspectiva variabilei dependente msurate. Vom activa fereastra pentru grafice cu bare, simple, unde datele reprezint grupuri de cazuri (dac ai uitat cum se face acest lucru, revedei primele capitole). Fereastra ar trebui s arate precum cea de mai jos:
160
Vom introduce variabila independent n cmpul notat CATEGORY AXIS, iar variabila dependent (SAL_INI) va fi introdus n cmpul VARIABLE. Reamintim c, la nceput, acest cmp nu este activ. Pentru a-1 putea activa este necesar s marcai opiunea OTHER SUMMARY FUNCTION situat deasupra sa. Imediat ce am fcut aceste modificri, apsam butonul OK si graficul cu bare va apare imediat n foaia de rezultate, ca n imaginea urmtoare:
Observai c scala de msur a variabilei dependente debuteaz de la valoarea 100, nu de la O, astfel c nu trebuie s apreciai, ochiometric", diferenele, pn nu aducei scala de msur la valoarea de origine. Orice modificare a graficului se face dup ce n prealabil activai modul de editare, efectund un dublu-click asupra sa. Apoi selectai zona pe care dorii s o modificai (tot cu dublu-click) si modificai parametrii din fereastra astfel aprut. Din grafic, din modul de dispunere a barelor si din informaiile pe care le avem din foaia de rezultate, observm c salariul iniial creste pe msur ce creste si nivelul studiilor. Cu toate acestea, diferene semnificative gsim doar ntre nivelurile extreme de educaie, cei cu
161
studii medii situndu-se la mijloc. Interpretnd plastic aceste rezultate, imaginai-v c cele trei bare ar reprezenta nite trepte. Atunci cnd ntre dou niveluri (trepte) nu este o diferen semnificativ este ca si cum cobornd sau urcnd treptele nu ai simi diferena de nivel. Cnd ns diferena este semnificativ, atunci ar fi ca i cum trecnd de la o treapt la alta ai depune un efort considerabil, n cazul de fa, trecnd de la o treapt la alta, nu simim nici o diferen; numai cnd srim cte dou trepte (cum este trecerea de la studii primare" la studii superioare") vom simi o diferen.
Folosirea SPSS: Meniul ANALYZE - GENERAL LINEAR MODEL UNIVARIATE

Uneori ne intereseaz s aflm care este influena mai multor factori (variabile independente) asupra unei variabile dependente. Folosind doar ceea ce am nvat pn acum (testul t si ANOVA unifactorial) nu putem s evideniem dect influena separat a fiecrui factor n parte. Am putea utiliza regresia cu variabile dummy, dar ar fi destul de complicat pentru c ar trebui s lucrm cu multe variabile dummy si modelul ecuaiei de regresie ar fi foarte complex si greu de interpretat. Pentru astfel de cazuri a fost inventat analiza de variant factorial (ANOVA SIMPLE FACTORIAL este denumirea ncetenit n crile de statistic englezeti). Logica acestei metode este identic cu cea prezentat anterior; coeficientul F al testului ANOVA msoar raportul dintre variaia cauzat de mprirea pe grupuri si variaia intrinsec a grupurilor. Dac logica testului este aceeai, nu identic este rezultatul: n analiza de variant simplu factorial sunt dou tipuri de note F care ne intereseaz, corespunztoare celor dou tipuri de efecte pe care le putem msura. Cele dou tipuri de efecte sunt: efecte principale: msoar influena unei variabile independente asupra celei dependente, indiferent de aciunea celorlalte variabile independente efecte de interaciune: msoar influena combinat a dou sau mai multor variabile independente asupra variabilei dependente. Nu vom insista asupra detaliilor legate de combinaiile acestor efecte pe care le putem ntlni n tiinele sociale. O trecere detaliat n revist a acestora poate di consultat n volumul Metodologia cercetrii n tiinele sociale (Cornel Havrneanu, 2000, EROTA TIPO). Noi vom prezenta n continuare modul de folosire al programului SPSS pentru calcularea testului F n analiza de variant simplu factorial. Vom utiliza pentru aceasta o baz de date imaginar, referitoare la nota obinut de nite studeni la un examen, n condiiile n care inem cont de ziua examinrii i nivelul lor de anxietate.
162
V prezentm mai jos datele, pentru a le putea introduce n programul SPSS:
NOTA 9 9 8 10 9 10 6 8 7 7 6 5 6 7 8 8 8 7 10 7 8 7 8 9 6 5 7 5 6 5 8
ANX 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
ZI EXAM 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
Observai c avem dou variabile independente (ANX - nivelul de anxietate i ZI_EXAM - ziua examinrii), fiecare din ele avnd dou grade de intensitate. Valorile variabilelor independente sunt: pentru - anxietate - l="mic" i 2="mare", - ziua examinrii - l="luni" i 2="vineri". Variabila dependent este nota obinut la examen.
163
Odat introdus n computer baza de date ar trebui s arate ca n imaginea de mai jos, n condiiile n care activm comanda VALUE LABELS din meniul VIEW:
Scopul cercetrii noastre ar fi s artm care este efectul nivelului anxietii si a zilei de examinare (la nceputul sau la sfritul sptmnii) asupra notei obinute de studeni la examen. Desigur, nota la un examen nu depinde prea mult de aceti factori, dar folosind ANOVA simplu factorial putem vedea n ce msur ei o influeneaz. Activarea comenzilor pentru ANOVA simplu factorial se face din meniul ANALYZE GENERAL LINEAR MODEL - UNIVARIATE, ca n imaginea de mai jos:
Faptul c metoda se gsete sub meniul GENERAL LINEAR MODEL, arat legtura dintre analiza de variant si regresie (pe care nu o vom discuta aici), iar opiunea UNIVARIATE indic faptul c avem doar o singur variabil dependent pe care o msurm.
164
Odat activat comanda UNIVARIATE, pe ecran apare fereastra de mai jos:

2
3 1 4 5
Vom explica aceast fereastr n detaliu, mai puin butoanele cu opiuni din partea sa dreapt pe care le vom detalia mai trziu: (1)- este cmpul ce conine variabilele din baza de date (2)- aici se introduce variabila dependent. Observai c avem loc doar pentru o singur variabil dependent (3)- n acest cmp introducem variabilele independente (factorii) care ne intereseaz si al cror efect l controlm sau l considerm fix, necauzat de ntmplare (4)- variabilele ce pot fi considerate independente, care nu ne intereseaz n mod direct sau a cror aciune nu o putem controla se introduc n acest cmp (5)- dac n studiu avem variabile independente sau alte variabile dependente care bnuim c ar fi n legtur sau ar influena variabila dependent ce ne intereseaz, le vom introduce n acest cmp. Prin aceast operaiune vom putea s vedem dac factorii fici (cei din cmpul FIXED FACTORS) influeneaz variabila dependent indiferent de aciunea factorilor covariani. (6)- aici se trec valorile pe care le putem folosi atunci cnd bnuim c unele variabile independente (factori) ar corela ntre ei ceea ce ar afecta rezultatele. Este ns o opiune pentru utilizatorii avansai si recomandm nefolosirea ei fr cunoaterea precis a semnificaiei sale.
165
n cazul nostru, un exemplu simplu, vom considera cele dou variabile independente ca pe factori fici i i vom introduce n cmpurile corespunztoare, ca n imaginea urmtoare:
Observai c n partea dreapt fereastra principal are o serie de butoane ce conin opiuni complexe de analiz. Le vom discuta pe rnd, ncercnd s explicm ct mai multe din opiunile aprute pe ferestrele acestor butoane. Cu toate acestea, precizm de la nceput c nu vom folosi n analiz att de multe opiuni; ele sunt pentru utilizatorii avansai si pentru design-uri experimentale mult mai complexe, n situaiile cele mai frecvente, opiunile de care avem nevoie sunt mult mai puine.
1 2
Butonul MODEL activeaz o fereastr precum cea prezentat mai sus. Opiunile din aceast fereastr folosesc la construirea unor modele care intereseaz pe experimentator, n condiiile n care situaia investigat este prea complicat (ex. sunt foarte multe variabile luate n calcul) si mai importante sunt nite modele mai simple, folosind factori mai puini. S analizm puin fereastra: (1)- este opiunea marcat implicit, care ia n calcul toate efectele posibile si toate combinaiile de factori. Pentru modelele simple este recomandat s o lsai aa (2)- n cazul n care dorii s simplificai modelul cu care lucrai i v intereseaz numai
166
anumite efecte sau numai anumii factori vom bifa aceast opiune care va activa automat cmpurile i butoanele ce se gsesc dedesubt. (3)- folosind opiunile ce se deschid din cmpul n care scrie INTERACTION, alegem efectele care ne intereseaz s le analizm, iar cu ajutorul butonului cu sgeat vom selecta factorii pentru care dorim s se calculeze acele efecte. (4)- sunt opiuni ce permit alegerea tipului de interaciune dintre variabilele independente (ct de complex s fie interaciunea) i permit calculul unor coeficieni de regresie ai modelului (am precizat anterior c ntre regresie i ANOVA exist o legtur strns) Pentru exemplul nostru, nu vom alege nici una din opiunile din aceast fereastr; vom lsa marcat doar opiunea implicit, FULL-FACTORIAL. Apsai CONTINUE si revenii n fereastra principal, pentru a activa urmtorul buton, CONTRAST, care v-a deschide o fereastr ca cea de mai jos:
De opiunile acestei ferestre avem nevoie: ele compar ntre ele diferitele grupuri rezultate din mprirea subiecilor dup valorile sau categoriile variabilelor independente. Observai c doar variabilele independente sunt trecute aici. Cum se lucreaz cu aceste opiuni? Alegei mai nti variabila independent pentru care dorii s calculai contrastul (diferena dintre nivelele sale de variaie). Apoi, alegei tipul de contrast din cmpul CONTRAST. De aici, tipul de contrast recomandat este DIFFERENCE. Ca exemplu, am ales, variabila ANX, nivelul anxietii. Prin marcarea tipului de contrast prin diferen, noi cerem programului s vad dac ntre cele dou nivele de anxietate pe care le pot avea subiecii notri exist diferene n ceea ce privete notele obinute (adic vom verifica dac cei mai anxioi obin note semnificativ diferite de cei mai puin anxioi). Pentru a activa un anume tip de contrast, dup ce 1-ai ales trebuie s apsai butonul CHANGE. Mai putei modifica i categoria de referin, alegnd-o pe prima sau pe ultima dintre categoriile ce descriu o anume variabil independent. Apsai CONTINUE dup ce ai ales tipul de contrast pentru a reveni la fereastra principal.
167
Butonul PLOTS, care activeaz fereastra de mai jos, este dedicat reprezentrilor grafice:
Menionm totui c dei reprezentarea rezultatelor ANO VA folosind grafice cu linii nu este corect din punct de vedere conceptual (cele mai indicate fiind graficele cu bare), dat fiind popularitatea de care se bucur aceste tipuri de grafice, realizatorii programului SPSS au inclus aici numai grafice cu linii. Vom folosi i noi aceast fereastr pentru a ilustra grafic influena celor doi factori pe care i-am luat n calcul (anxietatea i ziua examinrii) asupra variabilei dependente (not la examen). Observai c avem trei cmpuri: HORIZONTAL AXIS: aici se introduce variabila independent ale crei categorii dorim s le reprezentm pe axa X SEPARATE LINES: liniile diferite ale graficului vor reprezenta categorii diferite ale factorului care este introdus n acest cmp SEPARATE PLOTS: dac mai avem un al treilea factor i acesta este introdus n acest cmp, vom obine tot attea grafice cte categorii descriu factorul, grafice care arat relaia dintre variabilele introduse anterior pentru diferite niveluri ale factorului al treilea. Pe noi ne intereseaz s reprezentm interaciunea dintre cei doi factori luai n calcul n modelul nostru. Ca urmare, vom reprezenta rezultatele la examen n funcie de anxietate (trecut pe axa X) si pentru cele dou zile de examinare (reprezentate prin linii separate). Pentru aceasta vom introduce variabilele independente ca n imaginea de mai jos:
168
Apsam apoi butonul ADD, care abia acum s-a activat, iar imaginea va fi:
n acest fel putem realiza mai multe grafice, ntruct dup apsarea butonului ADD, cmpurile ferestrei s-au golit. Revenim din nou n fereastra principal pentru a activa butonul POST-HOC care va deschide fereastra:
Acest buton are opiuni similare cu butonul cu acelai nume din fereastra ANOVA ONE-WAY. El se folosete numai atunci cnd una sau mai multe dintre variabilele independente are/au mai mult de dou nivele de variaie (deci mpart subiecii n mai mult de dou grupuri). Se vor realiza astfel toate comparaiile ntre toate perechile de grupuri i aceste teste ajusteaz pragul de semnificaie n funcie de numrul grupurilor de comparat (revedei ANOVA unifactorial dac ai uitat la ce folosesc aceste teste). Ca i n cazul anterior, vom recomanda de aici folosirea testului Bonferroni. Pentru exemplul nostru nu avem nevoie de comparaii POST-HOC. De altfel, dac marcai vreo opiune aici, programul va afia pe foaia de rezultate un mesaj de eroare prin care v spune c nu a putut aplica testele ntruct sunt mai puin de trei categorii ale variabilei/variabilelor independente. Deci vom reveni n fereastra principal fr s activm nici o opiune. Butonul SAVE din fereastra principal va activa o fereastra precum cea prezentat n continuare:
169
Observai c opiunile de aici sunt identice cu cele ale butonului SAVE din fereastra pentru regresia liniar. Nu vom mai comenta opiunile de aici, care sunt identice cu cele de la regresie; menionm doar faptul c ele faciliteaz tratarea analizei de variant ca un model particular de regresie. Nu recomandm folosirea opiunilor de aici dect celor care cunosc bine regresia. Urmtorul buton din fereastra principal, care activeaz o fereastra precum cea de mai jos, este unul specific analizei de variant simplu factoriale, aa c l vom analiza mai n detaliu.
2 1
Ca orice buton denumit OPTIONS din SPSS si acesta de fa ofer opiuni pentru calcularea anumitor parametri statistici. Astfel: (1)- prezint toate combinaiile de factori pentru care avem grupuri diferite de subieci si va permite apoi calcularea mediei fiecrui grup de subieci n parte. Opiunea OVERALL se refer la media calculat atunci cnd subiecii nu sunt mprii n grupuri, cnd rezultatele lor sunt luate n calcul nedifereniind ntre nivelurile factorilor din model
170
(2)- este cmpul n care se trec factorii pentru care dorim s calculm mediile grupurilor de subieci (3)- reprezint opiuni ce permit calcularea mai multor parametri. Dintre toate, ne intereseaz calculul parametrilor descriptivi (media, deviaia standard, minimul si maximul), precum si testele de omogenitate (acestea trebuie s nu fie semnificative pentru a putea aplica ANOVA simplu factorial). Dac selectai corect opiunile corespunztoare pentru aceast fereastr, atunci ea ar trebui s arate precum cea de mai jos:
Revenii apoi n fereastra principal si apsai OK pentru ca s obinei foaia de rezultate. Primele elemente ale output-ului se refer la parametrii descriptivi ai modelului:
171
Astfel, primul tabel precizeaz numrul de subieci folosii n cercetare pentru fiecare grup n parte determinat de nivelurile fiecrei variabile independente (factor). Al doilea tabel precizeaz mediile totale (cele din treimea inferioar a tabelului), precum si cele corespunztoare fiecrui subgrup de subieci, subgrup determinat de categoriile factorilor din model. Ceea ce ne-a fost prezentat pn acum este rezultatul opiunilor marcate de noi din fereastra butonului OPTIONS. Mai departe, n foaia de rezultate sunt prezentate elementele cele mai importante ale outputului, rezultatele testului F:
Tabelul cu testul lui Levene reprezint tocmai testul de omogenitate de care vorbeam la fereastra butonului OPTIONS. n analiza de variant simplu factorial, cele mai importante elemente se refer la testul F, prezentat n tabelul anterior. Din tot tabelul pe noi ne intereseaz numai cele trei linii, marcate prin acolade. (1)- arat variabilele (factorii) ale cror efecte le lum n calcul. Astfel, linia cu ANX arat efectul principal al acestui factor, indiferent de aciunea celuilalt factor, linia ZI_EXAM arat efectul principal pentru aceast variabil, iar linia ANX*ZI EXAM se refer la efectul de interaciune dintre cei doi factori, dac ei i combin efectele atunci cnd acioneaz asupra variabilei dependente . (2)- aici sunt prezentate testele sau notele F corespunztoare efectelor principale si de interaciune din model (3)- acestea sunt pragurile de semnificaie pentru testele F corespunztoare. Analiza acestui tabel, n exemplul de fa, arat c dintre cele trei note sau teste F, doar unul singur este semnificativ (p<0,05) si anume cel corespunztor rndului ANX, deci cel corespunztor efectului principal al variabilei anxietate". Restul efectelor sunt nesemnificative.
172
Interpretarea general a acestui efect principal este aceea c anxietatea influeneaz nota obinut de subieci la examen, indiferent de ziua de examinare. Pentru a vedea n ce fel nivelul anxietii afecteaz nota la examen, trebuie s ne uitm n tabelele de contrast (opiunile activate din fereastra butonului CONTRAST):
Din primul tabel de mai sus vedem c testul de contrast a fcut diferena dintre nota la examen obinut de subiecii cu nivel ridicat de anxietate si cei cu un nivel sczut (LEVEL 2 vs. LEVEL1). Aceast diferen a fost comparat cu situaia n care cele dou grupuri ar fi obinut valoarea zero (HYPOTHESIZED VALUE). Pragul de semnificaie (notat cu SIG) ne arat c diferena a fost semnificativ, iar sensul diferenei (faptul c am obinut o valoare negativ, -1,93) indic faptul c cei cu anxietate mare (LEVEL 2) aveau note semnificativ mai mic dect cei cu anxietate mic (LEVEL 1). n tabelul al doilea este prezentat suportul statistic pentru testul de contrast; observai c si aici pragul de semnificaie este mai mic de 0,05, deci diferenele constatate sunt si ele semnificative, anxietatea afectnd nota obinut la examen.
173
Tabelele urmtoare (prezentate mai sus) reiau analiza contrastelor pentru cellalt factor, ziua examinrii. De observat c aici nu mai avem diferene semnificative (fapt confirmat si de lipsa unui efect principal pentru aceast variabil), deci ziua examinrii nu afecteaz nota obinut. Tabelele ce urmeaz n continuare prezint mediile obinute pe ansamblu (tabelul l, obinut pentru c am selectat OVERALL din butonul OPTIONS), obinute pentru fiecare factor n parte (tabelele 2 si 3) si cele pentru grupurile de subieci rezultate prin combinarea nivelurilor celor dou variabile independente. n cazul n care nu tii s interpretai sensul diferenelor la testele de contrast sau n cazul interaciunii variabilelor, aceste tabele cu mediile pe grupuri si subgrupuri v vor ajuta s stabilii n ce sens difer mediile. Pe lng valorile mediilor, tabelele urmtoare mai prezint si deviaiile standard, precum si limitele valorii medii corespunztoare intervalului de ncredere de 95%.
174
Ultima parte a foii de rezultate este rezervat reprezentrilor grafice:
175
TESTE PENTRU DATE NEPARAMETRICE (sau cum analizm cele mai multe din chestionare)
Cuprins: - Datele neparametrice Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - BINOMIAL Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - CHI-SQUARE Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - 2 RELATED SAMPLES Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - 2 INDEPENDENT SAMPLES
Karl Pearson - un statistician la extreme Nscut n 1857, se zic c Pearson se luda adesea cu spiritul su rebel manifestat nc de timpuriu. El nsui se luda c cea mai veche amintire din copilrie o avea de la vrsta de 5 ani cnd, somat de prini s nu-i mai sug degetul arttor c o s i se topeasc", micul Karl a rspuns uitndu-se la degetele sale: nu vd c degetul pe care-1 sug e mai mic ca celelalte i eu cred c m pclii". Mai trziu, imediat ce a ajuns la Cambridge cu o burs pentru a studia matematica, Pearson a fcut o cerere pentru a fi scutit de prezena obligatorie de la orele de religie i slujbele de la capela universitii. Dup ce i-a fost aprobat cererea, el a nceput s se prezint regulat la cursurile de religie i la capel, fapt care 1-a determinat pe decan s-i cear o explicaie. Pearson a explicat c el a cerut s fie scutit nu de prezena la capel, ci de prezena obligatorie la capel". Karl Pearson, inventatorul testului chi-ptrat, s-a apucat de statistic din necesitatea de a demonstra c i tiinele sociale pot fi la fel de precise i tiinifice" ca i cele exacte. Preocupat de ereditate i teoriile evoluioniste, el a cutat metode matematice pentru a-i susine ipotezele. Ceea ce 1-a deosebit de ali statisticieni contemporani a fost faptul c el nu credea c statistica, corelaia n special, poate dovedi cauzalitatea. Nici un fenomen nu este cauzal, toate sunt contingente, iar ce putem noi face cel mai bine este s apreciem tocmai gradul de contingen", spunea Pearson. n viaa de zi cu zi, el era omul extremelor: ori era prieten devotat, ori un duman nverunat. Astfel, n timp ce pentru Gosset (inventatorul testului t), Pearson era un prieten de ncredere, pentru Fisher (inventatorul analizei de variant) era un duman de moarte. Chiar i n anul morii sale, 1936, Pearson s-a certat ru cu Fisher, spre disperarea lui Gosset, prieten bun cu amndoi, iar unii afirm c primul ar fi murit de inim rea cnd a aflat c la retragerea sa de la conducerea catedrei de eugenie de la University College din Londra, Fisher i-ar fi luat locul...
176
Datele neparametrice
Mai frecvente n sociologie dect n psihologie, scalele de msur ordinale sau nominale stau la baza conceptelor msurate prin cele mai multe dintre chestionare. Dat fiind c avem de-a face cu scale nominale sau ordinale, parametrii obinuii pe care i-am folosit pn acum n analiz (media, abaterea standard, etc.) nu ne mai sunt de nici un folos aici. Datele pe care le obinem folosind aceste scale de msur nu mai pot fi deci analizate cu metodele prezentate pn acum, ntruct ele nu se distribuie normal si nici nu sunt corespunztoare unor variabile continui. Cum le putem analiza n acest caz? ntruct n analiza lor nu ne mai putem folosi de parametrii care descriu curba normal aceste date se numesc date neparametrice. Ele se analizeaz pornind de la frecvenele de apariie ale diferitelor categorii ce sunt comparate cu frecvene teoretice de apariie sau de la probabilitile de apariie ale acestor categorii. Pentru datele neparametrice avem nevoie de teste specifice, denumite deci neparametrice; chiar dac aplicarea acestor teste e mai facil dect folosirea testelor parametrice ntruct nu exist restricii legate de distribuirea normal a rezultatelor, principalul dezavantaj al acestor metode const n faptul c pot eua mai uor, comparativ cu testele parametrice, n a demonstra diferentele acolo unde acestea exist n realitate. De aceea, recomandarea noastr este ca atunci cnd v concepei instrumentele de msur pentru cercetrile voastre s utilizai n special scalele de interval i de raport i nu pe cele nominale sau ordinale. De exemplu, n loc s msurai preferina unei persoane pentru un anume tip de muzic folosind o scal ordinal de tipul deloc, puin, mediu, mult, foarte mult", este mai indicat s msurai preferina pe o scal de interval de tipul deloc l-2-3-4-5foarte mult" solicitnd subiecilor s ncercuiasc un numr pe scal corespunztor preferinei. date fiind capetele intervalului, n acest fel, nu numai c msurai mai precis, dar putei detecta mai uor diferenele, acolo unde ele exist, folosind metodele parametrice. n continuare, vom prezenta doar cteva din metodele neparametrice, foarte pe scurt, fr a intra foarte mult n detaliile teoretice privind aceste teste. Prezentarea va cuprinele trei pri: explicarea principiului de baz al testului, aplicarea sa folosind SPSS i interpretarea rezultatelor. Pentru toate metodele neparametrice vom folosi baza de date intitulat voter.sav care se gsete n directorul unde este instalat programul SPSS, fcnd parte din pachetul software care se livreaz mpreun cu acest program. Aceast baz de date conine rezultate reale ale unui eantion de 1847 de alegtori americani. Sunt ase variabile msurate: 1.PRES92 - cu cine a votat alegtorul la alegerile prezideniale din 1992 (cu BUSH, PEROT sau CLINTON) - variabil nominal 2.AGE - vrsta respondentului - variabil msurat cantitativ 3.AGECAT - categoria de vrst - variabil ordinal 4.EDUC - anii de educaie - variabil cantitativ 5.DEGREE - tipul de educaie - variabil ordinal 6.SEX - sexul respondentului - variabil nominal.
177
ntruct n aceast cercetare predomin variabilele ordinale i nominale, testele cele mai potrivite pentru analiza acestor rezultate vor fi cele neparametrice. '
Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS BINOMIAL

Principiul de baz al testului Orice am msura, nu vom putea niciodat s lum n calcul toi subiecii dintr-o populaie. Eantioanele pe care noi le obinem nu sunt nici pe departe cele mai reprezentative pentru populaia din care ele provin, astfel c niciodat parametrii calculai pentru eantion nu se vor regsi identic n populaie. Dac extragem din populaie un alt eantion, probabil c vom obine parametri diferii, chiar dac cele dou eantioane provin din aceeai populaie. Pentru a decide dac un eantion este tipic sau reprezentativ pentru o populaie avem nevoie s cunoatem distribuia parametrilor msurai n populaie pentru a putea cunoate care este probabilitatea de a obine o valoare identic cu cea a eantionului extras. Testul binomial se refer la compararea rezultatelor obinute de un grup la o variabil care are doar dou niveluri de msurare (ex. sexul subiecilor, admis/respins, vindecat/bolnav, etc.) cu o anumit proporie presupus a exista n populaie. Pentru aceasta, proporia celor dou niveluri de msurare este calculat pentru eantion i apoi comparat cu distribuia binomial pentru o anume valoare a proporiei, o distribuie teoretic care precizeaz care este probabilitatea de a obine un anumit rezultat n mod aleatoriu. Aplicarea sa n exemplul de fa ne propunem s vedem dac proporia de brbai/femei din eantionul nostru este apropiat sau difer semnificativ de proporia 50/50 care ar trebui s exist n populaia ideal. Vom folosi testul binomial activat din meniul ANALYZE NONPARAMETRIC TESTS - BINOMIAL, comand ce deschide fereastra:
178
n fereastr vom selecta variabila de interes (sexul subiecilor) si o vom trece n cmpul de analizat. Observai c putem folosi orice proporie dorim (n caz c nu dorim s utilizm distribuia standard de 50/50) modificnd numrul din cmpul TEST PROPORTION. Mai mult, programul ne permite s analizm si o variabil cantitativ definind o valoare limit fa de care dorim s testm distribuia proporiilor. De exemplu, poate c suntem interesai s vedem dac alegtorii americani sub 40 de ani sunt semnificativ mai muli sau mai puini dect cei peste 40 de ani. Astfel, vom selecta varabila AGE (cantitativ), iar n cmpul DEFINE DICHOTOMY vom alege valoarea 40 si o vom trece n cmpul din dreptul opiunii CUT POINT (dup ce n prealabil o marcm). Dar n cazul de fa ne limitm la a testa dac n eantionul nostru proporia de femei si brbai este 50/50.
Interpretarea
Rezultatele obinute sunt prezentate n tabelul de mai jos:
Primele trei coloane ale tabelului sunt descriptive, n timp ce ultimele trei conin elementele ce permit interpretarea testului. Vedem astfel c proporiile observate pentru distribuia pe sexe sunt 0,44/0,56. Acestea, comparate cu distribuia 0,50/0,50 sunt diferite semnificativ, dup cum testul de semnificaie (prezentat n ultima coloan) ne arat. Notai c valoarea sa este mai mic de 0,05, deci proporiile din eantionul nostru difer semnificativ de cele ideale, femeile predominnd ntr-o proporie semnificativ.
179
Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS - CHISQUARE

1 Principiul de baz al testului Alteori, n analiza datelor neparametrice, avem de-a face cu variabile nominale sau ordinale care au mai mult dect dou valori posibile pe care le pot lua. Testul chi-ptrat este o metod, similar testului binomial, dar care permite compararea distribuiei frecvenelor unei variabile pe mai multe categorii, prin raportare la o distribuie teoretic stabilit de cercettor. Testul compar abaterile de la aceast distribuie teoretic obinute n realitate si estimeaz care este probabilitatea ca ele s apar aleatoriu. n exemplul nostru, dorim s vedem dac alegtorii i-au format o prere despre cei trei candidai, dac prefer vreunul comparativ cu ceilali. 2 Aplicarea sa Vom activa fereastra specific testului din meniul ANALYZE - NON PARAMETRIC TESTS - CHI-SQUARE. Fereastra este prezentat n continuare:
Vom introduce variabila de interes (votul) n cmpul pentru analiz. Observai c n cmpul EXPECTED VALUES este bifat opiunea ALL CATEGORIES EQUAL. Este cazul care ne intereseaz pe noi. Adic noi comparm situaia real a votului cu situaia n care cei trei candidai ar obine acelai numr de voturi. Dac ns doream s comparm distribuia cu o alta, n care categoriile nu s-ar mai fi distribuit egal, atunci foloseam opiunea VALUES si butonul ADD, acum inactive. i aici putem compara variabile cantitative, dac n prealabil specificm intervalele la care raportm categoriile noastre (folosind opiunea EXPECTED RANGE).
180
3 Interpretarea
Rezultatul testului este prezentat sub forma a dou tabele, precum cele de mai
n primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecvena observat, cea teoretic la care se face raportarea i abaterile frecvenei observate de la frecvena teoretic (coloana RESIDUALS). Observai aici c, n timp ce frecvena celor ce voteaz cu Bush nu difer prea mult de la frecvena teoretic, cei care voteaz cu Perot sunt foarte puini, iar cei care l voteaz pe Clinton sunt foarte muli. Valoarea statistic a testului, prezentat n tabelul al doilea, este semnificativ (rndul ASYMP. SIG), ceea ce nseamn c votanii au o preferin format, iar din datele obinute n primul tabel tim c ei sunt orientai ctre Clinton (ceea ce s-a i confirmat la alegerile prezideniale din SUA, n 1996).
181
Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS 2 INDEPENDENT SAMPLES

1 Principiul de baz al testului Aceste teste sunt echivalentul testului t pentru eantioane independente, doar c n acest caz variabila dependent msurat nu este cantitativ, ci calitativ si ordinal. Dintre testele neparametrice folosite n acest caz, vom alege testul Mann-Whitney. Toate testele neparametrice ce compar dou eantioane independente au la baz comparaii ale rangurilor diferitelor intervale observate. Pentru a ilustra aplicarea testului vom ncerca s vedem dac femeile i brbaii difer semnificativ ntre ei din punctul de vedere al nivelului educaional (DEGREE -variabil ordinal). 2 Aplicarea sa Testul se activeaz din meniul ANALYZE - NON-PARAMETRIC TESTS -TWO INDEPENDENT SAMPLES, comand ce deschide fereastra:
Observai c fereastra seamn foarte mult cu cea a testului t pentru eantioane independente. Vom selecta variabila dependent (DEGREE) n cmpul TEST VARIABLE LIST, iar variabila independent (SEX) n cmpul GROUPING VARIABLE. Definii grupurile variabilei independente folosind butonul DEFINE GROUPS, la fel ca si n cazul testului t. Observai c sunt patru tipuri de teste posibile, toate artnd acelai lucru: MANN-WHYTNEY U: se bazeaz, pe ierarhia rangurilor observaiilor din cele dou grupuri; MOSES EXTREME REACTIONS: verific dac intervalul variabilei ordinale (mai puin cele 5% cele mai extrem de mici sau cele mai extrem de mari scoruri) este acelai pentru ambele grupuri
182
KOLMOGOROV-SMIRNOV Z: se bazeaz pe diferenele maxime dintre distribuiile cumulate observate la cele dou grupuri. WALD-WOLFOWITZ RUNS: se bazeaz pe numrul de combinaii necesar pentru a aeza cazurile dintr-un grup n ordine cresctoare sau descresctoare.
3 Interpretarea S alegem pentru analiza noastr doar testul Mann-Whytney. Rezultatele sunt prezentate mai jos:
Observai c stilul de prezentare al rezultatelor este similar cu cel de la testul chi-ptrat. n primul tabel este prezentat situaia descriptiv" (media rangurilor), iar valoarea pragului de semnificaie a testului este dat n tabelul al doilea (linia denumit ASYMP. SIG). Observnd c aceast valoare este nesemnificativ (p=0,351), deci putem trage concluzia c femeile si brbaii din studiul nostru nu difer semnificativ n ceea ce privete nivelul studiilor. Dac diferenele ar fi fost semnificative (p<0,05), sensul diferenei ar fi fost dat de semnul notei Z, cea scris imediat deasupra valorii pragului de semnificaie.
183
Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS 2 RELATED SAMPLES

1 Principiul de baz al testului Metodele ce compar dou eantioane perechi sunt similare cu aplicarea testului t pentru eantioane perechi, prezentat anterior. Pentru a ilustra aplicarea testului (care ca si principiu se bazeaz tot pe comparaii de ranguri) vom folosi o baz de date nou, pe care va trebui s o crem. Datele sunt prezentate n tabelul urmtor. Ele sunt imaginare si reprezint urmtoarele: NRSUB: este o variabil-cod ce arat numrul subiectului analizat VOT: este rspunsul subiecilor la ntrebarea Dac duminica viitoare ar fi alegeri, v-ai prezenta la vot?". Valoarea l arat rspunsurile DA, iar valoarea 0 corespunde valorilor NU. ILIESCU: este rspunsul subiecilor la ntrebarea Dac acest candidat ctig, cum va fi situaia Romniei?", la care rspunsurile posibile sunt 1-mai rea, 2-la fel, 3-mai bun. CONSTANTINESCU: este o ntrebare similar cu cea de mai sus, dar raportat la acest candidat. Datele despre care vorbeam sunt prezentate mai jos:
nrsub 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25 26 27 28 vot 1 1 1 1 0 1 0 1 1 0 0 1 0 1 1 0 1 1 1 0 1 1 0 1 1 0 1 iliescu 1 1 2 3 1 1 3 2 2 2 1 1 2 2 3 3 1 3 1 1 2 2 2 2 2 3 3 2 3 1 1 3 2 2 1 1 1 2 2 3 1 1 1 2 1 2 2 2 1 1 1 2 2 1 constantinescu
184
29 30
1 0
3 3
1 1
3 Aplicarea sa Dorim s vedem dac subiecii au o prere mai bun despre vreunul din candidai, ntruct subiecii rspund la ntrebri referitoare la ambii candidai (deci dau perechi de valori la fiecare msurtoare), trebuie s aplicm o metod care folosete compararea de eantioane perechi. Dat fiind c scala de msur este ordinal, vom aplica o metod neparametric. Vom activa fereastra corespunztoare meniului ANALYZE - NON PARAMETRIC TESTS - TWO RELATED SAMPLES ca n fereastra prezentat n continuare:
Observai c fereastra de mai sus seamn cu cea a testului t pentru eantioane perechi. Ca si pentru testul t, trebuie selectat o pereche de variabile pentru analiz, altfel butoanele ferestrei nu se activeaz. Vom selecta si noi cele dou variabile de interes: ILIESCU si CONSTANT, ca n imaginea de mai jos:
Observai c si aici putem aplica mai multe tipuri de teste. S le analizm pe scurt pe fiecare n parte: WILCOXON: se bazeaz pe rangul valorilor absolute al diferenelor dintre dou variabile, comparnd separat diferenele pozitive i negative SIGN: se bazeaz pe comparaia diferenelor pozitive i negative dintre cele dou variabile utiliznd apoi testul binomial pentru a compara proporia de diferene negative cu cea a diferenelor pozitive. McNEMAR: testeaz dac oricare dou combinaii posibile de valori extreme au o
185
aceeai probabilitate de apariie. Aplicarea sa se face numai dac variabilele testate sunt dihotomice. n cazul nostru nu putem aplica testul McNemar, ci doar testul semnului sau Wilcoxon. Vom alege pe ultimul dintre acestea. 3 Interpretarea Aa cum ne-am obinuit, prezentarea rezultatelor testului se face n dou tabele, unul pentru valorile descriptive i altul pentru semnificaia testului, ca mai jos:
n primul tabel sunt prezentate media i suma rangurilor diferenelor pozitive i negative, precum i cazurile n care scorurile sunt la egalitate. Indicii de sub acest tabel arat sensul diferenelor. Din al doilea tabel observm c testul este semnificativ (p<0,05). Dup cum observai, n coloana a doua din acest ultim tabel apare notaia CONSTANT-ILIESCU, ceea ce nseamn c valorile absolute ale diferenelor (i pozitive i negative) sunt n defavoarea lui Constantinescu. Concluzia este c aceti subieci consider c situaia Romniei se va mbunti mai mult dac ctig Iliescu dect dac ctig Constantinescu.
186
Volumul de fa nu este o trecere n revist, exhaustiv, nici a metodelor statistice, nici n ceea ce privete folosirea programului SPSS. Pentru un astfel de scop nobil ne-ar fi trebuit, fr exagerare, mii de pagini. Avei n mn un ghid practic, dar introductiv, pentru a folosi pachetul statistic SPSS (sau altele asemntoare), ghid care explic noiunile de baz din statistic i pune accent pe metodele folosite n special n tiinele sociale, cu precdere n psihologie. Autorul
187

Ovidiu Lungu - SPSS 10

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ovidiu Lungu - SPSS 10

Încărcat de

Drepturi de autor:

Formate disponibile

SERIA PSIHOLOGIE EXPERIMENTAL I APLICAT

FAMILIARIZAREA CU PROGRAMUL SPSS 10.0

Deschiderea programului i prile componente.

deschiderea programului SPSS din meniul START

aa se prezint programul SPSS la deschidere

Deschiderea unei baze de date

fereastr-dialog pentru deschiderea unei baze de date

aici aflm informaii despre variabile

Crearea unei baze de date noi

IQ 85 96 98 112 102 101 86 99 105 108

IQ 98 89 88 98 106 104 94 91 93 105

aici am definit numele (NAME) i eticheta (LABEL) variabilei alese.

salvarea datelor din meniul FILE

fereastra-dialog pentru salvarea bazei de date

activarea comenzii DESCRITIVES

transferul unei variabile n cmpul pentru analizat

perspectiva sau fereastra OUTPUT

Exerciiu: Realizai o analiz similar si pentru variabila QI2

STATISTICA DESCRIPTIVA (1) - cum s dm un neles datelor brute

Cum v place berea, cu etichet sau fr etichet?

Identificarea tendinei centrale

Folosirea SPSS: meniul ANALYZE FREQUENCIES

selectarea fiierului dorit din meniul FILE OPEN

descrierea variabilei SALBEGIN n perspectiva VARIABLE VIEW

cadrul de modificare al tabelului

EXERCIIU: facei aceeai analiz pentru variabila CURRENT SALARY

Folosirea SPSS: meniul ANALYZE DESCRIPTIVES

fereastra cu rezultatele analizei DESCRIPTIVES

Folosirea SPSS: Grafice - histograme, bare, linii, plcint", box-plot

alegerea meniului pentru histograme

O dat activat aceast opiune, ea va deschide urmtoarea fereastr:

histograma variabilei SALBEGIN

unele butoane utile ale editorului de grafice

de aici ne alegem mai detaliat ceea ce vrem s reprezentm grafic

fereastra butonului OPTIONS

de aici selectm tipul de grafic

aa arat graficul cu linii

STATISTICA DESCRIPTIV (2) - sau cum s mai dm un neles datelor brute

Notele z i funciile lor

Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75

Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35

Z1*Z2 0 0,41 0,78 1,81 0,30 2,36 (Z1*Z2) = 5,66

Folosirea SPSS: meniul ANALYZE - CORRELATE BIVARIATE

Astfel, pe ecran va aprea eticheta aleas, n dreptul variabilei SEX:

Evenimentul Apare Nu apare Corect Eroare 1 Eroare 2 Corect

Folosirea SPSS: meniul DATA - SELECT CASES

Odat activat acest comand deschide fereastra:

Folosirea SPSS: meniul DATA - SPLIT FILE

Folosirea SPSS: meniul GRAPHS SCATTER

Apsm apoi butonul DEFINE, care deschide urmtoarea fereastr:

Graficul va apare astfel:

Cnd nu amestecm bine legumele din oal

Scoruri brute Scoruri Z

distribuirea normal a rezultatelor obinute la un test de inteligen

11 luni 14 luni 17 luni 20 luni -1 0 +1 +2

distribuia normal a vrstei de debut a mersului la copil

11 luni 14 luni 17 luni 20 luni -1 0 +1 +2

distribuia normal a vrstei de debut a mersului la copil

17 ore 20 ore 23 ore

Zona haurat este zona de respingere.

Testul t pentru a compara un eantion cu o populaie la care tim doar media

Folosirea SPSS: meniul ANALYZE - COMPARE MEANS - ONE-SAMPLE T-TEST

Z1Z2 0 0,41 0,78 1,81 0,30 2,36 (Z1Z2) = 5,66

= B0 + B1X1 + B2X2 + B3X1X2