Sunteți pe pagina 1din 187

OVIDIU LUNGU

SERIA PSIHOLOGIE EXPERIMENTAL

#I APLICAT

FAMILIARIZAREA CU PROGRAMUL SPSS 10.0


Cuprins: - deschiderea programului si p r#ile componente - deschiderea unei baze de date - crearea unei baze de date - definirea variabilelor - salvarea fi$ierelor - output-ul Banalit #i importante pentru studen#ii poe#i. Mul#i studen#i vin la psihologie pentru a sc pa de numere, de matematic $i pentru c le place s "se joace" cu cuvintele. Probabil c a$a se ntmpl $i cu dumneavoastr . A#i ales psihologia pentru c sunte#i fascina#i de oameni, de comportamentul lor, de via#a lor interioar , chiar de via#a voastr proprie. V spun bine a#i venit la acest curs de statistic aplicat $i v asigur c el este un curs special, ncrederea mea, ncercnd s fiu un ghid n lumea statisticii, vine de la faptul c $i al#i studen#i ca voi au reu$it s nve#e s aplice statistica cu succes, chiar dac anterior au avut e$ecuri n domeniu. 'i voi ve#i nv #a statistic $i o ve#i face bine. Cuvntul statistic provine din limba italian (statista) $i, n trecut, desemna persoana care se ocupa de afacerile statului. Se referea la indivizii care num rau popula#ia sau alte elemente ce ajutau statul s gestioneze mai bine politica de taxe $i costurile r zboaielor. Statistica, ca $tiin# , deriv din numeroase surse, unele chiar inedite. Ideea de baz de a aduna date provine de la necesit #ile celor ce guvernau (pentru a stabili taxele), dar $i din timpuri mai vechi, cnd armatorii $i calculau costurile echip rii cor biilor (folosind probabilitatea de a fi atacate de pira#i sau de a naufragia). Teoria modern a corela#iei provine din biologie, din analiza similarit #ilor dintre p rin#i $i copiii lor; teoria analizei de variant $i are originea n fabricatele de bere din secolul XVIII $i pe cmpurile de orz, unde alegerea soiului potrivit de orz $i a timpului potrivit de fermentare permitea promovarea unui anumit gust al berii (dar $i supravie#uirea a sute de ferme mici); teoria m sur rii $i are originea n studiul personalit #ii umane $i n special n studiul inteligen#ei, iar dezvoltarea testelor neparametrice se datoreaz n special sociologiei unde se punea adesea problema apartenen#ei la diferite clase sociale. Pornind de la ncerc rile timpurii ale statisticienilor care erau preocupa#i s demonstreze existen#a lui Dumnezeu cu ajutorul numerelor, de la calculele lui John Adams, unul din pre$edin#ii americani, care a reu$it s ob#in ajutorul Olandei n R zboiul de Independen# demonstrnd statistic c popula#ia coloniilor este n cre$tere $i poate s ofere 20.000 militari anual $i pn la calculele moderne referitoare la pia# $i care asigur succesul unei firme, statistica poate s joace un rol important n via#a noastr Si atunci cine spune c statistica nu are suflet sau nu este uman ? A$a cum un chirurg, orict de renumit ar fi el, are nevoie de instrumente specializate pentru a-$i face bine treaba, la fel $i statisticienii din ziua de azi nu ar putea s analizeze datele f r
2

ajutorul unor unelte. O astfel de unealt , foarte util , este pachetul informatic SPSS (Statistical Package for Social Sciences), ajuns n prezent la versiunea 10.0. Scopul manualului de fa# este de a v oferi un ghid de baz privind utilizarea acestei resurse important n realizarea prelucr rilor statistice. Pentru alte informa#ii tehnice pute#i accesa site-ul oficial al companiei care produce acest program, la adresa www.spss.com. Pentru beneficiarii unor versiuni mai vechi ale acestui program, informa#iile din ghidul de fa# sunt totu$i folositoare, chiar dac anumite opera#ii sau aranjarea output-ului (foaia de prezentare a rezultatelor) sunt diferite.

Deschiderea programului &i p(r*ile componente.


Ca orice instrument modern, programul SPSS nu poate fi folosit pn nu este mai nti activat sau deschis. Accesul la program se poate face n dou modalit #i. Mai nti, fi pute#i accesa prin efectuarea unui click-dublu asupra pictogramei programului, care ara# ca n imaginea de mai jos $i se g se$te pe desktop-ul computerului, n eventualitatea c a#i creat un short-cut pentru program. O a doua modalitate de a pune n func #iune SPSS-ul este cu ajutorul meniului STARTPROGRAMS prezent n orice versiune WINDOWS mai recent . Astfel, ap sa#i butonul START, apoi un click-simplu pe op#iunea PROGRAMS, de unde ve#i alege op#iunea SPSS FOR WINDOWS - SPSS 10.0 FOR WINDOWS, ca n imaginea urm toare:

deschiderea programului SPSS din meniul START

Oricare metod ve#i folosi, programul se va activa, iar pe ecranul dumneavoastr va ap rea un tabel, ca n imaginea de mai jos:

a&a se prezint( programul SPSS la deschidere

Observa#i c ave#i pe ecran un tabel, deci linii si coloane. Este bine s re#ine#i c ntotdeauna coloanele tabelului reprezint variabilele cercet rii, n timp ce liniile tabelului, numerotate, reprezint subiec#ii sau participan#ii la cercetare. Acest lucru sugereaz felul n care datele trebuie introduse n tabel. S analiz m acum mai detaliat fereastra, pornind din partea superioar , c tre partea inferioar . Banda colorat din marginea superioar a ferestrei v informeaz asupra numelui fi$ierului si al programului aflat n uz. Urmeaz apoi o band cu meniurile uzuale ale programului si o bar cu butoane, butoane care nu reprezint altceva dect scurt turi" ale op#iunilor ce pot fi activate si din meniurile uzuale. Vom analiza mai detaliat unele comenzi din aceste meniuri, pe m sur ce avans m cu acest ghid.

Deschiderea unei baze de date


De multe ori dorim s lucr m cu baze de date pe care le-am creat anterior sau pe care altcineva naintea noastr a lucrat. Pentru aceasta vom activa meniul FILE - OPEN si vom alege op#iunea DATA. Odat activat comanda, computerul va deschide o fereastr -dialog care v permite s selecta#i att directorul unde se g se$te baza voastr de date, ct si fi$ierul dorit, n exemplul ce urmeaz , am selectat fi$ierul pretestare din directorul S.P.S.S. Observa#i n imaginea ce urmeaz c termina#ia fi$ierelor cu date din SPSS este sav.

fereastr(-dialog pentru deschiderea unei baze de date

Deschiderea propriu-zis a bazei de date se face prin ap sarea butonului OPEN din fereastradialog prezentat anterior, n momentul n care baza de date a fost nc rcat , ecranul va apare astfel:

Aceasta este fereastra care v prezint datele brute. Observa#i variabilele din studiu, coloanele tabelului adic ; de exemplu, variabila GEN descrie genul subiec#ilor (masculin sau feminin), variabila CONDI)IE arat condi#ia
5

experimental n care se aflau participan#ii la studiu, G l sunt notele ob#inute de subiec#i la o anume prob , $.a.m.d. Fiecare linie a tabelului arat rezultatele unui singur subiect. Astfel, dac observ m linia a 11-a, vedem c rezultatele acestei persoane se g sesc n fi$a cu num rul 11, c este o persoan de sex feminin, n condi#ia neactivat", care a ob#inut nota 7 la variabila Gl, nota 7 la G2, nota 13 la G3 etc. Dac dorim s afl m informa#ii despre tipul variabilelor aflate n baza noastr de date, trebuie s activ m op#iunea VARIABLE VIEW din partea inferioar a ecranului. Astfel va apare imaginea urm toare:

aici afl(m informa*ii despre variabile

Acum, variabilele sunt a$ezate pe rnduri, iar coloanele reprezint diver$i parametri, diverse calit #i pe care le au variabilele noastre. De exemplu, variabila G3 este de tip numeric, are 8 caractere, dintre care dou sunt zecimale, iar ceea ce descrie aceast variabil se refer la comportamentul nclin capul", $.a.m.d.

Crearea unei baze de date noi


Crearea unei baze noi se face din perspectiva DATA VIEW. Observa#i c n tabel avem un cursor-text sub forma unui contur mai ngro$at care nconjur o celul . Acesta fi mutat n tabel cu ajutorul butoanelor cu s ge#i, din partea dreapt -jos a tastaturii. Dac dorim putem s introducem n computer baza de date redat n tabelul de mai jos, care arat scorurile IQ la un test de inteligen# aplicat unor adolescen#i, fra#i de acelasi sex:

Nrfi$a 1 2 3 4 5 6 7 8 9 10

IQ 85 96 98 112 102 101 86 99 105 108


aceasta este baza de date ce dorim s o cre m

IQ 98 89 88 98 106 104 94 91 93 105

Observa#i c avem trei variabile si zece perechi de subiec#i. Variabilele sunt: num rul fisei (NRFISA) care arat num rul fi$elor completate de cei doi fra#i, coeficientul de inteligent al primului n scut (QI1) si coeficientul de inteligent al celui de-al doilea n scut (QI2). Duce#i cursorul-text la nceputul bazei de date (celula cea mai din stnga-sus a tabelului) si apoi tip ri#i de la tastatur l" si ap sa#i ENTER sau butonul cu s geata n jos. Pe ecran va ap rea imaginea de mai jos:

Observa#i c programul define$te automat variabila (var000l), cursorul coboar pe celula urm toare, iar indicativul primei linii devine activ (cifra l de pe margine nu mai este gri). Continua#i s introduce#i astfel toate datele corespunz toare primei variabile, pn ce ajunge#i la cifra 10. Aceasta este faza introducerii datelor sau cre rii unei noi baze de date. Dar pentru a putea folosi aceste date mai u$or, avem nevoie s definim variabilele cu care lucr m. Este ceea ce vom prezenta n continuare.
7

Definirea variabilelor
Definirea variabilelor se face din perspectiva VARIABLE VIEW. Aici se poate ajunge prin dou metode: 1.- executnd un dublu-click pe numele variabilei (var000l), cel scris n capul gri al tabelului 2.- apsnd pe op#iunea VARIABLE VIEW din partea stng -jos a ribctalui; Oricare metod ar fi folosit rezultatul este acela$i $i pe ecran va apare imaginea urmtoare:
aici se definesc variabilele

Ajun$i n acest punct, trebuie s definim anumi#i parametri ai variabilei, n cazul nostru, vom defini doar numele variabilei (a$a cum este el recunoscut de programul SPSS) $i eticheta variabilei (LABEL), care este de fapt o descriere mai detaliat a acesteia, folositoare mai ales cnd avem nevoie s ne reamintim ce anume m soar respectiva variabil . Astfel, vom alege numele NRFISA, iar n dreptul etichetei vom scrie num rul fi$ei" c ci asta m soar sau descrie variabila aleas de noi.

aici am definit numele (NAME) #i eticheta (LABEL) variabilei alese.

Dup ce am stabilit parametrii dori#i (n alte capitole vom vorbi si despre al#i parametri, nu numai despre nume si etichet ), vom reveni din nou la perspectiva DATA VIEW, ca s introducem si celelalte date, la celelalte dou variabile, urmnd aceea$i procedur , n acest moment, pe ecran ve#i avea urm toarea imagine, cu datele introduse la prima variabil si coloana acesteia definit ca atare.

Continua#i s introduce#i datele si s defini#i n mod adecvat cele dou variabile, att ca nume, ct si ca etichet .
9

Salvarea fi&ierelor
Salvarea fi$ierelor are un dublu scop. Pe de o parte salv m datele pe discul dur al computerului (hard-disk) pentru a le conserva n memoria de lung durat , permanent a computerului n vederea folosirii lor ulterioare, pe de alt parte salv m datele pentru a nu le pierde n eventualitatea apari#iei unei pene de curent sau a unei ntreruperi inoportune a computerului. Salvarea datelor se face ca pentru orice fi$ier, fie ac#ionnd butonul SAVE (al doilea din bara de butoane, cel care seam n cu o dischet ), fie din meniul FILE-SAVE, precum n imaginea de mai jos:

salvarea datelor din meniul FILE

Oricare ar fi metoda, atunci cnd se activeaz pentru prima dat comanda SAVE, se deschide o fereastr -dialog, precum cea urm toare:

fereastra-dialog pentru salvarea bazei de date

10

Aici alegem directorul n care dorim s salv m fi$ierul nostru (folosind cmpul SAVE IN din partea superioar a ferestrei) si denumim fi$ierul (n cazul nostru cu numele FRA+I) n cmpul FILE NAME din partea inferioar a ferestrei. Ap sam apoi butonul SAVE al ferestrei $i opera#iunea a luat sfr$it.

Ouput-ul
Pn acum am analizat pe scurt dou din perspectivele programului SPSS: DATA VIEW $i VARIABLE VIEW. Trebuie ns s $ti#i c mai exist o perspectiv , o fereastr de fapt, unde programul v prezint rezultatele analizei statistice. Aceast perspectiv sau fereastr , denumit OUTPUT, apare numai ca urmare a folosirii meniului ANALYZE (unde se analizeaz datele) sau GRAPHS (unde se realizeaz ilustra#iile grafice). Pentru a ilustra modul n care apare aceast perspectiv , vom alege din meniul ANALYZE op#iunea DESCRIPTIVE STATISTICS $i comanda DESCRIPTIVES ca n imaginea de mai jos, f r a intra n detalii privind situa#iile n care se folose$te aceast comand (detalii ce vor fi prezentate ulterior):

activarea comenzii DESCRITIVES

Odat activat comanda DESCRIPTIVES pe ecran va apare o fereastr -dialog, tipic pentru prelucrarea datelor n SPSS. S o analiz m pu#in:
11

4 1

2 3 5
fereastra-dialog DESCRIPTIVES

Oricare fereastra-dialog, folosit la prelucrarea datelor, cuprinde patru zone importante: (1) cmpul ce cuprinde variabilele existente deja n baza de date, (2) cmpul ce cuprinde variabilele pe care dorim s le analiz m, (3) butoane sau cmpuri privind op#iunile de analiz (4) butoanele obi$nuite ale oric rei ferestrei. Butonul cu s geat (5) este folosit pentru a transfera" variabilele ntre cmpurile (1) si (2). n exemplul de fa# , vom transfera variabila QI1 din cmpul (1) n cmpul (2), pentru a o analiza. Pentru aceasta o vom selecta mai nti, executnd un click simplu pe numele variabilei. Astfel, numele va fi ncadrat ntr-un cmp albastru, faptul indicnd c acea variabil a fost selectat . Apoi, ap sam pe s geata (5) si vom observa c variabila se va transfera n cmpul (2), ca n imaginea urm toare:

transferul unei variabile n cmpul pentru analizat

Observa#i acum c sgeata dintre cmpuri $i-a schimbat sensul; ea va avea mereu sensul n func#ie de cmpul n care a fost selectat variabila. Mai observa#i de asemenea c $i butonul
12

OK,care nainte nu era activat a devenit activ. Nu vom folosi acum butoanele sau cmpurile cu op#iunile suplimentare pentru analiz , ci vom ap sa direct butonul OK pentru a observa cum se activeaz fereastra sau perspectiva OUTPUT a programului.

perspectiva sau fereastra OUTPUT

Mai nti, observa#i c aceast nou perspectiv v deschide cu adev rat o nou fereastr , n sensul c apare n mod distinct n bara de sarcini din partea inferioar a ecranului. Revenirea la meniul cu date se face fie prin comanda ALT+TAB (ap snd simultan, scurt, aceste butoane) sau ap snd cu mouse-ul pe numele ferestrei din bara de sarcini. Observa#i c aceast nou fereastr e organizat n dou cmpuri: * cmpul (1) - indic structura sau cuprinsul OUTPUT-ului, * cmpul (2) - arat con#inutul acestuia. Este ca si cum am avea n partea stng un catalog ce indic volumele aflate ntr-o bibliotec , iar n partea dreapt am avea con#inutul acelor volume. Nu insist m acum asupra con#inutului acestei analize, acesta fiind obiectul capitolelor viitoare.

Exerci*iu: Realiza#i o analiz similar si pentru variabila QI2

13

STATISTICA DESCRIPTIVA (1) - cum s( d(m un n*eles datelor brute


Cuprins: 1.- Generalit #i 2.- Identificarea tendin#ei centrale 3.- Analiza variabilit #ii - Folosirea SPSS: meniul ANALYZE - FREQUENCIES - Folosirea SPSS: meniul ANALYZE - DESCRIPTIVES Folosirea SPSS: - Grafice - histograme, bare, linii, pl cint ", box-plot

Cum v place berea, cu etichet sau f r etichet ?


Multe departamente de marketing ale firmelor produc toare de alimente sunt interesate de preferin#ele consumatorilor. Una din cele mai acerbe concuren#e pe pia# este ntre firmele produc toare de bere. Bani grei au fost aloca#i de marile firme pentru a testa gustul clien#ilor fideli. Nu e pu#in lucru s $tii ce apreciaz b utorul de bere la o anumit marc . n general, dou tipuri de informa#ii sunt de interes pentru departamentele de marketing: (1) preferin#a consumatorilor (estimat pe o scal ) pentru marca proprie fa# de cele ale competitorilor atunci cnd sticlele sunt clar etichetate $i (2) preferin#a acelora$i consumatori atunci cnd servesc b utura din sticle neetichetate, cnd singurul indiciu de apreciere r mne gustul. Avnd aceste informa#ii, departamentele de marketing sunt capabile s determine dac preferin#a pentru o anume marc depinde de calit #ile fizice ale produsului sau doar de imaginea m rcii, promovat prin reclam (care este $i ea, n ultim instan# rodul muncii celor de la marketing, nu?). Un studiu faimos, folosind astfel de date a fost realizat de R. Allison $i K. Uhl, n 1965, n Statele Unite. Ei au ales un e$antion reprezentativ de 326 b utori de bere (b rba#i ce consumau bere de cel pu#in trei ori pe s pt mn ). In prima s pt mn ei le-au dat s bea bere din sticle etichetate ale diverselor m rci de prestigiu din domeniu. La sfr$it ei au apreciat pe o scal preferin#a pentru fiecare dintre acele m rci de bere. n s pt mna urm toare experimentul s-a repetat, de data aceasta ns consumatorii nemaiavnd la ndemn etichetele pe sticlele de bere. La sfr$it, ei au apreciat din nou preferin#a pentru o anume bere, f r a $ti c rei marc apar#ine. Rezultatele ob#inute de cei doi cercet tori au ar tat c consumatorii nu au fost capabili s identifice o anume marc de bere numai pe baza gustului. Mai mult, metodele statistice le-au permis acestora s infereze faptul c rezultatul este apHcabil b utorilor de bere n general, nu numai celor 326 lua#i n calcul n studiu. Ulterior, astfel de studii s-au f cut $i pentru b uturi r coritoare (Coca-Cola $i Pepsi), precum $i pentru m rci celebre de cafea. Concluzia studiilor este aceea c noi, ca $i consumatori, suntem mult mai ml itfle imaginea unei m rci, a unui produs dect de calit #ile fizice, "reale" ale uia. Aviz departamentelor de marketing $i cheltuielilor publicitare, nu? Deci, cum v place berea: cu etichet sau f r etichet ? 14

Exist cteva motive pentru care este necesar studierea statisticii n psihologie si n $tiin#ele sociale n general. Mai nti, n#elegerea metodelor statistice este crucial pentru n#elegerea si citirea corect a articolelor de specialitate. Cel ce nu cunoa$te metodele statistice nu va putea s citeasc aceste materiale dect superficial $i nu va fi capabil s n#eleag tabelele, graficele $i corectitudinea concluziilor deduse din cercetare. Al doilea motiv pentru care e necesar studierea statisticii este acela c , f r a avea deprinderile necesare n mnuirea metodelor statistice, nu se poate face cercetare experimental , n fine, n#elegerea metodelor statistice ajut la dezvoltarea gndirii analitice $i critice.

Generalit(*i
Ce este ns statistica? Ea este un instrument care a evoluat din pornind de la procesele de baz ale gndirii: atunci cnd observ m un fapt ne ntreb m ce anume 1-a determinat, care a fost cauza. Astfel, avem o anume intui#ie asupra a ceea ce a provocat acel fapt, facem o presupunere $i n continuare ncerc m s ne test m ipoteza printr-o alt observa#ie, uneori ncercnd s facem unele mici modific ri pentru a ne testa intui#ia. Ceea ce ne intereseaz este dac noua noastr observa#ie este exact , dac ceea ce observ m din nou este un fapt regulat $i nu unul cauzat de ntmplare $i dac avem dreptate n ceea ce prive$te intui#ia noastr . n acela$i mod, statistica este o metod de a testa sau stabili adev rul. Desigur nu este vorba de adev rul absolut, ci de stabilirea probabilit #ii ca observa#ia efectuat s aib cauze precise $i s nu fie provocat doar de ntmplare.
S( consider(m un exemplu hazliu, care ilustreaz( ns( foarte bine care este rolul metodelor statistice. Imaginati-va c( fierbem o oal( de fasole. Dup( un timp, dup( ce am pus fasolele pe foc, trebuie s( verific(m dac( acestea au fiert. Ce facem? Lu(m ntr-o lingur( cteva boabe &i le gust(m. Dac( acestea sunt fierte, decidem c( &i restul fasolelor sunt fierte. Este acest ra*ionament corect? De unde &tim c( nu am luat din ntmplare tocmai pe cele mai fierte dintre boabe? Ei bine, metodele statistice fac tocmai acest lucru. Ele ne pot spune, cu oarecare precizie, pornind de la aceste cteva boabe de fasole, dac( &i celelalte din toat( oala sunt fierte. Cu alte cuvinte, statistica ne ajut( s( facem generaliz(ri ale unor efecte la nivelul unor popula*ii largi, pornind de la rezultatele ob*inute pe e&antioane sau grupuri mici de oameni.

Exist dou ramuri principale privind metodele statistice n psihologie: statistica descriptiv( - cuprinde metodele ce ajut psihologii s descrie si s grupeze n diferite moduri grupurile de rezultate ob#inute n cercet ri, metode ce ajut la descrierea scorurilor. statistica inferen*ial( - cuprinde metodele ce ajut psihologii s trag concluzii pe baza rezultatelor ob#inute si s le generalizeze la popula#ii mai largi dect cele testate ini#ial. In general, ntr-o cercetare este preferabil s utiliz m ambele metode, pentru c fiecare dintre ele ne ofer anumite tipuri de informa#ii. De regul , metodele inferen#iale nici nu se utilizeaz dac nu se aplic mai nti cele descriptive, n cercetarea psihologic se lucreaz cu variabile. O variabil este acea proprietate a unui fenomen, obiect sau proces care poate s ia diferite valori, deci care poate s varieze.
15

Spre exemplu, notele care se pot lua la scoal , zilele s pt mnii, vrsta etc. sunt toate variabile. O variabil este descris de valori. Spre exemplu, pentru variabila "nota $colar " valorile acesteia sunt toate notele de la l la 10 pe care le poate cineva lua la scoal . Pentru variabila "zilele s pt mnii" valorile sunt toate cele 7 zile ale s pt mnii, n psihologie se face distinc#ia ntre valori si scoruri. Un scor este valoarea ob#inut de o persoan , fenomen, obiect, proces situa#ie atunci cnd ne referim la o anume variabil . Spre exemplu, nota pe care o ia George la scoal (s zicem 7) este un scor al acestui subiect la variabila "nota $colar ". Cu toate acestea, valorile variabilei men#ionate sunt n num r de zece: l, 2, 3, 4, 5, 6, 7, 8, 9 $i 10. Dar un subiect nu poate avea dect una din aceste valori, iar aceea este numit scor. De obicei, rezultatele unui experiment psihologic sunt date de un grup de scoruri. Un procedeu prin care se poate analiza acest grup de scoruri este acela de a folosi dubele de frecven# . Un tabel de frecven# arat c#i subiec#i ob#in sau au o anume valoare la o variabil . Spre exemplu, un tabel de frecven# f cut pentru variabila "nota scolar" arat c#i elevi dintrun grup au ob#inut o not anume, ca n tabelul de mai jos: FRECVEN+ 15 26 31 13 18 16 12 3 1 2

NOTA SCOLARA 10 9 8 7 6 5 4 3 2 1

Exist trei pa$i n realizarea unui tabel de frecven#e f r ajutorul calculatorului: se face o list cu toate valorile posibile pe care le poate lua variabila si se trec ntr-o coloan , unele sub altele, n ordine descresc toare. se parcurg toate scorurile ob#inute corespunz toare fiec rei valori ale variabilei si se bifeaz . se trece n tabel num rul de bif ri astfel ob#inut. Un tabel de frecven# realizeaz o descriere a grupului prin aceea c arat care sunt tendin#ele, cum au subiec#ii tendin#a de a se grupa n jurul anumitor valori. Tabelele de frecven# se pot reprezenta si grafic prin histograme, caz n care tendin#ele dintr-un grup de rezultate se observ mai bine. Histograma tabelului de frecven# de mai sus este prezentat n continuare:

16

Exist patru etape n realizarea unei histograme, fr ajutorul calculatorului: se face mai nti un tabel de frecven#e. pe axa orizontal (X) se trec toate valorile pe care le poate lua variabila. pe axa vertical (Y) se marcheaz frecven#a sau num rul de subiec#i ce au ob#inut un anume rezultat. se traseaz bare verticale pentru fiecare valoare n parte a variabilei, ce vor avea n l#imea egal cu num rul de subiec#i ce au ob#inut o anume valoare. O alt modalitate grafic de a reprezenta un tabel de frecven#e este prin poligoanele de frecven# . Acestea se ob#in din histograme, prin unirea mijloacelor p r#ilor superioare ale barelor sau histogramelor, a$a cum este ar tat mai jos.

17

Un poligon de frecven# exprim o distribu#ie a rezultatelor, n sensul c arat cum se distribuie sau cum se "mpr $tie" rezultatele n jurul anumitor valori ale unei variabile. De aceea, forma pe care o ia aceast distribu#ie este un alt mod de a descrie un pup de rezultate. Exist trei parametri, trei caracteristici prin care este descris o distribu#ie: 1.- modalitatea - este un aspect important al distribu#iei care arat cte "vrfuri" are o distribu#ie. Cu alte cuvinte, arat cte valori sunt n jurul c rora se grupeaz foarte mul#i subiec#i. Din acest punct se vedere, distribu#iile pot fi unimodale, adic au un singur vrf, sau ele pot fi multimodale, adic au mai multe vrfuri. 2.- nclinarea - este un aspect al distribu#iei care arat dac scorurile subiec#ilor testa#i au tendin#a de a fi mai mari sau mai mici. Spre exemplu, notele $colare au o distribu#ie nclinat spre dreapta, adic elevii au tendin#a de a lua mai mult note mari dect note mici. Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribu#ie nclinat pozitiv. Atunci cnd distribu#ia este nclinat spre stnga, spunem c aceasta este negativ . Dac nu se observ nici o tendin# de nclinare, atunci distribu#ia este simetric . 3.- turtirea- este un aspect ce se refer la faptul dac o distribu#ie este foarte turtit (adic scorurile din cadrul ei variaz foarte mult) sau este mai ascu#it (adic scorurile variaz foarte pu#in). Vom reveni asupra acestui aspect atunci cnd vom discuta despre curba normal . Defini*ii: Variabil(: o proprietate a unui fenomen care poate lua diferite valori. Valoare: o m sur calitativ sau cantitativ a unui fenomen. Scor: o valoare particular ob#inut de un anumit subiect. Distribu*ie: modul n care se prezint un grup. de rezultate.

Criterii de clasificare a variabilelor: a) dup natura m surii: - cantitative (variaz cantitatea); - calitative (variaz felul). b) dup felul varia&iei: - continui (ntre oricare dou valori mai g sim o a treia); - discrete (variaz lund valori dinainte specificate). c) dup scopul folosirii lor n studii: - independente (manipulate sau invocate de experimentator, stimuli); - dependente (observate la subiec#i, r spunsuri).

18

Identificarea tendin*ei centrale


Dac o parte din metodele descriptive ne folosesc uneori s organiz m rezultatele sau scorurile noastre, alteori avem nevoie de metode pentru a putea descrie mult mai pe scurt ceea ce se ntmpl n distribu#ia noastr . Avem astfel nevoie de metode ce arat tendin#a central (ce tendin#e apar) ntr-o mul#ime de scoruri. Astfel, matematicienii s-au gndit s descrie un grup de scoruri printr-un singur num r. Media aritmetic este un astfel de num r. Media aritmetic( este considerat a fi o metod descriptiv pentru c ea descrie tendin#a central ntr-un grup de rezultate sau arat valoarea tipic sau reprezentativ pentru acele scoruri. Formula matematic a mediei aritmetice este: M= +x (1) N Ce arat sau care este mai precis semnifica#ia mediei? S lu m un exemplu. Mai jos v prezent m un grup de scoruri care arat preferin#a studen#ilor fa# de statistic , pe o scal de la l (nu-mi place deloc) pn la 6 (mi place foarte mult): 4,6,2,2,1,2,3,2,4,4 Calculul mediei, conform formulei (1) este: M= +x = 30 = 3 N 10 Care este semnifica#ia acestui "3"? Ce arat el dincolo de suma scorurilor mpr#it la num rul total de scoruri? Ne vom folosi de histograma acestei distribu#ii pentru a defini media, ntr-un mod intuitiv.

Imagina#i-v c pe o scndur a$ezm ni$te cuburi, egale ca dimensiune unul cu altul, la diferite distan#e, ca n imaginea de mai jos:

19

Observa#i c aceste cuburi sunt a$ezate similar cu segmentele din histogram , n acelea$i pozi#ii. Acum urmeaz ntrebarea: unde anume trebuie s a$ez m un bu$tean astfel nct scndura $i cuburile de pe ea s r mn n echilibru? R spunsul este n dreptul mediei. Pornind de la aceast constatare ajungem $i la semnifica#ia acestei m sur tori statistice: media este punctul fat de care scorurile sunt egal dep rtate, cu alte cuvinte, abaterile de la medie ntr-o direc#ie (ex. ale scorurilor mai mici ca ea) sunt egale cu abaterile n cealalt direc#ie (ex. scorurile mai mari). O alt metod de a descrie tendin#a central a unui grup de scoruri este mediana. 'i ea mparte distribu#ia n dou p r#i, dar de data aceasta din punctul de vedere al frecventelor. Astfel, jum tate dintre scorurile dintr-o distribu#ie vor avea valori mai mici dect mediana, iar restul - valori mai mari. Pentru a calcula mediana sunt necesare dou etape: 1) ordon m scorurile cresc tor sau descresc tor 2) mp r#im num rul de scoruri (N) la 2. Dac N este par, atunci "mijlocul" distribu#iei "cade" ntre scorurile situate la mijloc; dac N este impar, atunci mediana este chiar scorul situat la mijloc. S urm m ace$ti pa$i pentru scorurile prezentate mai sus, care reprezint p rerea studen#ilor fat de statistic . Pasul 1: ordonarea scorurilor. Pornind de la distribu#ia: 4,6,2,2,1,2,3,2,4,4 prin ordonare ajungem la distribu#ia 1,2,2,2,2,3,4,4,4,6 Fiind 10 scoruri (deci num r de subiec#i par, iar jum tatea lui 10 fiind 5), mediana se va g si ntre scorurile din mijloc, deci ntre scorurile al 5-lea si al 6-lea. S geata de mai jos arat pozi#ia medianei, care este astfel 2,5 (media dintre aceste scoruri din mijloc).
20

1,2,2,2,2,3,4,4,4,6 Uneori, de$i mai rar, obi$nuim s descriem o distribu#ie prin modul. Acesta este valoarea cu frecven#a cea mai mare. n exemplul de mai sus, valoarea 2 este ntlnit cel mai frecvent (apare de 4 ori), deci modulul distribu#iei noastre va fi 2. Cnd folosim totu$i una din aceste metode pentru a descrie tendin#a central a unei distribu#ii? Care dintre ele este mai "bun " $i n ce condi#ii? Pentru a r spunde la aceast ntrebare s analiz m ce factori influen#eaz pe fiecare din ele. * Dac la exemplul de mai sus mai ad ug m nc un scor (s zicem un 5), observa#i ce se modific : Media va fi 3,18; Mediana va fi 3; Modulul va fi tot 2. *Dac lu m din distribu#ie un scor, un 4 spre exemplu, schimb rile vor fi: Media va fi 2,88; Mediana va fi 2; Modulul va fi tot 2. *Dac ad ug m 2 scoruri, un 2 $i un 5, spre exemplu, vom avea urm toarele Media va f 3,08; Mediana va fi 2,5; Modulul va fi tot 2. Din cele de mai sus, constat m c modulul este una dintre m rimile ce sunt cel mai mult afectate de schimb ri n structura distribu#iei (num r de scoruri sau m rimea acestora ). Mediana este $i ea destul de stabil , ns media este cea mai "sensibil " dintre toate aceste m rimi. Concluzia este aceea c media este cea mai descriptiv (ntruct arat orice modificare survenit n distribu#ie), dar este recomandat s se foloseasc mai mult n distribu#iile simetrice $i unimodale, n timp ce mediana $i modulul, mai stabile sunt recomandabile n descrierea distribu#iilor asimetrice $i multimodale. Un exemplu concret ar fi de folos:
Exemplu Pe o planta#ie de cafea lucreaz 99 oameni care c$tig 100 dolari lunar (deci ntr-o lun ei c$tig 9.900 dolari). Patronul planta#iei are un venit lunar de 2.100 dolari, n total, cele 100 persoane (patronul $i angaja#ii) de pe planta#ie c$tig 12.000 dolari lunar, deci n medie 120 dolari/lun /persoan . Cu toate acestea, dac ne deplas m pe planta#ie, n 99% de cazuri vom ntlni persoane care c$tig sub valoarea medie, abia n 1% din cazuri g sind pe cineva cu venituri peste medie (patronul). Dac ns calcul m mediana (ordonnd cei 99 de 100 $i valoarea de 2100 - venitul patronului) vom vedea c valoarea ei este exact 100 (mijlocul distribu#iei va "c dea" exact ntre dou scoruri de 100), la fel $i modulul. Deci aceste dou din urm m sur tori sunt mult mai aproape de realitate n cazul unei distribu#ii anormale, asimetrice.

Cu toate aceste diferen#e ntre cele trei metode de stabilire a tendin#elor centrale a unei
21

distribu#ii, media aritmetic r mne metoda cel mai des utilizat $i ea intr n componen#a multora dintre metodele statistice cunoscute. Exist ns cazuri (ex. testele neparametrice), unde mediana $i modulul sunt metodele folosite.

Analiza variabilit(*ii
Cunoa$terea mediei (sau a medianei) nu ne este uneori de folos n a descrie complet o distribu#ie. S presupunem c $tim despre un grup de persoane c are media de vrst de 20 ani. Ce nseamn acest lucru? Au to#i membrii grupului exact 20 de ani fiecare? Sau poate jum tate dintre ei au 10 ani $i jum tate 30? Ori poate un sfert au 18, un sfert - 19, un sfert 21 $i restul 22? Fiecare din aceste situa#ii ne arat lucruri diferite, nu-i a$a? Dup cum observa#i, cunoa$terea doar a mediei nu este suficient pentru a ne oferi informa#ii complete despre "realitatea" din grup; avem nevoie s cunoa$tem $i gradul de variabilitate din scorurile noastre. Mai precis, avem nevoie s $tim ct de mult ($i eventual cu ct) se mpr $tie scorurile n jurul valorii medii, a tendin#ei centrale. Un exemplu din via#a cotidian care s v arate c avem nevoie de cunoa$terea variabilit #ii, n general, este acela al pungilor de cafea (sau orice alt produs alimentar livrat ntr-un ambalaj). O privire atent pe pung ne arat gramajul con#inutului sub forma greutate net l00g 5 g. Ce nseamn aceast indica#ie? Faptul c pungile de cafea, de$i ambalate de o ma$in rie, nu sunt toate de greutate egal $i c majoritatea pungilor au greutatea con#inutului cuprins ntre 95 $i 105 grame. Suntem sau nu mai bine informa#i?

Varianta
Varianta unei distribu#ii arat ct de "mpr $tiate" sunt scorurile n jurul valorii centrale, care este gradul de variabilitate n grupul nostru de rezultate. S vedem etapele calcul rii variantei. Vom utiliza ca exemplu ni$te date culese de la o companie care are 10 departamente. Scorurile prezentate mai jos arat cte persoane lucreaz n fiecare departament n parte: 2, 8, 12, 10, 20, 3, 7, 14, 6, 18 S vedem care sunt etapele de calcul ale variantei. calcularea mediei In primul rnd avem nevoie de cunoa$terea mediei. Ea se ob#ine pe calea obi$nuit , mp r#ind suma scorurilor la num rul lor. n cazul nostru, media este m=10. calculul abaterilor simple de la medie Prima dat cnd s-au gndit s calculeze varianta, matematicienii au pornit de la calculul abaterilor simple de la medie. Pentru aceasta ei au realizat un tabel, diferit de cel al frecven#elor, n sensul c folosea scorurile $i nu valorile variabilei.
22

X 2 3 6 7 8 10 12 14 18 20

x-m -8 -7 -4 -3 -2 0 +2 +4 +8 +10

Ini#ial matematicienii au dorit s lucreze cu aceste abateri simple de la medie, dar dup cum observa#i unele sunt pozitive, altele sunt negative, astfel c adunate, ele se anuleaz una pe alta (aceasta este de altfel si proprietatea mediei, nu?). Atunci o solu#ie a fost s ridic m la p trat aceste abateri simple de la medie, pentru a ob#ine prin adunare un num r pozitiv. calculul p tratului abaterilor de la medie Continund tabelul mai ad ug m nc o coloan unde vom calcula p tratul abaterilor de la medie. x 2 3 6 7 8 10 12 14 18 20 x-m -8 -7 -4 -3 -2 0 +2 +4 +8 +10 (x-m) 64 49 16 9 4 0 4 16 64 100

Adunnd aceste p trate ob#inem o valoare pozitiv (notat cu SS, din englezescul sum of squares - suma p tratelor, ntlnit uneori n c r#ile romne$ti de statistic sub prescurtarea SP, suma p tratelor), n cazul nostru, SS = 326. Ce se ntmpl ns cu SS? Poate fi el folosit ca o m sur a variabilit #ii? nc nu, pentru c el depinde de num rul de scoruri. Observa#i c dac mai ad ug m un scor la cele existente se schimb media, iar acest nou
23

scor va abate probabil de la noua medie cu o oarecare cantitate, ce, ridicat la p trat, face ca SS s creasc . Similar, dac elimin m un scor, SS scade. Pentru a ob#ine o valoare care s nu depind de num rul de scoruri, vom mp r#i pe acesta la N, tocmai la num rul de scoruri. divizarea la num rul de scoruri sau cazuri pentru ca SS s nu depind de N Aceast valoare nou , ob#inut prin mp r#irea lui SS la N este tocmai varianta, notat SD. Deci, SD =
SS (2) N

n exemplul nostru SD = 32,6 Aceasta este tocmai varianta. Repet, ea este o m sur a gradului de variabilitate a scorurilor $i arat ct de mult se abat ele de la tendin#a central . Cu ct este mai mare aceast valoare, cu att mai mult se mpr $tie scorurile n jurul valorii centrale. Este ca $i cum am cunoa$te str lucirea unui bec (n sensul c e foarte str lucitor sau mai pu#in str lucitor), dar nu am $ti c#i wa#i are el (75 sau 100?). Pentru a cunoa$te exact cu ct variaz , scorurile n medie (acele 5 grame n plus sau n minus de pe punga de cafea), este nevoie s calcul m devia#ia standard.

Devia&ia standard
Devia#ia standard ne este mult mai util . Ea arat cu ct se mpr $tie scorurile n jurul valorii centrale $i - fapt poate mai important - se m soar n acelea$i unit #i de m sur ca $i variabile ini#ial , X. Ea este pur $i simplu r d cina p trat a variantei, deci SD= DT 2 (3) n exemplul nostru valoarea lui SD este 5,70. Semnifica*ia devia*iei standard Acum, avnd la dispozi#ie $i media $i devia#ia standard putem descrie mult mai bine distribu#ia scorurilor din exemplul nostru. Cunoa$tem astfel c num rul de persoane ce lucreaz la departamentele firmei sus-pomenite este de 10 5,7. Cu alte cuvinte $tim c limita minim a varia#iei normale a scorurilor este 4,3 (ob#inut din 10-5,7), iar limita maxim este 15,7 (ob#inut din 10+5,7). Aproximnd la numere ntregi, de$i pierdem cte ceva din vedere n acest fel, putem afirma c la firma respectiv lucreaz ntre 5 $i 15 persoane n fiecare departament. Dac valoarea mediei descria doar un singur departament din totalul de 10, observ m c acest interval ob#inut de m SD descrie 6 departamente (deci 60% din totalul popula#iei). Acesta este un aspect important al devia#iei standard, n mod obi$nuit, n intervalul
24

cuprins de o parte $i alta a mediei de devia#ia standard g sim aproximativ 2/3 din totalul scorurilor, deci n acest interval vom avea scorurile considerate tipice sau normale pentru acea distribu#ie. Imaginea de mai jos este mai sugestiv .

Din aceast cauz numim aceast devia#ie "standard", pentru c orice am m sura, oricare ar fi forma distribu#iei, g sim mereu aproximativ 2/3 din scoruri n acest interval. Devia#ia standard joac un rol foarte important n calcularea notelor z, denumite si note standard. Prezentarea notelor z se va face ns n capitolul urm tor.

Folosirea SPSS: meniul ANALYZE FREQUENCIES


Vom ar ta n continuare cum se calculeaz parametrii unei distribu#ii (media si abaterea standard) folosind SPSS, mai precis, meniul ANALYZE - FREQUENCIES. Mai nti s deschidem sau s nc rc m fi$ierul denumit employee data.sav. Pentru aceasta folosim comanda FILE -> OPEN -> DATA, comand prezentat n capitolul anterior. Din fereastra care se deschide (prezentat mai jos), alegem fi$ierul dorit (employee data.sav) f cnd click asupra lui, apoi ap snd butonul OPEN.

selectarea fi#ierului dorit din meniul FILE OPEN

25

Baza de date prezint rezultatele unei anchete realizat n Statele Unite n anii '90 si reprezint datele referitoare la angaja#ii unor b nci. S ne alegem pentru prelucrare variabila salbe gin. Reamintim c numele variabilelor sunt scrise n capul de tabel, de culoare gri. Ce reprezint aceast variabil ? Nu putem $ti n mod direct. Pentru a afla acest lucru, trebuie s proced m ca si cum am dori s definim variabila. De aceea, facem dublu-click n capul coloanei , acolo unde scrie numele variabilei. Va aprea astfel perspectiva VARIABLE VIEW (ca n imaginea de mai jos):

descrierea variabilei SALBEGIN n perspectiva VARIABLE VIEW

Pentru a vedea ce reprezint salbegin ne uit m n cmpul LABEL, unde citim "beggining salary", ceea ce nseamn "salariul ini#ial sau de nceput". Vom lucra astfel cu date ce arat salariul ini#ial al subiec#ilor analiza#i. S calcul m unii parametrii ai distribu#iei. Vom folosi pentru aceasta comanda ANALYZE-SUMMARIZE-FREQUENCIES care deschide fereastra FREQUENCIES de unde ne vom putea alege op#iunile: calculul mediei, medianei, modulului, precum si al devia#iei standard.

O dat aleas aceast op#iune, pe ecran va aprea fereastra de mai jos care v permite alegerea variabilelor de analizat, precum $i op#iunile de analiz:

26

Aici selectm variabila dorit ( ca n imagine ) $i ac#ionnd sgeata dintre cmpuri, vom transfera variabila aleas n cmpul cu variabile de analiz. Pentru mai multe detalii revede# i ultima parte a capitolului precedent.
3

8 1

Vom prezenta detaliat aceast fereastr , urmnd ca la altele asem n toare s nu mai insist m detaliat ulterior, ntruct aproape toate ferestrele de analiz au aceast structur . Unde va fi ns cazul vom prezenta elementele de noutate. (1) reprezint cmpul unde sunt prezentate variabilele din baza de date; (2) aceasta este o op#iune; seninul din p tr #el (similar cu sigla Nike sau Rexona) indic faptul c op#iunea este activ , n cazul de fa# , activarea op#iunii permite realizarea tabelului de frecven#e; men#ion m c , din start, op#iunea este activ , iar dezactivarea ei atrage dup sine un mesaj de avertisment din partea programului; (3) este s geata care permite transferul variabilelor din cmpul cu lista din baza de date, n cel de analiz ; (4) este cmpul unde trebuie transferate variabilele de analizat; (5) este un buton care deschide o fereastr cu op#iunile de prelucrare statistic (va fi prezentat n continuare); (6) un buton care permite realizarea graficelor concomitent cu prelucrarea statistic ; (7) este un buton ce permite modificarea formei OUTPUT-ului;
27

(8) acestea sunt butoanele comune, obi$nuite ale ferestrei. Dup ce am ales variabila sau variabilele pe care dorim s le analiz m, trebuie selectate op#iunile de analiz statistic , ap snd butonul STATISTICS. Pe ecran va apare fereastra de mai jos:

Observa#i c fereastra cuprinde op#iuni, grupate n patru cmpuri. Aceste cmpuri au un titlu si sunt delimitate de o linie gri-deschis. Din titlul cmpurilor pute #i deduce la ce se refer op#iunile respective: percentile values: permite calcularea diferitelor valori percentile corespunz toare mp r#irii subiec#ilor n grupuri egale sau n func#ie de un anumit procentaj ales; dispersion: permite calculul diferi#ilor parametri referitori la dispersia sau mpr $tierea datelor n jurul valorii centrale (media, de obicei); central tendency: permite calculul parametrilor ce arat tendin#ele centrale ale distribu#iei (media, mediana, etc.) distribution: permite calcularea turtirii $i nclin rii distribu#iei pentru a fi comparat cu cea normal (vom reveni ulterior cu detalii, atunci cnd vom vorbi despre curba normal ). Din aceast fereastr vom alege pentru moment (bifnd sau f cnd click cu mouse-ul n p tr #elul op#iunii) doar: media, mediana, modul, varianta, devia#ia standard, minimul si maximul. Ap sa#i apoi CONTINUE si deschide#i fereastra CHARTS. Pe ecran va apare o fereastr precum cea urm toare:

28

Observa#i c si aici avem dou cmpuri. Unul permite alegerea tipului de grafic (cu bare, pl cinte sau histograme), iar al doilea permite alegerea tipului de valori din grafic (frecven#e sau procentaje). V recomand m s nu alege#i acum nici o op#iune si s realiza#i graficele separat, ntruct astfel vom avea o libertate mai mare n realizarea lor. Ap sa#i CANCEL si activa#i fereastra FORMAT prin ap sarea pe butonul cu acela$i nume, care deschide fereastra:

'i aici avem dou cmpuri: unul pentru op#iuni privind aranjarea rezultatelor n ordine cresc toare sau descresc toare, etc.) si altul privind compararea variabilelor sau organizarea separat a foii de rezultate, n func#ie de variabile.

29

Fereastra de mai sus ilustreaz modul n care se prezint foia de rezultate (OUTPUT), dup ce a#i revenit n fereastra principal DESCRIPTIVES si a#i ap sat butonul OK. Observa#i organizarea ei: n partea superioar se afl o bar de butoane; n stnga este un cmp care v arat structura OUTPUT-ului, iar n cmpul din partea dreapt - con#inutul OUPTUT-ului. Dup titlul foii de rezultate (FREQUENCIES), observa#i c sunt prezentate dou tabele: primul arat parametrii statistici pe care i-am cerut prin activarea ferestrei STATISTICS, iar a doua fereastr prezint tabelul frecven#elor. Observa#i c num rul din primul tabel, din dreptul men#iunii VARIANCE (care arat varianta rezultatelor) nu este prezentat normal, ci prescurtat, din cauza l #imii prea mici a coloanei. Pentru a modifica orice dimensiune a tabelului, ca de altfel a oric rei forme de prezentare a rezultatelor, executa#i un click-dublu asupra zonei dorite, n acel moment, un cadru special sau chiar o fereastr nou va ncadra zona aleas si cu ajutorul mouse-ului pute#i modifica dimensiunile (similar cu modificarea tabelelor n WORD sau EXCEL).

cadrul de modificare al tabelului

Tabelul urm tor prezint tabelul frecven#elor realizat pentru variabila aleas . El are cinci coloane: * prima prezint rezultatele valide (adic nu si cazurile lips ), * a doua coloan arat frecven#a propriu-zis (ex. 4 persoane au un venit ini#ial de $9000), * a treia coloan arat ce procentaj au aceste persoane raportat la num rul total al subiec#ilor, *a patra coloan - procentajul raportat la num rul total al scorurilor valide (f r cazuri lips adic), * a cincea coloan arat procentajul cumulat de cel mai mic scor pn la cel prezent.

30

tabelul frecven&elor

EXERCI+IU: face#i aceea$i analiz pentru variabila CURRENT SALARY

Folosirea SPSS: meniul ANALYZE DESCRIPTIVES


Acum s prezent m analiza descriptiv a rezultatelor realizat cu ajutorul comenzii DESCRIPTIVES. Dup cum veti vedea, exist similarit #i cu comanda precedent , dar si diferen#e. Din meniul ANALYZE activa#i comanda DESCRIPTIVES, care va deschide fereastra de mai jos:

Ea este similar cu cea de la FREQUENCIES, doar c are mai pu#ine butoane cu op#iuni (unul n loc de trei). Alege#i variabila pentru analiz (BEGINNING SALARY) si transfera#i-o n cmpul pentru analiz , folosind s geata dintre cmpuri. Op#iunea din partea stng -jos v permite salvarea n baza de date a unei noi variabile care va con#ine note z ale variabilei analizate. Apsa#i apoi butonul OPTIONS care va deschide fereastra urmtoare:
31

Aici observa#i c g sim mai pu#ine op#iuni de analiz statistic dect n cazul meniului anterior, sunt doar cele de baz ; de aici si concluzia: comanda DESCRIPTIVES se aplic atunci cnd avem de analizat din punct de vedere descriptiv, simultan, mai multe variabile sau cnd ne intereseaz doar parametrii de baz ai variabilelor, f r tabelele de frecven#e. Ap sam CONTINUE si apoi butonul OK pentru a face s v apar pe ecran OUTPUT-ul:

fereastra cu rezultatele analizei DESCRIPTIVES

De aceast dat apare doar un singur tabel care v prezint parametrii statistici solicita#i. Observa#i c , din nou, varianta $i devia#ia standard nu sunt prezentate complet datorit l #imii mici a coloanelor. Executa#i click-dublu asupra tabelului $i modifica#i-i dimensiunile, la fel ca n WORD.

32

Folosirea SPSS: Grafice - histograme, bare, linii, pl(cint(", box-plot


Se spune c o imagine face ct o mie de cuvinte. Vom prezenta n continuare diferite moduri de reprezentare grafic a rezultatelor. Toate se g sesc n meniul GRAPHS, dar apar uneori $i ca op#iuni n unele ferestre de prelucrare statistic din meniul ANALYZE. 1.- Histograme Vom alege pentru nceput op#iunea HISTOGRAM, ca n imaginea de mai jos:

alegerea meniului pentru histograme

O dat activat aceast op#iune, ea va deschide urmtoarea fereastr:

fereastra histogramelor

n cadrul acestei ferestre alegem o singur variabil pentru care dorim s facem reprezentarea grafic sub forma histogramei, n cazul nostru SALBEGIN (beginning salary) si o introducem - cu ajutorul butonului cu s geat - n cmpul denumit VARIABLE. Putem bifa op#iunea DISPLAY NORMAL CURVE, op#iune care va afi$a curba normal a popula#iei de e$antioane din care provine e$antionul nostru, n cazul nostru nu vom bifa aceast op#iune. Pentru a ob#ine graficul, dup aceste opera#ii ap sam butonul OK.
33

histograma variabilei SALBEGIN

O histogram , a$a cum se vede si n imaginea de mai sus, este un grafic n care barele sunt lipite una de alta. n ceea ce prive$te variabila prezentat grafic mai sus, constat m c ea are o distribu#ie asimetric , valorile mici predominnd ca frecven# . Aceast distribu#ie este tipic pentru reprezentarea grafic a venitului n rndul oric rei popula#ii. Explica#ia const n aceea c n orice popula#ie exist c#iva indivizi care c$tig mult, n timp ce majoritatea c$tig la un nivel mediu sau sc zut, comparativ cu ace$ti indivizi. Observ m n exemplul de mai sus c n timp ce marea majoritate c$tig pn la 20.000 dolari anual, exist cteva persoane (barele de frecven# din partea dreapt abia se z resc pe grafic) care c$tig $i pn la 80.000 dolari anual. Este posibil s dorim s modific m diferite aspecte ale graficului realizat de SPSS. Pentru aceasta trebuie s efectu m un dublu-click pe grafic si vom observa c se deschide o alt fereastr numit CHART EDITOR, care are n partea de sus o bar cu meniuri si o alta cu butoane ce folosesc la modificarea diferi#ilor parametrii ai graficului (ex. culoarea barelor, ha$ura lor, ad ugarea sau modificarea titlului, etc.), ca n imaginea de mai jos.

34

3 1 4 2

unele butoane utile ale editorului de grafice

Pentru a modifica un anume parametru al graficului, se selecteaz zona pe care dorim s o modific m (ex. dac dorim modificarea barelor, facem un click simplu pe ele) si apoi se activeaz unul din butoane. Am selectat mai sus doar patru din butoanele mai importante. Ele vor deschide mici ferestre de unde pute#i modifica parametrii, dup care ap sa#i pe butonul APPLY si nchide#i mica fereastr . (1) acest buton va modifica ha$ura barelor (2) de aici se modific culoarea barelor (3) acest buton serve$te la modificarea tipului $i m rimii literelor titlurilor sau men#iunilortext din grafic (4) butonul permite afi$area valorilor numerice pe bare. S lu m un exemplu $i s vedem cum putem ad uga un titlu graficului nostru. Vom face acest lucru din meniul CHART, comanda TITLE, ca n imaginea de mai jos.

35

n fereastra care se va deschide tip ri#i titlul SALARIUL DE LA NCEPUT si ap sa#i butonul OK. Titlul va apare deasupra graficului. Mai putem, de asemenea, s modific m si al#i parametri. De exemplu, un dublu-click asupra axei orizontale a graficului deschide fereastra de mai jos de unde putem modifica aranjamentul titlului axei (op#iunea TITLE JUSTIFICATION), titlul n sine, etichetele (adic sumele corespunz toare fiec rei bare a histogramei), etc.

ntr-un mod similar putem modifica parametrii lega #i de axa vertical , efectund un dubluclick pe aceasta, ac#iune care va deschide fereastra de mai jos. Aici putem modifica intervalul de m sur , titlul axei si putem cere trasarea unor linii orizontale la diferite niveluri.

Pentru a modifica parametrii oric rui titlu, efectua#i un click-dublu, care va deschide fereastra de mai jos, de unde se modific stilul si m rimea literelor. Dup care ap sa#i butonul APPLY si apoi CLOSE.

36

2.- Grafice cu bare Pentru a realiza grafice cu bare trebuie activat meniul urmtor:

Imediat, apare fereastra de mai jos, de unde trebuie selectat tipul de grafic cu bare ce dorim s-l realizm.

Dou sunt op#iunile ce le putem face aici: (1) alegerea graficului n func#ie de variabilele din cercetarea noastr simple: alegem aceast op#iune cnd dorim s prezent m variabila sau variabilele dependente din cercetarea noastr n func#ie de una din variabilele independente. clustered: se folose$te pentru a reprezenta una sau mai multe variabile dependente n func#ie de dou variabile independente. stacked: se folose$te la fel ca op#iunea de mai sus, doar graficul este realizat altfel.

37

(2) alegerea graficului n func#ie de date summariesfor groups of cases: este op#iunea cea mai frecvent $i dac este aleas , atunci fiecare bar reprezint rezultatele unui grup de cazuri (ex. numai pentru grupul subiec#ilor femei). summaries of separate variables: fiecare bar reprezint n acest caz o variabil ; aceast op#iune e folosit mai ales n studiile de tip test-retest sau pentru variabilele care m soar de obicei acela$i lucru (sau m car se exprim n acelea$i unit #i de m sur ). values of individual cases: dup cum spune $i numele, aceast op#iune face ca barele s reprezinte valoarea cazurilor individuale; n acest caz graficul va sem na mult cu o histogram . Pentru exemplul nostru, vom alege s reprezent m variabila dependent SALBEGIN (salariul ini#ial), n func#ie de sexul subiec#ilor (GENDER). Vom alege astfel tipul de grafic simplu (simple) si op#iunea de grafic pentru grupuri de cazuri (adic fiecare bar va reprezenta valorile pentru unul din sexe). Ap sam apoi butonul DEFINE si pe ecran va apare fereastra:
2

Observa#i c aceast fereastr este mp r#it n mai multe zone (cmpuri) pe care le vom descrie sumar mai jos: (1) - este cmpul n care se g sesc variabilele existente n baza de date si de unde alegem pe acelea care trebuie reprezentate grafic; (2)- acest cmp precizeaz ce anume dorim s reprezinte variabilele noastre (ex. num rul cazurilor, procentaje, etc.). n exemplul nostru, dorim s reprezent m media c$tigului salarial pe sexe. Deoarece media nu se g se$te n op#iuni, vom alege OTHER SUMMARY
38

FUNCTION $i n momentul n care introducem variabila aleas n cmpul respectiv (cu ajutorul butonului cu s geat ), vom constata c acolo apare cuvntul MEAN (adic media). Dac ns am dori s reprezent m altceva dect media, spre exemplu mediana, atunci ar trebui s ap sam pe butonul CHANGE SUMMARY. (3) - odat ap sat acest buton, el deschid o alt fereastr , cu multe op#iuni. Fereastra este prezentat mai jos $i constat m c ea con#ine foarte multe op#iuni (ex. s reprezent m devia#ia standard sau doar procentajele cazurilor ce dep $esc o anume valoare, etc.)

de aici ne alegem mai detaliat ceea ce vrem s reprezentm grafic

(4) n acest cmp vom introduce variabila independent n func#ie de care facem reprezentarea grafic , n cazul nostru sexul subiec#ilor (GENDER). (5) - este o op#iune ce permite ca set rile (aranjamentele) pe care le-am folosit ntr-un grafic executat anterior s fie aplicate si n cazul graficului de fa# . Dac bifa#i aceast op#iune trebuie apoi s folosi#i butonul FILE pentru a selecta fi$ierul de unde dori#i s mprumuta#i" set rile. (6) - folosind aceste butoane pute#i ad uga un titlu graficului (butonul TITLE) sau s activa#i alte op#iuni (OPTIONS). De altfel, acest din urm buton, care deschide fereastra prezentat n continuare, este important pentru a dezactiva op#iunea DISPLAY GROUPS DEFINED BY MISSING VALUES, care realizeaz graficul si pentru subiec#ii care nu prezint valori ale variabilei independente (n cazul nostru pentru subiec#ii la care am uitat s complet m n baza de date care este sexul lor).

fereastra butonului OPTIONS

39

Dup ce am selectat variabilele $i op#iunile , vom apsa butonul OK $i computerul va realiza graficul cu bare, ca n imaginea de mai jos:

grafic cu bare

Aten#ie mare la graficele realizate! Prin construc#ia lui, programul SPSS alege diferite intervale de reprezentare si - ca urmare - pute#i fi indu$i n eroare n ceea ce prive$te magnitudinea diferen#elor. Spre exemplu, dac nu am fi aten#i la intervalul de reprezentare (de la 12.000 USD/an la 22.000 USD/an), am putea crede c femeile c$tig de vreo 5 ori mai pu#in dect b rba#ii (ceea ce este fals, desigur), cnd n realitate, b rba#ii c$tig de doar l ,5 ori mai mult. Pentru a remedia o astfel de distorsiune grafic , putem modifica intervalul de reprezentare. Face#i dublu-click pe grafic, apoi pe axa vertical a graficului $i n fereastra ce apare, modifica#i limitele minime $i maxime. O astfel de fereastr , numita SCALE AXIS este prezentat n capitolul HISTOGRAME. 3.- Grafice cu linii. Pentru graficele cu linii nu trebuie s intr m n detalii, ntruct realizarea lor este extrem de similar cu cea a graficelor cu bare. Odat selectat op#iunea din meniul GRAPHS, apare fereastra:

de aici selectm tipul de grafic

40

Urma#i aceea$i pa$i ca $i n cazul graficul cu bare $i ve#i ob#ine n final o reprezentare precum cea de mai jos. Aten#ie, nu uita#i s dezactiva#i op#iunea DISPLAY GROUPS DEFINED B Y MISSING VALUES de la butonul OPTIONS !

a#a arat graficul cu linii

'i aici trebuie s ave#i n vedere problema scalrii rezultatelor ( intervalul de reprezentare). 4.- Grafice plcint Graficele de tip pl cint " sunt folosite mai ales pentru a reprezenta grafic valorile (mai ales procentuale) pe diferite categorii, dintr-un ntreg dat. Ele sunt denumite pl cint " pentru c valorile sunt reprezentate grafic ca si felii dintr-un tort. Activarea op#iunii din meniul GRAPHS deschide fereastra de mai jos, care con#ine doar jum tate din op#iunile ce apar la graficele cu bare sau cu linii. Nu le mai prezent m ntru ct am vorbit despre ele la tipurile anterioare de grafice.

Vom alege prima dintre op#iuni, ca $i n cazurile anterioare. ntruct prezentm pr#i dintrun ntreg nu putem folosi media ca n graficele anterioare, ci vom folosi suma, a$a cum e reprezentat n pagina de mai jos:

41

Alegerea op#iunii pentru folosirea sumei se face din butonul CHANGE SUMMARY. Iat cum arat un grafic plcint:

5.- Graficul box-plot Numele acestui tip specific de grafic este dificil de tradus n limba romn , a$a c vom folosi numele preluat din limba englez . Box-plot-urile sunt grafice speciale, care sunt folosite la reprezentarea simultan a indicatorilor de nivel (medie, median ) $i a celor de dispersie. Vom explica n continuare, detaliat ce nseamn acest lucru. Odat activat op#iunea BOXPLOT din meniul GRAPHS, va apare fereastra:

42

De aici putem alege aproape acelea$i op#iuni de reprezentare grafic ca $i n meniul de reprezentare cu bare, doar c avem la dispozi#ie mai pu#ine op#iuni. Pentru exemplul nostru vom alege graficul SIMPLE $i op#iunea SUMMARIES FOR GROUPS OF CASES. Dup ce apsm butonul DEFINE activm fereastra urmtoare:

ntruct ceea ce este reprezentat grafic este dinainte presetat cu acest tip de grafice, nu mai avem a$a multe op#iuni n aceast fereastr . Alegem variabilele ca n imaginea de mai sus si ap sam OK. Graficul rezultat arat astfel:

5 4 1 3 2

43

Cinci sunt elementele graficului care trebuie s ne atrag aten#ia: (1) - linia ngro$at din interiorul cutiei" reprezint mediana, deci tendin#a central . Dac ea este mai apropiat de marginea de jos, atunci distribu#ia este nclinat spre stnga (predomin valorile mici si sunt pu#ine cazuri cu valori mari, dar extreme), dac e mai apropiat de marginea superioar , atunci distribu#ia este nclinat spre dreapta. (2) - cutia" propriu-zis reprezint distribu#ia a 50% dintre subiec#i. Astfel, marginea de jos a cutiei arat valoarea percentilului 25%, iar marginea superioar - pe cea a percentilului 75%. Cu ct cutia" este mai mare, cu att variabilitatea rezultatelor este mai mare. (3) - limitele exterioare ale graficului, acele linii orizontale deasupra dedesubtul cutiei (numite n englez whiskers, adic must #i c pisic ") sunt trasate de la cea mai mic la cea mai mare valoare situate n limitele a 1,5 lungimi de cutie". 'i ele reprezint o m suri a variabilit #ii rezultatelor. (4) - cazurile extreme situate n intervalul 1,5-3 lungimi de cutie", sui reprezentate prin mici o - uri care au trecute n dreptul lor num rul cazului sau al subiectului respectiv. (5) - cazurile extreme situate la distan#e mai mari de 3 lungimi de cutie sunt reprezentate prin mici * (asteriscuri), care au trecute n drep#i lor num rul cazului sau al subiectului respectiv.

Exerci*ii: Realiza#i reprezentarea grafic similar , cu toate tipurile de grafice si pentru variabila SALARY, care arat salariul curent al subiec#ilor Comenta#i n special graficul box-plot.

44

STATISTICA DESCRIPTIV (2) - sau cum s( mai d(m un n*eles datelor brute
Cuprins: Notele z Corela#ia - Folosirea SPSS: meniul ANALYZE - CORRELATE - BIVARIATE - Folosirea SPSS: meniul DATA - SELECT CASES - Folosirea SPSS: meniul DATA - SPLIT FILES - Folosirea SPSS: meniul GRAPHS SCATTER

British Club Francis GaJton este considerat a fi inventatorul corela#iei statistice, de$i Karl Pearson $i al#i matematicieni au conceput de fapt formulele de calcul. Galton era v r cu Charles Darwin, coleg cu Pearson $i profesor al lui Gosset (inventatorul testului t), n secolul XIX, dup cum observa#i, statistica era apanajul unui mic "club" britanic organizat informai n rndul unor studen#i de la Cambridge. Mai mult chiar, la vremea respectiv , mul#i savan#i din alte $tiin#e f ceau parte din acest "club britanic". Unul din membrii "clubului", Galton, era un gentleman bogat, independent $i deosebit de excentric. Dincolo de contribu#ia sa n statistic , el avea studii medicale, participase la explor ri n Africa, a inventat ochelarii pentru citit subacvatic, a f cut descoperiri n meteorologie $i antropologie, ba chiar a scris un articol despre captarea semnalelor inteligente de pe alte planete. Dincolo ns de toate acestea, Galton a fost un "num r tor" nfocat. El num ra aproape orice; de exemplu, el a num rat odat de cte ori casc audien#a la o conferin# , n func#ie de plictiseala indus de vorbitor. Alt dat , n timp ce un pictor i f cea portretul, a num rat de cte ori trage acesta cu pensonul pe pnz (el a constatat c un pictor d cu pensula cam de 20.000 ori n timp ce face un portret). Ajunsese chiar s -$i construiasc un mic dispozitiv de num rat, pe categorii. Pe acesta din urm 1-a folosit n timp "ce c l torea n coloniile britanice din Pacific, nregistrnd frumuse#ea localnicelor de acolo ca fiind "atr g toare", "medie" $i "neatr g toare". Dar corela#ia s-a n scut din preocuparea lui Galton de a num ra criminalii, geniile $i alte tipuri extreme umane n diverse familii. Adept al eugeniei (na$terea sau cre$terea controlat a oamenilor) Galton dorea s vad n ce m sur caracteristicile genetice se transmit de la p rin#i la copii. Astfel el a descoperit o metod de a m sura faptul c "un lucru merge mpreun cu alt lucru" - de fapt corela#ia, ns n acele vremuri, stabilirea leg turii dintre dou variabile era echivalent cu stabilirea unei leg turi cauzale. Astfel, Galton tr gea concluzia c din moment ce putem ar ta matematic c oamenii cei mai de$tep#i provin din cteva familii nst rite, de vi# nobil , iar majoritatea celor pu#in inteligen#i - din familii s race, inteligen#a este cauzat de anumite gene. Era el oare ndrept #it s afirme astea ? Voi din ce fel de familii v trage#i?

45

Am v zut n capitolul anterior c pentru a descrie complet o distribu#ie trebuie s cunoa$tem nu numai tendin#a central (de obicei media), ci si gradul de mpr $tiere a scorurilor n jurul acestei valori. Necesitatea cunoa$terii ambelor valori rezid n faptul c n $tiin#ele sociale avem de-a face cu m rimi variabile, ca urmare trebuie s lu m n considera#ie $i variabilitatea, nu numai valoarea medie.

Notele z &i func*iile lor


Dup ce au descoperit formula de calcul a variantei $i a devia#iei standard, statisticienii au sim#it nevoia calcul rii unei m rimi care s sintetizeze att tendin#a central , ct $i variabilitatea $i care s , descrie scorurile unei distribu#ii din ambele perspective simultan. Aceast nevoie a ap rut astfel din necesitatea de a putea compara un scor cu o distribu#ie (de a estima de fapt pozi#ia scorului n raport cu celelalte) $i din trebuin#a de a compara dou distribu#ii diferite.
Estimarea unui scor n cadrul unei distribu&ii

Caz: Gic este psihoterapeut. El este specializat n tratarea depresiei. La o bere, el i poveste$te unui coleg c ultimul s u pacient s-a vindecat n 5 $edin#e de terapie. "Avea depresie grav sau u$oar ?" ntreab colegul. Gic d s r spund , dar $i d seama c pentru a fi sigur de r spuns ar avea nevoie de statistic . Scoate un carne#el n care avea nota#i ultimii s i pacien#i $i constat c ei s-au vindecat n medie n 8 $edin#e. E suficient media pentru a stabili c pacientul care s-a vindecat n 5 $edin#e avea o depresie u$oar ? Din moment ce devia#ia standard $i media ne spun care sunt scorurile tipice sau medii, putem s stabilim dac un nou scor se abate de la distribu#ia noastr ntr-un sens mai mic dect limita minim de varia#ie (m-SD) sau n altul mai mare dect limita maxim (m+SD). n cazul lui Gic , cunoa$terea mediei nu e suficient pentru a stabili c 5 $edin#e sunt anormal de pu#ine pentru pacien#ii s i, deci c acest ultim pacient avea o depresie u$oar . Pentru a stabili acest fapt avem nevoie $i de devia#ia standard. Calcula#i singuri media $i devia#ia standard cunoscnd c distribu#ia scorurilor pentru ultimii 10 pacien#i ai lui Gic este cea de mai jos: 4, 12, 8, 8, 8, 9, 9, 6, 12, 4 Calculele arat c media este 8, iar devia#ia standard este 2,64. Ref cnd schema, vedem c scorurile tipice sunt cuprinse n intervalul 5,32 $i 10,64.

46

Rotunjind valorile la numere ntregi, aceasta nseamn c n mod obi$nuit, pacien#ii lui Gic au nevoie de 6-10 $edin#e pentru a se trata de depresie. Din moment ce intervalul 6-10 este considerat tipic, atunci ceea ce este n afara acestuia vor fi scoruri considerate atipice. Astfel, cei care se trateaz de depresie n mai pu#in de 6 $edin#e vor fi pacien#ii cu depresie u$oar , iar cei care se vindec n mai mult de 10 $edin#e pot fi considera#i ca avnd o depresie grav . Acum, avem $i r spunsul la cazul nostru: pacientul care s-a vindecat n 5 $edin#e a avut ntr-adev r o depresie u$oar . Dar dac el s-ar fi vindecat n 6 sau chiar 7 $edin#e, el era cu depresie normal , ntruct scorul s u s-ar fi ncadrat n intervalul tipic de varia#ie. Este la fel cum punga de cafea de 96 grame este normal pentru intervalul de varia#ie 100 5, abia una de 94 de grame ab tndu-se de la standard. Vede#i a$adar c n statistic , unde lucr m cu variabile, nu totdeauna un num r poate fi considerat "mai mic" sau "mai mare" dect altul (n general dect media). Este necesar s #inem cont $i de variabilitate. Situa#ia seam n cu aceea a cunoa$terii intervalului de varia#ie a adncimii unui ru. Acesta nu are mereu aceea$i adncime; uneori este mai adnc, alteori este mai pu#in adnc. Pe noi ne intereseaz care sunt fluctua#iile normale pentru a $ti dac mai putem naviga pe el ori dac va fi secet (limita minim a adncimii), precum $i dac nu cumva se anun# vreo inunda#ie (limita maxim a adncimii, dincolo de care apele se revars ). La fel este cazul $i cu variabilele n statistic . Ne intereseaz nu doar media (adncimea medie a rului), ci si devia#ia standard pentru a putea vedea limitele de varia#ie tipic . Pentru a nu face apel mereu la schema desenat anterior ori de cte ori dorim s compar m un scor cu o distribu#ie (s spunem dac el este mic, mediu sau mare), statisticienii au inventat notele Z. Formula pentru nota Z este:
Z= xm SD

(4)

Dac "citim" n cuvinte aceast formul vedem c nota Z, numit si not sau scor standard, arat devia#ia unui scor (x) de la medie (m), iar aceast abatere este exprimat n devia#ii standard (SD). Mai precis, nota standard arat cu cte devia&ii standard se abate un scor de la medie. S vedem, pe schema de mai jos, ce note standard corespund mediei, precum si limitelor de varia#ie, maxim si minim .

47

nlocuind datele n formula (4) constat m c mediei i corespunde mereu (oricare ar fi ea si orice am m sura) scorul standard Z = 0. Similar, limitei minime de varia#ie tipic i corespunde scorul standard Z = -1 , iar limitei maxime de varia#ie normal i corespunde nota standard Z = +1. Acum putem stabili ni$te reguli simple, care ne permit s stabilim imediat ce fel de scor este x n raport cu o distribu#ie la care cunoa$tem media (m) $i abaterea sau devia#ia standard (SD) pe baza calcul rii scorului Z corespunz tor lui: un scor x va ficonsiderat "mic"n raport cu o distribu#ie la care cunoa$tem media $i devia#ia standard, dac scorul s u Z va fi mai mic dect -1; un scor x va fi considerat "mediu" n raport cu o distribu#ie la care cunoa$tem media si devia#ia standard, dac scorul s u Z va fi cuprins n intervalul [-l, +11]. un scor x va fi considerat "mare" n raport cu o distribu#ie la care cunoa$tem media si devia#ia standard, dac scorul s u Z va fi mai mare dect +1. Din regulile de mai sus deducem prima func#ie pe care o joac scorurile Z: aceea de a compara un scor cu o distribu#ie la care cunoa$tem parametrii (media si devia#ia standard), cu alte cuvinte de a preciza dac un scor este mic, mediu sau mare. Interesant este de $tiut c notele Z arat nu numai pozi#ia unui scor fa# de o distribu#ie, dar $i de cte ori acel scor este mai mare sau mai mic dect media (#innd cont $i de variabilitate). Spre exemplu, dac scorurile la un test de inteligen# ntr-o popula#ia sunt descrise de media m=100 $i devia#ia standard SD=15, o persoan considerat "de dou ori mai de$tept ca ceilal#i" nu va avea un coeficient de inteligen# de 200, cum am fi tenta#i s credem la prima vedere (inteligen#a nu e o constant , nu?), ci doar unul de 130 (Z = +2; adic el se abate de la medie cu dou devia#ii standard n plus). Compararea a dou distribu&ii diferite Dar notele Z mai au o func#ie: aceea de a compara scorurile aceleia$i persoane ob#inute la probe diferite.
EX: O educatoare vine la psihologul gr dini#ei afirmnd c un copil din clasa ei este handicapat $i ar trebui transferat la o alt gr dini# , cu program special. Psihologul nu poate da o recomandare f r investigarea prealabil a copilului. Astfel, el/ea i aplic copilului o prob de inteligen# (ex. testul WISC - Wechsler Intelligence Scale for Children) $i o prob de interac#iuni sociale (ex. de cte ori copilul ia ini#iativa n timp de o or atunci cnd se joac cu al#i copii). Pot fi rezultatele de la cele dou probe comparate sau considerate mpreun ? Scorurile lor brute nu pot fi comparate direct (la urma urmei, ele m soar lucruri diferite, nu?), dar scorurile lor standard - da.

S presupunem c la testul WISC, copii de vrsta subiectului investigat n exemplul de mai sus ob#in n general media ml=60 cu o devia#ie standard de SD1=14. Copilul investigat de psiholog ob#ine la aceast prob scorul x l =81. Dac transform m acest scor n not standard, conform formulei (4), ob#inem nota Z 1=1,5. Ea ne spune c , comparativ cu ceilal# i
48

copii, copilul nostru este de 1,5 ori mai inteligent. Deci problema mizat de educatoare nu se g se$te la nivelul inteligen#ei. La proba de interac#iuni sociale s presupunem c distribu#ia scorurilor n popula#ia de copii pre$colari are urm torii parametri: m2 = 16 si SD2 = 4, care arat num rul de ini#iative ntr-o or dejoac cu al#i copii. Aplicnd proba copilului investigat ob#inem scorul x2 = 8. Exprimnd acest scor brut n scor standard ob#inem valoarea 72=-2. Deci, din punct de vedere al interac#iunilor sociale, copilul nostru este de dou ori mai timid, mai pu#in sociabil. ntruct notele Z arat raporturi si sunt adimensionale (ele nu depind de ceea ce m sur m), putem s calcul m un scor Z total, al celor dou probe. Astfel Z=Z1+Z2 ne ofer valoarea Z=-0,5. Acest scor standard fiind unul mediu (cuprins n intervalul -1/+1) ne permite s afirm m c subiectul investigat este normal pe ansamblu si nu necesit o educa#ie special . Cauza problemelor sale sociale poate fi n cadrul familiei sau poate c st n marginalizarea sa de c tre educatoare.

Corela*ia
Cunoa$te#i c a doua func#ie a scorurilor Z este de a compara scorurile ob#inute de aceea$i persoan la probe diferite (v mai aminti#i de exemplul cu copilul considerat handicapat de educatoare?). S vedem cum putem s ne folosim de aceast func#ie pentru a studia rela#ia dintre dou variabile.
Caz: Un psiholog de la o firm este interesat s stabileasc dac ntre num rul de subordona#i $i gradul de stres al managerilor exist vreo leg tur . Pentru aceasta alege 6 manageri de la diferite departamente ale firmei, aplic un chestionar care m soar stresul $i apoi m soar c#i subordona#i are fiecare dintre managerii ale$i. Ob#ine tabelul de rezultate de mai jos, unde xl este scorul la chestionarul de stres $i x2 este num rul de subordona#i.

X1 9 11 6 14 12 2

X2 18 29 11 35 25 8

Observa#i c numerele din cele dou coloane, nu numai c sunt diferite ca ordin de m rime (prima coloan nu dep $e$te valoarea 20, iar a doua are aproape toate scorurile mai mari de aceast valoare), dar ele m soar n plus lucruri diferite. Cum am putea atunci s le asociem? Cel mai bine ar fi dac am transforma aceste scoruri brute (x1 $i x2) n note Z (Zi$i Z2). Atunci, fiecare not Z ar ar ta pozi#ia scorului n cadrul distribu#iei din care face parte $i putem apoi compara pozi#ia scorurilor (adic s vedem, spre exemplu, dac scorurile "mici"
49

de la o variabil sunt asociate scorurilor "mici" la cealalt variabil , iar scorurile "mari" celor "mari"). Pentru aceasta avem nevoie de tabelul de mai jos, dup ce n prealabil am calculat mediile celor dou variabile. Astfel, avem ml=9, iar m2=21. X1 9 11 6 14 12 2 X2 18 29 11 35 25 8 X1-m1 0 +2 -3 +5 +3 -7 X2-m2 -3 +8 - 10 +14 +4 -13 (X1-m1)2 (X2-m2)2 0 9 4 64 9 100 25 196 9 16 49 169 Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75 Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35

SS1= 96, iar SS2=554. Putem calcula apoi varianta si devia#ia standard. Astfel, SD1=4, iar SD2=9,60. Avnd valorile mediei si devia#iilor standard putem completa ultimele dou coloane ale tabelului. Urm ri#i cu aten#ie si compara#i ultimele dou coloane ale tabelului. Ce fel de scoruri avem n ele. Conform semnifica#iei scorurilor Z putem s "reformul m" ultimele dou coloane astfel: Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75 Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35 Semnifica*ia lui Z1 Scor mediu Scor mediu Scor mediu Scor mare Scor mediu Scor mic Semnifica*ia lui Z2 Scor mediu Scor mediu Scor mic Scor mare Scor mediu Scor mic

Observ m astfel c pare s existe o rela#ie ntre cele dou variabile: ntlnim cam acelea$i tipuri de scoruri la ambele variabile (scoruri mici asociate cu scoruri mici, iar cele mari); singurul caz n care nu avem aceast "potrivire" este la managerul al treilea, care are scoruri de tipuri diferite. Pe ansamblu ns putem spune c exist o rela#ie. Cum putem face s ilustr m mai u$or rela#ia ce exist ntre cele dou variabile? Cum am putea avea doar un singur num r care s ne arate aceast rela#ie? Simplu, nmul#ind scorurile Z $i apoi adunndu-le. n acest fel, dac ele sunt de acela$i tip (ambele pozitive sau ambele negative) rezultatul acestei opera#ii va fi pozitiv, dac ele sunt de tipuri opuse (unul negativ $i altul pozitiv) - rezultatul va fi unul negativ, iar dac nu exist o tendin# de asociere, atunci num rul ob#inut va fi apropiat de zero. S proced m n consecin#
50

Z1 0 +0,50 - 0,75 +1,25 +0,75 - 1,75

Z2 - 0,31 +8,83 - 1,04 +1,45 +0,41 - 1,35

Z1*Z2 0 0,41 0,78 1,81 0,30 2,36 , (Z1*Z2) = 5,66

Adunnd aceste produse (Z1*Z2) ob#inem num rul 5,66. ns acest num r nu este suficient pentru a ar ta rela#ia de care avem nevoie. De ce? Pentru c el depinde ntr-o oarecare m sur de num rul de perechi de cazuri pe care le-am luat n calcul. Gndi#i-v c el ar creste dac am fi aplicat m sur torile folosind 10 manageri n loc de 6. Ca s nu mai depind acest num r de num rul de cazuri, trebuie s diviz m suma ob#inut prin N. Si astfel, ob#inem formula corela#iei Pearson: r=

(Z1* Z 2)
N

(5)

n cazul nostru, r=0,94. Coeficien#ii de corela#ie au valori cuprinse ntre -l (care arat existenta unei leg turi perfect si invers propor#ional ntre variabile), O (care arat independen#a total a variabilelor luate n analiz ) $i +1 (care arat existen#a unei leg turi perfecte, direct propor#ional ). Acum calcula#i singuri coeficientul de corela#ie dintre greutatea (n kg.) si n l#imea (n cm.) colegilor din subgrupa voastr .

Folosirea SPSS: meniul ANALYZE - CORRELATE BIVARIATE


Corela#ia este o metod statistic descriptiv , ntruct ea descrie ce se petrece ntr-un grup de rezultate, "cine cu cine merg mpreun ", dar nu arat o rela#ie cauzal . Pentru a putea exemplifica cum folosim SPSS pentru calculul corela#iei, avem nevoie de o baz de date. A$a c vom lucra cu o baza de date pe care o vom crea acum, dar care va fi similar cu cea denumit "fra#i", pe care am creat-o n primul capitol. Vom deschide programul SPSS si vom introduce datele n computer, ca n tabelul de mai jos:

51

QI1 109 101 104 106 112 115 116 109 115 121 120 113 102 104 106 104 108 106 106 124

QI2 110 102 103 106 115 115 119 104 121 110 123 111 114 101 106 106 109 105 107 103

Sex 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2

Reamintim c datele arat coeficientul de inteligen# m surat la perechi de fra#i (primul n scut - QI1 si al doilea n scut - QI2) de acela$i sex. Salva#i baza de date cu numele corei". Folosi#i pentru aceasta butonul de salvare sau comanda SAVE din meniul FILE. Observa#i c am codificat sexul subiec#ilor folosind cifrele l" (pentru feminin") si 2" (pentru masculin"). Aceste cifre sunt la libera noastr alegere, ele fiind pur si simplu coduri si f r s aib semnifica#ia de num r (adic , n acest caz l nu este de dou ori mai mic dect 2, ci pur si simplu un alt cod). La fel de bine puteam s avem 23 si 68, n loc de l si 2. n programul SPSS, aceast baz de date ar trebui s arate astfel, dup ce defini#i n prealabil si numele variabilelor:

52

n cazul n care avem variabile categoriale sau independente (variabile care arat categorii de scoruri, cum ar fi sexul subiec#ilor, mediul de provenien# , zilele s pt mnii, categorii de vrst , tipuri de boli, etc.), este indicat s definim aceste categorii pentru a ne u$ura munca de analiz a rezultatelor si pentru a nu uita care scoruri corespund fiec rei valori (n cazul nostru care sunt rezultatele femeilor si care sunt ale b rba#ilor). Definirea valorilor se face din perspectiva VARIABLE VIEW activat din josul paginii (revede#i primul capitol dac a#i uitat cum se face acest lucru). Odat activat perspectiva VARIABLE VIEW, pe ecran va apare imaginea:

Observa#i c n dreptul variabilei SEX, pe coloana VALUES avem men#iunea NONE. Aici trebuie s definim noi valorile acestei variabile (adic s asociem codurile l si 2 cu cele dou sexe). Pentru aceasta executa#i un click pe coloana VALUES n dreptul variabilei SEX. Va apare fereastra de mai jos:

Observa#i c butonul AD s-a activat dup ce a#i scris. Drept urmare el trebuie apsat pentru a activa codul $i eticheta astfel alese.Dup apsare fereastra va arta ca n imaginea urmtoare:

53

Se observ c 1 este un cod care are semnifica#ia feminin $i nu semnifica#ia sa obi$nuit de numr. La fel se procedeaz $i pentru cellalt cod, ca n imaginea de mai jos:

Reveni#i apoi n perspectiva DATA VIEW. Constata#i c nu apare nici oschimbare vizibil . Si totu$i, dac dori#i s vizualiza#i etichetele alese, activa#i comanda VALUE LABELS din meniul VIEW, ca mai jos:

Astfel, pe ecran va aprea eticheta aleas, n dreptul variabilei SEX:

54

S vedem acum cum calcul m corela#ia cu ajutorul programului SPSS. Toate prelucr rile statistice se fac, reamintim, din meniul ANALYZE. De aici alegem comanda CORRELATE, op#iunea BIVARIATE (adic corela#ia ntre dou variabile), ca n imaginea urm toare:

Activarea comenzii va deschide o fereastr din care putem alege op#iunile ca n imaginea de mai jos:
1 2 3 4

S analiz m pu#in fereastra: (1) - este, ca de obicei, cmpul ce prezint variabilele din baza de date (2) - este cmpul n care introducem variabilele de analizat. Aten#ie! Putem introduce aici mai mult de dou variabile, chiar dac metoda se cheam BIVARIATE. Programul va calcula apoi corela#iile ntre toate variabilele, luate dou cte dou . (3) - de aici putem selecta tipul corela#iei pe care dorim s -1 folosim. Ele au la baz diferite formule. Corela#ia PEARSON se folose$te pentru date parametrice (rezultate din m sur tori ce au la baz scale ordinale, de interval sau de raport). Corela#iile Kendall si Spearman sunt folosite pentru variabile categoriale, ordinale sau atunci cnd datele noastre se abat puternic de la distribu#ia normal .
55

(4) - permite selectarea pragului de semnifica#ie n func#ie de tipul ipotezei de cercetare. Recomandarea mea este ns s folosi#i totdeauna pragul bidirec#ional, TWOTAILED, pentru a avea mai mult ncredere n rezultatele astfel ob#inute. (5) - bifarea acestei op#iuni (care este activ din start) face ca n dreptul corela#iilor ce sunt semnificative s apar un asterisc (*). Introduce#i variabilele pentru analiz , ca n imaginea de mai jos:

Pute#i folosi butonul OPTIONS pentru a solicita programului s fac o mic analiz descriptiv a rezultatelor sau pentru a preciza cum s trateze valorile lips.

Observa#i n imaginea de mai sus c exist dou modalit #i de a trata valorile lips (cmpul MISSING VALUES). Prima op#iune (EXCLUDE CASES PAIRWISE) exclude de la analiz perechile de rezultate pentru care nu avem una din valori, n timp ce a doua op#iune (EXCLUDE CASES LISTWISE) exclude de la analiz un rnd ntreg din baza de date dac doar una din valori lipse$te. De obicei, mai frecvent este prima op#iune, cea care si este activ din start. Ap sa#i CONTINUE si apoi butonul OK. Programul va deschide automat fereastra OUTPUT unde v sunt prezentate rezultatele.
56

S vedem acum n ce mod se citesc si se interpreteaz informa#iile de pe ecran, n primul rnd, observa#i dispunerea rezultatelor: ele seam n cu datele despre distan#a dintre ora$e pe care le g sim n mod obi$nuit n agende. Pe rndul orizontal de sus sunt a$ezate toate variabilele alese pentru corela#ie (a$a cum erau scrise ora$ele ntre care calculam distantele n agende); pe vertical , de asemenea avem toate variabilele. Corela#ia dintre dou variabile se cite$te la intersec#ia numelor lor pe vertical $i orizontal (la fel cum citeam distan#ele). Desigur, ntre o variabil $i ea ns $i nu putem avea corela#ie (de fapt ea exist , dar are valoarea l , adic corela#ie perfect pozitiv ), fapt observat prin absen#a lui p (despre p vom discuta ulterior), deci nu vom lua n seam corela#iile de pe aceast diagonal . Mai observa#i c ceea ce se g se$te n dreapta diagonalei este identic cu ceea ce se afl n stnga ei (adic corela#ia dintre variabilele A $i B este aceea$i cu cea dintre variabilele B $i A).

Prag de semnifica*ie
S coment m pu#in ce este pragul de semnifica&ie. n statistic , avem nevoie s generaliz m concluziile studiilor, chiar $i ale acelora descriptive, cum este corela#ia. Astfel, ne intereseaz s vedem dac rela#ia g sit de noi (la un grup de oameni) poate fi extins la ntreaga popula#ie. Mai precis, ne intereseaz s $tim n ce m sur rezultatele noastre se datoreaz ntmpl rii $i n ce m sur - nu. Ei bine, acest p (prescurtare de la procent) ne arat n ce m sur ne n$el m atunci cnd afirm m ceva (n cazul corela#iei: c exist o leg tur ntre dou sau mai multe variabile). n cercetarea $tiin#ific se lucreaz de obicei cu dou praguri de semnifica#ie, corespunz toare procentajului de eroare: pragul de 0,01 (1% eroare) $i pragul de 0,05 (5% eroare).Cnd folosim unul sau altul? S lu m un exemplu.
Exemplu: S presupunem c sunte#i angajat de un mp rat despotic ca $i prezic tor oficial. mp ratul se folose$te de "puterile" voastre pentru a-$i impresiona supu$ii, n general, atunci cnd facem predic#ii se pot ntmpla patru situa#ii, conform tabelului de mai jos: 57

Predic#ia evenimentului

Apare Nu apare

Evenimentul Apare Nu apare Corect Eroare 1 Eroare 2 Corect

Observa#i c sunt dou situa#ii n care putem s gre$im: (I) afirmm c un eveniment se produce cnd n realitate nu se produce; (II) - afirmm c un eveniment nu se produce atunci cnd el se produce. Cnd va fi mpratul mai suprat c gre$im? R: n situa#ia (I); atunci el apare prost n ochii supu$ilor s i, mai mult dect n situa#ia (II). De altfel, dac sunte#i aten#i, situa#ia (I) corespunde cu minciuna, iar situa#ia (II) - cu ignoran#a. 'i n $tiin# exist aceste dou situa#ii n care noi putem gre$i. Deoarece prima gre$eal are consecin#e mai grave, prefer m n cazul acesta pragul de semnifica#ie de 0,01; dac dorim ns s avem mai multe $anse n a demonstra ceva $i consecin#ele nu sunt a$a grave n caz de gre$eal , atunci prefer m pragul de eroare de 5%, deci un p=0,05 n concluzie, vom considera un test statistic ca fiind semnificativ dac pragul de semnifica#ie este mai mic sau egal cu valoarea 0,05. Interpretarea corela&iei Revenind la exemplul nostru (rezultatele, a$a cum sunt ele prezentate n SPSS) s vedem acum cum anume se interpreteaz corela#ia, cunoscnd si felul n care se interpreteaz pragul de semnifica#ie. Cele trei numere prezentate de computer la intersec#ia dintre numele variabilelor sunt, n ordine de sus n jos: coeficientul de corela*ie (n exemplul nostru r=0,50), pragul de semnifica*ie (n exemplul nostru p=0,02) si num(rul de subiec*i (n exemplul nostru, num rul 20). Trei sunt elementele ce conteaz n interpretarea corela#iei: pragul de semnifica*ie: dac este mai mic de 0,05, atunci putem considera c exist o rela#ie ntre variabilele studiate; n cazul nostru putem spune c exist o leg tur ntre coeficientul de inteligent al primului n scut si al celui de-al doilea n scut de acela$i sex. Reamintim c pragul de semnifica#ie arat probabilitatea de a gre$i atunci cnd afirm m c ntre variabile ar fi o leg tur . Deci el trebuie s fie ct mai mic pentru a putea face aceast afirma#ie. semnul corela*iei: arat natura leg turii care exist : direct propor#ional , dac semnul este pozitiv sau invers propor#ional cnd semnul este negativ, n cazul nostru, semnul este pozitiv, deci leg tura este direct propor#ional sau, dac interpret m folosind cuvintele: dac primul n scut are un coeficient de inteligen# ridicat, atunci exist tendin#a ca si al doilea s aib un coeficient similar, m(rimea absolut( a coeficientului: descrie t ria leg turii ce exist ntre variabile; se consider astfel c leg tura este slab dac valoarea absolut a lui r nu dep $e$te 0,30;
58

leg tura este de t rie medie la o valoare cuprins ntre 0,30-0,50 si vorbim de leg turi puternice dac m rimea absolut este mai mare de 0,50. n exemplul nostru, t ria leg turii este medie, pentru c nu dep $e$te cu mult valoarea de 0,50. Toate aceste elemente trebuie s apar n interpretare, pentru ca ea s fie complet . OBS: A#i observat c n interpretare am folosit cuvntul "exist( tendin*a". De ce? Pentru c rela#ia descoperit nu este ntlnit exact, n toate cazurile (nu uita#i c noi lucr m cu variabile, fenomene sociale care sunt influen#ate de mai mul#i factori), ci este vorba de o rela#ie probabilistic . 'i arunci, n ce m sur g sim rela#ia n realitate? Coeficientul de corela#ie ridicat la p trat ne indic propor#ia de variant explicat de rela#ia g sit , mai precis ce procentaj din popula#ia general prezint exact rela#ia, n cazul nostru, se observ c abia 25% din varia#ia observat n popula#ie o ntlnim n realitate, deci rela #ia g sit este prezent exact n acest mod (direct propor#ional) la 25% dintre fra#i.

Folosirea SPSS: meniul DATA - SELECT CASES


Uneori ne este util s select m anumite cazuri din popula#ie pentru a face o prelucrare statistic . Spre exemplu, crede#i c acela$i coeficient de corela#ie l vom g si n egal m sur si la femeile si la b rba#ii din studiul nostru? Nu, desigur. Spre exemplu, dac la o petrecere 25% dintre participan#i se mbat (astfel c toat lumea a avut impresia c "s-a b ut, nu glum !"), iar petrecerea a avut loc n trei camere, vom g si n fiecare din acele trei camere exact 25% de persoane n stare de ebrietate? Nu se poate $ti. Este posibil, dar la fel de bine, cei be#i se puteau g si doar ntre-o singur camer , nu-i a$a? La fel $i n exemplul nostru. Suntem interesa#i s vedem dac rela#ia dintre coeficien#ii de inteligen# a celor doi fra#i o g sim, s zicem, la subiec#ii de sex feminin? Pentru aceasta vom folosi comanda SELECT CASES din meniul DATA, ca n imaginea urm toare (aten#ie!, pentru a avea meniul DATA activ, trebuie s reveni#i la perspectiva DATA VIEW. Face#i click pe numele fi$ierului din bara de sarcini situat la baza ecranului, cea care are butonul START n stnga sau activa#i numele fi$ierului din meniul WINDOWS).

59

Odat activat acest comand deschide fereastra:

Fereastra este organizat ntr-un mod tipic: are n partea stng variabilele din baza de date, iar n dreapta diverse op#iuni. Pe noi ne intereseaz doar op#iunea IF CONDITION IS SATISFIED, pentru c dorim s selectm cazurile care ndeplinesc condi#ia c pentru variabila SEX au valoarea 1 ( femeilor li s-a atribuit acest valoare n cadrul variabilei SEX). Prin urmare vom alege acest op#iune $i vom activa butonul IF care deschide fereastra urmtoare:

Aici, select m variabila SEX, o trecem n cmpul din dreapta cu ajutorul s ge#ii si ad ug m condi#ia SEX-1 (de la tastatur sau folosind butoanele din mijlocul ferestrei). Observa#i c putem scrie aici condi#ii mult mai complicate si putem folosi pentru aceasta diferite func#ii (precizate n cmpul FUNCTIONS din partea dreapt -jos a ferestrei). Ap sam apoi butonul CONTINUE, apoi pe OK si observa#i ce se ntmpl n fereastra SELECT CASES:
60

n dreptul butonului IF a ap rut condi#ia specificat de noi. Aten#ie! Ave#i grij ca n partea de jos a ferestrei n cmpul UNSELECTED CASES ARE s fie marcat op#iunea FILTERED si nu DELETED, altfel programul va $terge datele neselectate! Ap sa#i butonul OK si observa#i ce se ntmpl n baza de date:

Vede#i c apare o nou variabil la sfr$it, intitulat FILTER_$, dup care se realizeaz selec#ia. Mai observa#i c pe margine apar cazurile neselectate ca fiind "t iate", adic ele vor fi ignorate de la analiz , iar n partea din dreapta-jos a ecranului apare anun#ul FILTER ON, care v informeaz c selec#ia dup variabila filtru este activ . Aten*ie! Mul#i se a$teapt ca odat datele selectate computerul s efectueze $i analiza statistic dorit . Nu este a$a! Selectarea datelor nu implic si efectuarea analizei statistice! De aceea, dup ce a#i selectat, face#i din nou prelucrarea, n cazul nostru corela#ia. Pentru aceasta repeta#i pa$ii efectua#i anterior; adic activa#i comanda ANALYZE-CORRELATEBIVARIATE. Observa#i c variabilele se g sesc deja n rmpul pentru analiz . Ele au r mas a$a de la prelucrarea anterioar , a$a c nu r mne dect s ap sa#i butonul OK $i va apare rezultatul:
61

Interpreta#i singuri rezultatul astfel ob#inut, respectnd cele trei elemente ale interpret rii, n ce propor#ie rela#ia g sit o ntlnim n realitate la femei? Dup ce folosi#i acest "filtru" n prelucrarea statistic , este indicat s l dezactiva#i imediat pentru a nu-1 uita activ pentru alte prelucr ri la care nu ave#i nevoie de o analiz , doar pentru femei. Pentru dezactivarea selec#iei, merge#i din nou n meniul ini#ial DATA-SELECT CASES si n fereastra respectiv , n partea de jos, g si#i un buton denumit RESET (aten#ie! nu e butonul cu care reseta#i calculatorul). Ap sa#i-1 si indica#ia FILTER ON din dreaptajos trebuie s dispar , la fel si t ieturile" din partea stng a bazei de date, ceea ce indic faptul c acum analiz m toate cazurile.

Folosirea SPSS: meniul DATA - SPLIT FILE


Uneori ns dorim s vedem ce se ntmpl pentru fiecare subgrup de subiec#i n parte; n cazul nostru, de exemplu, dorim s $tim ce se ntmpl cu rela#ia g sit de noi n general nu numai la femei, ci si la b rba#i. Pentru a nu repeta comanda SELECT CASES de multe ori (imagina#i-v ce ar fi dac am avea o variabil de grupare legat de zilele s pt mnii: ar trebui s repet m comanda SELECT CASES de 7 ori) vom apela la o alt comand din meniul DATA (dup ce am revenit n prealabil n perspectiva DATA VIE W), anume SPLIT FILE, pe care o activ m ca n imaginea urm toare:

62

Odat activat, comanda SPLIT FILE deschide o fereastr precum cea de mai jos, de unde putem alege op#iunea noastr:

Dintre op#iunile din dreapta alegem ORGANIZE OUTPUT BY GROUPS si apoi, cu ajutorul s ge#ii, introducem variabila de grupare ( SEX, n cazul nostru) n cmpul GROUPS BASED ON. Dup ce ap sa#i OK. n partea dreapt -jos apare anun#ul SPLIT FILE ON, care v informeaz c baza de date este deja mp r#it dup condi#iile variabilei de grupare, ca n imaginea de mai jos:

La fel ca si n cazul comenzii SELECT CASES, simpla mp r#ire a bazei de date nu v asigur si prelucrarea statistic . De aceea, trebuie s face#i din nou corela#ia dup ce a#i mp r#it baza de date, pentru a vedea care este situa#ia n grupul de femei $i n cel de b rba#i. Pe ecran va apare OUTPUT-ul:

63

Interpreta#i rezultatele astfel ob#inute! Observa#i c rela#ia g sit ini#ial apare doar pentru subiec#ii de sex feminin $i nu pentru cei de sex masculin! Cum pute#i interpreta aceste rezultate? Ce a#i putea spune unor p rin#i care v-ar ruga s preciza#i cum va fi al doilea n scut al lor (mai inteligent sau mai pu#in inteligent), dac primul lor n scut este foarte inteligent, precoce chiar?

Folosirea SPSS: meniul GRAPHS SCATTER


Rela#ia dintre dou variabile poate fi reprezentat grafic sub forma unui nor de puncte. Practic, graficul l alegem din meniul GRAPHS, comanda SCATTER, care deschide fereastra:

De aici trebuie s select m tipul graficului pe care dorim s -1 facem, n cazul nostru dorim un grafic simplu, car s arate rela#ia dintre dou variabile. Observa#i c op#iunea SIMPLE este deja selectat (conturul mai gros din jurul op#iunii).

Apsm apoi butonul DEFINE, care deschide urmtoarea fereastr:

64

Cele dou variabile se introduc n cmpul cu cele dou axe (nu conteaz prea mult care variabil se introduce pe care ax ) $i apoi se apas OK. nainte de asta ns dezactiva#i comanda DISPLAY GROUPS DEFINED BY MISSING VALUES din butonul OPTIONS a c rui fereastr este prezentat mai jos:

65

Graficul va apare astfel:

Graficul corela#iei este un nor de puncte cresc tor (de la stnga-jos spre dreapta-sus) dac rela#ia este pozitiv sau direct propor#ional . Dac rela#ia ar fi fost invers propor#ional , norul ar fi fost orientat descresc tor (din stnga-sus spre dreapta-jos). n cazul n care nu ar fi nici o rela#ie, punctele ar fi fost distribuite uniform pe grafic.

66

ELEMENTE DE STATISTIC INFERENTIAL - sau cum s( vedem dac( BOABELE DE FASOLE sunt fierte CUPRINS: Distribu#ia normal Etapele test rii unei ipoteze. Testul Z pentru a compara un caz cu o popula#ie cunoscut - Testul Z pentru a compara un e$antion cu o popula#ie cunoscut - Testul t pentru a compara un e$antion cu o popula#ie la care $tim doar media Folosirea SPSS: meniul ANALYZE - COMPARE MEANS '- ONESAMPLE T-TEST Folosirea SPSS: meniul TRANSFORME - RECODE

Cnd nu amestec m bine legumele din oal


Anul 1948 a fost un an nefast pentru cele mai mari trei institute de sondare a opiniei publice n Statele Unite: Gallup, Crossley $i Roper. Toate trei au prezis victoria n alegerile preziden#iale a a republicanului Dewey fa# de Truman, democratul. Rezultatul a infirmat toate prezicerile: Truman a c$tigat alegerile, victoria sa punnd sub semnul ntreb rii modalitatea de e$antionare folosit . Ce se ntmplase de fapt? Pn atunci, institutele de sondare a opiniei publice foloseau o metod de e$antionare pe cote". Fiec rui operator de teren i se aloca un num r fix de interviuri pe care trebuia s -1 realizeze $i i se d dea libertatea s aleag persoanele intervievate, cu condi#ia s respecte anumite categorii sociale (vrst , sex, status economic, ras , etc.). Nimeni nu a realizat atunci c republicanii aveau $anse mai mari dect democra#ii s fie ale$i n interviurilor pentru c ei erau mai u$or de g sit; aveau telefon mai frecvent dect democra#ii, tr iau n case mai bune, etc.). Acest fapt a distorsionat rezultatele sondajelor din 1948 n ciuda faptului c au fost folosi#i zeci de mii de subiec#i (e\. Gallup a intervievat 50.000 persoane). De atunci, sondajele nu au mai gre$it att de grosolan, chiar dac e$antioanele folosite de institute nu dep $esc de regul cteva mii de persoane. Spre exemplu, e$antionul reprezentativ folosit ast zi de institutul Gallup num r aproximativ 4100 persoane, e$antion reprezentativ pentru cele 300 milioane de americani. Metoda de e$antionare folosit azi este probabilistic $i porne$te de la principiul c fiecare cet #ean cu drept de vot trebuie s aib aceea$i probabilitate de a fi selectat pentru interviu. Astfel, erorile n predic#ie nu vor fi mai mari de 3%. Metoda ini#ial folosit pn n 1948 era ca $i cum, dorind s vedem dac legumele din oal sunt fierte, nu am amesteca bine con#inutul $i le-am lua n lingur doar pe cele mai fierte sau mai pu#in fierte.

67

Distribu*ia normal(
Lumea n care tr im nu este constant , ci mai degrab variabil . Cu toate acestea ea nu este haotic . Deci variabilitatea de care vorbeam urmeaz totu$i ni$te reguli care pot fi modelate matematic. S lu m un exemplu. S presupunem c arunca#i o greutate de mai multe ori $i m sura#i distan#a la care o arunca#i. Desigur c aceasta va varia; cteodat ve#i arunca mai departe, alteori - mai aproape. F cnd m sur torile, ve#i observa o distan#e medie la care a#i aruncat mai des, dar $i abateri de la ea. Mai mult, dac ar fi s desen m un poligon al frecven#elor, care s arat de cte ori am aruncat greutatea la o anume distan# am observa c el ar avea forma unui clopot r sturnat (numit adesea distribu#ie gaussian ) precum n imaginea de mai jos.

Aceast distribu#ie are o descriere matematic foarte precis , dar nu este scopul manualului de fa# de a o detalia (exist de altfel suficiente lucr ri de statistic matematic care pot fi consultate pentru doritori). Ceea ce este importat de re#inut este faptul c dac fenomenul social observat este aleatoriu si este urm rit o perioad de timp mai ndelungat , atunci distribu#ia rezultatelor se face dup curba normal , iar acest lucru poate fi demonstrat matematic. Dar nu este scopul volumului de fa# de a face acest lucru. Unele caracteristici ale curbei normale Atunci cnd am men#ionat prima dat poligoanele de frecven# care arat distribu#ia rezultatelor, am precizat c exist trei parametri, trei caracteristici prin care este descris orice distribu#ie, pe care i reamintim n continuare: modalitatea - este un aspect important al distribu#iei care arat cte "vrfuri" are o distribu#ie. Cu alte cuvinte, arat cte valori sunt n jurul c rora se grupeaz foarte mul# i subiec#i. Din acest punct se vedere, distribu#iile pot fi unimodale, adic au un singur vrf, sau ele pot fi multimodale, adic au mai multe vrfuri. nclinarea - este un aspect al distribu#iei care arat dac scorurile subiec#ilor testa#i au tendin#a de a fi mai mari sau mai mici. Spre exemplu, notele $colare au o distribu#ie nclinat spre dreapta, adic elevii au tendin#a de a lua mai mult note mari dect note mici. Atunci cnd nclinarea curbei este spre dreapta, spunem c avem o distribu#ie nclinat pozitiv. Atunci cnd distribu#ia este nclinat spre stnga, spunem c aceasta este negativ . Dac nu se observ nici o tendin# de nclinare, atunci distribu#ia este simetric .
68

turtirea- este un aspect ce se refer la faptul dac o distribu#ie este foarte turtit (adic scorurile din cadrul ei variaz foarte mult) sau este mai ascu#it (adic scorurile variaz foarte pu#in). Din perspectiva celor trei parametri, curba normal este unimodal , simetric si mediu turtit . n plus, curba normal mai posed anumite propriet #i speciale. Astfel, maticienii au pus la punct formule care permit calcularea diferitelor suprafe #e ale curbei, iar acestea sunt foarte importante pentru statisticieni. Pentru a n#elege mai u$or despre ce este vorba, s lu m drept exemplu distribuirea rezultatelor la un test de inteligen# . Aceste teste sunt construite astfel nct la aplica #ii repetate, pe multe persoane, distribu#ia rezultatelor s fie normal , n plus, ele sunt astfel construite ca media rezultatelor s fie 100, iar abaterea sau devia#ia standard s fie de 16 puncte. S analiz m pu#in aceast distribu#ie, care e prezentat n imaginea urmtoare:

Scoruri brute Scoruri Z

68 -2

84 -1

100 0

116 +1

132 +1

distribuirea normal a rezultatelor ob&inute la un test de inteligen&

ntruct distribu#ia normal este simetric , exact 50% din cazuri vor avea scoruri sub valoarea medie (scorul 100); mai mult, aproximativ 34% din cazuri se vor afla ntre medie si o abatere standard la stnga sau la dreapta. De altfel, dac urm ri#i cu aten#ie forma curbei normale ve#i constata prezen#a unor puncte de inflexiune", adic puncte n care linia curb $i modific forma (mai precis, tangenta la curb trece din exterior spre interior sau invers). Ei bine, aceste puncte corespund tocmai devia#iilor standard. Dar la ce ne folose$te cunoa$terea acestor procentaje? In exemplul cu testul de inteligen# cunoscnd c rezultatele se distribuie normal vom $ti c 34% dintre oameni au scorul cuprins ntre medie (100) $i o devia#ie standard deasupra sau dedesubtul acestei valori. 'tiind c devia#ia standard e 16 $tim astfel c 34% dintre indivizi vor avea scorul cuprins ntre 100 $i 116 (cei cu IQ situat deasupra mediei) sau ntre 84 $i 100 (cei cu IQ situat dedesubtul mediei). Observa#i de asemenea c si mai pu#ine cazuri sunt mai dep rtate de medie; mai precis, abia 16% din cazuri vor avea scoruri mai mici sau mai mari de o devia#ie standard. Cu alte cuvinte, numai 16% dintre oameni au coeficientul de inteligen# mai sc zut de 84 sau mai ridicat de 116. Mai mult, doar aproximativ 2% dintre indivizi vor avea scoruri $i mai
69

extreme, mai mici sau mai mari dect dou devia#ii standard fa# de medie (adic sub 68 sau peste 132). Observa#i astfel c exist o strns leg tur ntre scorurile standard (notele z) $i diferite procentaje sau frecven#e relative. Cunoscnd nota z a unui subiect $i $tiind c rezultatele la prob se distribuie normal, putem cunoa$te cu precizie c#i indivizi din popula#ie au scoruri mai mici sau mai mari dect al subiectului investigat. Orice manual de statistic are la sfr$it un tabel care permite calcularea acestor procentaje cu precizie, n acel tabel, pentru fiecare not z, este precizat un procent, care arat c#i subiec#i au scorurile cuprinse ntre medie si nota z c utat de noi. S lu m un exemplu. S presupunem c o persoan ob#ine la testul de inteligen# scorul 125. $tiind c media la test este 100 $i devia#ia standard 16, putem calcula u$or nota z a acestui subiect care este 1,56 - din formula: (l25-100)716 (dac a#i uitat formula de calcul a notelor z $i semnifica#ia lor, re vede#i capitolele anterioare). Dac vom consulta unul din tabelele de care aminteam anterior, vom vedea n dreptul lui 1,56 valoarea 44,06%. Aceasta nseamn c de la medie (100) $i pn la scorul nostru (125) sunt 44,06% dintre subiec#i. Aceasta arat c doar 5,94% dintre indivizi vor avea scoruri mai mari (50%-44,06%) $i 94,06% (50%+44,06%) vor avea scoruri mai mici dect subiectul ales de noi. Popula*ie si e&antion. Logica inferen*ei statistice. V vom introduce acum n domeniul inferen#ei statistice pornind de la exemplul cu fiertul boabelor de fasole. S presupunem c fierbem fasole; la un moment dat lua#i cteva boabe ntr-o lingur $i vede#i dac ele sunt fierte, tr gnd apoi concluzii despre cum sunt fierte toate fasolele din oal . n acest exemplu, fasolele din oal reprezint popula#ia (ntregul set de obiecte sau lucruri care ne intereseaz ), iar cele din lingur - e$antionul (un subset la care avem de fapt acces), n ce m sur ns sunte#i sigur c $i restul oalei de fasole are acelea$i calit #i ca si boabele pe care le gusta#i? Pentru a vedea cum se realizeaz inferen#a statistic , vom lua cel mai simplu exemplu, testul z pentru a compara un singur caz cu o popula#ie a c ror parametri sunt cunoscu#i. Exemplul are la baz urm toarea istorioar (adaptat dup Aron & Aron,1995):
Un grup de farmaci$ti au sintetizat o vitamin care se presupune c accelereaz procesele de asimila#ie la copii nou-n scu#i, astfel c ace$tia vor cunoa$te o dezvoltare mai rapid . Unul dintre efecte este sc derea vrstei la care copii ncep s mearg . Farmaci$tii au dorit s omologheze vitamina, dar Ministerul S n t #ii din Statele Unite le-a cerut s demonstreze c ntr-adev r vitamina-lor accelereaz mersul copiilor. Pentru aceasta farmaci$tilor li s-a dat voie s o administreze numai unui singur copil nou-n scut, ales aleatoriu din popula#ie. Copilul respectiv, dup administrarea vitaminei a mers la vrsta de 8 luni. Pot farmaci$tii s sus#in c vrsta precoce la care a mers copilul se datoreaz vitaminei lor $tiind c vrsta la care merg copii prima dat , n popula#ia normal este de 14 luni, cu o abatere standard de 3 luni? n ce m sur se poate afirma c efectul ob#inut se datoreaz vitaminei $i nu altor factori?

Pentru a r spunde cu dovezi statistice la o astfel de ntrebare, trebuie s facem apel la distribu#ia normal a variabilei alese n cadrul popula#iei si s respect m anumite etape n
70

ra#ionamentul nostru. Prezent m n continuare curba normal corespunz toare vrstei de debut al mersului la copiii din popula#ia normal .

Scoruri Z

8 luni -2

11 luni 14 luni 17 luni 20 luni -1 0 +1 +2

distribu&ia normal a vrstei de debut a mersului la copil

n primul rnd, trebuie s vedem care e semnifica#ia procentajelor prezentate pe curba normal . Pe de o parte, ele arat - a$a cum precizam anterior - c#i subiec#i din popula#ii normal au scoruri cuprinse ntre anumite valori. De exemplu, n cazul de fat , 34 dintre copii ncep s mearg ntre 11 si 14 luni (de la medie la o abatere standard spre stnga), sau 16% (14%+2%) dintre copii merg dup vrsta de 17 luni (scoruri situate peste valoarea unei abateri standard). Pe de alt parte, aceste procentaje pot fi privite si ca prob abilit #i. De exemplu care este probabilitatea ca, alegnd un copil la ntmplare, el s mearg ntre 11 si 14 luni? R spunsul este 34% (adic procentul de copii care merg n mod normal ntre aceste vrste). Sau: care este probabilitatea ca un copil ales la ntmplare s mearg mai #ra de 17 luni? R spunsul este: 16%. Observa#i c am subliniat faptul c acel copil trebuie ales la ntmplare (ceea ce nseamn c el nu e supus unor condi#ii speciale de cre$tere L altfel aceste procente nu pot fi considerate drept probabilit #i. S revenim la exemplul nostru cu farmaci$tii. Reamintim c dup ce copilul, ala la ntmplare, a luat vitaminele el a mers la vrsta de 8 luni. S vedem acum, care este probabilitatea ca n condi#ii normale f r vitamine - un copil s mearg la 8 luni sau mai devreme de aceast vrst ? Observa#i c vrsta de 8 luni corespunde pe curba normal unui scor z = -2 si c doar 2% dintre copii merg nainte de aceast vrst n condi#ii normale. Deci, probabilitatea ca un copil, ales la ntmplare din popula #ie, s mearg f r nici un ajutor extern, f r nici o condi#ie special nainte de 8 luni este de 2%. O probabilitate foarte mic , nu? n exemplul nostru, copilul a mers la 8 luni dup ce a luat vitaminele. Deci putem respinge argumentul c vitamina nu a avut efect si s accept m faptul c ea a avut ntr71

adev r un efect (probabil c mai trebuie s citi#i aceast propozi#ie nc o dat ). In ce m sur a avut vitamina efect? In propor#ie de 98%. Cum judec m? Dac f r vitamin doar 2% dintre copii mergeau pn la 8 luni,probabilitatea ca acel copil investigat de farmaci$ti s fac parte dintre ace$ti copii precoce era de 2%. Numai atunci ne-am n$ela n concluzia noastr cnd din ntmplare am da tocmai peste un astfel de copil precoce. Ar fi ca si cum am dori s test m efectul unei b uturi alcoolice asupra unei persoane care ar fi deja n stare de ebrietate; atunci nu ne-am mai putea da seama ct din starea sa se datoreaz b uturii testate si ct se datoreaz st rii sale ini#iale, ntruct n cazul de fa# avem 2% $anse s d m peste un copil precoce, aceast valoare arat care este de fapt probabilitatea de eroare. Deci vom avea dreptate n propor#ie de 98%. Acesta este un exemplu despre logica inferen#ei statistice. Este necesar s -1 aprofunda# i pentru a n#elege mecanismul care st la baza test rii ipotezelor n $tiin#ele sociale. Etapele test rii unei ipoteze. Testul Z pentru a compara un caz cu o popula#ie cunoscut Vom descrie etapele test rii unei ipoteze folosind exemplul de mai sus, cu vitaminele. Reamintim c scopul farmaci$tilor era s demonstreze c prin administrarea vitaminelor, copiii care le iau vor merge mai devreme dect cei care nu le iau. Sunt cinci etape n procesul test rii unei ipoteze. 1.- Reformularea ntreb rilor termenii ipotezelor de cercetare si de nul. O ipotez , n statistic , este o afirma#ie despre parametrii unei popula#ii, pentru c scopul inferen#ei statistice este s descrie popula#ii pornind de la e$antioane. Dou sunt ipotezele cu care lucr m: ipoteza de cercetare (notat( H1): este o afirma#ie generalizat la popula#ia supus investig rii, n cazul nostru, HI este c vitamina va accelera mersul tuturor copiilor care o iau sau - cu alte cuvinte - to#i copiii care vor lua vitamina vor merge mai devreme dect cei care nu o vor lua. ipoteza de nul (notat( H0): este de fapt ceea ce noi test m n realitate si descrie situa#ia de la care se porne$te, situa#ia n care interven#ia nu ar avea nici un efect, n cazul de fa# , H0 afirm c vitamina nu va accelera mersul copiilor care o iau, cu alte cuvinte, copiii care iau vitamina vor merge la fel ca $i cei care nu o iau. Observa#ii c cele dou ipoteze sunt mutual exclusive: dac una este adev rat , atunci cealalt este fals . Mai mult, ipoteza de nul se consider implicit adev rat . Inferen#a statistic se face cu referire la ea, iar probabilit #ile statistice (pragurile de semnifica#ie) care nso#esc orice test statistic fac referire tocmai la ipoteza de nul. S facem acum o mic incursiune n logica simbolic (nu da#i pagina $i nu trece#i mai departe, nu e o chestie prea dificil pentru voi!). Exist o regul n logic numit modusponens. Vom lua exemplul clasic: A-B A B Dac cineva este om (A), atunci (,) el este muritor (B). Socrate este om. De aceea, Socrate este muritor.
72

Ra#ionamentul de mai sus este perfect rezonabil, nu? Dar exist o gre$eal care apare frecvent n legtur cu acest ra#ionament, eroare numit afirmarea consecin#ei. Ea este: A-B A B Dac cineva este om (A), atunci (,) el este muritor (B) Iat ceva ce este muritor. De aceea, acel ceva este un om.

Constata#i c un astfel de ra#ionament e gre$it, pentru c acel ceva poate fi orice fiin# vie (ex. un m gar). Dac vom exprima ra#ionamentul de mai sus n termenii celor dou ipoteze statistice, eroarea va apare astfel: A-B B A? Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare. Probabilitatea este mare. De aceea H0 este adevrat.

Ceea ce este gre$it. Dar exist o solu#ie pentru aceasta pe care tot logica ne-o pune la ndemn: regula denumit modus tolens. A-B non B non A Dac cineva este om (A), atunci (,) el este muritor (B) Iat ceva ce nu este muritor. De aceea, acel ceva nu este un om.

Aceasta este o interferen# valid, care se folose$te de disconformare. n termenii ipotezelor statistice vom avea: A-B non B nonA Dac H0 este adevrat atunci probabilitatea sau pragul statistic (p) este mare. Probabilitatea nu este mare.( deci p, pragul de semnifica&ie, este mic). De aceea H0 este fals.

'i dac ipoteza de nul este fals , atunci cea de cercetare este adev rat . Acesta este modul n care ne confirm m ipotezele n statistic si n cercetare n general. Apropo, aceasta este si ideea ce st la baza filosofici $tiin#ei a lui Karl Popper: c progresul n $tiin# se ob#ine numai prin disconfirmare. ncheiem aici incursiunea noastr n logica simbolic $i v reamintesc c rolul acestei prime etape este doar stabilirea celor dou ipoteze. 2.- Stabilirea caracteristicilor distribu&iei de comparat (cea specificat prin ipoteza de nul) Dup ce am stabilit ipotezele si popula#iile la care fac ele referire, trebuie s ne stabilim cadrul de referin# , distribu#ia de comparat, ntruct ceea ce test m noi este ipoteza de nul, evident c distribu#ia de referin# va fi cea a popula#iei corespunz toare ipotezei de nul. n exemplul nostru, ipoteza de nul este aceea c vitamina nu are nici un efect, deci copiii
73

care iau vitamina vor merge la fel de devreme ca si cei care nu o iau. Distribu#ia la care ne referim astfel este cea a vrstei de debut a mersului la copiii normali (care nu iau vitamina si nici nu urmeaz vreun altfel de tratament special), deci avem o distribu#ie normal , care are media 14 luni si abaterea standard de 3 luni. Faptul c $tim forma si parametrii distribu#iei la care ne referim ne permite s cunoa$tem tocmai probabilit #ile cu care diferite scoruri pot s apar atunci cnd alegem la ntmplare indivizi din aceast popula#ie. Pe acest fapt se bazeaz testele statistice. 3.- Determinarea pragului de semnifica&ie #i a zonei de respingere" a ipotezei de nul. n aceast etap trebuie s stabilim care sunt acele valori extreme care ne permit respingerea ipotezei de nul. Pentru aceasta trebuie s ne fix m un prag de semnifica#ie (o probabilitate) sub care s respingem ipoteza de nul, prag pe care l vom fixa pe curba normal corespunznd distribu#iei de comparat.

Scoruri Z

8 luni -2

11 luni 14 luni 17 luni 20 luni -1 0 +1 +2

distribu&ia normal a vrstei de debut a mersului la copil

Reamintim c sunt dou tipuri de praguri de semnifica#ie (am discutat despre ele n capitolul anterior), cel de 1% si cel de 5%. n cazul de fa# , cercet torii ar trebui s -$i aleag un prag de semnifica#ie mai strns, mai sever, pe cel de l % (consecin#ele n cazul unei erori sunt foarte mari). Din tabelele care nso#esc orice manual de statistic vom constata c punctului ce mparte distribu#ia normal n dou p r#i, una de 1% si restul de 99% i corespunde nota z - 2,33. n cazul nostru, vom avea z = -2,33 pentru c ne referim la cele mai mici l % dintre valorile popula#iei, cele marcate de s geat si ha$ur pe figura anterioar . Aceasta reprezint si zona de respingere a ipotezei de nul. Ce nseamn acest lucru? nseamn c dac n urma interven#iei noastre (vitamina) vom ob#ine un scor att de extrem nct el se va ncadra n aceast zon , atunci vom fi siguri c doar n 1% din cazuri el ar fi fost ob#inut dac ipoteza de nul ar fi fost adev rat , ntruct ipoteza de nul e adev rat n 1% din cazuri, atunci n 99% din cazuri ea poate fi respins si ipoteza de cercetare acceptat .
74

4.- Determinarea scorului e#antionului analizat n cadrul distribu&iei de comparat n aceast etap colect m datele de la e$antionul analizat $i localiz m scorul astfel ob#inut n cadrul distribu#iei de comparat. Revenind la exemplul nostru, farmaci$tii trebuie s m soare la ce vrst ncepe s mearg copilul ales pentru cercetare. El merge la 8 luni. ntruct distribu#ia este normal , iar notele z folosesc la a stabili pozi#ia unui scor ntr-o distribu#ie, trebuie s transform m aceast not brut n not standard, n exemplul nostru, dup cum observa#i $i pe curba normal trasat anterior, notei 8 i corespunde scorul z = -2. 5.- Luarea deciziei de acceptare sau respingere a ipotezei de nul. Acum, trebuie luat decizia. Compar m scorul ob#inut pentru zona de respingere a ipotezei de nul (z = -2,33) cu cel ob#inut n cursul cercet rii (z =-2). Pentru a respinge ipoteza de nul cu o probabilitate de eroare de doar 1%, noi ar fi trebuit s ob#inem un scor standard mai mic sau cel mult egal cu z =-2,33. Din datele noastre, observ m c scorul ob#inut este z = -2. n acest caz, nu putem respinge ipoteza de nul cu o probabilitate de eroare de 1%, deci farmaci$tii no$tri au e$uat n a demonstra eficacitatea vitaminei lor. Alt exemplu: S consider m un alt exemplu, pentru a n#elege mai bine $i a recapitula etapele test rii ipotezei. Exemplul are la baz povestioara:
Un ziar studen#esc afirm c studen#ii Universit #ii Al.I.Cuza" Ia$i au petrecut n luna martie 20 ore n medie la discotec , abaterea standard fiind de 3 ore. Deci, studen#ii petrec n medie ntre 17 $i 23 ore pe lun la discotec . Cunoscndu-i pe cei din c minul C12 din complexul Codrescu, un student la psihologie consider c cei din acel c min sunt mai petrec re#i, deci c ei petrec mai mult timp la discotec . A$a c alege la ntmplare un student din c minul C12 $i l ntreab ct timp a stat la discotec n luna martie 24 ore la discotec . Poate sau nu studentul nostru s afirme, cu o probabilitate de eroare de 5% c cei din C12 sunt mai petrec re#i dect cei din universitate n general?

Etapa I: ipoteza de cercetare (notat Hi):to#i studen#ii din C12 petrec mai mult timp la . discoteca dect cei din universitate, m general. ipoteza de nul (notat HO): studen#ii din C12petrec acela$i timp la discotec ca $i cei din universitate n general. Etapa II: Distribu#ia de comparat este una normal , care are media 20 ore $i abaterea standard de 3 ore. Etapa III: Pragul de semnifica#ie este de 5%, adic dorim s ne argument m sau sus#ine ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de
75

nul va ncepe de la z = +1,64 (valoare luat din tabelele cu note z din c r#ile de statistic , calculate pentru o propor#ie de 45% de cazuri de la medie). Pe curba normal am reprezentat zona de respingere printr-un cmp ha$urat. Deci, ca s respingem ipoteza de nul cu o probabilitate de 5% trebuie s ob#inem din datele noastre o not z de cel pu#in l ,64 sau mai mult.

14 ore

17 ore 20 ore 23 ore

26 ore

Etapa IV Culegem propriu-zis datele. Din exemplul oferit observ m c am ob#inut la ntmplare o not brut de 24 ore. Vom transforma aceast not brut n not standard, folosind formula (4) din capitolul anterior. Z= xm (4) SD

Astfel scorul Z pentru cazul nostru va fi: Z= Etapa V: Compar m acum nota astfel ob#inut (z=l,33) cu cea corespunz toare zonei de respingere a ipotezei de nul (z=l,64) si constat m c suntem n afara" acesteia (trebuia s ob#inem o not mai mare sau cel pu#in egal cu z=l,64). Astfel, nu putem respinge ipoteza de nul, deci nu putem demonstra c cei din C12 sunt mai petrec re#i. Ce s-ar ntmpla ns dac am lua n calcul nu un singur caz, ci un e$antion? De ce s nu ntreb m mai mul#i studen#i din C12 ct timp petrec la discotec ? S vedem ce se schimb n acest caz.
76

24 20 = +1,33 (4) 3

Testul Z pentru a compara un e&antion cu o popula*ie cunoscut( Vom utiliza aceea$i povestire ca si cea anterioar , doar c vom lua n calcul rezultatele a 10 studen#i ale$i la ntmplare din c minul C12. S presupunem c media celor 10 persoane este 23, deci cei zece studen#i petrec n medie 23 ore la discotec . Vom folosi tot testul z, doar c vom compara un e$antion cu o popula#ie. S vedem dac cele cinci etape se schimb cumva. Etapa I: ipoteza de cercetare (notat HO:to#i studen#ii din C12 petrec mai mult timp la discotec dect cei din universitate, n general. ipoteza de nul (notat H0): studen#ii din C12 petrec acela$i timp la discotec ca si cei din universitate n general. Observa#i c prima etap r mne neschimbat . Etapa II: Aici nu mai putem lucra cu aceea$i distribu#ie de comparat. De ce? Pentru c acum noi avem de comparat rezultatele unui e$antion de 10 persoane care se comport ca un grup, cu rezultatele ob#inute de studen#i, m sura#i ca indivizi izola#i. Ori a$a ceva nu este corect. S presupunem c avem n livad o gr mad de mere pe jos, de mai multe soiuri. Lu m la ntmplare o l di# cu mere. Nu putem compara caracteristicile l di#ei de mere (s zicem c avem n lad 80% mere ionatane $i 20% - mere parmen auriu) cu cele ale 'gr mezii de mere (mere care sunt fie ionatane, fie parmen auriu). Pentru a le putea compara, ar trebui s aranj m $i merele din gr mad n l di#e de aceea$i dimensiune. n acela$i mod, comportamentul grupului nostru de 10 studen#i trebuie comparat cu cel al altor grupuri similare. Astfel, distribu#ia noastr va fi o distribu#ie de e$antioane de cte 10 persoane, extrase din popula#ia de indivizi izola#i. Mai precis, noua distribu#ie va con#ine mediile tuturor acestor e$antioane, drept pentru care ea mai este denumit distribu#ie de medii. Care vor fi caracteristicile acestei noi distribu#ii, provenite din cea ini#ial ? Imaginea urm toare este sugestiv n acest sens:

20

77

Mai sus avem reprezentat popula#ia ini#ial , format din indivizi, care are o distribu#ie normal , cu media 20 ore si abaterea standard de 3 ore. Dac vom extrage din ea toate e$antioanele de 10 persoane (toate combina#iile posibile) si vom calcula media acestor e$antioane, apoi vom reprezenta grafic aceast nou distribu#ie, vom ob#ine distribu#ia de mai jos:

20

Observa#i c media acestei distribu#ii de medii este tot 20. Ceea ce se schimb este ns devia#ia sau abaterea standard. De ce? Explica#ia este simpl : comportamentul unui grup este totdeauna mai pu#in variabil dect comportamentul individual. Exprimat n termeni de probabilitate, probabilitatea ca ntr-un grup de 10 persoane extras la ntmplare, s avem cazurile cele mai extreme din popula#ie (indivizii cei mai petrec re#i, de exemplu) este foarte mic , dat fiind c ei nu sunt a$a numero$i n popula#ia ini#ial . Ct va fi abaterea standard a acestei noi distribu#ii? Matematicienii au calculat acest lucru pentru noi: dac extragem e$antioane de N persoane din popula#ia ini#ial , atunci varianta distribu#iei de e$antioane va fi de N ori mai mic dect varianta ini#ial . Varianta este p tratul devia#iei standard. Deci, varianta distribu#iei de medii va fi de 10 ori mai mic dect varianta distribu#iei ini#iale (care este 9), deci va avea valoarea 0,90. Dac varianta distribu#iei de medii este 0,90, devia#ia sa standard va fi r d cina p trat a acestei valori, deci va fi 0,94 (ore). Acum, avem toate datele pentru a stabili care va fi distribu#ia de comparat. Ea este o distribu#ie normal care are media 20 ore $i abaterea standard de 0,94 ore. Deci, grupurile de cte 10 studen#i petrec n medie 20 ore la discotec , cu o abatere standard de aproape o or . Etapa III: Pragul de semnifica#ie este de 5%, adic dorim s ne argument m sau sus#ine ipoteza de cercetare cu o probabilitate de eroare de 5%. Pentru aceasta zona de respingere a ipotezei de nul va ncepe de la z = +1,64 ca $i n exemplul anterior Deci, ca s respingem ipoteza de nul cu o probabilitate de 5% trebuie s ob#inem din datele noastre o not z de cel pu#in 1,64 sau mai mult. Dar, aten#ie, aceast zone de respingere este pe distribu#ia de medii, nu pe cea a indivizilor izola#i!
78

Zona ha$urat este zona de respingere.

Etapa IV Culegem propriu-zis datele. Din exemplul oferit observ m c am ob#inut la ntmplare o not brut de 23 ore. Vom transforma aceast not brut n not standard, folosind formula (4) din capitolul anterior. xm Z= (4) SD Astfel, scorul z pentru cazul nostru va fi: Z= 23 20 = +3,19 (4) 0.94

Aten#ie! Devia#ia standard folosit n formula de mai jos este cea a distribu#iei de medii! Etapa V Compar m acum nota astfel ob#inut (z=3,19) cu cea corespunz toare zonei de respingere a ipotezei de nul (z=l,64) si constat m c suntem n acest interval (cel ha$urat din imaginea anterioar ). Astfel, putem respinge ipoteza de nul, deci am demonstrat cu o probabilitate de eroare de 5% c cei din C12 sunt mai petrec re#i dect cei din universitate n general.

Testul t pentru a compara un e&antion cu o popula*ie la care &tim doar media


De cele mai multe ori ns , nu cunoa$tem to#i parametrii distribu#iei. Folosind exemplul de mai sus, cel cu studen#ii $i discoteca, s presupunem c citim n ziarul studen#esc numai faptul c n luna martie studen#ii de la Al.I.Cuza" au petrecut n medie 23 de ore la discotec , f r ca autorul articolului s precizeze abaterea standard. Ce facem n acest caz? Noi avem nevoie de abaterea standard pentru a cunoa$te to#i parametrii ce descriu curba normal . Sun m la redac#ie, dar afl m c ei nu mai dispun de datele brute. S-ar p rea c suntem ntr-o situa#ie f r ie$ire. Dar nu este a$a. E$antionul la care noi avem acces, cei 10 studen#i din c minul C12, fac $i ei parte din popula#ia tuturor studen#ilor de la Al.I.Cuza", nu? 'i atunci, probabil c o parte din caracteristicile acestui e$antion, mai ales cele referitoare la varianta sa, se vor reg si $i n popula#ia ini#ial , nu? E ca si cum am lua ni$te boabe de fasole ntr-o lingur si, pe baza
79

calit #ilor lor, decidem c si cele din oal vor fi similare (la fel de fierte). Desigur c n popula#ia ini#ial variabilitatea este mai mare dect n e$antion, la fel cum n oal probabil c vom g si boabe mai fierte sau mai pu#in fierte dect cele din lingur . S vedem acum care etap se schimb n acest caz. Prezent m mai jos modalitatea de testare a ipotezei: Etapa I: ipoteza de cercetare (notat Hi):to#i studen#ii din C12petrec mai mult timp la discotec dect cei din universitate, n general. ipoteza de nul (notat HO): studen#ii din C12petrec acela$i timp la discotec ca si cei din universitate n general. Observa#i c prima etap r mne neschimbat . Etapa II: Aici, distribu#ia de comparat va fi una de medii, nu de indivizi, dup cum am v zut $i n exemplul analizat anterior, cnd cuno$team varianta popula#iei ini#iale. Aici apare ns problema estim rii distribu#iei ini#iale, mai precis a variantei sale. Pentru aceasta avem nevoie de datele brute ale e$antionului nostru. S presupunem c rezultatele celor 10 studen#i din c minul C12 sunt urm toarele: X 18 25 23 20 21 28 26 23 25 21

Observa#i c media lor este aceea$i ca si n exemplul anterior, m=23. Cum calcul m varianta? Vom folosi aceea$i metod ca $i cea prezentat ntr-unul din capitolele anterioare:

80

x 18 25 23 20 21 28 26 23 25 21

x-m -5 +2 0 -3 -2 +5 +3 0 +2 -2

(x-m)2 25 4 0 9 4 25 9 0 4 4

Ca s putem calcula varianta trebuie s calcul m S S (suma p tratelor abaterilor de la medie), n cazul nostru, adunnd coloana a treia vom ob#ine SS=84. Dac am dori s calcul m varianta din e$antion, ar trebui s mp r#im acest num r la 10 (num rul cazurilor). Aceast informa#ie, varianta e$antionului, este ceea ce ob#inem noi n lingur cnd vrem s vedem dac legumele din oal sunt fierte. Dar v reamintesc c noi trebuie s calcul m varianta popula#iei din care a fost extras, deci trebuie s estim m ce se afl n oal . Cum facem? Nu putem dect s estim m aceast valoare, f r a o putea m sura exact. O vom ob#ine astfel cu probabilitate, iar matematicienii au stabilit c varianta popula#iei din care provine un e$antion este cu pu#in mai mare dect cea a e$antionului. Mai exact, n loc s dividem SS la num rul de cazuri din e$antion, pentru a afla varianta popula#iei, vom mp r# i pe SS la N-l. Formula de calcul a variantei popula#iei va fi astfel: SS = N 1 Observa#i c am folosit litere grece$ti n loc de litere latine. Conven#ia n statistic este aceea ca parametrii popula#iei s fie nota#i cu litere grece$ti, iar cei ai e$antioanelor - cu litere latine. Deci n loc de m (pentru medie), vom nota media popula#iei cu - devia#ia standard n loc de SD se noteaz ., iar varianta n loc de SD2 se noteaz cu .2. 84 Varian#a popula#iei va fi astfel a = = 9,33 . Devia#ia standard n acest popula#ie va fi = 2 = 9,33 = 3,05 Popula#ia astfel estimat , care are media 20 ore si devia#ia standard de 3,05 ore va fi aproximativ normal . Am subliniat cuvntul aproximativ" pentru a reaminti c noi am estimat varianta acestei popula#ii, nu am m surat-o. Ca urmare, ea va fi aproximativ normal ; mai precis, ea va fi o distribu#ie simetric , unimodal , dar mai turtit dect cea normal . Aceast curb de distribu#ie este denumit curb t si a fost descris prima dat de William Gosset, un statistician care $i-a spus Student (despre care ve#i putea citi mai multe n povestioara de la nceputul capitolului urm tor) si care a inventat testul t. Faptul c este
81

mai turtit dect curba normal permite o ajustare a test rii ipotezei care #ine cont de m rimea e$antionului folosit n estimare. Astfel, cu ct vom avea un e$antion mai mare de pe baza c ruia estim m popula#ia, cu att vom avea o curb t mai apropiat de cea normal . Dar aceasta nu este dect popula#ia de indivizi, ori noi compar m un e$antion cu o distribu#ie de e$antioane (revede#i subcapitolul anterior dac a#i uitat de ea). Ca urmare, trebuie s compar m media e$antionului nostru cu o distribu#ie tot de medii, a unei popula#ii de e$antioane de zece persoane extrase din popula#ia individual . 'tim, din capitolul antenor, ca aceasta distribu#ie de e$antioane va avea aceea$i medie ca 2 2 ). si media de indivizi izola#i (X = 0), dar o variant de N ori mai mic ( m = N Am folosit indicii m pentru a distinge ntre popula#ia de indivizi si cea de e$antioane (medii). Astfel, nlocuind n formule, popula #ia de e$antioane va avea media 20 ore $i abaterea standard de 0,96 ore. n concluzie la aceast mai degrab lung etap a Il-a din testarea ipotezelor, s amintim c distribu#ia de comparat este n acest caz o distribu#ie t, de e$antioane, care are media 20 ore si abaterea standard de 0,96 ore. Etapa III n aceast etap ne stabilim pragul de semnifica#ie (5%) si zona de respingere a ipotezei de nul. Pn acum am folosit notele z si tabelele corespunz toare de la sfr$itul c r#ilor de statistic pentru a determina de la care valoare a lui z vom respinge ipoteza de nul. Dar cum acum nu mai avem o distribu#ie normal , va trebui s folosim alte note, notele t, care nu sunt altceva dect notele standard ale distribu#iei t. Fiind note standard, ele vor avea o formul similar , n cazul nostru: m m t= m n aceast formul , m reprezint media e$antionului nostru de zece studen#i (23 ore) -m este media popula#iei de e$antioane de 10 studen#i studen#e$ti de la Al.I.Cuza", iar am este devia#ia standard a popula#iei de medii sau a distribu#iei de e$antioane. Acest din urm termen mai este numit eroarea standard a mediei. Ce valoare vom lua n calcul pentru a stabili valoarea lui notei t de la care respingem ipoteza de nul? Depinde de num rul persoanelor din e$antion. S vedem cum arat un astfel de tabel, pe care orice manual de statistic l are la sfr$it. Prezent m mai jos un fragment:

82

(B)

(A)

df 1 2 3 4 5 6 7 8 9 10 11

.10 3.07 1.88 1,63 1.53 1.47 1.44 1.41 1.39 1.38 1.37 1.36

.05 6.31 2.92 2.35 2.13 2.01 1.94 1.89 1.86 1.83 1.81 1.79

.01 31.82 6.96 4.54 3.74 3.36 3.14 2.99 2.89 2.82 2.76 2.71

Dou sunt elementele care ne intereseaz pentru a determina valoarea lui t: (A)- gradul de libertate, (calculat dup formula df =N-l)Acesta arat num rul de observa#ii independente necesare pentru a determina omedie (dac cunoa$tem N-l scoruri si media, al al N-lea este determinat de primele, nu mai poate lua orice valoare), n cazul nostru df =9. (B)- pragul de semnifica#ie, stabilit de noi anterior la 5%. Valoarea lui t se va g si astfel n tabel la intersec#ia" acestor dou elemente. Constat m c t = l,83, deci zona de respingere a ipotezei de nul va fi reprezentat descorurile mai mn de aceasta valoare, a$a cum este reprezentat m figura de mai jos (zona ha$urat ):

Etapa IV: Este etapa culegerii datelor pentru a afla media e$antionului nostru (m=23) si a afla pozi#ia sa n cadrul popula#iei de e$antioane. Pentru a afla aceast din urm informa#ie, vom folosi formula pentru scorurile t (reamintim c lucr m cu o curb t si c notele standard n acest caz sunt note t): t= m m 23 20 = = 3,12 m 0,96

83

Etapa V: Pe baza notei t calculate n etapa anterioar (3,12) si a notei t care stabile$te zona de respingere a ipotezei de nul (1,83) vom trage concluzia cercet rii noastre, ntruct nota t a e$antionului se g se$te n zona de respingere (a se vedea imaginea urm toare), vom concluziona c , cu o eroare de 5% putem respinge ipoteza de nul, ceea ce nseamn acceptarea ipotezei de cercetare cu o aceea$i probabilitate de a gre$i.

3,13

n concluzie, putem afirma cu o eroare de 5% c cei din c minul C12 sunt mai petrec re#i dect studen#ii de la Universitatea Al.I.Cuza", n general.

Folosirea SPSS: meniul ANALYZE - COMPARE MEANS - ONE-SAMPLE T-TEST

S vedem acum cum reu$im s aplic m testul t pentru a compara un e$antion cu o popula#ie la care cunoa$tem doar media folosind programul SPSS. Introducerea teoretic expus anterior ($i pe care nu o vom mai repeta n cele ce urmeaz cu alte metode statistice) a avut rolul de a v familiariza cu logica test rii oric rei ipoteze. Prezent m n continuare baza de date cu care vom lucra mai departe si pe care trebuie s o introduce#i n programul SPSS (revede#i capitolele anterioare dac ave#i dificult #i n introducerea datelor):

84

Nota 8 7 7 8 9 10 5 4 7 7 8 9 6 9 8 10 8 7 10 7 8 7 8 9 8 7 8 10 10 5

Anx 6 7 5 5 6 7 5 6 7 6 5 4 6 4 5 7 8 5 5 6 4 2 3 4 2 3 4 5 3 2

Zi_exam 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Este vorba despre o cercetare n care psihologul a m surat gradul de anxietate al unor studen#i la un examen (variabila ANX, m surat pe o scal de la l - deloc anxios, la 9 - foarte anxios), precum si notele nregistrate de ace$ti studen#i la examen (variabila NOTA). Psihologul a mai nregistrat si ziua din s pt mn n care a avut loc examinarea (variabila ZI_EXAM, cu valorile l="luni" si 2="miercuri"). Observa#i c avem 30 de cazuri si nu uita#i s defini#i valorile l si 2 pentru variabila ZI_EXAM din coloana VALUES, perspectiva VARIABLE VIE W (a$a cum ar tam n capitolul anterior). Dup ce a cules datele $i le-a introdus n SPSS, psihologul a fost interesat s vad dac cei 30 de studen#i au ob#inut note mai ridicate dect 5. Cu alte cuvinte el dore$te s afle dac studen#ii investiga#i se deosebesc fundamental de o popula#ie studen#easc carear ob#ine media 5 la materia la care s-a dat examenul, ntruct accesul la o astfel de popula#ie
85

studen#easc este imposibil, deci nu putem m sura al#i parametri n afara mediei, trebuie s estim m variabilitatea sa, deci va trebui s aplic m testul t pentru a compara un e$antion cu o popula#ie, a$a cum am f cut anterior cu cei 10 studen#i $i timpul petrecut la discotec . Aplicarea testului t pentru a compara un e$antion se face din meniul ANALYZE, activnd comanda ONE SAMPLE T TEST, ca n imaginea de mai jos:

Odat activat comanda, pe ecran apare fereastra de mai jos:

2 1

Fereastra are elemente pe care le cunoa$tem din exemplele anterioare de folosire a programului SPSS, dar si elemente noi. Astfel: (1) - este cmpul cu variabilele prezente n baza de date; (2) - este cmpul unde vom introduce variabilele pentru analizat (folosind butonul cu s geat dintre cele dou cmpuri si selectnd anterior variabila/variabilele cu ajutorul mouse-ului); (3) - reprezint valoarea la care test m noi ipoteza de nul, este media popula#iei la care ne referim, cu care facem compara#ia e$antionului.
86

Observa#i un buton cu op#iuni (OPTIONS) n partea dreapt -jos a ferestrei. Activat, acest buton va deschide la rndul s u o fereastr precum cea de mai jos:

De aici putem modifica pragul de semnifica#ie (pentru 5% vom l sa 95% n cmpul CONFIDENCE INTERVAL, pentru un prag mai strns, de 1%, vom modifica valoarea din acest cmp la 99). Indicat este s nu modific m set rile din aceast fereastr . Ap sa#i CONTINUE si apoi butonul OK din fereastra principal . Programul va deschide automat o nou fereastr , n care v sunt prezentate rezultatele, ca n imaginea urm toare:

Observa#i c rezultatele sunt grupate n dou tabele. Unul con#ine elemente de statistic descriptiv (ONE SAMPLE STATISTICS), iar cel lalt cuprinde date despre testul t propriuzis.
87

S analiz m detaliat elementele OUTPUT-ului. (1) - n aceast celul este prezentat media e$antionului nostru, m=7,80; (2) - devia#ia standard a e$antionului investigat, SD=1,54, este trecut aici; (3) - ultima celul a acestui prim tabel cuprinde eroarea standard a mediei, mai precis devia#ia standard a popula#iei de e$antioane de cte 30 de subiec#i din care ar proveni un e$antion precum este cel investigat de noi, .m =0,28; (4) - este nota t a e$antionului nostru raportat la popula#ia de e$antioane care ar avea media - = 5 (valoarea la care ne raport m) $i abaterea standard .m = 0,28. Valoarea lui t=9,95 a fost ob#inut dup formula: m m 7.80 5 t= = = 9,95 0, 28 m (5) - aici sunt trecute gradele de libertate pentru care a fost calculat valoarea lui t $ i probabilitatea de respingere a ipotezei de nul; (6) - aici este trecut pragul de semnifica#ie real (numai primele trei zecimale). Pragul de semnifica*ie arat care este probabilitatea de a gre$i atunci cnd respingem ipoteza de nul, deci probabilitatea de a gre$i n sus#inerea ipotezei de cercetare, n exemplul nostru, valoarea p=0,000 nu arat c suntem perfec#i n ceea ce sus#inem (computerul nu a mai avut loc s arate toate zecimalele), ci doar c probabilitatea de eroare este foarte mic . ntr-un astfel de caz, atunci cnd raport m valoarea lui p vom scrie p<0,01" ar tnd c eroarea este mai mic de 1%; cnd avem un num r valid n dreptul lui p, vom trece primele dou zecimale. (7) - aici este pur $i simplu trecut diferen#a dintre media e$antionului nostru $i cea a popula#iei la care ne raport m (8) - reprezint intervalul de ncredere al diferen#ei dintre cele dou medii (7,80 $i 5) corespunz tor pragului de semnifica#ie de 5%. Cum se interpreteaz el? Diferen#a real dintre media popula#iei din care provine e$antionul investigat de noi $i cea a popula#iei de referin# se va g si n intervalul 2,22 - 3,37. Deci ntre cele dou popula#ii am fi g sit, cu o probabilitate de eroare de doar 5% m car o diferen# de 2,22 puncte $i una de cel mult 3,37. n interpretarea statistic a testului t, oricare ar fi tipul de test ales, elementele pe care ne baz m interpretarea sunt: pragul de semnifica*ie: care este probabilitatea de eroare atunci cnd accept m ca adev rat ipoteza noastr de cercetare. Pentru a ne confirma ipoteza de cercetare, pragul de semnifica#ie trebuie s fie mai mic sau cel mult egal cu 0,05; eroarea nu trebuie s dep $easc 5%. gradul de libertate: arat care este m rimea e$antionului pe care s-a f cut testarea ipotezei; cu ct este mai mare, cu att mai mult putem avea ncredere n rezultatele ob #inute, indiferent dac ele confirm sau nu ipoteza de cercetare. sensul diferen*ei: este dat de valoarea mediilor comparate $i arat n ce sens apare diferen#a (care medie este mai mare sau mai mic ). n exemplul nostru, diferen#a dintre medii este ob#inut n favoarea e$antionului nostru.

88

Valoarea testului - t(29)=9,95 - $i a pragului de semnifica#ie p<0.01, arat c aceast diferen# este semnificativ , deci studen#ii no$tri sunt semnificativ diferi#i de cei care ar avea media 5 la materia respectiv , deci ei provin dintr-o popula#ie diferit . Aceast concluzie poate fi afirmat cu o probabilitate de eroare mai mic de 1%.

Folosirea SPSS: meniul TRANSFORM RECODE


Ceea ce v prezent m n continuare nu se refer propriu-zis la prelucrarea statistic a datelor, ci la diferite opera#ii de transformare a variabilelor de care s-ar putea s avem nevoie pe parcursul analizelor noastre. Transformarea variabilelor nu nseamn modificarea datelor, ci realizarea unor combina#ii valide pe seama variabilelor existente. Recodificarea ntr-o variabil nou . Spre exemplu, s presupunem c pentru o analiz ulterioar am dori s mp rtim studen#ii din cercetarea descris mai sus n dou grupuri: pe de o parte pe cei care au luat 8 sau mai pu#in la examen, iar pe de alta pe cei care au luat peste 8. Cum facem? Va trebui s recodificm variabila NOTA ntr-o nou variabil , s-o not m NOTATIP, iar pentru aceasta vom folosi comanda RECODE - INTO DIFFERENT VARIABLE din meniul TRANSFORM. Prezent m n continuare meniul corespunz tor acestei comenzi:

Aceast comand va activa fereastra de mai jos:

2 3 89

S analiz m pu#in aceast fereastr : (1) - este cmpul ce con#ine variabilele din baza de date; (2) - este un buton ce activeaz diferite condi#ii (similar cu butonul IF descris n capitolul anterior la comanda SELECT CASES); (3) - este cmpul n care introducem numele noii variabile pe care dorim s o cre m. El se va activa imediat ce introducem o variabil n cmpul INPUT VARIABLE - OUTPUT VARIABLE; (4) - aici stabilim valorile noii variabile prin raportare la valorile vechii variabile. Selecta # i acum variabila NOTA, introduce#i-o n cmpul din dreapta, cu ajutorul butonului cu s geat de pe fereastr . Alege#i apoi numele noii variabile si ap sa#i butonul CHANGE. Ve#i constata astfel schimbarea care se produce, la fel ca n imaginea urm toare:

Odat ajun$i n etapa ilustrat de imaginea de mai sus, ap sam butonul OLD AND NEW VALUES pentru a stabili care sunt valorile pe care dorim s le recodific m in noua variabil . Ap sarea butonului deschide fereastra:
4 1

2 3

90

S analiz m mai am nun#it fereastra pentru a vedea cum o vom folosi: (1) - este op#iunea marcat implicit si care permite nlocuirea unei singure valori din vechea variabil cu una din noua variabil ; (2) - permite nlocuirea unui ntreg interval (la care cunoa$tem limitele inferioar si superioar ) cu o singur valoare; (3) - permite nlocuirea unui interval pornind de la valoarea minim pn la o valoare selectat de noi, inclusiv aceasta din urm , cu o valoare nou ; (4) - permite nlocuirea unui interval pornind de la o valoare selectat , exclusiv, pn la valoarea maxim cu o valoare nou ; (5) - este butonul folosit pentru a pune n leg tur dou valori, una de la vechea variabil cu una de la variabila nou definit . n cazul nostru, avem nevoie de op#iunile (3) si (4). Vom seta intervalul de la valoarea minim la valoarea 8 s aib valoarea l n noua variabil si intervalul de la 8 la valoarea maxim - valoarea 2, ca n imaginea de mai jos:

Dac am procedat corect, n final ar trebui s ob#inem fereastra urmtoare:

91

Ap sam butonul CONTINUE si apoi butonul OK pe fereastra principal . Observa# i apoi ce se ntmpl n baza de date:

Observa#i c variabila nou apare n stnga ultimei variabile din baza de date. Observa#i de asemenea si coresponden#a dintre valorile noii variabile si cele vechi (ex. c n dreptul studen#ilor care au note sub valoarea 8 apare valoarea l la variabila NOTATIP si valoarea 2 acolo unde notele sunt peste 8). Recodificarea aceleia#i variabile Alteori ne este util s recodific m o aceea$i variabil , f r a fi necesar s cre m una nou . Spre exemplu, s presupunem c nu avem nevoie de scorurile brute ob#inute de studen#ii din exemplul anterior la testul de anxietate (variabila ANX), ci de mp r#irea lor n dou grupuri, grupul de studen#i care nu sunt anxio$i (care au scorul mai mic sau egal cu 5) si cei c rora examenul le provoac anxietate (scorul la variabila ANX s fie mai mare ca 5). De obicei, o astfel de mp r#ire se face prin raportare la median . Meniul pentru aceast transformare este urm torul:

Comanda va fi activat din fereastra de mai jos:

92

Observa#i c aceast fereastr este asem n toare cu cea discutat anterior, cnd recodificam variabila sub un nume diferit. Mai mult, avem op#iuni mai pu#ine. Aici, singurul buton mai important, dar care exista si n cealalt fereastr , este butonul IF, descris mai jos:

Observa#i c alc tuirea acestei ferestre, activat de butonul IF este identic cu cea prezentat n capitolul anterior, pentru comanda SELECT CASES. De aceea, nu mai "prezent m detalii acum, mai ales c pentru exemplul de fa# nu avem nevoie de o parte din cazuri, ci dorim s le transform m pe toate.

93

Revenim la butonul OLD AND NEW VALUES care deschide fereastra:

Observa#i c aici, aceast fereastr este identic cu cea prezentat la comanda anterioar cnd recodificam variabila sub un alt nume. Diferen#a const aici c ne referim la valoarea 5 si nu la 8. Dup ce am efectuat modific rile dorite, ap sam CONTINUE si apoi OK n fereastra principal si vom constata faptul c valorile variabilei ANX au fost schimbate n baza de date n conformitate cu criteriile stabilite de noi:

Exerci#iu: Codifica#i $i variabila NOTA n acela$i fel.

94

TESTE DE COMPARA+IE (DIFEREN+ ) PENTRU VARIABILE CANTITATIVE (scale de interval sau de raport)
Cuprins: Compara#ia variabilelor cantitative Folosirea SPSS: meniul ANALYZE -COMPARE MEANS PAIRED SAMPLES T TEST Folosirea SPSS: meniul ANALYZE -COMPARE MEANS-INDEPENDENT SAMPLES T TEST Folosirea SPSS: meniul TRANSFORME COMPUTE

Gosset, statisticianul berar Cnd William S. Gosset a absolvit Universitatea Oxford cu o diplom n matematic $i alta n chimie, faimosul produc tor de bere Guinness din Dublin, Irlanda, c uta tineri savan#i pentru a produce bere dup metode $tiin#ifice, o premier n acele vremuri. Astfel, tn rul Gosset s-a trezit de pe b ncile $colii ntre cazane $i butoaie cu bere. Problema cu care se confrunta Gosset a fost aceea de a face berea ct mai pu#in variabil $i de a g si cauza erorilor (ex. de ce unele tran$e de bere nu aveau gustul a$teptat). Orice savant i-ar fi recomandat lui Gosset s realizeze experimente. Dar ce produc tor de bere $i permitea s cheltuie sume importante de bani pentru a supune experimentelor zeci de butoaie cu bere? Astfel, Gosset trebuia s se mul#umeasc cu cele cteva butoaie care d deau gre$ $i s calculeze probabilitatea ca un anumit soi de cereale folosit s fi cauzat eroarea. La asta se mai ad uga $i faptul c el nu avea nici o idee despre variabilitatea diferitelor soiuri de cereale (ex. poate regiunea n care cre$teau influen#a caracteristicile lor). Situa#ia 1-a for#at astfel pe Gosset s g seasc o metod simpl prin care s poat compara diferitele soiuri de bere, o formul pe care s-o poat #ine minte u$or $ i folosi adecvat. Pentru aceasta a trebuit s se descurce pe cont propriu. Pentru colegii s i de la fabrica de bere, el era un profesor de matematic ; pentru colegii s i de la Laboratorul Biometric al Universit #ii din Londra el nu era dect un simplu berar. For#at s aplice ce a nv #at n $coal la situa#iile ntlnite n fabrica de bere, Gosset a descoperit distribu#ia t $i a inventat testul t - simplicitatea ns $i - pentru situa#iile cnd avem e$antioane mici $i variabilitatea popula#iei este necunoscut . Cea mai mare parte din munca sa statistic s-a petrecut n biroul s u din curtea fabricii, printre butoaie $i anvelope uzate, n final, metoda sa a fost recunoscut $i foarte apreciat de comunitatea statistic dup ce - la insisten#ele unor editori - a publicat un articol despre metode de realizare a berii". Pn azi, cei mai mul#i statisticieni numesc testul t ca fiind testul lui Student" pentru c Gosset a scris articolul cu pricina sub numele anonim de Student"; firma Guinness n-ar fi admis niciodat c n butoaiele sale se poate produce bere proast !

95

Compara*ia variabilelor cantitative Cum men#ionam n primele capitole, variabilele sunt de mai multe tipuri, n func #ie de natura m rimii care variaz , ele pot fi cantitative si calitative. De fapt, dac facem referire la scalele de m sur cele mai cunoscute (nominal , ordinal , de interval si de raport), observ m c variabilelor calitative le corespund scalele de m sur nominal si ordinal , n timp ce variabilelor cantitative - scalele de interval si cele de raport. n psihologie, majoritatea variabilelor dependente pe care le m sur m sunt cantitative. Chiar si acele variabile care descriu calit #i psihologice sunt, pentru statistic , tot variabile cantitative, pentru c m rimea care variaz este o cantitate. Spre exemplu, variabile extrovesiune - introversiune nu este o variabil calitativ , a$a cum s-ar a$tepta un novice n ale psihologiei; oamenii nu se mpart n dou categorii: n introverti#i $i extraverti#i. Nu, mai degrab exist un continuum care are la cei doi poli tr s turile extreme, iar oamenii se situeaz undeva pe acest continuum:

introvertit

extravertit

De altfel, acest lucru este observabil si dac analiz m construc#ia instrumentului de m sur , a chestionarului care arat ct de introvertit sau extravertit este un individ, ntreb rile sunt acelea$i pentru ambele calit #i psihologice, ceea ce difer este r spunsul subiec#ilor," care sunt ruga#i s estimeze frecven#a cu care fac anumite comportamente (ex: De cte ori merge#i la petreceri?}, deci avem acela$i criteriu de varia#ie, un criteriu cantitativ. Dat fiind natura m sur torilor psihologice $i comoditatea folosirii scalelor de interval $i de raport (care ofer cele mai multe informa#ii), majoritatea metodelor statistice pe care le vom ntlni n psihologie sunt metode cantitative, care folosesc ca m sur tori dependente variabile cantitative, spre deosebire de sociologie, de exemplu, unde metodele sunt adaptate variabilelor ordinale sau nominale, folosite preponderent n sondajele de opinie. n capitolul anterior am v zut cum proced m atunci cnd dorim s compar m un individ sau un e$antion cu o popula#ie despre care cunoa$tem unele informa#ii (de obicei numai media). Situa#iile cu care ne confrunt m n viata de zi cu zi sunt ns de alt natur : de cele mai multe ori, noi compar m dou e$antioane ntre ele $i dorim apoi s generaliz m rezultatele la popula#iile din care provin aceste e$antioane, ntr-o astfel de situa#ie, nu cunoa$tem nimic despre popula#iile din care provin ele; nimic cu excep#ia datelor din e$antioane $i asta este suficient ca, aplicnd metoda dezvoltat de Gosset, s putem constata diferen#ele.

96

Compararea a dou( e&antioane perechi


Cea mai simpl situa#ie de comparare a e$antioanelor este situa#ia de tip test - retest, n care dorim s m sur m dac ceva se schimb ca urmare a unor interven#ii. Spre exemplu, m sur m pacien#ii nainte de terapie $i apoi i m sur m la ceva timp dup ce au nceput terapia pentru a constata dac tratamentul a avut vreun efect. Cum proced m ntr-o atare situa#ie? Care este ipoteza de nul $i care este popula#ia la care ne referim? S ne gndim pu#in. S presupunem c trat m pacien#ii de depresie. Noi nu cunoa$tem nici nivelul (media) depresiei popula#iei de pacien#i nainte de a veni la terapie ($tim doar media depresiei celor care au venit, nu a popula#iei din care ei provin) $i nici nivelul popula#iei dup terapie. Dar nici nu ne intereseaz acest lucru (!). Noi suntem de fapt interesa#i de diferen#a dintre cele dou popula#ii, oricare ar fi nivelul lor absolut. Este ca $i cum nu am cunoa$te adncimea unui ru, dar putem m sura totu$i nivelul de varia#ie al apei, dac plas m un reper pe mal. Deci ipoteza noastr de nul $i cea de cercetare trebuie s se refere tocmai la scorul diferentelor dintre cele dou m sur tori. Astfel, ipoteza de nul va fi aceea c nu exist nici o diferen# ntre m sur tori, deci media popula#iei de diferente va fi nul , iar ipoteza de cercetare va fi aceea c totu$i media diferen#elor nu va fi zero. Cum proced m mai departe? Noi avem rezultatele a dou e$antioane perechi (m sur torile nainte de terapie $i m sur torile dup terapie) $i ne raport m la o singur distribu#ie, cea a diferen#elor. Pentru a putea s facem aceast raportare ar trebui s avem tot un e$antion, acela al diferentelor. Astfel, vom crea un nou e$antion (este ca $i cum am recodifica variabilele) ale c rui scoruri vor fi tocmai diferen#ele dintre scorurile finale si cele ini#iale ob#inute de la pacien#ii no$tri. Astfel, ajungem n situa#ia dinainte, unde comparam un e$antion (acela al diferen#elor dintre scorurile finale $i cele ini#iale) cu o popula#ie la care cunoa$tem medie (media va fi 0 zero, conform ipotezei de nul c nu vor fi diferen#e semnificative). Aceasta este logica testului t pentru e$antioane perechi; similar vom judeca $i n cazul n care e$antioanele sunt independente. Nu vom mai insista asupra aspectelor teoretice, ci vom trece la aplica#iile practice folosind SPSS-ul.

Folosirea SPSS: meniul ANALYZE PAIRED SAMPLES T TEST

COMPARE

MEANS

Vom folosi un set de date pentru a putea s aplic m analizele statistice. Prezent m mai jos aceste date, preciznd c ele sunt imaginare si ar descrie salariul ini#ial, la angajare si cel dup cinci ani, pe care l aveau angaja#ii unei firme, n plus, n baza de date mai este trecut , ca variabil ce grupeaz subiec#ii, nivelul studiilor acestora.

97

Studii 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3

Sal_ini 158 165 145 189 198 197 168 201 185 156 175 198 199 201 201 220 210 214 205 301 332 341 221 206 298 301 332 358 598 654 214 258 245

Sal_fin5 268 198 158 199 201 220 205 203 185 168 178 201 203 225 260 280 274 298 305 582 542 392 445 401 502 403 503 402 854 954 425 725 625

Men#ion m c salariul este specificat n mii de lei. Valorile variabilei STUDII sunt: lprimare, 2-medii si 3-superioare. Aceste valori trebuie trecute n cmpul VALUES din perspectiva VARIABLE VIEW (revede#i primele capitole pentru aceasta). Scopul analizei noastre este de a argumenta statistic dac salariul dup 5 ani este semnificativ mai mare dect cel ini#ial, de la angajare. Ipoteza de nul este aceea c ntre cele dou m sur tori nu vom avea diferen#e semnificative, deci c salariul nu creste semnificativ. S vedem cum analiz m cu ajutorul programului SPSS. Pentru a activa comanda necesar analizei statistice deschidem meniul ANALYZE si alegem comanda PAIRED SAMPLES T TEST, ca n imaginea de mai jos:

98

Odat activat comanda se deschide urmtoarea fereastr:

1 3

Analiznd fereastra mai n detaliu vom constata urm toarele: (1)- variabilele existente n baza de date sunt trecute, ca de obicei la orice fereastra de analiz m SPSS, n acest cmp; (2) - cmpul de mai jos arat selec#ia curent , variabilele selectate pentru analiz . Aten#ie! Spre deosebire de alte analize, pentru acest test se selecteaz dou variabile (o pereche); selec#ia se face consecutiv. (3) - este cmpul unde se va introduce perechea de variabile pentru analiz . Dup selec#ie si introducere n cmpul de analiz , fereastra de mai sus ar trebui s arate precum cea urm toare:

99

Butonul OPTIONS este identic cu cel din fereastra testului t pentru compararea unui e$antion cu o popula#ie, discutat n capitolul anterior. De aici putem selecta intervalul de ncredere (stabilit implicit la 95%). Ap snd butonul OK, programul ncarc fereastra cu rezultate (OUTPUT) ca mai jos:
2 3 4 1 5

Output-ul este organizat n trei tabele. Prezent m detaliat primele dou : (1) - aici este trecut perechea de variabile analizat . Aten#ie! Pentru a putea face analiza, variabilele trebuie ntr-adev r s fie perechi". Asta nseamn pe de o parte c ele trebuie s provin de la aceea$i subiec#i, sau de la perechi de subiec#i care au o leg tur ntre ei (ex. fra#i). Pe de alt parte, ntruct facem diferen#a ntre variabile, ele trebuie s se m soare n acelea$i unit #i de m sur . (2) - n aceast coloan sunt trecute mediile celor dou e$antioane (3) - num rul de subiec#i luat n calcul la analiz din fiecare e$antion este reprezentat aici (4) - devia#iile standard ale rezultatelor fiec rui e$antion sunt trecute n aceast coloan .
100

(5) - aici sunt reprezentate erorile standard ale mediilor sau, mai precis, devia#ia standard a popula#iei de e$antioane de N subiec#i din care provin e$antioanele noastre n al doilea tabel al foii de rezultate este trecut rezultatul corela#iei dintre cele dou variabile. Astfel: (6) - arat coeficientul de corela#ie dintre cele dou variabile (7) - arat pragul de semnifica#ie al corela#iei, care este probabilitatea de eroare atunci cnd afirm m c ar exista o leg tur ntre variabilele analizate. Al treilea tabel con#ine propriu-zis date despre testul statistic. S -1 privim cu aten#ie si s -1 analiz m detaliat.
4 5 3

2 1

(1) - arat numele perechii de variabile luat n calcul. Observa#i c se ia n calcul diferen#a dintre salariul ini#ial si cel final (nota#i semnul minus ce exist ntre variabile, nu este o simpl liniu# ) (2) - aici este trecut media diferen#ei dintre mediile celor dou e$antioane, deci aici apare diferen#a dintre medii. Faptul c este o valoare negativ arat c salariul final este mai mare dect cei ini#ial. (3) - n aceast celul este trecut devia#ia standard a e$antionului rezultat din diferen#ele celor dou e$antioane. (4) - reprezint devia#ia standard a popula#iei de e$antioane de diferen#e de scoruri (revede# i partea teoretic de la nceputul capitolului dac v este neclar) (5) - reprezint intervalul de ncredere al diferen#ei dintre mediile celor dou e$antioane, apreciat cu o probabilitate de 95%. Cu alte cuvinte, folosind al#i 33 de subiec#i de la aceea$i firm diferen#a dintre salariile lor ini#iale si finale s-ar fi ncadrat cu o probabilitate de 95% n intervalul de ncredere. (6) - este valoarea testului t, de fapt nota t a e$antionului de diferen#e n cadrul popula#iei de e$antioane ob#inute prin diferen#a dintre scoruri. (7) - reprezint gradele de libertate pentru care a fost calculat nota t, deci arat caracteristicile curbei t la care ne-am raportat. (8) - arat pragul de semnifica#ie sau probabilitatea de eroare atunci cnd respingem ipoteza de nul. n cazul de fa# , valoarea sa foarte mic ne ndrept #e$te s respingem ipoteza de nul ntr-o foarte mare m sur .
101

Cum interpret(m rezultatele concret ob*inute? Vom spune c analiza statistic realizat a permis identificarea unor diferen#e semnificative ntre nivelul salariului dup cinci ani $i cel al salariului ini#ial; testul t pentru e$antioane perechi t(32)=5,31 pentru p<0.01 argumenteaz statistic aceast ipotez . Observa#i c am trecut valoarea absolut a testului t $i nu pe cea cu semnul minus. A$a se procedeaz n general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul n care facem diferen#a. A$a c trebuie s preciz m n interpretarea noastr n ce sens apare diferen#a; n cazul nostru trebuie s spunem c salariul final, dup cinci ani este mai mare semnificativ dect cel ini#ial. Acest fapt se observ din primul tabel unde sunt trecute mediile e$antioanelor. Si corela#ia joac rolul s u n analiza datelor de fat . Ea arat dac subiec#ii $i schimb ierarhia unii fat de al#ii, nu numai nivelul variabilei dependente de la o m sur toare la alta. Avem aici trei cazuri posibile: nu avem corela#ie semnificativ : n acest caz nu exist nici o leg tur ntre ierarhia subiec#ilor la prima m sur toare $i cea ob#inut la a doua m sur toare. Un astfel de rezultat, care arat c cele dou variabile perechi luate n calcul sunt independente una de alta, ar putea fi interpretat n sensul c diferen#ele ob#inute nu sunt sistematice, interven#ia noastr afectnd subiec#ii ntr-un mod oarecum haotic corela#ie semnificativ , pozitiv : este cazul pe care l avem de fa# . Arat faptul c ierarhia subiec#ilor se p streaz ntr-o oarecare propor#ie de la o m sur toare la alta (ex. chiar dac salariul final cre$te la toat lumea, cei care aveau salariul ini#ial mare comparativ cu restul, l vor avea mare $i n final, comparativ cu ceilal#i), n acest caz, am putea aprecia c interven#ia noastr (n cazul de fa# simpla trecere a timpului) afecteaz pe toat lumea n acela$i grad corela#ie semnificativ , negativ : ilustreaz inversarea ierarhiei subiec#ilor de la o m sur toare la alta; chiar dac nivelul general se schimb , cei care aveau scoruri ini#iale mici comparativ cu restul vor ajunge n final s aib scoruri mari fa# de ceilal#i $i invers. Un astfel de rezultat ar ar ta ca interven#ia este mai puternic la cei care aveau ini#ial scoruri mici, pattern ntlnit adesea n testele care m soar eficacitatea unor tratamente. Aten#ie! Testul t arat dac de la starea ini#ial la cea final se schimb nivelul general, n timp ce corela#ia arat dac avem n acela$i timp $i o schimbare de ierarhiei

Folosirea SPSS: meniul ANALYZE COMPARE MEANS INDEPENDENT SAMPLES T TEST


Este ideal situa#ia experimental unde subiec#ii sunt $i propriul lor grup de control (situa#ia test-retest). n alte situa#ii ns pur $i simplu nu avem cum s m sur m subiec#ii folosind metoda test-retest. De exemplu, folosind datele prezentate anterior, s presupunem c ne-ar interesa s vedem dac nivelul studiilor afecteaz c$tigul salarial. Cu alte cuvinte, ne intereseaz s vedem dac o variabil independent (n cazul de fa# nivelul studiilor) afecteaz sau influen#eaz o variabil dependent (venitul). Nu avem cum s m sur m c$tigul subiec#ilor sub forma test-retest, pe m sur ce ei trec da la un nivel de educa#ie la altul, deoarece o astfel de trecere este - de obicei - continu , f r pauze n cmpul muncii. Nici nu putem manipula direct variabila nivel de studii, putem cel mult s o invoc m , s o folosim pentru a mp r#i subiec#ii pe grupuri independente.
102

n acest caz avem nevoie de o alt metod , de testul t pentru e$antioane independente. Men#ion m c nu este necesar ca cele dou e$antioane s aib acela$i num r de subiec#i. Folosind SPSS, din meniul ANALYZE activ m comanda INDEPENDENT SAMPLES T TEST, ca n imaginea de mai jos:

Odat activat comanda , se va deschide fereastra:


2

S analizm aceast fereastr: (1) - este cmpul unde se afl toate variabilele existente n baza de date (2) - este cmpul unde vom introduce variabilele dependente (observa#i c putem introduce mai mult de o singur variabil , deci putem vedea simultan efectul unei variabile independente asupra variabilelor dependente). Re#ine#i c n acest cmp introducem ceea ce m sur m noi, variabila asupra c reia dorim s observ m influen#a variabilei independente. (3) - este cmpul unde se introduce variabila independent sau variabila de grupare, a c rei influen# va afecta variabila sau variabilele de m surat. (4) - variabilele independente sau de grupare au, de obicei, mai multe nivele de m sur , n cazul nostru, avem trei nivele, trei grupuri, corespunz toare celor trei nivele de studii
103

(primare, medii si superioare). Folosind butonul DEFINE GROUPS noi trebuie s preciz m doar dou dintre niveluri, ntre care dorim s facem diferentele. Odat activat, butonul DEFINE GROUPS deschide fereastra de mai jos:

S presupunem c dorim s facem diferen#a ntre c$tigul salarial al celor cu studii primare si al celor cu studii medii, n c su#ele corespunz toare grupurilor, vom trece valorile variabilei independente care definesc acele grupuri. Astfel, vom trece l pentru cei cu studii primare (a$a i-am definit cnd am introdus datele) $i 2 pentru cei cu studii medii. V reamintesc c aceste valori (l $i 2) nu sunt numerice; pur $i simplu ele sunt dou coduri ce permit diferen#ierea celor dou grupuri. Noi puteam s fi avut orice alte dou numere diferite. Dup ce vom introduce valorile corespunz toare grupurilor ap sa#i butonul CONTINUE $i observa#i ce se schimb n fereastra ini#ial :

Abia acum se activeaz $i butonul OK, care va deschide urmtorul OUPUT:


1 2 3 5 4

10 11

9 104

S analiz m rezultatele n detaliu, rezultate prezentate n doar dou tabele: (1) - arat variabila dependent (salariul ini#ial) care este analizat n func#ie de nivelurile sau grupurile determinate de cea independent (studii) (2) - arat num rul de subiec#i din fiecare grup independent luat n calcul (3) - ilustreaz media fiec rui grup sau e$antion independent luat n calcul, n cazul de fa#a putem observa cat c$tiga cei cu studii primare $i cat c$tiga n medie cei cu studii medii. (4) - arat care este devia#ia standard n fiecare e$antion n parte. Observ m astfel c exist o mai mare varia#ie a c$tigurilor pentru cei cu studii medii dect pentru cei cu studii primare (5) - precizeaz care este devia#ia standard pentru popula#iile de e$antioane de N subiec#i din care ar proveni grupurile noastre. Observa#i $i aici diferen#e ntre cele dou grupuri. Facem aici o mic $i necesar interven#ie, prin care s ar t m ct de importante sunt informa#iile de la punctul (4) $i (5), f cnd apel din nou la exemplul cu oala de fasole S presupunem c dorim s ar t m c dou soiuri de fasole, (s zicem albe $i negre) fierb diferit. Cum proced m? Le punem pe amndou n aceea$i oal , le fierbem un timp, apoi lu m ntr-o lingur boabe din ambele soiuri (dup ce amestec m n prealabil foarte bine) $i gust m. Dac vom sim#i diferen#e (adic cele dou soiuri de fasole se sfarm diferit), atunci concluzion m c ele fierb diferit. E corect ra#ionamentul? Par#ial, pentru c diferen#e privind consisten#a boabelor puteau exista de la nceput (un soi s fie mai tare dect cel lalt, nefiert). 'i atunci? Ar trebui s #inem cont de acest fapt cumva. n acest punct vom folosi testul lui Levene (punctele 6, 7 $i 8 din explica#iile ferestrei) care testeaz egalitatea variantelor popula#iilor din care provin e$antioanele noastre (prezentat la punctul 5 din explica#ii). Testul lui Levene, notat cu F, testeaz ipoteza de nul care afirm c variantele popula#iilor din care provin cele dou e$antioane sunt egale. S continu m cu explica#iile ferestrei de OUTPUT: (6) - precizeaz cele dou situa#ii posibile: cnd variantele sunt egale sau cnd ele sunt inegale; (7) - arat valoarea testului F, a lui Levene (vom discuta despre aceasta la capitolul despre analiza de variant ) (8) - arat pragul de semnifica#ie sau probabilitatea de eroare pentru respingerea ipotezei de nul n cazul testului lui Levene. n exemplul nostru, ntruct valoarea este mai mic de 0,05, ipoteza de nul a egalit #ii variantelor este respins , deci putem accepta faptul c variantele nu sunt egale. Ajun$i aici $tim dac va trebui s ne uit m n continuarea tabelului pe primul sau pe al doilea rnd (aceste situa#ii/rnduri sunt descrise la punctul 6 al explica#iilor), n cazul nostru, ne vom uita pe rndul EQUAL VARIANCES NOT ASSUMED, adic ne afl m n situa#ia cnd cele dou e$antioane provin din popula#ii cu variant diferit . (9) - este valoarea testului t. Ea se ia n considera#ie n valoarea absolut $i aceasta se raporteaz n cercet ri; semnul notei t arat pur $i simplu sensul diferen#ei, dar de acesta din urm ne putem da seama uitndu-ne la valoarea mediilor celor dou e$antioane. (10) - arat gradele de libertate pentru care a fost calculat semnifica#ia notei t. Aceast valoare se raporteaz n articolele $tiin#ifice ntre paranteze. Chiar ' dac ne uit m pe linia EQUAL VARIANCES NOT ASSUMED, unde avem valoarea lui df=12,26, de obicei se raporteaz prima valoare a lui df, cea care este 20. (11) - aici este trecut pragul de semnifica#ie sau probabilitatea de eroare care apare atunci
105

cnd respingem ipoteza de nul $i accept m ipoteza noastr de cercetare, n cazul de fa# vom avea p=0,005. Aceast valoare arat faptul c exist o probabilitate de 5 la mie de a gre$i atunci cnd respingem ipoteza de nul, deci putem accepta ipoteza de cercetare cu aceea$i probabilitate de eroare Cum interpret m rezultatele concret ob#inute? Vom spune c analiza statistic realizat a permis identificarea unor diferen#e semnificative ntre nivelul salariului ini#ial la cele dou grupe de subiec#i sau, altfel spus, c variabila nivel de studii influen#eaz nivelul salarial ini#ial; testul t pentru e$antioane independente t(20)=3,45 pentru p<0.01 argumenteaz statistic aceast ipotez . Observa#i c am trecut valoarea absolut a testului t $i nu pe cea cu semnul minus. A$a se procedeaz n general, semnul plus sau minus pe care-1 poate avea nota t fiind determinat de sensul n care facem diferen#a. A$a c trebuie s preciz m n interpretarea noastr n ce sens apare diferen#a; n cazul nostru trebuie s spunem c salariul ini#ial al celor cu studii medii este semnificativ mai mare dect al celor cu studii primare. Acest fapt se observ din primul tabel unde sunt trecute mediile e$antioanelor. Ca exerci#iu, demonstra#i aceea$i ipotez n leg tur cu salariul final, dup 5 ani.

Folosirea SPSS: meniul TRANSFORM COMPUTE


Uneori, pe parcursul prelucr rii datelor este necesar s lucr m cu o combina#ie format din variabilele deja existente n baza noastr de date. Spre exemplu, dac vom aplica testul 16PF (un inventar de personalitate) si vom introduce n computer datele brute (r spunsurile subiec#ilor la cele peste 400 si ceva de ntreb ri), va trebui s grup m cumva aceste ntreb ri pentru a ob#ine scorurile pentru cei 16 factori m sura#i de test. Programul SPSS ofer o comand complex care este folosit tocmai pentru astfel de transform ri. O vom folosi ilustrativ n cele ce urmeaz . S presupunem c , folosind baza de date discutat anterior, ne-ar interesa c$tigul salarial mediu din cei cinci ani. Cu alte cuvinte, ar trebui s cre m o nou variabil n baza noastr de date care s fie media salariului ini#ial si a celui final, dup cinci ani. Pentru aceasta vom activa comanda COMPUTE din meniul TRANSFORME, ca n imaginea de mai jos:

106

Odat activat aceast comand va deschide o fereastr de unde vom putea face orice combina#ii din variabilele deja existente n baza de date. Fereastra este prezentat n continuare:
4 1 2 5 6

S analiz m aceast fereastr n detaliu: (1) - este manele noii variabile. Nu trebuie s dep $easc 8 caractere si nu trebuie s con#in caractere speciale (ex, spa#ii, virgule, etc.)- i alegem dup dorin#a. (2) - folosind acest buton vom activa o fereastr de unde putem modifica tipul noii variabile si putem atribui o etichet . Reamintim c eticheta este o descriere mai detaliat a variabilei. Este op#ional aceast comand . (3) - este cmpul ce con#ine variabilele existen#e n baza de date (4) - acesta este cmpul unde vom edita combina#ia de variabile care va sta la baza noii variabile. Dup cum observa#i este vorba de combina#ii numerice. (5)- este un cmp cu butoane care permit realizarea diferitelor combina #ii numerice realizate cu numele variabilelor, n realizarea combina#iilor se aplic regulile tradi#ionale referitoare la ordinea opera#iilor. (6) - este un buton IF identic cu cel descris ntr-un capitol anterior, la comanda SELECT CASES. (7) - este un cmp care prezint diverse func#ii matematice. Ele se selecteaz , ,apoi se introduc n cmpul unde scriem combina#iile numerice, cu ajutorul butonului cu s geat de deasupra acestui cmp. Func#iile sunt prezentate n ordine alfabetic , iar n paranteze este trecut modalitatea n care trebuie scrise argumentele func#iei). n exemplul nostru, unde dorim s realiz m media celor dou variabile men#ionate, putem s folosim o formul matematic de tipul celei deja scris n cmpul NUMERIC EXPRESSION din fereastra prezentat anterior. Dar, acela$i rezultat l putem avea folosind si func#ia MEAN. Avantajul acesteia const n faptul c este mult mai facil atunci cnd dorim s calcul m media a foarte multe variabile. Cum proced m? Select m func#ia MEAN din cmpul FUNCTIONS, ca n imaginea de
107

mai jos:

Observa#i care este forma argumentelor acestei func#ii (ceea ce este scris n paranteze). Aceasta indic faptul c variabilele la care vom calcula media trebuie trecute ntre paranteze, iar numele lor trebuie separat prin virgule. Vom proceda n consecin# ; alegem func#ia, o transfer m n cmpul NUMERIC EXPRESSION si vom scrie numele variabilelor ntre paranteze.

Dup ce scriem formula complet , ap sam butonul OK si vom constata imediat urm rile n baza de date. Vom vedea c la sfr$itul bazei, programul adaug noua variabil , precum n imaginea de mai jos:

EXERCI)IU: ncerca#i s crea#i o nou variabil care s fie suma celor dou variabile, salariul ini#ial $i cel dup 5 ani. Aplica#i func#ia SUM.

108

REGRESIALINIAR - sau cum reu&im s( prezicem

Cuprins: Regresia liniar - elemente teoretice Regresia bivariat vs. Multivariat Folosirea SPSS: Meniul ANALYZE - REGRESSION - LINEAR Regresia cu dummy variables

Pascal #i-a nceput predic&iile statistice la masa de joc, apoi a nv &at s parieze pe Dumnezeu n timp ce n Anglia statistica a nceput s fie folosit de timpuri pentru a &ine eviden&a popula&iei, a m sura influen&a bolilor #i a dovedi existen&a lui Dumnezeu, francezii #i italienii #i-au adus propria lor contribu&ie n statistic , dar la ... masa de joc! n mod special, problema punctelor", cum era ea numit a atras aten&ia: mp r&irea punctelor ntr-un joc de c r&i, dup ce acesta s-a ntrerupt, cunoscnd num rul partidelorjucate pn atunci #i num rul total de partide dejoc planificate. Problema a fost pus nc din 1494 de Luca Pacioli, un prieten de-al lui Leonardo da Vinci, dar a r mas nerezolvat pn n 1654, cnd Blaise Pascal, celebrul geniu francez, i-a g sit rezolvarea cu ajutorul teoriei probabilit &ilor. Fiind n coresponden& cu Pierre Fermat, un alt celebru matematician francez, Pascal nu a rezolvat numai problema punctelor", ci a progresat mult n teoria probabilit &ilor aducndu-#i contribu&ii importante n descrierea curbei normale. Interesant este c imediat dup rezolvarea acestei probleme, Pascal a devenit brusc religios. Aflat ntr-o tr sur , a sc pat de la nec dup ce s-a rupt un pod imediat ce tr sura 1-a traversat, iar hamurile cailor au rezistat pn n ultimul moment. Pascal a considerat aceast ntmplare drept un avertisment divin de a-#i abandona munca matematic n favoarea scrierilor religioase, astfel c mai trziu el a formulat principiul pariului lui Pascal": valoarea unui joc este valoarea premiului ob&inut prin c#tigarea sa nmul&it cu probabilitatea de a-1 c#tiga. De aceea, chiar dac probabilitatea ca Dumnezeu s exist ar fi extrem de mic , ar trebui s credem n el pentru c valoarea premiului ar fi infinit , n timp ce dac nu credem, valoarea Jocului" se reduce la o finit pl cere lumeasc .

109

Regresia - elemente teoretice


Pn acum nu ne-am pus problema predic#iei n tot ceea ce am discutat anterior. Cu toate acestea, n via#a de zi cu zi, ca psihologi sau cercet tori n domeniul $tiin#elor sociale apare adesea situa#ia prognostic rii unor anumite rezultate. Cum proced m atunci? S lu m un exemplu. S presupunem c vi se cere s face#i un studiu asupra pie#ei imobiliare din ora$ul Ia$i. n acest caz v-ar interesa s pute#i prezice care sunt pre#urile practicate pe aceast pia# pentru diferite tipuri de apartamente. Din ceea ce am nv #at pn acum, am putea proceda astfel: lu m la ntmplare un e$antion de apartamente dintre acelea expuse pentru vnzare $i calcul m media pre#ului de vnzare a lor. S presupunem c media pre#ului de vnzare astfel ob#inut ar fi de 125 milioane lei. Am putea folosi aceast valoare pentru a face predic#ii asupra pre#ului de vnzare? Sigur c da, numai c apar aici anumite probleme: utiliznd aceast procedur - care e mai bun totu$i dect situa#ia n care nu am avea nici o informa#ie - ignor m al#i factori ce ar putea avea leg tur cu pre#ul de vnzare al apartamentelor, cum ar fi suprafa#a locuibil , zona de reziden# a ora$ului, etc. n exemplul de mai sus, ca $i n situa#iile descrise n capitolele anterioare, media a fost tratat ca $i un parametru constant, fix ce descrie o distribu#ie. Aceast abordare ns , dup cum am v zut, are limite. Mai degrab ne-ar fi de folos s trat m media ca o variabil ce ia valori ntr-un anumit interval. Putem face acest lucru dac lu m n seam devia#ia standard a pre#ului de vnzare. S zicem c varia#ia, adic devia#ia standard, a pre#ului de vnzare ar fi de 50 milioane lei. Deja $tim mai multe: pre#ul de vnzare al aproximativ dou treimi dintre apartamentele din Ia$i este acum cuprins n intervalul de la 75 milioane lei $i pn la 175 milioane lei (12550). Acum $ansele noastre de a prezice pre#ul unui apartament anume din Ia$i au crescut. Mult mai acura#i n ceea ce prezicem am fi ns dac am #ine cont, de exemplu, de suprafa#a locuibil a apartamentului. Spre exemplu, dac am avea o formul de genul: Media pre#ului de vnzare = 40 milioane lei + 1,2 milioane lei * suprafa #a locuibil (mp) Ce ne-ar spune o astfel de formul ? C pre#ul de vnzare al unui apartament ar porni de la suma minim de 40 milioane lei, n condi#iile n care ar avea 0 (zero) metri p tra#i de suprafa# locuibil . Desigur, o astfel de situa#ie este imposibil , n cel mai r u caz, o garsonier are suprafa#a de cel pu#in 16-20 metri p tra#i, n acest caz pre#ul unei garsoniere ar fi: Pre& = 40 milioane + 1,2 milioane * 20 mp - 64 milioane lei. Dac am avea un apartament cu dou camere, de 40 metri p tra#i ca suprafa# , pre#ul ar fi: Pre& = 40 milioane + l,2 milioane *40mp = 88 milioane lei. Observa#i c acum suntem mult mai preci$i n predic#ia noastr . Acum, valoarea mediei pe care o prezicem pentru costul apartamentului este variabil si ajustat n func#ie de suprafa#a apartamentului. Desigur, predic#ia nu este nici n acest caz perfect , dar oricum e mult mai aproape de realitate. Chiar dac nu toate apartamentele de 40 mp. cost 88 milioane lei, varia#ia pre#ului n jurul acestei valori va fi de 15-20 milioane lei si nu de 50 de milioane, ca n situa#ia n care suprafa#a apartamentului nu este luat n calcul.

110

n acest capitol vom vorbi despre metodele care ne ajut s putem face astfel de predic#ii. Reamintim c predic#ia pe care o vom realiza este una de tip probabilistic, nu exact sau precis , ntruct orice fenomen social este determinat de cauze multiple si este practic imposibil de cunoscut varia#ia tuturor acestor factori-cauz . Dar, modelele noastre probabilistice sunt oricum mult mai bune dect situa#ia n care nu am avea nici un instrument la dispozi#ie. Modelele probabilistice A$a cum precizam anterior, modelele noastre de predic#ie sunt probabilistice. S vedem ce nseamn acest lucru. S lu m un exemplu. Se $tie c o component important n vnzarea unui produs o reprezint suma de bani cheltuit pentru reclam . S presupunem c ne intereseaz s realiz m un model care s prezic , s modeleze deci, nivelul profitului ob#inut lunar din vnzarea unui produs, n func#ie de cheltuielile alocate pentru reclama produsului respectiv. Prima ntrebare care ne vine n minte atunci cnd dorim s realiz m acest model este dac si ce fel de rela#ie exist ntre cele dou variabile (profit si cheltuiala pe reclam )? Putem prezice exact valoarea profitului cunoscnd cheltuielile pe reclam ? Trebuie s admitem c acest lucru nu este posibil de cunoscut exact pentru c vnz rile depind si de al#i factori, al#ii dect cheltuielile de reclam (ex. sezonul, starea general a economiei, structura pre#ului, etc.). Chiar dac am #ine cont de to#i ace$ti factori tot nu am putea prezice exact-exact. Vor exista varia#ii cauzate pur si simplu de fenomene aleatorii care fie nu pot fi explicate, fie nu pot fi anticipate. Vom defini aceste influen#e aleatorii drept eroare aleatorie care va include totalitatea influen#elor ntmpl toare asupra variabilei care ne intereseaz . Dac ar fi s construim un model exact, care s prezic exact valorile unei variabile cunoscnd toate valorile factorilor sau variabilelor ce ar putea s o afecteze, atunci am avea un model deterministic. Spre exemplu, dac consider m c profitul va fi exact de 10 ori mai mare dect cheltuielile cu reclama, atunci putem scrie: y=10*x, unde : y - arat profitul, x - cheltuielile de reclam .

Dar ntruct profitul depinde si de al#i factori, nu numai de cheltuielile de reclam , atunci trebuie s folosim un model probabilistic de predic#ie, care s #in cont si de influen#a factorilor aleatorii. Un astfel de model ar fi: y=10*x + eroarea aleatorie unde: y - arat profitul, x - cheltuielile de reclam termenul de eroare aleatorie include toate celelalte influen#e ce nu pot
111

fi prezise, m surate, n acest caz termenul 10*y este numit componenta deterministic a modelului probabilistic. n general, n $tiin#ele sociale modelele de predic#ie sunt probabilistice, iar forma general a acestora este: y= componenta deterministic( + eroarea aleatorie A$a cum vom observa n continuare, termenul aleatoriu joac un rol important n predic#ie pentru c el ne va ajuta s stabilim magnitudinea de varia#ie a termenului deterministic din model, permi#nd astfel o predic#ie ct mai precis (dar, reamintim, niciodat perfect ).

Regresia bivariat( vs. regresia multivariat(


Cel mai simplu model de predic#ie este regresia bivariat . Termenul de regresie" denume$te metoda folosit , iar termenul bivariat " arat c n model sunt doar dou variabile. Acest model folose$te rezultatele ob#inute de subiect la o variabil pentru a prezice rezultatele sale la o alt variabil . Prezum#ia care st la baza acestei metode este c ntre cele dou variabile exist o leg tur , o corela#ie, de fapt. Cum ar tam n capitolele anterioare, atunci cnd vorbeam de corela #ie, reprezentarea grafic a unei corela#ii se f cea cu ajutorul unui nor de puncte. S lu m n considera#ie un exemplu. S presupunem c am fi interesa#i s reprezent m grafic nivelul stresului unor manageri n func#ie de num rul subalternilor superviza#i. Datele ar fi urm toarele:

Nivel stres 5 6 4 8 2

Nr. subordona*i 26 24 24 36 10

112

Reprezentarea grafic ar fi urmtoarea:

Observa#i c norul de puncte care descrie rela#ia este cresc tor, deci rela#ia dintre variabile este pozitiv : cu ct num rul de angaja#i superviza#i creste, cu att si nivelul stresului managerului care i supervizeaz este mai mare. Mai observa#i ns c rela#ia nu este perfect ; punctele nu se n$iruie toate pe o linie dreapt , ci n jurul unei linii drepte. Ei bine, sarcina regresiei liniare este tocmai de a g si aceast linie dreapt fa# de care punctele sunt cel mai pu#in dep rtate. S vedem care este criteriul dup care stabilim c punctele sunt cel mai pu#in dep rtate de linie, ceea ce n limbajul tehnic al statisticienilor nseamn a potrivi linia". Criterii posibile pentru a potrivi linia" Vom lua pentru aceasta un exemplu mai simplu, cu doar trei puncte. 1. Minimalizarea sumei tuturor erorilor Aceasta ar nsemna ca abaterile simple de la linie s fie, nsumate, la un nivel minim.
Y + X + X + Y

Am ilustrat mai sus faptul c acest criteriu, de minimalizare a erorilor sau abaterilor simple de la linie nu este unul potrivit. 'i n figura din stnga si n cea din dreapta erorile sunt minime (n sensul c cele pozitive le anuleaz pe cele negative), dar liniile sunt diferite. Observ m astfel c un astfel de criteriu nu distinge ntre liniile care ar potrivi" punctele, ori noi avem nevoie de o singur linie si numai una.
113

2. Minimalizarea sumei p tratelor tuturor erorilor Este un criteriu mult mai bun, pentru c anuleaz semnul abaterilor si un punct care se abate cu o distant deasupra liniei va conta la fel de mult ca si altul care se abate cu aceea$i distant , dar dedesubtul ei. Observa#i c dac am ridica la p trat erorile (abaterile de la linie) din figurile de mai sus, n imaginea din stnga am ob#ine o sum mai mic dect n cea din dreapta. Deci linia din dreapta, cea cresc toare pare mai potrivit pentru a descrie norul de puncte. Mai mult, matematic se poate demonstra c utiliznd acest criteriu exist numai $i numai o singur linie care potrive$te" cel mai bine toate punctele. Deci acest criteriu st la baza g sirii liniei de regresie. ***

F r a intra n detaliile matematice legate de calculul coeficientului de regresie care presupun cunoa$terea algebrei matriceale, din clasa a Xl-a de liceu) vom preciza c prin aplicarea regresiei liniare vom ob#ine ecua#ia algebric a liniei care ndepline$te criteriul men#ionat anterior (acela de minimalizare a sumei p tratelor distan#elor tuturor punctelor pn la linie).

Regresia bivariat folosind notele Z


Vom reveni acum la exemplul cu managerii $i subalternii. Dac vom calcula coeficientul de corela#ie, vom ob#ine r=0,94. Cel mai simplu model de regresie sau predic#ie bivariat este cel folosind scorurile z: cunoscnd nota z a unei persoane la o variabil s ncerc m s prezicem valoarea notei z a aceleia$i persoane ob#inut pentru cealalt variabil . Acest din urm scor l vom afla multiplicnd prima not z cu un coeficient (numit coeficient de regresie),ca n formula de mai jos:

y = . * Zx
n cuvinte, formula s-ar traduce astfel: scorul standard prezis pentru variabila y ( y) ob#inut de o persoan va fi ob#inut prin nmul#irea scorului standard ob#inut de aceea$i persoan la variabila x (Zx)cu valoarea coeficientului de regresie standardizat (/). Observa#i tilda care se afl deasupra scorului standard a variabilei y; ea arat c valoarea astfel ob#inut nu este cea real , m surat , ci este valoarea prezis . Variabila y din model, cea a c ror valori dorim s le prezicem, se nume$te variabil dependent sau criteriu, n timp ce variabila x, cea pe baza c reia facem predic#ia, se nume$te variabil independent sau predictor.
114

F r a intra n detaliile matematice, trebuie s preciz m c valoarea coeficientului standardizat de regresie este tocmai valoarea coeficientului de corela#ie dintre variabilele x $ i y. Astfel, n exemplul cu managerii vom avea ecua#ia de regresie:

y = 0,94 * Zx
Cum interpret m rezultatul? S presupunem c vom dori s prezicem nivelul stresului managerilor cunoscnd num rul de subalterni superviza#i. Deci variabila y este nivelul stresului, iar variabila x va fi num rul de subordona#i. Vom spune c scorul standard care arat nivelul stresului managerului va fi 0,94 din scorul standard ce descrie num rul subalternilor. Cu alte cuvinte, dac unui manager i se m re$te num rul subalternilor cu valoarea unei devia#ii standard din acea distribu#ie (adic scorul s u , Zx, va cre$te cu 1), nivelul stresului va cre$te de 0,94 ori. Altfel spus, dac avem o varia#ie de 100% a num rului de subalterni repartiza#i unui manageri, nivelul stresului s u variaz doar 94%. De aceea metoda se cheam regresie, pentru c neavnd o rela#ie perfect ntre dou variabile (coeficientul de corela#ie s fie +1 sau -1), varia#iei dintr-o variabil i va corespunde o varia#ie mai mic n cadrul celeilalte, deci varia#ia regreseaz .

Regresia bivariat( folosind notele brute


Folosirea scorurilor standard este ns anevoioas $i ne este mai util s folosim direct scorurile brute pentru a face predic#iile. Desigur am putea transforma scorurile brute n scoruri standard $i invers, dar asta ar fi o opera#ie care ne ia timp. n plus, folosirea scorurilor brute este mult mai apropiat de n#elesul regresiei liniare (de a g si o linie care s potriveasc " punctele). Ecua#ia regresiei bivariate liniare folosind scorurile brute este: / = B0 + B1 * X Observa#i c aceast ecua#ie este foarte apropiat de ecua#ia general a unei linii, y=a + bx, iar n#elesul coeficien#ilor de regresie este acela$i ca $i al coeficien#ilor din ecua#ia unei linii. Coeficientul a arat intersec#ia liniei cu axa OY, iar coeficientul b este valoarea tangentei unghiului d, adic arat cu cte unit #i cre$te variabila Y atunci cnd variabila X cre$te cu o singur unitate. Y

a X 0 115

La fel, coeficientul B, arat care este valoarea cu care cre$te Y atunci cnd variabila X cre$te cu o unitate. Mai precis, pentru cazul regresiei bivariate, el este dat de formula:

B1 = r
unde

SDy SDX

- r este coeficientul de corela#ie, - SD arat , devia#iile standard pentru cele dou variabile.

Coeficientul B0 se calculeaz cu formula: B0 = My B1* Mx Revenind la exemplul cu managerii $i subalternii avem: r = 0,94 MY = 5 Mx = 24 SDY = 2,23 SDX = 9,27 Nu are importan# cum am calculat aceste valori. Ideea este s vedem cum anume calculm coeficien#ii de regresie: Astfel, B1 = r SDy 2, 23 = 0,94 * = 0, 22 SDX 9, 27

B0 = M B1 * M x = 5 0,22 * 24 = 0, 28
Deci, ecua#ia de regresie va fi:

= -0,28 + 0,22*Y
Cum interpret m ecua#ia? Pur $i simplu nlocuim valorile lui X n ecua#ie $i afl m valoarea prezis a lui Y. Spre exemplu, un manager care supervizeaz 10 angaja#i, va avea valoarea stresului de (-0,28+0,22*10), adic 1,92, n timp ce un manager care supervizeaz 30 angaja#i va avea stresul 6,32. Observa#i c valoarea coeficientului de regresie ne spune mai multe dect valoarea coeficientului de corela#ie: cu cte unit #i cre$te variabila Y (stresul), cnd variabila X
116

(num rul subalternilor) cre$te cu o unitate. Sau putem interpreta situa#ia $i altfel: coeficientul de regresie Bl arat care este diferen#a n nivelul stresului la doi manageri atunci cnd ei sunt identici din toate punctele de vedere, iar unul dintre ei are cu un subaltern mai mult n subordine.

Regresia multivariat(
Pana acum am prezentat situa#ia m care am prezis rezultatele ob#inute de subiec#i la o variabil n func#ie de rezultatele lor m surate la o alt variabil . Dar n via#a real , o variabil este n leg tur cu mai multe variabile, nu numai cu una singur $i atunci predic#ia noastr s-ar mbun t #i dac am #ine cont de rela#ia existent ntre toate variabilele si cea pe care dorim sa o prezicem. Coeficientul de corela#ie multipl - asocierea dintre o variabil $i dou sau mai multe variabile - notat cu R, ne arat tocmai ct de mult putem noi s prezicem rezultatele variabilei dependente cunoscnd pe cele ale variabilelor predictori. Mai precis, valoarea lui R2 arat care este varia#ia din variabila Y (variabila dependent ) explicat de varia#ia din variabila (variabilele) X (variabilele predictori sau independente).
Y Y b a X1 X X2 a1 b a2

n diagramele prezentate anterior am reprezentat cazul regresiei bivariate (stnga) fa# de cazul regresiei multiple (dreapta). Cercurile reprezint varia#ia total a variabilelor. Ceea ce noi putem explica prin modelele noastre de regresie este tocmai zona delimitat cu a. Iar valoarea lui R2 se refer tocmai la aceast por#iune de variant . Zona notat cu b este varianta fenomenului Y pe care modelul nostru nu o explic , deci influen#a altor factori pe care nu-i putem prevedea sau m sura. Observa#i c la regresia multipl , avem avantajul c fiecare din variabilele predictori explic (sau ar trebui s explice) cte o por#iune din varianta variabilei dependente Y, astfel c pe ansamblu vom explica mai bine fenomenul (zona b se mic$oreaz ). Nu intr m acum n detalii legate de posibilele erori care pot apare n modelele de regresie multipl (ex. multicolinearitatea sau existen#a rela#iilor supraordonate) si care fac obiectul analizei reziduurilor sau a erorilor (elemente de statistic avansat ). Men#ion m c ecua#ia de regresie pentru cazul regresiei liniare multiple se ob#ine prin extinderea ecua#iei de regresie bivariat dup cum urmeaz :
117

= B0 + B1 * X 1 + B2 * X 2 + ... + Bn * X n

Prezent m n continuare cum se realizeaz o analiz de regresie folosind programul SPSS (pentru a $ti care este meniul si op#iunile ce le avem la dispozi#ie), l snd la latitudinea cititorului s aprofundeze domeniul regresiei folosind lucr rile de specialitate deja existente pe pia# (vede#i lista c r#ilor recomandate la sfr$itul acestui volum).

Folosirea SPSS; meniul ANALYZE - REGRESSION LINEAR


Pentru a putea demonstra modalitatea n care programul SPSS se folose$te la regresie, vom lucra cu o baz de date conceput pentru acest scop. Datele arat informa#ii culese despre fum tori (informa#ii imaginare), referitoare la num rul de #ig ri fumat zilnic ( NRCIGZI), vrsta ini#ial la care persoana a nceput s fumeze ( VIRSTINI), venitul persoanei (VENIT) si nivelul studiilor, m surat prin anii de studiu (STUDII). Baza de date este prezentat n tabelul urm tor, iar introducerea ei n baz se face dup cum am prezentat si n capitolele anterioare.
NRCIGZI 25 10 20 26 28 40 50 12 12 10 5 19 5 4 18 12 10 25 23 22 VIRSTINI VENIT 15 25 20 19 18 9 8 18 15 27 32 11 26 21 15 10 17 18 20 21 348 289 380 420 254 589 624 357 350 289 257 399 289 368 456 425 410 411 411 457 STUDII 8 8 9 8 7 9 11 5 16 16 16 15 18 14 18 5 6 7 8 7

Dup ce am introdus datele, le vom defini (folosind perspectiva VARIABLE VIEW), a$a cum este prezentat n imaginea de mai jos:

118

Definirea se face n coloana LABEL, ca mai sus. Nu vom mai face alte modific ri. Observa#i c toate variabilele sunt dependente (adic le-am m surat pe toate $i nici una nu grupeaz subiec#ii n vreo categorie) $i exprimate numeric, cantitativ. Reamintim c datele nu sunt reale, ci imaginare. n acest exemplu, dorim s prezicem cantitatea de #ig ri fumat zilnic de o persoan la vrsta de 40 ani (NRCIGZI), n func#ie de celelalte variabile cunoscute: vrsta de debut a fumatului, venitul $i educa#ia respectivei persoane. Vom aplica pentru aceasta regresia liniar . Activarea meniului pentru regresia liniar se face cu ajutorul comenzii LINEAR din meniul ANALYZE -> REGRESSION, ca n imaginea de mai jos:

Odat apelat , comanda va activa fereastra urm toare, pe care o vom explica n detaliu, dar f r a folosi ulterior toate op#iunile (ar trebui s dedic m un ntreg volum numai acestei metode, foarte complexe).

119

2 3 1 4 5 6 7

10

11

12

S analiz m fereastra anterioar n detaliu: (1) - este cmpul ce cuprinde toate variabilele existente n baza de date; (2) - este cmpul unde trebuie introdus variabila dependent , cea pe care dorim s o prezicem; (3) - desemneaz butoanele folosite pentru a construi modele de regresie construite ierarhic, prin ad ugarea sau scoaterea, pe rnd a cte unei variabile independente (sau grup de variabile independente) din model; (4) - este cmpul folosit pentru inserarea variabilelor independente, n cazul folosirii modelelor ierarhice, n care variabilele sunt ad ugate una cte una n model, se introduce procedeaz astfel: se introduce prima variabil (bloc de variabile), apoi se apas butonul NEXT de deasupra, se introduce urm toarea variabil si iar se apas NEXT, etc. (5) - n acest spa#iu vom preciza metoda aleas pentru a face regresia (este o op#iune pentru cunosc torii avansa#i), si este folosit tot la modelele de regresie ierarhic , cnd dorim s analiz m influen#a variabilelor independente ad ugate sau scoase pe rnd din model. Varianta implicit este suficient de bun pentru modelele simple. Pentru o mai bun informare s coment m op#iunile din acest spa#iu, men#ionnd c rolul acestei op#iuni este de a analiza influen#a separat a unei variabile (sau grup de variabile) asupra variabilei dependente: a. ENTER: toate variabilele independente care se g sesc n cmpul de mai sus vor fi tratate ca un bloc comun de variabile si introduse ca atare n analiz ; b. STEPWISE: fiecare bloc de variabile independente care nu este nc inclus n ecua#ie este raportat la criteriul de selec#ie (despre acesta vom vorbi mai departe la butonul OPTIONS), apoi variabila (blocul de variabile) este introdus n ecua#ie sau scoas din model. Procedeul se repet pn cnd toate variabilele independente sunt introduse n model sau excluse. c. REMOVE: exclude de la analiz variabilele dintr-un bloc. d. BACKWARD: Variabilele deja existente n ecua#ie sunt excluse una cte una, dac ndeplinesc criteriul de excludere, pn cnd nici o variabil din ecua#ie
120

nu mai satisface acest criteriu. e. FORWARD: Este un procedeu invers celui anterior: variabilele ce nu se g sesc n ecua#ie sunt evaluate conform cu criteriul de excludere si sunt introduse n ecua#ie una cte una. (6) - n acest cmp putem introduce variabile pentru a selecta anumite cazuri sau anumite condi#ii. De obicei se introduc variabile categoriale, dar pot fi introduse si variabile cantitative, specificnd cu ajutorul butonului RULE, regula dup care s se fac selec#ia cazurilor luate n calcul (ex. pentru scoruri egale sau mai mici dect o anumit valoare, etc.). (7) - n acest cmp se introduc de obicei variabile categoriale, programul va executa regresia n mod obi$nuit, doar c la executarea graficelor (de tip scatter-plot, ca si cele ale corela#iei), punctele vor fi etichetate (vor primi un nume), n func#ie de valorile variabilei selectate n acest cmp; (8) - prescurtarea WLS provine din englezescul WEIGHTED LEAST SQUARES si reprezint o variant a metodei obi$nuite de regresie numit prescurtat OLS (ORDINARY LEAST SQUARES). (9) - cuprinde butonul care permite calcularea diferi#ilor parametri despre care vom vorbi detaliat n continuare. (10) - permite realizarea diferitelor grafice prin care se analizeaz reziduurile sau erorile modelului pentru a vedea validitatea $i puterea de predic#ie a acestuia. (11) - acest buton activeaz comenzile pentru crearea a noi variabile n baza de date, n func#ie de modelul regresiei. Vom analiza detaliat op#iunile n cele ce urmeaz . (12) - de aici vom selecta criteriile folosite pentru metodele de selec#ie a variabilelor n model, descrise la punctul (5). n exemplul ales demonstrativ, vom alege un model mai simplu de regresie. Vom construi, n pa$i, trei modele teoretice de predic#ie, ad ugnd pe rnd variabilele independente. Prima dat , primul model va con#ine ca variabil independent variabila VIRSTINI, vrsta la care persoana s-a apucat de fumat. Pentru aceasta vom introduce variabila dependent (NRCIGZI) n cmpul pentru variabile dependent si VIRSTINI n cmpul cu variabile independente, ca n imaginea de mai jos:

121

Ap sam butonul NEXT, pentru a construi urm torul bloc de variabile independente, urm torul model de regresie. Observa#i c prin ap sarea lui NEXT, cmpul cu variabile independente se gole$te. Acum vom pune n el variabilele VIRSTINI si VENIT, acestea dou formnd acum al doilea bloc, al doilea model de regresie. Fereastra de pe ecran ar trebui s fie ca n imaginea urm toare:

Vom ap sa din nou butonul NEXT si vom construi al treilea si ultimul bloc, punnd n final, n cmpul cu variabile independente toate cele trei variabile predictor : VIRSTINI, VENIT, STUDII ca n imaginea de mai jos:

Observa#i c pentru fiecare dintre blocuri am folosit metoda ENTER, astfel c variabilele independente din fiecare din ele vor fi tratate ca un grup, iar modelul de predic#ie va fi construit pornind de la aceast asump#ie. ntruct folosim metoda clasic , OLS, nu vom activa butonul WLS, care presupune atribuirea unui num r cu care s ajust m valoarea coeficien#ilor de regresie. Nu intr m n detalii privind aceast op#iune.
122

Programul SPSS calculeaz implicit anumi#i parametri ai modelului de regresie. Cu toate acestea, op#iunile pe care le avem la ndemn sunt mult mai variate. Ele se g sesc n fereastra activat de butonul STATISTICS, pe care o vom analiza detaliat n cele ce urmeaz . Pentru a solicita programului s calculeze anumi#i parametri trebuie s bifa#i n p tr #elul corespunz tor fiec ruia dintre ace$tia.

S analiz m pe rnd op#iunile: 1 ESTIMATES: pentru fiecare variabil independent introdus n model programul calculeaz coeficien#ii standardiza#i si cei nestandardiza#i de regresie, eroarea standard a acestora, si pragul de semnifica#ie pentru testul t care testeaz ipoteza de nul c valoarea acestui coeficient este zero. 1CONFIDENCE INTERVALS: pentru fiecare coeficient nestandardizat de regresie este calculat intervalul de ncredere corespunznd lui 95% (probabilitatea ca valoarea real a coeficientului s se g seasc n intervalul de ncredere este de 95%). 1COVARIANCEMATRIX: pentru modelele de regresie multipl (cum este si cazul nostru) programul SPSS afi$eaz o matrice p trat , care con#ine covanan#ele coeficien#ilor nestandardiza#i de regresie dispuse sub diagonala principal , corela#iile - deasupra diagonalei principale $i variantele -pe diagonala . 1MODEL FIT: solicit calcularea coeficientului de corela#ie multipl R $i a p tratului acestuia R2 care arat ct de mult din var^ia variabilei dependente este prezis de modelul nostru. 1R SQUARE CHANGE: arat , pentru modelele ierarhice, n care variabilele independente sunt introduse pe rnd, ct de mult se schimb valoarea lui R2 de la un model la altu1, permi#nd astfel s estim m dac introducerea unei variabile sau bloc de variabile independente mbun t #e$te puterea de predic#ie a modelului. 1DESCRIPTIVES: arat media si abaterea standard pentru toate variabilele selectate si o matrice de corela#ie. 1PART AND PAR+IAL CORRELATIONS: arat coeficien#ii de corela#ie par#iali ntre variabilele independente si cei par#iali dintre fiecare variabil independent si cea
123

dependent . 1COLLINEARITY DIAGNOSTIC: pentru regresia multipl permite efectuarea unor teste de colinearitate (o condi#ie ce trebuie evitat ) ntre variabilele independente. 1DURBIN-WATSON: este un test care m soar corela#ia serial ntre reziduuri (erori), fapt ce trebuie evitat pentru a avea un model acurat de predic#ie. 1CASEWISE DIAGNOSTICS: arat cazurile pentru care erorile de predic#ie dep $esc 3 abateri standard $i care trebuie reconsiderate. n func#ie de necesit #ile de analiz $i avnd descrierea detaliat de mai sus, selecta#i op#iunile de care ave#i nevoie. Pentru exemplul nostru nu am bifat dect ESTIMATES, MODEL FIT, R SQUARE CHANGE $i CONFIDENCE INTERVALS. Urm toarea op#iune se refer la reprezentarea grafic a modelului. Activnd butonul PLOTS, pe ecran va apare fereastra:

Op#iunile din fereastra anterioar ne permit s solicit m programului s realizeze grafice cu puncte (scatterplots) dintre variabila sau variabilele dependente si oricare din reziduurile (erorile) din list . Erorile sau reziduurile sunt abateri ale modelului predic#iei de la realitate, iar pentru a fi siguri c modelul nostru este unul corect, ar trebui s nu avem nici o leg tur ntre variabilele reprezentate grafic, deci norul de puncte trebuie s fie aleatoriu. Graficele se realizeaz alegnd oricare dintre perechile de variabile si introducnd-o n cmpul destinat axei X sau Y. Realizarea mai multor grafice se face folosind butonul NEXT. S prezent m pe scurt fiecare variabil cu care se poate realiza graficul: *DEPENDNT: este variabila dependent (prezis ), scorul brut al acesteia *ZPRED: sunt valorile standardizate ale variabilei prezise, dependente. *ZRESID: sunt valorile standardizate ale erorilor (reziduurilor sau abaterilor de la model) *DRESID: sunt reziduurile $terse sau excluse de la analiz (unde este cazul) *ADJPRED: este valoarea ajustat si prezis a unui caz atunci cnd este exclus de la analiz . 2SRESID: notele t ale reziduurilor *SDRESID: notele t ale reziduurilor excluse de la analiz .
124

Observa#i c n fereastr mai sunt ni$te op#iuni. S le discut m si pe acestea: *PRODUCE ALL PAR+IAL PLOTS - sunt grafice care arat corela#ia dintre oricare dou variabile independente, pentru a verifica c acestea nu se coreleaz unele cu altele, fapt care ar distorsiona modelul de predic#ie. *HISTOGRAM - realizeaz histograma reziduurilor standardizate pentru a vedea dac ele sunt normal distribuite (cum ar trebui s fie pentru ca modelul nostru s fie valid). *NORMAL PROBABILITY PLOT - (numit si P-PPLOT) are aceea$i func#ie ca $i op#iunea anterioar , doar c verific normalitatea distribu#iei prin compara#ie chiar cu abaterile de la curba normal . n exemplul nostru vom bifa doar NORMAL PROBABILITY PLOT $i HISTOGRAM, apoi ap sam butonul CONTINUE. n continuare vom analiza fereastra care apare la ap sarea butonului SAVE, prezentat mai jos:
2 1

3 4

Aceast fereastr con#ine op#iuni ce permit salvarea n baza de date a unor noi variabile, bazate pe modelul nostru de predic#ie sau calculul unor parametri care arat influen#a unor cazuri individuale (suspectate de a fi atipice) asupra modelului de predic#ie, n vederea elimin rii sau ajust rii lor.

125

Vom prezenta aceast fereastr la un nivel mai general. Astfel, (1)- este cmpul ce con#ine op#iuni pentru salvarea n baza de date a variabilei dependente (prezise). Se pot salva astfel scorurile brute, cele standard, cele ajustate sau eroarea standard a mediei. (2)- folosind op#iunile din acest cmp vom salva n baza de date abaterile scorurilor prezise fa# de cele reale, pe baza c rora s-a f cut predic#ia. Aceste abateri se numesc reziduuri sau erori. (3)- aici sunt ni$te parametri ce m soar potrivirea" unui caz n model, sau - cu alte cuvinte - ct de mult influen#eaz acesta predic#ia. a. MAHALANOBIS: m soar distan#a de la un caz pn la media valorilor tuturor variabilelor independente. b. COOK'S: arat ct de mult se schimb erorile sau reziduurile tuturor scorurilor, dac un anume caz este exclus de la analiz . c. LEVERAGE VALUES: m soar ct de mult un caz poate afecta potrivirea" modelului de regresie (R2) (4)- n acest cmp avem op#iuni ce permit calcularea unor parametri sau salvarea unor variabile care arat care ar fi schimb rile survenite n model dac un scor ar fi omis de la analiz . (5)- op#iunile din acest cmp permit salvarea n baza de date a cte dou variabile (fiecare op#iune) con#innd marginea inferioar $i cea superioar a intervalului de ncredere (stabilit implicit la 95%) pentru medie (op#iunea MEAN) sau pentru un caz individual (op#iunea INDIVIDUAL), date fiind valorile actuale ale variabilelor independente. n exemplul nostru vom marca op#iunile ADJUSTED (din cmpul PREDICTED VALUES) si INDIVIDUAL (din cmpul PREDICTION INTERVALS) apoi ap sam butonul CONTINUE. Ultimul buton din fereastra principal este butonul OPTIONS, care activat va deschide fereastra de mai jos:
1

2 3

126

Trei sunt elementele principale ale acestei ferestre: (1) - alegerea criteriului de selec#ie a variabilelor n model n cazul n care folosim alt metod dect ENTER. Valorile stabilite implicit de program sunt cele folosite adesea, a$a c recomandabil este s nu modifica#i aceste op#iuni. Acest F despre care se vorbe$te in acest cmp arata daca propor#ia de varianta din variabila prezis explicat de variabila sau grupul de variabile independente introduse n model este o propor#ie semnificativ . (2) - permite s modific m ecua#ia de regresie prin introducerea sau eliminarea coeficientului B0. (3) - arat modul n care sunt luate n calcul valorile lips . a. EXCLUDE CASES LISTWISE : este op#iunea recomandat $i aleas implicit. Se refer la eliminarea de la analiz a rezultatelor subiec#ilor c rora le lipse$te fie si o singur valoare din lista de variabile independente. b. EXCLUDE CASES PAIRWISE: va exclude de la analiz perechile de scoruri pentru care lipse$te o valoare. De exemplu, dac aveai trei variabile independente, A, B $i C, iar un subiect nu are scorul la variabila B, acest subiect nu este exclus de la analiz (ca n primul caz, LISTWISE), ci sunt excluse pentru acest subiect numai acele perechi de scoruri ce con#ine variabila lips , n cazul nostru nu vor fi analizate AB $i BC pentru aceast persoan , dar va fi luat n calcul perechea AC pentru care subiectul are scoruri. c. REPLACE WITH MEAN: nlocuie$te scorurile lips cu media grupului din care face parte subiectul. n exemplul nostru, vom l sa aceste op#iuni a$a cum sunt ele stabilite implicit, a$a c ap sam CONTINUE, apoi OK n fereastra principal pentru a ob#ine OUTPUT-ul, adic foaia de rezultate.

127

n continuarea foii de rezultate ne sunt prezentate ntr-un tabel informa #ii referitoare la puterea de predic#ie a modelului nostru, la potrivirea" sa cu realitatea pe care dorim s o prezicem.

7 1 2 3 4 5 6

S analiz m mai detaliat tabelul de mai sus: (1) - arat cte modele de regresie avem si le atribuie un cod numeric acestora (2) - arat coeficientul de corela#ie multipl R, pentru fiecare din modele (3) - arat valoarea coeficientului de corela#ie multipl ridicat la p trat, R2 valoare care arat ce propor#ie din varia#ia variabilei dependente sau prezise este explicat de un model. (4) - este valoarea ajustat a lui R2; ea trebuie luat n calcul atunci cnd judec m potrivirea" unui model sau puterea sa de predic#ie. (5) - arat eroarea standard a variabilei dependente, prezise. Cu alte cuvinte arat care este devia#ia standard a num rului #ig rilor fumate zilnic de o persoan de 40 ani, cunoscnd valoarea variabilelor independente din model. Observa#i c modelele 2 $i 3, unde num rul variabilelor independente este mai mare, permite o apreciere mai bun a num rului de #ig ri fumate zilnic (intervalul de varia #ie fiind mai mic). (6) - arat ct de mult se schimb valoarea lui R2 atunci cnd n model mai ad ug m variabile. (7) - este testul F al lui Fisher (vom discuta despre el la capitolul cu analiza de variant ), care arat dac schimbarea lui R2 , m surat la Punctul (6) este semnificativ , n cazul nostru, ne vom uita n coloana SIG F CHANGE, unde este trecut pragul de semnifica#ie pentru testul F $i unde constat m c schimbarea este semnificativ doar pentru primele dou modele. Concluzia ar fi c al treilea model (ce con#ine n plus fat de al doilea variabila STUDII) nu contribuie semnificativ la puterea de predic#ie a regresiei. Mai mult, dac v uita#i la coloana unde avem valoarea ajustat a lui R2 ve#i constata o sc dere a puterii de predic#ie. Rezultatul se datoreaz probabil faptului c variabila independent VENIT coreleaz cu variabila STUDII, deci a doua variabil nu mai aduce mult informa#ie nou n plus, fat de prima. La fel ca $i n tabelul anterior, indicii care se g sesc n tabel sunt explica#i n observa#iile men#ionate sub acesta, n cazul nostru, indicii a, b si c arat care sunt variabilele predictor
128

pentru fiecare din cele trei modele, iar indicele d precizeaz care este variabila dependent prezis . n continuarea output-ului urmeaz un tabel con#innd analiza de variant pentru fiecare model de regresie, analiz care arat ct de eficient este predic#ia modelului cunoscnd variabilele independente, comparate cu situa#ia n care nu am cunoa$te nimic. Acest tabel este prezentat n continuare, dar nu vom intra n detalii legate de el, ntruct nu am prezentat pn acum analiza de variant (ANOVA).

2 1

S analiz m pu#in acest tabel: (1)- aici sunt prezentate modelele de regresie si componentele variantei: ct este explicat de model (pe rndul notat REGRESSION), ct este rezidual , neexplicat de model (pe rndul RESIDUAL) si ct variant are n total variabila dependent (rndul notat TOTAL). Pe baza elementelor componente ale variantei se calculeaz valoarea notei F (despre ea vom vorbi n capitolul cu analiza de variant ), care arat dac varia#ia explicat de model este semnificativ mai mare dect cea rezidual , deci dac modelul nostru este eficient n predictie. (2) - n acest cmp este trecut valoarea notei F. (3)- aceast coloan cuprinde pragul de semnifica#ie pentru testul F; un prag mai mic de 0,05 arat c putem afirma cu o probabilitate eroare de 5% c modelul nostru explic semnificativ mai mult varia#ie dect cea datorat altor factori, neprev zu#i sau necontrola#i. n exemplul ales de noi, toate cele trei modele sunt eficiente, n sensul c explic o cantitate semnificativ de varia#ie din cea total . Mai mult, observa#i c valoarea pragului de semnifica#ie este cea mai mic pentru modelul al doilea, fapt care arat c acesta este modelul cel mai bun dintre toate trei. Indicii prezen#i n dreptul fiec rui prag de semnifica#ie sunt explica#i sub tabel si arat pe baza c ror variabile independente se face predic#ia.
129

n continuarea prezent rii rezultatelor urmeaz unul din tabelele cele mai importante ale output-ului:

S analiz m pe ndelete acest tabel important: (1) - pe aceast coloan este trecut descrierea fiec rui model n parte. In cele ce urmeaz , vom analiza mai detaliat modelul al doilea care, a$a cum reiese din analiza de pn acum a rezultatelor, este cel mai bun n termeni de predic#ie. (2) - un model are inclus n el o constant , o valoare cu care predic#ia noastr este ajustat . (3) - partea cea mai important a modelului se refer la variabilele independente incluse n el, la predictorii modelului. Observa#i c n modelul al doilea pe care 1-am luat n discu#ie avem dou variabile independente: vrsta ini#ial la care a debutat fumatul si venitul persoanei exprimat n mii de lei. (4) - este, poate, partea cea mai important a tabelului ntruct con#ine coeficien#ii nestandardiza#i de regresie, pe baza c rora putem construi ecua#ia de regresie. Valoarea 7,0E-02 nu este o anomalie, ci este stilul programului SPSS de a afi$a uneori numerele foarte mici sau foarte mari. Valoarea aceasta se cite$te 7,0 * 102, adic de fapt este valoarea 0,07. Dac ar fi fost 7,0E + 04 atunci se face referire la valoarea 7,0 * 104, adic valoarea 70.000. Ajun$i aici se impune o observa#ie. Cu datele trecute n acest cmp trebuie s redact m ecua#ia de regresie. Reamintim c pentru regresia multipl ( cnd avem mai mult de dou variabile independente sau predictor ), ecua#ia general de regresie folosind notele brute este:
= B0 + B1 * X 1 + B2 * X 2 + ... + Bn * X n

unde B0 reprezint constanta modelului, iar B1..Bn sunt coeficien#i nestandardiza#i de regresie, calcula#i pentru fiecare variabil independent n parte.

130

n cazul nostru, ecua#ia de regresie este: nr *ig(ri/zi la 40 ani = (-1,30) + (-0,40)*vrst( ini*ial( + (0,07)*venit. Cum interpret m ace$ti coeficien#i? n primul rnd trebuie s preciz m c scopul unei astfel de ecua#ii este acela de a prezice. Deci, f r prea multe interpret ri, putem folosi ecua#ia s prezicem cte #ig ri va fuma zilnic o persoan de 40 ani cunoscnd la ce vrst a nceput s fumeze, precum si venitul lunar al s u*. OBS: Aten#ie! Datele referitoare la venit sunt raportate la c$tigurile romnilor din anul 1996, cnd dolarul american era la aproximativ 3000 lei. Dac a#i dori s aplica#i ecua#ia la salariile actuale, ele trebuie ajustate la cursul dolarului, altfel predic#ia nu are sens, ntruct ordinele de m rime ale acestei variabile s-au schimbat $i ele afecteaz coeficien#ii nestandardiza#i de regresie. O alt variant ar fi s utiliza#i coeficien#ii standardiza#i $i astfel problema aceasta va disp rea. Spre exemplu, pentru o persoan care a nceput s fumeze la 20 ani $i are un venit lunar de 300 mii lei, vom prezice c ea fumeaz cu aproxima#ie 11-12 #ig ri zilnic [(-l,30)+(0,40)*20+(0,07)*300]. n al doilea rnd, o informa#ie pre#ioas ne ofer coeficien#ii nestandardiza#i de regresie. Ei arat cu ct se modific variabila dependent , cea prezis , dac variabila independent se modific cu o unitate, n condi#iile n care toate celelalte r mn constante. Spre exemplu, dac la 40 de ani dou persoane au acela$i venit, dar una dintre ele a nceput s fumeze mai devreme cu 10 ani dect cealalt , atunci vom prezice c cea care a nceput mai de timpuriu s fumeze va fuma cu 4 #ig ri mai mult dect cea care a nceput mai trziu. S revenim acum cu explica#iile detaliate legate de tabelul anterior. (5) - n aceast coloan sunt trecute abaterile standard ale coeficien#ilor nestandardiza#i de regresie. Ele arat care este intervalul n care variaz predic#ia noastr n mod obi$nuit. De exemplu, pentru coeficientul nestandardizat al vrstei ini#iale de debut al fumatului, devia#ia standard este de 0,45, ceea ce arat c valoarea acestui coeficient variaz de la o persoan la alta cu 0,45. (6) - n acest cmp sunt trecu#i coeficien#ii standardiza#i de regresie, care descriu modelul nostru, atunci cnd lu m n calcul notele standard (z) ale variabilelor. (7) - coloana aceasta con#ine testul t aplicat coeficien#ilor nestandardiza#i de regresie, pentru a testa ipoteza conform c reia ei sunt semnificativ diferi#i de zero. Mai precis, aceste note t arat care este importan#a relativ n model a predictorilor no$tri. Pentru a putea fi important, un predictor trebuie s aib scorul t cel pu#in mai mare dect +2 sau mai mic dect -2. Observa#i c n cazul nostru numai variabila venit" este important pentru model, celelalte avnd $i ele o contribu#ie, dar mai pu#in important .
131

(8) - pe aceast coloan este trecut pragul de semnifica#ie al testului t men#ionat anterior. Valorile semnificative, ca la orice test statistic, trebuie se situeaz sub nivelul de 0,05. (9) - ultimele coloane ale tabelului prezentat con#in limitele inferioar $i superioar ale intervalului de ncredere pentru coeficien#ii nestandardiza#i de regresie, corespunz tor probabilit #ii de 95%. Cu alte cuvinte, aici sunt trecute limitele de varia#ie ale coeficien#ilor; de exemplu, coeficientul de regresie pentru variabila venit" este cuprins n propor#ie de 95% n intervalul 0,009 $i 0,132. Dup prezentarea parametrilor corespunz tori modelului, n foaia de rezultate urmeaz un tabel nu mai pu#in important referitor la reziduuri, mai precis la valorile variabilei dependente, cea prezise, comparate cu valorile reale. Aceste date sunt prezentate ntr-un tabel identic cu cel urm tor:

Coloanele tabelului con#in elementele descriptive (media, minimul, maximul, devia#ia standard si num rul cazurilor din studiu) ale variabilei dependente, prezis de modelul nostru. S analiz m cteva din elementele mai importante ale tabelului: PREDICTED VALUE: este valoarea brut prezis de model. De exemplu, pe baza sa, media #ig rilor fumate zilnic de o persoan de 40 de ani la care cunoa$tem vrsta de debut al fumatului, venitul si studiile este de 18 tig ri/zi, cu un minim de 3 si un maxim de 38. STD PREDICTED VALUE: este valoarea notei standard ob#inut prin convertirea notelor brute men#ionate anterior. RESIDUAL: arat abaterile modelului nostru de la realitate. Astfel observ m c ne putem abate fie n minus (prezicnd un num r de #ig ri mai mic cu 14 #ig ri dect cel fumate n realitate), fie n plus (prezicnd un num r cu pn la 17 #ig ri n plus). Dac ns observ m ct este media acestei variabile (o valoare foarte mic , foarte apropiat de zero) si abaterea standard (aproximativ 7), atunci putem afirma c modelul nostru prezice n fapt destul de bine num rul #ig rilor fumate de un individ de 40 ani zilnic cu o abatere medie de 7. Cam acestea sunt elementele ce sunt de interes din acest tabel.

132

n continuarea foii de rezultate sunt prezentate graficele pe care le-am solicitat programului. Mai nti este prezentat histograma notelor standard ale reziduurilor (erorilor sau abaterilor modelului de la realitate).

Observ m c ea nu respect curba normal , mai ales pentru valorile foarte sc zute (sub 1,5 devia#ii standard), ceea ce arat c modelul nostru are probleme n a prezice comportamentul celor care fumeaz pu#in, dar este bun, pe de alt parte, pentru a prezice valorile pentru cei care fumeaz mult. Mai departe, n foaia de rezultate este prezentat graficul probabilit #ilor cumulate ale notelor standard ale reziduurilor. Dac acestea s-ar distribui aproximativ normal (pentru un model bun), ele ar trebui s urmeze linia procentelor cumulate descris de curba normal (o linie dreapt situat pe diagonala graficului din stnga-jos, pn n dreapta-sus).

133

Dup cum se distribuie punctele noastre pe graficul de mai sus , observ m c n partea inferioar a graficului ( stnga), punctele dep $esc diagonala, n timp ce n partea superioar avem o tendin# opus . Aceasta arat c pentru valori mici ale variabilei dependente, modelul nostru de regresie are tendin#a de a supraestima realitatea, n timp ce pentru valori mari apare tendin#a de subestimare a realit #ii. Concluzie: n exemplul analizat pn acum am observat c dintre cele trei variabile independente pe care le putem folosi ca predictori pentru variabila dependent (num rul de #ig ri fumate zilnic), vrsta ini#ial $i venitul ne ajut cel mai bine n predic#ie. Desigur, predic#ia noastr nu se suprapune total pe realitate, existnd abateri de la ea (abaterea medie este de 7 #ig ri/zi) $i mai apare tendin#a de a supraestima valorile mici $i a subestima valorile mari. Cu toate acestea , modelul nostru este mai bun dect lipsa acestuia, fapt dovedit de valoarea destul de ridicat a coeficientului de corela#ie multipl p trat (R2).

Regresia cu variabile dummy

De multe ori se ntmpl ca informa#iile pe care le avem la ndemn pentru a face predic#ii s nu fie cantitative, ci categoriale, m surate pe scale ordinale sau nominale. Spre exemplu, dac am dori s prezicem pre#ul apartamentelor pe pia#a imobiliar din Ia$i, o variabil independent care ne-ar putea fi util n predic#ie (pe lng suprafa#a locativ ) ar putea fi zona de rezident a imobilului, $tiut fiind c anumite zone din ora$ sunt mai c utate dect altele. Cum reu$im s construim un model n care s folosim drept predictori variabile de tip categorial? Capitolul de fat ncearc s ilustreze tocmai acest lucru. OBS: * dummy este un termen englezesc ce se refer la manechinele de plastic folosite pentru vitrinele magazinelor de haine $i suzeta/biberonul copiilor sugari. De asemenea, expresia englezeasc dummy run care desemneaz o repeti#ie sau inten#ia de a ncerca ceva este mai apropiat de sensul pe care1 are acest cuvnt n contextul de fa# .

134

Pentru a fi mai ilustrativi, vom lucra cu un exemplu, o serie de date care sunt prezentate n tabelul de mai jos:
LUNI 40 40 31 21 26 18 28 16 27 20 20 16 20 16 15 15 2 3 11 14 ANGAJA I 30 75 90 100 90 120 120 150 160 162 170 210 220 230 240 280 280 310 310 310 TIPUL 1 0 0 1 1 1 0 1 0 0 1 1 0 1 0 0 1 1 0 0

Introduce#i tabelul n SPSS. Vom recapitula cu aceast ocazie no#iunile prezentate anterior n acest capitol. Aceste date (imaginare) reprezint situa#ia timpului, m surat n luni, n care o inova#ie legat de management este adoptat de diverse firme variabila LUNI). Concomitent cu aceast m sur toare, cercet torul mai are urm toarele informa#ii despre aceste firme: num rul de angaja#i (variabila ANGAJA)I) si tipul firmei (variabila TIPUL, care are valorile O = firm de stat" si l = firm particular "). Problema pe care $i-o pune cercet torul este aceea de a prezice timpul n care va fi adoptat o nou strategie de management cunoscnd num rul de angaja#i pe care l are Pentru aceasta, vom aplica metoda regresiei si ne propunem s afl m coeficien#ii ecua#iei de regresie, care n cazul nostru este:

= BO + B1 * X
unde Y este valoarea prezis a timpului de adoptare a noii strategii manageriale k firm , X- num rul de angaja#i al acelei firme, iar B0,B1 sunt coeficien#ii ecua#iei de gresie.

135

Vom folosi comanda ANALYZE - LINEAR..., care activeaz fereastra tipic pentru analiza, regresiei liniare, ca mai jos:

Vom selecta variabila LUNI si o vom introduce n cmpul pentru variabile dependente, iar variabila ANGAJA+I - n cmpul pentru variabile independente. Metoda folosit va fi metoda implicit , ENTER, a$a cum apare ea sub cmpul pentru variabile independente. Activ m apoi butonul STATISTICS pentru a solicita calculul anumitor parametri, ca n imaginea urm toare:

Pe lng op#iunile marcate implicit de program (ESTIMATES si MODEL FIT), vom mai bifa op#iunea CONFIDENCE INTERVALS, dup care vom ap sa butonul CONTINUE. Op#iunea R SQUARED CHANGE nu o bif m n acest caz ntruct nu avem mai multe variabile independente cu care s construim mai multe modele de regresie, ci doar o singur variabil predictor. Din fereastra principal a regresiei vom activa apoi butonul PLOTS pentru a realiza unele reprezent ri grafice. De aici vom bifa op#iunea NORMAL PROBABILITY PLOT, astfel c , n final, fereastra trebuie s arate precum cea din continuare:

136

Dup aceste opera#iuni ap s m butonul CONTINUE $i ap s m butonul SAVE din fereastra principal pentru a activa fereastra de mai jos:

De aici vom bifa op#iunea STANDARDIZED din cmpul RESIDUALS pentru a salva n baza de date o nou variabil ce reprezint scorurile standard ale abaterilor modelului nostru de la realitate". Vom ap sa apoi butonul CONTINUE din aceast fereastr si butonul OK din fereastra principal astfel ca programul s ne arate foia de rezultate (output).

137

Primele informa#ii oferite de program se refer la modelul folosit si estimarea general a eficien#ei sale:

Trei sunt elementele care ne intereseaz din aceste dou tabele: (1) - care sunt variabilele ce intr n model (2) - coeficientul de corela#ie multipl (care aici este identic cu cel de corela#ie bivariat ntruct avem doar dou variabile n model) (3) - coeficientul de corela#ie multipl p tratic ajustat, care arat gradul total de potrivire" a modelului, eficien#a sa. Observ m astfel c modelul nostru, care folose$te doar o singur variabil independent (nr. de angaja#i), explic 71% din varia#ia variabilei dependente (timpul de adoptare a noii strategii). Tabelul ce urmeaz ne arat dac aceast propor#ie de variant explicat de modelul nostru este semnificativ .
1

Valoarea pragului de semnifica#ie, pe care l citim n coloana (1), este mai mic dect 0,05, ceea ce ne permite s afirm m cu o probabilitate de eroare de doar 5% c modelul nostru explic semnificativ de mult din varia#ia variabilei dependente.
138

Tabelul urm tor descrie ecua#ia de regresie:


1

Din coloana notat cu (1) putem deduce ecua#ia de regresie, care este: nr. luni = 37,91 + (-0,09) * nr. angaja*i Reamintim c num rul -9,826E-02 nseamn -9,82*102, adic -0,09. Putem folosi aceast ecua#ie pentru a face predic#ii; astfel, o firm cu 100 de angaja#i va adopta o inova#ie managerial n aproximativ 29 luni (37,91-9). Desigur, predic#ia noastr nu este perfect , n tabelul urm tor, sunt trecute date ce permit evaluarea abaterilor modelului de la realitate:

Spre exemplu, observam ca abaterea medie de la realitate a modelului nostru predictiv este de aproximativ 5 luni (1), n plus sau n minus. Oricum, modelul nostru este mult mai precis sau mai aproape de realitate dect situa#ia n care nu am cunoa$te variabila ANGAJA+I. n acel caz, cnd nu am $ti num rul angaja#ilor, cea mai bun predic#ie ce o putem face ar fi situa#ia n care am cunoa$te doar rezultatele timpului de adoptare a noii strategii pentru cele 20 de firme luate n calcul $i care este de 20 luni, cu o abatere standard de aproximativ 10 luni.

139

Aceste date le ob#inem dac aplic m metoda DESCRIPTIVES din meniul ANALYZE DESCRIPTIVE STATISTICS, ca n imaginea de mai jos:

In cazul n care cunoa$tem si num rul de angaja#i, observa#i c varia#ia medie (devia#ia standard) scade la jum tate (de la 10 luni la 5 luni), n timp ce media valorii prezise este identic (19,95 n ambele cazuri, dup cum arat tabelele anterioare). Deci este mai rentabil" s folosim modelul nostru de regresie. n continuarea output-ului regresiei programul ne arat standardizate comparativ cu distribu#ia normal . distribu#ia reziduurilor

Dup cum observ m, punctele corespunz toare probabilit #ilor cumulate ob#inute n urma modelului nostru de regresie urmeaz ndeaproape pe cele ale curbei normale, deci modelul nostru este valid. V reaminti#i c am solicitat programului s salveze n baza de date o variabil care s arate notele standard ale erorilor modelului. S reprezent m acum grafic, sub forma unui nor de puncte, aceste note standardizate n func#ie de variabila independent . Dac modelul este valid, norul de puncte astfel ob#inut trebuie s arate aleatoriu. Activ m comanda SCATTER, din meniul GRAPHS. Vom alege un grafic simplu din fereastra care va apare, dup aceea vom ap sa pe butonul DEFINE pentru a stabili ce variabile vor fi reprezentate grafic, ca n imaginea:

140

Vom stabili s reprezent m pe axa Y variabila ce con#ine notele standard ale reziduurilor, n func#ie de variabila ANGAJA)I, pe care o vom reprezenta pe axa X. Ap sam butonul OK si n fereastra de output va apare graficul:

Observa#i c norul de puncte astfel ob#inut este unul aleatoriu. Deci modelul nostru este valid. Pn aici toate sunt bune si frumoase. Am recapitulat no#iunile referitoare la regresia liniar . Dar crede#i c informa#ia legat de tipul firmei (de stat sau particular , variabila TIPUL) nu are nici o importan# ? Crede#i c vom ob#ine o aceea$i ecua#ie de regresie pentru fiecare tip de firm ? Cu alte cuvinte, crede#i c o inova#ie este adoptat cu aceea$i vitez la o firm de stat'ca $i la una particular , chiar dac cele dou firme au acela$i num r de angaja#i? Pentru a r spunde la aceast ntrebare s reprezent m din nou norul de puncte, dar marcnd de data aceasta punctele care provin de la firmele de stat $i pe cele care . provin de la firmele particulare.
141

Vom activa din nou comanda SCATTER din meniul GRAPHS $i vom introduce variabila TIPUL n cmpul SET MARKERS BY, ca n imaginea:

Ap sam din nou butonul OK si pe ecran va apare acela$i grafic ca si cel anterior, doar c punctele provenite de la cele dou tipuri de firme vor fi acum colorate diferit (verde si ro$u). Pentru a le diferen#ia n alb-negru, am preferat n graficul care este prezentat n continuare s stabilesc diferite senine pentru cele dou tipuri. Astfel, firmele de stat vor fi reprezentate cu cercuri, iar cele particulare - cu triunghiuri:

Observa#i c de data aceasta nu mai avem o dispunere aleatorie a punctelor; ele se separ clar, astfel c modelul nostru de regresie nu va mai descrie n mod corect rela#ia care exist ntre num rul de angaja#i si viteza de adoptare a inova#iei pentru cele dou tipuri de firme. Vedem c modelul nostru subestimeaz timpul pentru firmele de stat (abaterile sunt pozitive, situate deasupra axei) si l supraestimeaz pe cel din firmele particulare (punctele sunt situate n majoritate dedesubtul axei). Din aceast cauz este necesar s #inem cont de tipul firmei (variabila TIPUL) n ecua#ia noastr de predic#ie.

142

Modelul dummy
O variabil dummy este o variabil categorial care poate s ia doar valorile 0 si l, atribuite n mod conven#ional doar pentru dou din st rile variabilei, n cazul nostru, valoarea 0 este atribuit firmelor de stat, iar valoarea l - firmelor particulare (nu conteaz cui atribuim valorile, conteaz ca ele s fie l si 0). Este posibil folosirea si a altor valori dect l si 0, dar ve#i vedea n continuare care este avantajul acestei nota#ii. Mai preciz m c n eventualitatea n care avem o variabil categorial ce are mai mult de dou categorii (s zicem variabila studii", cu trei categorii: studii primare, medii $ i superioare), ea trebuie reprezentat prin variabile dummy cu numai dou categorii. Ca regul , trebuie s $ti#i c avem nevoie de n-1 variabile dummy pentru a reprezenta o variabil categorial cu n categorii. De exemplu pentru variabila studii, care are trei categorii, vom avea nevoie de dou variabile dummy, prin a c ror valori combinate diferit rezult toate valorile variabilei categoriale:

STUDII

DUMMY1

DUMMY2

primare medii superioare

1 0 0

0 1 0

S revenim ns la exemplul cu viteza de inova#ie n cele dou tipuri de firme. Variabila TIPUL este variabila noastr categorial ; ntruct ea are deja dou categorii care sunt notate cu 1 si 0, ea poate fi folosit ca variabil dummy. La ecua#ia de regresie ini#ial care era: 2 = fl0 + B1 * X va trebui s adaug m noua variabil independent , tipul firmei. Astfel, ecua#ia noastr de regresie cu variabil dummy va fi: 2 = B0 + B1 * X1 + B2 * X2 Acum, X1, este variabila ANGAJA)I, iar X2 este variabila TIPUL (variabila dummy). Observa#i c ecua#ia nu are nimic deosebit de ceea ce am nv #at pn acum. Dar variabila X2 poate s ia doar dou valori. S vedem ce se ntmpl n fiecare caz n parte dac nlocuim valorile 1 si 0 n ecua#ia original :

143

Ecua#ia original este: Y= B0 + B1 * X1 + B2 * X2


Valorile lui X2 Ecua*ia de regresie devine: X2 = 0 Y=B0+B1*X1 Observa*ii Este ecua#ia pentru firmele de stat. Este ecua#ia pentru firmele particulare. Observa#i c am comasat coeficien#ii B0 si B1 care nu au al turat vreo variabil independent .

X2 = 1

Y = (B0+B2)+B1*X1

Cu ajutorul programului SPSS ecua#ia original de regresie se ob#ine n mod obi$nuit, introducnd variabila dummy n cmpul pentru variabile independente, ca orice alte variabile independente:

Pentru a vedea dac ob#inem ceva n plus prin folosirea variabilei dummy, vom introduce cele dou variabile independente ntr-un alt bloc, ap snd butonul NEXT din fereastra principal a comenzii de regresie (revede#i p r#ile anterioare ale capitolului n caz c a#i uitat). Comenzile celelalte r mn neschimbate, doar c din fereastra butonului STATISTICS vom bifa op#iunea R SQUARED CHANGE care arat ct de mult se mbun t #e$te modelul folosind nc o variabil independent (n cazul nostru pe cea dummy). Ap sam CONTINUE, apoi OK din fereastra principal si vom ob#ine foaia de rezultate (output). Vom analiza numai ceea ce ne intereseaz n mod special din output. Astfel, ne intereseaz tabelul prezentat n continuare, care arat dac modelul ce con#ine si variabila dummy este mai eficient dect cel care con#ine numai variabila ANGAJA+I.

144

Dou sunt elementele ce ne permit s estim m c modelul cu variabila dummy este mai eficient: (1)- observa#i c valoarea ajustat a coeficientului p trat de corela#ie multipl este mai mare n al doilea model. (2)- nu numai c valoarea lui R2 este mai mare pentru modelul dummy' dar saltul" de la un model la altul este statistic semnificativ. Pn aici, concluzia este c variabila dummy, tipul firmei, ne mbun t #e$te predic#ia. Urm torul tabel care ne intereseaz este cel ce prezint coeficien#ii ecua#iilor de regresie corespunz toare celor dou modele:

Din acest tabel ne intereseaz urm toarele elemente: (1) coeficien#ii nestandardiza#i de regresie. Astfel, ecua#ia original de regresie va fi: nr. luni = 42,79 + (-0,10)* nr. angaja&i + (-7,21)* tipul firmei Acum putem s preciz m ecua#iile separate pentru cele dou tipuri de forme f cnd apel la tabelul prezentat la pagina 144:

145

Ecua#ia original este: Valorile lui X2 X2 = 0

/ =42.79 + (-0.10) * X1, + (-7.21) * X2


Observa&ii Este ecua#ia pentru firmele de stat. Este ecua#ia pentru firmele particulare.

Ecua&ia de regresie devine: / = 42.79+ (-0.10) * X1

X2 = 1

/ = 35.58 + (-0.10)* X1

Observa#i c am comasat coeficien#ii B0 si B1 care nu au al turat vreo variabil independent .

Revenind la tabelul din output, de la pagina anterioar , elementele (2) si (3), precizeaz rezultatele testului t, care ne arat importan#a relativ a coeficien#ilor de regresie. Dac ar fi s reprezent m grafic liniile corespunz toare modelului de predic#ie ce corespunde fiec rui tip de firm n parte, atunci am avea graficul:
LUNI

Diferen*a dintre modele. Difer( doar constantele cu valoarea B2.

F = 42.79 + (-0.10)*X1
(FIRME DE STAT)

F = 35.58 + (-0.10)*X1
(FIRME PARTICULARE)

ANGAJA+I

Observ m c a$a cum am construit modelul nostru, am presupus c intensitatea (natura) rela#iei dintre num rul de angaja#i si viteza de inovare este aceea$i, ntre cele dou tipuri de firme diferind doar nivelul (viteza) de implementare. Aceast diferen# ntre modele este dat de coeficientul B2, corespunz tor variabilei dummy. ntruct acestui coeficient i corespunde o valoare semnificativ a testului t (a se vedea elementele 2 $i 3 ale tabelului de la pagina anterioar ), vom spune c tipul firmei afecteaz nivelul vitezei de implementare a inova#iei, n cazul n care natura rela#iei dintre num rul angaja#ilor $i timpul de adoptare a inova#iei ar r mne aceea$i.

146

Din urm torul tabel al foii de rezultate (prezentat mai sus), ne intereseaz s vedem dac precizia predic#iei noastre a crescut. R spunsul este pozitiv la aceast ntrebare: comparnd elementul (1) din tabelul de mai sus cu elementul similar din tabelul de la pagina 145 vom vedea c abaterea de la realitate" s-a redus de la 5,18 luni la 3,68 luni atunci cnd am luat n calcul si variabila dummy, deci erorile n predic#ie au sc zut. Observa#i c si intervalul delimitat de erorile minime si maxime a sc zut. O alt modalitate de a vedea dac ne-am mbun t #it precizia folosind variabila dummy este graficul probabilit #ilor cumulate ale reziduurilor standardizate:

Comparativ cu acela$i grafic n situa#ia n care nu #ineam cont de variabila dummy (graficul similar de la pagina 140) observa#i c punctele din graficul anterior sunt mult mai apropiate de linia corespunz toare probabilit #ilor cumulate ale curbei normale, nc un element ce sus#ine puterea ridicat de predic#ie a modelului cu variabila dummy.

147

Dar mai exist si alte dou variante de modele ce pot exista atunci cnd folosim variabile dummy: modelul n care avem constante identice (graficul din stnga, prezentat mai jos) si modelul n care avem interac&iune (graficul din dreapta, unde att constantele, ct si pantele liniilor sunt diferite).

Recomandat este modelul de interac*iune (cel prezentat n dreapta) pentru c ia n calcul toate posibilele diferen#e introduse de variabila dummy. Pentru a afla coeficien#ii de regresie ntr-un astfel de caz, n baza de date trebuie creat o variabil nou ob#inut prin nmul#irea variabilei dummy cu variabila (variabilele) independente. Acest produs, X1*X2 se nume$te termen de interac&iune. Astfel, ecua#ia general de regresie (cea pe care o ob#inem folosind SPSS) cu variabile dummy si interac#iune devine: / = B0 + B1*X1 + B2*X2 + B3*X1*X2 Pentru a afla apoi ecua#iile specifice, vom nlocui n ecua#ie variabila dummy, X2, cu valorile 0 si l. Folosind exemplul cu firmele vom avea:
A Ecua#ia original este:

/ = B0 + B1*X1 + B2*X2 + B3*X1*X2


Observa&ii Este ecua#ia pentru firmele de stat. Este ecua#ia pentru firmele particulare. Observa#i c am comasat coeficien#ii B0 $i B1 care nu au al turat vreo variabil independent .

Valorile lui X2 Ecua*ia de regresie devine: X2 = 0 2 = B0+B1*X1

X2 = 1

2 =(B0+B2) + (B1+B3)*X1

Observa#i c n acest caz diferen#a dintre constantele celor dou ecua#ii este B2, iar diferen#a dintre pantele celor dou linii este dat de coeficientul B3.

148

ANALIZA DE VARIANT (sau cum diferen*iem n contexte mai complexe)

Cuprins: - Analiza de variant - elemente teoretice Folosirea SPSS: Meniul ANALYZE - COMPARE MEANS - ONEWAY ANO VA - Folosirea SPSS: Meniul ANALYZE - GENERAL LINEAR MODEL - UNTVARIATE

'ir Ronald Fisher - geniul caustic al statisticii Fisher, contemporan cu al#i statisticieni britanici faimo$i, a fost - probabil dac nu cumva cel mai str lucit, atunci cu siguran# unul din cei mai productivi statisticieni ai tuturor timpurilor. Cu 300 de articole $i 7 c r#i la activ, Fisher a dezvoltat multe dintre conceptele de baz ale statisticii moderne: analiza de variant , pragul de semnifica#ie, ipoteza de nul, randomizarea subiec#ilor, etc. Legenda spune c Fisher a dovedit aptitudini pentru matematic nc de la 3 ani, cnd $i-a ntrebat bona Ct e o jum tate dintr-o jum tate?". Cnd i s-a r spuns c aceasta face un sfert, copilul a continuat 'i ct e o jum tate dintr-un sfert?" Dup ce i s-a spus c asta e o optime $i apoi c o jum tate dintr-o optime e o $aisprezecime, micul Fisher a continuat f r s mai ntrebe: 'i b nuiesc c o jum tate de $aisprezecime e o trezecidoime, nu?" n via#a adult , Fisher a fost un singuratic; nu se putea ab#ine s fac comentarii caustice la adresa celor din jur, indiferent de pozi#ia ocupat de ace$tia, astfel nct cei din jur l apreciau mai mult prin munca lui dect prin manierele sale. Ca $i Gosset, o mare parte din conceptele teoretice propuse de Fisher $i au originea n cei 14 ani n care el a lucrat la o ferm agricol experimental din nordul Londrei, unde f cea studii privind productivitatea cartofilor $i a cerealelor. Dar Fisher a devenit foarte cunoscut n cei cinci ani n care a fost invitat s petreac verile n mijlocul Statelor Unite la lowa State College din Ames, unde exista un puternic departament agronomic. Aici, unde se zice c verile erau a$a toride nct Fisher $i #inea toat ziua cearceafurile n frigider, el i-a cunoscut pe G. Snedecor $i pe E.F. Lindquist care au popularizat $i cizelat ideile brute ale lui Fisher r spndindu-le att n $tiin#ele exacte, ct $i n domeniul educa#iei $i psihologiei. Poate c f r verile fierbin#i din Ames, Ronald Fisher, un adept nfocat al controlului na$terilor (eugenia), nu $i-ar fi extins a$a repede ideile valoroase dincolo de cre$terea cartofilor...

149

Analiza de variant( - elemente teoretice


Se spune c cine st cu capul n ap nu poate s vad apa. Cu analiza de variant s-a produs un fenomen similar: ea face att de mult parte din felul nostru de a judeca lumea n care tr im, nct este de mirare de ce a fost descoperit a$a trziu n statistic . S lu m cteva exemple: S zicem c intra#i la o recep#ie, ntr-o sal foarte mare, plin de invita#i. Brusc, chiar dac oamenii sunt amesteca#i unii cu al#ii, f r a se separa ntr-un fel anume, ave#i impresia c n sal sunt trei grupuri de persoane. Cum v-a#i dat seama de asta? Probabil pentru c cei care fac parte din acela$i grup (de exemplu asiaticii) sunt mult mai pu#in diferi#i ntre ei dect cei care fac parte din grupuri diferite. F r s v fi#i con$tien#i, a#i aplicat aici principiul pe care se bazeaz analiza de variant . Alt exemplu. S presupunem c merge#i ntr-o #ar nou . n prima zi, observa#i o femeie cu p rul scurt care pune o scrisoare ntr-o cutie rotund , albastr . Dac pe m sur ce c l tori#i n acea #ar ve#i vedea c $i alte femei tunse scurt vor pune scrisori n cutii de tot felul de dimensiuni $i culori, ve#i concluziona c ceea ce conteaz sunt sexul $i lungimea p rului persoanei. Dac ns ve#i observa c toat lumea, indiferent de sex $i lungimea p rului, pune scrisorile numai n cutii rotunde $i albastre, atunci cutiile po$tale sunt cele ce conteaz , n timp ce persoanele sunt neimportante pentru concluziile noastre privind obiceiurile din acea #ar . Am folosit din nou, f r s $tim, principiul analizei de variant . Dac sunte#i familiariza#i cu psihologia dezvolt rii $i cu teoria lui Jean Piaget, atunci v ve#i da seama c analiza de variant este un tip de gndire, de ra#ionament, care face parte din ceea ce el a numit opera#ii formale", un stil de gndire abstract ce se achizi#ioneaz n jurul vrstei de 14 ani. Deci ar trebui s nu ave#i nici o problem n a asimila logica analizei de variant ; o folosi#i implicit de at#ia ani!

ANOVA
ANOVA nu este numele vreunui italian; este doar acronimul pentru analiza de variant (din englezescul ANalysis Of VAriance). Pentru a putea deprinde logica acestei metode statistice, s lu m un exemplu imaginar. S presupunem c un cercet tor este interesat n a ar ta c oamenii de pe trei continente (s zicem Asia, America de Nord si Africa) ar fi diferi#i ntre ei din punctul de vedere al n l#imii, n sensul c n l#imea depinde de continentul n care tr ie$te persoana. Cum ar putea aceast persoan s demonstreze acest lucru? Dac n l#imea nu ar fi o entitate care variaz , atunci ar fi simplu: am lua cte un individ din fiecare continent, i-am m sura pe cei trei si am stabili dac exist diferen#e. Dar n l#imea este o proprietate care variaz nu numai cnd compar m persoanele de la un continent la altul, ci si pentru indivizii din interiorul unui continent.
150

Astfel, de$i presupunem c asiaticii vor fi n general mai mici de statur dect americanii, de exemplu, n realitate vom ntlni si asiatici mai nal #i dect unii americani, si invers.

Dac am ncerca o reprezentare grafic a situa#iei descris de exemplul nostru, ea ar ar ta ca n imaginea de mai sus. Astfel, cele trei linii curbe mici diferite descriu distribu #ia n l#imii n cele trei continente (Asia, Africa si America, de la stnga la dreapta). Linia mai mare descrie distribu#ia n l#imii pe toate trei continentele luate la un loc. Observa#i c avem trei medii (notate aici cu litere latine n loc de litere grece$ti, pentru a fi mai u$or de citit) corespunz toare mediei n l#imii pe fiecare continent n parte (M1 - pentru Asia, M2 pentru Africa $i M3 - pentru America). Mai avem $i o medie a n l#imii popula#iei totale, de pe cele trei continente, notat aici cu GM (din englezescul grand mean - marea medie). n partea dreapt a desenului am reprezentat pozi#ia unui scor x din popula#ia american fa# de media grupului din care face parte (distan#a notat cu a pe desen) $i fa# de media total a popula#iei celor trei continente (distan#a notat cu b). Cum ar trebui s judec m pentru a ne confirma ipoteza conform c reia oamenii de pe cele trei continente au n l#imi ce difer semnificativ, sau - altfel spus continentul de provenien# afecteaz n l#imea locuitorilor s i? Putem face aici o analogie cu un aparat de radio la care ncerc m s distingem trei posturi de radio, trei sta#ii ce emit pe frecven#e apropiate. Ca s putem s le distingem, ar trebui ca semnalele emise de fiecare sta#ie s dep $easc n intensitate zgomotul" produs de interferen#e (zonele unde se intersecteaz semnalul de la dou sta#ii). n cazul nostru, varia#ia total a n l#imii popula#iei celor trei continente poate fi descompus n dou p r#i: o parte din varia#ie se datoreaz abaterilor fiec rui scor de la media grupului din care face (distan#a a), iar cealalt parte de varia#ie este produs de abaterile fiec rui scor de la media total a popula#iei (distan#a b ). Pentru a putea distinge ntre grupuri, ar trebui ca prima component a varia#iei s fie mai mic dect cea de-a doua. Cu alte cuvinte, ar trebui ca persoanele aflate n acela$i grup (pe acela$i continent) s difere mai pu#in ntre ele, dect persoanele aflate pe continente diferite. Atunci cnd varia#ia inter151

grupuri o dep $e$te pe cea intra-grupuri vom putea distinge bine ntre cele trei grupuri. Analiza de variant , ANOVA, realizeaz tocmai acest lucru: calculeaz raportul dintre varia#ia provocat de diferen#ele inter-grupuri $i varia#ia cauzat de diferen#ele intra-grup $i stabile$te dac acest raport este suficient de mare pentru a putea distinge ntre grupuri. S lu m n continuare un exemplu numeric simplu pentru a vedea exact logica ANOVA n ac#iune. Exemplu:
Un psiholog social este interesat s( m(soare influen*a informa*iilor anterioare (dac( are sau nu antecedente) pe care o persoan( le are despre un infractor n evaluarea gradului de vinov(*ie ntr-o infrac* iune. Astfel, la 15 subiec*i le este ar(tat( o caset( video care prezint( procesul unei persoane condamnat( pentru falsificare de cecuri bancare. Anterior subiec*ii au primit dosarul inculpatului care con*inea acelea&i informa*ii pentru to*i subiec*ii, cu excep*ia faptului c( pentru 5 dintre ace&tia inculpatul era prezentat ca avnd antecedente, pentru al*i 5 - era men*ionat c( inculpatul era la prima abatere, iar pentru restul de 5 subiec*i nu era f(cut( nici o men*iune (grupul de control). Dup( vizionarea casetei, subiec*ii trebuiau s( evalueze gradul de vinov(*ie al persoanei inculpate pe o scal( de la l - sunt complet sigur C( inculpatul e inocent" pn( la 10 -sunt complet sigur c( inculpatul e vinovat".

Scopul cercet rii este de a ar ta c gradul de vinov #ie evaluat de subiec#ii din cele trei grupuri este diferit semnificativ. Ipoteza de nul n acest caz este c cele trei grupuri de subiec#i nu difer semnificativ, deci ele provin de fapt din aceea$i popula#ie. Rezultatele acestui studiu imaginar sunt prezentate n tabelul de mai jos:
Grupul cu antecedente" Evaluarea Devia#iil e de la media grupului +2 -1 -3 +2 0 0 Devia#iile p trate Grupul Evaluarea f(r( antecedente" Devia tiile de la media grupului +1 -3 -1 +3 0 0 Devia#iile p trate Evaluarea Grupul de control Devia#iil e de la media grupului -1 +1 4 -2 -2 0 Devia#iile p trate

10 7 5 10 8

40 Ml=40/5=8 Sl2=18/4=4,5

4 1 9 4 0 18

5 1 3 7 4 20 M2=20/5=4 S22=20/4=5

1 9 1 9 0 20

4 6 9 3 3 . 25

1 1 16 4 4 26

M3=25/5=5 S32=26/4=6,5

Pentru fiecare grup n parte am calculat media $i varianta popula#iei din care presupunem c provine acest grup. Reamintim c estimarea variantei popula#iei din care face parte un grup pe baza rezultatelor din acel grup se face folosind formula:
2 = SS SS = N 1 df 152

Pe baza ipotezei de nul, c cele trei grupuri provin toate din aceea$i popula#ie, putem calcula varianta acestei popula#ii totale care este determinat de variantele intra-grup. Aceasta va fi de fapt media aritmetic a celor trei variante intra-grup: MSw=(Sl2+S22+S32)/3=(4,5+5+6,5)/3=16/3=5,33 Simbolul w" desemneaz tocmai termenul intra-grup (din cuvntul englezesc withingroups). Acum ar trebui s determin m componenta inter-grupuri a variantei popula#iei totale. Vom calcula aceast valoare pornind de la valorile mediilor fiec rui grup n parte si considernd abaterile acestora de la marea medie. Tabelul urm tor ne ajut s realiz m acest lucru:
Mediile grupurilor (M) 4 8 5 17 Devia*iile lor de la marea medie Devia*iile p(tratice de la marea medie (M-GM) (M-GM)2 -1,67 2,79 +2,33 5,43 -0,67 0,45 -0,01 8,67

GM=17/3=5,67; S2=8,67/(3-l)=8,67/2=4,34

Acum trebuie s estim m varianta popula#iei totale cauzat de diferen#ele dintre mediile celor trei grupuri. Acum trebuie s invers m unul din procedeele prezentate n capitolul patru (paginile 92-94). Acolo estimam varianta unei popula #ii (distribu#ii) de medii pornind de la rezultatele unei popula#ii individuale. Pentru aceasta, mp r#eam varianta popula#iei de cazuri individuale la num rul de cazuri din fiecare e$antion, conform formulei:

2 m

2 N

unde m este varianta distribu#iei de medii (e$antioane), iar 2 este varianta popula#iei de cazuri individuale. n cazul nostru, situa#ia este tocmai invers : cunoa$tem varianta distribu#iei de medii (notat cu S ) si dorim s o estim m pe cea a popula#iei. Deci va trebui s nmul&im aceast variant cu num rul cazurilor din fiecare e$antion (n exemplul de mai sus, cu 5, pentru c avem 5 subiec#i n fiecare e$antion). Astfel, MSB= S2*N=4,34*5=21,7. Acum avem toate elementele - cele dou componente ale variantei popula#iei totale pentru a calcula testul F (ANOVA).
153

Formula testului este:

F =

MSB M SW

Numele testului vine, evident, de la numele descoperitorului s u, Sir Ronald Fisher. Distribu#ia testului (dup care se calculeaz probabilitatea ca un anume rezultat s fie rodul ntmpl rii sau al unor factori de varia#ie sistematic ) este prezent de obicei la sfr$itul oric rui manual de statistic si se calculeaz n func#ie de doi parametri: gradele de libertate inter-grup (valoare dat de num rul de grupuri minus unu) si gradele de libertate intra-grup (valoare dat de num rul total de subiec#i mai pu#in num rul grupurilor). Se alege astfel valoarea-prag pentru care respingem ipoteza de nul si accept m ipoteza de cercetare (la fel ca si testul t). Evident, aceast valoare trebuie s fie supraunitar . n cazul exemplului nostru, F=21,7/5,33=4,07. Valoarea-prag a lui F trebuie c utat n tabele n dreptul lui 2 (gradele de libertate inter-grup) si 12 (gradele de libertate intra-grup), pentru un prag de semnifica#ie de 0,05. ntruct aici ob#inem valoarea 3,89, iar rezultatele noastre sunt mai mari, mai extreme dect valoarea prag, vom putea respinge ipoteza de nul conform c reia cele trei grupuri provin din aceea$i popula#ie $i accepta ipoteza de cercetare care afirm c ele provin din popula#ii diferite. Implicit, acest rezultat sus#ine ideea c informa#iile anterioare au influen#at semnificativ evaluarea vinov #iei inculpatului.

154

Folosirea SPSS: Meniul ANALYZE - COMPARE MEANS - ONE-WAY ANOVA


S vedem acum cum folosim programul SPSS pentru a calcula testul F. Vom utiliza ca baz de date, rezultatele de la pagina 98, unde prezentam nivelul salarial la angajare si la cinci ani dup aceea pentru 30 de subiec#i, dintre care 10 aveau studii primare, 10 - studii medii si 10 - studii superioare.
Studii 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 Sal_ini 158 165 145 189 198 197 168 201 185 156 175 198 199 201 201 220 210 214 205 301 332 341 221 206 298 301 332 358 598 654 214 258 245 Sal_fin5 268 198 158 199 201 220 205 203 185 168 178 201 203 225 260 280 274 298 305 582 542 392 445 401 502 403 503 402 854 954 425 725 625

Exist mai multe tipuri de analiz de variant . Cel despre care am discutat pn n prezent se mai nume$te ANOVA unifactorial, ntruct eviden#iem existen#a/influenta unui singur factor de varia#ie (n exemplul nostru, informa#ia anterioar ) asupra unei variabile dependente. S nc rc m baza de date (dac a#i salvat-o n cursul parcurgerii capitolului 5) sau s o reintroducem n computer si s definim valorile variabilei STUDII dup cum urmeaz :
155

valoarea l desemneaz studiile primare, valoarea 2 - studiile medii si valoarea 3 - studiile superioare. Baza de date ar trebui s arate astfel (dac n prealabil a#i marcat op#iunea VALUE LABELS din meniul VIEW).

Observa#i c avem trei variabile n baza de date: STUDII (variabil independent , cu trei grade de intensitate, deci care mparte subiec#ii n trei grupuri), SAL_INI (salariul ini#ial la angajare, exprimat n mii lei, variabil dependent ) si SAL_FIN5 (salariul dup cinci ani, exprimat tot n mii lei, tot variabil dependent ). Scopul cercet rii este s stabilim dac variabila independent , nivelul studiilor subiec#ilor, influen#eaz nivelul salarial al subiec#ilor (1-am luat n calcul numai pe cel ini#ial). ntruct avem trei grupuri vom aplica testul F, ANOVA unifactorial. Dac am fi avut de comparat doar dou grupuri, atunci am fi aplicat, ca de obicei, testul t. ntruct n esen# ajungem s stabilim dac grupurile difer ntre ele, deci dac au mediile diferite, comanda pentru ANOVA unifactorial o vom g si n submeniul COMPARE MEANS din meniul ANALYZE, ca n imaginea de mai jos:

Odat activat aceast comand , ea va nc rca pe ecran fereastra de mai jos:


2

1 3

5 156

S analiz m detaliat fereastra: (1)- este, ca de obicei n SPSS, cmpul ce prezint toate variabilele din baza de date. (2)- este cmpul unde vom introduce variabilele dependente (n cazul nostru SAL_INI) (3)- aici se introduce variabila independent (pentru noi STUDII) (4)- butonul acesta permite planificarea dinainte a unor compara#ii ntre grupurile generate de variabila independent . Dac nu bifam nimic din fereastra care se deschide prin ap sarea butonului, atunci programul va lua n calcul toate compara #iile posibile, dar post-hoc. (5)- este butonul ce stabile$te tipul testelor de contrast post-hoc (vom discuta detaliat n continuare) (6)- este un buton obi$nuit ce con#ine elemente de statistic descriptiv . Dac a#i introdus corect variabila dependent $i pe cea independent , fereastra ar trebui s arate astfel:

Prezent m n continuare fereastra corespunz toare butonului CONTRASTS, de$i nu vom marca nici una din op#iunile ei.

Ar trebui s intr m n prea multe detalii de statistic superioar , legate si de analiza de variant si de regresie pentru a explica cum se folosesc op#iunile din aceast fereastr . Pentru uzul comun ns , neluarea n seam a op#iunilor acestui buton nu afecteaz
157

rezultatele ob#inute. Ap sa#i CANCEL si reveni#i la fereastra principal . Activ m butonul POST-HOC, de care avem nevoie si care deschide pe ecran fereastra de mai jos:

Nu v speria#i c sunt att de multe op#iuni, att de multe teste! Toate fac n principiu acela$i lucru: ajusteaz sau confirm faptul c diferen#ele ob#inute pe ansamblu prin analiza testului F se reg sesc si la nivelul compara#iilor dintre grupuri, luate dou cte dou . Este logic s aplic m aceste teste. Gndi#i-v c am aplica ANOVA unifactorial pentru o variabil care are 100 de grade de intensitate, deci vom avea 100 de grupuri ce vor trebui comparate nu numai n ansamblu (ceea ce face testul F), ci si dou cte dou (cu testul t, de exemplu). Chiar dac n realitate nu variabila independent nu ar avea nici un efect (fapt confirmat sau infirmat de testul F), la compara#iile dintre grupuri luate dou cte dou avem $anse ca m car pentru cinci dintre acestea s g sim diferen#e, care apar din ntmplare. Astfel, pragurile de semnifica#ie pentru aceste teste t trebuie ajustate n func#ie de num rul grupurilor, tocmai ceea ce realizeaz testele de compara#ie multipl din fereastra POSTHOC. n cazul nostru vom alege BONFERRONI, unul din testele obi$nuite n acest caz. Dup ce ap sa#i CONTINUE $i reveni#i n fereastra principal , activa#i butonul OPTIONS pentru a vedea c pute#i calcula unii parametri descriptivi bifnd op#iunile din fereastra care astfel se deschide:

158

Ap sa#i din nou butonul CONTINUE si apoi butonul OK din fereastra principal pentru a activa foaia de rezultate. S analiz m fiecare component a foii de rezultate. Mai nti, apare un tabel, precum cel care urmeaz si care este tabelul principal al analizei:

Elementele acestui tabel sunt: (1)- sursele de varia#ie. Pe aceast coloan sunt trecute componentele variantei popula#iei totale. (2)- aici sunt notate devia#iile p tratice care intr n componen#a fiec rui tip de variant (intra-grup si inter-grup) (3)- n aceast coloan programul arat gradele de libertate corespunz toare modelului nostru experimental si pentru care se calculeaz valoarea-prag a testului F. (4)- acestea sunt componentele testului F, adic MSW $i MSB. Dac observa#i cu aten#ie, mp r#ind suma p tratelor de pe un rnd la num rul gradelor de libertate corespunz tor, ob#inem valorile pentru MS-uri. (5)- aici este valoarea testului F, ob#inut prin mp r#irea mediei varia#iei inter-grup la valoarea mediei varia#iei intra-grup (MSBj MS\j) (6)- este valoarea pragului de semnifica#ie pentru testul F, sau probabilitatea de a gre$i atunci cnd respingem ipoteza de nul. n cazul de fa# , pentru c valoarea lui p este foarte mic (mai mic de 0,05), putem s respingem ipoteza de nul si s accept m ipoteza de cercetare. Pn acum, din datele foii de rezultate putem concluziona c , pe ansamblu, studiile afecteaz nivelul de salarizare avut ini#ial de subiec#ii no$tri. Vede#i c am subliniat pe ansamblu" pentru c rezultatul analizei de variant ANOVA unifactorial se refer la diferen#ele globale ce apar ntre grupuri, care se reflect n varia#ia popula#iei totale, f r a preciza ntre care anume grupuri apar diferen#ele.

159

Tabelul urm tor din foaia de rezultate precizeaz tocmai acest lucru, f cnd compara#iile multiple ntre toate perechile de dou grupuri (testul Bonferroni).

Tabelul con#ine cteva elemente mai importante: (1)- nivelul de referin# al variabilei independente, fa# de care se face compara#ia. El este notat aici cu I (2)- este coloana ce arat celelalte nivele ale variabile independente ce sunt comparate cu nivelul de referin# (aceste nivele sunt notate cu J) (3)- n aceast coloan este prezentat diferen#a dintre nivelele I si J, n aceast ordine. Spre exemplu, diferen#a salarial medie dintre cei cu studii primare (nivelul I) si cei cu studii superioare (nivelul J) este de - 158,90 mii lei, a$a cum arat explica#ia (3) (4)- stelu#a care apare n dreptul valorilor de pe coloana (3) este explicat sub tabel si arat unde anume, ntre care grupuri apare o diferen# semnificativ (pragul de semnifica#ie mai mic de 0,05) ntre medii. (5)- valoarea exact a pragului de semnifica#ie este trecut n aceast coloan . Din tabelul de mai sus vedem c apare doar o singur diferen# semnificativ ntre dou grupuri, ntre cei cu studii primare si cei cu studii superioare. O ilustrare grafic ar fi mai util . Graficele ANOVA se reprezint de obicei, corect, sub forma graficelor-bar , unde barele arat categoriile sau grupurile determinate de variabila independent , iar n l#imea barelor reprezint nivelul acestor grupuri din perspectiva variabilei dependente m surate. Vom activa fereastra pentru grafice cu bare, simple, unde datele reprezint grupuri de cazuri (dac a#i uitat cum se face acest lucru, revede#i primele capitole). Fereastra ar trebui s arate precum cea de mai jos:
160

Vom introduce variabila independent n cmpul notat CATEGORY AXIS, iar variabila dependent (SAL_INI) va fi introdus n cmpul VARIABLE. Reamintim c , la nceput, acest cmp nu este activ. Pentru a-1 putea activa este necesar s marca#i op#iunea OTHER SUMMARY FUNCTION situat deasupra sa. Imediat ce am f cut aceste modific ri, ap sam butonul OK si graficul cu bare va apare imediat n foaia de rezultate, ca n imaginea urm toare:

Observa#i c scala de m sur a variabilei dependente debuteaz de la valoarea 100, nu de la O, astfel c nu trebuie s aprecia#i, ochiometric", diferen#ele, pn nu aduce#i scala de m sur la valoarea de origine. Orice modificare a graficului se face dup ce n prealabil activa#i modul de editare, efectund un dublu-click asupra sa. Apoi selecta#i zona pe care dori#i s o modifica#i (tot cu dublu-click) si modifica#i parametrii din fereastra astfel ap rut . Din grafic, din modul de dispunere a barelor si din informa#iile pe care le avem din foaia de rezultate, observ m c salariul ini#ial creste pe m sur ce creste si nivelul studiilor. Cu toate acestea, diferen#e semnificative g sim doar ntre nivelurile extreme de educa#ie, cei cu
161

studii medii situndu-se la mijloc. Interpretnd plastic aceste rezultate, imagina#i-v c cele trei bare ar reprezenta ni$te trepte. Atunci cnd ntre dou niveluri (trepte) nu este o diferen# semnificativ este ca si cum cobornd sau urcnd treptele nu a#i sim#i diferen#a de nivel. Cnd ns diferen#a este semnificativ , atunci ar fi ca #i cum trecnd de la o treapt la alta a#i depune un efort considerabil, n cazul de fa# , trecnd de la o treapt la alta, nu sim#im nici o diferen# ; numai cnd s rim cte dou trepte (cum este trecerea de la studii primare" la studii superioare") vom sim#i o diferen# .

Folosirea SPSS: Meniul ANALYZE - GENERAL LINEAR MODEL UNIVARIATE


Uneori ne intereseaz s afl m care este influen#a mai multor factori (variabile independente) asupra unei variabile dependente. Folosind doar ceea ce am nv #at pn acum (testul t si ANOVA unifactorial) nu putem s eviden#iem dect influen#a separat a fiec rui factor n parte. Am putea utiliza regresia cu variabile dummy, dar ar fi destul de complicat pentru c ar trebui s lucr m cu multe variabile dummy si modelul ecua #iei de regresie ar fi foarte complex si greu de interpretat. Pentru astfel de cazuri a fost inventat analiza de variant factorial (ANOVA SIMPLE FACTORIAL este denumirea ncet #enit n c r#ile de statistic engleze$ti). Logica acestei metode este identic cu cea prezentat anterior; coeficientul F al testului ANOVA m soar raportul dintre varia#ia cauzat de mp r#irea pe grupuri si varia#ia intrinsec a grupurilor. Dac logica testului este aceea$i, nu identic este rezultatul: n analiza de variant simplu factorial sunt dou tipuri de note F care ne intereseaz , corespunz toare celor dou tipuri de efecte pe care le putem m sura. Cele dou tipuri de efecte sunt: efecte principale: m soar influen#a unei variabile independente asupra celei dependente, indiferent de ac#iunea celorlalte variabile independente efecte de interac#iune: m soar influen#a combinat a dou sau mai multor variabile independente asupra variabilei dependente. Nu vom insista asupra detaliilor legate de combina#iile acestor efecte pe care le putem ntlni n $tiin#ele sociale. O trecere detaliat n revist a acestora poate di consultat n volumul Metodologia cercet rii n $tiin#ele sociale (Cornel Havrneanu, 2000, EROTA TIPO). Noi vom prezenta n continuare modul de folosire al programului SPSS pentru calcularea testului F n analiza de variant simplu factorial . Vom utiliza pentru aceasta o baz de date imaginar , referitoare la nota ob#inut de ni$te studen#i la un examen, n condi#iile n care #inem cont de ziua examin rii $i nivelul lor de anxietate.

162

V prezent m mai jos datele, pentru a le putea introduce n programul SPSS:

NOTA 9 9 8 10 9 10 6 8 7 7 6 5 6 7 8 8 8 7 10 7 8 7 8 9 6 5 7 5 6 5 8

ANX 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2

ZI EXAM 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Observa#i c avem dou variabile independente (ANX - nivelul de anxietate $i ZI_EXAM - ziua examin rii), fiecare din ele avnd dou grade de intensitate. Valorile variabilelor independente sunt: pentru - anxietate - l="mic " $i 2="mare", - ziua examin(rii - l="luni" $i 2="vineri". Variabila dependent este nota ob*inut( la examen.

163

Odat introdus n computer baza de date ar trebui s arate ca n imaginea de mai jos, n condi#iile n care activ m comanda VALUE LABELS din meniul VIEW:

Scopul cercet rii noastre ar fi s ar t m care este efectul nivelului anxiet #ii si a zilei de examinare (la nceputul sau la sfr$itul s pt mnii) asupra notei ob#inute de studen#i la examen. Desigur, nota la un examen nu depinde prea mult de ace$ti factori, dar folosind ANOVA simplu factorial putem vedea n ce m sur ei o influen#eaz . Activarea comenzilor pentru ANOVA simplu factorial se face din meniul ANALYZE GENERAL LINEAR MODEL - UNIVARIATE, ca n imaginea de mai jos:

Faptul c metoda se g se$te sub meniul GENERAL LINEAR MODEL, arat leg tura dintre analiza de variant si regresie (pe care nu o vom discuta aici), iar op#iunea UNIVARIATE indic faptul c avem doar o singur variabil dependent pe care o m sur m.

164

Odat activat comanda UNIVARIATE, pe ecran apare fereastra de mai jos:


2

3 1 4 5

Vom explica aceast fereastr n detaliu, mai pu#in butoanele cu op#iuni din partea sa dreapt pe care le vom detalia mai trziu: (1)- este cmpul ce con#ine variabilele din baza de date (2)- aici se introduce variabila dependent . Observa#i c avem loc doar pentru o singur variabil dependent (3)- n acest cmp introducem variabilele independente (factorii) care ne intereseaz si al c ror efect l control m sau l consider m fix, necauzat de ntmplare (4)- variabilele ce pot fi considerate independente, care nu ne intereseaz n mod direct sau a c ror ac#iune nu o putem controla se introduc n acest cmp (5)- dac n studiu avem variabile independente sau alte variabile dependente care b nuim c ar fi n leg tur sau ar influen#a variabila dependent ce ne intereseaz , le vom introduce n acest cmp. Prin aceast opera#iune vom putea s vedem dac factorii fic$i (cei din cmpul FIXED FACTORS) influen#eaz variabila dependent indiferent de ac#iunea factorilor covarian#i. (6)- aici se trec valorile pe care le putem folosi atunci cnd b nuim c unele variabile independente (factori) ar corela ntre ei ceea ce ar afecta rezultatele. Este ns o op#iune pentru utilizatorii avansa#i si recomand m nefolosirea ei f r cunoa$terea precis a semnifica#iei sale.

165

n cazul nostru, un exemplu simplu, vom considera cele dou variabile independente ca pe factori fic$i $i i vom introduce n cmpurile corespunz toare, ca n imaginea urm toare:

Observa#i c n partea dreapt fereastra principal are o serie de butoane ce con#in op#iuni complexe de analiz . Le vom discuta pe rnd, ncercnd s explic m ct mai multe din op#iunile ap rute pe ferestrele acestor butoane. Cu toate acestea, preciz m de la nceput c nu vom folosi n analiz att de multe op#iuni; ele sunt pentru utilizatorii avansa#i si pentru design-uri experimentale mult mai complexe, n situa#iile cele mai frecvente, op#iunile de care avem nevoie sunt mult mai pu#ine.
1 2

Butonul MODEL activeaz o fereastr precum cea prezentat mai sus. Op#iunile din aceast fereastr folosesc la construirea unor modele care intereseaz pe experimentator, n condi#iile n care situa#ia investigat este prea complicat (ex. sunt foarte multe variabile luate n calcul) si mai importante sunt ni$te modele mai simple, folosind factori mai pu#ini. S analiz m pu#in fereastra: (1)- este op#iunea marcat implicit, care ia n calcul toate efectele posibile si toate combina#iile de factori. Pentru modelele simple este recomandat s o l sa#i a$a (2)- n cazul n care dori#i s simplifica#i modelul cu care lucra#i $i v intereseaz numai
166

anumite efecte sau numai anumi#i factori vom bifa aceast op#iune care va activa automat cmpurile $i butoanele ce se g sesc dedesubt. (3)- folosind op#iunile ce se deschid din cmpul n care scrie INTERACTION, alegem efectele care ne intereseaz s le analiz m, iar cu ajutorul butonului cu s geat vom selecta factorii pentru care dorim s se calculeze acele efecte. (4)- sunt op#iuni ce permit alegerea tipului de interac#iune dintre variabilele independente (ct de complex s fie interac#iunea) $i permit calculul unor coeficien#i de regresie ai modelului (am precizat anterior c ntre regresie $i ANOVA exist o leg tur strns ) Pentru exemplul nostru, nu vom alege nici una din op#iunile din aceast fereastr ; vom l sa marcat doar op#iunea implicit , FULL-FACTORIAL. Ap sa#i CONTINUE si reveni#i n fereastra principal , pentru a activa urm torul buton, CONTRAST, care v-a deschide o fereastr ca cea de mai jos:

De op#iunile acestei ferestre avem nevoie: ele compar ntre ele diferitele grupuri rezultate din mp r#irea subiec#ilor dup valorile sau categoriile variabilelor independente. Observa#i c doar variabilele independente sunt trecute aici. Cum se lucreaz cu aceste op#iuni? Alege#i mai nti variabila independent pentru care dori#i s calcula#i contrastul (diferen#a dintre nivelele sale de varia#ie). Apoi, alege#i tipul de contrast din cmpul CONTRAST. De aici, tipul de contrast recomandat este DIFFERENCE. Ca exemplu, am ales, variabila ANX, nivelul anxiet #ii. Prin marcarea tipului de contrast prin diferen# , noi cerem programului s vad dac ntre cele dou nivele de anxietate pe care le pot avea subiec#ii no$tri exist diferen#e n ceea ce prive$te notele ob#inute (adic vom verifica dac cei mai anxio$i ob#in note semnificativ diferite de cei mai pu#in anxio$i). Pentru a activa un anume tip de contrast, dup ce 1-a#i ales trebuie s ap sa#i butonul CHANGE. Mai pute#i modifica $i categoria de referin# , alegnd-o pe prima sau pe ultima dintre categoriile ce descriu o anume variabil independent . Ap sa#i CONTINUE dup ce a#i ales tipul de contrast pentru a reveni la fereastra principal .

167

Butonul PLOTS, care activeaz fereastra de mai jos, este dedicat reprezent rilor grafice:

Men#ion m totu$ i c de$i reprezentarea rezultatelor ANO VA folosind grafice cu linii nu este corect din punct de vedere conceptual (cele mai indicate fiind graficele cu bare), dat fiind popularitatea de care se bucur aceste tipuri de grafice, realizatorii programului SPSS au inclus aici numai grafice cu linii. Vom folosi $i noi aceast fereastr pentru a ilustra grafic influen#a celor doi factori pe care i-am luat n calcul (anxietatea $i ziua examin rii) asupra variabilei dependente (not la examen). Observa#i c avem trei cmpuri: 1 HORIZONTAL AXIS: aici se introduce variabila independent ale c rei categorii dorim s le reprezent m pe axa X 1 SEPARATE LINES: liniile diferite ale graficului vor reprezenta categorii diferite ale factorului care este introdus n acest cmp 1 SEPARATE PLOTS: dac mai avem un al treilea factor $i acesta este introdus n acest cmp, vom ob#ine tot attea grafice cte categorii descriu factorul, grafice care arat rela#ia dintre variabilele introduse anterior pentru diferite niveluri ale factorului al treilea. Pe noi ne intereseaz s reprezent m interac#iunea dintre cei doi factori lua #i n calcul n modelul nostru. Ca urmare, vom reprezenta rezultatele la examen n func#ie de anxietate (trecut pe axa X) si pentru cele dou zile de examinare (reprezentate prin linii separate). Pentru aceasta vom introduce variabilele independente ca n imaginea de mai jos:

168

Ap sam apoi butonul ADD, care abia acum s-a activat, iar imaginea va fi:

n acest fel putem realiza mai multe grafice, ntruct dup ap sarea butonului ADD, cmpurile ferestrei s-au golit. Revenim din nou n fereastra principal pentru a activa butonul POST-HOC care va deschide fereastra:

Acest buton are op#iuni similare cu butonul cu acela$i nume din fereastra ANOVA ONE-WAY. El se folose$te numai atunci cnd una sau mai multe dintre variabilele independente are/au mai mult de dou nivele de varia#ie (deci mpart subiec#ii n mai mult de dou grupuri). Se vor realiza astfel toate compara#iile ntre toate perechile de grupuri $i aceste teste ajusteaz pragul de semnifica#ie n func#ie de num rul grupurilor de comparat (revede#i ANOVA unifactorial dac a#i uitat la ce folosesc aceste teste). Ca $i n cazul anterior, vom recomanda de aici folosirea testului Bonferroni. Pentru exemplul nostru nu avem nevoie de compara#ii POST-HOC. De altfel, dac marca#i vreo op#iune aici, programul va afi$a pe foaia de rezultate un mesaj de eroare prin care v spune c nu a putut aplica testele ntruct sunt mai pu #in de trei categorii ale variabilei/variabilelor independente. Deci vom reveni n fereastra principal f r s activ m nici o op#iune. Butonul SAVE din fereastra principal va activa o fereastra precum cea prezentat n continuare:
169

Observa#i c op#iunile de aici sunt identice cu cele ale butonului SAVE din fereastra pentru regresia liniar . Nu vom mai comenta op#iunile de aici, care sunt identice cu cele de la regresie; men#ion m doar faptul c ele faciliteaz tratarea analizei de variant ca un model particular de regresie. Nu recomand m folosirea op#iunilor de aici dect celor care cunosc bine regresia. Urm torul buton din fereastra principal , care activeaz o fereastra precum cea de mai jos, este unul specific analizei de variant simplu factoriale, a$a c l vom analiza mai n detaliu.
2 1

Ca orice buton denumit OPTIONS din SPSS si acesta de fa# ofer op#iuni pentru calcularea anumitor parametri statistici. Astfel: (1)- prezint toate combina#iile de factori pentru care avem grupuri diferite de subiec#i si va permite apoi calcularea mediei fiec rui grup de subiec#i n parte. Op#iunea OVERALL se refer la media calculat atunci cnd subiec#ii nu sunt mp r#i#i n grupuri, cnd rezultatele lor sunt luate n calcul nediferen#iind ntre nivelurile factorilor din model
170

(2)- este cmpul n care se trec factorii pentru care dorim s calcul m mediile grupurilor de subiec#i (3)- reprezint op#iuni ce permit calcularea mai multor parametri. Dintre toate, ne intereseaz calculul parametrilor descriptivi (media, devia#ia standard, minimul si maximul), precum si testele de omogenitate (acestea trebuie s nu fie semnificative pentru a putea aplica ANOVA simplu factorial). Dac selecta#i corect op#iunile corespunz toare pentru aceast fereastr , atunci ea ar trebui s arate precum cea de mai jos:

Reveni#i apoi n fereastra principal si ap sa#i OK pentru ca s ob#ine#i foaia de rezultate. Primele elemente ale output-ului se refer la parametrii descriptivi ai modelului:

171

Astfel, primul tabel precizeaz num rul de subiec#i folosi#i n cercetare pentru fiecare grup n parte determinat de nivelurile fiec rei variabile independente (factor). Al doilea tabel precizeaz mediile totale (cele din treimea inferioar a tabelului), precum si cele corespunz toare fiec rui subgrup de subiec#i, subgrup determinat de categoriile factorilor din model. Ceea ce ne-a fost prezentat pn acum este rezultatul op#iunilor marcate de noi din fereastra butonului OPTIONS. Mai departe, n foaia de rezultate sunt prezentate elementele cele mai importante ale outputului, rezultatele testului F:

Tabelul cu testul lui Levene reprezint tocmai testul de omogenitate de care vorbeam la fereastra butonului OPTIONS. n analiza de variant simplu factorial , cele mai importante elemente se refer la testul F, prezentat n tabelul anterior. Din tot tabelul pe noi ne intereseaz numai cele trei linii, marcate prin acolade. (1)- arat variabilele (factorii) ale c ror efecte le lu m n calcul. Astfel, linia cu ANX arat efectul principal al acestui factor, indiferent de ac#iunea celuilalt factor, linia ZI_EXAM arat efectul principal pentru aceast variabil , iar linia ANX*ZI EXAM se refer la efectul de interac#iune dintre cei doi factori, dac ei $i combin efectele atunci cnd ac#ioneaz asupra variabilei dependente . (2)- aici sunt prezentate testele sau notele F corespunz toare efectelor principale si de interac#iune din model (3)- acestea sunt pragurile de semnifica#ie pentru testele F corespunz toare. Analiza acestui tabel, n exemplul de fa# , arat c dintre cele trei note sau teste F, doar unul singur este semnificativ (p<0,05) si anume cel corespunz tor rndului ANX, deci cel corespunz tor efectului principal al variabilei anxietate". Restul efectelor sunt nesemnificative.
172

Interpretarea general a acestui efect principal este aceea c anxietatea influen#eaz nota ob#inut de subiec#i la examen, indiferent de ziua de examinare. Pentru a vedea n ce fel nivelul anxiet #ii afecteaz nota la examen, trebuie s ne uit m n tabelele de contrast (op#iunile activate din fereastra butonului CONTRAST):

Din primul tabel de mai sus vedem c testul de contrast a f cut diferen#a dintre nota la examen ob#inut de subiec#ii cu nivel ridicat de anxietate si cei cu un nivel sc zut (LEVEL 2 vs. LEVEL1). Aceast diferen# a fost comparat cu situa#ia n care cele dou grupuri ar fi ob#inut valoarea zero (HYPOTHESIZED VALUE). Pragul de semnifica#ie (notat cu SIG) ne arat c diferen#a a fost semnificativ , iar sensul diferen#ei (faptul c am ob#inut o valoare negativ , -1,93) indic faptul c cei cu anxietate mare (LEVEL 2) aveau note semnificativ mai mic dect cei cu anxietate mic (LEVEL 1). n tabelul al doilea este prezentat suportul statistic pentru testul de contrast; observa#i c si aici pragul de semnifica#ie este mai mic de 0,05, deci diferen#ele constatate sunt si ele semnificative, anxietatea afectnd nota ob#inut la examen.

173

Tabelele urm toare (prezentate mai sus) reiau analiza contrastelor pentru cel lalt factor, ziua examin rii. De observat c aici nu mai avem diferen#e semnificative (fapt confirmat si de lipsa unui efect principal pentru aceast variabil ), deci ziua examin rii nu afecteaz nota ob#inut . Tabelele ce urmeaz n continuare prezint mediile ob#inute pe ansamblu (tabelul l, ob#inut pentru c am selectat OVERALL din butonul OPTIONS), ob#inute pentru fiecare factor n parte (tabelele 2 si 3) si cele pentru grupurile de subiec#i rezultate prin combinarea nivelurilor celor dou variabile independente. n cazul n care nu $ti#i s interpreta#i sensul diferen#elor la testele de contrast sau n cazul interac#iunii variabilelor, aceste tabele cu mediile pe grupuri si subgrupuri v vor ajuta s stabili#i n ce sens difer mediile. Pe lng valorile mediilor, tabelele urm toare mai prezint si devia#iile standard, precum si limitele valorii medii corespunz toare intervalului de ncredere de 95%.

174

Ultima parte a foii de rezultate este rezervat reprezent rilor grafice:

175

TESTE PENTRU DATE NEPARAMETRICE (sau cum analiz(m cele mai multe din chestionare)
Cuprins: - Datele neparametrice Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - BINOMIAL Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - CHI-SQUARE Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - 2 RELATED SAMPLES Folosirea SPSS: Meniul ANALYZE - NONPARAMETRIC TESTS - 2 INDEPENDENT SAMPLES

Karl Pearson - un statistician la extreme N(scut n 1857, se zic( c( Pearson se l(uda adesea cu spiritul s(u rebel manifestat nc( de timpuriu. El nsu&i se l(uda c( cea mai veche amintire din copil(rie o avea de la vrsta de 5 ani cnd, somat de p(rin*i s( nu-&i mai sug( degetul ar(t(tor c( o s( *i se topeasc(", micul Karl a r(spuns uitndu-se la degetele sale: nu v(d c( degetul pe care-1 sug e mai mic ca celelalte &i eu cred c( m( p(c(li*i". Mai trziu, imediat ce a ajuns la Cambridge cu o burs( pentru a studia matematica, Pearson a f(cut o cerere pentru a fi scutit de prezen*a obligatorie de la orele de religie &i slujbele de la capela universit(*ii. Dup( ce i-a fost aprobat( cererea, el a nceput s( se prezint regulat la cursurile de religie &i la capel(, fapt care 1-a determinat pe decan s( -i cear( o explica*ie. Pearson a explicat c( el a cerut s( fie scutit nu de prezen*a la capel(, ci de prezen*a obligatorie la capel(". Karl Pearson, inventatorul testului chi-p(trat, s-a apucat de statistic( din necesitatea de a demonstra c( &i &tiin*ele sociale pot fi la fel de precise &i &tiin*ifice" ca &i cele exacte. Preocupat de ereditate &i teoriile evolu*ioniste, el a c(utat metode matematice pentru a-&i sus*ine ipotezele. Ceea ce 1-a deosebit de al*i statisticieni contemporani a fost faptul c( el nu credea c( statistica, corela*ia n special, poate dovedi cauzalitatea. Nici un fenomen nu este cauzal, toate sunt contingente, iar ce putem noi face cel mai bine este s( apreciem tocmai gradul de contingen*(", spunea Pearson. n via*a de zi cu zi, el era omul extremelor: ori era prieten devotat, ori un du&man nver&unat. Astfel, n timp ce pentru Gosset (inventatorul testului t), Pearson era un prieten de ncredere, pentru Fisher (inventatorul analizei de variant() era un du&man de moarte. Chiar &i n anul mor*ii sale, 1936, Pearson s-a certat r(u cu Fisher, spre disperarea lui Gosset, prieten bun cu amndoi, iar unii afirm( c( primul ar fi murit de inim( rea cnd a aflat c( la retragerea sa de la conducerea catedrei de eugenie de la University College din Londra, Fisher i-ar fi luat locul...

176

Datele neparametrice
Mai frecvente n sociologie dect n psihologie, scalele de m sur ordinale sau nominale stau la baza conceptelor m surate prin cele mai multe dintre chestionare. Dat fiind c avem de-a face cu scale nominale sau ordinale, parametrii obi$nui#i pe care i-am folosit pn acum n analiz (media, abaterea standard, etc.) nu ne mai sunt de nici un folos aici. Datele pe care le ob#inem folosind aceste scale de m sur nu mai pot fi deci analizate cu metodele prezentate pn acum, ntruct ele nu se distribuie normal si nici nu sunt corespunz toare unor variabile continui. Cum le putem analiza n acest caz? ntruct n analiza lor nu ne mai putem folosi de parametrii care descriu curba normal aceste date se numesc date neparametrice. Ele se analizeaz pornind de la frecven#ele de apari#ie ale diferitelor categorii ce sunt comparate cu frecven#e teoretice de apari#ie sau de la probabilit #ile de apari#ie ale acestor categorii. Pentru datele neparametrice avem nevoie de teste specifice, denumite deci neparametrice; chiar dac aplicarea acestor teste e mai facil dect folosirea testelor parametrice ntruct nu exist restric#ii legate de distribuirea normal a rezultatelor, principalul dezavantaj al acestor metode const n faptul c pot e$ua mai u$or, comparativ cu testele parametrice, n a demonstra diferentele acolo unde acestea exist n realitate. De aceea, recomandarea noastr este ca atunci cnd v concepe#i instrumentele de m sur pentru cercet rile voastre s utiliza#i n special scalele de interval $i de raport $i nu pe cele nominale sau ordinale. De exemplu, n loc s m sura#i preferin#a unei persoane pentru un anume tip de muzic folosind o scal ordinal de tipul deloc, pu#in, mediu, mult, foarte mult", este mai indicat s m sura#i preferin#a pe o scal de interval de tipul deloc l-2-3-4-5foarte mult" solicitnd subiec#ilor s ncercuiasc un num r pe scal corespunz tor preferin#ei. date fiind capetele intervalului, n acest fel, nu numai c m sura#i mai precis, dar pute#i detecta mai u$or diferen#ele, acolo unde ele exist , folosind metodele parametrice. n continuare, vom prezenta doar cteva din metodele neparametrice, foarte pe scurt, f r a intra foarte mult n detaliile teoretice privind aceste teste. Prezentarea va cuprinele trei p r#i: explicarea principiului de baz al testului, aplicarea sa folosind SPSS $i interpretarea rezultatelor. Pentru toate metodele neparametrice vom folosi baza de date intitulat voter.sav care se g se$te n directorul unde este instalat programul SPSS, f cnd parte din pachetul software care se livreaz mpreun cu acest program. Aceast baz de date con#ine rezultate reale ale unui e$antion de 1847 de aleg tori americani. Sunt $ase variabile m surate: 1.PRES92 - cu cine a votat aleg torul la alegerile preziden#iale din 1992 (cu BUSH, PEROT sau CLINTON) - variabil nominal 2.AGE - vrsta respondentului - variabil m surat cantitativ 3.AGECAT - categoria de vrst - variabil ordinal 4.EDUC - anii de educa#ie - variabil cantitativ 5.DEGREE - tipul de educa#ie - variabil ordinal 6.SEX - sexul respondentului - variabil nominal .
177

ntruct n aceast cercetare predomin variabilele ordinale $i nominale, testele cele mai potrivite pentru analiza acestor rezultate vor fi cele neparametrice. '

Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS BINOMIAL


Principiul de baz al testului Orice am m sura, nu vom putea niciodat s lu m n calcul to#i subiec#ii dintr-o popula#ie. E$antioanele pe care noi le ob#inem nu sunt nici pe departe cele mai reprezentative pentru popula#ia din care ele provin, astfel c niciodat parametrii calcula#i pentru e$antion nu se vor reg si identic n popula#ie. Dac extragem din popula#ie un alt e$antion, probabil c vom ob#ine parametri diferi#i, chiar dac cele dou e$antioane provin din aceea$i popula#ie. Pentru a decide dac un e$antion este tipic sau reprezentativ pentru o popula#ie avem nevoie s cunoa$tem distribu#ia parametrilor m sura#i n popula#ie pentru a putea cunoa$te care este probabilitatea de a ob#ine o valoare identic cu cea a e$antionului extras. Testul binomial se refer la compararea rezultatelor ob#inute de un grup la o variabil care are doar dou niveluri de m surare (ex. sexul subiec#ilor, admis/respins, vindecat/bolnav, etc.) cu o anumit propor#ie presupus a exista n popula#ie. Pentru aceasta, propor#ia celor dou niveluri de m surare este calculat pentru e$antion $i apoi comparat cu distribu#ia binomial pentru o anume valoare a propor#iei, o distribu#ie teoretic care precizeaz care este probabilitatea de a ob#ine un anumit rezultat n mod aleatoriu. Aplicarea sa n exemplul de fa# ne propunem s vedem dac propor#ia de b rba#i/femei din e$antionul nostru este apropiat sau difer semnificativ de propor#ia 50/50 care ar trebui s exist n popula#ia ideal . Vom folosi testul binomial activat din meniul ANALYZE NONPARAMETRIC TESTS - BINOMIAL, comand ce deschide fereastra:

178

n fereastr vom selecta variabila de interes (sexul subiec*ilor) si o vom trece n cmpul de analizat. Observa#i c putem folosi orice propor#ie dorim (n caz c nu dorim s utiliz m distribu#ia standard de 50/50) modificnd num rul din cmpul TEST PROPORTION. Mai mult, programul ne permite s analiz m si o variabil cantitativ definind o valoare limit fa# de care dorim s test m distribu#ia propor#iilor. De exemplu, poate c suntem interesa#i s vedem dac aleg torii americani sub 40 de ani sunt semnificativ mai mul#i sau mai pu#ini dect cei peste 40 de ani. Astfel, vom selecta varabila AGE (cantitativ ), iar n cmpul DEFINE DICHOTOMY vom alege valoarea 40 si o vom trece n cmpul din dreptul op#iunii CUT POINT (dup ce n prealabil o marc m). Dar n cazul de fa# ne limit m la a testa dac n e$antionul nostru propor#ia de femei si b rba#i este 50/50.

Interpretarea Rezultatele ob#inute sunt prezentate n tabelul de mai jos:

Primele trei coloane ale tabelului sunt descriptive, n timp ce ultimele trei con#in elementele ce permit interpretarea testului. Vedem astfel c propor#iile observate pentru distribu#ia pe sexe sunt 0,44/0,56. Acestea, comparate cu distribu#ia 0,50/0,50 sunt diferite semnificativ, dup cum testul de semnifica#ie (prezentat n ultima coloan ) ne arat . Nota#i c valoarea sa este mai mic de 0,05, deci propor#iile din e$antionul nostru difer semnificativ de cele ideale, femeile predominnd ntr-o propor#ie semnificativ .

179

Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS - CHISQUARE


1 Principiul de baz al testului Alteori, n analiza datelor neparametrice, avem de-a face cu variabile nominale sau ordinale care au mai mult dect dou valori posibile pe care le pot lua. Testul chi-p trat este o metod , similar testului binomial, dar care permite compararea distribu#iei frecven#elor unei variabile pe mai multe categorii, prin raportare la o distribu#ie teoretic stabilit de cercet tor. Testul compar abaterile de la aceast distribu#ie teoretic ob#inute n realitate si estimeaz care este probabilitatea ca ele s apar aleatoriu. n exemplul nostru, dorim s vedem dac aleg torii $i-au format o p rere despre cei trei candida#i, dac prefer vreunul comparativ cu ceilal#i. 2 Aplicarea sa Vom activa fereastra specific testului din meniul ANALYZE - NON PARAMETRIC TESTS - CHI-SQUARE. Fereastra este prezentat n continuare:

Vom introduce variabila de interes (votul) n cmpul pentru analiz . Observa#i c n cmpul EXPECTED VALUES este bifat op#iunea ALL CATEGORIES EQUAL. Este cazul care ne intereseaz pe noi. Adic noi compar m situa#ia real a votului cu situa#ia n care cei trei candida#i ar ob#ine acela$i num r de voturi. Dac ns doream s compar m distribu#ia cu o alta, n care categoriile nu s-ar mai fi distribuit egal, atunci foloseam op#iunea VALUES si butonul ADD, acum inactive. 'i aici putem compara variabile cantitative, dac n prealabil specific m intervalele la care raport m categoriile noastre (folosind op#iunea EXPECTED RANGE).

180

3 Interpretarea

Rezultatul testului este prezentat sub forma a dou tabele, precum cele de mai

n primul tabel sunt trecute elementele descriptive ale testului, categoriile sale, frecven#a observat , cea teoretic la care se face raportarea $i abaterile frecven#ei observate de la frecven#a teoretic (coloana RESIDUALS). Observa#i aici c , n timp ce frecven#a celor ce voteaz cu Bush nu difer prea mult de la frecven#a teoretic , cei care voteaz cu Perot sunt foarte pu# ini, iar cei care l voteaz pe Clinton sunt foarte mul#i. Valoarea statistic a testului, prezentat n tabelul al doilea, este semnificativ (rndul ASYMP. SIG), ceea ce nseamn c votan#ii au o preferin# format , iar din datele ob#inute n primul tabel $tim c ei sunt orienta#i c tre Clinton (ceea ce s-a $i confirmat la alegerile preziden#iale din SUA, n 1996).

181

Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS 2 INDEPENDENT SAMPLES


1 Principiul de baz al testului Aceste teste sunt echivalentul testului t pentru e$antioane independente, doar c n acest caz variabila dependent m surat nu este cantitativ , ci calitativ si ordinal . Dintre testele neparametrice folosite n acest caz, vom alege testul Mann-Whitney. Toate testele neparametrice ce compar dou e$antioane independente au la baz compara#ii ale rangurilor diferitelor intervale observate. Pentru a ilustra aplicarea testului vom ncerca s vedem dac femeile $i b rba# ii difer semnificativ ntre ei din punctul de vedere al nivelului educa#ional (DEGREE -variabil ordinal ). 2 Aplicarea sa Testul se activeaz din meniul ANALYZE - NON-PARAMETRIC TESTS -TWO INDEPENDENT SAMPLES, comand ce deschide fereastra:

Observa#i c fereastra seam n foarte mult cu cea a testului t pentru e$antioane independente. Vom selecta variabila dependent (DEGREE) n cmpul TEST VARIABLE LIST, iar variabila independent (SEX) n cmpul GROUPING VARIABLE. Defini#i grupurile variabilei independente folosind butonul DEFINE GROUPS, la fel ca si n cazul testului t. Observa#i c sunt patru tipuri de teste posibile, toate ar tnd acela$i lucru: * MANN-WHYTNEY U: se bazeaz , pe ierarhia rangurilor observa#iilor din cele dou grupuri; *MOSES EXTREME REACTIONS: verific dac intervalul variabilei ordinale (mai pu#in cele 5% cele mai extrem de mici sau cele mai extrem de mari scoruri) este acela$i pentru ambele grupuri
182

*KOLMOGOROV-SMIRNOV Z: se bazeaz pe diferen#ele maxime dintre distribu#iile cumulate observate la cele dou grupuri. *WALD-WOLFOWITZ RUNS: se bazeaz pe num rul de combina#ii necesar pentru a a$eza cazurile dintr-un grup n ordine cresc toare sau descresc toare.

3 Interpretarea S alegem pentru analiza noastr doar testul Mann-Whytney. Rezultatele sunt prezentate mai jos:

Observa#i c stilul de prezentare al rezultatelor este similar cu cel de la testul chi-p trat. n primul tabel este prezentat situa#ia descriptiv " (media rangurilor), iar valoarea pragului de semnifica#ie a testului este dat n tabelul al doilea (linia denumit ASYMP. SIG). Observnd c aceast valoare este nesemnificativ (p=0,351), deci putem trage concluzia c femeile si b rba#ii din studiul nostru nu difer semnificativ n ceea ce prive$te nivelul studiilor. Dac diferen#ele ar fi fost semnificative (p<0,05), sensul diferen#ei ar fi fost dat de semnul notei Z, cea scris imediat deasupra valorii pragului de semnifica#ie.

183

Folosirea SPSS: Meniul ANALIZE - NONPARAMETRIC TESTS 2 RELATED SAMPLES


1 Principiul de baz al testului Metodele ce compar dou e$antioane perechi sunt similare cu aplicarea testului t pentru e$antioane perechi, prezentat anterior. Pentru a ilustra aplicarea testului (care ca si principiu se bazeaz tot pe compara#ii de ranguri) vom folosi o baz de date nou , pe care va trebui s o cre m. Datele sunt prezentate n tabelul urm tor. Ele sunt imaginare si reprezint urm toarele: NRSUB: este o variabil -cod ce arat num rul subiectului analizat VOT: este r spunsul subiec#ilor la ntrebarea Dac duminica viitoare ar fi alegeri, v-a#i prezenta la vot?". Valoarea l arat r spunsurile DA, iar valoarea 0 corespunde valorilor NU. ILIESCU: este r spunsul subiec#ilor la ntrebarea Dac acest candidat c$tig , cum va fi situa#ia Romniei?", la care r spunsurile posibile sunt 1-mai rea, 2-la fel, 3-mai bun . CONSTANTINESCU: este o ntrebare similar cu cea de mai sus, dar raportat la acest candidat. Datele despre care vorbeam sunt prezentate mai jos:
nrsub 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 22 23 24 25 26 27 28 vot 1 1 1 1 0 1 0 1 1 0 0 1 0 1 1 0 1 1 1 0 1 1 0 1 1 0 1 iliescu 1 1 2 3 1 1 3 2 2 2 1 1 2 2 3 3 1 3 1 1 2 2 2 2 2 3 3 2 3 1 1 3 2 2 1 1 1 2 2 3 1 1 1 2 1 2 2 2 1 1 1 2 2 1 constantinescu

184

29 30

1 0

3 3

1 1

3 Aplicarea sa Dorim s vedem dac subiec# ii au o p rere mai bun despre vreunul din candida#i, ntruct subiec#ii r spund la ntreb ri referitoare la ambii candida#i (deci dau perechi de valori la fiecare m sur toare), trebuie s aplic m o metod care folose$te compararea de e$antioane perechi. Dat fiind c scala de m sur este ordinal , vom aplica o metod neparametric . Vom activa fereastra corespunz toare meniului ANALYZE - NON PARAMETRIC TESTS - TWO RELATED SAMPLES ca n fereastra prezentat n continuare:

Observa#i c fereastra de mai sus seam n cu cea a testului t pentru e$antioane perechi. Ca si pentru testul t, trebuie selectat o pereche de variabile pentru analiz , altfel butoanele ferestrei nu se activeaz . Vom selecta si noi cele dou variabile de interes: ILIESCU si CONSTANT, ca n imaginea de mai jos:

Observa#i c si aici putem aplica mai multe tipuri de teste. S le analiz m pe scurt pe fiecare n parte: WILCOXON: se bazeaz pe rangul valorilor absolute al diferen#elor dintre dou variabile, comparnd separat diferen#ele pozitive $i negative SIGN: se bazeaz pe compara#ia diferen#elor pozitive $i negative dintre cele dou variabile utiliznd apoi testul binomial pentru a compara propor #ia de diferen#e negative cu cea a diferen#elor pozitive. McNEMAR: testeaz dac oricare dou combina#ii posibile de valori extreme au o
185

aceea$i probabilitate de apari#ie. Aplicarea sa se face numai dac variabilele testate sunt dihotomice. n cazul nostru nu putem aplica testul McNemar, ci doar testul semnului sau Wilcoxon. Vom alege pe ultimul dintre acestea. 3 Interpretarea A$a cum ne-am obi$nuit, prezentarea rezultatelor testului se face n dou tabele, unul pentru valorile descriptive $i altul pentru semnifica#ia testului, ca mai jos:

n primul tabel sunt prezentate media $i suma rangurilor diferen#elor pozitive $i negative, precum $i cazurile n care scorurile sunt la egalitate. Indicii de sub acest tabel arat sensul diferen#elor. Din al doilea tabel observ m c testul este semnificativ (p<0,05). Dup cum observa#i, n coloana a doua din acest ultim tabel apare nota#ia CONSTANT-ILIESCU, ceea ce nseamn c valorile absolute ale diferen#elor ($i pozitive $i negative) sunt n defavoarea lui Constantinescu. Concluzia este c ace$ti subiec#i consider c situa#ia Romniei se va mbun t #i mai mult dac c$tig Iliescu dect dac c$tig Constantinescu.

186

Volumul de fa# nu este o trecere n revist , exhaustiv , nici a metodelor statistice, nici n ceea ce prive$te folosirea programului SPSS. Pentru un astfel de scop nobil ne-ar fi trebuit, f r exagerare, mii de pagini. Ave#i n mn un ghid practic, dar introductiv, pentru a folosi pachetul statistic SPSS (sau altele asem n toare), ghid care explic no#iunile de baz din statistic $i pune accent pe metodele folosite n special n $tiin#ele sociale, cu prec dere n psihologie. Autorul

187

S-ar putea să vă placă și