Sunteți pe pagina 1din 17

Statistic social si SPSS - ghid pentru curs practic -

Profesor: Lect.dr. Ioan Hosu Asistent si tutore: asist.drd. Mihai Deac Contact: mhdeac@yahoo.com, program de consultatii luni, 14-16, vineri, 10-11

La nivelul cercetrii de orice tip, inclusiv cea socio-uman, elementele de statistic au devenit indispensabile. Revistele stiintifice internationale public n majoritatea situatiilor date empirice, care s sustin eventualele constructii teoretice, iar standardele acestora n ceea ce priveste prelucrarea datelor cantitative sunt foarte ridicate. Astfel c, orice autor sau cercettor serios are nevoie de cunostinte avansate de prelucrare a datelor empirice cantitative. Similar, n toate domeniile profesionale asociate stiintelor comunicrii, creatia si inspiratia nu sunt acceptate fr argumente clare de ordin statistic. Departamentul de creatie nu convinge pe nimeni dac ideile pe care le prezint nu se pliaz pe unele date culese initial de departamentul de cercetare. Asta nu nseamn c metodele calitative trebuie brusc neglijate. Este exagerat astzi s te plasezi ntr-o abordare stiintific pur cantitativist, dominat de pozitivism i de matematicizarea tuturor proceselor sociale. Nu toate stiintele se pot transforma n matematic, chiar dac elementele cantitative dau un plus de fort oricrei argumentatii. Ajungem la ideea c statistica este necesar, dar nu suficient atunci cnd facem cercetare n domeniul sociouman.

Variabilele Pentru c ne intereseaz s msurm aproape tot ce se poate msura, caracteristicile ale cror trsturi vrem s le aflm trebuie privite ca variabile. Acestea sunt de fapt categorii care urmeaz s fie msurate. Variabilele sunt de cel putin 4 tipuri: Nominale sunt acele caracteristici sub form de nume sau simboluri, care nu pot fi ordonate ntre ele. De exemplu: genul unei persoane este variabil nominal cu valorile 1=masculin, 2=feminin. ns aici valoarea 2 nu este neaprat superioar valorii 1. Un alt exemplu de variabil nominal este canalul de informatie folosit cel mai des. Valorile pot fi: 1-televiziunea, 2-internetul, 3-presa scris, 4-radio, 5-altele. Din nou valoarea 4 nu este superioar, nici inferioar unei alte valori din sir. Ordinea ntre valori poate fi schimbat oricnd. Ordinale sunt acele caracteristici care presupun o ordine natural (intrinsec) a valorilor. Educatia este un exemplu de variabil ordinal. Valorile sunt n ordine, de la 1-scoal primar, 2-gimnaziu, 3-scoal profesional, 4-liceu, 5-postliceal, 6-facultate etc. Totusi, pentru variabilele ordinale nu putem face mprtiri, deoarece distantele

dintre trepte nu sunt egale (ntre scoal primar si gimnaziu nu este aceeasi distant ca ntre liceu si postliceal). De intervale variabile ordinale, dar cu diferent egal ntre valori. De mentionat c pentru aceste variabile nu exist valoarea 0 absolut pe scal. De exemplu, coeficientul de inteligent este o variabil de intervale. De rapoarte variabile pur numerice, cum ar fi greutatea, vrsta, nltimea.

Deseori, n practic, nu se face o diferentiere ntre variabile de intervale si de rapoarte, ambele fiind considerate variabile cantitative, numerale sau scalare.

Ipoteza O propozitie care stabileste o relatie ntre dou variabile si sensul acesteia. Acestea trebuie s apar n form explicit n planul lucrrii, n introducerea ei, dar i n prezentarea ei final. Trebuie s fie cuantificabile, demonstrabile, s nu fie excesiv de generale i s nu prezinte nite adevruri evidente (care nu mai au nevoie de o demonstraie). Munca n SPSS si propune de fapt testarea de ipoteze.

Introducerea datelor n SPSS Programul SPSS este mprtit n dou ferestre: Data View si Variable View. n Variable View se definesc variabilele cu care urmeaz s lucrm. Astfel, fiecare ntrebare dintr-un chestionar este introdus ca variabil. I se pune un nume generic, apoi i se alege tipul: de regul numeric sau string. String se utilizeaz atunci cnd valorile nu pot fi exprimate n cifre, adic n cazul ntrebrilor deschise. Se poate seta lrgimea coloanei, precum si numrul de zecimale. La Label se trece explicarea variabilei, numele ei detaliat. Label-ul apare ulterior pe toate tabelele si graficele care vor implica variabila respectiv. Cel mai important aspect n Variable View este introducerea fiecrei valori, cu codul care i corespunde. De obicei, introducem fiecare variant de rspuns a ntrebrii n ordine, de sus n jos, ncepnd de la 1. n cazul unui non-rspuns de obicei introducem valoarea 99. La optiunea Missing trebuie s trecem non-rspunsurile, adic valoarea 99. Aceste valori nu vor fi luate n considerare n calculul procentelor valide.

ATENIE dac nu selctm valorile Missing, valoarea de tip 99 se va lua n calcul, iar o medie calculat pe acea variabil va fi afectat de eroare. De exemplu, am n esantion 70 de persoane cu vrsta medie de 33 de ani si am un numr de 35 de persoane n acelasi esantion, care nu si-au declarat vrsta, drept pentru care am marcat varianta 99. Dac nu semnalm 99 ca valoare lips, media de vrst calculat de SPSS va fin n jur de 45 de ani, ceea ce desigur nu este corect. La Measure trebuie s trecem tipul variabilei. Exist 3 optiuni: Nominal, Ordinal si Scale. n functie de ce tip de variabil este, vom sti ce operatii putem face cu ea. Problema apare la variabilele nominale, pe care nu putem calcula medii, corelatii s.a.

n Data View, pe fiecare linie vom introduce cte un caz, adic valorile obtinute pe un chestionar. Dac avem un esantion de 300 de persoane, vom avea 300 de linii. Introducerea fiecrei linii este, fr ndoial, partea cea mai neplcut din statistic, munca fiind mecanic, obositoare si necesitnd mult timp. Dup introducere, este bine ca o a doua persoan s verifice datele.

Introducerea ntrebrilor cu rspuns multiplu este ceva mai problematic. Pentru a putea centraliza o astfel de ntrebare, este nevoie ca fiecare variant de rspuns s fie introdus ca variabil separat, care s ia valorile 0- dac nu a fost ncercuit, si 1-dac a fost ncercuit. De exemplu, pentru ntrebarea Ce canale media folositi: a)tv, b)internet, c)radio, d)pres scris, e) altele vom avea 5 variabile de tipul: utilizarea tv, utilizarea internet etc. La final, adunnd cazurile cu valoarea 1 pentru fiecare din aceste variabile rezult numrul de oameni care utilizeaz fiecare canal. Se poate citi: 89% din populatie foloseste televiziunea, 68% din populatie foloseste internetul etc. Desigur, dac adunm procentele, n aceste cazuri, rezultatul va fi mai mare de 100%. Introducerea ntrebrilor cu rspuns deschis este si ea problematic. De cele mai multe ori, n realizarea cercetrii evitm s avem un numr mare de ntrebri deschise pentru c acestea se prelucreaz mai greu. La ntrebrile deschise, variabila va fi de tip String, iar cercettorul va face un rezumat al rspunsului, concentrndu-se pe cuvinte cheie. Ulterior, prelucrarea acestor ntrebri se poate face astfel: rspunsurile sunt analizate si cele oarecum similare sunt grupate aposteriori ntr-un sistem de variante de rspuns, operatiune numit postcodificare. Este si aceasta o operatiune dificil si greoaie, mai ales dac varietatea rspunsurilor este mare. Dup postcodificare, ntrebarea deschis devine o variabil nominal obisnuit. ns pentru c ne intereseaz si nuantele fiecrui rspuns n parte, este bine s se realizeze si o analiz narativ a rspunsurilor, adic s se povesteasc rezultatele.

Statistic descriptiv Pentru a defini caracteristicile grupului, indicatorii statistici cel mai des utilizati sunt: Frecvent absolut. Numr la nivel absolut cazurile care se ncadreaz ntr-o anumit valoare pe care o ia variabila. Exemplu: pe variabila gen, care poate lua dou valori 1masculin, 2-feminin - frecventa absolut ne arat de cte ori apare valoarea 1, respectiv valoarea 2, deci cti brbati, respectiv femei avem ntre subiecti.

Frecvent relativ. Este frecventa unei valori raportat la numrul total de cazuri. Mai exact, este frecventa calculat n procente. Programul SPSS furnizeaz dou tipuri de frecvente relative. n cazul unor valori lips (non-rspunsuri), SPSS calculeaz diferentiat frecventa relativ valid, care este raportat nu la numrul total de cazuri ci la numrul de cazuri minus valorile lips.

Rezultatele n urma acestui tip de comand n SPSS apar sub forma unui tabel de frecvente, care arat astfel. Observati diferenta dintre frecventa absolut, cea procentual si cea procentual valid.
sport in aer liber Frequency 2 6 12 17 55 17 109 2 111 Percent 1.8 5.4 10.8 15.3 49.5 15.3 98.2 1.8 100.0 Valid Percent 1.8 5.5 11.0 15.6 50.5 15.6 100.0 Cumulative Percent 1.8 7.3 18.3 33.9 84.4 100.0

Valid

Missing Total

zilnic 3-5 ori pe s aptamana 1-2 ori pe s aptamana lunar ocazional deloc Total System

Diferenta ntre ultimele dou este dat de faptul c avem 2 valori lips (missing). De asemenea, remarcati coloana de procente cumulate (cumulative percent), care are relevant

doar pentru variabilele cel putin ordinale (deci nu pentru cele nominale). Interpretarea procentului cumulat pe exemplul dat, se face n felul urmtor: 33,9 % din populatie practic sport n aer liber lunar sau mai des, 18,3% din populatie practic sport n aer liber cel putin de 1-2 or ipe sptmn. Pentru frecvente, se pot realiza si grafice astfel: comanda Analyze Descriptive Statistics Frequencies deschide fereastra pentru frecvente. Aici se poate apsa Charts, unde exist trei optiuni de grafic: Pie, Histogram si Bar Chart. Exemplu de grafice apar mai jos.

sport in aer liber


zilnic Missing deloc 1-2 ori pe saptamana 3-5 ori pe saptamana

lunar

ocazional

domenii de activitate 1
60 50 40 30 20

Percent

10 0

domenii de activitate 1

ric ag

ris tu

le te al ga su r te /n es ns el m ti us ita od tiv pr a ac g re ve ra te uc el an pr pl re va lti cu e ni eh ot l zo ra ru m

i li ut a re za

ra tu ul

o el rs su re

De remarcat este faptul c, si n functie de varianta de SPSS, graficele n SPSS pot s fie mai artoase sau mai putin estetice. Grafice se pot face, ns, pe aceleasi date, luate cu Copy Paste si utilizate n Microsoft Excel, de unde se utilizeaz optiunea Pivot Table si Charts, iar variabilele sunt plasate pe tabele cu drag and drop. Observatie: orice grafic sau tabel realizat de SPSS va fi plasat ntr-un Output separat. Din acest output, datele pot fi copiate n Word sau Powerpoint, dar trebuie ca la copiere s se aleag optiunea Copy object, n loc de simplul Copy.

Indicatori ai tendintei centrale Medie. Valorile din sir sunt adunate si mprtite la numrul de cazuri valide. Mediana. Valoarea central n ordine cresctoare a valorilor nregistrate. Practic, mediana reprezint valoarea de mijloc, astfel nct sirul se mparte n dou jumtti egale: prima jumtate sub valoarea medianei, a doua jumtate peste. Valoarea modal sau modul. Valoarea cel mai des ntlnit n sir. Poate fi determinat si din tabelul de frecvente.

Indicatori ai mprstierii datelor Amplitudinea. Diferenta dintre valoarea maxim si valoarea minim din sir. Abaterea standard. Pentru c uneori media nu este suficient pentru a ntelege felul n care sunt distribuite valorile, se utilizeaz deseori acest indicator, care reprezint media diferentelor dintre fiecare valoare si medie. Abaterea standard este un indicator util pentru c ne spune de fapt ct de omogen este sirul de valori. S lum urmtorul exemplu: alegem variabila tolerant religioas care stabilim c va lua valori de la 1 la 10 pentru subiectii din dou grupuri diferite. La sfrsitul culegerii datelor calculm media si remarcm c grupul A are aceeasi medie a tolerantei cu grupul B: 7. Am

putea concluziona, deci, c grupurile sunt identice din punct de vedere al tolerantei religioase pe care o declar. ns, dac ne uitm mai atent, valorile tolerantei pentru fiecare membru al grupului A sunt: 7, 7, 7, 7, 7, 7, 7, 7 , deci o perfect omogenitate a atitudinilor, iar pentru grupul B valorile sunt: 4, 10, 10, 10, 4, 4, 10, 4, deci o factionalizare extrem a atitudinilor, n care avem multi indivizi foarte putin toleranti pe de o parte ti la fel de multi indivizi foarte toleranti pe de alta, deci o situaie eterogen, instabil si potential problematic. Desi media pentru cele dou situatii este aceeasi, abaterea standard pentru situatia A este 0 (situatie aproape imposibil de ntlnit ntr-un exemplu realist), iar abaterea standard pentru B este 3. Ne dm seama mai bine dac o abatere este mare sau mic dac raportm rezultatul la indicatorul anterior: amplitudinea. Coeficientul de variabilitate. Raportarea abaterii standard la media sirului, n procente. Pe exemplul anterior, B, unde abaterea este 3, iar media este 7, coeficientul de variabilitate 3*100/7 = 42,8%, coeficient cu o valoare mare. Indicatorii tendintei centrale si cei ai mprstierii datelor se calculeaz n SPSS din fereastra de frecvente, apsnd Statistics si selectnd fiecare indicator n parte, dac este de interes.

Statistic analitic Testarea de ipoteze ntr-o cercetare presupune mai mult dect simpla descriere a datelor. Trebuie realizate corelatii ntre variabilele msurate. Cea mai simpl modalitate de a corela dou variabile este aceea de a le plasa ntr-un tabel ncrucisat (crosstabs). Operatiunea este evidentiat mai jos:

De pe butonul Cells care apare n fereastra Crosstabs, se poate selecta evidentierea frecventelor compuse variabile, adic afisarea de procente att pe coloane, ct si pe rnduri. Rezultatul unei crosstabulri simple este afisat mai jos:

individual * ge n Crosstabulati on Count gen feminin masculin 2 2 6 6 6 11 7 5 27 16 11 8 59 48 Total 4 12 17 12 43 19 107

individual

zilnic 3-5 ori pe s aptamana 1-2 ori pe s aptamana lunar oc azional deloc

Total

Interpretarea tabelului se poate face n dou moduri: pe coloan - 27 din 59 de femei practic sport individual ocazional sau pe linie - 27 dintre cele 43 de persoane care practic sport ocazional sunt femei. Tabelul crosstab este mai relevant dac selectm si afisarea procentelor. n orice caz, se intuieste din tabel c femeile fac ceva mai rar sport dect brbatii. Iat si un crosstab cu frecvente relative pe coloan, care face defalcarea variabilei cea mai important problem a localittii si localitatea de provenient:
proble ma 1 * sat Crosstabula tion sat Gadalin problema 1 drumurile locale si strazile Count % within sat apa potabila Count % within sat canalizare Count % within sat camin cultural Count % within sat gaz Count % within sat transport in comun Count % within sat modernizarea Count scolii/gradinii % within sat servicii medicale Count % within sat lipsa locuri de munca Count % within sat altele Count % within sat 99 Count % within sat Count % within sat Jucu Herghelie Jucu de Mijloc Jucu de Sus 1 9 26 10.8% 1.6% 21.5% Visea 21 42.0% Total 57 15.2% 1 .3% 157 42.0% 8 2.1% 2 .5% 18 4.8% 19 5.1% 95 25.4% 7 1.9% 8 2.1% 2 .5% 374 100.0%

1 1.7% 9 15.3% 1 1.7%

46 75.4% 1 1.6% 1 1.6%

37 44.6% 3 3.6%

7 11.9% 1 1.7% 37 62.7% 3 5.1%

1 1.6% 7 11.5% 1 1.6% 3 4.9%

6 7.2% 1 1.2% 27 32.5%

Total

59 100.0%

61 100.0%

83 100.0%

54 44.6% 2 1.7% 1 .8% 3 2.5% 16 13.2% 15 12.4% 1 .8% 2 1.7% 1 .8% 121 100.0%

11 22.0% 1 2.0%

2 4.0%

9 18.0% 2 4.0% 3 6.0% 1 2.0% 50 100.0%

Se observ pe exemplul dat, dac ne uitm la procente, c Jucu de Sus si Visea au probleme destul de mari cu drumurile. Gadalin si Jucu de Mijloc par cel mai afectate de transportul in comun Jucu de Sus are probleme cu modernizarea scolii si a grdinitei Gadalin si Visea mai afectate de problema locurilor de munca

- Gadalin, Visea si Jucu de Mijloc arata ca au problema serviciilor medicale Dac dorim s testm si forta asocierii ntre dou variabile, se poate calcula un coeficient de corelatie. Un astfel de coeficient verific n ce msur cele dou variabile variaz mpreun. O crestere a variabilei X se coreleaz cu o crestere sau cu o scdere a variabilei Y? Ct de puternic este variatia? Putem afla rspunsul la aceste ntrebri, ns fr s facem distinctia ntre cauz si efect, prin indici Pearson sau Kendall. Acesti indici pot lua valori ntre -1 si +1. Cu ct sunt mai aproape de 0, acesti coeficienti demonstreaz o slab corelatie ntre variabilele testate. Dac sunt apropiati de -1, coeficientii arat o corelare invers (cu ct creste X scade Y), dac sunt apropiati de +1, arat o corelare pozitiv (variabilele cresc mpreun). De remarcat c variabilele nominale, nefiind ordonate natural, nu pot fi corelate dect cel mult dac sunt dihotomice (de exemplu: da nu). SPSS ne semnaleaz, n acelasi timp, dac rezultatul corelrii este semnificativ din punct de vedere statistic, prin calcularea coeficientului Sig. Dac acesta este sub 0.05, corelatia este semnificativ si se contrazice ipoteza nul (adic ipoteza conform creia nu exist legtur ntre variabile). Vedem mai jos un tabel de corelatie ntre dou variabile, cu calcularea indicelui Pearson:
Correlations sport in aer liber 1.000 . 109 -.158 .102 108 probleme de sanatate -.158 .102 108 1.000 . 110

sport in aer liber

probleme de sanatate

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

n situatia prezentat, coeficientul Pearson este -0.158, adic o slab corelatie ntre frecventa problemelor de sntate si frecventa practicrii sporturilor n aer liber. Practic nu exist legtur ntre cele dou variabile. Coeficientul Sig. nu este n limitele cutate de noi. Atunci

cnd corelatia este semnificativ, Sig. din tabel este cel putin sub 0.05, iar n notatiile pe care le folosim la interpretare vom scrie Cele dou variabile sunt corelate la nivel -0.158, p 0.05. Cnd Sig. este n intervalul relevant, SPSS ne ajut prin semnalarea corelatiei cu semnul *. Iat mai jos un exemplu pe corelarea scorurilor obtinute de un esantion de elevi la diferite sectiuni ale testrii. Aici au fost corelate simultan 5 variabile diferite, dintre care si una nominal dihotomic (genul). S-au descoperit un numr de 7 corelatii semnificative la nivel p0.01 (grad de ncredere a corelatiei foarte mare), unde Sig. este chiar cu valoarea 0.000.

Deci, de pe tabelul de mai sus putem citi: scorul pentru scris este corelat la nivel 0.597 cu scorul obtinut de subiecti pentru citit, p0.01, ceea ce indic o puternic legtur ntre cele dou abilitti. Cu ct elevii citesc mai bine, cu att scriu mai bine si invers. Este important s nu uitm c o corelatie merge n ambele sensuri. Ea nu verific efectul si cauza, ns uneori cauza si efectul pot fi determinate prin rationament logic. Putem citi de asemenea c femeile obtin scoruri semnificativ mai bune dect brbatii la capitolul scriere, cele 2 variabile fiind corelate cu un coeficient 0.256, p0.01.

O alt variant de prezentare a legturii dintre 2 variabile este cea a comparrii mediilor (atunci cnd mediile pot fi calculate) sau testul t. Comanda este Analyze Compare Means One-Sample T Test. Se va deschide o fereastr care arat astfel:

La test value vom trece media de la una dintre variabilele pe care le comparm, iar din stnga o vom selecta pe cealalt. SPSS va compara media prevzut/asteptat cu media observat rezultnd din nou o asociere mai mult sau mai putin solid. Rezultatul arat cam asa:

n acest exemplu, nu exist o diferent semnificativ, lucru pe care l observm din nou verificnd Sig., care nu este mai mic de 0.05. Valoarea testului se gseste n coloana t. O posibilitate de a prefigura legtura dintre 2 variabile este si aceea de a face un grafic de tip Scatterplot, adic norul de puncte, unde punctele sunt intersectia valorilor de pe cele dou variabile, pentru fiecare caz. Acest lucru se realizeaz de la Graphs Scatter, apoi n fereastra deschis se alege tipul de grafic si se apas butonul Define pentru a selecta variabilele care vor fi asociate. Dac punctele rezultate sunt relativ grupate n jurul unei drepte imaginare, ascendent sau descendent, nseamn c exist o legtur ntre variabile, care poate fi testat ulterior. Mai jos, exemplul dat arat c, n linii mari, cazurile se distribuie n

jurul unei drepte ascendente, astfel c pe msur ce creste arm strength (forta bratului), creste si grip strength (forta prizei).

Un

scatterplot

care

nu

relev

legtur

dintre

variabile

arat

asa:

Exist si alte posibile operatii de corelare n SPSS. Una des ntlnit este regresia. Aceasta este o operatiune prin care se ncearc explicarea unei variabile (s zicem rezultatele la nvttur) prin plasarea ei ca rezultat al unei functii, n care apar alte variabile cu rol explicativ. Astfel, putem testa n raport cu rezultatele la nvttur dependenta de alte dou variabile: coeficientul de inteligent si prezenta la cursuri. Astfel, practic plasm pe o singur linie (functia), toate punctele din scatterplot (desigur o putem face doar dac observm din grafic c punctele sunt ct de putin grupate dup acea dreapt imaginar). Dreapta imaginar din scatterplot este dreapta de regresie, care are la baz o formul. n stiintele socio-umane,

ns, acest model ultra-matematicizat de lucru este din ce n ce mai putin acceptat ca relevant stiintific. Un comportament sau o caracteristic social nu poate fi explicat corect prin modele exagerat sau artificial matematicizate, ci mai degrab prin contributia unor explicatii de ordin calitativ la demersul stiintific.

Datele obtinute n urma tuturor operatiunilor prezentate n acest mic ghid sunt folosite pentru explicarea unei varietti de fenomene, aplicatiile SPSS fiind practic infinite. n marketing si publicitate aceste metode cantitative sunt folosite n ultimul timp mai putin dect metodele calitative de tipul focus-grupului. Totusi, datele legate de vnzri, audiente, caracteristici socio-demografice, dar si psihografice ale publicului tint, sunt tratate ca elemente cantitative si sunt corelate ntr-o varietate de combinatii. Mai mult, la un pitch n care publicitarul va ncerca s-ti conving clientul s semneze un contract cu el, iar apoi n momentul n care clientul va dori s vad rezultatele pentru care a pltit, elementele de statistic vor fi cruciale pentru a convinge. Nimeni nu va investi bani ntr-o actiune ale crei rezultate nu sunt cuantificabile si n care nu se poate calcula un return of investment.

Bibliografie: Coakes, Sheridan J. (2005). SPSS. Analysis without anguish. Wiley and Sons, Australia Griffith, Arthur (2010). SPSS for dummies. Wiley Publishing, Hoboken Jab, Elisabeta si Ana Grama (2004). Analiza statistic cu SPSS sub windows. Polirom, Iai Leech, Nancy si Karen Barrett (2005). SPSS for intermediate statistics. Lawrence Erlbaum, New Jersey