Sunteți pe pagina 1din 58

Ciprian RĂULEA

Ciprian RĂULEA STATISTICĂ PSIHOLOGIC Ă ŞI PRELUCRAREA INFORMATIZATĂ A DATELOR

STATISTICĂ

PSIHOLOGIC Ă

ŞI

PRELUCRAREA INFORMATIZATĂ A DATELOR

CUPRINS

Capitolul 1. Evoluţia statisticii şi obiectul ei de studiu

3

1.1. Evoluţia istorică a statisticii

3

1.2. Obiectul de studiu şi rolul statisticii

5

1.3. Programe-software utilizate în statistica socială

6

1.4. Noţiuni introductive privind utilizarea programului SPSS

11

Capitolul 2. Noţiuni fundamentale folosite în statistică

16

2.1. Colectivitatea şi unitatea

16

2.2. Variabile statistice

17

2.3. Cunatificarea şi măsurarea fenomenelor sociale

18

2.4. Scale de măsură

19

2.5. Definirea variabilelor statistice cu ajutorul

21

Capitolul 3. Ordonarea, gruparea şi prezentarea datelor statistice

23

3.1. Serii (distribuţii) statistice

23

3.2. Gruparea (sistematizarea) datelor

25

3.3. Prezentarea datelor sub formă de tabele

27

3.4. Reprezentarea grafică a datelor statistice

29

3.5. Utilizarea SPSS pentru gruparea şi prezentarea datelor sub formă de tabele

33

Capitolul 4. Indicatori ai tendinţei centrale

39

4.1. Mediile

39

4.2. Quantilele: mediana, quartilele, decilele şi centilele

41

4.3. Modul

42

4.4. Relaţia dintre indicatorii tendinţei centrale

42

4.5. Reprezentări de tip Boxplots

43

4.6. Utilizarea SPSS pentru calcularea şi reprezentarea indicatorilor de poziţie

43

Capitolul 5. Indicatori ai variaţiei şi indicatori ai formei

47

5.1. Indicatori simpli ai variaţiei

47

5.2. Indicatori sintetici ai variaţiei

50

5.3. Indicatori ai formei distribuţiei

54

5.4. Utilizarea SPSS pentru calcularea indicatorilor variaţiei şi ai formei

55

EVOLUŢIA OBIE CTUL

1.

STATI STICII

ŞI

EI

DE

S TUDI U

1.1. Evoluţia istorică a statisticii

1.2. Rolul şi scopul statisticii

1.3. Programe-software utilizate în statistica socială

1.4. Noţiuni introductive privind utilizarea programului SPSS

1.1. EVOLUŢIA ISTORICĂ A STATISTICII

Pe măsură ce omenirea a evoluat, statistica s-a îndepărtat radical de statutul de „ramură a matematicii aplicate”, în zilele noastre, fiind considerată atât o ştiinţă, o metodă de cunoaştere a realităţii socio- economice, cât şi o disciplină de învăţământ. Evoluţia ei a cunoscut numeroase modificări, precizări, transformări în ceea ce priveşte obiectul ei de studiu dar şi din perspectiva instrumentelor, metodelor sale de cercetare. Ca şi alte ştiinţe (matematica, de exemplu) şi această disciplină a parcurs drumul lung şi sinuos de la necesităţile practicii la elaborările teoretice. Lucrări cu caracter statistic, impuse de nevoile conducerii treburilor publice, apar încă din antichitate. În Egipt, Grecia şi Roma antică erau realizate recensăminte destinate evidenţierii resurselor umane şi materiale ale statelor respective. Aceste preocupări însă, au fost considerate naive şi preştiinţifice, adevăratul înţeles al statisticii, acela de ştiinţă, datând doar de la jumătatea secolului al XVII-lea. Prima analiză statistică, în spirit ştiinţific, a unor date culese în prealabil, este datorată lui John Graunt (1662) care, pe baza datelor extrase din înştiinţările săptămânale cu privire la numărul deceselor înregistrate la Londra, a izbutit să tragă concluzii valabile asupra unor fenomene sociale, precum: natalitatea şi mortalitatea, echilibrul numeric ş.a. Prin aceste preocupări el este considerat „părintele” demografiei. În Anglia, alături de Graunt, titlul de „inventator” al

statisticii i se atribuie şi lui William Petty (1623-1687), care introduce conceptul de „aritmetică politică” definit ca studiul fenomenelor social-economice „prin intermediul cifrelor, al măsurilor şi greutăţilor”. Paralel cu aceste prime preocupări s-a creat, în Germania, un curent de gândire care îşi propunea să

descrie situaţia diferitelor state constituite la acea vreme din punct de vedere al populaţiei, bogăţiilor, industriei, comerţului şi finanţelor. Această preocupare se apropie mai mult de sensul etimologic al cuvântului statistică: în limba latină „status”, are sensul de „stare” sau „stat”. Astfel unii autori atribuie germanului Gottfried Achenwall (1719-1772) meritul de a fi întrebuinţat pentru prima dată termenul de statistică, dând întâietate şcolii descriptive germane. Spre deosebire de şcoala engleză a aritmetice politice, care punea accentul pe colectarea cifrelor şi analiza lor, şcoala descriptivă germană era orientată spre alcătuirea de monografii şi spre compararea calitativă a resurselor statelor. Recunoscând meritul ambelor curente de gândire, T. Rotariu (1999, p.15) consideră că „ştiinţa statistici, aşa cum arată ea astăzi, datorează aproape totul şcolii engleze, însă contribuţia universitară germană nu poate fi neglijată chiar şi numai pentru motivul că respectivei şcoli îi datorăm numele acestei ştiinţe”. În spiritul acestei şcoli descriptive, au fost elaborate şi în ţările române în secolele XVIII şi XIX o serie de lucrări ce au contribuit la dezvoltarea statisticii. Prima şi cea mai reprezentativă lucrare de acest gen este

John Graunt (1620 - 1674) comerciant englez, preocupat în timpul liber de „fenomenele demografice” din

John Graunt (1620 - 1674) comerciant englez, preocupat în timpul liber de „fenomenele demografice” din Londra, publică în 1662 articolul Natural and Political Observations on the Bills of Mortality. Ideile sale au fost preluate de Sir William Petty şi de astronomul Edmond Halley şi apoi recunoscute de către Societatea Regală Engleză

Descriptio Moldaviae” (1716) a lui Dimitrie Cantemir (1673-1723), o monografie cu caracter geografic, politic, economic, social şi cultural, care îl impune pe autorul ei printre fruntaşii statisticii descriptive europene (D. Porojan, 1993). Şi alţi cronicari precum Grigore Ureche sau Ion Neculce au avut preocupări asemănătoare, iar în 1859, sub domnia lui Alexandru Ioan Cuza, se înfiinţeze primul Birou de Statistică al Ţării Româneşti, condus de Dionisie Pop Marţian (A. Popescu, 2000) Încă din secolul al XVII-lea s-a observat că măsurătorile repetate ale unui obiect oarecare pot fi reprezentate grafic sub forma unei curbe în formă de clopot. Ecuaţia curbei normale a fost publicată în 1733 de către Abraham de Moivre iar lucrările acestuia au fost dezvoltate ulterior de Pierre Simon de Laplace şi Karl Friedrich Gauss. În zilele noastre curba normală poartă numele savantului german: clopotul/curba lui

Karl Friedrich Gauss (1777 - 1855) astronom, matematician şi fizician german. A făcut descoperiri importante

Karl Friedrich Gauss (1777 - 1855) astronom, matematician şi fizician german. A făcut descoperiri importante în materie de mecanică celestă, electromagnetism, optică. A dezvoltat teoria numerelor. A pus premisele geometriei hiperbolice noneuclidiene

Gauss.

A pus premisele geometriei hiperbolice noneuclidiene Gauss. Exemplu : Calificativele obţinute în urma examenului de

Exemplu: Calificativele obţinute în urma examenului de statistică de 110 studenţi, aleşi aleator.

Odată cu progresele făcute în culegerea datelor şi cu creşterea interesului faţă de observaţia şi măsurătorile ştiinţifice, statistica a devenit un instrument indispensabil pentru toate ştiinţele sociale. Un nume de referinţă este cel al francezului Frédéric Le Play (1806-1870). Acesta este recunoscut prin „introducerea în analiza sociologică a mijloacelor cantitative” (T. Rotaru et.al., 1999, p.15). Însă, cea mai mare contribuţie în această direcţie o are belgianul Adolphe Quételet (1796-1874), care, la începutul secolului al XIX-lea, aplică teoria probabilităţilor la studiul fenomenelor sociale, introducând conceptul de „statistică morală”. Sub iniţiativa sa s-a organizat în 1853 primul Congres Internaţional de Statistică, la care s-a constituit Institutul Internaţional de Statistică. Adevăratul început al statisticii moderne poate fi fixat la începutul secolului al XX-lea odată cu apariţia lucrărilor lui Karl Pearson (creatorul statisticii inferenţiale sau inductive) şi Ronald Aylmer Fisher (a elaborat teoria riguroasă a tragerilor concluziilor din datele observate). Alte nume de referinţă în fundamentarea statisticii sociale sunt: C.E. Spearman, G.U. Yule, M.G. Kendall, A.A. Markov

1.2. OBIECTUL DE STUDIU ŞI ROLUL STATISTICII

În dezvoltarea sa statistica s-a preocupat de acele fenomene şi procese care se produc într-un număr mare de cazuri, denumite fenomene colective (de masă) sau, dacă ne referim strict la ştiinţele sociale, fenomene

4

sociale de masă. Aceste fenomene de masă se află sub incidenţa legii numerelor mari 1 potrivit căreia variaţiile întâmplătoare de la tendinţa generală se compensează reciproc într-un număr mare de cazuri individuale. Aplicarea metodelor statisticii în vederea interpretării datelor oferite de observarea fenomenelor de masă permite formularea unor legi statistice. Acestea exprimă media stărilor unei mase de evenimente, tendinţa dominantă care-şi face loc printr-un mare număr de abateri întâmplătoare de la această medie. Legea statistică poate fi evidenţiată numai dacă este supusă observării unui număr suficient de mare de elemente ale ansamblului de studiat (legea numerelor mari). În concluzie, statistica studiază aspectele cantitative ale fenomenelor de masă, fenomene care sunt supuse acţiunii legilor statistice şi care se manifestă în condiţii concrete, variabile în timp şi spaţiu. Încercând o definiţie sintetică, putem afirma că statistica reprezintă un ansamblu de metode şi tehnici utilizate pentru a colecta, a descrie şi a analiza date obţinute în urma unor investigaţii ştiinţifice.

CASETA 1.1.

EXISTĂ SAU NU EXISTĂ STATISTICĂ SOCIALĂ

(sursa: T. Rotariu et.al., 1999, pp. 21-22)

…nu există decât o ştiinţă numită pe scurt Statistică (sau Statistică generală sau Statistică teoretică sau Teorie a statisticii) , în rest, e vorba de subramuri sau capitole ale unor ştiinţe particulare (empirice) care utilizează instrumentul statistic. Astfel, avem dubii serioase asupra temeiniciei pretenţiei de a susţine existenţa unor domenii statistice de sine stătătoare şi, cu atât mai mult, de a crede că pot fi pregătiţi statisticieni astfel profilaţi. Aplicarea statisticii într-un domeniu social, adică utilizarea instrumentelor statistice în scopul de a produce cunoştinţe în respectivul domeniu, nu se poate face decât de către cineva care stăpâneşte bine cunoştinţele din acel câmp social. Aşa cum statistica se aplică în biologie ori în fizică doar de către biologi, respectiv fizicieni, tot aşa ar trebui să se petreacă lucrurile şi în ştiinţele sociale. Eventual, statisticianul (adică cel care stăpâneşte cunoştinţe din domeniul statistici generale) poate colabora cu un economist, sociolog, psiholog etc. Dar, desigur, mult mai simplu şi mai productiv este ca, …în aceste discipline, specialişti să fie pregătiţi să înţeleagă şi să aplice cât mai corect instrumentele statistice.

Statistica a pătruns în toate domeniile ştiinţelor naturii şi ale ştiinţelor sociale, formând discipline de graniţă precum statistica matematică, statistica fizică, statistica economică, statistica socială, biostatistica etc. Dintre acestea, aşa-zisa statistică socială se suprapune mult timp şi în mare măsură peste statistica teoretică generală, propunându-şi să culeagă, prelucreze şi să interpreteze informaţiile numerice referitoare la fenomenele sociale 2 . Chiar dacă vom folosi de multe ori termenul de statistică socială, nu considerăm justificată pretenţia unora de a considera statistica socială ca o ştiinţă de sine stătătoare ci, mai degrabă ca o disciplină preocupată de a ilustra modul specific în care statistica generală se aplică în domeniul social (vezi caseta 1.1.). Astfel, statistica reprezentând un corp de metode ştiinţifice are rolul de a ne învăţa cum să organizăm observarea fenomenelor de masă şi să obţinem datele necesare, cum să prelucrăm aceste date şi cum să formulăm ipoteze cu privire la relaţiile evidenţiate de aceste date. De asemenea, statistica oferă metode pentru testarea ipotezelor şi pentru confruntarea realităţii cu predicţiile formulate pe baza ipotezelor.

În urma dezvoltării istorice prezentate mai sus statistica modernă s-a separat în două părţi distincte dar complementare:

a) statistica descriptivă, se referă la regulile observării statistice directe şi la obţinerea informaţiilor ce rezultă din prelucrarea datelor empirice. Aici sunt incluse mijloacele clasice ale statisticii: gruparea datelor, distribuţiile de frecvenţe, corelaţia şi regresia, analiza relaţiilor dinamice.

1 Legea numerelor mari a fost formulată de J. Bernoulli în 1713, precizând că într-un număr suficient de mare de cazuri individuale, influenţele factorilor se pot compensa în aşa fel încât să se ajungă la o anumită valoare tipică pentru întreaga colectivitate. 2 pentru mai mute informaţii vezi T. Rotariu et.al., 1999, pp. 15-18.

5

b) statistica inductivă (inferenţa statistică), se referă la organizarea observării statistice indirecte, prin metode şi tehnici de estimare a însuşirilor unei populaţii statistice din observaţii efectuate asupra unei submulţimi de unităţi statistice, numită eşantion. Include aplicaţii statistice ale teoriei probabilităţii.

1.3. PROGRAME-SOFTWARE UTILIZATE ÎN STATISTICA SOCIALĂ

Cele mai cunoscute programe utilizate de cercetătorii din sociologie, economie, psihologie, asistenţă socială, pedagogie etc. atunci când realizează prelucrări statistice complexe sunt: SPSS, SYSTAT, STATISTICA, MINITAB ş.a. Vom descrie pe scurt două din aceste software-uri şi vom prezenta noţiunile de bază necesare utilizării unuia dintre ele (SPSS).

*

SPSS (Statistical Package for the Social Sciences)

Statistical Package for the Social Sciences (pe scurt, SPSS) este un produs al firmei americane SPSS Inc., destinat gestionării şi analizei statistice a datelor. Firma SPSS este binecunoscută în întreaga lume. Având 1.200 de angajaţi în 60 de ţări, ea s-a impus în domeniul realizării de soft pentru prelucrarea statistică a datelor prin două produse: SPSS şi SYSTAT. Versiunile pentru Windows ale ambelor pachete de programe au apărut la începutul anilor ’90. Ultima versiune pentru Windows, SPSS 14.0, lansată în septembrie 2005, oferă o foarte mare varietate de prelucrări statistice, de la cele mai des folosite în practică (statistici descriptive, teste statistice) şi până la cele care pretind cunoştinţe statistice avansate (modele liniare generale, analiza MANOVA etc.). Vizualizarea datelor este posibilă prin tabele cu una, două sau trei dimensiuni şi prin diverse reprezentări grafice, în plan şi în spaţiul tridimensional. Prima variantă a produsului SPSS a fost elaborată în urmă cu aproape 40 de ani. De atunci, fiecare dintre marile schimbări care au avut loc în lumea calculatoarelor a fost urmată, la scurtă vreme, de apariţia unei noi versiuni.

Iată cum este caracterizat pe scurt acest produs, în scop de reclamă, de către cei care îl comercializează:

• Supleţe în stabilirea condiţiilor de prelucrare a datelor;

• Prezentare sugestivă a rezultatelor, în tabele şi grafice;

• Soluţionarea problemelor complexe prin metode statistice avansate;

• Simplitate în manevrare.

Acest produs, SPSS for Windows se adresează tuturor celor care au de efectuat calcule statistice, indiferent de domeniul în care îşi desfăşoară activitatea (sociologie, psihologie, pedagogie, asistenţă socială, urmărirea producţiei şi a vânzărilor, marketing, cercetare ştiinţifică etc.). Dintre cei care folosesc produsul SPSS la ora actuală, jumătate lucrează în industrie şi afaceri, peste o treime în cercetare şi învăţământ, iar majoritatea celorlalţi în instituţii guvernamentale. Acest produs îmbină facilităţile oferite de programe cunoscute, cum sunt Excel şi Quattro Pro, pentru condensarea datelor în tabele şi pentru reprezentări grafice, cu posibilităţile de prelucrare statistică mai mult sau mai puţin sofisticată, în funcţie de complexitatea problemelor de rezolvat. Unele metode de calcul aplicate de SPSS/Windows nu sunt accesibile în alte programe de analiză statistică, precum BMDP, SYSTAT sau STATISTICA. SPSS for Windows este realizat sub formă modulară. În consecinţă, fiecare utilizator are libertatea de a achiziţiona doar acele componente care îi sunt necesare. Prezentăm în continuare câteva dintre modulele, cu denumirea sub care sunt comercializate.

Base module realizează gestionarea datelor şi a fişierelor, transformarea datelor, diverse reprezentări grafice (histograme, diagrame de structură, nori statistici etc.), precum şi prelucrările statistice cele mai cunoscute şi mai frecvent utilizate:

• calculul frecvenţelor, al indicilor tendinţei centrale şi al indicatorilor variabilităţii;

Sursa acestui material este http://www.spss.com. La aceeaşi adresa pot fi găsite şi alte informaţii interesante.

6

• calculul unor măsuri de asociere şi testarea independentei probabilistice pentru date incluse în tabele de contingenţă;

• compararea mediilor şi a dispersiilor eşantioanelor;

• analiză de varianţă unifactorială;

• calculul coeficienţilor de corelaţie Pearson, Kendall şi Spearman;

• analiza de regresie liniară;

• teste neparametrice.

Modulul Professional Statistics include proceduri care servesc la cercetarea relaţiilor dintre variabile, prin următoarele metode:

• analiză de discriminant;

• analiză factorială;

• analiză de clusteri;

• scalarea multidimensională;

• regresia ponderată;

• analiza fidelităţii. Advanced Statistics permite efectuarea unor prelucrări statistice complicate, necesare atunci când datele nu îndeplinesc condiţiile de aplicare a prelucrărilor statistice obişnuite (mai simple). Asemenea metode sunt:

• analiză de regresie logistică;

• diverse extinderi ale analizei de variantă unifactorială ANOVA;

• analiză de variantă multivariată MANOVA;

• analiză logliniară;

• analiză de regresie neliniară. Tables serveşte la condensarea datelor în tabele cu una, două sau trei dimensiuni. Fiecare dimensiune este definită printr-o variabilă sau printr-un grup de variabile (de exemplu, pe linii se poate reprezenta profesia şi sexul subiecţilor, iar pe coloane, răspunsurile posibile la un item dintr-un chestionar). Tabelele pot conţine, alături de valorile variabilelor, frecvenţe şi valori ale unor indicatori statistici (media, abaterea standard etc.). Exact Tests determină nivelul de semnificaţie (valorile p) pentru:

• teste neparametrice aplicate la un eşantion, la două eşantioane indepen-dente sau perechi şi la k eşantioane dependente sau independente;

• teste aplicate tabelelor de contingenţă 2x2 şi rxc;

• teste de semnificaţie pentru coeficienţii de corelaţie Pearson şi Spearman;

• teste referitoare la relaţiile dintre variabile măsurate pe scală nominală sau pe scala ordinală. Acest modul calculează valori exacte pentru nivelurile de semnificaţie ale statisticilor, spre deosebire de modulul de bază, care calculează doar valori asimptotice. Este foarte dificil de descris, în câteva cuvinte, un produs complex, cum este SPSS. Vom încerca să enumerăm doar câteva dintre caracteristicile care îl fac atât de căutat pe piaţă. Diversitatea mare a condiţiilor de prelucrare Orice prelucrare se poate face în condiţii extrem de variate. Spre exemplu, calculul frecvenţelor poate fi însoţit sau nu de afişarea tabelului de frecvenţe, de reprezentarea grafică prin histogramă sau prin diagramă în coloane, de calculul unor indici statistici cum ar fi cuantile, indici ai tendinţei centrale (media, mediana, modul), parametri de împrăştiere (dispersia, valoarea minimă şi maximă); reprezentarea grafică poate lua în considerare frecvenţele absolute ale valorilor sau procentele; peste histogramă se poate sau nu suprapune curba normală.

Uşurinţă în învăţare, uşurinţă în prelucrare Utilizatorul nu are nevoie să citească un manual pentru a şti cum să comande o prelucrare. Opţiunea Help este accesibilă permanent şi îi poate explica semnificaţia diverşilor termeni din meniuri şi căsuţe de dialog. În plus, un program tutorial on-line oferă explicaţii şi exemple care ajută la orientarea rapidă printre prelucrările numeroase care pot fi realizate de acest produs.

Sursa: M., Albu şi V., Rusu – SPSS / Windows 7.0. PC Report, pag. 51-53, 1996

7

SPSS poate fi folosit şi de persoane puţin iniţiate în statistică. Pentru orice noţiune, dintr-o căsuţă de dialog sau chiar dintr-o listă de ieşire, se obţine afişarea unui text explicativ dacă se indică denumirea respectivă, pe ecran, cu mouse-ul şi se alege din meniul care apare, opţiunea What’s This? Cu SPSS se pot chiar reactualiza şi completa cunoştinţele de statistică, întrucât butonul Help permite accesul la un glosar de termeni statistici.

Simplitate în manevrarea datelor de intrare Introducerea şi modificarea datelor este o operaţie simplă, datorită existenţei unui editor gen spreadsheet. Pe ecran este afişat un tabel, ale cărui linii corespund cazurilor (subiecţi care răspund unui chestionar sau obiecte observate) şi în ale cărui coloane figurează variabilele (răspunsuri date de subiecţi ori rezultatele unor măsurători sau observaţii). Utilizatorul poate “naviga” prin acest tabel, după dorinţă, inspectând valorile existente, schimbând unele date, adăugând sau ştergând cazuri şi variabile. SPSS adaptează automat dimensiunile tabelului astfel încât să nu se piardă nici o valoare introdusă. Nu există limitări în privinţa numărului de cazuri sau de variabile care pot fi incluse în fişier.

Comunicarea bidirecţională cu alte programe Datele prelucrate de SPSS pot fi preluate şi din fişiere provenind din alte programe, cum sunt: tabele create de Lotus 1-2-3 şi Excel, baze de date create de dBase, fişiere de date salvate în format SYLK (symbolic link), fişiere de text ASCII. De asemenea, fişierele de date create de SPSS pot fi exportate în Lotus 1-2-3 şi Excel sau pot fi salvate în format SYLK ori ca fişiere de text ASCII.

Transformarea automată a datelor de intrare Înainte de efectuarea prelucrărilor statistice, datele pot fi modificate automat de către SPSS, pe baza unor algoritmi indicaţi de utilizator pentru recodificarea valorilor sau prin aplicarea unor funcţii matematice. De exemplu, într-un fişier în care cazurile sunt reprezentate de diverse mărfuri iar variabilele de caracteristici ale acestora, toate preturile pot fi schimbate prin adăugarea TVA-ului sau toate mărfurile produse înainte de 1995 pot primi o aceeaşi valoare a datei de fabricaţie care să semnifice “înainte de 1995”.

Selectarea cazurilor prelucrate Utilizatorul poate alege cazurile care să fie luate în considerare la efectuarea prelucrărilor, formulând condiţii asupra valorilor uneia sau a mai multor variabile. De exemplu, în studiul relaţiei dintre nivelul de şcolarizare şi preferinţa pentru diverse genuri muzicale pot fi incluse, din întregul fişier de date, doar persoanele domiciliate în mediu urban.

Tratarea specială a datelor necunoscute Utilizatorul poate decide cum să fie tratate de SPSS cazurile în care valoarea unei variabile nu este cunoscută sau nu prezintă interes pentru cercetare. Ele pot să fie sau să nu fie incluse în calcule.

Evidenţierea excepţiilor Grafice diverse permit depistarea rapidă a valorilor aberante. Acestea sunt valori izolate, diferite mult de celelalte din fişier, care ar putea fi datorate unor erori la introducerea datelor.

Controlul asupra afişării informaţiilor Utilizatorul are controlul deplin asupra tuturor variabilelor prelucrate. El decide cum să se afişeze valorile în listele de ieşire (pe ce lungime, cu câte cifre zecimale) şi ce text să fie scris în locul denumirilor de variabile (dacă acestea nu sunt destul de sugestive) sau în locul valorilor variabilelor (dacă în fişierul de date s-au introdus coduri). De exemplu, dacă pentru variabila corespunzătoare mediului de domiciliu al subiecţilor, cu denumirea MEDDOM, s-au introdus în fişier valorile U şi R, în listele de ieşire poate să apară scris “Urban” în loc de U şi “Rural” în loc de R, iar numele variabilei să fie înlocuit cu textul “Mediu de domiciliu”.

Simplitate în selectarea opţiunilor Alegerea modului de prelucrare a datelor este deosebit de simplă, datorită meniurilor şi a cutiilor de dialog la care se ajunge prin manevrarea mouse-ului. Pentru utilizatorii cărora nu le place să folosească mausul, există posibilitatea de a indica prelucrările dorite prin scrierea de comenzi.SPSS nu uită ce-a făcut Dacă un grup de prelucrări se efectuează periodic (de exemplu, dacă interesează situaţia zilnică a vânzărilor pe magazine şi produse) nu este nevoie să se repete de fiecare dată întreaga succesiune de căutări prin meniuri şi de alegeri de opţiuni. I se poate cere SPSS-ului să înregistreze într-un fişier de comenzi toate

8

aceste operaţii, executate de utilizator o singură dată. Fişierul va fi rulat ori de câte ori este necesar. La nevoie, fişierul poate fi modificat, adăugându-se sau ştergându-se comenzi.

Ştiind că o imagine face mai mult decât un discurs Rezultatele prelucrărilor statistice se pot vizualiza prin tabele de diverse formate (sunt posibile 16 stiluri de întocmire a tabelelor) şi prin multe tipuri de reprezentări grafice: histograme, diagrame în coloane - izolate sau grupate, diagrame de structură circulare, nori statistici în care punctele corespunzătoare unor grupe diferite de cazuri sunt colorate diferit, diagrame care indică în acelaşi timp media, valorile extreme şi repartiţia valorilor unei variabile pentru valori diferite ale altei variabile (de exemplu, reprezentarea grafică a vârstei persoanelor, în funcţie de localitatea de domiciliu).

Chiar şi rezultatele pot fi modificate Listele de rezultate, tabelele şi graficele realizate de SPSS pot fi incluse în rapoarte, aşa cum se prezintă pe ecran sau modificate. Utilizatorul poate interveni în ele prin:

• editarea de text;

• schimbarea caracteristicilor fontului (tip, stil, culoare, mărime);

• modificarea desenelor prin deplasarea axelor, rotirea lor sau chiar schim-barea tipului de grafic;

• ascunderea unor variabile din tabele;

• reorganizarea informaţiilor din tabele (de exemplu, un tabel de frecvente, care conţine pe linii răspunsurile la un chestionar, iar pe coloane localitatea de domiciliu si, în cadrul fiecărei localităţi, sexul clienţilor, poate fi transformat într-un tabel cu numai două coloane, corespunzător sexului şi cu grupe de linii, câte o grupă pentru fiecare localitate). Toate aceste operaţii sunt uşor de executat, datorită existentei a trei editoare: de text, de tabele şi de grafice. Spre exemplu, schimbarea locului unei coloane dintr-un tabel se face „trăgând” cu mouse-ul de iconiţa corespunzătoare ei.

STATISTICA for Windows

Este un sistem accesibil, integrat pentru analiza statistică şi grafică de date; conţine proceduri analitice avansate pentru ştiinţele socio-umane, inginerie, domeniul financiar şi aplicaţii de explorare a datelor. Sistemul conţine, pe lângă procedurile de uz general, implementări de module specializate - însă accesibile - pentru ştiinţe sociale, cercetări biomedicale sau inginerie. Posibilităţile oferite de STATISTICA încurajează abordarea de căi noi şi creative de verificare a ipotezelor şi explorare a datelor experimentale. Facilităţi unice de analiză cantitativă:

viteză de calcul suportă analize pe colecţii imense de date (matrice 32.000 x 32.000 variabile), analiză de corespondenţe sau estimare nelineară pe colecţii nelimitate, proiectare experimentală cu până la 128 factori precizie a operaţiilor numerice sute de teste, metode şi proceduri incluse într-un singur sistem

sute de tipuri de grafice sau reprezentări de complexitate nelimitată, accesibile interactiv sau programabile prin limbajul inclus Statistica Basic interfaţa utilizator flexibilă, cu facilitaţi de simplificare prin shortcut-uri sau macrocomenzi, wizard-uri, SCL. Transferul de date se face în toate formatele standard, incluzând şi accesul la baze de date ODBC. Quick STATISTICA for Windows Este un subset care conţine toate procedurile grafice ale pachetului Statistica, procedurile de organizare a datelor şi o selecţie bogată de statistici: statistică descriptivă, frecvenţe, întreruperi (breakdown), tabele, corelări, teste de diferenţă de grup, ANOVA, regresii, distribuţii, nonparametrice, probabilitaţi. Se livrează ca bază pentru pachetele aplicative. STATISTICA Industrial System (add-on) Este un set de module complementare (pachetului Statistica sau Quick Statistica), ce furnizează cea mai larga selecţie de statistici industriale oferite într-un singur pachet. Printre acestea se află diagrame de control al calităţii configurabile, cu opţiuni de achiziţie de date în timp real, planuri de eşantionare şi o selecţie de metode de proiectare experimentală.

9

Daca aveţi o versiune anterioară de STATISTICA, ultimele facilităţi se pot lua direct de la website-ul StatSoft. Celelalte produse curente sunt: STATISTICA Neural Networks şi STATISTICA Connectivity Kit Lansarea STATISTICA Connectivity Kit coincide cu lansarea noului modul Interactive Quality Control care va oferi opţiuni analitice avansate speciale şi configurabilitate ce permite suportul unei mari varietăţi de aplicaţii shop-floor. Modulul Interactive Quality Control va merge mult mai repede cu Connectivity Kit (după ultimele clasamente) decât actualul modul Quality Control. Noul modul Interactive QC nu e o înlocuire pentru actualul modul QC (pe care continuăm să-l vindem din cauza compatibilităţii şi pentru că noul modul Interactive QC nu suportă toate tipurile de charting posibile în modulul QC). Firma StatSoft - unul dintre cei mai mari producători de software pentru statistică şi grafică analitică din lume, prezintă lunar un buletin informativ conţinând ultimele noutăţi despre Statistica. 3

1.4. NOŢIUNI INTRODUCTIVE PRIVIND UTILIZAREA PROGRAMULUI SPSS

În capitolele aplicative ne vom referi la programul SPSS versiunea 11.0 sub sistemul de operare Windows. 4 Aceste capitole se vor a constitui un ghid de laborator care să-l orienteze şi îndrume pe utilizator în dorinţa acestuia de a-şi însuşi procedurile şi tehnicile oferite de programul SPSS pentru prelucrarea statistică a datelor. Deschiderea programului Pentru pornirea unei sesiuni de lucru în SPSS există următoarele posibilităţi:

Daca pe desktop se află shortcut-ul (icon-ul) SPSS se poziţionează cursorul pe respectivul icon şi se tastează dublu-clik pe butonul stânga al mouse-ului.

Dublu-clik pe butonul stânga al mouse-ului
Dublu-clik pe
butonul stânga
al mouse-ului

După ce sistemul de operare Windows a fost încărcat, se apasă o singură dată pe butonul stânga al mouse-ului pe următorul traseu:

Start – Programs – SPSS for Windows – SPSS 11.0 for Windows După deschiderea programului SPSS, pe ecran va apărea o fereastră de întâmpinare. Este de fapt o fereastră de date (Data View) din cadrul editorului de date (SPSS Data Editor), fără titlu - denumită totuşi „Untitled” - şi, atenţie!, fără să fie salvată în memoria calculatorului. O a treia posibilitate de deschidere a SPSS-ului o reprezintă accesarea (prin dublu-clik) a oricărui fişier acceptat de program.

Exemple:

bazele de date în SPSS sunt fişiere cu extensia *.sav; fişierele de tip „syntax” au extensia *.sps; fişierele de tip „output” au extensia *.spo etc.

Ferestrele în SPSS SPSS foloseşte mai multe tipuri de ferestre, fiecăreia dintre ele fiindu-i asociat un anumit tip de fişier. Iată cele mai importante dintre ele:

3 Pentru mai multe informaţii a se accesa: http://www.statsoftinc.com

4 Unele dintre informaţiile prezentate nu sunt integrate în versiunile mai vechi (de exemplu, versiunea 7.0) şi sunt diferite sub alte sisteme de operare sau pentru sistemele Macintosh.

10

Fereastra de editare a datelor (Date Editor) se deschide implicit la lansa-rea unui fişier de tip bază de date, fişier care în SPSS are extensia *.sav. În această fereastră sunt introduse şi afişate datele de lucru sub forma unui tabel în care liniile reprezintă cazurile (subiecţii) iar coloanele variabilele cercetării.

Fereastra de editare este, la rândul ei, compusă din două foi (ferestre):

- fereastra de date (Data View), folosită pentru introducerea şi vizualizarea seriilor statistice simple (a datelor brute) – vezi figura 1.1. - fereastra de gestionare a variabilelor (Variable View), folosită pentru definirea şi modificarea variabilelor – vezi figura 1.2. Accesarea uneia dintre aceste două ferestre se realizează prin acţionarea icon-ului corespunzător din partea stângă-jos a ferestrei de întâmpinare.

Bară de titlu cazuri (cases) celule (cells)
Bară
de titlu
cazuri
(cases)
celule
(cells)
Fereastră pentru introducerea datelor (Editor de celule)
Fereastră pentru
introducerea datelor
(Editor de celule)
Bară de meniuri
Bară de
meniuri
Bara de instrumente Variabile (variables) Bara de derulare (defilare)
Bara de
instrumente
Variabile
(variables)
Bara de
derulare
(defilare)

Figura 1.1. Fereastra de întâmpinare a programului SPSS

Fereastra de gestionare a rezultatelor sau Fereastra de ieşire (Output – SPSS Viewer), folosită pentru afişarea şi editarea rezultatelor prelucrărilor statistice (tabele, grafice, indicatori statistici) – vezi figura 1.3. Fereastra Output Viewer este structurată în două cadrane sau zone:

cadranul din stânga – cuprinsul – prezintă sub forma unei schiţe obiectele conţinute în fereastră şi

cadranul/zona din dreapta – conţinutul – în care sunt afişate rezultatele obţinute prin respectiva analiză. Pentru apariţia acestei ferestre întâlnim următoarele situaţii:

- SPPS deschide automat această fereastră atunci când este solicitat să facă prelucrări şi analize statistice (Atenţie: fişierul astfel format va avea denumirea OUTPUTx şi nu este salvat în memoria calculatorului; pentru aceasta trebuie parcurs traseul File - Save sau File - SaveAs);

- este deschisă de către utilizator prin accesarea unuia dintre fişierele cu extensia *.spo salvate anterior în memoria calculatorului.

11

Figura 1.2. Fereastra de gestionare a variabilelor Figura 1.3. Fereastra de gestionare a rezultatelor Fereastra

Figura 1.2. Fereastra de gestionare a variabilelor

Figura 1.2. Fereastra de gestionare a variabilelor Figura 1.3. Fereastra de gestionare a rezultatelor Fereastra de

Figura 1.3. Fereastra de gestionare a rezultatelor

Fereastra de editare a comenzilor (Syntax Editor) permite scrierea comenzilor de către utilizator şi salvarea acestora într-un fişier de tip sintaxă cu extensia *.sps. Variantele recente ale SPSS conţin meniuri pull-down şi casete de dialog care permit lansarea comenzilor fără a scrie sintaxa acestora.

Crearea sau deschiderea unei baze de date. Salvarea şi modificarea numelui ei. În situaţia în care dorim să deschidem fişiere de date salvate anterior, pentru a le completa şi/sau modifica, sau când dorim să avem acces la baze de date gata create, se parcurge următorul traseu:

Fil

sau când dorim să avem acces la baze de date gata create, se parcurge următorul traseu:

12

e – Open – Data

Mai simplu, se poate face clik pe icon-ul <Open File> din Bara de instrumente. În fereastra care va apărea (figura 1.4.) se va preciza calea, tipul şi numele fişierului ce dorim să-l deschidem.

Figura 1.4. Fereastra de deschidere a unui fişier de date Şi mai simplu, se poate face dublu-clik pe shortcut-ul corespunzător fişierului ce trebuie deschis Pentru gestionarea optimă a fişierelor utilizate se impune salvarea acestora cu nume cât mai sugestive pentru a putea fi recunoscute cu uşurinţă. Salvarea fişierelor de orice fel în SPSS se face după următorul traseu:

File – Save. Mai simplu, se poate face clik pe icon-ul <Save File> din Bara de instrumente.

Dacă se doreşte salvarea unui fişier cu alt nume se parcurge traseul următor:

File – Save As. În fereastra care va apărea (figura 1.5.) se va preciza calea, tipul şi noul nume al fişierului ce dorim să-l salvăm.

tipul şi noul nume al fişierului ce dorim să-l salvăm. Figura 1.5. Fereastra de salvare a

Figura 1.5. Fereastra de salvare a unui fişier de date

EXERCIŢII ŞI PROBLEME

1. După ce aţi creat în My Documents un director (folder) cu numele „Laborator statistica” realizaţi în interiorul lui următoarele cerinţe:

- creaţi un fişier de date în SPSS;

- salvaţi fişierul cu numele „Laborator 1” şi părăsiţi SPSS;

- redeschideţi fişierul „Laborator 1” – căutaţi mai multe căi pentru aceasta;

- faceţi modificări în interiorul lui şi salvaţi-l cu numele „Laborator 2” fără să afectaţi fişierul anterior.

2. În folderul „Laborator statistica” creaţi un fişier de date în Excel (extensia *.xls) cu numele „Baza de date in Excel” şi care să conţină iniţialele şi vârsta a 10 subiecţi. Părăsiţi programul Excel şi deschideţi programul SPSS. Deschideţi fişierul „Baza de date in Excel” în SPSS şi salvaţi-l cu numele: „Baza de date in SPSS”.

3. Să se solicite Ajutor (Help) programului pentru deschiderea unui fişier de date în SPSS şi pentru deschiderea unei baze de date create cu programul Excel. Care sunt tipurile de fişiere de date pe care le putem deschide în SPSS? Care sunt regulile transferului datelor din Excel în SPSS?

13

2.

NOŢIU NI

FUNDAMENTALE

FOLOSIT E

ÎN

ST ATI STI CĂ

2.1. Colectivitatea şi unitatea statistică.

2.2. Variabile statistice.

2.3. Cunatificarea şi măsurarea fenomenelor sociale.

2.4. Scale de măsură.

2.5. Definirea variabilelor statistice cu ajutorul SPSS.

Statistica aplicată în ştiinţele sociale are la bază principiile, tehnicile şi metodele avansate de statistica teoretică generală. Aceasta din urmă, foloseşte un număr mare de noţiuni şi concepte, cu caracter general, care formează vocabularul de bază al statisticii. În statistica socială, s-au încetăţenit de-a lungul timpului, următoarele concepte fundamentale:

COLECTIVITATEA (POPULAŢIA) STATISTICĂ – reprezintă totalitatea elementelor simple sau complexe supuse studiului statistic. (exemple: elevii unei şcoli, populaţia unui oraş) –

reprezintă elementele componente

UNITATEA

STATISTICĂ

(INDIVIDUL

STATISTIC)

(constitutive) ale colectivităţilor statistice. Ele pot fi:

- simple (exemple: elevul, studentul, muncitorul); - complexe, acestea sunt rezultatul organizării sociale şi economice a colectivităţii (exemple: familia, echipa, clasa de elevi, grupa de studenţi).

CARACTERISTICA (VARIABILA) STATISTICĂ – reprezintă însuşirile sau trăsăturile ce definesc şi delimitează unităţile statistice (exemple: vârsta, notele şcolare)

VALOAREA (VARIANTA), notată cu x, y … – reprezintă forma concretă de manifestare a caracteristicilor la nivelul fiecărei unităţi statistice (exemple: 18 ani, nota 7).

FRECVENŢA ABSOLUTĂ, notată cu f x , f y – reprezintă numărul de unităţi la care se înregistrează aceeaşi variantă (exemple: 12 elevii au 18 ani, 3 studenţi au obţinut nota 7).

FRECVENŢA RELATIVĂ (PONDEREA), notată cu f rx , f ry – se obţine prin ponderarea frecvenţei absolute, altfel spus, reprezintă procentul unei frecvenţe absolute din totalul frecvenţelor. (exemplu: din 48 de elevii ai unei clase 12 au vârsta de 18 ani, deci ponderea acestora este de 25%)

INDICATORII STATISTICI – reprezintă expresia numerică a unor determinări obiective ce rezultă dintr-o cercetare statistică (exemple: media, mediana, abaterea standard).

2.1. COLECTIVITATEA (POPULAŢIA) ŞI UNITATEA STATISTICĂ

După cum am specificat în primul capitol (vezi subcapitolul 1.2.) statistica este preocupată de studierea fenomenelor de masă, a acelor ansambluri finite de elemente care sunt, în mod esenţial, de aceeaşi natură calitativă, aparţin aceluiaşi teritoriu şi aceluiaşi timp, altfel spus, sunt statistic omogene. (E. Jaba & A. Grama, 2004) Aceste ansambluri sunt cunoscute sub denumirea de colectivităţi, populaţii, mulţimi.

COLECTIVITATEA STATISTICĂ (POPULAŢIA STATISTICĂ) – reprezintă totalitatea elementelor

simple sau complexe supuse studiului statistic. În funcţie de natura elementelor componente, colectivităţile statistice pot fi formate din ansambluri de fiinţe, de obiecte sau de evenimente

Exemple:

- elevii unei şcoli, populaţia unui oraş,

- numerele unui anumit ziar apărute într-o lună de zile,

- accidentele rutiere comise pe raza unui judeţ,

- opiniile electorale înregistrate într-un sondaj.

După numărul elementelor componente, colectivităţile statistice pot fi totale sau parţiale. Primele cuprind totalitatea elementelor componente, în timp ce colectivităţile parţiale, cunoscute sub denumirea de eşantioane, cuprind un număr reprezentativ de unităţi extrase dintr-o colectivitatea totală. Din acest punct de vedere întâlnim cercetări exhaustive - în cazul populaţiilor statistice totale - şi cercetări selective – ce folosesc proceduri de selecţie a indivizilor ce vor incluşi în eşantion. Problema ce apare atunci când apelăm la studii selective este aceea de a evalua încrederea pe care putem să o acordăm valorilor calculate în cadrul unui eşantion ca reprezentând valori similare pe populaţia întreagă, sau, altfel spus, de a aplica teste de semnificaţie. Mai mult, această evaluare se face diferit pentru eşantioane mici (sub 30 de indivizi) faţă de cele considerate eşantioane mari. Semnalăm faptul că această problemă nu apare – deci, nu se folosesc teste de semnificaţie – în cazul cercetărilor exhaustive (T. Rotaru et.al., 1999).

reprezintă elementele componente

– (constitutive) ale colectivităţilor statistice. Ele pot fi fiinţe, lucruri, precum şi fapte, evenimente referitoare la acestea.

UNITATEA

STATISTICĂ

(INDIVIDUL

STATISTIC)

După gradul de complexitate se clasifică în:

- simple, formate dintr-un singur individ (exemple: elevul, studentul, angajatul);

- complexe, acestea sunt rezultatul organizării sociale şi economice a colectivităţii (exemple: familia, departamentul, clasa de elevi, grupa de studenţi). Deşi, atât termenul de individ cât şi cel de populaţie statistică ne duc cu gândul la natura umană a lucrurilor, exemplele de mai sus pot fi completate cu unităţi statistice referitoare la lucruri (piesele unui lot supus controlului de calitate) sau la acţiunea omului asupra lucrurilor (măsurarea repetată a unui acelaşi obiect, aruncarea zarului).

2.2. VARIABILE STATISTICE VARIABILELE STATISTICE (CARACTERISTICILE STATISTICE) – reprezintă însuşirile ce

definesc şi delimitează unităţile statistice. Ele exprimă trăsăturile esenţiale purtate de unităţile statistice ale unei colectivităţi, adică dimensiunile prin care se observă, se cuantifică, se măsoară şi înregistrează fiecare unitate din colectivitate. Populaţiile umane, cele mai des întâlnite în studiile sociale, pot fi caracterizate, de exemplu, prin următoarele variabile: sex, vârstă, nivel de şcolarizare, coeficient de inteligenţă, tip temperamental ş.a. Valorile unei variabile statistice se mai numesc variante sau atribute ale variabilei şi se obţin prin acţiuni concrete de cuantificare şi măsurare a unităţilor unei colectivităţi statistice. De exemplu, variabila „mediul de provenienţă” are ca variante: urban şi rural; iar variabila „notele la examenul de statistică” are ca valori numerele întregi de la 1 la 10. Caracteristicile statistice au proprietatea de a-şi modifica însuşirile în timp şi spaţiu, de la o unitate la alta, în funcţie de influenţele exercitate de o multitudine de factori esenţiali şi întâmplători care acţionează la nivelul fiecărei unităţi din colectivitate. Această proprietate dă variabilelor statistice caracterul de variabilă aleatorie. În practica de cercetare sunt luate în considerare numai acele variabile care prezintă cel puţin două valori. Dacă, după o anumită caracteristică toate unităţile ar fi identice, aceasta nu ar mai necesita nici un fel de analiză, nemaifiind nevoie să se investigheze cum se manifestă indivizii statistici şi care sunt cauzele acestei variaţii. Să presupunem că toţi studenţii ar obţine nota 10 la disciplina „statistică socială”; nu ar avea nici o relevanţă să verificăm dacă există o legătură între aceste note şi mediile aceloraşi studenţi la examenul de bacalaureat! Aşadar, cu cât o variabilă îmbracă forme mai diverse, cu atât ea capătă o valoare de cunoaştere mai mare. Numai diversitatea formelor de manifestare a unei însuşiri îi conferă acesteia un interes din partea cercetătorului. (T. Rotaru et.al., 1999)

După modul de exprimare, variabilele statistice se clasifică în:

o variabile cantitative sau numerice, exprimate prin numere stabilite prin numărare/măsurare directă sau calcule ulterioare. Numărul stabilit este un număr

15

cardinal ce redă intensitatea cu care se manifestă însuşirea respectivă în cazul individului respectiv. La rândul lor, variabilele cantitative se clasifică după natura variaţiei în:

- variabile discrete, cu variaţie discontinuă, care pot lua numai valori întregi, de regulă, pozitive. Exemple: numărul de membrii din gospodărie, numărul cuvintelor memorate la o probă de memorie.

- variabile continue, cu variaţie continuă, care pot lua orice valoare într-un interval dat. Exemple: mediile şcolare anuale, venitul lunar. o variabile calitative, numite şi variabile atributive, categoriale, nominale, sunt caracteristici ale căror variante de manifestare sunt exprimate atributiv, prin cuvinte. Exemple: sexul, mediul de provenienţă, tipul temperamental.

După natura lor, variabilele statistice pot fi:

- variabile de timp, desemnează apartenenţă unităţilor la un anumit moment sau interval de timp.

- variabile de spaţiu, exprimă teritoriul căruia îi aparţin şi se manifestă unităţile colectivităţii. (A. Popescu, 2000)

După modul de obţinere, distingem

- variabile primare, obţinute prin înregistrare directă. Exemplu: notele obţinute de studenţi la fiecare disciplină de studiu.

- variabile derivate, rezultate în urma unor calcule ulterioare. Exemplu: mediile anuale obţinute de studenţi în fiecare an de studiu.

Atragem atenţia că într-un studiu statistic sunt reţinute numai acele caracteristici care prezintă interes pentru cercetarea întreprinsă. Pot fi zeci, chiar sute de variabile ce pot caracteriza indivizii unei populaţii statistice. De mult ori ne limităm la a analiza doar câteva dintre ele. De asemenea, tot cercetătorul este cel care stabileşte, uneori, modul de exprimare şi/sau natura variaţiei unei variabile. O variabilă cantitativă poate fi exprimată calitativ, după cum şi o variabilă cantitativă continuă poate fi transformată, prin rotunjire, într-o variabilă discretă. Exemplul clasic în susţinerea observaţiilor de mai sus este cel al variabilei „vârstă”: exprimată în ani-luni-zile reprezintă o variabilă cantitativă continuă, exprimată în ani împliniţi este o variabilă cantitativă discretă, iar atunci când folosim categoriile tânăr-adult-vârstnic, avem o variabilă calitativă. În fine, nu trebuie uitat faptul că de foarte multe ori variantele sau atributele variabilelor calitative sunt codificate cu ajutorul numerelor. Aceste coduri reprezintă nişte identificatori, acordarea lor fiind pur convenţională, deci ele nu se supun operaţiilor matematice sau prelucrărilor statistice bazate pe operaţii matematice (E. Jaba & A. Grama, 2004). De exemplu, întrebarea „Vă place cursul de statistică socială?” poate fi codificată prin 0–NU şi 1–DA sau „Starea civilă” poate fi codificată prin 1-necăsătorit, 2-căsătorit, 3-divorţat, 4-văduv, 5-alte variante; în ambele exemple ar fi inutilă calcularea mediei, a abaterii standard sau a oricărui alt indicator rezultat în urma unor calcule matematice.

2.3. CUNATIFICAREA ŞI MĂSURAREA FENOMENELOR SOCIALE.

De foarte multe ori în sferă ştiinţelor sociale şi comportamentale rezultatele obţinute în urma unor demersuri empirice sunt exprimate calitativ. Partidul cu care a votat un alegător, tipul temperamental al unui manager sau calificativul obţinut de un elev de clasa I sunt exemple de exprimări calitative ale unor caracteristici. În toate aceste situaţii vom putea utiliza aparatul statistic doar dacă vom face apel la operaţiile de cuantificare şi măsurare. Conform Dicţionarului de Sociologie (coord: C. Zamfir & L. Vlăsceanu, 1998, p.145), cuantificarea reprezintă „operaţia teoretică de descriere cantitativă a fenomenelor şi proceselor sociale în vederea măsurării şi/sau evaluării acestora…” În acelaşi sens, I. Mărgineanu (1982) face distincţie între cuantificare, desfăşurată cu preponderenţă la nivel teoretico-metodologic şi

16

măsurare, operaţie preponderent empirică, prin care se determină modalitatea de manifestare a fenomenului respectiv şi prin care se atribuie valori numerice unor caracteristici şi dimensiuni ale fenomenelor studiate. Sintetizând o serie de consideraţii referitoare la cele două concepte, N. Luduşan şi F. Voiculescu (1997) consideră cunantificarea ca o operaţie complexă, ce implică trecerea de la conceptele abstracte la dimensiuni şi indicatori cantitativi, care, ulterior, prin acţiuni concrete să fie înregistraţi şi, eventual, măsuraţi. Cunatificarea, susţin aceiaşi autori, este o operaţie prin care – pornindu-se de la analiza conceptelor ştiinţifice, pe de o parte şi de la analiza naturii fenomenelor studiate, pe de altă parte – sunt dezvăluite şi definite componentele, dimensiunile şi expresiile cantitative ale domeniului cercetat, astfel încât să devină posibilă colectarea, înregistrarea şi exprimarea cantitativă a datelor şi folosirea aparatului statistico-matematic de analiză a acestora (p.22). Mult mai contestat în ştiinţele sociale, termenul de măsurare se referă la operaţia de atribuire de valori (sub formă de cifre sau simboluri) unităţilor statistice ale unei colectivităţi observate, pe baza unui set de reguli de atribuire a valorilor. Utilizarea acestor reguli este posibilă numai prin intermediul instrumentelor de măsură: termometru sau rigla, în cazul măsurării temperaturii sau lungimii; testul sau chestionarul, în cazul măsurării unor variabile psihologice sau sociologice. Odată instrumentele construite, procesul de măsurare constă în citirea pe scalele acestor instrumente a unor valori reprezentând numărul de unităţi fundamentale de măsură. (V. Clocotici & A. Stan, 2001) Scalele (nivelurile) de măsură nu sunt altceva decât regulile prin care sunt atribuite valori unităţilor statistice. „Cunoaşterea proprietăţilor nivelurilor de măsură, susţine I. Mărginean (1982, p.70), prezintă importanţă deoarece s-a dovedit că o serie determinată de date permite, în mod legitim, să se adopte un anumit nivel de măsură sau tip de scală şi nu altul.” Practica statistică, ţinând cont de natura variabilelor şi, mai ales, de modul lor de exprimare (vezi subcapitolul 2.2.), operează cu patru tipuri fundamentale de scale (niveluri de măsurare):

scala nominală, scala, ordinală, scala de interval şi scala de raport. Fiecare dintre aceste scale se remarcă prin procedee specifice de exprimare numerică, ceea ce determină utilizarea anumitor operaţii de analiză şi prelucrare a datelor, foarte puţine pentru nivelul nominal şi extrem de multe pentru cel de raport. Încheiem prin a remarca unele proprietăţi pe care trebuie să le îndeplinească o scală de măsură:

- să fie consistentă,

- să fie corectă,

- să fie exhaustivă şi

- să fie mutual exclusivă.

Scala are consistenţă internă dacă produce rezultate (aproape) identice, atunci când este folosită în mod repetat pentru acelaşi obiect sau fenomen; este corectă dacă produce informaţia pe care o aşteptăm de la ea; are proprietatea de a fi exhaustivă atunci când poate măsura toate entităţile cărora le este destinată; şi este mutual exclusivă atunci când, în urma măsurării, fiecare entitate primeşte o singură valoare (V. Clocotici & A. Stan, 2001).

2.4. SCALE DE MĂSURĂ

Scala nominală. Este cel mai simplu tip de scală şi presupune doar diferenţierea calitativă a obiectelor şi fenomenelor măsurate. Aplicarea unei scale nominale la o colectivitate statistică înseamnă, în esenţă, o clasificarea a indivizilor după o caracteristică sau un atribut. Prin intermediul acestei scale se exprimă apartenenţa unităţilor statistice investigate la o categorie. Din aceste considerente, întâlnim acest tip de scală şi cu denumirile de scală calitativă, categorială sau de clasificare.

17

Condiţia fundamentală ce se cere unei scale nominale este, de fapt, cerinţa elementară impusă oricărei clasificări: dată fiind mulţimea claselor scalei şi mulţimea indivizilor, fiecare individ să se găsească în una şi numai una dintre clase (T. Rotaru et.al., 1999). Un exemplu clasic de variabilă nominală utilizată în cercetările psiho-sociale este caracteristica „sex”, ale cărei variante (categorii, atribute) sunt: masculin şi feminin. Chiar dacă, în activitatea concretă de înregistrare a datelor, celor două categorii le sunt atribuite codurile 1 şi 2, aceste numere sunt doar nişte simboluri, între ele existând un raport de echivalenţă şi nu unul de ordine. Alte scala nominale utilizate în psihologie şi sociologie sunt: - tipurilor temperamentale stabilite de Jung şi Eycenck: introvertit, extravertit, ambivert; - starea civilă: necăsătorit, căsătorit, văduv, …; opţiunea politică: partidul A, partidul B, …

Scala ordinală. Ca şi cea nominală, scala ordinală se foloseşte pentru exprimarea stărilor unor variabile calitative. În plus, acest tip de scală vine cu cerinţa ca între categoriile (clasele) scalei să existe o relaţie de ordine. Aceste scalele sunt cunoscute şi sub numele de scale de ordine, scale de rang sau scale ierarhice. O scală ordinală permite ordonarea observaţiilor, persoanelor, situaţiilor de la mic la mare, de la simplu la complex etc., permiţând astfel realizarea unor ierarhi (ranguri). În cazul scalelor ordinale putem stabili ierarhia celor „n“ variante ale variabilei, însă nu putem preciza valoare diferenţei dintre două variante. Cel mai frecvent folosim acest tip de scală în studiul atitudinilor. Răspunsurile la o întrebare de genul „Cât de mulţumit sunteţi de relaţiile din colectivul din care faceţi parte?” pot fi cuantificate printr-o scală ordinală, ale cărei clase sunt: mulţumit, şi mulţumit şi nemulumit, nemulţumit. Un alt exemplu de scală ordinală este ierarhia nevoilor umane în concepţia psihologului american A. Maslow. Scala stabilită de el cuprinde următoarele categorii, ordonate de la simplu la complex : nevoi fiziologice; nevoi de securitate; nevoi sociale, de apartenenţă la grup; nevoia de stimă, de a fi apreciat de ceilalţi; nevoia de autorealizare (V. Clocotici & A. Stan, 2001). Clasele pot fi şi aici codificate prin cuvinte care să exprime semnificaţia lor sau prin simboluri. Dacă în cazul scalelor nominale simbolurile puteau fi atribuite oricum, de data aceasta ele trebuie să evidenţieze ordinea claselor. Cel mai frecvent şi simplu mod de a evidenţia ordinea este folosire numerelor naturale: 1, 2, 3 …. Atragem atenţia că aceste simboluri numerice reprezintă numere ordinale şi nu cardinale, în consecinţă, operaţiile aritmetice (adunarea, scădere, înmulţirea şi împărţirea) nu pot fi utilizate nici de această dată (T. Rotaru et.al., 1999).

Scala de intervale. Împreună cu scalele de rapoarte, sunt utilizate pentru măsurarea

variabilelor cantitative şi presupune atribuirea de valori numerice unităţilor colectivităţii. Din acest motiv ele se mai numesc scări metrice sau numerice. Pe lângă cele două proprietăţi impuse de nivelurile anterioare de măsurare, şi anume:

- fiecare individ să se găsească în una şi numai una dintre clase,

- între categoriile (clasele) scalei să existe o relaţie de ordine,

scalele metrice adaugă o a treia:

- are sens luarea în considerare a distanţelor dintre categoriile scalei.

Această proprietate face ca datele experimentale obţinute pe o scală metrică să suporte aproape toate prelucrările statistice posibile. Caracteristic pentru scala de interval este faptul că utilizează o valoare 0 convenţională. Astfel, măsurarea cu acest tip de scală este independentă de originea aleasă şi de unitatea de măsură folosită, putându-se trece de la un sistem de măsurare la altul. Exemplul clasic îl reprezintă măsurarea temperaturii în sistemul Celsius şi în sistemul Fahreinheit. Trecând de la un sistem de măsurare la altul, deci schimbând zeroul convenţional şi

valorile temperaturii, raportul dintre două modificări de temperatură rămâne acelaşi (E. Jaba & A. Grama, 2004).

18

Un alt exemplu de astfel de scală îl reprezintă scalele pentru măsurarea inteligenţei. Scala de rapoarte sau scala de proporţii (sau scala de interval cu origine raţională). Face parte din categoria scalelor metrice, fiind folosită tot pentru exprimarea variabilele cantitative. Această scală de măsură posedă ca note distinctive existenţa unei origini naturale (a unui 0 absolut) şi precizarea clară a semnificaţiei unităţii de măsură, ceea ce face posibilă compararea raporturilor dintre gradaţiile scalei. Scala de rapoarte se foloseşte pentru măsurarea valorilor unor variabile precum venitul, înălţimea, timpul de reacţie ş.a. După uni autori (Kinnear şi Gray, 2000, cf. F. Sava, 2004) şi după cum reiese şi din utilizarea programului SPSS, în care există doar trei niveluri de măsurare, tendinţa actuală este de a renunţa la diferenţierea între ultimele două tipuri de scale. Aceasta pentru că majoritatea procedurilor statistice utilizate în cazul scalelor de intervale sunt valabile şi pentru scalele de rapoarte. Termenul generic sub care se reunesc cele două tipuri scale este cel de scală numerică sau metrică.

2.5. DEFINIREA VARIABILELOR STATISTICE CU AJUTORUL SPSS

Pentru crearea unei baze de date se începe prin definirea variabilelor. După apariţia ferestrei de întâmpinare din editorul de date SPSS se deschide fereastra de gestionare a variabilelor unde, pentru fiecare variabilă, sunt specificate următoarele caracteristici:

Name – numele variabilei (de exemplu: sex). Type – tipul variabilei, poate fi numeric, dată calendaristică, string ş.a. (de exemplu:

numeric). Width – numărul de caractere al variabilei (ex.: 1). Decimals – pentru variabilele numerice trebuie specificat numărul de caractere după virgulă al variabilei (ex.: 0). Label – comentariu (eticheta) ce însoţeşte variabila (ex.: sexul subiectului). Values – valorile pe care le poate lua variabila şi comentariile/etichetele ataşate acestora (ex.:

1 = „masculin”; 2 = „feminin”). Missing – specificarea cazurilor omise (ex.: None). Columns – numărul de spaţii alocat în editorul de date acestei variabile (ex.: 8). Align – alinierea acestei variabile în editorul de date, poate fi aliniere la stânga, la dreapta sau centrat (ex.: Center). Measure – Nivelul de măsurare al variabilei (tipul scalei), poate fi numeric (scale), nominal şi ordinal (ex.: Nominal).

Iată cum va arăta variabila dată ca exemplu mai sus:

ex. : Nominal). Iată cum va arăta variabila dată ca exemplu mai sus: Figura 2.1. Exemplu

Figura 2.1. Exemplu de definire a variabilelor

19

Odată completate aceste câmpuri pentru fiecare variabilă se revine la fereastra de date şi se poate începe introducerea datelor. Se observă că fiecare coloană reprezintă o variabilă, capul tabelului fiind constituit din numele variabilelor definite anterior, iar fiecare caz (case) de pe verticală reprezintă un subiect.

EXERCIŢII ŞI PROBLEME

1. Să se creeze în SPSS un fişier de date cu următoarele variabile:

- iniţialele subiectului,

- sexul,

- vârsta,

- venitul lunar,

- mediul de provenienţă,

- înălţimea (în cm),

- starea civilă,

- răspunsul dat pe o scală tip Likert cu 5 trepte la întrebarea „În ce măsură sunteţi satisfăcut de posturile de radio locale?”,

- răspunsul dat la întrebarea deschisă „De ce vă este teamă cel mai mult în momentul de faţă?”,

- coeficientul de inteligenţă,

- grad de introversie-extraversie (scala din EPQ),

- data testării (chestionării).

2. Construiţi în SPSS un fişier de date cu variabile preluate dintr-o cercetare recentă desfăşurată de dumneavoastră (lucrarea de licenţă, dacă e cazul)

3. Să se solicite Ajutor (Help) programului pentru definirea nivelului de măsurare (Measure) al unei variabile. Pentru variabila „vârstă” să se dea exemple de utilizare a celor trei niveluri de măsurare.

20

ORDONAREA,

3.

GRUPAREA

ŞI

PREZENTAREA DATELOR STATISTICE

3.1.

Serii (distribuţii) statistice

3.2.

Gruparea (sistematizarea) datelor

3.3.

Prezentarea datelor sub formă de tabele

3.4.

Reprezentarea grafică a datelor statistice

3.5.

Utilizarea SPSS pentru gruparea şi reprezentarea grafică a datelor statistice

3.1.

SERII (DISTRIBUŢII) STATISTICE

În cazul unui număr foarte mare de date este imposibilă (şi inutilă) analiza fiecărei valori în parte. În această situaţie, înaintea prelucrării şi analizei datelor se procedează la ordonarea, gruparea şi organizarea lor. Rezultatul ordonării şi grupării datelor statistice îl constituie seriile (distribuţiile) statistice (mai precis, seriile statistice de frecvenţe). Acestea sunt formate din două şiruri paralele de date din care unul reprezintă variantele/valorile variabilei (sau grupele de variante) iar celălalt numărul de unităţi statistice corespunzătoare fiecărei valori sau variante (frecvenţele absolute sau relative). Fiecare frecvenţă asociată valorii sau variantei respective a caracteristicii studiate reprezintă un termen al seriei statistice.

Exemplu:

variantele/valorile variabilei (sau grupele de variante)

x (vârsta) 20 ani 30 ani 40 ani 50 ani f 14 36 47 21
x (vârsta)
20 ani
30 ani
40 ani
50 ani
f
14
36 47
21
termen al seriei
statistice
frecvenţele absolute

În funcţie de modul de prezentare al variantelor, seriile statistice, se împart în:

serii simple – obţinute prin simpla înşiruire a valorilor individuale. Acestea sunt ulterior supuse operaţiilor de ordonare şi grupare (dacă numărul lor este suficient de mare), obţinându-se astfel unul din următoarele două tipuri de serii. serii de (pe) variante – când fiecărei variante îi revine un anumit număr de unităţi. serii de (pe) intervale – când fiecărui interval, mărginit de o limită inferioară şi de una superioară, îi revine un anumit număr de unităţi.

Ultimele două tipuri se mai numesc şi serii (repartiţii) de frecvenţe şi formează ceea ce numim o distribuţie statistică.

În funcţie de natura şi modul de manifestare ale variabilei studiate distingem două tipuri principale de serii statistice: serii statistice cantitative sau calitative. La acestea putem adăuga alte două tipuri de distribuţii statistice, la care criteriul după care se face diferenţierea este spaţiul sau timpul: serii statistice spaţiale şi cronologice. Aceste criterii nu numai că realizează o clasificare a seriilor statistice dar, vom vedea în capitolele următoare, determină limitele şi specificul prelucrărilor statistice complexe. Atunci

când variabilele sunt cantitative vom vorbi despre tehnici satistice parametrice; în celălalt caz, al caracteristicilor calitative, prelucrările ce le vom efectua vor fi de tip non-parametric.

a) Serii statistice cantitative, în care atât variantele caracteristicii cât şi frecvenţele sunt exprimate numeric. Extrem de important pentru momentul grupării datelor (vezi subcapitolul 2.2.) este tipul variabilei cantitative, dat de natura sa şi/sau de capacitatea cercetătorului de a realiza cuantificarea variabilei cu o precizie mai mică sau mai mare:

- variabile discrete (discontinue), în situaţia în care pot lua doar valori întregi sau multiplii întregi ai unor numere date (exemple: numărul membrilor unei familii, notele şcolare, coeficientul de inteligenţă);

- variabile continue, atunci când pot lua orice valori dintr-un interval finit sau infinit (exemple: înălţimea, mediile şcolare anuale).

b) Serii statistice calitative, în care caracteristica este exprimată nominal – prin cuvinte (exemple: sexul, calificativele şcolare). Aşa cum am specificat şi în capitolul anterior, proprietatea unei caracteristici de a fi calitativă sau cantitativă ţine nu numai de natura ei, ci şi de modul cum este considerată în cadrul cercetării (de exemplu, vârsta, poate fi variabilă cantitativă – exprimată în ani împliniţi, sau calitativă – exprimată nominal: copii, adolescenţi, adulţi, vârstnici).

c) Variabile şi serii statistice spaţiale sau teritoriale, sunt cele în care criteriul de diferenţiere a termenilor seriilor statistice îl reprezintă un element spaţial (exemple: judeţul, oraşul, zona istorică, sunt caracteristici spaţiale des utilizate în studiile sociologice la nivel naţional)

d) Variabile şi serii statistice cronologice, sunt cele în care timpul este criteriul ce diferenţiază termenii seriei statistice (exemple: cercetările longitudinale se referă la evoluţia unui fenomen în timp – zile, luni, ani; recensămintele au în vedere evoluţia unor indicatori în anumite intervale de timp – de regulă, un deceniu).

În concluzie, seria statistică de frecvenţe este rezultatul operaţiilor de ordonare şi grupare. Prezentarea seriilor statistice se face sub forma înşiruirii, pe orizontală sau pe verticală, a unor perechi de numere sau expresii, în care primul element reprezintă caracteristica (ce poate fi cantitativă sau calitativă, spaţială sau cronologică), iar al doilea frecvenţa, întotdeauna numerică, a variantelor sau grupelor de variante ce delimitează caracteristica respectivă. În rapoartele de cercetare aceste serii statistice, unele reflectând mai multe caracteristici concomitent, sunt ilustrate cu ajutorul tabelelor şi al graficelor.

Reamintim următoarele notaţii cu care operăm în prezentarea şi prelucrarea seriilor statistice:

- variantele sau grupele (clasele) de variante, x i : x 1 , x 2 , … x k , …

- frecvenţa variantei x i (numărul de apariţii), f i : f 1 , f 2 , … fk, …

- numărul total de variante (total frecvenţe) n: n = Σfi

i = 1, 2, … k, …

În cazul seriilor statistice de intervale se presupune că toate valorile din interiorul fiecărei grupe (clase) se concentrează în valoarea centrală a clasei, notată tot cu xi. Această valoare va înlocui în seria statistică intervalul respectiv şi se calculează ca medie aritmetică a valorilor extreme ale intervalului:

EMBED Equation.3

(1)

Menţionăm faptul că o serie statistică poate reda pe lângă frecvenţele absolute (f sau fa) şi pe cele relative (fr). Acestea sunt absolut necesare când se doreşte compararea unor serii statistice (eşantioane) cu numărul total de variante (n) diferit (de exemplu: în cazul a două clase cu număr total de elevi diferit). Mai mult, atunci când prelucrările statistici ulterioare o impun, putem determina şi alte frecvenţe:

- frecvenţa (absolută sau relativă) cumulată crescător, dată de suma frecvenţelor valorilor care apar până la valoarea xi respectivă, inclusiv;

22

-

frecvenţa (absolută sau relativă) cumulată descrescător, dată de suma frecvenţelor valorilor care apar de la valoarea xi respectivă, inclusiv.

Exemplu:

 

frecvenţa

frecvenţa

frecvenţa

frecvenţa

frecvenţa

frecvenţa

absolută

absolută

absolută

relativă

relativă

relativă

cumulată

cumulată

cumulată

cumulată

crescător

descrescător

crescător

descrescător

 

f

f.cc

f.cd

fr [%]

fr.cc [%]

fr.cd [%]

copil

144

144

1200

12

12

100

adolescent

336

480

1056

28

40

88

adult

516

996

720

43

83

60

vârstnic

204

1200

204

17

100

17

TOTAL

1200

   

100

   

3.2. GRUPAREA (SISTEMATIZAREA) DATELOR

Gruparea statistică reprezintă o operaţie de sistematizare a populaţiei pe părţi statistic omogene în funcţie de variaţia unei variabile (sau a mai multora). Importanţa acestei operaţii iniţiale derivă din erorile ce pot fi induse fie în cazul stabilirii unui număr foarte mare de grupe (clase) – situaţie în care se ajunge la „fărâmiţarea” colectivităţii –, fie în situaţia alegerii unui număr prea mic de grupe, cu intervale foarte mari în cadrul lor – situaţie în care nu vom surprinde tipurile calitative existente.

Tipuri de grupări întâlnite în practica statistică:

1) grupări pe variante – utilizate în cazul variabilelor de tip discret, când ele pot lua doar valori întregi (exemple: numărul membrilor unei familii, notele şcolare). 2) grupări pe intervale – utilizate în cazul variabilelor de tip continuu, când ele pot lua orice valoare într-un interval finit sau infinit (exemple: vârsta, mediile şcolare anuale).

Menţionăm faptul că şi variabilele de tip discret pot fi supuse grupărilor pe intervale (exemplu: note între 2 şi 4; 5–7; 8–10 etc.). În ambele situaţii mărimea intervalului (K) se obţine cu ajutorul formulei lui Sturges:

K =

x

max

x

min

1

+

3,222

lg n

(2)

unde, n reprezintă numărul total de variante.

În situaţia în care numărul de grupe este ales de cercetător (bazându-se pe experienţă şi intuiţie), mărimea intervalului (K) rezultă astfel:

- în cazul variabilelor de tip continuu, prin raportarea amplitudinii variaţiei (A = x max - x min ) la numărul de grupe:

K =

x

max

x

min

nr. grupelor

(3)

- în cazul variabilelor de tip discret, prin raportarea numărului valorilor diferite ale variabilei (N x = x max - x min +1 = A + 1) la numărul de grupe:

23

K =

x

max

x

min

+

1

nr. grupelor

(4)

O atenţie deosebită trebuie acordată precizării limitelor sau capetelor intervalelor. În cazul caracteristicilor discrete limitele intervalelor ies foarte bine în evidenţă, ele fiind diferite (exemplu: intervalele 2–4; 5–7; 8–10 etc.). Mai delicat este în cazul caracteristicilor continui, când trebuie precizat care dintre intervale include limita (exemplu: intervalele 2–4; 4–6; 6–8 etc.). Pentru evitarea confuziilor se procedează din start la departajarea limitelor, astfel: 2–4; 4,01–6; 6,01–8 etc.

Aplicaţie: Vârstele a 20 de subiecţi incluşi într-un eşantion sunt următoarele:

14

16

12

18

11

27

24

18

13

19

30

24

26

18

17

26

21

23

20

31

Să se grupeze datele:

a) în trei grupe;

b) într-un număr de grupe neprecizat (lg20 ≈ 1,3).

Rezolvare:

a) Fiind vorba de vârsta în ani împliniţi, avem de-a face cu o caracteristică de tip discret. Lungimea K a intervalului se calculează cu formula (4):

K

=

(31

11)

+

1

3

= 7

Datele grupate pot fi ilustrate astfel:

 

Grupe (ani)

   

11 - 17

 

18 - 24

   

25 - 31

Frecvenţe

     

5

 

7

 

5

b) Vom folosi formula lui Sturges (2):

 
 

K

=

31-11

 

=

20

=

3,74

4

 
 

1

+

3,222

lg 20

5,32

 

Datele grupate vor fi ilustrate astfel:

Grupe

11,00-15

15,01-19

19,01-23

23,01-27

27,01-31

(ani)

Frecvenţe

4

6

4

5

2

Exerciţiu: La un test de inteligenţă 30 de subiecţi au obţinut următoarele punctaje:

64

46

52

48

60

52

54

58

44

68

48

52

58

46

68

70

43

54

56

46

44

64

68

60

46

50

56

62

64

69

Să se efectueze gruparea acestora:

a) în cinci grupe; în şapte grupe; în trei grupe;

b) să se menţioneze gruparea pe care o consideraţi cea mai bună.

3.3. PREZENTAREA DATELOR SUB FORMĂ DE TABELE

Prezentarea datelor sub forma unui tabel statistic permite atât o bună vizualizare cât şi, mai

ales, efectuarea diverselor calcule în procesul de prelucrare a datelor.

24

În elaborarea unui tabel pot fi identificate următoarele elemente şi reguli principale:

- titlul tabelului - care trebuie să fie clar, scurt şi să definească exact fenomenul pe care îl reprezintă şi, după caz, perioada la care se referă;

- macheta tabelului - formată din liniile orizontale (rânduri) şi liniile verticale (coloane) din întretăierea cărora apar rubricile (celulele, căsuţele) care conţin datele numerice şi/sau denumirile textuale;

- subiectul tabelului - înscris de obicei la capătul rândurilor, este constituit din unităţile populaţiei statistice (ex.: grupe de note, grupe de puncte etc);

- predicatul tabelului - înscris de obicei la capătul coloanelor, cuprinde ansamblul indicatorilor care se înregistrează la nivelul unităţilor populaţiei statistice; - indicarea obligatorie a sursei de date, atunci când este cazul (de obicei sub tabel);

- se recomandă indicarea unităţilor de măsură în care se exprimă datele (de obicei, între titlul şi macheta tabelului);

- se recomandă numerotarea tabelelor - pentru identificarea mai uşoară a acestora în textul de analiză.

În funcţie de scopul întocmirii, de conţinutul lor şi de numărul caracteristicilor studiate tabelele pot fi de mai multe tipuri. Astfel:

a) Tabele ale unor serii statistice

Pot fi întocmite atât pentru seriile de variante cât şi pentru cele de intervale. Diferenţa este dată de rândurile tabelului care vor constitui variantele seriei, în primul caz, sau clasele de variante (eventual valorile centrale), în cel de-al doilea caz. În ambele situaţii pe coloane vor fi trecute frecvenţele, absolute sau relative, cumulate sau descrescătoare. (Exemplu: a se vedea tabelul 3.3)

b) Tabele centralizatoare

Sunt utilizate în toate situaţiile în care un număr mare de date trebuie stocate şi conservate în vederea prelucrării lor ulterioare. În lucrările ştiinţifice aceste tabele sunt, de obicei, prezentate sub formă de anexe, şi conţin pe coloane totalitatea variabilelor studiate, iar pe rânduri,

totalitatea unităţilor statistice (colectivitatea statistică) investigate.

c) Tabele comparative

Cuprind fie datele obţinute pe eşantioane diferite pentru aceeaşi caracteristică, fie datele

aceluiaşi eşantion pentru caracteristici diferite.

d) Tabele cu dublă sau triplă intrare

În acest caz, şi coloanele şi rândurile exprimă variaţiile uneia sau a două caracteristicii (variabile). Fiecare celulă exprimă numărul de unităţi statistice caracterizate prin variantele corespunzătoare tuturor caracteristicilor de pe orizontală şi verticală.

Exemple:

Tabel cu dublă intrare Situaţia la învăţătură a elevilor unei clase la sfârşitul anului şcolar Tabelul 3.1

Sexul

Masculin

Feminin

Media

generală

5-7,99

3

2

8-8,99

7

9

9-10

4

4

Sursa: N. Luduşan, 1997, pag. 245

25

Tabel cu triplă intrare Situaţia la învăţătură a elevilor unei clase la sfârşitul anului şcolar Tabelul 3.2

 

Mediul de provenienţă

Urban

Rural

     

5-7,99

1

1

M

 

generală

8-8,99

4

5

Media

9-10

3

2

Sex

 

5-7,99

2

1

F

 

8-8,99

3

4

 

9-10

1

2

Sursa: N. Luduşan, 1997, pag. 245

Aplicaţie: La un test de aptitudini tehnice cei 35 de elevi ai unei clase obţin următoarele rezultate (pe o scală de la 0 la 20):

F.B.

17

R.C.

12

T.D.

19

Ţ.V.

20

C.E.

16

L.M.

12

A.S.

11

Ş.L.

12

P.I.

14

V.V.

6

D.C.

18

V.A.

16

S.C.

15

C.M.

15

U.L.

14

S.M.

15

R.H.

14

N.P.

13

D.E.

10

I.A.

17

D.D.

14

T.N.

10

M.E.

16

P.D.

13

N.C.

18

B.A.

8

B.D.

14

S.L.

11

E.G.

9

V.F.

15

P.C.

13

A.D.

16

H.T.

17

I.I.

12

B.B.

11

Să se grupeze datele şi să prezinte sub formă de tabel, calculându-se toate frecvenţele posibile:

Rezolvare:

O primă sarcină ce îi revine cercetătorului este de a ordona şi grupa ansamblul de date (seria statistică simplă prezentată în enunţul problemei). În acest scop, trebuie, de la început, stabilite:

- colectivitatea statistică (sau populaţia) [în exemplul nostru, o clasă de elevi]

- mărimea colectivităţii statistice (populaţiei): n = Σf i [ex.: n = 35]

- unitatea statistică: [în exemplul nostru, elevul]

- caracteristica (variabila) statistică [ex.: puncte (note) la testul de aptitudini tehnice, exprimate în numere întregi; avem deci o variabilă discretă]

- valorile (variantele) pe care le ia variabila respectivă: x i [ex.: cifre de la 0 la 20]

- amplitudinea (diferenţa dintre valoarea maximă şi cea minimă): A = x max - x min [ex.: A = 20 - 6 = 14]

- numărul de valori diferite: N x = (x max - x min ) + 1 = A + 1[ex.: N x = 14 + 1 = 15]

Pentru a realiza gruparea colecţiei de date se impune stabilirea numărului de clase în care dorim să facem gruparea, după care se calculează mărimea intervalului de grupare (K). Să presupunem că dorim gruparea în 5 clase (numărul de clase îl stabilim după ce am analizat N x , în cazul nostru egal cu 15). Considerând că avem de-a face cu o variabilă discretă, mărimea intervalului se va calcula după formula (4):

26

K

=

(20

6)

+

1

15

=

5 5

= 3

Vom grupa succesiv câte 3 valori, iar în locul valorilor individuale vom opera cu valorile centrale (notate, de asemenea, cu x i ) obţinute cu ajutorul formulei (1). În final vom determina:

- frecvenţele absolute (numărul de subiecţi la care se înregistrează aceeaşi valoare): f i

- frecvenţele absolute cumulate crescător: f.cc i

- frecvenţele absolute cumulate descrescător: f.cd i

- frecvenţele relative (sau ponderile): fr i

- frecvenţele relative cumulate crescător: fr.cc i

- frecvenţele relative cumulate crescător: fr.cd i

Tabelul cu toate aceste date va arăta astfel:

Tabel al unei serii statistice de intervale Rezultatele obţinute de către elevi unei clase la un test de aptitudini tehnice Tabelul 3.3: Serie statistică de intervale

Nr.

 

Valoarea

Frecvenţa

   

Frecvenţ

   

crt.

Intervalu

centrală

absolută

a

i

 

l

x

i

f

i

f.cc i

f.cd i

relativă

fr.cc i

fr.cd i

   

fr i

1

6 - 8

7

2

2

35

5,71

5,71

100

2

9 - 11

10

6

8

33

17,14

22,85

94,29

3

12

- 14

13

12

20

27

34,29

57,14

77,15

4

15

- 17

16

11

31

15

31,43

88,57

42,86

5

18

- 20

19

4

35

4

11,43

100

11,43

 

n = Σf i = 35

   

100 %

   

3.4. REPREZENTAREA GRAFICĂ A DATELOR STATISTICE

Cu ajutorul reprezentărilor grafice sunt vizualizate informaţiile statistice, facilitându-se perceperea pe ansamblu a datelor, sesizarea unor aspecte privind variaţia valorilor observate, repartiţia lor, legăturile existente între ele ş.a.

Graficul trebuie să cuprindă:

- titlul - care poate fi plasat fie sub, fie deasupra graficului şi trebuie să precizeze limpede fenomenul pe care îl reprezintă;

- legenda - necesară definirii mai clare a unor simboluri utilizate în reprezentarea grafică sau menţionării anumitor convenţii utilizate;

- sistemul axelor rectangulare (dacă este cazul) - în care linia orizontală (abscisă) cuprinde valorile variabile x, iar cea verticală (ordonată) cuprinzând frecvenţele f;

- se recomandă numerotarea graficelor - pentru identificarea mai uşoară a acestora.

Graficele cel mai des utilizate sunt histogramele, poligoanele de frecvenţe, şi curbele de distribuţie, pe abscisă notându-se intervalele de variaţie (sau variantele), iar pe ordonată frecvenţele corespunzătoare acestor intervale (sau variante). Aceste reprezentări grafice se obţin prin unirea intersecţiilor perpendicularelor ridicate din punctele perechi de pe cele două axe. În cazul seriilor de intervale perpendiculara pentru desemnarea valorii frecvenţei se ridică din mijlocul intervalului, respectiv din punctul corespunzător valorii centrale a clasei.

27

Pentru a evidenţia şi/sau compara structurile se utilizează diagramele de structură, construite cu ajutorul suprafeţelor (cercuri, pătrate, dreptunghiuri), diagramele de comparaţie şi

reprezentările prin figuri simbolice ş.a

folosindu-se reprezentări grafice complexe precum: piramide ale vârstelor, grafice comparative, grafice combinate.

În multe cazuri, sunt studiate mai multe caracteristicii

Aplicaţie: La un examen de statistică s-au obţinut următoarele rezultate:

Note

4

5

6

7

8

9

10

Frecvenţe

6

14

18

20

36

24

12

Să se reprezinte grafic situaţia prezentată:

Rezolvare:

Pentru construirea histogramei se înscriu pe orizontală, la intervale egale, notele, în timp ce pe verticală se înregistrează frecvenţele. Se construiesc apoi coloane care au înălţimi proporţionale cu frecvenţele respective. Pentru construirea poligonului de frecvenţă se unesc prin linii drepte punctele centrale ale vârfurilor coloanelor existente, având grijă ca punctele extreme să fie unite cu valorile extreme ale seriei - printr-o linie întreruptă - pentru a forma un poligon. Este necesar de reţinut faptul că poligonul de frecvenţe se poate realiza şi fără ajutorul histogramei, ridicând din centrele intervalelor cuprinse pe orizontală perpendiculare cu înălţimi corespunzătoare frecvenţelor şi unind apoi aceste puncte.

corespunzătoare frecvenţelor şi unind apoi aceste puncte. Poligonul frecvenţelor 40 30 20 10 0 4 5

Poligonul frecvenţelor

40 30 20 10 0 4 5 6 7 8 9 10 Frecvenţe absolute
40
30
20
10
0
4
5
6
7
8
9
10
Frecvenţe absolute

Note

Exerciţiu: (1) Cunoscând frecvenţele corespunzătoare grupelor de vârstă din componenţa unui eşantion:

28

Grupe de vârstă

21-30

31-40

41-50

51-60

61-70

71-80

81-90

Frecvenţe

12

20

24

48

20

16

10

Să se reprezinte grafic seria statistică utilizându-se histograma:

Exerciţiu: (2) Reprezentaţi grafic, utilizând poligonul de frecvenţe, următoa-rea serie de date:

Note

3

4

5

6

7

8

9

10

Frecvenţe

10

14

18

20

48

32

16

12

În ce priveşte diagramele sub forma figurilor geometrice (cerc, pătrat, dreptunghi) utilizate atât pentru prezentarea structurilor cât şi/sau pentru compararea în timp a evoluţiei fenomenelor se procedează astfel:

- se construiesc cele două figuri în aşa fel, încât raportul dintre raze (sau laturi) să fie proporţional cu nivelurile fenomenului studiat în cele două perioade diferite de timp (în două localităţi etc.); - în cadrul fiecărei figuri geometrice se reprezintă structura corespunzătoare anului (spaţiului geografic) respectiv.

Aplicaţie: Grupând datele de la exerciţiul anterior în trei clase, să se reprezinte grafic structura seriei de date:

Rezolvare:

Rezultatul grupării este următorul:

Tabel al unei serii statistice de intervale Tabelul 3.4: Serie statistică de intervale

Nr.

Note

Valoarea

Frecvenţa

Frecvenţa

crt.

(grupate pe

centrală

absolută

relativă

i

intervale)

x

i

f

i

fr i

1

2

- 4

3

24

14,1

2

5

- 7

6

86

50,6

3

8 - 10

9

60

35,3

 

170

100,0 %

Reamintim că frecvenţele relative (ponderile) se calculează raportând fiecare frecvenţă absolută la totalul acestora (ex.: 24/170•100= 14.1% ). Se obţin apoi arce de cerc proporţionale cu frecvenţele relative.

29

Structura eşantionului după notele la examen

2 - 4 14% 8 - 10 35% 2 - 4 5 - 7 8
2 - 4
14%
8 - 10
35%
2
- 4
5
- 7
8
- 10
5 - 7

51%

Exerciţiu: Cunoscând că la un test de cunoştinţe s-au obţinut următoarele rezultate să se reprezinte grafic structura acestora.

 

Note

Sub 5

5 - 6

7 - 8

Peste 8

Număr studenţi

12

26

34

17

Exerciţiu: Presupunând că în doi ani şcolari - 1980/81 şi 1992/93 - numărul studenţilor şi repartizarea lor pe profile sunt cele prezentate, să se reprezinte grafic atât evoluţia cât şi structurile corespunzătoare celor doi ani de învăţământ.

 

Nr. studenţi (mii)

 
 

1980/1981

1992/1993

 
 

Tehnic

120

150

 

Economic

20

30

Universitar

30

80

Altele

20

40

 

200

300

 

Exerciţiu: Presupunând că în prezent numărul elevilor ce absolvă liceul este de 1.5 ori mai mare decât în anul 1985, iar ponderea actuală a absolvenţilor liceelor teoretice este 60%, adică de 5 ori mai mare decât cea din 1985, să se reprezinte grafic evoluţia şi structurile corespunzătoare.

3.5.

UTILIZAREA SPSS PENTRU GRUPAREA ŞI PREZENTAREA DATELOR SUB FORMĂ DE TABELE

GRUPAREA PE INTERVALE ŞI CONSTRUIREA SERIEI STATISTICE DE INTERVALE CU AJUTORUL

SPSS

Se parcurge, în bara de meniuri, traseul:

Transform” – „Recode” – „Into Different Variables”

30

Va fi afişată următoarea fereastră de dialog:

Va fi afişată următoarea fereastră de dialog: Figura 3.1. Fereastră de dialog pentru recodificarea variabilelor

Figura 3.1. Fereastră de dialog pentru recodificarea variabilelor

Primul pas este specificarea variabilei supuse transformării prin selectarea ei din fereastra din stânga. În partea dreaptă („Output Variable”) se specifică numele şi eticheta noii variabile după care se apasă butonul „Change”. Această transformare va fi vizualizată în fereastra din mijloc („Numeric Variable –> Output”). În cazul în care, anterior, s-a optat pentru „Into Same Variables” acest ultim pas nu mai este necesar, transformarea înlocuind în aceeaşi variabilă vechile valori cu cele noi. Urmează activarea unei noi ferestre de dialog prin apăsarea butonului „Old and New Values…” (figura 3.2).

Se completează cel puţin un câmp pentru „Old Value” şi unul pentru „New Value” după care se apasă butonul „Add”. Transformările vor fi vizualizate în fereastra din stânga, putând fi modificate („Change”) sau chiar eliminate („Remove”). În final se apasă „Continue” şi apoi „OK”, în baza de date apărând o nouă variabilă cu noul nume specificat şi cu valorile precizate în ultima fereastră de dialog.

şi cu valorile precizate în ultima fereastră de dialog. Figura 3.2. Fereastră de dialog pentru recodificarea

Figura 3.2. Fereastră de dialog pentru recodificarea variabilelor

REPREZENTAREA GRAFICĂ A DATELOR STATISTICE CU AJUTORUL SPSS

Pentru calcularea frecvenţelor absolute şi/sau relative ale unei serii statistice simple sau de variante, precum şi pentru reprezentarea grafică a distribuţiei de frecvenţe, se parcurge, în bara de meniuri, traseul:

„Analyze” – „Descriptive Statistics” – „Frequencies…”

31

Vom fi întâmpinaţi de fereastra următoare, în care, în partea stângă sunt afişate toate variabilele din baza de date (în ordine alfabetică sau în ordinea definirii lor).

date (în ordine alfabetică sau în ordinea definirii lor). Figura 3.3. Fereastra de întâmpinare (de dialog)

Figura 3.3. Fereastra de întâmpinare (de dialog) pentru calculul frecvenţelor

Selectăm, mutând din partea stângă în partea dreaptă – în fereastra numită „Variable(s)”, variabila sau variabilele dorite; activăm căsuţa numită „Display frequency tables”; după acestea putem apăsa butonul „OK”. Putem opta (accesând în fereastra de întâmpinare butonul „Statistics…”) pentru calcularea unor indicatori de centralitate şi de dispersie, la care vom reveni în capitolele următoare. Iată cum arată fereastra acestor opţiuni:

următoare. Iată cum arată fereastra acestor opţiuni: Figura 3.4. Fereastră de opţiuni pentru calculul unor

Figura 3.4. Fereastră de opţiuni pentru calculul unor indicatori statistici

Aplicaţie: Să se deschidă fişierul de date „Baza totala BOP 20015 . Acest fişier conţine 2080 de cazuri şi 444 de variabile. Să se obţină tabelul de frecvenţe şi histograma care conţine frecvenţele absolute pentru variabila p1, variabilă care exprimă răspunsurile celor 2080 de subiecţi la întrebarea „Cât de des citiţi ziarele”.

Rezolvare:

După selectarea variabilei şi activarea căsuţei numită „Display frequency tables” (vezi figura 3.3.) se apasă butonul „OK”, în fereastra de rezultate (Output1 – SPSS Viewer) se obţine.

5 Fişierul „Baza totala BOP 2001” este oferit gratuit de Fundaţia pentru o Societate Deschisă şi reprezintă rezultatul unui sondaj realizat în noiembrie 2001. De fapt, această cercetare se desfăşoară bianual sub egida programului iniţiat în urmă cu şase ani de instituţia amintită, program cunoscut cu denumirea de „Barometrul de Opinie Publică - BOP”. Informaţii suplimentare şi alte fişiere de date pot fi obţinute accesând www.osf.ro.

32

După titlul Frequencies este afişat un tabel, intitulat Statistics , cu datele generale despre variabila

După titlul Frequencies este afişat un tabel, intitulat Statistics, cu datele generale despre variabila analizată. În exemplul nostru, ne sunt prezentate;

- eticheta (Label) variabilei: „Cât de des citiţi ziarele?”,

- numărul de cazuri valide: 2080 şi

- numărul de cazuri omise: 0. Urmează tabelul distribuţiei de frecvenţe care conţine următoarele coloane:

- etichetele variantelor (valorilor) valide sau omise;

- Frequency, frecvenţele absolute;

- Percent, frecvenţele relative sau procentele;

- Valid percent, frecvenţele relative (procentele) valide;

- Cumulative percent, frecvenţele relative (procentele) valide cumulate;

*

Pentru a obţine o reprezentare grafică aferentă seriei statistice respective, revenim la fereastra

de întâmpinare pentru calculul frecvenţelor (figura 3.3) şi apăsăm butonul „Charts…”.

(figura 3.3) şi apăsăm butonul „ Charts… ”. Figura 3.5. Fereastră de opţiuni pentru reprezentarea

Figura 3.5. Fereastră de opţiuni pentru reprezentarea grafică a seriilor de frecvenţe

Va apărea o nouă fereastră în care, înainte de a apăsa butonul „Continue”, vom opta pentru una din următoarele situaţii („Chart Type”):

- „None”, când nu se doreşte reprezentarea grafică a variabilei;

- „Bar charts”, reprezentare grafică sub formă de histogramă folosită pentru serii statistice calitative sau pentru seriile de frecvenţe (de variante sau de intervale) în care variabila

33

este discontinuă; aici putem opta pentru afişarea valorilor pe grafic („Chart Value”) sub forma frecvenţelor absolute („Frequencies”) sau a celor relative („Percentages”);

- „Pie charts”, reprezentare grafică sub forma diagramei de structură prin arce de cerc folosită pentru serii statistice calitative sau pentru seriile de frecvenţe (de variante sau de intervale) cu număr redus de variante; avem posibilitatea aceloraşi opţiuni de mai sus;

- „Histograms”, reprezentare grafică sub formă de histogramă folosită pentru serii statistice cantitative simple sau de variante, în care variabila este de tip continuu; aici se poate opta pentru trasarea curbei distribuţiei normale prin activarea căsuţei „With normal curve”.

Revenind la fereastra de dialog pentru calculul frecvenţelor (figura 3.3) putem obţine reprezentarea grafică prin apăsarea butonului „OK” sau putem accesa alte opţiuni apăsând butonul „Format…” (vezi figura 3.6).

apăsând butonul „ Format… ” (vezi figura 3.6). Figura 3.6. Fereastră de opţiuni pentru calculul şi

Figura 3.6. Fereastră de opţiuni pentru calculul şi reprezentarea grafică a

În noua fereastră se poate opta pentru ordinea variantelor în tabelul de frecvenţe şi, implicit, în cadrul reprezentării grafice („Order by”) şi/sau pentru modul de prezentare al variabilelor, atunci când sunt analizate mai multe, în fereastra de rezultate („Multiple Variables”). Ordinea variantelor (Order by) poate fi:

- „Ascending values” / „Descending values”, când dorim ordonarea ascendentă/descendentă a valorilor;

- „Ascending counts” / „Descending counts”, când dorim ordonarea ascendentă/descendentă a frecvenţelor; Modul de prezentare al variabilelor („Multiple Variables”) în fereastra de gestionare a rezultatelor va depinde de următoarele opţiuni:

- „Compare variables”, situaţie în care în primul tabel, intitulat Statistics, vor fi prezentate, pe coloane, toate variabilele analizate; după care se afizează tabelul de frecvenţe al tuturor variabilelor; iar în final, sunt reprezentate graficele pentru toate variabilele selectate.

- „Organyze output by variables”, când fiecare variabilă este prezentată separat, în ordinea din fereastra „Variable(s)”.

Aplicaţie: Să se deschidă fişierul de date „Baza totala BOP 2001”. Să se obţină histograma frecvenţele absolute pentru variabila p1, variabilă care exprimă răspunsurile celor 2080 de subiecţi la întrebarea „Cât de des citiţi ziarele”.

Rezolvare:

După selectarea variabilei (vezi figura 3.3.) se optează în fereastra de întâmpinare apăsând butonul „Charts” (vezi figura 3.5.). Aici se selectează opţiunea „Bar charts”, după care se apasă „OK”. În fereastra de rezultate (Output1 – SPSS Viewer) se obţine reprezentarea grafică sub

34

formă de histograme a frecvenţelor celor şapte variante ce au putut fi alese de cei 2080 de subiecţi.

variante ce au putut fi alese de cei 2080 de subiecţi. Menţionăm că prin dublu-clik cu

Menţionăm că prin dublu-clik cu butonul-stânga al mouse-ului pe grafic se poate deschide editorul de grafice din SPSS, în care se pot face modificări substanţiale a reprezentării grafice, inclusiv transformarea în alt tip de grafic. De asemenea, atragem atenţia asupra existenţei şi a altor soluţii pentru reprezentarea grafică a distribuţiilor de frecvenţe. De exemplu, în bara de meniuri se poate deschide submeniul „Graphs”, apoi „Bar…” – „Define”, se selectează variabila dorită la rubrica „Category Axis” şi se apasă „OK”. Rezultatul va fi acelaşi.

Exerciţiu: Pentru aceeaşi variabilă p1 din fişierul de date „Baza totala BOP 2001” să se obţină histograma frecvenţelor relative, ordonate crescător/descrescător în funcţie de variante şi de frecvenţe (în total patru grafice).

EXERCIŢII ŞI PROBLEME

1. Să se creeze în SPSS un fişier de date cu următoarele variabile:

a) numele şi prenumele,

b) sexul,

c) vârsta,

d) starea civilă,

e) venitul lunar,

f) răspunsul dat pe o scală tip Likert cu 5 trepte la întrebarea „În ce măsură sunteţi satisfăcut de relaţiile cu colegii?

g) coeficientul de inteligenţă.

Să se introducă date pentru 30 de subiecţi (cazuri). Să se calculeze cu ajutorul SPSS frecvenţele pentru variabilele b), d), e), f) şi g). Pentru aceleaşi variabile să se construiască, în funcţie de tipul variabilei, grafice sub formă de histograme, poligoane de frecvenţe, curbe de frecvenţe şi diagrame de structură.

2. În fişierul de date „bd BOP Oct 2004” să calculeze frecvenţele şi să se reprezinte grafic variabilele 359 şi 360 cu numele p0_sex şi p0_age. Aceleaşi grafice să se realizeze prin două căi diferite.

35

Să se grupeze variabila 360 cu numele p0_age în 7 grupe. Să se creeze o nouă variabilă cu numele varsta (se va parcurge traseul: „Transform” – „Recode” – „Into Different Variables”). Să se calculeze frecvenţele pentru această nouă variabilă.

3. Construiţi în SPSS un fişier de date cu variabile preluate dintr-o cercetare recentă desfăşurată de dumneavoastră (lucrarea de licenţă, dacă e cazul). Acolo unde este cazul, să se grupeze datele, să se calculeze frecvenţele şi să se reprezinte grafic, în SPPSS, distribuţiile respective.

36

4.

I NDICATORI

AI

TE NDINŢ EI

CENT RALE

4.1. Mediile

4.2. Quantilele: mediana, quartilele, decilele şi centilele

4.3. Modul

4.4. Relaţia dintre indicatorii tendinţei centrale

4.5. Reprezentări de tip Boxplots

4.6. Utilizarea SPSS pentru calcularea şi reprezentarea indicatorilor de poziţie

În cele mai multe investigaţii psihosociale sau educaţionale prezentarea rezultatelor sub formă tabelară sau prin reprezentări grafice nu este suficientă. Prin intermediul unor indicatori

statistici putem realiza o prelucrare mult mai riguroasă a datelor, putem cunoaşte mult mai temeinic fenomenele studiate. Termenul de „indicator” se referă la acele „valori ataşate variabilelor statistice cantitative prin intermediul cărora se încearcă exprimarea, de o manieră sintetică a informaţiei conţinută în distribuţia de frecvenţe respectivă” (Rotariu et. al., 1999, p. 42). În funcţie de natura informaţiei oferită de indicatorii statisticii, aceştia se clasifică în trei mari categorii:

- indicatori ai tendinţei centrale (de poziţie sau de nivel),

- indicatori ai variaţiei (de dispersie sau de împrăştiere),

- indicatori ai formei distribuţiei.

*

Pentru a determina modul în care datele statistice tind să graviteze în jurul unor valori centrale se folosesc indicatorii tendinţelor centrale. Dintre aceştia vom prezenta: media, quantilele

(mediana, quartilele, decilele şi centilele) şi modul.

4.1.

MEDIILE

Mărimile medii sunt considerate a fi principalele instrumente de cunoaştere a fenomenelor de masă, ca urmare a faptului că ele exprimă ceea ce este comun şi general în forma de manifestare a acestor fenomene

Pentru a ne fi de folos, însă, calculul mărimilor medii trebuie să îndeplinească anumite condiţii:

- să se bazeze pe un număr suficient de mare de cazuri individuale;

- valorile individuale ale caracteristicii să nu difere prea mult de la o unitate statistică la alta, adică să avem o colectivitate omogenă;

- mărimea medie aleasă pentru calcul să corespundă cel mai bine formei de variaţie a caracteristicii studiate şi să valorifice cel mai bine materialul cifric de care dispunem (Novak, 1995).

MEDIA ARITMETICĂ

Media aritmetică ( x ), reprezintă, în cazul datelor negrupate (serii simple), raportul dintre suma valorilor variabilei respective şi numărul lor.

Media aritmetică simplă:

Σ x i x =
Σ
x
i
x =

n

(1)

Dacă datele sunt grupate (serii de frecvenţe), media - numită, în acest caz, media aritmetică ponderată - va fi:

Media aritmetică ponderată:

Σ x f i i x = Σ f i
Σ x f
i
i
x =
Σ f
i

(2)

În cazul seriilor de intervale x i va reprezenta valoarea centrală a intervalului, calculele făcându-se identic cu cel de la seriile de variante.

Aplicaţie: Să se determine media aritmetică a următoarelor note obţinute de un grup de 9 studenţi la un examen:

5

8

8,5

7

9

6,5

8

8

7,5

Rezolvare:

Fiind vorba de o serie statistică simplă (nici măcar ordonată!) sa va folosi formula (1), calculându-se Σx i = 67,5. În final vom obţine:

67,5 x =
67,5
x =

9

= 7,5

Aplicaţie: Cunoscând notele obţinute de cei 80 de studenţi testaţi la statistică şi grupându- i după notele primite, a rezultat următoarea serie pe variante:

Note (x i )

4

5

6

7

8

9

10

Număr studenţi Frecvenţe (f i )

2

6

11

14

25

14

8

Să determine media (ponderată) a seriei de mai sus.

Rezolvare:

Se înmulţeşte x i cu f i după care se face suma. Tabelul centralizator va arăta astfel:

Tabel al unei serii statistice de variante

Tabelul 4.1: Serie statistică de variante

Nr.

Note

Frecvenţa

 

crt.

(grupate pe

absolută

x i • f i

i

variante)

f

i

x

i

 

1

4

2

8

2

5

6

30

3

6

11

66

4

7

14

98

5

8

25

200

6

9

14

126

7

10

8

80

 

n = Σ f i = 80

Σ x i • f i = 608

38

Raportând totalul obţinut pe coloana x i • f i (Σ x i • f i = 608) la totalul frecvenţelor (n = Σ f i

= 80), se obţine media aritmetică ponderată: x = 608/80 = 7,6.

MEDIA PĂTRATICĂ

Media pătratică ( x p ), se aplică atunci când se doreşte acordarea unei importanţe deosebite nivelurilor mai mari ale seriei. Aceasta se obţine după aceleaşi formule, dar prin ridicarea la pătrat a tuturor valorilor seriei. În această situaţie, media pătratică va fi întotdeauna mai mare decât media aritmetică.

Media pătratică simplă:

x

p

=

2 Σ x i n
2
Σ
x
i
n

(3)

Media pătratică ponderată:

x

p

=

2 Σ x f i i Σ f i
2
Σ x
f
i
i
Σ
f
i

(4)

MEDIA GEOMETRICĂ

Media geometrică ( x g ), Se aplică atunci când se acordă o importanţă mai mare valorilor mai mici din serie sau în cazul în care între termenii seriei există o relaţie de produs. Formulele iniţiale de calcul pot fi transformate prin logaritmare în egalităţi mai uşor de utilizat în practica curentă.

Media geometrică simplă:

Aceasta, prin logaritmare devine:

Media geometrică ponderată:

Aceasta, prin logaritmare devine:

x

g

=

log

log

log

x

x

n ∏ x i
n
x
i

g

g

=

x

=

Σ log(

x

i )

n

f Σ f i g = i ∏ x i Σ f log( x )
f
Σ
f
i
g =
i
x
i
Σ f
log(
x
)
i
i
Σ f
i

(5)

(5’)

(6’)

(6)

Ultimele două tipuri de medii sunt mai puţin întâlnite în activitatea curentă, motiv pentru care, de cele mai multe ori, termenul de medie sau valoare medie se referă exclusiv la media aritmetică.

4.2.

QUANTILE 6

O altă categorie de indicatori ai tendinţelor centrale o reprezintă quantilele. Acestea sunt indicatori de poziţie şi au rolul de a împărţii seria de date într-un anumit număr de părţi. Dintre quantilele cele mai des calculate amintim:

Mediana (M sau M e ), este valoarea care împarte seria ordonată de date în două părţi egale. Jumătate din valori (50%) se găsesc în partea stângă a medianei iar cealaltă jumătate în partea

6 În SPSS, se numesc percentiles.

39

dreaptă. Pentru calculul medianei este absolut necesară ordonarea seriei statistice, fie crescător, fie descrescător (aspect fără importanţă în cazul calculului valorilor medii!). Pentru a afla al câtelea element al unei serii cu număr impar de termeni este mediana se calculează cota medianei după formula;

Cota M = (n+1)/2

(7)

De exemplu, presupunând că notele, ordonate crescător, obţinute de un lot de nouă subiecţi

sunt:

4 5

6

7

7

8

8

8

9

cota medianei va fi (9+1)/2 = 5, astfel încât mediana va corespunde celui de-al cincilea termen din serie, adică 7. Se observă că şi în stânga şi în dreapta acestei valori se află un număr egal de termeni. Pentru seriile formate dintr-un număr par de valori formula (7) rămâne valabilă, numai că rezultatul nu va mai fi un număr întreg. Vom vorbi de doi termeni centrali, poziţia medianei fiind între termenul n/2 şi n/2+1. În acest caz, mediana se calculează făcând media celor două valori, putând să coincidă (dacă valorile corespunzătoare termenilor n/2 şi n/2+1 sunt egale), sau nu (în caz contrar), cu una din valorile seriei. Dacă în exemplu anterior mai apare un subiect cu nota 9 vom avea o serie cu zece termeni:

4 5

6

7

7

8

8

8

9

9

mediana va fi dată de media valorilor corespunzătoare termenilor cinci şi şase, adică 7,5. Lucrurile devin mult mai complicate dacă ne referim la distribuţii de frecvenţe. Quartilele (Q) reprezintă alte tipuri de quantile, ele împărţind seria de date în patru părţi egale, astfel:

quartila 1 (Q 1 ) împarte valorile în 25% (un sfert) şi, respectiv, 75% (trei sferturi); quartila 2 (Q 2 = M) împarte seria de date în două jumătăţi egale, ea fiind, de fapt, mediana; quartila 3 (Q 3 ) împarte seria ordonată în 75% şi, respectiv, 25%. Analog, se definesc şi celelalte quantile: decilele (împart o serie ordonată în zece părţi egale) şi centilele (împart o serie ordonată într-o sută de părţi egale).

4.3. MODUL (VALOAREA MODALĂ)

Modul «sau valoarea modală» (M o ), reprezintă valoarea caracteristicii care prezintă frecvenţa cea mai mare, care apare de cele mai multe ori în seria de date. De exemplu, în cazul unei serii simple de date de forma:

4

5

5

6

7

7

8

8

8

9

modul va fi 8, această valoare apărând de cele mai multe ori în cadrul seriei. Pentru o serie de variante, modul este egal cu varianta care are cea mai mare frecvenţă, iar pentru o serie de intervale, fie se calculează media intervalului cu cea mai mare frecvenţă, fie rămânem doar la noţiunea de interval modal.

Pentru toţi aceşti indici ai tendinţei centrale formulele de calcul sunt mai complexe atunci când datele sunt grupate. Tratatele de statistică aplicată prezintă în amănunt toate aceste formule.

4.4. RELAŢIA DINTRE MEDIE, MEDIANĂ ŞI MODUL

În funcţie de înfăţişarea (grafică) unei serii statistice cele trei valori medii pot să coincidă,

sau nu. În prima situaţie vom vorbi de o distribuţie normală (gaussiană) sau vom afirma că populaţia din eşantionul studiat este distribuită „normal” omogenă în raport cu variabilă respectivă. În celălalt caz, nu toate cele trei valori sunt reprezentative, motiv pentru care se recomandă adoptarea unuia dintre indicatori în funcţie de tipul de repartiţie, astfel:

- pentru seriile cu repartiţii simetrice, sunt recomandate media şi mediana;

- când distribuţia este asimetrică, se preferă valoarea modală.

40

Între aceste trei caracteristici medii de bază există o relaţie aproximativă, stabilită de G.U. Yule şi M. G. Kendall, valabilă pentru distribuţii moderat asimetrice:

M

o

= M

e

3(

x M

e

)

(8)

4.5. REPREZENTĂRI TIP BOXPLOT

O modalitate specifică de a reprezenta tendinţa cazurilor unei serii statistice de a se grupa în jurul unor valori centrale o reprezintă diagramele de tip Boxplot. Acestea marchează printr-un dreptunghi (o cutie) cele trei quartile – Q1, Q2, şi Q3 – ale oricărei serii statistice şi prin două

linii distincte cea mai mică, respectiv cea mai mare valoare a seriei. Din acest motiv, despre această reprezentare se mai spune că reprezintă o rezumare prin cinci valori. Între cele două quartile Q1 şi Q3 (în interiorul dreptunghiului) se regăsesc 50% din cazuri. Mai mult, sunt reprezentate, atunci când este cazul, valorile extreme 7 (mai mici/mari de 1.5, respectiv 3 lungimi de cutie 8 – simbolizate prin cerc, respectiv asterisc).

Reprezentare grafică de tip Boxplot a variabilei „Vârsta subiecţilor”

50

40

30

20

10

N =

32

varsta subiectilor

8 21
8
21
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS
50 40 30 20 10 N = 32 varsta subiectilor 8 21 4.6. U TILIZAREA SPSS

4.6. UTILIZAREA SPSS PENTRU CALCULAREA ŞI REPREZENTAREA INDICATORILOR DE POZIŢIE

Cu ajutorul programului SPSS valorile tendinţei centrale se obţin cu mare uşurinţă, existând mai multe posibilităţi. Una dintre posibilităţi este amintită în capitolul anterior, presupunând traseul