Sunteți pe pagina 1din 270

Elemente de statistica aplicata 2010 Mihaela Sandu

ELEMENTE
DE STATISTICĂ
APLICATĂ

BUCUREŞTI 2010

1
Elemente de statistica aplicata 2010 Mihaela Sandu

CUPRINS

PREFAŢĂ………………………………………………………………………….1
PARTEA ÎNTÂI: ELEMENTE DE STATISTICĂ
Cuvânt înainte………………………………………………………………........4
Capitolul I. Noţiuni introductive……………………………………………....6
I.1. Noţiuni şi concepte utilizate în statistică…………………………………....8
I.2. Alegeţi răspunsul corect………………………………………………….....14
I.3. Răspunsuri corecte………………………………………………………….17
Capitolul II. Observarea datelor statistice…………...……………………….18
II.1. Metode de observare statistică…………………………………………......20
II.2. Eroarea statistică. Controlul datelor statistice...................................................28
II.2. Alegeţi răspunsul corect…………………………………………………….30
II.3. Răspunsuri corecte………..………………………………………………...32
Capitolul III. Scale (nivele) de măsurare……………………………………...33
III.1. Scale neparametrice………………………………………………………...34
III.1.1. Scala nominală……………………………………………………..34
III.1.2. Scala ordinală ……………………………………...……………....39
III.2. Scale parametrice…………………………………………………………...44
III.2.1. Scala de interval....…………………………...………………….....44
III.2.2. Scala de raport...…………………………………………………...47
III.3. Alegeţi răspunsul corect…………………………………………………....49
III.4. Probleme…………………………………………………………………….52
III.5. Răspunsuri corecte………………………………………………………….54
Capitolul IV. Indicatori statistici……………………………………………….57
IV.1. Indicatori ai tendinţei centrale……………………………………………...58
IV.1.1. Media aritmetică...………………………………………………….58
IV.1.2. Modul...……………………………………………………………..61
IV.1.3.Mediana………...…………………………………………...……....64
IV.2. Quartilele…………...……………………………………………………….68
IV.3. Indicatori ai variabilităţii..…………………….……...…………………….71
IV.3.1. Indicatori sintetici ai variaţiei……………………………….……...72
IV.3.1.1. Abaterea medie liniară…………………………………….…...73
IV.3.1.2. Dispersia………………………….…………………………....75
IV.3.1.3. Abaterea medie pătratică………………………………………77
IV.3.1.4. Coeficientul de variaţie………………….……………………....78
IV.4. Indicatori ai formei distribuţiei………………………….…………………..79
IV.4.1. Indicatori ai asimetriei………………………………………………79
IV.4.2. Coeficientul Yule…………………………………………………......82
IV.4.3. Coeficientul de asimetrie Fisher………………………………… …84

2
Elemente de statistica aplicata 2010 Mihaela Sandu

IV.4.4. Boltirea …………..………………….………………………..……..86


IV.5. Alegeţi răspunsul corect…………………………………………………….90
IV.6. Probleme…………………………………………………………………….95
IV.7. Răspunsuri corecte………………………………………………………...100
Capitolul V. Cercetarea statistică prin sondaj………………………………...107
V.1. Procedee de eşantionare………………………………………….…………110
V.1.1 Sondajul aleatoriu simplu repetat…………………………………......113
V.1.1.1. Determinarea volumului eşantionului…………………………..116
V.1.2. Sondajul aleator simplu nerepetat……………………………………117
V.1.2.1. Determinarea volumului eşantionului…………………………..119
V.2. Alegeţi răspunsul corect………………………………………………….....123
V.3. Probleme…………………………………………………………………….124
V.4. Răspunsuri corecte…………………………………………………………..126
Capitolul VI. Testarea ipotezelor statistice………….…………………...…..…128
VI. 1. Demersul testării unei ipoteze statistice…………………………………...128
VI.2. Concepte şi erori în testarea ipotezelor statistice…………………………..130
VI.3. Teste de concordanţă……………………………………………………….131
VI.3.1. Eroarea standard estimată a mediei………………………………....131
VI.3.2. Compararea a două eşantioane de scoruri
corelate/relaţionate. (Testul „t”)…………………………...…………….132
VI.3.3. Testul Chi-square (Diferenţe între frecvenţele eşantioanelor)……...…...134
VI.3.4. Testul Z pentru eşantioane independente, dispersii cunoscute….……….134
VI.3.5. Alegeţi răspunsul corect……………………………………………….…137
VI.3.6. Răspunsuri corecte……………………………………………………….139
Capitolul VII. Elemente de analiză dispersională……………………..……...140
VII.1. Analiza de varianţă (Anova)……………………………………….……...140
VII.2. Regresia şi corelaţia simplă liniară……………………………….…...…..142
VII.3. Alegeţi răspunsul correct………………………………………….………144
VII.4. Răspunsuri…………………………………………………………….…..146
Capitolul VIII. Etapele cercetării în ştiinţele socio-umane………......……......147
VIII.1. Enunţarea problemei…………………………………….…..............….....147
VIII.2. Formularea
ipotezelor………………………………………………….................................….149
VIII.3. Proiectarea cercetării……………………………………………………....152
VIII.4. Efectuarea observaţiilor…………………………………………………....152
VIII.5. Interpretarea datelor……………………………………………...…..........152
VIII.6. Formularea concluziilor………………………………………...…........…153
VIII.7. Alegeţi răspunsul corect………………………………………….....….….154
VIII.8. Răspunsuri corecte……………………………………………...….......….155

3
Elemente de statistica aplicata 2010 Mihaela Sandu

PARTEA A DOUA: ASPECTE TEORETICE ŞI PRACTICE ALE


PROGRAMULUI STATISTIC SPSS
Introducere………………………………………………………….….157
I. Noţiuni de bază despre introducerea
şi analiza statistică folosind SPSS……………………………………... 158
I.1. Accesarea SPSS-ului………………………………………….......... 158
I.2. Introducerea datelor…………………………………….…….......... 159
I.3. Salvarea datelor……………………………………………….......... 160
I.4. Folosirea variabilei „View” pentru crearea
şi etichetarea variabilelor……….………………………………….. 160
I.5. Exmplu de calcul statistic ………………………….…………….... 163
I.6. Concepte statistice esenţiale în analizele
cu ajutorul SPSS-ului………………………………………….......... 164
I.7. Exerciţii ……………………………………………………………. 165
I.8. Alegeţi răspunsul corect……………………………………………. 166
I.9. Răspunsuri corecte……………………………………….……….... 168
II. Descrierea variabilelor. Tabele şi diagrame………….………........... 169
II.1. Frecvenţa procentuală……………………………………….......... 169
II.2. Diagrama circulară pentru date categoriale………………………. 171
II.3. Adăugarea etichetelor unei diagrame circulare…………………... 172
II.4. Diagrama cu bare pentru date categoriale………….……….......... 173
II.5. Histograme………………………………………………………... 174
II.6. Exerciţii …………………………………………………………... 176
II.7. Alegeţi răspunsul corect…………………………………….. ….. 177
II.8. Răspunsuri corecte……………………………………………….. 179
III. Descrierea numerică a variabilelor
Medie, variaţie şi dispersie ……………………………………........... 180
III.1. Introducerea datelor şi efectuare analizei ………………….......... 180
III.2. Interpretarea output-ului…………………………………………. 181
III.3. Alte caracteristici……………………………………………….... 182
III.4. Alegeţi răspunsul corect…………………………………………. 183
III.5. Răspunsuri corecte………………………………………………. 184
IV. Forme ale distribuţiei scorurilor..…………………………………..... 185
IV.1. Introducerea datelor………………………………………………. 186
IV.2. Interpretarea output-ului……………………………………….... 187
IV.3. Histograma…………………………………………………......... 187
IV.4. Interpretarea output-ului………………….……………………... 188
IV.5. Modalitatea………………………………………...………......... 188

4
Elemente de statistica aplicata 2010 Mihaela Sandu

IV.6. Simetria…………………………………………………….......... 189


IV.7. Boltirea (excesul)………………………………………………... 191
IV.8. Alegeţi răspunsul corect……………………………………….... 194
IV.9. Răspunsuri corecte………………………………………………. 196
V. Abaterea standard……………………………………………….......... 197
V.1. Introducerea datelor………………………………………………. 197
V.2. Interpretarea output-ului…………………………………………. 198
V.3. Scoruri Z…………………………………………………………. 199
V.4. Raportarea output-ului………………………………………….... 199
V.5. Alte caracteristici……………………………………………….... 200
V.6. Alegeţi răspunsul corect…………………………………………. 201
V.7. Răspunsuri corecte………………………………………………. 202
VI. Relaţiile dintre două sau mai multe variabile.
Diagrame şi tabele………………………..…………………….......... 203
VI.1. Introducerea datelor……………………………………….......... 203
VI.2. Ponderea datelor………………………………………………... 204
VI.3. Crearea tabelelor de asociere (crosstabs)…………………......... 205
VII. Coeficienţi de corelaţie.
Coeficienţi de corelaţie Pearson şi Spearman……………………... 206
VII.1. Introducerea datelor………………………………………….... 207
VII.2. Corelaţia Pearson……………………………………………... 207
VII.3. Interpretarea output-ului………………………………………. 208
VII.4. Raportarea output-ului………………………………………... 208
VII.5. Coeficientul de corelaţie Spearman…………………………... 209
VII.6. Interpretarea output-ului………………………………………. 209
VII.7. Raportarea output-ului……………………………………….... 209
VII.8. Diagrama scatter………………………………………………. 210
VII.9. Interpretarea output-ului………………………………………. 211
VII.10. Raportarea output-ului………………………………….......... 211
VII.11. Alegeţi răspunsul corect……………………………………... 212
VII.12. Răspunsuri corecte…………………………………………... 214
VIII. Regresia. Predicţia cu regresie…………………………………..... 215
VIII.1. Introducerea datelor…………………………………………... 215
VIII.2. Regresia simplă………………………………………….......... 216
VIII.3. Interpretarea output-ului…………………………………….... 217
VIII.4. Scatterplot-ul de regresie……………………………………... 217
VIII.5. Interpretarea output-ului…………………………………….... 218
VIII.6. Raportarea output-ului………………………………………... 219
IX. Eroarea standard…………………………………………………..... 220
IX.1. Introducerea datelor……………………………………….......... 220

5
Elemente de statistica aplicata 2010 Mihaela Sandu

IX.2. Eroarea standard estimată a mediei…………………………….. 220


IX. Interpretarea output-ului…………………………………….......... 221
X. Testul t. Compararea a două eşantioane de scoruri
corelate/relaţionate……………………………………………............ 222
X.1. Introducerea datelor…………………………………………….... 223
X.2. Testul t pentru eşantioane perechi……………………………….. 223
X.3. Interpretarea output-ului…………………………………………. 224
X.4. Raportarea output-ului…………………………………………... 224
XI. Testul t. Compararea a două eşantioane de scoruri
Necorelate/nerelaţionate…………………………………………...... 225
XI.1. Introducerea datelor……………………………………………... 226
XI.2. Efectuarea Testului t pentru eşantioane independente…………... 227
XI.3. Interpretarea output-ului………………………….……..…….... 228
XI.4. Raportarea output-ului…………………………………….......... 229
XI.5. Alegeţi răspunsul corect………………………………………... 230
XI.6. Răspunsuri corecte…………………………………………….... 232
XII. Testul Chi-square. Diferenţe între frecvenţele
eşantioanelor…………………………………………………………..….. 233
XII.1. Introducerea datelor……………………………………………. 233
XII.2. Introducerea datelor caz cu caz………………………………... 234
XII.3. Efectuarea Testului Chi-square………………………....……... 234
XII.4. Interpretarea output-ului………………………………….......... 236
XII.5. Raportarea output-ului…………………………………………. 237
XIII. Recodificarea variabilelor…………………………………........... 239
XIII.1. Recodificarea rezultatelor……………………………….......... 239
XIII.2. Alegeţi răspunsul corect………………………………………. 242
XIII.3. Răspunsuri corecte……………………………………………. 243
XIV. Calculul variabilelor noi……………………………………….…. 244
XIV.1. Procedura unei variabile noi…………………………….......... 245
XV. Testele rangurilor. Statistici nonparametrice………………….…. 246
XV.1. Scoruri relaţionate: testul semnului.........…………………….... 247
XV.2. Interpretarea output-ului pentru testul semnului………………. 247
XV.3. Raportarea output-ului pentru testul semnului……………….... 248
XV.4. Scoruri relaţionate: testul Wilcoxon…………………………... 248
XV.5. Interpretarea output-ului pentru testul Wilcoxon……………... 248
XV.6. Raportarea output-ului pentru testul Wilcoxon……………….. 249
XV.7. Scoruri nerelaţionate: Testul U Mann-Whitney…………......... 249
XV.8. Interpretarea output-ului pentru testul U Mann-Whitney……... 251
XV.9. Raportarea output-ului pentru testul U Mann-Whitney……….. 251
XVI. Analiza de varianţă ANOVA.

6
Elemente de statistica aplicata 2010 Mihaela Sandu

Introducere în metoda One-Way ANOVA cu


scoruri nerelaţionate sau necorelate………………………………... 252
XVI.1. Metoda one-way ANOVA pentru
eşantioane independente……………………………………... 253
XVI.2. Interpretarea output-ului……………………………………... 254
XVI.3. Raportarea output-ului………………………………..…….... 255

XVII. Analiza de varianţă bifactorială


pentru scoruri nerelaţionate/necorelate……..……………….…. 256
XVII.1. Metoda two-way ANOVA pentru scoruri nerelaţionate…..…. 257
XVII.2. Interpretarea output-ului……………………………… …...... 259
XVII.3. Raportarea output-ului……………………………...…….….. 261
XVIII. Comparaţii multiple cu ANOVA……………………………..... 262
XVIII.1. Interpretarea output-ului…………………………………..... 263
XVIII.2. Raportarea output-ului……………………………….……... 265
XVIII.3. Alegeţi răspunsul corect……………………………….…… 266
XVIII.4. Răspunsuri corecte………………………………….…….… 267
.
Bibliografie…………………………………………………………………….... 268

7
Elemente de statistica aplicata 2010 Mihaela Sandu

PARTEA ÎNTÂI

- ELEMENTE DE STATISTICĂ -

Cuvânt înainte

8
Elemente de statistica aplicata 2010 Mihaela Sandu

Statistica a devenit elementul sine qua non al cunoaşterii în condiţii de


manifestare probabilistică a fenomenelor. Utilizarea statisticii permite atât descrierea
fenomenelor şi modelarea lor, cât şi aplicarea practică a acestora, accentul punându-
se atât pe prezentarea raţionamentului statistic cât şi a tehnicilor fundamentale de
analiză a datelor experimentale.
Lucrarea de faţă constituie o introducere concisă şi clară în statistica aplicată
în ştiinţele de factură socială şi economică, ca produs al faptului social. Tehnicile
statistice prezentate sunt văzute ca instrumente folosite pentru a răspunde unor
probleme de cercetare specifice. Cu alte cuvinte, acest material nu se adresează
statisticianului profesionist, ci psihologului, economistului, şi mai larg, oricărui
debutant în studiul ştiinţelor omului, precum şi altor persoane ale căror profesii sunt
legate într-un fel sau altul de aceste ştiinţe.
Acestă carte conţine elemente practice. Fiecare capitol îşi propune obiective
precise şi abundă de exemple şi exerciţii. În definitiv, este important să se
stăpânească practica statisticii, să fie utilizată în activitatea de zi cu zi şi nu să se
facă doar speculaţii teoretice pe această temă.
Cartea este dedicată studenţilor, în special celor din anul I (şi nu numai) şi are
ca scop iniţierea acestora în demersul statistic şi formarea gândirii statistice necesare
înţelegerii fenomenelor de masă.
Prima parte conţine pe VIII capitole, fiecare capitol divizându-se în 4
secţiuni. Prima secţiune constă în prezentarea conţinutului tematic. A doua secţiune
„Alegeţi răspunsul corect” permite să se verifice însuşirea corectă a subiectelor
tratate şi aprofundarea elementelor particular dificile. Secţiunea a treia “Probleme”
permite deprinderea tehnicilor de calcul statistic şi a modului de interpretare
statistică a fenomenelor.
A patra secţiune “Răspunsuri corecte” permite autoevaluarea, prezentând
răspunsurile pentru testele prezentate în secţiunea a doua.

9
Elemente de statistica aplicata 2010 Mihaela Sandu

Partea a doua este structurată pe XVII capitole, oferind astfel posibilitatea


parcurgerii pas cu pas a informaţiilor prezentate dar şi o privire de ansamblu asupra
procedurilor de calcul din SPSS („Statistical Package for the Social Sciences”).
Carte prezintă un mod de abordare a analizei statistice folosind SPSS for
Windows şi este destinată studenţilor care doresc să analizeze date din psihologie,
sociologie, criminologie, sau date similare şi se doreşte a fi un îndrumător pentru
analiza datelor, fiind o carte completă, de sine stătătoare care satisface nevoile
studenţilor la toate nivelele.
Ca obiective îşi propune să faciliteze:
 Asimilarea noţiunilor esenţiale ale acestei discipline ştiinţifice şi
descrierea într-un mod clar şi concis a unei colectivităţi, folosind informaţia din
datele obţinute prin observări statistice asupra fenomenelor studiate;
 Familiarizarea studenţilor cu limbajul şi cerinţele cercetării ştiinţifice,
din cadrul ştiinţelor politice, psihologiei, pedagogiei, sociologiei, precum şi cu
procedeele informaţionale de studiu şi cercetare folosind Internetul.
 Se urmăreşte înţelegerea ideilor care stau la baza statisticii, a
principiilor de organizare şi analiză a datelor, precum şi de evaluare statistică.
S-a urmărit folosirea cât mai multor exemple practice astfel încât, la finalul
fiecărui capitol, sunt prezentate un set de întrebări şi probleme care să vă ajute să
înţelegeţi mult mai bine materialul prezentat. Informaţiile prezentate aici nu sunt
originale, ci ele se bazează pe afirmaţiile unor specialişti în domeniu.
În speranţa că lucrarea va fi utilă, mulţumim celor care vor veni cu sugestii şi
observaţii atât de necesare îmbunătăţirii oricărui lucru supus perfecţionării.

I. NOŢIUNI INTRODUCTIVE
-
_______________________________________________________________________________________________________________________

10
Elemente de statistica aplicata 2010 Mihaela Sandu

Psihologia a fost acceptată ca ştiinţă de sine stătătoare abia în sec. al XIX-


lea, o dată cu accentuarea laturii ei experimentale. Astfel, s-a recurs la acumularea de
observaţii şi date, care, comparate cu celelalte ştiinţe (care aveau un statut
epistemologic clar delimitat şi acceptat de comunitatea ştiinţifică), apar deficitare
sub aspectul interpretării lor.
Cuvântul statistică are semnificaţii multiple. Astfel poate să ne ducă cu
gândul la indicele preţurilor de consum, la cifra medie de afaceri a unor firme, la rata
şomajului, la datele publicate într-o revistă sau într-un buletin oficial etc.
Încercând să definim statistica, putem spune că „este un corp de metode
pentru a colecta, a descrie şi a analiza date numerice din observaţii sau investigaţii
ştiinţifice”.1
Obiectul de studiu al statisticii îl constituie „variaţia curentă-continuă, în
timp şi spaţiu şi din punct de vedere calitativ, al fenomenelor de tip stochastic din
orice domeniu al vieţii economico-sociale sau naturale”2.
Statistica a fost folosită pentru rezolvarea unor nevoi practice ale vieţii
sociale din cele mai vechi timpuri şi până astăzi, o regăsim atât în primele forme de
evidenţă a populaţiei şi bunurilor materiale cât şi în rezolvarea celor mai variate şi
complexe probleme de conducere.
Statistica se referă la măsurare şi probabilităţi. Cuvântul statistică, provine
din latinescul „statista” şi desemna, pe vremuri, persoanele care se ocupau cu
afacerile statului, care numărau populaţia sau alte aspecte ce ajutau statul să
gestioneze mai bine politica de taxe şi costurile războaielor. În perioada medievală,
prin statistică, armatorii îşi calculau costurile echipării corăbiilor, incluzând în

1
Clocotici, V, Stan, A, 2000 – Statistica aplicată în psihologie, Ed. Polirom, Iaşi, p.13.
2
Elisabeta Jaba, 2002 – Statistica, Ed. A treia, Ed. Economică, Buc, pag. 13-16

11
Elemente de statistica aplicata 2010 Mihaela Sandu

calculele lor şi probabilitatea ca acestea să fie atacate de piraţi sau de a naufragia


(Opariuc, 2009, apud Lungu 2001).

Forma cea mai veche a statisticii moderne este statistica practică folosită în
scopuri demografice, administrative şi fiscale. Încă din mileniile IV şi III îen
chinezii dispuneau de date cu privire la numărul populaţiei, structura terenurilor şi
chiar utilizau tabele statistice pentru unele aspecte ale activităţii agricole.
Recensămintele populaţiei efectuate, începând cu anul 550 îen, de romani, greci şi
egipteni sunt, de asemenea, exemple pentru rădăcinile istorice ale statisticii practice
(etapa prestatistică).
Dezvoltarea statelor feudale a dus la evoluţia şi perfecţionarea evidenţelor
privind situaţia geografică, economică şi politică. Se elaborează lucrări în care se
prezintă detaliat situaţia social-economică folosind date statistice. Apare, astfel,
statistica descriptivă care se ocupă de culegerea datelor despre un fenomen şi cu
înregistrarea acestor date.
Fondatorul Şcolii descriptive şi autorul primului Curs de Statistică, în
1660, a fost Herman Conring (1606-1681) profesor la Universitatea din Helmstedt.
Reluând ideile lui Conring, un secol mai târziu, Gottfried Achenwall (1719-1772),
profesor la Universitatea din Göttingen, defineşte statistica drept o ştiinţă
descriptivă folosită pentru prezentarea particularităţilor unui stat, introducând
pentru prima oară termenul de statistică (statistik).3
Bazele statisticii descriptive au fost puse de către Dimitrie Cantemir prin
monografia, de talie europeană, „Descriptio Moldavie”, apărută în 1716. O altă
lucrare de referinţă poate fi considerată şi „Expunere statistică asupra Moldovei”
întocmită în 1782 de către un înalt funcţionar al Curţii de la Viena, Wenzel von
Brognard.

3
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 11.

12
Elemente de statistica aplicata 2010 Mihaela Sandu

Statistica s-a dezvoltat şi s-a perfecţionat odată cu dezvoltarea societăţii


româneşti şi în deplină concordanţă cu alte ştiinţe cu care se află în permanentă
legătură (Psihologia, Contabilitatea, Finanţele, Econometria, Informatica, etc.)

I.1. NOŢIUNI ŞI CONCEPTE DE BAZĂ UTILIZATE ÎN STATISTICĂ

Pentru a putea ilustra principalii termeni utilizaţi în statistică, încercăm să luăm în


considerare situaţia unui cercetător psihosocial care investighează o colectivitate
umană urmând criteriile:
 Mediul de provenienţă a persoanelor;
 Statutul socio-economic;
 Genul biologic;
 Vârsta.
Această colectivitate poate fi numită populaţie statistică.
1. Prin populaţie (colectivitate) statistică se înţelege „totalitatea
persoanelor, faptelor, etc, care constituie obiectul de interes al cercetării”. 4 Ea
reprezintă totalitatea manifestărilor sau totalitatea fenomenelor de aceeaşi natură (de
aceeaşi esenţă calitativă, ale unui fenomen sau proces economic), care au trăsături
esenţial comune şi care sunt supuse unui studiu statistic.
Exemple de populaţii statistice:
1. Colectivitatea studenţilor din primul an de facultate, din Centrul universitar
Constanţa;
2. Colectivitatea persoanelor cu vârstă egală sau mai mare de 45 de ani, din
România;

4
Clocotici, V, Stan, A, 2001 – Statistica aplicată în psihologie, Ed. Polirom, Iaşi, p. 13

13
Elemente de statistica aplicata 2010 Mihaela Sandu

Colectivitatea statistică specifică vieţii economico-sociale are un caracter


obiectiv, concret şi finit strict determinat în timp şi spaţiu.
Statistica abordează colectivităţile fie static, fie dinamic. Colectivităţile statice
exprimă o stare şi au o anumită întindere în spaţiu la un momonet dat, iar
colectivităţile dinamice caracterizează un proces, o devenire în timp (înregistrarea
elementelor componente făcându-se pe un interval de timp).
Exemplu: 1. Persoanele care au starea civilă „căsătorit” la sfârşitul anului
curent reprezintă o colectivitate statică;
2. Colectivitatea evenimentelor de „căsătorie” din anul curent
reprezintă o colectivitate dinamică.
2. Unitatea statistică reprezintă elementul constitutiv al unei colectivităţi
statistice şi este purtătorul unui nivel al fiecărei trăsături supuse observării şi
cercetării statistice.5
Unităţile statistice pot fi:

- statice = unităţile compun efectivul masei de fenomene existente la un


moment dat. (un copil născut viu în luna mai în Constanţa –
unitate statică.
- dinamice = unităţile aparţin aceleiaşi structuri organizatorice, au acelaşi
conţinut, dar se produc în condiţii diferite de timp (trebuie
înregistrate pe perioade de timp).
- simple = elemente constitutive ale colectivităţii (persoana, muncitorul).
-complexe = sunt rezultatul organizării sociale şi economice ale
colectivităţii (familia, echipa, anul de studiu).
3. Inferenţa statistică reprezintă o decizie, o estimare, o predicţie sau o
generalizare privitoare la o colectivitate generală, bazată pe informaţiile statistice

5
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 20

14
Elemente de statistica aplicata 2010 Mihaela Sandu

obţinute pe un eşantion. Astfel, procesul de cercetare statistică va cuprinde două


etape. O primă etapă descriptivă, în care se vor colecta şi prelucra date privitoare la
eşantion, obţinându-se indicatori statistici. În a doua etapă, etapa de inferenţă
statistică, rezultatele se vor extinde la colectivitatea generală.

Discutând despre sensul termenului de „a măsura”, acceptăm definiţia dată de


S. S. Stevens (1959), prin care, „în sensul său larg, măsurarea înseamnă
atribuirea de numere obiectelor sau evenimentelor, potrivit unor reguli.” Astfel,
măsurarea este o funcţie, prin care unui obiect îi corespunde un număr şi numai unul,
la o anumită măsurare. Această funcţie de atribuire a unui obiect unui număr va
trebui să fie suficient de clară, pentru a permite ca unui obiect să i se atribuie un
număr şi numai unul şi să permită să decidem concret şi corect, ce număr va fi
atribuit fiecărui obiect, dar şi suficient de simplă pentru a putea fi aplicată.6

4. Variabile statistice.

Definiţie: Caracteristica (variabila) statistică reprezintă trăsătura, proprietea,


însuşirea comună tuturor unităţilor unei colectivităţi şi care variază ca nivel,
variantă sau valoarea de la o unitate a colectivităţii la alta.8
Fiecare dintre criteriile de diferenţiere este o variabilă, adică o entitate care
ia valori diferite pentru componenţii colectivităţii şi este comună tuturor elementelor
colectivităţii.
Exemplul 1. „mediul de provenienţă” este o variabilă care poate lua trei
valori: „urban”, „rural” – variabilă categorială;

6
Vasilescu, Ilie Puiu, (1992) – Statitica informatizată pentru ştinţele despre om, Editura Militară, Bucureşti.
8
idem, p. 20

15
Elemente de statistica aplicata 2010 Mihaela Sandu

Exemplul 2. Variabila „gen biologic” poate lua 2 valori: „feminin” şi


„masculin”. – variabilă categorială;
Exemplul 3: „Vârsta” poate lua valori de la 0 ani la peste 100 de ani. –
variabilă numerică;
Variabila „Vârsta” poate fi şi variabilă categorială şi lua diferite valori in
funcţie de categoriile stabilite. (se stabilesc categorii de vârste).

Exemplu: 1. 10-20 ani


2. 21-30 ani
3. 31-40 ani.
O variabilă, reprezintă un concept cheie în statistică şi nu este altceva decât
un nume pentru un element a cărui proprietate principală este aceea că variază,
îşi modifică parametrii. (Opariuc, 2009) Mulţimea valorilor înregistrate pentru o
caracteristică particulară constituie distribuţia variabilei respective.

Modalitatea de realizare a unei variabile (modul în care îi sunt atribuite


valorile) constituie un eveniment întâmplător (probabilistic), de aceea variabila se
mai numeşte şi variabilă aleatoare.
Definiţie: Varianta/valoarea reprezintă nivelul concret pe care îl poate lua o
variabilă la nivelul unei unităţi sau grup de unităţi statistice.9
Exemplu: Înălţimea elevilor dintr-o clasă poate lua aleatoriu diferite valori pe care
le pot avea elevii la această caracteristică.
→ valorile pe care le poate lua variabila, se grupează într-un anumit interval de
valori.

9
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 22

16
Elemente de statistica aplicata 2010 Mihaela Sandu

O variabilă aleatoare poate fi discretă sau continuă, după cum mulţimea de


definiţie a valorilor sale poate fi numărabilă (discontinuă) sau nenumărabilă
(continuă).

a. Variabile discrete.

Variabilele discrete sunt cele a căror variaţie se manifestă prin salturi; ele nu
pot lua decât anumite valori pe scara lor de variaţie (de regulă numere întregi).
Exemplu:
 numărul de copii pe care îi are o familie;
 numărul de oraşe dintr-un judeţ;
 genul biologic;
 Gradul didactic;
În cazul variabilelor discrete, mulţimea de definiţie a valorilor sale este o
mulţime discontinuă iar între două valori nu poate fi interpusă o valoare
intermediară.
Variabilele discrete pot fi categoriale sau de rang.

b. Variabile continue
Sunt acele variabile care pot lua orice valoare dintr-un interval finit sau infinit,
care reprezintă scara lor de variaţie.
Exemplu:
 greutatea → între un subiect de 76 kg şi un subiect de 78 kg putem găsi
oricând un subiect de 77,5 kg;
 cifra de afaceri a unei firme;
 înălţimea subiecţilor.
În cazul acestor variabile, mulţimea de definiţie a valorilor sale este una
continuă, ne-numărabilă. Aceste variabile se mai numesc şi variabile scalare (de
interval sau de raport).

17
Elemente de statistica aplicata 2010 Mihaela Sandu

Deoarece cercetarea unei colectivităţi numeroase poate implica valori mari,


putem extrage din colectivitatea iniţială o subcolectivitate (sau mai multe) al cărui
studiu este mai simplu. În acest caz vorbim despre „eşantion” – reprezintă un subset
de elemente selectate dintr-o colectivitate statistică.
Gradul de reprezentativitate al unui esantion depinde de:
- caracteristicile populaţiei;
- Mărimea eşantionului;
- procedura de eşantionare folosită.

Definiţie: Frecvenţa de apariţie a unei variante/valori reprezintă numărul de


apariţii ale acestei variante/valori în colectivitate.11

Exemplu:

Nivelul individual al salariului de 700 RON, înregistrat pentru un angajat


al societăţii X, reprezintă valoarea connţeacretă a variabilei salariu. Dacă 15 salariaţi
primesc acest salariu rezultă că frecvenţa de apariţie a valorii 700 RON este 15.

11
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa,p. 23

18
Elemente de statistica aplicata 2010 Mihaela Sandu

I.2. Alegeţi răspunsul corect

1. De peste 6 milenii, statistica este atestată ca:


a. ştiinţă a descrierii statului cu ajutorul cifrelor;
b. activitate de strângere a datelor;
c. ştiinţă a gestionării resurselor umane şi materiale;
d. metodă de estimare a speranţei medii de viaţă.

2. În etapa prestatistică, statistica este cunoscută sub formă de:


a. numărătoare a populaţiei şi evidenţă a bunurilor materiale;
b. instituţie a statului;
c. ştiinţă.

3. Ca disciplină ştiinţifică, statistica are:


a) un pronunţat caracter metodologic
b) un pronunţat caracter teoretic
c) o sferă de cunoaştere limitată la nivelul individului
d) o sferă de investigare a fenomenelor repetabile

4. Obiectul de studiu al statisticii îl constituie:


a. mişcările curente – continue ale fenomenelor şi proceselor ce îşi au existenţa
sub formă de colectivităţi;
b. latura cantitativă a colectivităţilor statistice;
c. latura calitativă a colectivităţilor statistice;
d. aspectul stochastic al populaţiei.

5. Colectivităţile statistice sunt:


a) asociaţii finite de elemente unite între ele prin omogenitate
b) asociaţii infinite de elemente unite între ele prin omogenitate
c) elemente eterogene dintr-un spaţiu dat
d) grupuri de elemente diferenţiate între ele după o carateristică statistică

19
Elemente de statistica aplicata 2010 Mihaela Sandu

6. Variabilele statistice reprezintă:


a) trăsături esenţiale purtate la toate elementele unei colectivităţi
b) valoarea înregistrată la nivelul unei unităţi statistice
c) varianta de apariţie a unei unităţi statistice
d) probabilitatea de apariţie a unei valori posibile xi

7. Elementele fizice pot fi:


a. direct măsurabile cantitativ;
b. măsurabile cu aproximaţie;
c. nemăsurabile.

8. Opinia unei persoane poate fi:


a. direct măsurabilă cantitativ;
b. măsurabilă cu aproximaţie;
c. nemăsurabilă.

9. Crearea cuvântului „statistică” este atribuită lui:


a. Gottfried Achenwall;
b. Dionisie Pop Marţian;
c. John Graunt;
d. John Halley.

10. O unitate statistică poate fi:


a. o persoană interogată într-o anchetă;
b. salariul unei persoane angajate într-o firmă;
c. ansamblul salariaţilor unei firme din localitatea X la un moment dat.

11. O colectivitate poate fi:


a) ansamblul persoanelor înregistrate pe teritoriul României la 18 martie
2002;
b) opiniile electoratului înregistrate în noiembrie 2004;
c) ansamblul cererilor de angajare depuse la firma B, în anul 2004.

12. Sunt variabile calitative atributive (nominale):


a) talia, greutatea, salariul;
b) sexul persoanelor, starea civilă, domiciliul;
c) speranţa de viaţă, număr de locuitori ai unei ţăr

20
Elemente de statistica aplicata 2010 Mihaela Sandu

13. Sunt variabile discrete:


a) speranţa de viaţă;
b) numărul de copii pe familie, numărul de camere ale unui apartement,
numărul de piese defecte dintr-un lot de rulmenţi;
c) sexul persoanelor, starea civilă, domiciliul.

14. Sunt variabile continue:


a) talia, greutatea, salariul;
b) numărul de copii pe familie, numărul de camere ale unui apartament,
numărul de piese defecte dintr-un lot de rulmenţi;
c) ansamblul persoanelor interogate într-o anchetă.

15. Pentru următorul exemplu, precizaţi unitatea statistică, identificaţi


variabile statistică studiată şi tipul de variabilă:
Exemplu: absenteismul angajaţilor exprimat în zile;

16. Un om de afaceri observă că, în ultimele 3 luni, concurentul său acordă


câte un interviu unui ziar de specialitate în fiecare zi de joi. El trage
concluzia că în paginile ziarului de joia viitoare va apărea un nou articol
al concurentului său. Eşantionul pe baza căruia se face această inferenţă
este:
a) numărul ziarului de joia viitoare;
b) numărul ziarului de joia trecută;
c) numerele ziarelor din toate zilele de joi;
d) numerele ziarelor din toate zilele de joi deja apărute;
e) numerele ziarelor din zilele de joi din ultimele 3 luni.
Precizaţi unitatea statistică, identificaţi variabila statistică studiată şi tipul de
variabilă. Precizaţi dacă variabila este cantitativă sau calitativă, dacă ea este
continuă sau discretă.

17. Care din următoarele variante reprezintă un eşantion şi nu o


colectivitate totală pentru încasările zilnice din anul trecut ale unui
magazin:
a. lista încasărilor zilnice din anul trecut;
b. lista încasărilor zilnice cu doi ani în urmă;
c. lista încasărilor previzionate pentru anul trecut;
d. lista încasărilor din fiecare zi de marţi a anului trecut

21
Elemente de statistica aplicata 2010 Mihaela Sandu

18. Pentru caracterizarea unei grupe de studenţi din anul I al Facultăţii


de Ştiinţe Economice, în funcţie de media la admitere, unitatea de
observare este:
a) grupa;
b) studentul;
c) media la admitere;
d) facultatea;
e) anul de studiu

19. O companie de asigurări doreşte să determine proporţia medicilor


care au fost implicaţi în ultimul an în una sau mai multe acţiuni judiciare
de rele practici. Compania selectează întâmplător 500 de medici care au
practicat în ultimul an şi determină proporţia.
Identificaţi populaţia de interes şi eşantionul.

22
Elemente de statistica aplicata 2010 Mihaela Sandu

I.3. Răspunsuri corecte

I.2. Răspunsuri corecte.

1. b - activitate de strângere a datelor;


2. a - numărătoare a populaţiei şi evidenţă a bunurilor materiale;
3. a - un pronunţat caracter metodologic;
4. a - mişcările curente – continue ale fenomenelor şi proceselor ce îşi au
existenţa sub formă de colectivităţi;
5. a - asociaţii finite de elemente unite între ele prin omogenitate;
6. a - trăsături esenţiale purtate la toate elementele unei colectivităţi;
7. a - direct măsurabile cantitativ;
8. b - măsurabilă cu aproximaţie;
9. a - Gottfried Achenwall;
10. a - o persoană interogată într-o anchetă;
11. a - ansamblul persoanelor înregistrate pe teritoriul României la 18 martie
2002;
12. b - sexul persoanelor, starea civilă, domiciliul;
13. b - numărul de copii pe familie, numărul de camere ale unui apartement,
numărul de piese defecte dintr-un lot de rulmenţi;
14. a - talia, greutatea, salariul;
15. - unitatea = angajatul;
- variabila = nr de zile=cantitativă discreată.

23
Elemente de statistica aplicata 2010 Mihaela Sandu

16. e - numerele ziarelor din zilele de joi din ultimele 3 luni;


17. - unitatea= întreprinderea;
- variabila= nr personalului =cantitativă, discretă;
18. d - lista încasărilor din fiecare zi de marţi a anului trecut;
19. b – studentul;
20. - Populaţia = medicii care au practicat în ultimul an;
- Eşantionul = cei 500 de medici care au practicat în ultimul an;

24
Elemente de statistica aplicata 2010 Mihaela Sandu

II. OBSERVAREA DATELOR STATISTICE


_______________________________________________________________________________________________________________________

Definiţie: Culegerea datelor şi valorificarea informaţiilor obţinute din


acestea prin mulţimea operaţiilor de prelucrare şi analiză se numeşte cercetare
statistică12.
Cercetarea statistică se desfăşoară în trei faze: observarea statistică;
prelucrarea datelor primare şi obţinerea indicatorilor statistici; analiza şi
interpretarea rezultatelor prelucrării. De modul în care se realizează observarea
depinde în continuare calitatea celorlalte etape.
Definiţie: Observarea statistică reprezintă acţiunea de culegere de la unităţile
statistice a informaţiilor referitoare la caracteristicile urmărite, după criterii
riguros stabilite13.
Ca etapă a cercetării, observarea statistică este condiţionată de scopul
cercetării, de particularităţile obiectului studiat şi de tehnica de calcul folosită în
procesul de prelucrare ulterioară a datelor observării.

II.1. METODE DE OBSERVARE STATISTICĂ.

Metodele statistice utilizate cu predilecţie în practică sunt:


recensământul, sondajul statistic, ancheta de opinie, panelul, monografia statistică.

Recensământul - este o metodă de observare (totală), cu caracter


periodic, care surprinde un fenomen în mod static. Este una din cele mai vechi
metode de observare, întâlnită încă din antichitate (la romani).
12
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa, p.
26
13
ibidem

25
Elemente de statistica aplicata 2010 Mihaela Sandu

Recensământul asigură o surprindee a unui fenomen într-un anumit


moment de timp (moment critic). Momentul critic este ales, uzual, în timpul iernii,
evitându-se vacanţele şcolare, astfel ca populaţia să fie surprinsă în momentele ei
cele mai stabile.

Definiţie: În mod oficial, recensământul populaţiei este un proces de


culegere, prelucrare şi publicare a datelor demografice,
economice şi sociale, la un timp specificat şi valabile pentru
toate persoanele din ţara respectivă sau de pe un teritoriu
delimitat.14

Recensământul este reglementat de către stat, prin acte legislative şi


respectă principiile universalităţii, simultaneităţii şi comparabilităţii.

Din domeniul populaţiei, recensământul s-a extins şi asupra altor domenii:


există recensământ al locuinţelor, al animalelor, al unităţilor de industrie,
transport, agricultură etc. (recensământ economic).

2. Sondajul statistic (selecţia statistică) - este o metodă parţială de


observare statistică. Sondajul se foloseşte pentru a înlocui o observare totală, de
mare amploare, mai dificil de realizat, care presupune angajarea unor cheltuieli
ridicate de resurse materiale, financiare şi umane.

Sondajul poate asigura o informare operativă, prin prelucrarea rapidă a


informaţiilor şi cu costuri mai scăzute.

În cazul sondajului se vor culege date de la o subcolectivitate, numită


eşantion, care trebuie să îndeplinească condiţia de reprezentativitate faţă de
colectivitatea generală pentru ca rezultatele sondajului să reflecte realitatea.
Eşantionul trebuie să reproducă aceleaşi trăsături esenţiale pe care le are şi
14
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa, p.
34

26
Elemente de statistica aplicata 2010 Mihaela Sandu

colectivitatea generală. Formarea eşantionului nu trebuie să fie subiectivă, ci să se


efectueze după procedee probabilistice aleatoare, care să asigure, fiecărei unităţi,
şanse egale de a pătrunde în eşantion (procedeele de eşantionare sunt prezentate
în capitolul V).

Culegerea datelor statistice de la unităţi se poate face prin documentare,


observaţie, chestionare trimise prin poştă, interviu direct sau prin telefon.

3. Ancheta statistică este o metodă parţială de observare, fără ca


eşantionul pe baza căruia se realizează ancheta, să fie obligatoriu reprezentativ
faţă de colectivitatea generală (se poate forma şi nealeator – prin alegere
raţională). Ancheta de opinie are drept scop cunoaşterea părerilor persoanelor
asupra diferitelor probleme (Exemplu: anchete sociologice, demografice,
psihosociale, de marketing, etc).

4. Panelul este o metodă de observare parţială, bazată pe un eşantion fix,


stabil, format dintr-un număr de persoane de la care se obţin date prin chestionare
la diferite momente de timp.

5. Monografia statistică este o metodă de observare parţială, special


organizată, având ca obiectiv cunoaşterea multilaterală şi în profunzime a unei
singure unităţi complexe15. Ea are, de regulă, un caracter multidisciplinar
(monografia unei localităţi, judeţ, firmă).

Monografia este realizată de către o echipă complexă de specialişti, echipă


care efectuează toate etapele cercetării.

15
Jaba, E, Pintilescu, C, 2005 – Statistică – teste grilă şi probleme, Ed. Sedcom Libris, Iaşi, pag. 36

27
Elemente de statistica aplicata 2010 Mihaela Sandu

II.2. EROAREA STATISTICĂ.


CONTROLUL DATELOR STATISTICE.

Definiţie: Prin eroare statistică se înţelege diferenţa dintre nivelul real al


unui indicator şi cel rezultat din investigaţia statistică.16

Erorile statistice pot apare în toate etapele cercetării statistice şi pot fi:

 erori de observare (înregistrare):

- se întâlnesc în procesul de culegere a datelor statistice.

Pot fi de două feluri:

- erori întâmplătoare – au caracter nepremeditat şi se pot datora neatenţiei sau


unor cauze accidentale.

- erori sistematice – sunt produse cu bună ştiinţă şi au o influenţă negativă


asupra rezultatelor prelucrării.

Exemplu: în înregistrările demografice populaţia are tendinţa de a declara, în


loc de vârsta reală exactă, o vârstă rotunjită terminată cu „0” sau „5”.

Erorile de observare pot fi înlăturate prin control statistic.

 erori de reprezentativitate:

- Sunt specifice sondajului şi nu pot fi eliminate total, ci doar diminuate şi ţinute


sub control.

 erori de modelare:

- Se produc atunci când se alege în mod nejustificat un mod de calcul, fapt ce


determină obţinerea unor indicatori fără conţinut real.

16
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa, p.
36

28
Elemente de statistica aplicata 2010 Mihaela Sandu

II.2. Alegeţi răspunsul corect

1. Reprezentativitatea este urmarită în mod deosebit în cazul culegerii


datelor prin:
a) Recensământ;
b) sondaje statistice;
c) anchete statistice;
d) monografia statistică.

2. Panelul, ca metodă de observare parţială urmăreşte:


a) aplicarea unui chestionar mai multor persoane în acelaşi timp;
b) aplicarea unor chestionare diferite la momente diferite de timp;
c) aplicarea aceluiaşi chestionar unui singur lot de subiecţi la momente
diferite de timp.

3.Recensământul ca metodă de observare statistică:


a) nu presupune culegerea datelor de la toate unităţile populaţiei
statistice bine determinate;
b) are exclusiv un caracter demografic;
c) se încadrează în sfera observărilor cu caracter permanent;
d) se organizează cu o anumită periodicitate.

4. Ancheta statistică:
a) este o metodă de observare totală;
b) este o metodă de observare parţială care numai întâmplător poate să
îndeplinească condiţia de reprezentativitate;
c) este o metodă de observare parţială, care, în mod obligatoriu, trebuie
să îndeplinească condiţia de reprezentativitate;
d) este o metodă de observare parţială, care se bazează pe obligativitatea
completării chestionarelor;
e) mai este denumită şi sondaj statistic.

29
Elemente de statistica aplicata 2010 Mihaela Sandu

5. Lucrări statistice prin sondaj sunt:


a. anchetele prin sondaj;
b. recensământul;
c. rapoartele statistice.

6. Atunci când se înregistrează la un moment critic populaţia unei ţări se


efectuează:
a. un recensământ;
b. o înregistrare curentă – continuă;
c. o anchetă de opinie.

7. Înregistrarea opiniei electoratului se înregistrează prin:


a. recensământ;
b. înregistrare curentă-continuă;
c. sondaj statistic.

8. Se observă populaţia unei ţări la 10 momente de recensământ.


Colectivitatea studiată este:
a. momentele de recensământ;
b. populaţia ţării;
c. ţara.

9. Se observă populaţia unei ţări la 10 momente de recensământ. Variabila


studiată este:
a. momentele de recensământ;
b. populaţia ţării;
c. ţara.

30
Elemente de statistica aplicata 2010 Mihaela Sandu

II.3. Răspunsuri corecte

1. b - sondaje statistice;

2. c - aplicarea aceluiaşi chestionar unui singur lot de subiecţi la momente


diferite de timp.

3. d - se organizează cu o anumită periodicitate.

4. c - este o metodă de observare parţială care numai întâmplător poate să


îndeplinească condiţia de reprezentativitate;

5. a - anchetele prin sondaj;

6. a - un recensământ;

7. c - sondaj statistic.

8. b - populaţia ţării;

9. a - momentele de recensământ;

31
Elemente de statistica aplicata 2010 Mihaela Sandu

III. SCALE DE MĂSURARE


_______________________________________________________________________________________________________________________

Gruparea statistică reprezintă prima sistematizare a unor date individuale care


au fost obţinute în urma unei observări. Sistematizarea datelor se face în scopul
identificării fenomenelor de care aparţin aceleiaşi esenţe social-economice şi
prezintă o serie de proprietăţi comune.
Prin prelucrarea statistică se înţelege etapa cercetării statistice în care se trece
de la datele individuale obţinute în etapa observării pentru fiecare unitate a
colectivităţii, la indicatori care caracterizează colectivitatea în întregul ei.
Nivelul nominal de măsurare (clasificare) şi nivelul ordinal (de rang sau
ierarhic) se grupează în scala neparametrică de măsurare.
Nivelul de interval (intervale egale) şi nivelul de raport (proporţii) formează
scala parametrică de măsurare.

Raport
Parametric

Interval
Cuantificare

Ordinal
Neparametri
c
Nominal

Reprezentarea schematică a nivelurilor de


măsurare
Figura Nr. 1

32
Elemente de statistica aplicata 2010 Mihaela Sandu

Schematic, nivelurile de măsurare se pot prezenta astfel. (Figura 1).(după Opariuc, 2009).

III.1. SCALE NEPARAMETRICE

III.1.1. Scala nominală (de clasificare)

Reprezintă primul nivel de măsurare şi constă în clasificarea obiectelor în


funcţie de existenţa sau inexistenţa unei caracteristici. Această clasificare presupune
existenţa unor categorii disjuncte, astfel încât fiecare obiect să-şi găsească locul într-
o categorie şi numai în una. (Opariuc, 2009).

Scala nominală este cunoscută şi sub numele de scală calitativă, categorială


sau de clasificare, este cel mai simplu tip de scală şi presupune doar diferenţierea
calitativă a fenomenelor şi a obiectelor măsurate. Scala nominală constă în categorii
care permit clasificarea (sortarea) obiectelor sau fenomenelor după o caracteristică
sau un atribut.

Exemplu: Categoria profesională, sexul, tipul bio-constituţional etc.


Pentru ca scala să aibă sens, trebuie să existe cel puţin două categorii.
O variabilă nominală cu două categorii poartă numele de dihotomie sau
clasificare dihotomică.
Exemplu: Împărţirea subiecţilor în bărbaţi şi femei.
Dacă există mai multe categorii, vorbim despre polihotomii sau clasificări
multiple (polihotomice).
Exemplu: Împărţirea în funcţie de profesie, culoarea ochilor sau a părului, grupa
sanguină, etc.

33
Elemente de statistica aplicata 2010 Mihaela Sandu

Proprietăţile scalei nominale:


 Transformările permise la nivelul acestei scale sunt (Vasilescu, 1992):

o Redenumirea – atribuirea unor noi nume (în loc de masculin/feminin


putem spune bărbat/femeie)

o Permutarea – schimbarea ordinii elementelor, deoarece nu se poate


stabili o ierarhe între valorile unei variabile pe această scală. Această
proprietate este caracteristică doar scalei nominale.

 Operaţii statistice permise – în principal operaţiile de bază, derivate din


numărare, astfel17:

o Frecvenţa absolută şi relativă (procentul), câte observaţii au fost


incuse în fiecare categorie (de exemplu 50 de bărbaţi şi 50 de femei
sau 50% bărbaţi şi 50% femei);

o Valoarea modală (modul), categoria cu frecvenţa cea mai mare (de


exemplu din 100 de subiecţi, 80 au ochi albaştri, aceasta fiind
categoria cu frecvenţa cea mai mare – modul);

Exemplu: Alegem cele 4 tipuri de temperament pe care le codificăm astfel:


Coleric 1
Sangvinic 2
Melancolic 3
Flegmatic 4
Observaţie: Între toate categoriile (gradaţiile) unei scale nominale nu
există relaţie de ierarhie, ordinea prezentării lor fiind indiferentă, lipsită de
importanţă din punctul de vedere al consistenţei scalei (utilizarea codificării poate

Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
17

Editura ASCR, Cluj-Napoca , p. 24.

34
Elemente de statistica aplicata 2010 Mihaela Sandu

crea iluzia unei ierarhii (1 este mai mic decât 2 etc.), dar aceasta este doar o iluzie,
utilizată uneori în scopuri de manipulare).
Ne propunem să caracterizăm 150 de indivizi după apartenenţa la un tip de
temperament. După investigaţie, rezultă 32 de colerici, 48 de sangvinici, 37
melancolici, 33 de flegmatici. Potrivit codificării date pot fi prezentate astfel:

TIP TEMPERAMENTAL NUMĂR DE INDIVIZI


1 32
2 48
3 37
4 33

Ansamblul numerelor din coloana a II-a se numeşte distribuţie de frecvenţe


a tipurilor temperamentale în grupul studiat. Fiecare număr constituie frecvenţa
absolută a diviziunii respective a scalei notată ni.

Definiţie: Frecvenţa absolută indică numărul total de unităţi statistice.

Definiţie: Frecvenţa relativă indică proporţia din numărul total de


unităţi care se încadrează în grupă.

ni
* n n
n i= = i (1)
 i n
n
i 1

ni ni
n
 100   100
*
ni= n
n
i 1
i

35
Elemente de statistica aplicata 2010 Mihaela Sandu

III.1.2. Scala ordinală (de rang sau topologică)

Reprezintă al doilea nivel de măsurare şi constă în ierarhizarea în funcţie de


mărimea unei caracteristici, fără însă a se putea preciza cu cât un nivel ierarhic este
superior sau inferior altuia şi nici de câte ori. (Opariuc, 2009)

Scala ordinală este cunoscută şi sub numele de scală de ordine, de rang, scală
ierarhică. O scală ordinală permite ordonarea observaţiilor, persoanelor, situaţiilor de
la mic la mare, de la simplu la complex, atunci când în empiricul relativ se introduc,
pe lângă relaţiile de echivalenţă şi relaţiile de ordine.

Spre deosebire de scala nominală (ale cărei proprietăţi le include), scala


ordinală permite stabilirea unei relaţii de ordine între date.

Observaţie: În cazul scalelor ordinale se poate stabili ierarhia a „n” gradaţii ale
variabilei, dar nu se poate preciza valoarea diferenţei dintre două gradaţii.
Crearea unei scale ordinale presupune, cu prioritate, stabilirea unei relaţii de
ordine între valorile posibile ale variabilei studiate.

Proprietăţile scalei:

Aşa cum am admis anterior, proprietăţile specifice scalei ordinale le includ pe


cele ale scalei nominale, astfel încât la cele ale scalei anterioare se adaugă
(Vasilescu, 1992):

 Transformările permise la nivelul acestei scale sunt cele care nu afectează


ordinea iniţială. Astfel de operaţii sunt ridicarea la putere sau, inversa ei,
extragerea de radicali.

36
Elemente de statistica aplicata 2010 Mihaela Sandu

 Operaţii statistice permise:

o Frecvenţa sumelor în valori cumulate şi procentuale;

o Coeficienţi de corelaţie de rang: Spearman, sau Kendall.

Ordinea este de la simplu la complex. Prin această scală putem caracteriza


manifestările unei persoane în funcţie de gradul de saturare motivaţională.

Observaţie: Dacă se neglijează ordinea dintre categorii, datele obţinute în urma


utilizării unei scale de măsură ordinale sunt identice, din punct de vedere formal, cu
datele nominale.
Pentru a realiza ordonarea datelor prezentate sub formă de tabel calculăm şi
frecvenţele cumulate.

Definiţie: Frecvenţa cumulată pentru o categorie este suma tuturor frecvenţelor


anterioare plus frecvenţa curentă.

Cuvântul „anterior” se referă la sensul de parcurgere a categoriilor scalei


ordinale. Dacă parcurgerea se face de la categoriile mici spre cele mari, se
formează frecvenţe cumulate ascendent (crescător). Dacă parcurgerea se face de la
categoriile mari spre cele mici se formează frecvenţe cumulate descendent
(descrescător).

Observaţie: Se pot prezenta sub formă de frecvenţe cumulate atât frecvenţele


absolute cât şi cele relative.

Fci = frecvenţe absolute cumulate

F*ci = frecvenţe relative cumulate


i i

Fci = n
k 1
k (3) F*ci = n
k 1
*
k (4)

37
Elemente de statistica aplicata 2010 Mihaela Sandu

Exemplu: Să presupunem că analizând produsele creative dintr-o anumită zonă


geografică, pe o anumită perioadă de timp, s-a obţinut următoarea distribuţie de
valori pe scara Taylor.

Scara Taylor privind clasificarea creativităţii după criteriul efectivităţii


comunicării:

1. creativitate expresivă;
2. creativitate productivă;
3. creativitate inventivă;
4. creativitate inovatoare;
5. creativitate emergentă.
Frecvenţa relativă (%)
Frecvenţa absolută
Nivel creativ

Frecvenţa Frecvenţa Frecvenţa Frecvenţa


absolută absolută relativă relativă
cumulată cumulată cumulată cumulată
ascendent descendent ascendent descendent

1 75 47,8 75 157 47,8 100


2 52 33,1 127 82 80,9 52,2
3 20 12,7 147 30 93,6 19,1
4 6 3,8 153 10 97,1 6,4
5 4 2,6 157 4 100 2,6
T 157 100

Reprezentările grafice ale datelor ordinale trebuie să reflecte proprietatea de


ordonare specifică scalei, să denote faptul că scala de măsură este discretă şi se
sugerează cât mai puţin luarea în considerare a distanţei dintre categoriile scalei.

38
Elemente de statistica aplicata 2010 Mihaela Sandu

Din aceste considerente utilizăm diagramele sub formă de bare verticale. Vizualizările pot să aibă drept obiect atât frecvenţele absolute
cât şi cele relative.

III.2. SCALE PARAMETRICE

III.2.1. Scala de interval (intervale egale)

Reprezintă a treilea nivel de măsurare şi derivă din scala ordinală, la care se


adaugă proprietatea că, intervalele dintre un nivel de valori şi altul sunt egale. Este
un tip de măsurare în care distanţele dintre treptele scării sunt distanţe egale sub
aspectul cantităţii caracteristicii de măsurat.18

Scala de interval are proprietăţile scalei ordinale, dar intervalul dintre două
variante este exprimat în termenii unei unităţi de măsură fixe. Prin aceasta operaţia
de măsurare a observaţiilor pe o scală de intervale determină cantitatea exactă de
caracteristică existentă în observaţii.
În psihologie practic nu întâlnim această scală decât în domeniul
psihofiziologiei, în care înregistrăm timpi de reacţie, număr de erori, forţa unei
reacţii etc. Acest nivel de măsurare ne permite să răspundem la întrebarea „cu cât
este mai mare” dar nu şi la întrebarea „de câte ori”, deoarece la nivelul acestei scale
nu întâlnim un punct zero absolut, ci unul arbitrar ales.

Exemplu: scala de temperatură Celsius → punctul de zero grade Celsius este un


punct arbitrar ales ca fiind punctul de îngheţ al apei la presiunea de la nivelul mării.
Intervalele acestei scale sunt egale, ceea ce ne permite să spunem că apa dintr-o
găleată este mai caldă cu 10 grade Celsius decât apa dintr-o altă găleată, dar nu şi că
apa este de două ori mai caldă, deoarece punctul zero nu este un zero absolut.
Realizarea unei scale de interval presupune parcurgerea mai multor etape:
Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
18

Editura ASCR, Cluj-Napoca, p. 27.

39
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Se calculează amplitudinea variaţiei caracteristicii


Numim amplitudine de variaţie (Range) diferenţa dintre valoarea
maximă şi valoarea minimă a distribuţiei de date. (A = Max – Min).
def
A  xmax - xmin (5)
2. Se stabileşte numărul de grupe „r” în care vor fi sistematizate datele
Observaţie : Se recomandă utilizarea unui număr moderat de grupe (între 4 şi
10).

3. Se calculează mărimea aproximativă a intervalelor de grupare:


A xmax  xmin
h r
= (6)
r
4. Se stabilesc intervalele de grupare pornind de la xmin (sau de la o valoare
mai mică).
xmin+h; xmin+2h; … ; xmin+rh

Fie că desfăşurăm o evaluare psihologică, un experiment sau o cercetare


experimentală, fie că iniţiem un proces de colectare a datelor prin observaţie,
rezultatul constă într-o colecţie de date brute. La acest nivel nu avem nici o
modalitate prin care putem trage concluzii asupra semnificaţiei datelor pe care le
avem la dispoziţie. (Opariuc, 2009).

De aceea, prima etapă în iniţierea unei proceduri statistice de analiză a datelor


constă în clasificarea, ordonarea, condensarea acestora în vederea conturării unei
imagini cât mai precise.

Valorile măsurate trebuie aşezate într-o anumită ordine (crescătoare sau


descrescătoare) care să permită şi o eventuală reprezentare grafică a acestora.

Exemplu: Următoarele date reprezintă cheltuielile pentru cumpărarea unbui


produs (ron), cheltuieli efectuate de 25 de familii într-o săptămână: 222, 284, 321,

40
Elemente de statistica aplicata 2010 Mihaela Sandu

248, 235, 265, 254, 312, 321, 298, 274, 286, 312, 288, 286, 245, 222, 234, 238 ,254,
265, 231, 254, 233, 265.

Xmin = 221

Xmax = 321.

A = Xmax- Xmin = 321 – 221 = 100

r=4
A 100
h=   25
r 4

Intervale Frecvenţă
221 - 246 8
246 - 271 8
271 - 296 5
296 - 321 4

Proprietăţile scalei (Vasilescu, 1992):

 Operaţii statistice permise:

o Calculul mediei aritmetice, abaterii standard, boltirii şi simetriei


(indicatorii statistici sunt prezentaţi la capitolul IV);

o Statistici parametrice: testul „t” Student, „F” – Fisher, analiza de


varianţă;

o Toate tipurile de corelaţii: r-Pearson, raport de corelaţie (R),


coeficientul de regresie (b)

41
Elemente de statistica aplicata 2010 Mihaela Sandu

III.2.2. Scala de raport (proporţii)


Ultimul nivel de măsurare şi este reprezentat de scala de raport care are
toate caracteristicile unei scale de interval la care se adaugă existenţa unui zero
absolut. Această scală permite să răspundem la întrebarea „de câte ori”, deoarece
existenţa unui zero absolut face posibilă compararea proporţiilor.

Scala de raport are proprietăţile scalei de interval, iar raportul dintre două
puncte ale scalei după care unităţile sunt clasificate are semnificaţie, indiferent de
unitatea de măsură utilizată în stabilirea scalei.

Pe scala de raport numerele oferă nu numai informaţii asupra ordinii de


rang a obiectelor (şi a mărimii relative a diferenţelor) ci şi despre relaţiile
rapoartelor.
Exemplu : dacă un subiect are greutatea de 80 de kilograme iar un altul are
greutatea de 160 kilograme, putem spune că al doilea subiect este cu 80 de
kilograme mai greu decât primul, dar şi că al doilea subiect este de două ori mai greu
decât primul, ambele afirmaţii având sens.

Exemplu: - Rata lunară a şomajului ;


- cursul valutar zilnic al leului în raport cu euro.
Proprietăţi ale scalei:

 Sunt permise toate operaţiile statistice, inclusiv calculul mediei geometrice


şi al coeficientului de variaţie.

III.3. Alegeţi răspunsul corect


42
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Scala nominală:
a. nu permite redenumirea unor noi nume;
b. permite schimbarea ordinii elementelor;
c. este cunoscută şi sub numele de scală cantitativă.

2. Scala nominală are ca proprietate:


a. identitatea categoriilor unei variabile;
b. ordinea categoriilor unei variabile;
c. diferenţele între numere au un sens;
d. raportul dintre două puncte de scală este acelaşi.

3. Operaţiile statistice permise în cadrul scalei nominale sunt:


a. frecvenţele absolute şi relative;
b. modul, mediana, media;
c. frecvenţele cumulate.

4. În cazul scalei nominale:


a. între coduri există un raport de echivalenţă şi ordinea codurilor numerelor
sau simbolurilor atribuite categoriilor este oarecare;
b. diferenţele între 2 valori ale unei variabile nu au sens;
c. între categoriile variabilelor atributive există un raport de preferinţă.

5. Proprietatea de identitate, specifică scalei nominale, presupune:


a. un interval între numere, care să permită compararea diferenţelor dintre
numere;
b. un raport de preferinţă, desemnat prin „>”, care permite măsurarea cu
ranguri;
c. apartenenţa elementelor la o categorie.

6. Scala ordinală:

43
Elemente de statistica aplicata 2010 Mihaela Sandu

a. permite ordonarea observaţiilor, persoanelor sau situaţiilor de la complex


la simplu;
b. permite ordonarea observaţiilor, persoanelor sau situaţiilor de la mic la
mare;
c. poate precuza valoarea diferenţei dintre două gradaţii;
d. nu presupune stabilirea unei relaţii de ordine între valorile posibile ale
variabilei studiate.

7. În cazul scalei ordinale:


a. se poate preciza valoarea dintre două gradaţii;
b. se poate stabili o relaţie de ordine între valorile posibile ale variabilelor
studiate;
c. este cunoscută şi sub numele de scală calitativă.

8. Frecvenţa cumulată ascendentă se calculează ca fiind:


a. numărul total de unităţi statistice;
b. numărul total de unităţi care se încadrează în grupă;
c. suma frecvenţelor anterioare minus frecvenţa curentă,
d. suma frecvenţelor anterioare plus frecvenţa curentă.

9. Scala de interval:
a. presupune stabilirea unei relaţii de ordine între valorile studiate;
b. presupune ca intervalul dintre două variante să fie exprimat în termenii unei
unităţi de măsură fixe;
c. nu poate determina cantitatea exactă de caracteristică existentă în
observaţii;
d. nu are ca extensie scala de interval.

10. Scala de interval este folosită în cazul:


a. variabilelor atributive
b. variabilelor nenumerice
c. variabilelor cantitative

11. Scala de interval


a. are toate caracteristicile scalelor ordinale şi de raport;
b. are toate caracteristicile scalei ordinale şi, în plus, distanţa sau diferenţa
dintre două numere ale scalei are semnificaţie concretă;
c. este o scală numerică şi, în plus, raportul dintre două puncte ale scalei este
independent de unitatea de măsură;

44
Elemente de statistica aplicata 2010 Mihaela Sandu

d. prezintă multe dintre caracteristicile scalei ordinale;


e. mai este numită şi scală de raport sau scală discretă.

12. Ordinea în care sosesc alergătorii dintr-o cursă reprezintă o variabilă


statistică ale cărei valori pot fi măsurate pe o scală:
a. nominală;
b. proporţională;
c. de interval;
d. ordinală;
e. cardinală.

13. Temperatura la sol măsurată în 10 zile consecutive în Bucureşti, ca


variabilă statistică, are valori ce pot fi măsurate pe o scală:
a. de raport;
b. de interval;
c. ordinală;
d. pe nici una din scalele menţionate

14. Identificaţi 3 tipuri diferite de date statistice ce pot fi colectate pentru


a reflecta popularitatea a cinci publicaţii periodice similare. Precizaţi
scala de măsurare a fiecărui tip de date.
a. număr de abonamente;
b. număr de exemplare vândute;
c. tiraj.

15. Precizaţi care dintre următoarele asocieri între variabilele statistice şi


scala de măsurare nu este adevărată:
a. marca de calculator cumpărat cel mai curând de 20 de oameni de afaceri –
scală nominală;
b. salariul mediu pe ramuri ale economiei naţionale – scală de raport;
c. punctajul obţinut de către 10 concurenţi la un concurs de cultură generală –
scală nominală;
d. afilierea la un partid politic a 50 de directori executivi selectaţi aleatoriu –
scală nominală.

III.4. Probleme
45
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Ne propunem să studiem 200 de persoane pentru a vedea care este profesia lor.
După investigaţie au rezultat:
32 avocaţi 50 economişti 66 jurişti
21 contabili 31 psihologi
Cerinţe:
a. Identificaţi frecvenţa absolută;
b. Calculaţi frecvenţa relativă

2. În urma controlului de calitate, într-un lot de 500 de piese, se găsesc n i=30 piese
rebut.
Să se calculeze procentul mediu al pieselor de rebut din lot.

3. Populaţia ocupată (mii persoane) pe sectoare de activitate în România, în anii


1993 şi 2001, se prezintă astfel:

Sectorul de activitate 1993 2001


Indistrie 3030 2017
Construcţii 574 340
Agricultură şi 3614 3498
silvicultură
Alte ramuri 2844 2708
Total 10062 8563

Să se calculeze ponderea populaţiei ocupate în sectorul de construcţii, în


anul 2001.

46
Elemente de statistica aplicata 2010 Mihaela Sandu

4. Populaţia ocupată (mii persoane) pe sectoare de activitate în românia, în anii


1993 şi 2001, se prezintă astfel:

Sectorul de activitate 1993 2001


Indistrie 3030 2017
Construcţii 574 340
Agricultură şi 3614 3498
silvicultură
Alte ramuri 2844 2708
Total 10062 8563

Să se afle cu cât s-a modificat structura populaţiei ocupate în industrie, în anul


2001 faţă de 1993.

5. Distribuţia a „n” familii dintr-un bloc, după numărul de copii (x), la un moment
dat, se prezintă astfel:

Xi 0 1 2 3 4 5 6 7
ni 6 18 23 20 14 6 2 1
Fci 6 24 47 67 81 87 89 96

Să se calculeze numărul de familii care au cel mult 4 copii.

6. Următoarele date reprezintă cheltuielile (mii lei) efectuate de 50 de copii într-o


săptămână:
50, 82, 84, 56, 114, 115, 118, 58, 64, 86, 89, 66, 69, 144, 135, 78, 98, 94, 76, 80,
134, 128, 126, 79, 96, 100, 112, 113, 84, 87, 96, 99, 146, 155, 159, 157, 166, 178,
174, 176, 169, 178, 158, 155, 156, 174, 84, 94, 110, 112.
Calculaţi:
a) Amplitudinea;
b) Marimea intervalului având r = 4 (numărul de intervale);
c) Frecvenţa absolută;

47
Elemente de statistica aplicata 2010 Mihaela Sandu

7. Distribuţia pe grupe de vârstă a unui eşantion de 100 de persoane dintr-un cartier


de locuinţe, la un moment dat, este:

Grupa de - 20 20-30 30-60 60-80 80-100


vârstă
Efectivul 17 61 22 15 18

Să se calculeze limita inferioară a primului interval de variaţie.

8. Directorul unui post de radio comandă o cercetare statisitică în scopul


determinării audienţei de care se bucură postul său. Cercetătorul culege date privind
numărul de ore audiate pe un eşantion şi află că 10% din persoane ascultă postul de
radio mai puţin de 2 ore, 25% între 2 şi 4 ore, 40% între 4 şi 6 ore, 20% între 6 şi 8
ore, iar restul peste 8 ore. El urmăreşte să determine numărul mediu de ore de audiţie
pe o persoană.

48
Elemente de statistica aplicata 2010 Mihaela Sandu

III.5. Răspunsuri corecte

III.3. Răspunsuri corecte.


1. b - permite schimbarea ordinii elementelor;

2. a - identitatea categoriilor unei variabile;

3. a - frecvenţele absolute şi relative;

4. a - între coduri există un raport de echivalenţă şi ordinea codurilor


numerelor sau simbolurilor atribuite categoriilor este oarecare;

5. c - apartenenţa elementelor la o categorie;

6. b - permite ordonarea observaţiilor, persoanelor sau situaţiilor de la mic la


mare;

7. b - se poate stabili o relaţie de ordine între valorile posibile ale


variabilelor
studiate;

8. d - suma frecvenţelor anterioare plus frecvenţa curentă;

9. b - presupune ca intervalul dintre două variante să fie exprimat în termenii


unei unităţi de măsură fixe;

10. c - variabilelor cantitative;

11. b - are toate caracteristicile scalei ordinale şi, în plus, distanţa sau ;

12. d - ordinală;

49
Elemente de statistica aplicata 2010 Mihaela Sandu

13. b - de interval;

14. a. număr de abonamente – scală de raport;


b. număr de exemplare vândute – scală de raport;
c. tiraj – scală de raport.

15. c. punctajul obţinut de către 10 concurenţi la un concurs de cultură


generală – scală nominală;

III.4. Răspunsuri corecte.


1. Răspuns.
Profesii Ni Ni*
Avocaţi 32 16
Contabili 21 25
Economişti 50 33
Psihologi 31 10,5
Jurişti 66 15,5

2. Răspuns: Nivelul mediu în cazul unei variabile alternative se calculează după


relaţia:
ni
p *100
n

30
p *100  6 0 0
500
Interpretare: Rezultatul obţinut arată că în medie, la fiecare 100 de piese
observate, 6 piese sunt rebut.

3. Răspuns. Se calculează frecvenţa relativă.


ni n 340
Ni*=  i  * 100  3,97%
 ni n 8563

50
Elemente de statistica aplicata 2010 Mihaela Sandu

Interpretare: Ponderea populaţiei ocupate în sectorul de construcţii, în anul


2001, este de 3,97%

ni
4. Răspuns. ni*= * 100
 ni
3030
Ni0*= * 100  30,11 %
10062
 ( )  ni1  ni 0  23,55  30,11  6,56%
* *

2017
Ni1*= * 100  23,55%
8563
Interpretare: Structura populaţiei ocupate în industrie a scăzut, în anul 2001 faţă
de 1993, cu 6,56%.

5. Răspuns. Aflarea numărului de familii care au cel mult 4 copii presupune


calcularea frecvenţei absolute cumulate. Ne vom opri la 81 deoarece problema, cere
numărul de familii care au cel mult 4 copii. Astfel, un număr de 81 de familii din
colectivitatea considerată au cel mult 4 copii.

7. Răspuns: Exemplul dat prezintă o distribuţie pe intervale inegale de variaţie. În


acest caz, limita inferioară a primului interval de variaţie se închide, şi vom
lua în consideratie mărimea intervalului următor.
h= xi-xi-1= limsup - limin f = 30-20 =10
Prin urmare, primul interval are ca limită inferioară 10, adică (10-20)

8. Răspuns. Se va utiliza media aritmetică ponderată, calculată pe baza frecvenţelor relative.


Intervale de variaţie a Număr de persoane (%)
numărului de ore de audiţie
Sub 2 10
2-4 25
4-6 40
6-8 20
8 şi peste 5
total

51
Elemente de statistica aplicata 2010 Mihaela Sandu

x
 x n %  10  75  200  140  45  470  4,7ore
i i

100 100 100

Astfel în medie o persoană din eşantionul studiat audiază 4,7 ore de program
la postul de radio respectiv.

52
Elemente de statistica aplicata 2010 Mihaela Sandu

IV. INDICATORI STATISTICI

Noţiunea de indicator şi funcţiile indicatorilor

Cercetarea statistică a fenomenelor şi proceselor socio-economice are ca


obiectiv principal analiza aspectelor cantitative nemijlocit sesizabile pentru a afla şi
caracteriza esenţa şi calitatea acestora.

Definiţie: Indicatorul statistic reprezintă expresia numerică a unor


fenomene şi procese social-economice, definite în timp, spaţiu şi structură
organizatorică.17

Indicatorii statistici pot fi primari sau derivaţi.

Indicatorii primari exprimă direct nivelul real de dezvoltare a caracteristicii


cercetate, caracterizând fenomenul/procesul la modul cel mai general din punct de
vedere cantitativ. Ei rezultă în urma observării şi centralizării statistice a datelor
individuale de masă, fie prin înregistrarea curentă, fie prin însumare parţială sau
totală a datelor individuale de acelaşi fel.

Indicatorii derivaţi se obţin prin prelucrarea mărimilor absolute ale


indicatorilor primari. Prelucrarea se face prin comparare, abstractizare, generalizare
şi alte procedee de calcul statistic.

Compararea se face prin diferenţă sau prin raport. Prin diferenţă se compară
numai indicatorii absoluţi cu acelaşi conţinut şi exprimaţi în aceeaşi unitate de

17
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa,p. 59

53
Elemente de statistica aplicata 2010 Mihaela Sandu

măsură. Prin raport se pot compara indicatorii cu acelaşi conţinut sau conţinut
diferit, dar aflaţi în relaţie de interdependenţă.

IV.1. INDICATORI AI TENDINŢEI CENTRALE

Indicatorii tendinţei centrale sunt indicatori sintetici cu ajutorul cărora se


exprimă într-o singură măsură ceea ce este tipic, esenţial, stabil, obiectiv şi
caracteristic într-o serie de date numerice.

Un indicator al tendinţei centrale trebuie să îndeplinească următoarele


condiţii:

 să fie definit în mod precis şi obiectiv, eliminând aprecierea subiectivă a


cercetătorului;
 să fie expresia tuturor observaţiilor făcute;
 să nu aibă caracter matematic prea abstract şi să posede proprietăţi simple
şi evidente;
 să poată fi calculat cu uşurinţă;
să fie cât mai puţin afectat de fluctuaţiile de selecţie (la extragerea mai
multor eşantioane dintr-o colectivitate generală, mediile să nu fie sensibil diferite).
Indicatorii fundamentali ai tendinţei centrale sunt: media aritmetică, modul
şi mediana.

IV.1.1. Media aritmetică ( x )

Considerăm că termenul de medie este cel mai uşor de înţeles din întreaga
statistică.

54
Elemente de statistica aplicata 2010 Mihaela Sandu

Au fost nenumărate situaţiile în care am întâlnit media: media la chimie să


vedem dacă am promovat anul sau avem restanţe, media de la şcoala generală care
ne ridică sau ne coboară şansele de admitere la liceu sau media cheltuielilor zilnice
care ne ajută să ne planificăm mai bine bugetul.

Astfl la întrebarea “Ce este media aritmetică?” putem spune că este


indicatorul care se utilizează cel mai frecvent pentru caracterizarea tendinţei
centrale.

Media reprezintă valoarea care înlocuind toţi termenii unei serii nu modifică
nivelul totalizator şi se calculează ca suma valorilor unei variabile raportată la
numărul măsurătorilor. Aceasta este media aritmetică20, deoarece în statistică mai
discutăm şi de media geometrică, media caracteristicilor alternative, media pătratică,
media rangurilor etc. Aceste concepte le întâlnim însă mai rar în domeniul ştiinţelor
socio-umane şi prin urmare nu vom face decât să le amintim.
n

 x i
(1) - pentru serie simplă
x i 1
n

Exemplu: Vârsta a 7 studenţi de la facultatea de psihologie este de 25, 26, 32, 33,
40, 22, 26, 24. Vârsta medie este :

 25  26  32  33  40  22  26  24 228
x   28,5ani
8 8

În cazul în care datele au fost sistematizate într-o serie de distribuţie de


frecvenţe în care valorile/centrele intervalelor de variaţie apar cu frecvenţele n i,
atunci media aritmetică, numită şi medie aritmetică ponderată este:

Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
20

Editura ASCR, Cluj-Napoca, p. 78

55
Elemente de statistica aplicata 2010 Mihaela Sandu

 xn i i
x i 1
r (2) – pentru o serie cu distribuţie de frecvenţe.
 ni
i 1

Exemplu : Salariile date angajaţilor (mil. lei) de către 70 de firme în anul 2005 a avut următoarea distribuţie:

Interval ni
20 - 40 10

40 - 60 15

60 - 80 10

80 - 100 5

Să se calculeze media.

Răspuns : Fiind o serie cu distribuţie de frecvenţe vom aplica următoarea formulă:


r

 xn i i
x i 1
r unde:
n
i 1
i

Xi = centrul de interval
Ni =frecvenţa absolută
Observăm că în formulă avem şi necunoscute, adică Xi (centrul de interval) şi va
trebui să-l calculăm.

56
Elemente de statistica aplicata 2010 Mihaela Sandu

Interval ni Xi
20 – 40 10 30

40 - 60 15 50

60 - 80 10 70

80 - 100 5 90

lim inf  lim sup


Xi =
2
20  40 60
Xi =   30
2 2
40  60 100
Xi =   50
2 2

……………………………….
80  100 180
Xi =   90
2 2

Având toate datele problemei, putem înlocui în formulă, astfel :

 30 * 10  50 * 15  70 *10  90 * 5
x 
10  15  10  5
 300  750  700  450 2200
x   55 → Salariul mediu oferit este de 55 mil lei.
40 40
Notă: Pentru o serie de distribuţie de frecvenţe, media calculată pe baza
frecvenţelor relative este egală cu media aritmetică determinată pe baza
frecvenţelor absolute.

IV.1.2. Modul (M0 )

57
Elemente de statistica aplicata 2010 Mihaela Sandu

Modul este categoria cu frecvenţa cea mai mare, el reprezintă valoarea cel
mai des întâlnită într-o serie statistică sau cea care are cea mai mare frecvenţă de
apariţie. Modul se mai numeşte şi dominanta seriei sau valoarea modală.

Grafic, într-o histogramă ori poligon al frecvenţelor el reprezintă valoarea de


pe abscisă corespunzătoare vârfului reprezentării.
În cazul datelor cantitative, în determinarea modului se ţine cont de felul în
care

acestea au fost sistematizate.

Pentru o serie statistică simplă de forma  30,32,40,32,35,30,32 valoarea


modală, M0 = 32.

Pentru o serie de distribuţie de frecvenţe alcătuită după o variabilă cantitantivă


discretă, determinarea modului se face prin identificarea valorii căreia îi corespunde
frecvenţa maximă.

În cazul seriilor de distribuţie de frecvenţe pe intervale de variaţie,


determinarea modului presupune mai întâi identificarea intervalului cu frecvenţă
maximă:

 d1 
M 0  xinf M 0     hM 0
 d1  d 2 

unde:

xinf M 0
reprezintă limita inferioară a intervalului modal;

hM o reprezintă mărimea intervalului modal;

d1 = diferenţa dintre frecvenţa intervalului modal şi a celui precedent;

d1= nM  nM 0 0 1 ;

58
Elemente de statistica aplicata 2010 Mihaela Sandu

d2 = diferenţa din frecvenţa intervalului modal şi a celui următor;

d2 = nM  nM
o 0 1 ;

Dacă d1 = d2 atunci modul va fi egal cu centrul intervalului modal.

O serie de date statistice poate să aibă una sau mai multe valori modale. O
distribuţie cu un singur mod se numeşte unimodală, dacă are două valori dominante
se numeşte bimodală, iar dacă are mai mult de două moduri se numeşte
multimodală.

Exemplu : Salariile date angajaţilor de către 70 de firme în anul 2005 a avut


următoarea distribuţie:

Intervale ni
10-20 20
20-30 10
30-40 10
40-50 15
50-60 25
60-70 10
d1
M0 = xinf M o  hM 0
d1  d 2

Intmod = 50-60 (intervalul a cărui frecvenţă absolută este cea mai mare)
xinf M 0 = 50
d1 = nM  nM 0 0 1

nM 0 = frecvenţa intervalului modal

59
Elemente de statistica aplicata 2010 Mihaela Sandu

nM 0 1 = frecvenţa intervalului anterior celui modal

d1 = 25 – 15 = 10

d2 = nM  nM
0 0 1

nM 0
= frecvenţa intervalului modal

nM 0 1 = frecvenţa intervalului următor celui modal

d2 = 25 - 10 = 15
10 10
M 0  50  20   50  20  50  8  58
10  15 25

Mo =58

IV.1.3. Mediana (Me)

Mediana este o altă măsură a tendinţei centrale şi reprezintă valoarea care


împarte şirul de măsurători în două părţi egale; jumătate din şirul de date vor
avea valori mai mici decât mediana în timp ce cealaltă jumătate vor avea valori
mai mari decât mediana21.

Mediana prezintă valoarea/varianta din mijlocul unei serii de date, serie în


care observaţiile au fost ordonate crescător (sau descrescător). Mediana este situată
în centrul (mijlocul) seriei.

Mediana poate fi folosită în caracterizarea tendinţei centrale pentru o serie


de date măsurate pe o scală ordinală. Mediana ia în considerare doar poziţia
observaţiilor în serie, nu şi magnitudinea lor efectivă.

Pentru a determina mediana introducem noţiunea de ranguri, adică, numere


de ordine asociate observaţiilor (cea mai mică – rang 1; cea mai mare – rang n).

Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
21

Editura ASCR, Cluj-Napoca, p. 83.

60
Elemente de statistica aplicata 2010 Mihaela Sandu

Locul medianei (LocMe) va fi rangul unităţii din mijlocul distribuţiei.


n 1
LocMe = 2

Pentru seriile simple la determinarea valorii din mijloc trebuie să luăm în


consideraţie situaţiile:

a) Dacă n este un număr impar


- pentru date cantitative mediana este exact valoarea din mijlocul seriei

Exemplu: În cazul unui şir impar, mediana este valoarea de la mijlocul unui şir.
Dacă reluăm exemplul anterior, şi mai adăugăm un scor, obţinem:

20, 17, 14, 9, 18, 15, 19

Şirul are 7 valori. Ordonând şirul, obţinem:

9, 14, 15, 17, 18, 19, 20

De data aceasta, la mijlocul acestui şir găsim valoarea 17, valoarea medianei.

Observăm că n = 7.
n 1 7 1 8
LocMe = =  4
2 2 2

LocMe =4 → a 4-a valoarea din şirul de numere ordonate crecător sau


descrescător reprezintă mediana → Me =17
Ordonând un şir, putem preciza poziţia fiecărui element în cadrul acelui şir.

61
Elemente de statistica aplicata 2010 Mihaela Sandu

Altfel spus, mediana nu este altceva decât poziţia rangului din mijloc în şirul
ordonat de date. Într-o serie de la 1 la 7, poziţia din mijlocul şirului este evident,
poziţia 4. Acesta este de altfel şi locul în care găsim mediana.

Scoruri: 9, 14, 15, 17, 18, 19, 20

Poziţia: 1, 2, 3, 4, 5, 6, 7

b) Dacă n este un număr par, există două valori situate în mijlocul


seriei.
- dacă datele sunt cantitative, mediana este media celor două valori din
mijloc

Exemplu: Se consideră următorul şir de date:

20, 10, 15, 18, 21, 22

Pentru a calcula mediana, primul pas este acela de a ordona crescător sau
descrescător aceste date. Ordonând crescător şirul de mai sus, obţinem:

10, 15, 18, 20, 21, 22

Să se calculeze mediana.
Se ordonează datele crescător, astfel : 10, 15, 18, 20, 21, 22.
n 1 6 1 7
LocMe = =   3,5  mediana se situează între a treia şi a patra
2 2 2

valoare din serie.


18  20 38
Me =   19
2 2

62
Elemente de statistica aplicata 2010 Mihaela Sandu

După definiţia medianei, în cazul nostru avem 6 valori. Prin urmare,


mediana va fi valoarea care împarte acest şir ordonat în două părţi egale. Fiind 6
valori, mediana este situată la limita primelor 3 valori. Deoarece şirul este un şir
par, mediana se situează, în cazul nostru, între valoarea 18 şi valoarea 20, mai precis
la valoarea 19.
c. Pentru o serie de distribuţie de frecvenţe variate determinarea medianei
presupune calcularea mai întâi a frecvenţelor cumulate. Prima frecvenţă cumulată
mai mare decât (n+1)/2 (locul medianei) ne indică varianta mediană
Exemplul 1: Pentru 80 de familii dintr-un bloc s-au sistematizat date privind
numărul membrilor de familie, rezultând distribuţia:

Numărul membrilor de Numărul de familii Frecvenţe cumulate


familie ni Fci

1 12 12
2 23 35
3 30 65
4 8 73
5 7 80
80
80  1
LocMe =  40,5
2

adică, între a 40-a şi a 41-a familie prima frecvenţă cumulată mai mare decât 40,5
este 65  varianta „trei membrii de familie” reprezintă varianta mediană situată în
mijlocul distribuţiei.

Pentru o serie de repartiţie de frecvenţe pe intervale de variaţie, mediana se


va încadra în intervalul median, primul interval cu frecvenţa cumulată mai mare
decât LocMe.

Exemplul 2: Se dă distribuţia:

63
Elemente de statistica aplicata 2010 Mihaela Sandu

Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
50-60 25 80
60-70 10 90

n  1 90  1 91
LocMe =    45,5 ; n = 90
2 2 2

LocMe  Fc ( Me 1)
Me = xinf Me  hMe
nMe

unde:
xinf Me - limita inferioară a intervalului median

hMe – mărimea intervalului median

Fc(Me-1) - frecvenţa cumulată a intervalului anterior celui median

nMe – frecvenţa absolută a intervalului median


45,5  40
Me = 40  10 = 43,66
15

Me = 43,66

Mediana prezintă unele avantaje faţă de medie:

 este mai puţin afectată de valorile extreme, luând în considerare doar


poziţia valorilor nu şi magnitudinea lor efectivă;

64
Elemente de statistica aplicata 2010 Mihaela Sandu

 poate fi folosită într-o distribuţie pe intervale chiar şi în cazul în care primul


sau ultimul interval sunt deschise;
 este un indicator ce poate fi folosit şi pentru date ordinale;

Dezavantajele medianei:

 mediana nu poate fi supusă la fel de uşor calculelor algebrice;


 media este preferabilă în procesul de inferenţă statistică.

IV.2. QUARTILELE
Quartilele împart seria în patru părţi egale, ele delimitând cele 25% din
observaţii. Quartilele sunt în număr de trei: Q1, Q2, Q3.

Q1 – este cuartila inferioară;

Q2 – este egală întotdeauna cu mediana;

Q3 – este cuartila superioară;

Determinarea valorilor quartilelor se face adoptând formulele medianei:

LocQ1  Fc ( Q1 1)
Q1 = xinf Q  hQ
1 1
nQ1

unde:

xinf Q1
= limita inferioară a intervalului quartilic;

hQ1 = mărimea intervalului quartilic;

n 1
LocQ1 = ;
4

65
Elemente de statistica aplicata 2010 Mihaela Sandu

LocQ1 = locul quartilei, primele 25% valori;

Fc ( Q1 1) = frecvenţa cumulată a intervalului anterior celui quartilic;

nQ1 = frecvenţa absolută a intervalului quartilic;

LocQ3  Fc ( Q3 1)
Q3  xinf Q3  hQ3 ;
nQ3

3(n  1)
LocQ3  ;
4

LocQ3 = locul quartilei, ultimele 25% din valori;

Exemplul 1: Salariile date angajaţilor de către 70 de firme în anul 2005 a avut


următoarea distribuţie:

Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
50-60 25 80
60-70 10 90

LocQ1  Fc ( Q1 1)
Q1 = xinf Q  hQ
1 1
nQ1

66
Elemente de statistica aplicata 2010 Mihaela Sandu

n  1 91
LocQ1    22,75
4 4

Intervalul  20;30  primul interval care are frecvenţa cumulată mai mare
decât locul quartilei Q1

hQ1  30  20  10
xinf Q1  20
Fc (Q1 1)  20
nQ1  10
22,75  20
Q1  20  10  20  10 * 0,27  22,75
10

Q3 = primele 25% din firmele care oferă cele mai mari salarii.

LocQ3  Fc ( Q3 1)
Q3  xinf Q3  hQ3
nQ3
3(n  1) 3  91
LocQ3    68,25
4 4

Intervalul quartilei Q3 = 1,4;1,8

xinf Q3  50
hQ3  60  50  10
Fc ( Q3 1)  55
nQ3  25
68,25  55
Q3  150  10  150  5,3  155,3
25

Q3= 155,3 → primele 25% din firmele care oferă cele mai mici salarii.

IV.3. INDICATORI AI VARIABILITĂŢII

Din această grupă fac parte:

- amplitudinea variaţiei (absolută şi relativă);

67
Elemente de statistica aplicata 2010 Mihaela Sandu

- abaterile individuale (absolute şi relative).

Amplitudinea absolută (A) se calculează ca diferenţa între nivelul maxim şi


nivelul minim al caracteristicii.

A = xmax - xmin

Amplitudinea relativă a variaţiei (A%) se exprimă în procente şi se


calculează ca raport între amplitudinea absolută a variaţiei şi nivelul mediu al
caracteristicii.
A
A% =  100
x

Amplitudinea se foloseşte la controlul calităţii produselor prezentând


importanţă şi din punct de vedere metodologic, fiind folosit în prima fază a
prelucrării statistice la stabilirea numărului de grupe şi a mărimii intervalului de
grupare.

IV.3.1. Indicatorii sintetici ai variaţiei

Indicatorii sintetici ai variaţiei trebuie să se bazeze pe toate observaţiile, să


fie uşor de calculat, cât mai puţin afectaţi de fluctuaţiile de selecţie dacă datele
provin dintr-o cercetare statistică parţială pentru care trebuie verificată şi
reprezentativitatea eşantionului.

Indicatorii sintetici ai variaţiei sunt:

- abaterea medie liniară;


- abaterea medie pătratică;
- dispersia;

68
Elemente de statistica aplicata 2010 Mihaela Sandu

- coeficientul de variaţie.

IV.3.1.1. Abaterea medie liniară ( d ) x

Se mai numeşte variaţie medie, deviaţie medie, abatere absolută medie sau
abatere liniară medie şi se poate calcula atunci când media este un bun indicator al
tendinţei centrale. Acest indicator informează asupra modului în care se abat, în
valori absolute, rezultatele de la medie, acordând aceeaşi pondere tuturor
variabilelor. Abaterea medie se poate calcula pe date grupate sau pe date discrete.

Se calculează ca medie aritmetică simplă sau ponderată a abaterilor


termenilor seriei de la media lor, luată în valoare absolută.

Pentru o serie simplă:


n

x i x
1 n
dx  i 1

n
  xi  x
n i 1

Pentru o serie de distribuţie de frecvenţe absolute:


k

 x  x n i i
dx  i 1
k

n
i 1
i

Pentru o serie cu frecvenţe relative, exprimate în procente:


k

 x  x n % . i
*
i
dx  i 1
100

69
Elemente de statistica aplicata 2010 Mihaela Sandu

Exemplu:
Pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul
zilnic petrecut în faţa televizorului rezultând:

Timp (min) Număr de xi xi*ni xi - X XI  X XI  X

persoane
*ni
ni
0-30 47 15 705 -57,75 57,75 2714,25
(Până la 30)
30-60 51 45 2295 -27,75 27,75 1415,25

60-90 76 75 5700 2,25 2,25 171

90-120 24 105 2520 32,25 32,25 774

120 şi peste 2 135 270 62,25 62,25 124,5

T=5199

Să se calculeze abaterea medie liniară.

70
Elemente de statistica aplicata 2010 Mihaela Sandu

x n i i
47 *15  51* 45  24 *105  2 *135 705  2295  5700  5520  270
x i 1
 
n 200 200
14490
  72,45
200

x i  x  ni
5199
dx  n
  25,99
200
n
i 1
i

IV.3.1.2. Dispersia (varianţa) unei caracteristici (  x )


2

Atunci când putem utiliza media, un indicator frecvent este indicatorul


dispersiei sau indicatorul varianţei (atenţie, nu variaţie ci varianţă) notat cu sigma
pătrat pentru populaţie sau s2 în cazul unui eşantion.

Se calculează ca medie aritmetică simplă sau ponderată a pătratelor


abaterilor termenilor seriei faţă de media lor.

Formula de calcul a dispersiei este următoarea, în care xi reprezintă valoarea


măsurată, x barat media iar N numărul de măsurători.

- pentru o serie simplă


n

 ( x  x)
i
2

 x2  i 1
n

- pentru o serie cu frecvenţe absolute

71
Elemente de statistica aplicata 2010 Mihaela Sandu

 ( x  x)
i
2
 ni
  2
x
i 1
k

n
i 1
i

- pentru o serie cu frecvenţe relative, exprimate în procente

 ( x  x)
i
2
 ni* %
 x2 
100

Exemplu: Pentru 200 de persoane s-au sistematizat datele culese cu privire la


timpul zilnic petrecut în faţa televizorului rezultând:

Timp Număr de xi xi*ni xi - X (xi- x )2 (xi- x )2*ni


persoane
(min)
ni
0-30 47 15 705 -42,45 1802 84694
(Până la 30)
30-60 51 45 2295 -12,45 155 7905

60-90 76 75 5700 17,55 308 23408

90-120 24 105 2520 47,55 2261 54264


120 şi peste 2 135 270 77,55 6014 12028

T=11490 T=182299

Să se calculeze dispersia.
k

 ( x  x) i
2
 ni
xn
n

 
2 i 1
, i i
=57,45
x k
x i 1

n
i 1
i n

182299
 x2   911,49
200

72
Elemente de statistica aplicata 2010 Mihaela Sandu

IV.3.1.3. Abaterea medie pătratică (abaterea tip sau abaterea standard)

Se notează cu s în cazul unui eşantion sau cu sigma în cazul unei populaţii


şi o putem întâlni sub numele de abatere etalon, abatere tip, abatere pătratică medie.
Acest indicator este cel mai precis şi inteligibil pentru măsura gradului de
împrăştiere

a rezultatelor în jurul tendinţei centrale şi contribuie la definirea distribuţiei normale.


Poate fi calculat şi dobândeşte semnificaţie numai atunci când poate fi calculată
media.

Abaterea patratică medie este radacina patrată din media aritmetică a


pătratelor abaterilor valorilor observate în raport cu media lor aritmetică 22  x .
Relaţiile de calcul ale abaterii mediei pătratice sunt:

- pentru o serie simplă  ( x  x)


i
2

x  i 1

Dacă privim cu atenţie această formulă, constatăm că expresia de sub radical


nu este altceva decât varianţa. Prin urmare, după ce calculăm varianţa, putem afla
uşor abaterea standard extrăgând radicalul de ordin doi din varianţă.

  2

22
Petruş, Al., 2005 – Introducere în statstica socială, Editura Paralela 45, Piteşti, p. 52

73
Elemente de statistica aplicata 2010 Mihaela Sandu

 ( x  x)
i
2
 ni
- pentru o serie de frecvenţe absolute  x  i 1
k

n
i 1
i

- pentru o serie de frecvenţe relative, exprimate în procente

 ( x  x)
i
2
 ni*%
x 
100

Exemplu:

 x   x2  911,49  30.19 minute

IV.3.1.4. Coeficientul de variaţie ( vx )

Prezintă, mai intuitiv decât abaterea standard, gradul de împrăştiere al


rezultatelor în jurul mediei, deoarece este o expresie procentuală a împărţirii abaterii
standard la medie.
Se calculează ca raport între abaterea medie pătratică şi nivelul mediu al
seriei, deoarece abaterea standard se foloseşte frecvent pentru măsurarea abaterii
medii.

Formula de calcul este:

x dx 25,99
vx   100 sau vx   100 (dacă s-a calculat abaterea medie liniară  100  0,045 )
x x 57,45

74
Elemente de statistica aplicata 2010 Mihaela Sandu

Cu cât nivelul lui vx este mai apropiat de zero cu atât variaţia este mai
redusă, colectivitatea este mai omogenă, media având un grad mai ridicat de
reprezentativitate; cu cât valoarea sa este mai departe de zero, cu atât variaţia este
mai intensă, colectivitatea mai eterogenă, iar media are un nivel de semnificaţie mai
scăzut.

IV.4. INDICATORI AI FORMEI DISTRIBUŢIEI

În cazul variablelor continue ce pot fi sistematizate în distribuţii de


frecvenţe cu ajutorul intervalelor de grupare pe lângă determinarea indicatorilor
tendinţei centrale şi variabilităţii se pune problema să studiem şi modul în care
valorile individuale sunt deplasate şi centralizate comparativ cu tendinţa centrală.
Forma unei distribuţii de frecvenţe se analizează comparativ cu distribuţia
ideală, normală prin indicatori asimetrici (oblicităţii) şi indicatori ai boltirii
(excesului).

IV.4.1. Indicatori ai asimetriei (oblicităţii)

Asimetria se observă prin reprezentarea grafică prin histogramă sau


poligonul frecvenţelor, dar poate să fie măsurată prin indicatori specifici.
Distribuţiile de frecvenţe pot fi:
- perfect simetrice: x  Me  M0 (fig. 1a);
- cu asimetrie pozitivă: x  Me  Mo (fig. 1b);
- cu asimetrie negativă: x  Me  Mo (fig. 1c).

75
Elemente de statistica aplicata 2010 Mihaela Sandu

Fig.1 fig.2
x  Me  M0 x  Me  Mo

Fig.3 x  Me  Mo

Asimetria în valoarea absolută se poate măsura cu indicatorii:

76
Elemente de statistica aplicata 2010 Mihaela Sandu

As  x  M 0
sau

As1  3 x  M e 

Dar o distribuţie este caracterizată şi prin variabilitatea datelor. O serie care


are variabilitatea mai mică va fi mai pronunţată oblică, iar într-o serie mai
împrăştiată oblicitatea se va atenua. Pentru aceasta vom calcula coeficientul de
asimetrie Pearson:
x  M0
Cas  coeficientul care ia valori pozitive în cazul curbelor alungite
x

spre dreapta (asimetrie pozitivă) şi valori negative în cazul curbelor alungite spre
stânga (asimetrie negativă).
Coeficientul de asimetrie este nul pentru o distribuţie simetrică. El mai poate fi

Cas1 

3 x  Me 
, deoarece x  M 0  3 x  M e  .
exprimat: x

Exemplu:
Presupunem că pentru 200 de persoane s-au sistematizat datele culese cu
privire la timpul zilnic petrecut în faţa televizorului, rezultând:

Timp (min) Număr de xi xi*ni


persoane ni
0-30 47 15 705
(Până la 30)
30-60 51 45 2295
60-90 76 75 5700
90-120 24 105 2520

77
Elemente de statistica aplicata 2010 Mihaela Sandu

120 şi peste 2 135 270


T=11490

X 
x i * ni

11490
 57,45
n 200
d1
Mo =xinfMo-hMo d1  d 2

25
Mo=60+30 25  52  60  30 * 0,32  69,74

x  M0 57,45  69,74
Cas    0,407
x 30,19
ceea ce semnifică o asimetrie negativă
Cas1 

3 x  Me


57,45  61
 0,118
x 30,19

moderată (coada mai lungă a distribuţiei tinde spre valori mici).

IV.4.2. Coeficientul Yule

Coeficientul măsoară gradul de asimetrie prin raportul dintre diferenţa şi suma


abaterilor quartile şi se calculează după formula alăturată. Observăm că, pentru a
calcula acest coeficient, este necesar să calculăm pur şi simplu cele trei quartile,
după metoda prezentată într-unul dintre capitolele anterioare.

Casq 
 q2  q1 
 q2  q1  unde Q1= Me-Q1
Q2=Q3-Me

Casq 
 Q3  M e    M e  Q1   Q3  Q1  2M e
 Q3  M e    M e  Q1  Q3  Q1

78
Elemente de statistica aplicata 2010 Mihaela Sandu

Coeficientul poate lua, în general, valori de la -1 la +1 şi indică mărimea


asimetriei negative sau pozitive. Cu cât valorile sunt mai apropiate de 0, cu atât
distribuţia este mai simetrică. Cu cât se apropie de -1 sau de +1, ea devine tot mai
asimetrică spre stânga sau spre dreapta.

Acest coeficient este foarte uşor de calculat, însă ţine cont doar de câteva
valori – valorile quartile – şi nu de toate valorile din distribuţie, fapt care îi limitează
precizia şi se consideră că este doar un coeficient elementar al simetriei.

Exemplu:
Pentru o distribuţie s-au stabilit următoarele rezultate:
Q1= 150
Me= 130
Q3=140.
Să se calculeze valoarea coeficientului de asimetrie Yule.

Răspuns. Coeficientul de asimetrie yule se calculează după relaţia:


(q 2  q1 ) (Q3  M e )  ( M e  Q1 ) Q3  Q1  2 Me 10  20
Casq= (q  q ) = (Q  M )  ( M  Q ) = Q3  Q1
=
10  20
= -3
2 1 3 e e 1

Q1= Me-Q1=130-150= -20


Q2=Q3-Me= 140-130= 10
Interpretare: Valoarea obţinută, Casq= -3<0 arată că distribuţia considerată este
asimetrică la stânga.
Analiza oblicităţii (asimetriei)se poate face şi pe baza momentelor centrate
de ordinul 3:
  x  x
n
3
i
m3  i 1

n
utilizând frecvente

  x  x   x  x
r r
3 3
i  mi i  ni* %
m3  i 1
r
 i 1

100
n
i 1
i

79
Elemente de statistica aplicata 2010 Mihaela Sandu

Dacă seriile de distribuţie cu asimetrie negativă sunt mai numeroase,


valorile xi mai mici decât media, atunci abaterile ( xi  x) sunt negative.
Dacă seriile de distribuţie au asimetrie pozitivă sunt mai numeroase valorile
xi mai mari decât media, atunci abaterile ( xi  x) sunt pozitive.
Dacă seriile de distribuţie sunt perfect simetrice, abaterile ( xi  x) pozitive
sunt tot atât de numeroase ca şi cele negative.
O mărime relativă a asimetriei se obţine prin raportarea la abaterea medie
pătratică ridicată la cub.

IV.4.3. Coeficientul de asimetrie Fisher

Coeficientul de asimetrie Fisher, nu se bazează pe câteva elemente, precum


coeficientul Yule, ci pe toate valorile din distribuţie şi se calculează folosindu-se
momentele centrate.

m3 m32
Coeficientul de asimetrie (Fisher):  1   .
 x3 m22

Sau  2  2  3

Coeficientul γ1 va avea valoare mai mare decât zero în cazul asimetriei


pozitive, valoare mai mică decât zero în cazul asimetriei negative şi va fi egal cu
zero în cazul seriei perfect simetrice.
Atunci când discutăm de asimetrie, trebuie să precizăm o serie de relaţii care
apar între indicatorii tendinţei centrale, media, mediana şi modulul.

80
Elemente de statistica aplicata 2010 Mihaela Sandu

 Într-o distribuţie simetrică,


media, mediana şi modul au
aceleaşi valori.

După cum se poate observa în


figura alăturată, atât media, cât şi
mediana şi modul, se află în acelaşi
punct, la mijlocul distribuţiei.

 Într-o distribuţie asimetrică la dreapta (distribuţie skewness pozitiv, vezi


figura alăturată), predomină scorurile mici. În acest caz, modulul este valoarea
situată cel mai la stânga în şirul de date, iar
mediana este mai mare decât media. Evident,
mediana fiind valoarea care împarte şirul ordonat
de date în două părţi egale, iar dacă în distribuţie
predomină scorurile mici, atunci scorurile mari
sunt considerate ca scoruri extreme. Ştim, de la
analiza preciziei indicatorilor tendinţei centrale, că într-o serie de date în care
întâlnim scoruri extreme mari, media tinde să le pună în valoare, fapt care este
ilustrat grafic în figura de mai sus. Relaţia existentă într-o asemenea distribuţie
este: Mo<Me<m. Această relaţie este relaţia caracteristică a unei distribuţii
asimetrice pozitivă (Opariuc, 2009).

 Într-o distribuţie asimetrică la stânga (distribuţie skewness negativ, vezi


figura alăturată), predomină scorurile mari. În acest caz, modul este valoarea
situată cel mai la dreapta în şirul de date, iar mediana este mai mare decât media.
Evident, mediana fiind valoarea care împarte şirul ordonat de date în două părţi

81
Elemente de statistica aplicata 2010 Mihaela Sandu

egale, iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt
considerate ca scoruri extreme.

Ştim, de la analiza preciziei


indicatorilor tendinţei centrale, că într-o
serie de date în care întâlnim scoruri
extreme mici, media tinde să le pună în
valoare, fapt care este ilustrat grafic în
figura de mai sus în care se observă relaţia existentă.

Într-o asemenea distribuţie: Mo>Me>m. Această relaţie este relaţia


caracteristică a unei distribuţii asimetrice negativ.

IV.4.4. Boltirea

Boltirea măsoară înălţimea, adică alungirea sau aplatizarea curbei,


comparativ cu cea normală.
Asimetria pe orizontală,
presupune, după cum am văzut, o
deplasare a tendinţei centrale spre
stânga sau spre dreapta, către scoruri
mici sau către scoruri mari. Aceasta
este singura „asimetrie” posibilă?
Răspunsul la această întrebare este nu.
Există şi un fel de „asimetrie
verticală” sau boltire.

82
Elemente de statistica aplicata 2010 Mihaela Sandu

Termenul folosit generic pentru acest concept este termenul de kurtosis (din
limba greacă, kurtos = „cocoşat”). Practic, boltirea se referă la aspectul „cocoaşei”
distribuţiei rezultatelor.

Cocoaşa poate fi ascuţită şi atunci vorbim de o distribuţie ascuţită sau


leptocurtică, poate fi turtită, distribuţia turtită, plată sau platicurtică sau normală,
distribuţie mezocurtică. O distribuţie normală este întotdeauna o distribuţie
mezokurtică.

În figura de mai sus, distribuţia „C” este o distribuţie leptocurtică, ascuţită.


Distribuţia „B” este o distribuţie platicurtică, turtită, iar distribuţia „A” este o
distribuţie normală sub aspectul boltirii, sau mezocurtică.

 distribuţie leptocurtică, ascuţită, arată că datele sunt foarte grupate şi


apropiate de medie, lotul de subiecţi având un mare grad de
omogenitate a scorurilor

 O distribuţie platicurtică, plată, este o distribuţie în care rezultatele


sunt foarte împrăştiate faţă de medie şi indică un grad ridicat de
eterogenitate a scorurilor.

Aţi observat deja că boltirea nu este altceva decât simetria pe axa verticală
(OY), spre deosebire de simetria propriu zisă, deplasarea valorilor pe axa orizontală
(OX)

83
Elemente de statistica aplicata 2010 Mihaela Sandu

m4 m4
2   , unde m4 este momentul centrat de ordin 4
m22  4

x 
n 4
i x
m4  i 1
n
pe baza frecventel or

  x  x x 
r 4 r 4
i  ni i  x  ni* %
m4  i 1
r
 i 1

100
n
i 1
i

Pentru curba normală (serie simetrică) β2 = 3. Dacă β2 > 3, curba este mai
ascuţită decât cea normală (distribuţie leptocurtică). Dacă β 2 < 3, curba este mai
turtită decât cea normală (dispoziţie platicurtică).
Boltirea se mai poate măsura şi cu indicatorul:

  x  x
n 4
i
, care va avea valoarea zero dacă distribuţia este normală,
 2  2  3  i 1
3
n 4

valoare pozitivă pentru distribuţie leptocurtică şi valoare negativă pentru distribuţie


platicurtică.

84
Elemente de statistica aplicata 2010 Mihaela Sandu

Exemplu: Distribuţia a 380 de firme după numărul de zile de aşteptare până la


realizarea fuzionării este:
Interval de variaţie a numărului de zile Număr de firme
40-80 50
80-120 70
120-160 90
160-200 100
200-240 50
240-280 20
380
x  149,47
M 0  166,67
M e  151,33
Q1  105,86
Q3  190,3
 2  3068,14
  55,39

Să se calculeze oblicitatea şi excesul repartiţiei.

Rezolvare:

a. Coeficientul Yule

Casq 
 Q3  M e    M e  Q1  
 Q3  M e    M e  Q1 
 Q3  M e    M e  Q1  Q3  Q1
190,3  105,86  2  151.33  6,5
Casq    0,08
190,3  105,86 84,44

Asimetria este negativă moderată.

(Oblicitatea cu ajutorul momentelor centrate de ordinul 3 )


b. Boltirea

85
Elemente de statistica aplicata 2010 Mihaela Sandu

m4
2 
m22

  x  x
4
i  ni 7,93306  109
m4    20876491
n i 380
20876491
2   2,218
9413483
 2   2  3  2,218  3  0,78

Curba este slab platicurtică (aplatizată) deoarece  2  3,  2  0

Momentele de ordin r sunt valori ale caractersiticii urmărite care împart


distribuţai observaţiilor în r părţi egale şi au acelaşi efectiv 1/r din numărul
unităţilor .
Exemplu: mediana = quartila 2 = moment de ordin 2
quartila = quartila de ordin 4

IV.5. Alegeţi răspunsul corect

86
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Media aritmetică, ca indicator fundamental al tendinţei centrale:


a) reprezintă valoarea care modifică nivelul totalizator al seriei;
b) se foloseşte cel mai frecvent şi reprezintă suma valorilor raportată la
numărul lor;
c) se calculează adunând valorile existente;
d) nu poate determina numărul de unităţi din colectivitate.

2. Media aritmetică reprezintă:


a) valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar fi
eterogenă;
b) valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar fi
omogenă;
c) valoarea pe care ar purta-o fiecare variabilă statistică dacă distribuţia ar fi
omogenă.

3. Media aritmetică a unei sume dintre două variabile este egală cu suma
mediilor celor două variabile, când:
a) cele două variabile se află într-o relaţie de interdependenţă;
b) cele două variabile se află într-o relaţie de inversă proporţionalitate;
c) cele două variabile se referă la aceeaşi colectivitate;
d) cele două variabile sunt independente;
e) cele două variabile sunt direct proporţionale.

4. Care dintre următoarele afirmaţii privind media aritmetică este adevărată:


a) suma pătratelor tuturor abaterilor individuale ale termenilor seriei de la
media lor aritmetică este zero;
b) mărimea mediei aritmetice este cuprinsă între xmin şi xmax doar dacă seria
prezintă o tendinţă clară de asimetrie;
c) pentru o serie de distribuţie de frecvenţe, media aritmetică, calculată pe baza
frecvenţelor reduse de c ori, este mai mică decât media seriei iniţiale de c ori;
d) media produsului a două variabile aleatoare este egală cu produsul mediilor
celor două variabile;
e) pentru o serie de distribuţie de frecvenţe, media calculată pe baza
frecvenţelor relative este egală cu media aritmetică determinată pe baza
frecvenţelor absolute.

5. Mediana, ca indicator statistic:

87
Elemente de statistica aplicata 2010 Mihaela Sandu

a) prezintă valoarea din mijlocul unei serii de date în care observaţiile au fost
ordonate crescător sau descrescător;
b) nu poate fi folosită în caracterizarea tendinţei centrale pentru o serie de
date măsurate pe o scală ordinală;
c) nu are nici o legatură cu noţiunea de rang.

6. 25% din salariatii unei inteprinderii au un salariu de cel mult 4 milioane lei.
Aceasta valoare reprezintă:
a) quartila unu;
b) mediana;
c) quartila trei.

7. 75% din salariatii unei intreprinderii au un salariu de cel mult 7 milioane lei.
Aceasta valoare reprezintă:
a) quartila unu;
b) mediana;
c) quartila trei.

8. 50% din salariatii unei intreprinderii au un salariu de cel mult 5 milioane


lei. Aceasta valoare reprezintă:
a) quartila unu;
b) mediana;
c) quartila trei.

9. Într-o repartiţie normală valoarea faţă de care 25% din valorile individuale
sunt mai mici iar 25% din valorile individuale sunt mai mari este:
a. cuartila a doua;
b. cuartila a treia;
c. cuartila întâi;
d. valoarea modală.

10. Media este o mărime generalizată, adică, înlocuind fiecare nivel individual
al caracteristicii de distribuţie cu nivel mediu:
a. suma termenilor seriei rămâne aceeaşi;
b. suma termenilor seriei se modifică;
c. suma termenilor seriei este nulă.

11. Varianţa (dispersia) de grupă măsoară:


a) variaţia sub influenţa factorilor aleatori (variaţia reziduală)

88
Elemente de statistica aplicata 2010 Mihaela Sandu

b) variaţia sub influenţa factorilor esenţiali


c) variaţia sub influenţa factorilor aleatori şi esenţiali
12. Dacă dorim să obţinem un indicator al tendinţei centrale pentru date
măsurate pe orice scală, vom determina:
a) media aritmetică;
b) modul;
c) media geometrică;
d) media ponderată.

13. Modul se afla după relatia:


d1
a) Mo = xi - hMo * d  d ;
1 2

d1
b) Mo = xi + hMo * d  d ;
1 2

( n mo  nmo 1 )
c) Mo = xi-1 + hMo (n  n )  (n  n )
mo mo 1 mo mo 1

14. Care dintre următoarele variante nu reprezintă un indicator al tendinţei


centrale?
a) mod;
b) distribuţie de frecvenţe;
c) mediană;
d) medie;
e) medie ponderată.

15. Dacă dorim să obţinem un indicator al tendinţei centrale care să nu fie


afectat de valorile extreme, să poată fi calculat pentru date măsurate pe orice
scală (cu excepţia celei nominale) şi să aibă o singură valoarea, vom calcula:
a) media aritmetică
b) modul;
c) media geometrică;
d) mediana;
e) media ponderată.

16. Modul se utilizează pentru caracterizarea:


a. tendinţei generale şi gradului de asimetrie;
b. gradului de boltire;
c. gradului de concentrare.

89
Elemente de statistica aplicata 2010 Mihaela Sandu

17. Quartilele sunt mărimi de poziţie care împart colectivitatea în:


a. n-1 părţi egale;
b. 4 părţi egale;
c. 5 părţi egale;

18. În distribuţia de mai jos:

Interval 0-5 5 - 10 10 - 15 15 - 20
ni 3 7 15 20

Intervalul (15 – 20) reprezintă:


a. intervalul median;
b. intervalul modal;
c. intervalul quartilic.

19. Rolul indicatorilor tendintei centrale ai unei distributii statistice este de a:


a) sintetiza datele
b) calcula marimile relative
c) aprecia gradul de dispersie al colectivitatii.

20. Asimetria se calculează după relaţia:


a) As= x +Mo
b) As= 3( x -Me)
c) As= 2( x -Mo)

21. Coeficientul de asimetrie Yule, se calculează după relaţia:


( q 2  q1 )
a) Casq= (q  q ) ; unde: Q1= Me-Q1
2 1

Q2=Q3-Me
(q 2  q1 )
b) Casq= (q  q )
2 1

(q 3  q1 )
c) Casq= (q  q )
3 1

22. Coeficientul de boltire se calculează după relaţia:


m4 m3
2
a) β2= m2 c) β2=
3

90
Elemente de statistica aplicata 2010 Mihaela Sandu

m3
b) β2= 3
m2

23. O distribuţie este mezocurtică atunci când:


a) β2 = 3, γ2 = 0
b) β2 > 3, γ2 >0
c) β2 < 3, γ2 < 0

24. O distribuţie este leptocurtică atunci când:


a) β2 = 3, γ2 = 0
b) β2 > 3, γ2 > 0
c) β2 < 3, γ2 < 0

25. O distribuţie este platicurtică atunci când:


a) β2 = 3, γ2 = 0
b) β2 > 3, γ2 >0
c) β2 < 3, γ2 < 0

26. Abatarea medie liniară se calculează după relaţia:


a) d   i  xi  x
( x  x)
x
c) dx 
n n

2
x i  x ni
dx 
b) n

m4
27. Coeficientul  2  2 se utilizează pentru analiza statistică a:
m2
a) asimetriei;
b) variaţiei;
c) boltirii;
d) tendinţei centrale;
e) indicatorilor medii de poziţie.

28. Într-o serie de repartiţie pe intervale formată după o anumită variabilă,


valoarea sa modală este influenţată de:
a) limitele inferioare şi superioare ale intervalelor extreme;
b) de frecvenţele de apariţie ale intervalelor egale sau neegale;
c) de mărimea egală sau neegală a intervalelor de variaţie;
d) de limita inferioară a intervalului modal;

91
Elemente de statistica aplicata 2010 Mihaela Sandu

e) de limita inferioară, de frecvenţele intervalului modal, premodal şi postmodal;

IV.6. Probleme

92
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Valoarea vânzărilor înregistrate de firma “A” pe parcursul a şapte (7)


zile, se prezintă astfel (în milioane lei) : 200, 250, 750, 1001, 1520, 1800, 2300.
Să se calculeze valoarea medie zilnică a vânzărilor realizate de firma “A”.

2. Distribuţia după volumul vânzărilor zilnice (milioane lei) a unităţilor


comerciale dintr-un judeţ în luna Ianuarie 2004, se prezintă astfel:

Volumul
vânzărilor 0 - 10 10 - 20 20 - 30 30 - 40

Numărul
unităţilor 50 20 10 5
- comerciale
Să se calculeze nivelul mediu al vânzărilor zilnice.

3. Se dă următoarea distribuţie:
Interval ni
10-15 5
15-20 10
20-25 12
25-30 6
30-35 8
35-40 4

Să se calculeze modul.

4. O firmă înregistrează, într-o perioada de 5 zile, următoarele date privind volumul


vânzărilor (milioane lei) : 5, 7, 20, 14, 9.

93
Elemente de statistica aplicata 2010 Mihaela Sandu

- să se afle valoarea medianei (locul medianei)

5. O firma înregistrează, într-o perioadă de 6 zile, următoarele date privind volumul


vânzărilor (milioane lei) : 10, 40, 20, 15, 22, 35.
- să se afle valoarea medianei .

6. Distribuţia familiilor dintr-un bloc după numărul de copii se prezintă astfel:

Număr copii Număr familii (ni)


0 4
1 8
2 15
3 4
4 2
5 1
Total 34
Să se calculeze valoarea medianei.

7. . Distribuţia muncitorilor unei firme după timpul consumat pentru realizarea


produsului „A”, se prezintă astfel:

Timp - 30 30-60 60-90 90- 120- 150 -


necesar 120 15
Număr 25 50 60 45 15 5
muncitori
Să se calculeze valoarea medianei.

8. Distribuţia muncitorilor unei firme după timpul consumat, pentru realizarea


produsului “A” se prezintă astfel:

94
Elemente de statistica aplicata 2010 Mihaela Sandu

Sa se calculeze valoarea quartelei unu.

Timpul necesar Număr muncitori


(minute) Ni Xi F(ci)
x (i-1) ; x (i)
0-30 25 15 25

30-60 50 45 75

60-90 60 75 135

90-120 45 105 180

120-150 15 135 195

150-180 5 165 200

total 200

9. Distribuţia muncitorilor firmei „A” după timpul consumat pentru realizarea


produsului”X” se prezintă astfel:

Timp - 30 30-60 60-90 90- 120- 150 -


necesar 120 15
Număr 25 50 60 45 15 5
muncitori

Să se calculeze valoarea quartilei trei.

95
Elemente de statistica aplicata 2010 Mihaela Sandu

10. Distribuţia unui eşantion de firme după cifra de afaceri lunară, X, în mil lei, în
anul 2004, este prezentată astfel:

Xi-1; Xi ni
176-178 20
178-180 25
180-182 40
182-184 35
184-186 30
186-188 10
Total 160

Să se calculeze abaterea medie liniară.

11. . Dacă: Q1= 128,13 mil. lei


Me= 137,86 mil. lei
Q3= 147,92 mil. lei
Atunci, coeficientul de asimetrie Yule este egal cu:
a) 141 şi arată o distribuţie simetrică
b) 0, 016 şi arată o distribuţie moderat asimetrică
c) 0,016 şi arată o distribuţie puternic asimetrică.

12. Pentru o distribuţie s-au stabilit următoarele rezultate:


Q1= 150
Me= 130
Q3=140.
Să se calculeze valoarea coeficientului de asimetrie Yule.

13. Pentru o distribuţie s-au obţinut următoarele rezultate:


m4 = 40.000 ; m2 = 100.
Să se calculeze valoarea coeficientului de boltire.

96
Elemente de statistica aplicata 2010 Mihaela Sandu

14. Dacă: m4 = 54059,44


m2 = 162,6
atunci coeficientul de boltire şi interpretarea sa corectă sunt:
a) β = 2,045 → arată o distribuţie uşor platicurtică;
b) β = 2,045 → arată o distribuţie uşor leptocurtică;
c) β = 2,045 → arată o distribuţie uşor mezocurtică.

15. Pentru o distribuţie s-au obţinut următoarele rezultate:


Mo = 125 minute
x = 130 minute
 = 12 minute.
Să se calculeze valoarea coeficientului empiric de asimetrie Pearson.

16. Distribuţia unui eşantion de firme după cifra de afaceri lunară X, în milioane lei,
în anul 2004, este:
Interval 176-178 178-180 180-182 182-184 184-186 186-188

ni 20 25 40 35 30 10

Să se calculeze variaţia (dispersia).

17. Pentru o distribuţie statistică s-a obţinut o valoare a coeficientului de boltire


egală cu 2,5.
Să se calculeze coeficientul Fisher.
 2  2  3

18. Distribuţia unui eşantion de firme după cifra de afaceri lunară, X, în mil. lei, în
anul 2006, este:

Interval 176-178 178-180 180-182 182-184 184-186 186-188


ni 20 25 40 35 30 10
Să se calculeze valoarea coeficientului de variaţie.

97
Elemente de statistica aplicata 2010 Mihaela Sandu

IV.7. Răspunsuri corecte

IV.5. Răspunsuri corecte.

1. b - se foloseşte cel mai frecvent şi reprezintă suma valorilor raportată la numărul


lor;

2. b - valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar fi


omogenă;

3. c - cele două variabile se referă la aceeaşi colectivitate;

4. e - pentru o serie de distribuţie de frecvenţe, media calculată pe baza frecvenţelor


relative este egală cu media aritmetică determinată pe baza frecvenţelor absolute;

5. a - prezintă valoarea din mijlocul unei serii de date în care observaţiile au fost
ordonate crescător sau descrescător;

6. c - quartila unu;

7. c - quartila trei;

8. c - cuartila a doua;

9. a - quartila trei;

10. a – suma termenilor seriei rămâne aceeaşi;

11. a - variaţia sub influenţa factorilor aleatori (variaţia reziduală);

12. b - modul;

( n mo  n mo 1 )
13. c - Mo = xi-1 - hMo (n  n )  (n  n )
mo mo 1 mo mo 1

98
Elemente de statistica aplicata 2010 Mihaela Sandu

14. b - distribuţie de frecvenţe;

15. d - mediana;

16. a – tendinţei centrale şi gradului de asimetrie;

17. b – patru părţi egale;

18. b – intervalul modal;

19. a - sintetiza datele;


20. b - As= 3( x -Me);
( q 2  q1 )
21.a - Casq= (q  q ) ; unde: Q1= Me-Q1
2 1

Q2=Q3-Me
m4
2
22. a - β2= m2 ;

23. a - β2 = 3, ∆ = 0;
24. b - β2 > 3, ∆ >0;
25. c - β2 < 3, ∆< 0;

26. b - x x
* ni ;
i
dx 
n

27. c. – boltirii.
28. a - limitele inferioare şi superioare ale intervalelor extreme;

IV.6. Răspunsuri corecte.

99
Elemente de statistica aplicata 2010 Mihaela Sandu

1. Răspuns. Se foloseşte formula mediei aritmetice pentru o serie simplă.


x = x = i 200  250  750  1001  1520  1800  2300
= 1117,28 milioane lei.
n 7

Interpretare: Valoarea medie a volumului vânzărilor zilnice este de 1117,28


milioane lei.

2. * Elementele de calcul sunt prezentate în tabelul următor:

Volumul
vanzarilor ni xi Xi . n
x (i-1) ; xi
0-10 50 5 250

10-20 20 15 300

20-30 10 25 250

30-40 5 35 175

total 85 975

h xi 1  xi lim inf  lim sup


Xi= liminf + 2
sau xi = =
2 2
Rsp. Nivelul mediu al vânzărilor zilnice se află calculând media aritmetică care
în cazul unei serii grupate pe intervale de variaţie se calculează după relaţia:

x =
 x *n =
i i 5 * 50  15 * 20  25 *10  35 * 5
=
250  300  250  175 975
 = 11,47
n i 85 85 85
milioane lei.

x = 11,47 mil lei – valoarea medie a volumului vânzărilor este de 11,47 mil lei.

d 2
3. Răspuns: Mo= xinf mo  hmo d  d  20  5 2  6  21,25
1

1 2

D1=nmo-nmo-1=12-10=2 ; D2=nmo-nmo+1 =12-6=6

100
Elemente de statistica aplicata 2010 Mihaela Sandu

4. Răspuns. Pentru o serie simplă cu număr impar de termeni, ordonaţi în sens


crescător, mediana se află depistând termenul central al seriei, în dreptul locului
medianei.
n 1 (5  1)
Locme= 2
= =3 → Me = 9 milioane lei.
2
Locul medianei este al 3-lea termen al şirului (5,7,9,14,20), deci Me=9 milioane.

5. Răspuns. Pentru o serie simplă cu număr par de termini, ordonaţi în sens


crescător, mediana constă în calcului mediei aritmetice simple a celor 2 termeni
centrali ai seriei.
Şirul de date ordonate crescător este: 10,15, 20, 22, 35, 40.
20  22
Me = 2
= 21 milioane lei.

n  1 34  1 35
6. Răspuns. Locme=    17,5
2 2 2
Prima frecvenţă cumulată mai mare decât locul medianei ne indică
valoarea medianei. În cazul nostru, prima frecvenţă cumulată mai mare decât 17,5
este 27, iar intervalul mdian va fi 2.
(ni=27) ≥ (Locme = 17,5)

7. Răspuns. Se calculează locul medianei.


n  1 200  1 201
Locme=    100,5
2 2 2
Loc me  Fc  me 1

Me= xinfme+hme n me

100,5  75
Număr Fci Me=60+30  60  12,75  72,75 min
60
Timp muncitori Interpretare: Jumătate din numărul total al
necesar muncitorilor au consumat pentru realizarea
-30 25 25 produsului „A” până la 72,75 minute, iar
30-60 50 75 jumătate au consumat peste 72,75 minute
60-90 60 135
90-120 45 180
120-150 15 195
150- 5 200

101
Elemente de statistica aplicata 2010 Mihaela Sandu

Loc q1  Fc( q11)


8. Răspuns: Q1=liminfQ1+hq1* n q1
n  1 200  1 201
LocQ1= 4 = 4  4 =50,25
Se calculează frecvenţa absolută cumulată crescător. Prima frecvenţă mai mare ca
valoare deccât locul cuartilei 1 ne indică intervalul quartilic 1.
Liminf=30, deoarece intervalul Q1 este  30,60

hQ1=60 – 30 = 30
Fc(Q1-1) = 25
nQ1= 50
50,25  25
Q1= 30+30* 50
=30+30*0,50 =30+15= 45
Interpretare: 25% din numărul total al muncitorilor consumă cel mult 45 de
minute pentru realizarea unei piese.
3 n  1 3 * 201
9. Răspuns. Locq3=   150,75
4 4
Loc Q 3  Fc  Q 31
nQ 3
Q3= xinfQ3+hQ3
Se calculează frecvenţa absolută cumulată crescător. Prima frecvenţă mai mare ca
valoarea deccât locul quartilei 3 ne indică intervalul quartilic 3.

150,75  135
Q3  90  30  100,75
45

Interpretare: 75% din numărul total al muncitorilor consumă cel mult 100,75 minute
pentru realizarea unei piese.

10. Răspuns. Media = 181,75


Abaterea medie liniara = 2,42 mil lei → pe ansamblul firmelor se realizează o
cifră de afaceri lunară care variază în medie faţă de nivelul mediu, cu 2,42 mil lei, în
sens pozitiv sau negativ.
1. se calculează centrul de interval
2. se calculează media
x
x i * ni
n

102
Elemente de statistica aplicata 2010 Mihaela Sandu

 x  xn
i i
3. se calculează abaterea medie liniară. d x 
n i

(q 2  q1 ) (Q3  M e )  ( M e  Q1 )
11. Răspuns. Casq= (q  q ) = (Q  M )  ( M  Q ) =
2 1 3 e e 1

(147,29  137,86)  (137,86  128,13)


= (147,92  137,86)  (137,86  128,13)
= 0,016

12. Răspuns. Coeficientul de asimetrie Yule se calculează după relaţia:


( q 2  q1 ) 10  20
Casq= (q  q ) = 10  20 = -3
2 1

Q1= Me-Q1=130-150= -20


Q2=Q3-Me= 140-130= 10

Interpretare: Valoarea obţinută, Casq= -3<0 arată că distribuţia considerată este


asimetrică la stânga.

13. Răspuns. Coeficientul de boltire se calculează după relaţia:


m4
40.000
2
β2= m2 = 10.000 =4
m4= 40.000
m22 = (100)2 = 10.000

m4 54059,44 54059,44
2
14. Răspuns. β2= m2 = (162,6) = 26438,76 =
2
2,045 şi arată o distribuţie uşor
platicurtică deoarece
β2 < 3 ( curba este mai turtită decât cea normală).
Dacă β2 = 3 → simetrie simetrică, iar dacă β2 > 3 atunci aveam o distribuţie
leptocurtică deoarece curba era mai ascuţită decât cea normală.

103
Elemente de statistica aplicata 2010 Mihaela Sandu

15. Răspuns. Coeficientul empiric de asimetrie Pearson se determină după relaţia:


x  Mo 130  125
Cas= x
= = 0, 417.
12
Interpretare: Valoarea obţinută, Cas = 0,417 >0, arată că distribuţia considerată este
puternic asimetrică la dreapta.( curbele sunt alungite spre dreapta).

  x  x
2
ni
16. . Răspuns:  2

i

n i

1. Se calculează centrul de interval.


Interval ni xi xini
176-178 20 177 354
178-180 25 179 4475
180-182 40 181 7240
182-184 35 183 6405
184-186 30 185 5550
186-188 10 187 1870

2. Se calculează media.
x
x ni i

177 * 20  179 * 25  181 * 40  183 * 35  185 * 30  187 *10

n i 160
29080
 181,75mil.lei
160
  x  x
2
2 i ni
x 
n i

(177  181,75) 2 * 20  (179  181,75) 2 * 25  (181  181,75) 2 * 40  (183  181,75) 2 * 35 


 (185  181,75) 2 * 30  (187  181,75) 2 *10

160
1310
=  8,18
160

17. Răspuns:  2  2,5 (coeficientul de boltire)


 2  2  3
 2  2,5  3  0,5
Interpretare: Pentru  2  0,5 < 0, distribuţia considerată este platicurtică.

104
Elemente de statistica aplicata 2010 Mihaela Sandu

V. CERCETAREA STATISTICĂ PRIN SONDAJ


(METODĂ DE BAZĂ ÎN STUDIUL
FENOMENELOR SOCIALE ŞI ECONOMICE)
________________________________________________

Pentru caracterizarea statistică a fenomenelor şi proceselor social-


economice de masă, cu scopul evidenţierii legităţilor specifice acestora se folosesc
date individuale obţinute prin metode de înregistrare totală sau parţială.

În condiţiile economico-socialesocio-economice actuale, din nevoia de


informaţii rapide, complexe, metoda principală de obţinere a informaţiilor statistice
este aceea a sondajului statistic.
Procesul cuprinde două etape:
- etapa descriptivă – în care se culeg date şi se calculează indicatorii ce
caracterizează subcolectivitatea analizată;
- etapa inferenţială – în care rezultatele obţinute pentru această
subcolectivitate, se extind, în termeni probabilistici, la colectivitatea
generală.
Avantajele cercetării prin sondaj:
- reducerea costurilor materiale şi de muncă;
- erorile de înregistrare sunt mai puţin numeroase şi mai uşor de înlăturat
în faza de verificare a datelor;
- programul observărilor prin sondaj cuprinde un număr mai mare de
caracteristici decât programul observării totale, ceea ce permite
caracterizarea mai aprofundată a fenomenelor studiate prin metode
statistice;

105
Elemente de statistica aplicata 2010 Mihaela Sandu

- sondajul poate fi utilizat cu bune rezultate la verificarea programului


unei observări totale, cât şi la verificarea unor ipoteze statistice

Definiţie: Selecţia statistică reprezintă operaţia de extragere a unei părţi


dintr-o colectivitate statistică, a unei subcolectivităţi numită şi
eşantion, mostră, colectivitate parţială sau colectivitate de
selecţie.

Volumul eşantionului este întotdeauna mai mic decât cel al colectivităţii


generale.
Notăm: volumul colectivităţii generale cu N şi volumul colectivităţii de
selecţie cu n, atunci 1  n  N  1 .
În cazul în care datele au fost sistematizate în r grupe, după variaţia unei
caracteristici de grupare, avem:
r r
N   Ni n   ni
i 1 i 1

Atunci când toate elementele unei colectivităţi sunt măsurate, orice


indicator statistic ce caracterizează repartiţia statistică se numeşte parametru. Pentru
datele provenite dintr-un eşantion, indicatorul statistic calculat se numeşte estimator.
Indicatorii tendinţei centrale şi cei ai variaţiei vor avea notaţii diferite,
după cum ei sunt obţinuţi dintr-o cercetare statistică totală sau parţială. Astfel, media
aritmetică va fi notată cu μ în cazul unei colectivităţi totale şi cu x în cazul în care
este un indicator obţinut printr-o cercetare statistică prin sondaj.

106
Elemente de statistica aplicata 2010 Mihaela Sandu

Parametrul colectivităţii generale se calculează astfel:


r
N

x
x N i i
i
sau  i 1
unde i  1, r
 i 1 r
N N
i 1
i

Estimatorul parametrului obţinut pentru eşantion:


r
n

x
x n i i
i
sau x i 1
x i 1 r
n n i 1
i

Dispersia se va nota cu σ2 dacă este parametru obţinut în colectivitatea


generală şi cu s2 dacă este estimatorul parametrului, obţinut pe un eşantion.
r
N
 (x  )2  Ni
 (x
i
 ) 2
i
sau 2  i 1

 
2 i 1 r
N N i 1
i

Dispersia eşantionului:
r
n

 ( xi  x) 2
 ( x  x) i
2
 ni
sau s  2 i 1
s2  i 1 r
n 1 n 1
i 1
i

Observaţie:
Rezolvarea problemelor cuprinse în planul de sondaj are drept scop asigurarea
reprezentativităţii eşantionului, de aceasta depinzând în totalitate valoarea rezultatelor obţinute în
urma cercetării.

107
Elemente de statistica aplicata 2010 Mihaela Sandu

V.1. PROCEDEE DE EŞANTIONARE

Metoda selecţiei aleatoare stă la baza oricărei eşantionări, în vederea


obţinerii unei inferenţe statistice. Procedeele de eşantionare se aplică pentru a reduce
erorile de selecţie.
În selecţia aleatoare se disting următoarele tipuri de sondaj:
- sondaj simplu aleator;
- sondaj tipic (stratificat);
- sondaj pe serii (cuiburi);
- sondaj pe mai multe trepte;
- sondaj secvenţial.
Sondajele pot fi repetate sau nerepetate, după cum există posibilitatea
revenirii unei aceleiaşi unităţi în cadrul aceluiaşi eşantion, astfel, în eşantionul
repetat, sau, cu revenire, fiecare unitate statistică extrasă din colectivitatea generală
este reintrodusă în baza de sondaj după ce a fost citită şi caracteristicile au fost
înregistrate. În varianta sondajului nerepetat (fără revenire) unităţile sunt extrase din
colectivitatea generală, iar după înregistrarea lor ele nu mai sunt reintroduse în
colectivitatea de bază; selecţia se face după modelul urnei din care se fac extrageri
succesive, fără a pune înapoi bila extrasă, iar o unitate nu poate să apară decât o
singură dată.
Extragerea întâmplătoare a unităţilor şi alcătuirea eşantioanelor aleatoare
se poate realiza prin:
- procedeul urnei cu bile (procedeul loteriei);
- procedeul tabelului cu numere întâmplătoare;
- procedeul mecanic.

108
Elemente de statistica aplicata 2010 Mihaela Sandu

Procedeul urnei cu bile (eşantionarea simplu aleatoare) poate fi realizat în


varianta cu revenire sau în varianta fără revenire. Colectivitatea generală este
numerotată de la 1 la N. Numerele sunt notate pe bile (cartonaşe) şi sunt amestecate
atent. În varianta cu revenire bila (cartonaşul) este reintrodusă în urnă, se repetă
amestecarea, extragerea se repetă până la obţinerea eşantionului de volum n.
Probabilitatea ca o unitate să fie extrasă este 1/N, iar după ultima extragere din urnă
rămân (N-1) bile. Numărul eşantioanelor distincte de volum n ce pot fi extrase în
sondajul cu revenire este Nn. În varianta fără revenire, după extragerea primei bile în
urnă rămân (N-1) bile, după a doua extragere (N-2) bile, astfel încât, după ultima
extragere, în urnă rămân (N-n) bile, unde n este volumul eşantionului. Probabilitatea
unei bile de a fi aleasă în eşantion creşte, astfel la extragerea cu numărul i, 1  i  n ,
1
probabilitatea unei unităţi de a fi selectată este N  (i  1) . Numărul de eşantioane
distincte, de volum n, ce pot fi extrase este C Nn .

Procedeul tabelului cu numere întâmplătoare constă în prelevarea din


cadrul populaţiei a unităţilor ale căror numere de ordine stabilite printr-o
numărătoare prealabilă au fost citite după un anumit criteriu din „tabelul numerelor
aleatoare”. Tabelul este o listă de numere în care fiecare cifră, de la 0 la 9, apare cu o
probabilitate de 1/10 independent una de alta.
Elementul colectivităţii generale se numerotează de la 1 la N, astfel încât
să nu rămână nici un element nenumerotat şi să nu se repete acelaşi număr. Se
selectează apoi un loc de unde începe citirea numerelor din tabelul cu numere
întâmplătoare. Se organizează numerele citite în grupuri de cifre a căror mărime este
numărul de cifre conţinut de numărul N. Numerele astfel formate identifică unităţile
statistice care sunt selectate în eşantion dacă sunt cuprinse între 1 şi N. Dacă un
număr este zero sau mai mare de N, el este eliminat, deoarece nu există o unitate
corespunzătoare în colectivitatea generală care să fie selectată. Citirea continuă până
când se selectează n unităţi statistice.

109
Elemente de statistica aplicata 2010 Mihaela Sandu

Exemplu:
Să alegem un eşantion aleator de n = 7 unităţi dintr-o colectivitate de 38 unităţi,
începând cu rândul 10, coloana 2 din tabelul cu numere aleatoare. Numerele citite din tabel vor fi:
7730, 8330, 5928, 7333, 4707, 6007, 4538,
8210, 7319, 4119, 7062, 4346, 0613, 2238.
Cum N = 38 are două cifre, se rearanjează secvenţa citită în grupuri de câte două cifre astfel:
77, 30, 83, 30, 59, 28, 73, 33, 47, 7, 60, 7, 45, 38,
82, 10, 73, 19, 41, 19, 70, 62, 43, 46, 6, 13, 22, 38.
Se elimină numerele mai mari de 38:
30, 30, 28, 33, 7, 7, 38, 38, 10, 19, 19, 6, 13, 22.
Dacă selecţia este fără revenire se elimină numerele care reapar în listă:
30, 7, 38, 19.

V.1.1. Sondajul aleator simplu repetat

Pe baza valorilor observate x1, x2, ... ,xn în eşantionul aleator simplu de volum
n, extras dintr-o colectivitate generală de volum N, media de sondaj:
n

x1  x2  ...  xn x i
x  i 1
n n

şi este un estimator nedeplasat al mediei μ din colectivitatea generală.

Dispersia mediilor de selecţie este de n ori mai mică decât dispersia


colectivităţii generale şi se estimează pe baza dispersiei eşantionului

s2
s x2 
n

110
Elemente de statistica aplicata 2010 Mihaela Sandu

Eroarea medie de reprezentativitate (abaterea medie pătratică a mediei de


sondaj) se determină pe baza datelor din eşantion ca

s2 s
sx  
n n

Deoarece am extras un eşantion de volum n dintr-o colectivitate generală de


N unităţi putem constitui un interval de încredere, cu o probabilitate de 100·(1-α) la
sută de garantare a rezultatelor, pentru parametrul media colectivităţii generale (μ).

Observaţie: Un eşantion se consideră de volum normal sau mare dacă n>30 unităţi
statistice.

Pentru a construi acest interval de încredere, determinăm eroarea limită


maximă admisibilă ştiind că media de sondaj x este variabilă aleatoare normal
distribuită de medie, μ rezultă variabila normală normată corespunzătoare este

x
z .
sx

Pentru probabilitatea cu care se garantează rezultatele 100·(1-α)%, eroarea


limită (maximă) admisibilă este:
s
 x  z  / 2  s x  z / 2 
n

adică în 100·(1-α)% din cazuri, media de sondaj x se abate de la media colectivităţii


generale μ cu mai puţin sau cel mult z α / 2 ori eroarea medie de reprezentativitate sx

Intervalul de încredere calculat pe baza erorii limită admisibilă este:


s
x  z / 2 , şi va conţine valoarea adevărată a mediei din colectivitatea generală μ în
n

100·(1-α)%.

111
Elemente de statistica aplicata 2010 Mihaela Sandu

Observaţie: Cea mai folosită probabilitate de garantare a rezultatelor este de 95%


pentru care z 0,025 = 1,96, adică P (-1,96 < z < 1.96) = 0,95

Exemplu: Să se determine intervalul de încredere, garantat cu o probabilitate de


95% pentru media şi nivelul total al unei caracteristici numerice X, dacă eşantionul
selectat aleator repetat este de 36 de unităţi (adică, 5% din colectivitatea generală),
de medie 800 şi abatere medie pătratică 60.

Cum n = 36 > 36 (eşantion de volum normal sau mare) intervalul de


încredere pentru media în colectivitatea generală este dat de x  z / 2  x ,

n = 36, x = 800,

s = 60,

1 – α = 0,95

z0,025 = 1,96

s2 s 60
eroarea medie de reprezentativitate este : sx     10
n n 6

eroarea limită maximă admisibilă:  x  z / 2  s x  1,96  10  19,6

Intervalul de încredere pentru parametrul colectivităţii generale este dat de:

x  x    x  x
800  19,6    800  19,6
780,4    819,6
36  100
N   36  20  720
5

N (x  x )  x  N (x   )
i
pentru nivelul total al caracteristicii studiate: x

720  780,4   x  720  819,6


i

112
Elemente de statistica aplicata 2010 Mihaela Sandu

Aceste intervale sunt garantate cu o probabilitate de 95% ceea ce înseamnă


că există un risc de 5% ca media din colectivitatea generală să aibă o valoare mai
mică de 780,4 sau mai mare de 819,6, iar nivelul total al variabilei să nu se încadreze
în intervalul (561888, 590112).

V.1.1.1. Determinarea volumului eşantionului

Pornind de la eroarea limită maximă admisibilă, cu un nivel de încredere (1 -


α), adică o probabilitate de garantare a rezultatelor 100 (1 – α)%, volumul necesar al
eşantionului se determină rezolvând ecuaţia:
 2
D x  z 2 ridicăm la pătrat D x2  z22
n n

Soluţia poate fi scrisă ca:

n
z 
2
2
 2
D x2

Exemplu: Să se determine volumul eşantionului necesar pentru a estima media unei


colectivităţi μ cu o eroare limită de 0,2 şi o probabilitate de garantare a rezultatelor
de 95%, ştiind dintr-o cercetare anterioară că dispersia Δ2 este aproximativ egală cu
6,1 unităţi statistice.
D x  0,2
Z  2  Z 0, 025  1,96
2  6,1

n
1,96 2  6,1  585,84  586
 0,2  2

113
Elemente de statistica aplicata 2010 Mihaela Sandu

V.1.2. Sondajul aleatoriu simplu nerepetat

1
Dacă N este volumul colectivităţii generale, atunci P(x 1=x1)= N ,

1
P( x2  x2 / x1  x1 )  , cu alte cuvinte, probabilitatea evenimentului x2=x2 se
N 1

schimbă după cum evenimentul x1=x1 a avut sau nu loc.

2 N n s2 N  n
Dispersia mediei de selecţie este  x2   şi estimată prin s x2   .
n N n N

Abaterea medie pătratică a mediei de selecţie (eroarea mediei de

 N n s N n N n
reprezentativitate) este x  şi estimată prin sx  ; se
n N n N N

n
numeşte coeficient de corelaţie finită în populaţie iar raportul N
reprezintă fracţia

de sondaj.

n N n
Observaţie: Pentru  0,2 în calcule nu se ia în considerare.
N N

Eroarea limită maximă admisibilă în cazul sondajului fără revenire este:

 s N n 
 x  z / 2  s x  z / 2  .
 n N 

Intervalul de încredere pentru media μ din colectivitatea generală


corespunzător probabilităţii 100·(1-α)% de garantare a rezultatelor este:
x  x    x  x .

Exemplu: Un eşantion aleator de 80 de observaţii a fost selectat nerepetat dintr-o


populaţie normal distribuită de volum N = 800 de unităţi. În urma calculelor x =14,1

114
Elemente de statistica aplicata 2010 Mihaela Sandu

şi abaterea medie pătratică s = 2,6. Să se determine intervalul de încredere, garantat


cu o probabilitate de 95% pentru media colectivităţii generale μ.
n 80
  0,1
N 800

s n 2,6
sx  1  0,9  0,276
n N 80

 x  z / 2  s x  z0, 025  s x  1,96  0,276  0,54

x  x    x  x

14,1  0,54    14,1  0,54  13,56    14,64

  x  
N
N x  x  i  N x  x
i 1

N N
800  13,56   xi  800  14,64  10848 
i 1
x
i 1
i  11712

V.1.2.1. Determinarea volumului eşantionului

În cazul sondajului aleatoriu simplu nerepetat, pentru determinarea volumului


eşantionului (n) pornim de la formula erorii limită maximă admisibilă.
 N n
Dx  Z 2
n N

ridicăm la pătrat
2 N  n
D x2  Z 22 
n N

nND x2  Z 22 2 N  Z 22 2 n

 
n NDx2  Z 22 2  Z 22 2 N

115
Elemente de statistica aplicata 2010 Mihaela Sandu

Z 22 2 N
n
NDx2  Z 22 2

Exemplu. Un eşantion aleatoriu a fost selectat nerepetat dintr-o populaţie normal


distribuită de volum N = 800 unităţi. În urma calculelor a rezultat eroarea limită de
0,3 şi abaterea medie pătratică s = 2,6. Să se determine volumul eşantionului,
garantat cu o probabilitate de 95%.

n
1,96 2   2,6 2  800  216,4  216 unităţi statistice
800   0,3  1,96   2,6
2 2 2

1
x st 
N

h
1
x st 
N
Ni 1
i xi

Dispersia mediei x st
h
N i2  i2
 x2st   
i 1 N 2 n1

Obţinem estimatorul dispersiei mediei de selecţie

h
N i2 si2
  
x st2
i 1 N2 n

şi eroarea medie de reprezentativitate (abaterea medie pătratică)


h
N i2 si2
 x st  
i 1 N
2

n

Dacă fracţia de sondaj este uniformă pentru toate straturile (selecţie stratificată

n n
proporţională) atunci N  N şi expresia erorii medii de reprezentativitate devine:
i

116
Elemente de statistica aplicata 2010 Mihaela Sandu

2
1 h ni  si2 si
s x st  
n i 1 n

n

h
ni  si2

i 1 n
reprezintă media dispersiilor de grupă din eşantion

Eroarea limită maximă admisibilă


 x  Z 2 sx
st st

2
si
s x st 
n

Intervalul de încredere pentru media colectivităţii generale este dat de:


x st   x    x st   x
st st

Determinarea volumului eşantionului se va efectua pornind de la formula


erorii limită maximă admisibilă.

117
Elemente de statistica aplicata 2010 Mihaela Sandu

V.2. Alegeţi răspunsul corect

1. Într-o cercetare prin sondaj, valoarea medie la nivelul unei populaţii


reprezintă:
a. un parametru;
b. o valoare tipică de sondaj;
c. un estimator;
d. o estimaţie.

2. Formarea eşantionului în cazul unui sondaj aleatoriu simplu presupune ca:


a. fiecărui individ din populaţie să i se asocieze o probabilitate egală sau
inegală, de a intra în eşantion;
b. eşantionul să se formeze prin extragerea unui număr de grupe;
c. eşantionul să se formeze prin extragerea aleatoare a unităţilor la nivelul
fiecărei grupe.

3. În cazul sondajului stratificat (tipic) simplu, eşantionul se formează


extrăgând din fiecare grupă omogenă a colectivităţii generale:
a. acelaşi număr de unităţi, indiferent de ponderea fiecărei grupe în
colectivitate;
b. un număr de unităţi proporţional cu ponderea grupelor în colectivitatea
generală;
c. un număr de unităţi proporţional cu ponderea grupelor în colectivitatea
generală şi gradul de dispersie din grupe.

4. Erorile de reprezentativitate reprezintă diferenţe între:


a. valoarea estimată şi valoarea adevărată a unui parametru;
b. valorile reale şi valorile înregistrate;
c. populaţia reală şi eşantionul observat.

5. Selecţia statistică reprezintă:


a. extragerea unei colectivităţi dintr-un eşantion;
b. Extragerea unei părţi dintr-o colectivitate generală;

118
Elemente de statistica aplicata 2010 Mihaela Sandu

c. compararea datelor a două colectivităţi.


6. Volumul unui eşantion trebuie să fie:
a. întotdeauna mai mic decât colectivitatea generală;
b. Întotdeauna mai mare decât colectivitatea generală;
c. egal cu colectivitatea generală.

119
Elemente de statistica aplicata 2010 Mihaela Sandu

V.3. Probleme

1. Cunoaştem următoarele date la nivelul unei populaţii:


N = 200 persoane,  2  100 .
Admitem o precizie  x  2 şi un risc   0,05 , pentru care z = 1,96.
Se cere să se calculeze volumul eşantionului corepunzător unui sondaj
aleator simplu repetat, interpretaţi rezultatul.

2. Dispunem de următoarele date la nivelul unei populaţii:


N = 400 persoane,  2  100 .
Admitem o precizie  x  2 şi u risc   0,05 , pentru care z = 1,96.
Se cere să se calculeze volumul eşantionului corespunzător unui sondaj
aleator simplu nerepetat. Interpretaţi rezultatul.

3. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eşantion de volum
n= 100, extras dintr-o populaţie de volum N = 1000, s-au obţinut x = 40 ani, s= 22
ani. (s= dispersia eşantionului).
Pentr un   0,05 (nivel de semnificaţie), valoare erorii medii de selecţie este:
a) 2,2
b) 2,0856
c) 4,312

4. Se extrage un eşantion aleatoriu simplu repetat de volum n= 900 persoane, s-au


obţinut următoarele rezultate:
x = 5 milionane lei.
s = 3 milioane lei.
Considerând un risc de 5 %, să se afle limitele intervalului de încredere
pentru media populaţiei din care s-a extras eşantionul:
a)(4,732; 5,653)
b) (4,653; 5,789)
c)(4,904; 5196)

120
Elemente de statistica aplicata 2010 Mihaela Sandu

5. Pentru un sondaj aleator simplu repetat, realizat asupra unui eşantion de volum
n= 100, valoarea mediei eşantionului şi valoarea abaterii medii pătratice (s) sunt:
x = 30 ani
s = 3 ani
Pentru un  = 0,05, valoarea erorii limită de selecţie este:
a) 0,3
b) 0,588
c) 30

6. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eşantion de volum
n=25, extras dintr-o populaţie de volum N=1000, s-au obţinut:
x = 40 ani; s=22 ani;
Pentru un  =0,05, valoarea erorii medii de selecţie este:
a. 2,2
b. 2,0856;
c. 4,312

121
Elemente de statistica aplicata 2010 Mihaela Sandu

V.4. Răspunsuri corecte

V.2. Răspunsuri corecte.

1. a. un parametru;

2 a. fiecărui individ din populaţie să i se asocieze o probabilitate egală sau


inegală, de a intra în eşantion;

3. a. acelaşi număr de unităţi, indiferent de ponderea fiecărei grupe în colectivitate;

4. a. valoarea estimată şi valoarea adevărată a unui parametru;

5. b. Extragerea unei părţi dintr-o colectivitate generală;

6. a. Intotdeauna mai mic decât colectivitatea generală;

V.3. Răspunsuri corecte.

1. Răspuns. Volumul eşantionului corespunzător unui sondaj aleator simplu repetat


se calculează după relaţia:
2
z  2
n 2 2
x
1,96 2 * 21
n=  20,17 persoane
22

Interpretare: numărul persoanelor care ar trebui extrase aleatoriu simplu repetat din
populaţia de volum N 0 200 este de 20,17  20 persoane.

122
Elemente de statistica aplicata 2010 Mihaela Sandu

2. Răspuns. Volumul eşntionului corespunzător unui sondaj aleator simplu nerepetat,


se calculează după relaţia:
2
z s 2 N
n 2
2

N x  z  s 2
2

1,96 2 * 100 * 400 384 * 400 153600


   77,45 persoane.
n= 400 * 2 2
 1,96 2
* 100 400 * 4  386 1984

Interpretare: numărul persoanelor care ar trebui extrase aleatoriu simplu şi


nerepetat din populaţia de volum N =400 este de 77,45  77 persoane.

3. Răspuns. b) Eroarea medie de selecţie (reprezentativitate) se calculează după


formula:
s N n
sx 
n N
22 1000  100
sx   2,0856
100 1000

4. Răspuns: c) Considerând un risc de 5%, limitele intervalului de încredere


pentru media populaţiei din care s-a extras eşantionul sunt:

 s   3 
 x  z    5  1,96    4,804;5,196
 2 n  900 

5. Răspuns: b) Pentru un sondaj aleator simplu repetat, valoarea erorii limită de


selecţie , pentru un nivel de semnificaţie   0,05 este:
 x  z s x
2
s 3
 x  z  1,96  0,588
2 n 100

s N n 22 1000  100
6. Răspuns b)  = n N

1000
 2,0856
100

123
Elemente de statistica aplicata 2010 Mihaela Sandu

VI. TESTAREA IPOTEZELOR STATISTICE


____________________________________________________________________________________________________________

VI. 1. DEMERSUL TESTĂRII UNEI IPOTEZE STATISTICE.

Demersul testarii unei ipoteze presupune parcurgerea unor etape şi


rezolvarea problemelor pe care le implică, şi anume18:
Se formulează ipotezele, în funcţie de problema pusă;
Se alege un test statistic în funcţie de distribuţia de selecţie a statisticii
considerate;
Se alege un prag de semnificaţie  pentru test;
Se stabilesc regulile de decizie, definind regiunile de „acceptare” şi de
„respingere” a ipotezei H0;
Se calculează valoarea statisticii test, folosind datele înregistrate prin sondaj;
Se compară valoarea calculată a statisticii test cu valoarea teoretică;
Se ia decizia de a nu respinge sau de a respinge ipoteza admisă.

În urma extragerii unui eşantion dintr-o populaţie statistică prin prelucrarea


datelor provenite din sondaj se obţine un estimator al parametrului urmărit în
populaţia de origine. Problema care se pune este în ce măsură parametrul estimat pe
baza rezultatelor sondajului asigură „credibilitatea” aprecierilor făcute asupra
întregii colectivităţi.

18
Jaba, Elisabeta, 2002 – Statistica, Ediţia a treia, Ed. Economică, Bucureşti, p. 331-336

124
Elemente de statistica aplicata 2010 Mihaela Sandu

Estimatorul este, o „presupunere” a parametrului, adică, o ipoteză statistică.

Definiţie: Se numeşte ipoteză statistică ipoteza care se face cu privire la


parametrul unei repartiţii sau la legea de repartiţie pe care pe care o urmează
variabilele aleatoare.

Ipoteze statistice:
o Ipoteza nulă;
o Ipoteza alternativă.
În toate domeniile ştiinţelor aplicate este necesar să se recurgă la
experimentarea unor noi metode, tehnologii, produse, făcându-se presupuneri asupra
superiorităţii lor faţă de procedeele curent folosite în vederea luării unei anumite
decizii. Totodată este necesar să verificăm dacă în timp s-au produs modificări în
ceea ce priveşte parametrii populaţiei sau există diferenţe semnificative între diferite
grupuri ale aceleiaşi populaţii. Toate aceste presupuneri constituie nişte ipoteze a
căror valabilitate trebuie verificată şi deoarece această verificare se face statistic
(operându-se cu date obţinute în urma unei selecţii statistice dintr-o populaţie) ele se
denumesc ipoteze statistice.
Verificarea concordanţei rezultatelor experienţei cu una dintre ipoteze se face
pe baza unui criteriu statistic furnizat de un ansamblu de reguli de prelucrare a
datelor numit test statistic. Cu ajutorul lui se ajunge la decizia de a respinge o
ipoteză şi a accepta alta. Luarea unei decizii cu privire la o ipoteză statistică se
numeşte testarea ipotezei.
O ipoteză se numeşte simplă dacă ea determină în mod univoc repartiţia
specificată a variabilei aleatoare şi compusă dacă este formată dintr-un număr finit
de ipoteze simple.

125
Elemente de statistica aplicata 2010 Mihaela Sandu

Testele statistice furnizează criterii pe baza cărora se acceptă sau se respinge o


ipoteză cu privire la o populaţie statistică pe baza observaţiilor făcute într-un
eşantion aleator extras din ea.
Alegerea testului nu depinde de eşantion, de aceea procedeul de testare a
ipotezei şi ipoteza se pot specifica înainte de selecţie.
Trebuie subliniat faptul că printr-un test statistic nu se stabileşte adevărul ci
doar dacă rezultatele selecţiei sprijină ipoteza formulată şi cu ce probabilitate.

VI.2. CONCEPTE ŞI ERORI ÎN TESTAREA


IPOTEZELOR STATISTICE

În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza


alternativă.

Ipoteza statistică ce urmează a fi testată se numeşte ipoteza nulă şi se notează


H0.

Ea constă întotdeauna în admiterea caracterului întâmplător al deosebirilor,


adică în presupunerea că nu există deosebiri esenţiale.

Respingerea ipotezei nule implică acceptarea unei alte ipoteze numită


alternativă, notată cu H1.

Definiţie: Procedeul de verificare a unei ipoteze statistice se numeşte test sau


criteriu de semnificaţie.

Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras


din populaţia X. Dacă punctul definit de vectorul de sondaj x 1, x2, ... , xn cade în

126
Elemente de statistica aplicata 2010 Mihaela Sandu

regiunea critică Rc, ipoteza H0 se respinge, iar dacă cade în afara regiunii critice Rc,
ipoteza H0 se acceptă
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată se
numeşte eroare de genul întâi.

Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α)
şi se numeşte nivel sau prag de semnificaţie.

Nivelul de încredere al unui test statistic este (1- α), iar (1- α)·100 reprezintă
probabilitatea de garantare a rezultatelor.

Eroarea pe care o facem acceptând o ipoteză nulă, deşi este falsă se


numeşte eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de
erori se notează cu β. Puterea testului statistic este (1- β).

Erorile de tip I pot fi micşorate de cercetător fixând nivelul de semnificaţie α


cât mai mic. Erorile de tip II pot fi micşorate prin creşterea volumului eşantionului.
Dacă variaţia selecţiei este mai mică se reduc ambele erori.
“Deoarece evitarea unui tip de eroare sporeşte şansa celeilalte devine important de
ştiut care tip de eroare trebuie mai atent evitat.”

VI.3. TESTE DE CONCORDANŢĂ

Acest subcapitol se referă la concordanţa, potrivirea dintre valorile calculate


în eşantion şi valorile parametrilor din colectivitatea generală.

Testele de concordanţă se mai numesc teste de ajustare, care exprimă


potrivirea unei distribuţii empirice la o distribuţie aşteptată sau teoretică.

127
Elemente de statistica aplicata 2010 Mihaela Sandu

Fie populaţia de interes, notată cu P1. pentru orice eşantion se poate considera
o populaţie de bază, P2, din care eşantionul va fi extras.

Problema este dacă se poate considera că P2 concordă cu P1. ipoteza nulă va


afirma că P1 şi P2 concordă. Respingerea ipotezei nule va avea în practică două
consecinţe:

 se va considera că eşantionul nu este reprezentativ pentru populaţia de


interes, populaţie considerată stabilă şi se va extrage un alt eşantion
 se va considera că populaţia P1 s-a schimbat, noua populaţie de referinţă
este P2.

VI.3.1. Eroarea standard estimată a mediei

În testul erorii standard al mediei, se presupune că sunt îndeplinite condiţiile


care asigură mediei de sondaj o repartiţie normală (eşantion n  30) sau aproape
normală. De aceea variabila aleatoare z urmează o distribuţie normală standard (z
este variabila normală normată).
Eroarea standard:
Este un indice pentru variabilitatea mediilor în cazul mai multor eşantioane
extrase din populaţie; ea este media măsurii cu care media eşantioanelor
diferă faţă de media populaţiei din care au fost extrase;
Este folosită în cea mai mare parte ca un pas intermediar în alte tehnici
statistice (cum ar fi testul „t”);
La fel ca şi abaterea standard şi variaţia poate fi folosită ca un indice pentru
variabilitatea scorurilor unei variabile;

128
Elemente de statistica aplicata 2010 Mihaela Sandu

VI. 3.2. Compararea a două eşantioane de scoruri


corelate/relaţionate. (Testul „t”)

Testul este publicat în 1908 de W.S. Gosset sub pseudonimul Student.


Principala diferenţă între distribuţiile de eşantionare ale statisticilor z şi t este
aceea că distribuţia t are o cantitate de variabilitate mai mare decât z.

Testul „t”:
Este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri; ele ajută la elucidarea întrebărilor comune ale
cercetătorilor dacă valoarea medie pentru un set de scoruri diferă de valoarea medie
pentru alt set de scoruri;
Deoarece, în cercetare, în mod invariabil, se lucrează cu eşantioane de
oameni extrase din populaţia latentă, trebie să estimăm dacă orice diferenţă pe care o
obţinem între cele două seturi de valori este semnificativă statistic.
Există două variante ale testului „t”:
1. Pentru eşantioane perechi
- folosit când cele două seturi de scoruri ce trebuie comparate provin dintr-
un singur eşantion;
- când coeficientul de corelaţie între cele două seturi este mare.
Uneori ne lovim de situaţii în care eşantioanele din care provin mediile ce
trebuie comparate sunt dependente (procedeul de selecţie al unui eşantion este legat
de procedeul de selecţie al celuilalt).
Când elementele celor două eşantioane sunt asociate într-un anumit mod
două câte două (de exemplu: rezultatele înregistrate înainte şi după acţiunea unui
factor experimental), procedeul cel mai simplu constă în a raţiona asupra
diferenţelorpe care le prezintă fiecare pereche de date asociate, corelate.

129
Elemente de statistica aplicata 2010 Mihaela Sandu

2. Pentru eşantioane independente


- se foloseşte când cele două seturi de valori provin din grupuri diferite de
participanţi, pentru a calcula dacă mediile acestora sunt diferite semnificativ una faţă
de cealaltă.
În cazul eşantioanelor independente, probele de semnificaţie diferă în funcţie
de două situaţii:
 Când numărul de măsurători (N) în fiecare eşantion este destul de mate (mai
mare ca 30);
 Când numărul de măsurători sau volumul eşantionului este mai mic deâct 30.

VI.3.3. Testul Chi-square


(Diferenţe între frecvenţele eşantioanelor)

În general, testul chi-square este folosit pentru evaluarea existenţei unei


diferenţe semnificative între două sau mai multe eşantioane care sunt formate din
date de frecvenţă (date nominale). Altfel spus, este testul statistic uzual care
analizează tabelele de asociere sau contingenţă pe baza a două variabile categoriale
nominale.
De asemenea, poate fi folosit şi pentru testarea faptului că un singur eşantion
este semnificativ diferit faţă de o populaţie cunoscută.
Observaţie: Această aplicaţie este cea mai puţin comună, deoarece
caracteristicile unei populaţii snt rareori cunoscute în cercetare.
Observaţie: Trebuie avut în vedere faptul că o analiză chi-square trebuie să
includă datele fiecărui individ o singură dată. Frecvenţele totale trebuie să fie egale
cu numărul de persoane folosite în analiză.

130
Elemente de statistica aplicata 2010 Mihaela Sandu

VI.3.4. Testul Z pentru eşantioane independente, dispersii cunoscute

Când am discutat de abaterea standard, am văzut că aceasta reprezintă um


mijloc de raportare a modului în care rezultatele se „împrăştie” în jurul ei. De
asemenea, am spus că, dacă cunoaştem media şi abaterea standard, putem foarte uşor
să precizăm probabilitatea ca un scor pară se situeze într-o anumită poziţie. Pentru
disciplinele socio-umane, acest lucru este vital, deoarece atunci când măsurăm,
practic precizăm poziţia pe care o are un subiect în raport cu o populaţie de referinţă.
Este ideal ca această poziţie să poată fi prezentată într-o manieră
standardizată. Acest lucru poate fi uşor de îndeplinit dacă avem în vedere conceptual
de note standardizate.
La baza acestui concept stau notele „z”. Notele „z” reprezintă diferenţa
dintre scorul observat şi medie, în termeni de abatere standard, cu alte cuvinte,
notele „z” nu sunt altceva decât distanţele la care se situează scorurile particulare în
raport cu media grupului iar această distanţă este exprimată standardizat.

Teoretic, notele „z” sunt note


obţinute pe o „curbă” cu media 0 şi
abaterea standard 1. În acest caz, o
distribuţie normală are practic notele
„z” cuprinse între -3 şi +3, între
aceste note regăsindu-se peste 99%
din populaţie, după cum observaţi în
figura de alături.22

Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
22

Editura ASCR, Cluj-Napoca, p. 164

131
Elemente de statistica aplicata 2010 Mihaela Sandu

Multe cazuri de analiză statistică implică o comparaţie între mediile a două


colectivităţi generale.

Exemplu: Un patron al unui restaurant doreşte să vadă dacă există diferenţe


între vânzările realizate înainte şi după o campanie de publicitate;

Exemplu: Un grup de consumatori doreşte să vadă dacă există o diferenţă


semnificativă între consumul electric pentru două tipuri de cuptoare cu microunde.

Notele „z” au şi ele o serie de proprietăţi cu aplicabilitate practică de-osebită,


dintre care:

• Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci când scădem o constantă din
fiecare scor particular. Deoarece din formulă rezultă această diferenţă (se scade
fiecare scor particular din medie), în final media va ajunge la valoarea zero;

• Abaterea standard a unei distribuţii „z” este întotdeauna 1. Şi această


afirmaţie rezultă din proprietăţile abaterii standard. Ştim că dacă împărţim abaterea
standard la o constantă, valoarea acesteia se divide corespunzător. Din formulă,
observăm că acea constantă la care împărţim este chiar abaterea standard iar
împărţirea a două numere egale are ca rezultat 1.

Notele „z” sunt note direct calculabile, utilizându-se media şi abaterea


standard şi reprezintă „temelia” oricărui proces de standardizare.

132
Introducere în SPSS 2010 Mihaela Sandu

VI.4. Alegeţi răspunsul corect

1. Un estimator statistic reprezintă:


a. o funcţie de variabile aleatoare de selecţie, independente şi identic
distribuite;
b. o valoarea tipică de sondaj;
c. o estimaţie a parametrului populaţiei.

2. Valoarea medie calculată la nivelul unei populaţii reprezintă:


a. un parametru;
b. o valoare tipică de sondaj;
c. un estimator;
d. o estimaţie.

3. Eroarea limită este folosită la stabilirea:


a. preciziei unei estimaţii;
b. unei variabile independente;
c. intervalului de variaţie a mediei de selecţie faţă de media generală.

4. Într-un proces de testare a ipotezelor statistice, eroarea de genul întâi


este:
a) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;
b) eroarea pe acre o facem acceptând ipoteza nulă atunci când ea este falsă;
c) eroarea pe care o facem acceptând ipoteza alternativă când ea este adevărată;
d) eroarea pe care o facem eliminând ipoteza nulă atunci când ea este adevărată;
e) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este
adevărată.

5. Într-un proces de testare a ipotezelor statistice, eroarea de genul al doilea


este
a) eroarea pe care o facem acceptând ipoteza nulă când ea este adevărată;
b) eroarea pe care o facem acceptând ipoteza alternativă când ea este falsă;
c) eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;
d) eroarea pe care o facem eliminând ipoteza nulă când ea este adevărată;
e) eroarea pe care o facem eliminând ipoteza alternativă atunci când ea este
falsă.

133
Introducere în SPSS 2010 Mihaela Sandu

6. Mărimea intervalului de încredere al unui parametru creşte o dată cu


scăderea:
a. volumului eşantionului;
b. coeficientului de încredere ;
c. varianţei populaţiei.

7. Testul „t” este folosit pentru:


a. evaluarea semnificaţiei statistice a diferenţei dintre mediile pentru două
seturi de scoruri;
b. evaluarea existenţei unei diferenţe semnificative între două sau mai
multe eşantioane
c. testarea faptului că un singur eşantion este semnificativ diferit faţă de o
populaţie cunoscută.

8. Testul „chi square” este folosit pentru:


a. evaluarea semnificaţiei statistice a diferenţei dintre mediile pentru două
seturi de scoruri;
b. evaluarea existenţei unei diferenţe semnificative între două sau mai
multe eşantioane
c. testarea eşantioanelor independente.

9. Testul „t” se poate folosi pentru:


a. testarea ipotezelor statistice cu privire la parametrii unui model;
b. testarea normalităţii unei distribuţii;
c. testarea inegalităţii a două medii.

10. Testarea mediei unei distribuţii se poate realiza folosind:


a. testul chi.square;
b. testul „t” student;
c. histograma.

11. Pentru testarea egalităţii a două medii se foloseşte:


a. testul „t” student;
b. Testul chi-square;
c. testul fisher.

134
Introducere în SPSS 2010 Mihaela Sandu

VI.5. Răspunsuri corecte

1. a. o funcţie de variabile aleatoare de selecţie, independente şi identic

distribuite;

2. a. un parametru;

3. c. intervalului de variaţie a mediei de selecţie faţă de media generală;

4. d. eroarea pe care o facem eliminând ipoteza nulă atunci când ea este

adevărată;

5. c. eroarea pe care o facem acceptând ipoteza nulă când ea este falsă;


6. a. volumului eşantionului;
7. a. evaluarea semnificaţiei statistice a diferenţei dintre mediile pentru
două seturi de scoruri;
8. b. evaluarea existenţei unei diferenţe semnificative între două sau mai
multe
eşantioane
9. a. testarea ipotezelor statistice cu privire la parametrii unui model;

10. b. testul „t” student;

11. a. testul „t” student;

135
Introducere în SPSS 2010 Mihaela Sandu

VII. ELEMENTE DE ANALIZĂ DISPERSIONALĂ


_________________________________________________________________________________________________________________

Studierea fenomenelor şi proceselor sociale şi economice prin


metode statistice presupune folosirea unor indicatori cu conţinut de valori
sintetice, care să prezinte proprietatea de a fi reprezentative pentru cel mai
mare număr de valori individuale din care s-au calculat.

Statistica dispune de procedee care permit să se verifice în ce măsură


aceste valori calculate, de regulă sub formă de mărimi medii sau ecuaţii de
tendinţă au caracter de valori tipice pentru grupa sau colectivitatea de fenomene
la care se referă.

VII.1. ANALIZA DE VARIANŢĂ (ANOVA)

Analiza de varianţă indică măsura în care câteva (două sau mai multe
grupuri) au medii foarte diferite. Această analiză resupune că fiecare dintre
grupurile de scoruri provine de la indivizi diferiţi. 
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot
examina două sau mai multe eşantioane independente pentru a determina dacă
mediile populaţiilor din care provin ar putea fi egale, putându-se pune astfel în
evidenţă influenţa factorului considerat sau a tratamentului efectuat.

Observaţie: Nu este o condiţie esenţială să avem scoruri egale în fiecare set.

136
Introducere în SPSS 2010 Mihaela Sandu

Grupurile diferite aparţin variabilei independente; valorile numerice


corespund variabilei dependente.
Practic, analiza de varianţă calculează variaţia dintre scoruri şi pe cea
dintre nivelul pe eşantioane.
Dacă două valori estimative sunt foarte diferite, înseamnă că variaţia
datorată variabilei independente este mai mare decât ne-am putea aştepta pe
baza variaţiei dintre scoruri. Dacă această disparitate este suficient de mare,
diferenţa de la nivelul variabilităţii este semnificativă din punct de vedere
statistic. Acest lucru înseamnă că variabila independentă are efect asupra
scorurilor.
Analiza de varianţă poate fi dificil de interpretat atunci când se folosesc
două sau mai mult de două grupuri.
Cu ajutorul acestui tip de varianţă se studiază mărimea şi frecvenţa cu
care valorile reale ale unei caracteristici statistice se abat de la valorile teoretice
calculate, precum şi măsura în care aceste variaţii sunt dependente sau
independente de factorul de grupare.
Exemplu: variaţia salariilor primite de muncitori în funcţie de gradul lor de
calificare (se verifică în ce măsură gradul de variaţie a calificării muncitorilor
determină variaţia salariilor).
Analiza dispersională se aplică în special când datele provin dintr-o
cercetare selectivă, iar din cercetările anterioare se dispune de informaţii cu
privire la gradul şi forma de distribuţie a caracteristicilor în colectivitatea
generală.
Pentru a efectua analiza dispersională trebuie să se înregistreze variaţia
unei caracteristici statistice, condiţionată de unul sau mai mulţi factori de
grupare. În acest sens, caracteristica a cărei variaţie se studiază se consideră ca
variabilă rezultativă şi se notează cu y, iar caracteristicile după care se face

137
Introducere în SPSS 2010 Mihaela Sandu
gruparea datelor se consideră variabile independente sau factoriale şi se notează
x1, x2, ... , xn.

VII.2. REGRESIA ŞI CORELAŢIA SIMPLĂ LINIARĂ.

Metoda regresiei presupune explicarea unei variabile rezultative y pe


baza uneia sau mai multor variabile factoriale, utilizând un model (o funcţie de
regresie).
Într-un astfel de model este folosită noţiunea de cauzalitate adică
schimbările în variabila independentă determină sau cauzează schimbări în
variabila dependentă.
Relaţii exacte între fenomene şi procese social-economice nu pot fi însă
descrise oricât de multe caracteristici factoriale am lua în consideraţie, datorită
fenomenelor aleatoare care nu pot fi modelate sau explicate.
În cazul în care se ia în considerare o singură variabilă cauzală, regresia
se numeşte simplă, iar unul dintre modelele clasice cele mai utilizate pentru a
explica comportamentul unei variabile efect în funcţie de o singură variabilă
independentă este linia dreaptă.
Regresia mai poate fi:

1. Regresie multiplă stepwise.


Este o modalitate de alegere a predictorilor unei anumite variabile
dependente pe baza criteriilor satistice.
Practic, procedura hotărăşte care variabilă independentă reprezintă cel
mai bun predictor, al doilea ca valoare, etc.
Se pune accentul pe identificarea celor mai buni predictori pentru
fiecare etapă. Când predictorii se află într-o relaţie strânsă de corelaţie
atât între ei cât şi cu variabila dependentă, adeseori, o varibilă ajunge
să fie enumerată ca fiind predictor, iar cealaltă nu. Acest lucru
înseamnă că a doua variabilă nu constituie un predictor, ci doar că nu

138
Introducere în SPSS 2010 Mihaela Sandu
adaugă nicio informaţie în plus predicţiei faţă de cele oferite de primul
predictor.

2. Regresia multiplă ierarhică.


 Permite cercetătorului în ce ordine să folosească o listă de predictori.
Acest lucru se realizează prin asocierea predictorilor sau a grupurilor
de predictori în blocuri de variabile.

139
Introducere în SPSS 2010 Mihaela Sandu

VII.3. Alegeţi răspunsul corect

1. Regiunea de acceptare a unei ipoteze este intervalul dintr-o distribuţie de


probabilitate a unei statistici considerate în care:
a. se respinge ipoteza nulă;
b. se acceptă ipoteza nulă;
c. se acceptă ipoteza alternativă.

2. Pragul de semnificaţie este:


a. pragul până la care se admite un rezultat aproximativ;
b. o limită a erorii de speţa I;
c. o limită a erorii de speţa II.

3. Analiza dispersională se aplică atunci când:


a. datele provin dintr-o cercetare selectivă;
b. datele provin din aceeaşi cercetare;
c. datele provin din cercetări diferite.

4. Regresia multiplă stepwise:


a. Este o modalitate de alegere a predictorilor unei anumite variabile
dependente pe baza criteriilor satistice;
b. permite cercetătorului în ce ordine să folosească o listă de predictori;
c. ia în consideraţie o singură variabilă cauzală.

5. Componentele variaţiei sunt:


a. variaţia inter şi intragrupe;
b. variţia totală;
c. variaţia parţială.

6. Pentru testarea egalităţii a 3 sau mai multe medii se foloseşte:


a. testul F;
b. Testul t;
c. testul Z

140
Introducere în SPSS 2010 Mihaela Sandu

7. Variaţia intergrupe măsoară:


a. variaţia mediilor grupelor faţă de media lor;
b. variaţia din interiorul fiecărei grupe;
c. variaţia totală.

8. Variaţia intragrupe măsoară:


a. variaţia mediilor grupelor faţă de media lor;
b. variaţia din interiorul fiecărei grupe;
c. variaţia totală.

141
Introducere în SPSS 2010 Mihaela Sandu

VII.4. Răspunsuri corecte

1. b. se acceptă ipoteza nulă;

2. b. o limită a erorii de speţa I;

3. a. datele provin dintr-o cercetare selectivă;

4. a. Este o modalitate de alegere a predictorilor unei anumite variabile


dependente pe baza criteriilor satistice.
5. a. variaţia inter şi intragrupare;
6. a. testul F;
7. a. variaţia mediilor grupelor faţă de media lor;
8. b. variaţia din interiorul fiecărei grupe;

142
Introducere în SPSS 2010 Mihaela Sandu

VIII. ETAPELE CERCETĂRII ÎN ŞTIINŢELE


SOCIOUMANE
_________________________________________________________________________________________________________________

Orice demers statistic presupune un proces care trebuie să parcurgă mai


multe etape:
 Enunţarea problemei;
 Formularea ipotezelor;
 Proiectarea cercetării;
 Efectuarea observaţiilor;
 Interpretarea datelor;
 Formularea concluziilor.

VIII.1. ENUNŢAREA PROBLEMEI.

Deşi pare cea mai simplă etapă a demersului ştiinţific, ea nu este deloc
simplă şi necesită un volum mare de cunoştinţe.
Enunţarea problemei prespune şi formularea acesteia în scris, formulare
în urma căreia rezultă obiectivle cercetării, care pot fi: generale şi specifice.
Obiectivele generale vizează cercetarea în ansamblul ei. Un studiu
ştiinţific are unul, maxim două obiective generale. Nu ne putem concentra
eforturile pe mai multe planuri – ori planurile sunt ghidate exact de modul de
formulare al obiectivelor generale.

143
Introducere în SPSS 2010 Mihaela Sandu
Obiectivele generale ale unei cercetări sunt formulate în urma unui cumul
de observaţii şi, eventual, în urma unui studiu metaanalitic. În ultima situaţie,
este necesară prezentarea rezultatelor studiului metaanalitic care a ghidat
formularea obiectivului general şi prin care se demonstrează lipsa de abordare
sau abordarea nepertinetă a problemei studiate. Spre exemplu, constatăm că pe
măsură ce creşte numărul de kilometri parcurşi cu un automobil, creşte şi riscul
de apariţie al unui accident şi ne propunem să studiem ştiinţific această
problemă. În mod normal, ar trebui să începem prin a analiza cercetările
existente în acest domeniu şi să desfăşurăm un studiu metaanalitic.

În urma acestui studiu, putem preciza obiectivul general al cercetării, de


forma: „Obiectivul general al cercetării îl reprezintă stabilirea relaţiei existente
între numărul de kilometri parcurşi şi probabilitatea de apariţie a unui accident
rutier”. Observăm că enunţarea problemei ce urmează a fi studiată s-a făcut
extrem de clar şi explicit, astfel încât se pot defini termenii şi condiţiile
proiectării unui studiu experimental sau a unei cercetări bazate pe sondaj.

Obiectivele specifice reprezintă aspecte detaliate ale investigaţiei


ştiinţifice, derivă din obiectivul general şi creează baza formulării ipotezelor de
cercetare (alternative). În funcţie de dimensiunile cercetării şi de resursele pe
care le are la dispoziţie cercetătorul, se pot formula unul, două, trei… douăzeci
de obiective specifice, aflate în legătură cu obiectivul general.

Concluzionând, enunţarea problemei reprezintă prima etapă a demersului


ştiinţific. Ea este însoţită de un studiu al cercetărilor în domeniu şi de
prezentarea clară şi precisă, în termeni cuantificabili, a obiectivelor generale şi
specifice.

144
Introducere în SPSS 2010 Mihaela Sandu

VIII.2. FORMULAREA IPOTEZELOR.

Formularea ipotezelor este cea de-a doua etapă a unei cercetări


ştiinţifice.

Definiţie: O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă,


referitoare la relaţiile sau diferenţele existente între două sau mai multe
variabile.

Ipotezele sunt formulate atât în cazul studiilor care urmăresc stabilirea


unor relaţii dintre variabile (numite şi studii corelaţionale) cât şi pentru
cercetările ce vizează existenţa unor diferenţe dintre variabile (studii factoriale).
O primă distincţie se poate face între ipoteze unilaterale (unidirecţionale) şi
ipoteze bilaterale (bidirecţionale) (Clocotici, șș i alțșii, 2000).

 Ipotezele unilaterale se utilizează în momentul în care avem o idee de


sensul, direcţia în care evoluează variabilele. Aceste ipoteze sunt mai precise şi
permit dezvoltarea unor studii pertinente, existând şanse mai mari să fie
susţinute de analiza da-telor. O ipoteză unilaterală se recunoaşte după modul de
formulare, deoarece în enunţul acesteia regăsim direcţia de evoluţie a
variabilelor. De exemplu, dacă desfăşurăm o cercetare care are ca scop analiza
legăturii dintre anxietate şi depresie, am putea formula o ipoteză unidirecţională
de tipul există o legătură pozitivă între nivelul anxietăţii şi nivelul depresiei”. În
această situaţie, ipoteza va fi susţinută numai în cazul în care legătura dintre
anxietate şi depresie este pozitivă, adică în situ-aţia în care subiecţii cu anxietate
care manifestă şi puternice simptome depresive sau subiecţii cu anxietate mică
nu prezintă simptome depresive. Ipoteza nu se susţine dacă, de exemplu,
subiecţii cu anxietate mică manifestă puternice simptome de-presive (cazul unei
corelaţii negative). Deşi mult mai precisă, există în permanenţă

145
Introducere în SPSS 2010 Mihaela Sandu
riscul să nu putem susţine ipoteza în condiţiile în care sensul formulat nu este
reprezentat de datele cer-cetării, chiar dacă în urma analizei pot rezulta şi alte
sensuri specifice;

 Ipotezele bilaterale nu impun direcţia de evoluţie a variabilelor. Deşi


mai puţin precise în comparaţie cu cele unilaterale, ipotezele bilaterale oferă o
mai mare libertate cercetătorului. O formulare de genul „există o legătură între
nivelul de anxieta-te şi predominanţa simptomelor depresive” poate fi susţinută
atât în cazul în care corelaţia este pozitivă cât şi în situaţia unei corelaţii
negative. Ipoteza nu este susţinută doar în condiţiile în care, cu o mare
probabilitate, se demonstrează inexistenţa unei asemenea relaţii.

Ipoteza nulă şi ipoteza alternativă.

Este foarte important să se cunoască noţiunea de ipoteză nulă şi ipoteză


alternativă.
Astfel, reluând exemplul de mai sus, ipoteza alternativă (specifică), se
notează cu Hs, poate fi enunţată astfel:
„H1: Presupunem că există o legătură între nivelul de anxietate şi nivelul
de depresie”
Din punct de vedere statistic, nu putem verifica direct această ipoteză.
Singura modalitate prin care putem sprijini ipoteza alternativă este să enunţăm şi
apoi să testăm ipoteza nulă. De obicei, ipoteza nulă – notată cu H0 – este o
negare logică a ipotezei alternative şi poate fi formulată astfel:
„H0: Nu există nicio legătură între nivelul de anxietate şi nivelul de
depresie.”

Observaţie: Într-o cercetare statistică există o singură ipoteză nulă şi una


sau mai multe ipoteze specifice.

146
Introducere în SPSS 2010 Mihaela Sandu
Observaţie: Atât ipoteza nulă (H0) cât şi ipoteza alternativă (Hs) se
referă la populaţie, nu la eşantioane ca atare.

Semnificaţie şi eroare în testarea ipotezelor.

Putem respinge ipoteza nulă dacă probabilitatea să fie adevărată este


foarte mică. Dar aici poate apare întrebarea „Cât de mică?”, „Care este pragul la
care se pote respinge ipoteza nulă?”
Într-o cercetare ştinţifică se lucrează cu două praguri de cercetare:
 Primul prag reprezintă probabilitatea de 0,05 (5% sau 1 caz
din 20 de cazuri);
 Al doilea prag reprezintă probabilitatea de 0,01 (1% sau 1
caz din 100 de cazuri).
 În liteartra de specialitate, pragul de semnificaţie se notează
cu p sau 
Observaţie: Pragul de semnificaţie permite respingerea ipotezei nule
atunci când există valori mai mici decât p (p < 0,05).
Aşa cum am precizat în capitolul anterior, cele mai multe cercetări
riscă apariţia unei erori de tip I (care este cea mai gravă eroare), având
tendinţa de a neglija apariţia erorii de tip II.
Eroarea de tip I corespunde pragului de semnificaţie de de 0,05 (5%),
adică, sunt şanse de 5% să se respingă ipoteza nulă în condiţiile în care s-ar
dovedi adevărată.
Eroarea de tip II corespunde pragului de semnificaţie de (0,1%), ceea
ce înseamnă că putem respinge ipoteza nulă dacă s-ar dovedi adevărată, şi
mai multe şanse să nu o respingem atunci când ea ar trebui respinsă.

147
Introducere în SPSS 2010 Mihaela Sandu

VIII.3. PROIECTAREA CERCETĂRII.

Pentru a putea proiecta o cercetare, trebuie să dăm răspunsul la o serie de


întrebări, cum ar fi:
Ce condiţii vor fi aplicate subiecţilor în vederea testării ipotezelor;
Care sunt varibilele cercetării şi cum vor fi tratate acestea;
La ce nivel de precizie vor fi efectuate măsurătorile;
Care va fi lotul de subiecţi pe care se va desfăşura cercetarea.

VIII.4. EFECTUAREA OBSERVAŢIILOR

Observarea statistică reprezintă acţiunea de culegere de la unităţile


statistice a informaţiilor referitoare la caracteristicile urmărite, după criterii
riguros stabilite.
Ca aetapă a unei cercetări statistice, observarea statistică este condiţionată
de scopul cercetării, de particularităţile obiectului studiat şi de tehnica de calcul
folosită în procesul de prelucrare ulterioară a datelor observării.

VIII.5. INTERPRETAREA DATELOR.

Procesul de interpretare a datelor debutează cu analiza inventarului


statistic. În rma acestui studiu se decide normalitatea sau lipsa de normalitate a
unei distribuţii, dupa care se aleg testele standardizate necesare studiului.

148
Introducere în SPSS 2010 Mihaela Sandu

VIII.6. FORMULAREA CONCLUZIILOR.

Formularea concluziilor reprezintă etapa finală a unei cercetări ştiinţifice


şi rezumă întregul demers ştiinţific. Dacă pragul de semnificaţie este mai mare
decât pragul acceptat, atunci probabil ipoteza nulă este adevărată şi va trebui
acceptată. În caz contrar putem respinge ipoteza nulă.

Observaţie: Ipoteza specifică nu poate fi respinsă sau acceptată. Singura


decizie pe care o putem lua se referă la ipoteza nulă.

149
Introducere în SPSS 2010 Mihaela Sandu

VIII.7. Alegeţi răspunsul corect

1. Orice demers statistic presupune un proces care trebuie să parcurgă mai


multe etape: 1. Enunţarea problemei; 2. Proiectarea cercetării; 3.
Interpretarea datelor; 4. Efectuarea observaţiilor; 5. Formularea
concluziilor; 6.Formularea ipotezelor. Ordinea lor corectă este:
a. 1, 6, 2, 4, 3, 5.
b. 1, 5, 6, 3, 4, 2.
c. 5, 6, 4, 1, 2, 3

2. Obiectivele generale:
a. sunt formulate în urma unui cumul de observaţii şi în urma unui
studiu metaanalitic;
b. pun în evidenţă aspecte detaliate ale cercetării ştiinţifice;
c. ajută la formarea ipotezelor de cercetare.

3. Pragul de semnificaţie permite:


a. respingerea ipotezei nule atunci când există valori mai mici decât p;
b. respingerea ipotezei nule atunci când există valori mai mari decât p;
c. acceptarea ipotezei nule.

4. Eroarea de tip I corespunde:


a. pragului de semnificaţie 0,05;
b. pragului de semnificaţie 0,01;
c. niciunuia dintre ele.

5. Eroare de tip II corespunde:


a. pragului de semnificaţie 0,05;
b. pragului de semnificaţie 0,01;
c. niciunuia dintre ele.

150
Introducere în SPSS 2010 Mihaela Sandu

VIII.8. Răspunsuri corecte

1. a. 1, 6, 2, 4, 3, 5.

2. a. sunt formulate în urma unui cumul de observaţii şi în urma unui


studiu metaanalitic;

3. a. respingerea ipotezei nule atunci când există valori mai mici decât
p;

4. a. pragului de semnificaţie 0,05;

5. b. pragului de semnificaţie 0,01;

151
Introducere în SPSS 2010 Mihaela Sandu

PARTEA A DOUA

- ASPECTE TEORETICE ŞI PRACTICE ALE


PROGRAMULUI STATISTIC SPSS -

152
Introducere în SPSS 2010 Mihaela Sandu

INTRODUCERE
_________________________________________________________________________________________________________________

Aplicaţia SPSS („Statistical Package for the Social Sciences” – „pachet


de programe statistice aplicate ştiinţelor sociale”) a fost elaborată în anul 1965
de către Universitatea Stanford din California.
Programul SPSS (Statistical Package for the Social Sciences) este
unul dintre cele mai utilizate în analiza statistică a datelor şi a evoluat până la
versiunea 16, aria de aplicabilitate extinzându-se de la versiune la versiune,
odată cu modul de operare şi cu facilităţile oferite. Programul este utilizat în
foarte multe domenii: în marketing, cercetare experimentală, educaţie, sănătate
etc. În afară de analizele statistice posibile, programul are componente puternice
pentru managementul datelor (selectare, reconfigurare, creare de date noi) şi
pentru documentarea datelor (există un dicţionar metadata, care reţine
caracteristici ale datelor). Se mai poate adăuga flexibilitatea privind tipurile de
date acceptate ca şi modul de construire a rapoartelor.
Această carte prezintă un mod de abordare a analizei statistice folosind
SPSS for Windows şi este destinată studenţilor care doresc să analizeze date din
psihologie, sociologie, criminologie, sau date similare. Cartea se doreşte a fi un
îndrumător pentru analiza datelor, fiind o carte completă, de sine stătătoare care
satisface nevoile studenţilor la toate nivelele.
Manualul este structurat pe XVII capitole, oferind astfel posibilitatea
parcurgerii pas cu pas a informaţiilor prezentate dar şi o privire de ansamblu
asupra procedurilor de calcul din SPSS.

153
Introducere în SPSS 2010 Mihaela Sandu

I. Noţiuni de bază despre introducerea


şi analiza statistică folosind SPSS
_________________________________________________________________________________________________________________

I.1. Accesarea SPSS-ului.

SPSS-ul for Windows este accesat în general prin folosirea butoanelor şi


meniurilor folosind pentru aceasta clicuri ale mouse-ului. Astfel, cea mai rapidă
modalitate de învăţare este de a urma paşii prezentaţi şi capturile de ecran.

Pasul 1:
Se dă dublu clic pe imagine
– dacă imaginea nu apare pe
ecran atunci accesaţi „Start”
→Programe→SPSS.

Pasul 2:

Această fereastră va apărea


după câteva momente şi se
pot alege oricare dintre
opţiunile din fereastră.(Fereastra se
numeşte „Data Editor”.
Fereastra de editare (Data Editor) se deschide
implicit la lansarea SPSS şi este folosită pentru
introducerea, modificarea sau ştergerea datelor
în format spreadsheet. Într-o fereastră de editare
poate fi prezentat conţinutul unui fişier de date
care a fost selectat dintr-o listă de fişiere creat anterior (în SPSS, Excel, Statistica etc.) sau
poate fi creată o nouă foaie de lucru. Această fereastră recunoaşte fişierele de date care au
extensia implicită .sav.
În fereastra Data Editor sunt afişate datele de lucru. Acestea sunt aranjate în format tabel
(spreadsheet), care conţine coloane şi linii. La intersecţia acestora sunt celulele (casetele,
căsuţele) în care se introduc datele. La un moment dat este activă (curentă) o singură celulă,
cea în care este plasat cursorul. Celula curentă este scoasă în evidenţă printr-un chenar
îngroşat. Trecerea de la o celulă la alta se realizează prin clic de mouse în noua celulă sau de
la tastatură cu ajutorul tastelor de control (taste săgeţi, Page Up, Page Down).

154
Introducere în SPSS 2010 Mihaela Sandu

I.2. Introducerea datelor.


Pasul 3:
Aceasta este fereastra Data Editor a SPSS-ului şi este un spaţiu de lucru
cu linii şi coloane în care pot fi introduse
datele.

Coloanele sunt folosite pentru a


desemna diferite variabile.

Liniile sunt cazurile sau indivizii


despre care se deţin date.

Pasul 4:

Pentru a introduce date in SPSS


se selectează una dintre celule şi se dă
clic pe celula respectivă.

* În SPSS există întotdeauna o singură celulă


selectată.

Pasul 5:

Se introduce un număr folosind tastatura


calculatorului. La apăsarea tastei „Enter” sau
la selectarea cu mouse-ul a unei alte celule
numărul va fi introdus în foaia de lucru la fel
cum este arătat aici.
Valoarea 10 este înregistrarea pentru primul
rând (primul caz) al variabilei VAR00001.
 Se observă că această variabilă a primit
automat un nume standard. Pentru a
efectua schimbarea se dă clic pe numele
variabilei.

155
Introducere în SPSS 2010 Mihaela Sandu
Pasul 6:

Corectarea erorilor se face folosind


mouse-ul: se selectează celula unde
este eroarea şi se introduce valoarea
corectă. La apăsarea tastei „Enter”
sau deplasarea pe o altă celulă
valoarea corectată va fi introdusă.

I.3. Salvarea datelor.

Pasul 7:
Selectând „File”→ „Save As”
datele se vor salva sub forma
unui fişier. Fişierul salvat va
primi automat de la SPSS
extensia „.sav”.
* Se recomandă folosirea unor nume
de fişiere distincte (ex. date1) pentru
a face conţinutul lor cât mai clar. Salvarea datelor este recomandat sa se facă într-un fişier
diferit de cel
al SPSS-ului.

Pasul 8:
Pentru a alege locaţia unde
va fi salvat fişierul de date,
se alege calea în mediul
„Save In” (se foloseşte
săgeata pentru a ajunge
la locaţia dorită).
Salvarea unui fişier se realizează prin
pictograma Save din bara de instrumente Standard sau cu ajutorul comenzilor Save sau Save
As şi meniul File. Aceste comenzi deschid fereastra Save Data As în care se pot stabili:
numele fişierului (File name); tipul fişierului (Save as type); locaţia în care să aibă loc
salvarea (Save In).

156
Introducere în SPSS 2010 Mihaela Sandu

I.4. Folosirea „Variabilei View” pentru crearea şi etichetarea variabilelor


Pasul 9:
Apăsarea meniului „Variable View”,
situat în josul paginii, schimbă fereastra
„Data View” (spaţiul de lucru pentru
introducerea datelor) în altă fereastră în
care pot fi introduse informaţii despre
variabilele create.

157
Introducere în SPSS 2010 Mihaela Sandu
Pasul 10:
Acesta este spaţiul de lucru „Variable View”. În acest caz, o variabilă este
deja înscrisă fiind introdusă la pasul 8. Variabila poate fi redenumită şi pot fi
adăugate alte variabile destul de uşor selectând celula corespunzătoare şi tastând
numele variabilei.

Aici
se

modifică Aici se modifică


lăţimea coloanei. numărul de zecimale.

Pasul 11:
La versiunea SPSS 12-16 (faţă de
cele anterioare unde se permit
maxim 8 caractere) nu există
limită pentru lungimea numărului
unei variabile.
Se selectează o celulă din coloana
„Name” şi se scrie un nume diferit
de variabilă. Celelalte variabile
vor primi valori care vor fi
implicit schimbate ulterior.
Acesta este numărul de zecimale
care va apărea pe ecran.
*La editarea unei variabile trebuie să se ţină cont de următoarele restricţii: numele variabilei
să fie unic, primul caracter să fie o literă, sa nu conţină simboluri speciale folosite în SPSS sau
spaţii.

Pasul 12:
Apare acest buton: se dă
clic pe el.

158
Introducere în SPSS 2010 Mihaela Sandu
Pasul 13:

Va apărea această fereastră. În


continuare se vor urmări paşii
care vor arăta cum genul
biologic „masculin” şi
„feminin” este introdus
folosind codul „1” (masculin)
respectiv „2” (feminin).

Pasul 14:

Se scrie „1” în dreptul


câmpului „value”
şi „masculin” în dreptul
câmpului „value Label”.

Apoi se apasă „Add”.

Pasul 15:

Aceasta operaţie de adăugare


transferă informaţia în câmpul
aflat dedesubt.

* La fel se procedează şi pentru


introducerea celeilalte variabile (Ex.
2 - feminin).

* Cele mai frecvent utilizate ferestre


in SPSS sunt „data Editor”, „Syntax Editor” şi „Output Viewer”, „Pivot Table (Pivot Table
Editor)”, “Chart Editor”.
Fereastra de sintaxă (Syntax Editor) este folosită pentru a genera programe de comenzi
pe care le vom executa asupra datelor (exemplu: calculul unor noi variabile). Opţiunile
selectate în casetele de dialog sunt afişate în fereastra de sintaxă sub formă de comenzi.
Aceste ferestre îi sunt specifice fişierele de tip .sps.
Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost
efectuată o comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice,
tabele şi grafice care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text
Output Editor) este folosită pentru modificarea textului rezultat, care nu a fost afişat în tabele
pivot.
* Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost efectuată o
comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice, tabele şi
grafice care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output
Editor) este folosită pentru modificarea textului rezultat, care nu a fost afişat în tabele pivot.
Toate rezultatele obţinute din analizele statistice sunt afişate în fereastra Output Viewer.
159
Introducere în SPSS 2010 Mihaela Sandu
Această fereastră se aseamănă cu fereastra Windows Explorer şi se deschide doar dacă s-au
lansat comenzi din meniurile Statistics sau Graphs.
Fereastra Output Wiewer este structurată în două cadre/zone. Cadrul din stânga
(cuprinsul/structura) prezintă, sub forma unei schiţe, obiectele conţinute în fereastră.
Elementele din schiţă se referă la titlu, note şi denumirea rezultatelor statistice propriu-zise.

Fereastra Pivot Table (Pivot Table Editor) oferă multiple posibilităţi de modificare a
tabelelor pivot: editare text, schimbarea datelor din rânduri şi coloane, adăugarea de culori,
crearea unor tabele multidimensionale, ascunderea sau afişarea selectivă a rezultatelor.
Fereastra de editare a graficelor (Chart Editor) permite modificarea elementelor unui
grafic (axe, scale, diagramă, legendă etc.)
I.5. Exemplu de calcul statistic.
Pasul 16:
Pentru a calcula media de vârstă
se urmăresc următoarele etape:
-se dă clic pe „Analyze”;
-Se selectează „Descriptive
statistics”;
-Se selectează „Descriptive…”

Pasul 17:

Se selectează „vârsta”.
Se apasă butonul ► pentru a
muta „vârsta” în căsuţa
„Variable(s)”.
Se dă clic pe „OK”.

Pasul 18:
Fereastra „Data Editor” este înlocuită de output-ul SPSS-ului. Acest tabel
apare pentru analiza realizată anterior.

Media scorului pentru vârstă este încercuită.


*Ferestrele în SPSS reprezintă zone de pe ecran tratate ca elemente de sine stătătoare,
cu caracteristici proprii, care determină acţiunile ce se pot executa în cadrul lor.

160
Introducere în SPSS 2010 Mihaela Sandu

I.6. Concepte statistice esenţiale în analizele cu ajutorul SPSS-ului.

Elementele de statistică sunt foarte simple dar apar probleme la


asamblarea elementelor, abilităţile matematice având un mic rol în analiza
statistică a datelor.
Conceptele de bază pe care cercetătorii trebuie să le înţeleagă înainte de a trece
la analizele SPSS sunt:
 Variabila.
Definiţie: O variabilă este orice concept care poate fi măsurat şi care
variază de la un studiu la altul.
 Tipurile de variabile.
Variabilele pot fi clasificate ca fiind de două tipuri:
 Scoruri: Vorbim despre scoruri atunci când o valoarea numerică este atribuită
unei variabile, pentru fiecare caz în parte din eşantion. Această valoare indică
cantitatea sau valoarea caracteristicii (variabilei) în cauză.
Exemplul. Vârsta este o variabilă numerică deoarece valoarea –scor indică o
cantitate în creştere a variabilei vârstă.
 Variabile nominale sau categoriale: Sunt variabile care se măsoară
clasificând cazurile în unul sau mai multe categorii.
Exemplul 1: Genul biologic are două categorii: masculin şi feminin
*Este foarte important să se hotărască pentru fiecare variabilă în parte dacă este
variabilă nominală (categorială) sau variabilă cantitativă.
Definirea atributelor unei variabile este prima operaţie din procesul de pregătire a
setului de date. Definirea presupune precizarea atributelor unei variabile: numele variabilei,
tipul, lungimea (numărul de caractere), numărul de zecimale (pentru cele numerice), eticheta,
valorile etichetei, valorile lipsă, alinierea şi modalităţile de măsurare a variabilei. Variabilele
se definesc în coloanele foii Variabile View din fereastra Data Editor.
Tipul variabilei – variabilele pot fi de mai multe tipuri: numerice (Numeric, Coma, Dot,
Scientific notation), alfanumerice (String), date calendaristice, simbol monetar.

161
Introducere în SPSS 2010 Mihaela Sandu

I.7. Exerciţii

1. Realizaţi o bază de date şi introduceţi 10 subiecţi cu vârste cuprinse între


10 şi 15 ani astfel: primul subiect are vârsta de 10 ani, al doilea subiect
are vârsta de 13 ani, al treilea subiect are vârsta de 12 ani, al patrulea
subiect are vârsta de 11 ani, al cincilea subiect are vârsta de 15 ani, al
şaselea subiect are vârsta de 14 ani, al şaptelea subiect are vârsta de 13
ani, al optulea subiect are vârsta de 15 ani, al nouălea subiect are vârsta de
10 ani şi ultimul subiect are vârsta de 13 ani.
Salvaţi fişierul cu denumirea „subiect” pe desktop.

2. La o cercetare „percepţia socială asupra consumului de droguri” participă


10 persoane dintre care: 4 studenţi, 2 profesori şi 4 elevi. Aceştia au vârste
cuprinse între 15 şi 35 de ani astfel: cei 4 studenţi au 21, 22, 25, 26 ani,
elevii au 15, 16, 17, 17 ani şi profesorii au 34 de ani şi 35 de ani. (a se
vedea figura de mai jos).

Se cere:

1. să se calculeze media de
vârstă a participanţilor la
studiu;

2. să se calculeze şi să se
interpreteze media
obţinută.

3. să se salveze fişierul
creat în „My
documents”cu
denumirea „cercetare”.

162
Introducere în SPSS 2010 Mihaela Sandu

I.8. Alegeţi răspunsul corect

1. Fereastra de editare (Data Editor):


a. se deschide implicit la lansarea SPSS;
b. este folosită pentru introducerea, modificarea sau ştergerea datelor în
format spreadsheet;
c. este folosită pentru a genera programe de comenzi pe care le vom
executa asupra datelor;
d. este folosită pentru modificarea textului rezultat, care nu a fost afişat în
tabele pivot;

2. Fereastra de rezultate (Output Viewer):


a. afişează rezultatele statistice, tabele şi grafice care au asociate ferestre
distincte;
b. permite modificarea elementelor unui grafic (axe, scale, diagramă,
legendă etc.);
c. este folosită pentru a genera programe de comenzi pe care le vom
executa asupra datelor.

3. Ferestrele în SPSS reprezintă:


a. zone de pe ecran tratate ca elemente de sine stătătoare, cu caracteristici
proprii, care determină acţiunile ce se pot executa în cadrul lor;
b. elemente constitutive ale programului SPSS;
c. elemente prin care i se conferă utilizatorului posibilitatea selectării unei
anumite opţiuni.

4. Care sunt cele mai frecvent utilizate ferestre în SPSS


a. data editor;
b. output editor;
c. syntax editor;
d. syntax viewer;
e. output viewer.

5. În SPSS fereastra SPSS Output Viewer este utilizată pentru:


a. afişarea rezultatelor;
b. editarea de date;
c. editarea de date şi tabele;

163
Introducere în SPSS 2010 Mihaela Sandu
6. La editarea unei variabile trebuie să se ţină cont de următoarele
restricţii:
a. să conţină spaţii sau simboluri folosite în SPSS;
b. să conţină numai litere;
c. să aibă cel puţin 8 caractere;
d. primul caracter trebuie să fie o cifră;
e. să fie unic.

7. Numele variabilei trebuie să ţină cont de câteva restricţii:


a. să aibă cel mult 6 caractere;
b. se poate repeta;
c. primul caracter să fie literă;
d. poate să conţină simboluri speciale folosite în SPSS sau spaţii.

8. Pentru a introduce date în SPSS se selectează:


a. o celulă dând clic pe celula respectivă;
b. meniul data, split file;
c. meniul transform, compute.

9. Prin apăsarea butonului “Variable View”:


a. se schimbă fereastra “Data View”;
b. apare fereastra output;
c. se poate introduce o variabilă diferită.

10. Care dintre următoarele afirmaţii este adevărată?


a. indicatorul “medie” reprezintă media aritmetică a unui scor şi se obţine
prin însumarea valorilor şi înmulţirea cu numărul de valori;
b. modul este valoarea cu cea mai mare frecvenţă si este frecvenţa cu care
apare cel mai frecvent scor;
c. mediana este valoarea din centrul distribuţiei, dacă variabilele numerice
sunt ordonate după mărime, de la cea mai mică la cea mai mare.

11. Pentru a calcula media aritmetică alegem


a. SE Mean;
b. Median;
c. Mean;
d. Rouge.

164
Introducere în SPSS 2010 Mihaela Sandu

I.9. Răspunsuri corecte

1. a. se deschide implicit la lansarea SPSS;


2. a. afişează rezultatele statistice, tabele şi grafice care au asociate
ferestre distincte;
3. a. zone de pe ecran tratate ca elemente de sine stătătoare, cu
caracteristici proprii, care determină acţiunile ce se pot executa în
cadrul lor ;
4. a. data editor;
c. syntax editor;
e. output viewer;
5. a. afişarea rezultatelor;
6. e. să fie unic;
7. c. primul caracter să fie literă;
8. a. o celulă dând clic pe celula respectivă;
9. a. se schimbă fereastra “Data View”;
10. c. mediana este valoarea din centrul distribuţiei, dacă variabilele
numerice sunt ordonate după mărime, de la cea mai mică la cea mai
mare;
11. c. mean.

165
Introducere în SPSS 2010 Mihaela Sandu

II. Descrierea variabilelor.


Tabele şi diagrame.
________________________________________________________

II.1. Frecvenţa procentuală.

Pentru realizarea unui tabel de frecvenţă este necesară o coloană căreia i


se va da un nume.

Pasul 1:

Se defineşte variabila.

Se etichetează valorile variabilei.

Valorile pentru ocupaţie se definesc aşa


cum este descris în paşii 13-15 din
capitolul I.

Pasul 2:

Se selectează:
„Analize”,
„Descriptive Statistics”
„Frequencies…”

166
Introducere în SPSS 2010 Mihaela Sandu

Pasul 3:

Se selectează ocupaţia şi se mută


în partea dreaptă a tabelului aşa
cum a fost descris la pasul 17
din capitolul I.

Se apasă „OK”
Pasul 4:

1. Prima coloană a tabelului


conţine eticheta celor 5 categorii de
ocupaţii.

2. A treia coloană afişează


procentul de frecvenţă pentru 3. A patra coloană afişează procentul
fiecare categorie. de frecvenţă excluzând valorile lipsă
Exemplu: 5 (psiholog) reprezintă * Deoarece nu sunt valori lipsă, procentajul
33,3% din totalul de 15 persoane. este acelaşi ca în coloana a treia.

4. A cincea coloană adună procentele în josul tabelului.

 În ceea ce priveşte raportarea rezultatelor se prezintă numai etichetele categoriale,


frecvenţele şi frecvenţele procentuale.

II.2. Diagrama circulară pentru date categoriale.

167
Introducere în SPSS 2010 Mihaela Sandu

Pasul 1:

Se selectează:
„Graphs”
„Pie”.

Pasul 2:

Se selectează „Define”.

Pasul 3:

Se selectează „Ocupaţia”
prin apăsarea butonului ►(◄).

Se apasă „OK”.

Diagrama Pie este un cerc divizat în


sectoare. Fiecare sector de cerc reprezintă
o categorie, aria acestuia fiind
proporţională cu numărul de cazuri din
această categorie a variabilei nominale.

Pasul 4:

Acesta este felul în care apare o


diagramă circulară folosind
opţiunile din SPSS. Sectoarele
din cerc sunt codate cu diferite
culori.

* Caracteristicile din această


diagramă pot fi modificate cu „Chart
Editor”.

168
Introducere în SPSS 2010 Mihaela Sandu

II.3. Adăugarea etichetelor unei diagrame circulare

Pasul 1:

Se dă dublu clic oriunde în


dreptunghiul care conţine diagrama,
pentru a selecta „Chart Editor”.

Se selectează:
„Elements”
„Show Data Labels”.

* Diagrama de structură „pie” este folosită


pentru reprezentarea frecvenţelor absolute
(numere) şi/sau relative (procente) pe
categorii/grupe.

Pasul 2:
Se selectează „Count” şi
„X”-ul roşu pentru a nu afişa.

Se selectează „Ocupaţie” şi săgeata


verde curbată în sus pentru a afişa
denumirile ocupaţiilor.

Se procedează asemănător pentru


„Procent” pentru a afişa procentajul
fiecărei ocupaţii în parte.

Seselectează „Apply” şi „Close”.

169
Introducere în SPSS 2010 Mihaela Sandu

Pasul 3:

Pentru a înlătura legenda,


se selectează „Options”
şi „Hide Legend”.

Diagrama circulară cu
sectoarele
denumite şi frecvenţa
procentuală afişată.

II.4. Diagrama cu bare pentru date categoriale.

Pasul 1:

Se selectează:
„Graphs”
„Bar…”.

Pasul 2:

Selectaţi „Define”.
„Simple” este preselectat.

*Selectare unei alte variante se face prin


clic cu mouse-ul pe varianta respectivă.

170
Introducere în SPSS 2010 Mihaela Sandu

Pasul 3:

Se selectează ocupaţia şi se apasă


butonul ► de lângă „Category Axis”
pentru a introduce acolo ocupaţia.

Se selectează „% of cases”.

Se apasă „OK”

Diagrama cu bare.

* Diagrama cu bare este folosită pentru a reprezenta grafic mediile diferitelor grupe dintr-o
colectivitate (Summaries for groups of cases) sau valorile medii ale diferitelor variabile pentru
aceeaşi colectivitate (Summaries of separate variables).
Diagrama Bar este folosită pentru a ilustra categoriile unei distribuţii în formă convenabilă.
Diagrama prezintă atâtea bare câte categorii are o variabilă. Barele au aceeaşi bază, egală cu
unitatea, iar înălţimea proporţională cu frecvenţa categoriei astfel încât aria fiecărei bare
reprezintă numărul cazurilor categoriei considerate.
Pentru a fi interpretat un grafic trebuie să conţină următoarele elementele:
- titlul graficului – oferă informaţii asupra fenomenului reprezentat (Titlul graficului
coincide cu titlul tabelului de date);
- axele de coordonate sunt folosite pentru a reprezenta variabilele. Pe abscisă se
înscrie variabila de distribuţie, iar pe ordonată frecvenţa.
- legenda – este folosită pentru a explica elementele din diagramă;
- sursa – precizează originea datelor reprezentate.

II.5. Histograme.

171
Introducere în SPSS 2010 Mihaela Sandu
Pentru a ilustra procesul de realizare a unei histograme vom folosi datele
obţinute din răspunsurile subiecţilor la întrebarea „Vă place statistica?”.
(răspunsuri: a. foarte mult; b. mult; c. Puţin d. foarte puţin; e. deloc).
Pasul 1:

Se introduc datele în „Data Editor” (aşa


cum a fost prezentat la începutul
capitolului).

Se selectează:
„Graphs”
„Hitogram”
Pasul 2:

Se selectează întrebarea „Vă place


statistica?” şi se apasă butonul ►de
lângă „Variable” pentru a duce

întrebarea în căsuţa din dreapta.


Se apasă „OK”.
Histograma.

* Pentru a schimba denumirile axelor se dă clic


pe ele şi se editează.
* Histograma este folosită pentru a arăta
forma unei distribuţii după o variabilă înregistrată asupra unei colectivităţi (frecvenţa de
apariţie pentru diferite clase de valori ale variabilei observate).
Alte tipuri de grafice:
Line – diagrama liniară este folosită pentru a reprezenta de regulă valori medii.
Boxplot – diagrama „cutia cu mustăţi” este folosită pentru a prezenta amplitudinea, intervalul
intercuartilic şi mediana unei distribuţii.
Error Bar – diagrama „bara erorilor” este folosită pentru a arăta media şi intervalul de
variabile.
Scatter – diagrama „norul de puncte” este folosită pentru a reprezenta relaţiile dintre încredere
de 95% pentru media respectivă.

172
Introducere în SPSS 2010 Mihaela Sandu

II.6. Exerciţii

3. La o cercetare „percepţia socială asupra consumului de droguri” participă


10 persoane dintre care: 4 studenţi, 2 profesori şi 4 elevi. Aceştia au vârste
cuprinse între 15 şi 35 de ani astfel: cei 4 studenţi au 21, 22, 25, 26 ani,
elevii au 15, 16, 17, 17 ani şi profesorii au 34 de ani şi 35 de ani. (a se
vedea figura 1).

Se cere:
4. să se realizeze un tabel
de frecvenţe pentru
variabila „subiecţi”;

5. să se realizeze tabel de
frecvenţe pentru
variabila „vârstă”;

6. să se realizeze diagrama
de structură pentru
variabila „subiecţi”;

7. să se adauge etichete diagramei;

8. să se realizeze diagrama de bare şi histograma pentru variabila „vârstă”.

9. să se calculeze media pentru variabila „vârstă şi să se interpreteze.

10. să se salveze fişierul creat pe „Desktop” cu denumirea „cercetare”;

173
Introducere în SPSS 2010 Mihaela Sandu

II.7. Alegeţi răspunsul corect

1. Care sunt graficele folosite pentru o distribuţie după o variabilă


calitativă?
a. diagrama Bar si diagrama Pie
b. diagrama Boxplot
c. Scatter sau Line

2. Diagrama de bare este folosită pentru:


a. a reprezenta valori medii;
b. a reprezenta frecvenţe absolute (numere) şi/sau relative (procente);
c. a reprezenta relaţiile dintre variabile;
d. a reprezenta grafic mediile diferitelor grupe dintr-o colectivitate.

3. Diagrama de structură este folosită pentru:


a. a reprezenta frecvenţele absolute (numere) şi/sau relative (procente);
b. a arăta forma unei distribuţii după variabila înregistrată asupra unei
colectivităţi;
c. a prezenta amplitudinea şi mediana unei distribuţii;
d. a reprezenta relaţia dintre variabile.

4. Histograma este folosită pentru:


a. a reprezenta grafic valorile medii ale diferitelor variabile pentru aceeaşi
colectivitate;
b. a arăta forma unei distribuţii după o variabilă înregistrată asupra unei
colectivităţi;
c. a reprezenta relaţia dintre variabile;
d. a reprezenta intervalul intercuartilic.

5. Pentru o distribuţie după o variabilă cantitativă se folosesc


următoarele grafice:
a. scatter (norul de puncte) şi histograma;
b. pie (diagrama de structută) şi line (diagrama liniară);
c. histograma şi curba frecvenţelor;
d. bar (diagrama de bare) şi curba frecvenţelor.

174
Introducere în SPSS 2010 Mihaela Sandu

6. Media aritmetică se calculează pentru:


a. variabile categoriale
b. variabile categoriale şi cantitative
c. variabile cantitative.

7. Prima coloană a tabelului de frecvenţe conţine:


a. etichetele categoriilor introduse;
b. procentul de frecvenţă pentru fiecare categorie;
c. valorile lipsă.

8. Pentru a realiza o diagramă circulară se selectează:


a. analize/ descriptive statistics/descriptives;
b. graphs/ pie;
c. graphs/ area.

9. Indicatorii tendinţei centrale sunt:


a. modul, mediana, abaterea standard
b. medie, mod, mediană
c. dispersie, abaterea standard

10. Care dintre următoarele afirmaţii este adevărată?


a. indicatorul “medie” reprezintă media aritmetică a unui scor şi se obţine
prin însumarea valorilor şi înmulţirea cu numărul de valori;
b. modul este valoarea cu cea mai mare frecvenţă si este frecvenţa cu care
apare cel mai frecvent scor;
c. mediana este valoarea din centrul distribuţiei, dacă variabilele numerice
sunt ordonate după mărime, de la cea mai mică la cea mai mare.

175
Introducere în SPSS 2010 Mihaela Sandu

II.8. Răspunsuri corecte

1. a. diagrama Bar şi diagrama Pie


2. d. a reprezenta grafic mediile diferitelor grupe dintr-o colectivitate.
3. a. a reprezenta frecvenţele absolute (numere) şi/sau relative (procente);
4. b. a arăta forma unei distribuţii după o variabilă înregistrată asupra unei
colectivităţi;
5. c. histograma şi curba frecvenţelor;
6. c. variabile cantitative.
7. a. etichetele categoriilor introduse;
8. b. graphs/ pie;
9. b. medie, mod, mediană

10. c. mediana este valoarea din centrul distribuţiei, dacă variabilele


numerice sunt ordonate după mărime, de la cea mai mică la cea mai mare.

176
Introducere în SPSS 2010 Mihaela Sandu

III. Descrierea numerică a variabilelor


- Medie, variaţie şi dispersie –
_________________________________________________________________________________________________________________

III.1. Introducerea datelor şi efectuarea analizei

Pentru realizarea acestui exemplu am selectat un număr de 0 subiecţi cu vârste


cuprinse între 15-35 ani.
Pasul 1:

În „Variable View” din „Data Editor” se denumeşte prima coloană „Vârstă”.


* Se îndepărtează cele 2 zecimale şi se scrie 0.

Pasul 2: Pasul 3:

În “Data View” Se selectează “Analize” →


din “Data Editor” “Descriptives statistics” şi
se introduc vârstele “Frequencies...”
în prima coloană.

Pasul 4:

177
Introducere în SPSS 2010 Mihaela Sandu

Se selectează „vârsta”
şi butonul ► pentru a
introduce în lista de
variabile.

Se deselectează
butonul „Display frequencys
tables” şi se ignoră mesajul
de avertizare.

Se dă clic pe „Statistics…”

Pasul 5:

Se selectează
„Mean”;
„Median”;
„Mode”.

Se dă clic pe „Continue”.

Se apasă „OK” din ecranul


anterior, care reapare.

III.2. Interpretarea
output-ului.

Există 10 cazuri cu date valide pe care se


bazează analiza.
Nu sunt date lipsă (0).
Media de vârstă, media aritmetică
=22,8 ani.
Mediana de vârstă (vârsta persoanei

178
Introducere în SPSS 2010 Mihaela Sandu
aflate la mijlocul liniei de vârste de la cea
mai mică la cea mai mare) este de 21.5 ani.
Valoarea mod de vârstă este 17.

III.3. Alte caracteristici.

În căsuţele de dialog de la pasul 5 se pot observa mai multe valori


statistice adiţionale care pot fi calculate:
1. centilele – indică punctele de separaţie pentru procentajele scorurilor.
Exemplu: Al 90-lea centil este valoarea numerică care separă cele 90%
de valori de dedesubt, din punct de vedere al mărimii.
2. Cvartilele – sunt valorile distribuţiei care indică punctele de separare
pentru cele ai mici 20%, cele mai mici 50% şi cele mai mici 75% dintre scoruri.
3. Suma – indică totalul scorurilor pentru o variabilă.
4. Skewness – Este un indicator de asimetrie sau înclinare a distribuţiei
scorurilor pentru o variabilă. Valoarea este pozitivă dacă valorile sunt asimetrice
spre stânga, sau negativă dacă valorile sunt asimetrice spre dreapta.
5. Kurtosis – este un index care arată cât de ascuţită sau turtită este
distribuţia scorurilor pentru o variabilă, comparativ cu distribuţia normală. Va fi
cu semnul „+” pentru curbe de frecvenţe ascuţite şi cu semnul „-” pentru curbe
de frecvenţe „turtite”.
6. Abaterea standard (estimată) – este o evaluare a măsurii în care
scorurile diferă în medie faţă de media scorurilor pentru o variabilă particulară.
7. Variaţia (estimată) – este o evaluare a măsurii în care scorurile
variază în medie faţă de media scorurilor pentru variabila respectivă.
8. Rang – diferenţa dintre cel mai mare şi cel mai mic scor obţinut
pentru o variabilă.
9. Minim (scor) – valoarea celui mai mic scor al datelor pentru o
variabilă particulară.
10. Maxim (scor) – valoarea celui mai mare scor al datelor pentru o
variabilă particulară.

179
Introducere în SPSS 2010 Mihaela Sandu
11. Eroarea standard (ES medie) – valoarea medie cu care mediile
eşantioanelor extrase dintr-o populaţie, diferă faţă de media populaţiei.

III.4. Alegeţi răspunsul corect

1. Cum putem calcula mediana?


a. alegând din meniul Transform / Compute;
b. statistics / summarize / case summaries / statistics;
c. statistics / Compare Means / Means;

2. Pentru a calcula eroarea medie de selecţie alegem:


a. Mean;
b. Std Deviation;
c. S.E. mean;
d. Range;

3. Pentru a calcula asimetria alegem una din opţiunile:


a. Range;
b. Std Deviation;
c. Skewness;
d. Kurtosis;
e. Variance;

4. Într-un calcul statistic, media reprezintă:


a. valoarea cu cea mai mare frecvenţă;
b. valoarea din centrul distribuţiei;
c. media aritmetică a unui set de scoruri, care se obţine prin însumarea valorilor
şi împărţirea rezultatului la numărul de valori;
d. media aritmetică a unui set de scoruri, care se obţine prin diferenţa valorilor
şi împărţirea rezultatului la numărul de valori.

5. Într-un calcul statistic, abaterea standard este:


a. valoarea a măsurii în care scorurile diferă în medie faţă de media scorurilor
pentru o variabilă particulară;
b. diferenţa numerică între cel mai mare şi cel mai mic scor obţinut pentru o
variabilă;
c. valoarea cu frecvenţa cea mai mare

180
Introducere în SPSS 2010 Mihaela Sandu
6. Kurtosis, ca indicator al formei distribuţiei, indică:
a. cât de ascuţită sau turtită este distribuţia scorurilor pentru o variabilă,
comparativ cu distribuţia normală;
b. simetria sau asimetria unei distribuţii de frecvenţe faţă de medie;
c. distribuţia scorurilor pentru 2 variabile comparative;

7. Eroarea standard este:


a. diferenţa numerică între cel mai mare şi cel mai mic scor obţinut pentru o
variabilă;
b. valoarea medie cu care mediile eşantioanelor extrase dintr-o populaţie, diferă
faţă de media populaţiei;
c. diferenţa scorurilor a 2 variabile.

8. Pentru a calcula boltirea alegem:


a. Range;
b.Variance;
c. Skewness;
d. Kurtoses.

III.5. Răspunsuri corecte

1. c. statistics / Compare Means / Means;


2. c. S.E. mean;
3. c. Skewness;
4. c. media aritmetică a unui set de scoruri, care se obţine prin însumarea
valorilor şi împărţirea rezultatului la numărul de valori;
5. a. valoarea a măsurii în care scorurile diferă în medie faţă de media
scorurilor pentru o variabilă particulară;
6. a. cât de ascuţită sau turtită este distribuţia scorurilor pentru o variabilă,
comparativ cu distribuţia normală;
7. b. valoarea medie cu care mediile eşantioanelor extrase dintr-o
populaţie, diferă faţă de media populaţiei;
8. d. Kurtoses.
181
Introducere în SPSS 2010 Mihaela Sandu

182
Introducere în SPSS 2010 Mihaela Sandu

IV. Forme ale distribuţiei scorurilor


_________________________________________________________________________________________________________________

Este foarte important de studiat forma distribuţiilor scorurilor pentru o


variabilă. Este bine ca o distribuţie să fie simetrică şi cu o formă normală (formă
de clopot).
Distribuţia normală, a fost descrisă prima dată de Ch. Fr. Gauss (1777-
1855) şi de aceea distribuţia normală se mai numeşte şi distribuţie gaussiană.
Deoarece la demonstrarea acestui concept a participat şi P.S. Laplace (1749-
1827), în literatura de specialitate se va întâlni şi termenul de distribuţie Gauss-
Laplace.

Pentru ca o distribuţie să fie considerată normală, trebuiesc îndeplinite


simultan următoarele condiţii:

 Să fie unimodală – adică să existe un singur modul, o singură categorie


cu frecvenţă maximă;

 Să fie simetrică faţă de medie – adică să nu fie deplasată spre stânga


sau spre dreapta;

 Să fie normal boltită – adică să nu fie nici ascuţită şi nici „turtită”;

Toţi aceşti termeni se referă la acelaşi lucru, distribuţia normală.

De asemenea, limitele din stânga şi din dreapta ale unei distribuţii


normale tind spre valoarea zero, pe care însă nu o întâlnesc niciodată. O
distribuţie perfect normală are aceeaşi valoare pentru toţi cei trei indicatori ai
tendinţei centrale (media, mediana şi modulul), adică media = mediana =
modulul. În practică, acest lucru se întâlneşte extrem de rar şi, de aceea, ne
punem problema între ce limite putem considera o distribuţie ca fiind normală.

În exemplul următor este elaborat un tabel de frecvenţă şi o histogramă cu


scorurile obţinute la evaluarea coeficientului de inteligenţă pentru 20 de jurişti.

183
Introducere în SPSS 2010 Mihaela Sandu

IV.1. Introducerea datelor.

Pasul 1:

În „Variable View” din


„Data Editor” se denumeşte
prima coloană „Atenţie”.

Se înlătură cele două


zecimale.
*Datele se salvează ca fişier
deoarece vor fi folosite şi la
capitolul 9.

Pasul 2:
În „Data View”
din „Data Editor”
se introduc
scorurile obţinute
la „Atenţie” în
prima coloană.

Pasul 3:
Se selectează
„Analyze”,
„Descriptives
Statistics” şi
Frequencies…”

Pasul 4:
Se selectează
„atenţie” şi apoi
se apasă butonul
►pentru a
introduce în lista de variabile. Se apasă „OK”.

184
Introducere în SPSS 2010 Mihaela Sandu

IV.2. Interpretarea Output-ului

Prima coloană arată


scorurile obţinute la
testul de „atenţie”.

A doua coloană arată


frecvenţa acestor
valori.
Exemplu: este 1 caz
în care scorul obţinut
are valoarea 55.

A treia coloană
exprimă aceste frecvenţe ca
un procent al numărului total A patra coloană A cincea coloană
incluzând şi datele care exprimă aceste frecvenţe cumulează aceste
lipsesc. ca un procent al numărului procentaje în josul
Exemplu: Din totalul cazurilor, total excluzând datele lipsă. tabelului.
5% au obţinut scorul 55.

IV.3. Histograme.
Histograma este un grafic, folosit în statistica descriptivă şi arată o distribuţie de
frecvenţă. Distribuţia de frecvenţă se referă la numărul de evenimente statistice pe clase
(grupe) de evenimente. Pentru o serie de date statistice cu o distribuţie de frecvenţă după o
variabilă numerică continuă (sau continuă pe porţiuni), reprezentările grafice care ne permit să
vizualizăm distribuţia de frecvenţe sunt histograma şi poligonul frecvenţelor.
Pasul 1:
Se seletează:
„Graphs”,
„Histogram”

Pasul 2:
Se selectează
„Atenţie”şi
apoi se apasă
butonul ►
pentru a o
introduce în

185
Introducere în SPSS 2010 Mihaela Sandu
butonul ► butonul ► pentru a o introduce în
caseta de
în caseta de variabile Se
apasă „OK”.
Variabile.
Se apasă „OK”

186
Introducere în SPSS 2010 Mihaela Sandu

IV.4. Interpretarea output-ului


Axa verticală arată
frecvenţa cazurilor de la 0
la 14 din doi în doi.

Înălţimea barelor arată cât


de frecvent apare fiecare
scor la atenţie.

Axa orizontală arată


scorurile diferite ale
„Atenţiei”.

*Media scorului la atenţie este


62,2.
*Abaterea standard este 4,36.
*Numărul cazurilor este 20.

IV.5. Modalitatea.

O distribuţie normală (figura 1)


este o distribuţie unimodală, adică există
Frecvenţa de apariţie

doar o singură categorie cu frecvenţa


maximă. Prezenţa a două sau mai multe
valori mod determină distribuţii
bimodale, trimodale, în general
polimodale, distribuţii ce nu pot fi
considerate ca fiind distribuţii normale.

Figura nr. 1.
O
Înălţimea subiecţilor.

distribuţie similară distribuţiei din


figura 1, este o distribuţie bimodală
(figura 2), deoarece observăm
existenţa a două categorii cu frecvenţa
egală şi maximă.
187
Introducere în SPSS 2010 Mihaela Sandu

Figura nr. 2.

Normalitatea distribuţiei, sub aspectul modalităţi, se verifică prin


calcularea valorii modul. Dacă există o singură valoare cu frecvenţa maximă,
atunci distribuţia poate fi considerată normală sub acest aspect. În condiţiile în
care sunt două sau mai multe valori cu frecvenţa maximă şi, evident, egală,
distribuţia este polimodală (multimodală) şi nu poate fi considerată ca fiind
normală.

IV.6. Simetria.

O distribuţie este
simetrică, dacă valorile sunt
egal (simetric) răspândite în
jurul tendinţei centrale. Atunci
când rezultatele tind către valori
mici, sunt aglomerate în partea
stângă a distribuţiei, avem de a

Figura nr. 3 face cu o distribuţie asimetrică

spre dreapta (sau distribuţie skewness pozitiv). Când rezultatele tind către valori
mari, se aglomerează în partea dreaptă a distribuţiei, vorbim despre o distribuţie
asimetrică la stânga (skewness negativ). Iată că, asimetria este dată de panta
distribuţiei şi nu de vârful acesteia, aşa cum tratează şi consideră unii.

În figura nr. 3, distribuţia „B” este o distribuţie simetrică. Distribuţia „A”


este o distribuţie asimetrică la dreapta (skewness pozitiv) unde predomină
scorurile scăzute (mici), în timp ce distribuţia „C” este o distribuţie asimetrică la
stânga (skewness negativ) în care predomină scorurile mari.

188
Introducere în SPSS 2010 Mihaela Sandu
Nu ne putem limita la o apreciere pur vizuală a simetriei; acest lucru necesită
demonstrarea statistică a simetriei sau asimetriei distribuţiei. În acest scop, există mai mulţi
coeficienţi care pot fi calculaţi.

Atunci când discutăm de asimetrie, trebuie să precizăm o serie de relaţii


care apar între indicatorii tendinţei centrale, media, mediana şi modul.

Într-o distribuţie simetrică, media, mediana şi modul au exact aceleaşi


valori. Caracteristica acestei distribuţii o reprezintă coincidenţa absolută a celor
trei indicatori ai tendinţei centrale.
După cum puteţi observa în figura
de mai sus, atât media, cât şi
mediana şi modulul, se află în
acelaşi punct, la mijlocul
distribuţiei. Grupa subiecţilor cu
scoruri Figura nr. 4

mai mici decât media este perfect simetrică cu grupa subiecţilor cu scoruri mai
mari decât media. Acest aspect este menţionat din raţiuni teoretice. În practică
nu vom întâlni o distribuţie perfect normală, ci o distribuţie care poate fi
acceptată ca fiind normală.

Într-o distribuţie asimetrică la dreapta (distribuţie skewness pozitiv,


vezi figura alăturată), predomină
scorurile mici. În acest caz,
modulul este valoarea situată cel
mai la stânga în şirul de date, iar
mediana este mai mică decât
media. Evident, mediana fiind
valoarea care împarte şirul
ordonat de date în două părţi egale, Figura nr. 5

iar dacă în distribuţie predomină scorurile mici, atunci scorurile mari sunt
considerate ca scoruri extreme. Ştim de la analiza preciziei indicatorilor

189
Introducere în SPSS 2010 Mihaela Sandu
tendinţei centrale, că într-o serie de date în care întâlnim scoruri extreme mari,
media tinde să le pună în valoare. Iată că acest fapt este ilustrat grafic în figura
de mai sus. Observaţi relaţia existentă într-o asemenea distribuţie: Mo<Me<m.
Această relaţie este relaţia caracteristică a unei distribuţii asimetrice pozitiv.

Într-o distribuţie asimetrică la stânga (distribuţie skewness negativ,


vezi figura alăturată), predomină
scorurile mari. În acest caz,
modulul este valoarea situată cel
mai la dreapta în şirul de date, iar
mediana este mai mare decât
media. Evident, mediana fiind
valoarea care împarte şirul
ordonat de date în două părţi egale, Figura nr. 6

iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt
considerate ca scoruri extreme. Ştim, de la analiza preciziei indicatorilor
tendinţei centrale, că într-o serie de date în care întâlnim scoruri extreme mici,
media tinde să le pună în valoare. Iată că acest fapt este ilustrat grafic în figura
de mai sus. Observaţi relaţia existentă într-o asemenea distribuţie: Mo>Me>m.
Această relaţie este relaţia caracteristică a unei distribuţii asimetrice negativ.

IV.7. Boltirea (excesul).

Asimetria pe orizontală, presupune, după cum am văzut, o deplasare a


tendinţei centrale spre stânga sau spre dreapta, către scoruri mici sau către
scoruri mari. Dar, aceasta nu este singura asimetrie posibilă. Există şi un fel de
„asimetrie verticală” sau boltire. Termenul folosit generic pentru acest concept
este termenul de kurtosis (din limba greacă, kurtos = „cocoşat”).

Practic, boltirea se referă la aspectul „cocoaşei” distribuţiei rezultatelor.


Cocoaşa poate fi ascuţită şi atunci vorbim de o distribuţie ascuţită sau
leptocurtică, poate fi turtită, distribuţia turtită, plată sau platicurtică sau

190
Introducere în SPSS 2010 Mihaela Sandu
normală, distribuţie mezocurtică. O distribuţie normală este întotdeauna o
distribuţie mezocurtică.

În figura alăturată,
distribuţia „C” este o distribuţie
leptocurtică, ascuţită. Distribuţia
„B” este o distribuţie platicurtică,
turtită, iar distribuţia „A” este o
distribuţie normală sub aspectul
boltirii, sau mezocurtică.

Figura nr. 7

Se observă că boltirea nu este altceva decât simetria pe axa verticală (O Y),


spre deosebire de simetria propriu zisă, deplasarea valorilor pe axa orizontală
(OX). Dacă la simetrie se vorbeşte de frecvenţe (care sunt cele mai frecvente
scoruri obţinute, unde se concentrează acestea? În eşantionul sunt mai degrabă
subiecţi scunzi sau subiecţi înalţi? Ori poate există un echilibru între subiecţii
scunzi şi cei înalţi), la boltire se discută de valori, de modul în care aceste valori
se grupează în jurul tendinţei centrale (sunt mai grupate valorile în jurul mediei
sau, din contra, foarte împrăştiate.)
La fel ca şi simetria, boltirea nu poate fi apreciată pur „ochiometric” ci
avem nevoie şi aici de anumiţi coeficienţi de boltire. Pearson a discutat despre
boltire în termeni de momente, la fel ca şi simetria, rezultând astfel coeficientul
de boltire sau coeficientul kurtosis.

O distribuţie leptocurtică, ascuţită, arată că datele sunt foarte grupate şi


apropiate de medie, lotul de subiecţi având un mare grad de omogenitate a
scorurilor. Această distribuţie nu ridică nici un fel de probleme atunci când
trebuie să diferenţiem subiecţii care obţin scoruri mici sau mari. Avem însă
dificultăţi atunci când trebuie să diferenţiem subiecţii din zona medie a
distribuţiei.

191
Introducere în SPSS 2010 Mihaela Sandu
De exemplu, dacă într-o clasă de 30 de elevi, 27 obţin medii anuale între
7,9 şi 8,1. Iată că, doar două zecimi diferenţiază între aproape întreg efectivul de
elevi. Nu avem nici o problemă cu repartizarea celorlalţi trei elevi. Pe aceia îi
vom considera ori foarte buni, ori foarte slabi, în funcţie de media obţinută – sub
7,9 sau peste 8,1. Ce ne facem însă cu cei 27 de subiecţi? Suntem, iată, în
imposibilitatea de ai-i ierarhiza în vreun fel. Dacă presupunem că cei trei
subiecţi au note mai mici de 7,9, atunci cine va lua, dintre cei 27 de elevi,
premiul I, cine va lua premiul II şi cine va lua premiul III. Decizia ar fi, după
cum se poate vedea, extrem de dificilă, dacă nu chiar imposibilă. Singura
variantă în acest caz, ar putea fi creşterea preciziei. Nu calculăm media cu o
singură zecimală, ci cu 2, 3 sau 4 zecimale. Totuşi, sunt situaţii în care un
asemenea nivel de precizie este ridicol. O evaluare în care distribuţia rezultatelor
este leptocurtică, este o evaluare ce nu poate diferenţia între subiecţii de nivel
mediu, iar o curbă leptokurtică nu este o distribuţie normală;

O distribuţie platicurtică, plată, este o distribuţie în care rezultatele sunt


foarte împrăştiate faţă de medie şi indică un grad ridicat de eterogenitate a
scorurilor. Problema generală a acestei distribuţii, în opoziţie cu distribuţia
leptokurtică, este aceea că diferenţiază greu la extreme şi destul de bine în zona
mediei. Va fi greu, utilizând o asemenea distribuţie, să facem diferenţieri între
elevii slabi şi între elevii buni, deşi putem diferenţia relativ uşor elevii medii.
Datorită acestui fapt, o distribuţie platicurtică nu este nici ea o distribuţie
normală.

O distribuţie normală este o distribuţie mezocurtică.

Analiza unei distribuţii sub aspectul normalităţii este primul pas pe care îl
facem în orice prelucrare de date. Deoarece, în funcţie de rezultatul acestei
analize, vom putea alege tehnicile şi procedeele statistice pe care le putem
folosi, această etapă o întâlnim, de obicei, la începutul oricărui raport de
cercetare, imediat după descrierea eşantionului.

192
Introducere în SPSS 2010 Mihaela Sandu

IV.8. Alegeţi răspunsul corect

1. Histograma:
a. este un grafic folosit în statistica descriptivă;
b. arată o distribuţie de frecvenţă;
c. se foloseşte pentru date calitative.

2. Valid procent:
a. exprimă aceste frecvenţe ca un procent al numărului total excluzând
datele lipsă.
b. frecvenţe ca un procent al numărului total lipsesc incluzând şi datele care
lipsesc.
c. frecvenţa valorilor.

3. Pentru a obţine un tabel de frecvenţe accesăm:


a. analyze/ descriptive statistics/frequences;
b. analyze/ descriptive statistics/descriptives;
c. analyze/ descriptive statistics/frequences/descriptives.

4. Pentru a crea o histogramă accesăm:


a. graphs/histogram;
b. graphs/interactve;
c. graphs/control.

5. O distribuţie poate fi:


a. unimodală;
b. bimodală;
c. trimodală.

6. Într-o distribuţie simetică:


a. media < mdiana< modul;
b. media = mediana = modul;
c. media >mediana>modul.

7. Într-o distribuţie asimetrică la dreapta:

193
Introducere în SPSS 2010 Mihaela Sandu
a. modul <mediana<media;
b. modul>mediana>modul;
c. modul=mediana=modul.

8. Într-o distribuţie asimetrică la dreapta:


a. modul=mediana=media;
b. modul <mediana>modul;
c. modul>mediana>modul.

9. O distribuţie poate fi:


a. leptocurtică;
b. platicurtică;
c. asimetrică pozitiv;
d. asimetrică negativ;
e. mezocurtică.
f. toate variantele de mai sus.

10. O distribuţie leptocurtică arată că:


a. datele sunt foarte grupate şi apropiate de mediană iar lotul de subiecţi are
un grad mare de omogenitate;
b. datele sunt foarte împrăştiate de mediană iar lotul de subiecţi are un grad
mare de eterogenitate;
c. distribuţia este normală.

11. O distribuţie platicurtică arată că:


d. datele sunt foarte grupate şi apropiate de mediană iar lotul de subiecţi are
un grad mare de omogenitate;
e. datele sunt foarte împrăştiate de mediană iar lotul de subiecţi are un grad
mare de eterogenitate;
f. distribuţia este normală.

194
Introducere în SPSS 2010 Mihaela Sandu

IV.9. Răspunsuri corecte

1. a. este un grafic folosit în statistica descriptivă;


b. arată o distribuţie de frecvenţă;
2. a. analyze/ descriptive statistics/frequences;
3. a. analyze/ descriptive statistics/frequences;
4. a. graphs/histogram;
5. a. unimodală;
b. bimodală;
c. trimodală.
6. b. media = mediana = modul;
7. b. modul <mediana<media;
8. c. modul>mediana>modul.
9. f. toate variantele de mai sus.
10. a. datele sunt foarte grupate şi apropiate de mediană iar lotul de subiecţi
are un grad mare de omogenitate;
11. b. datele sunt foarte împrăştiate de mediană iar lotul de subiecţi are un
grad mare de eterogenitate;

195
Introducere în SPSS 2010 Mihaela Sandu

V. Abaterea standard.
________________________________________________________________________________________________________________

Abaterea standard este un indice care arată cât de mult deviază (diferă)
unele scoruri „în medie” faţă de media setului de scoruri din care acestea fac
parte.
Abaterea standard poate fi folosită şi pentru a transforma scoruri pentru
variabile foarte diferite în scoruri Z (sau standard), care sunt uşor de comparat şi
însumat.
Calcularea abaterii standard şi a scorurilor Z este prezentată în exemplul
următor:

Vârstă 20 22 25 26 35 38 28 24 23 24

V.1. Introducerea datelor.

Pasul 1:

În „Variable View” din


„Data Editor” se
denumeşte prima coloană
„Vârsta”.

Se înlătură cele două


zecimale.

Pasul 2:
În „Data View” din „Data Editor”
se introduc vârstele în prima
coloană.

196
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptives…”

Pasul 4:
Se selectează „vârsta” şi apoi se
apasă butonul ► pentru a o
introduce în lista de variabile.

Se selectează „Options…”

Pasul 5:

Se deselectează „Mean”,
„Minimum”, „Maximum”.

Se selectează „Continue”.

Se selectează „OK” din


ecranul precedent care
reapare.

V. 2. Interpretarea output-ului.

Numărul 10 reprezintă numărul de


cazuri.
Abaterea standard pentru vârstă este
de 6,115.

V.3. Scorurile Z

Pasul 1:
La pasul 4 selectaţi „Save
standardized values as
variables”.
197
Introducere în SPSS 2010 Mihaela Sandu

Se apasă „OK”.

Pasul 2:

Scorurile Z sau standard


sunt în a doua coloană din
„Data View” în „Data Editor”
şi sunt numite „ZVârstă”.

V.4. Raportarea output-ului.

Abaterea standard pentru o variabilă este uşor de menţionat în textul


raportului: „A fost determinată abaterea standard a vârstei ca fiind 6,11 ani (N=
10)”.
*Este posibil ca abaterea standard să fie înregistrată împreună cu alte statistici, cum ar
fi media, rangul, etc.
Notele „z” reprezintă diferenţa dintre scorul observat şi medie, în
termeni de abatere standard. Cu alte cuvinte, notele „z” nu sunt altceva decât
distanţele la care se situează scorurile particulare în raport cu media grupului iar
această distanţă este exprimată standardizat.

Teoretic, notele „z” sunt note obţinute pe o „curbă” cu media 0 şi abaterea


standard 1. În acest caz, o distribuţie normală are practic notele „z” cuprinse
între -3 şi +3, între aceste note regăsindu-se peste 99% din populaţie, după cum
observaţi în figura de mai jos.

Notele „z” au şi ele o serie de proprietăţi cu aplicabilitate practică


deosebită, dintre care menţionăm (Popa, 2006):

 Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci când scădem o

198
Introducere în SPSS 2010 Mihaela Sandu
constantă din fiecare scor particular. Deoarece din formulă rezultă această
diferenţă (se scade fiecare scor particular din medie), în final media va
ajunge la valoarea zero

 Abaterea standard a unei distribuţii „z” este întotdeauna 1. Şi această


afirmaţie rezultă din proprietăţile abaterii standard. Ştim că dacă împărţim
abaterea standard cu o constantă, valoarea acesteia se divide corespunzător.
Din formulă, observăm că acea constantă cu la care împărţim este chiar
abaterea standard iar împărţirea a două numere egale are ca rezultat 1

Notele „z” sunt note direct calculabile, utilizându-se media şi abaterea


standard şi reprezintă „temelia” oricărui proces de standardizare. Totuşi,
principalul dezavantaj al notelor „z” este acela că sunt puţin intuitive. Trebuie să
ştim bine ce înseamnă distribuţia normală pentru a înţelege corect semnificaţia
acestor note. În plus, au valori pozitive şi negative, ceea ce le face, iarăşi, greu
de utilizat.

V.5. Alte caracteristici.


În meniul „Descriptives Statistics sunt conţinute mai multe calcule
statistice care pot fi selectate:
 Mean (media);
 Sum (suma);
 Standard deviation (estimate) (abaterea standard);
 Range (amplitudinea);
 Minimim;
 Maximum;
 Kurtosis;
 Skewness.
* Aceste concepte sunt explicate pe scurt la sfârşitul capitolului 3.

V.6. Alegeţi răspunsul corect


199
Introducere în SPSS 2010 Mihaela Sandu

1. Abaterea standard:
a. este un indice care arată cât de mult deviază (diferă) unele scoruri „în
medie” faţă de media setului de scoruri din care acestea fac parte.
b. este un indice care arată cât de simetrică sau asimetrică este o
distribuţie;
c. este un indice care arată cât de turtită sau boltită este o distribuţie.

2. Media este o mărime generalizată , adică, înlocuind fiecare nivel


individual al caracteristicii de distribuţie cu nivelul mediu:
a) suma seriei rămâne aceeaşi
b) suma termenilor seriei se modifică
c) suma termenilor seriei este nulă.

3. Media aritmetică reprezintă:


a) valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar
fi eterogenă
b) valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar
fi omogenă
c) valoarea pe care ar purta-o fiecare variabilă statistică dacă distribuţia
ar fi omogenă.

4. Media aritmetică, ca indicator fundamental al tendinţei centrale:


e) reprezintă valoarea care modifică nivelul totalizator;
f) se foloseşte cel mai frecvent şi reprezintă suma valorilor raportată la
numărul lor;
g) se calculează adunând valorile existente;
h) nu poate determina numărul de unităţi din colectivitate.

200
Introducere în SPSS 2010 Mihaela Sandu

V.7. Răspunsuri corecte

1. a. este un indice care arată cât de mult deviază (diferă) unele scoruri „în
medie” faţă de media setului de scoruri din care acestea fac parte.

2. a) suma seriei rămâne aceeaşi

3. b) valoarea pe care ar purta-o fiecare unitate statistică dacă distribuţia ar


fi omogenă

4. b. se foloseşte cel mai frecvent şi reprezintă suma valorilor raportată la


numărul lor;

201
Introducere în SPSS 2010 Mihaela Sandu

VI. Relaţiile dintre două sau mai multe variabile.


Diagrame şi tabele.
________________________________________________________________________________________________________________

În foarte multe cercetări se studiază relaţiile dintre două sau mai multe
variabile. Procedurile statistice univariate (cu o singura variabilă) care au fost
descrise până acum pot fi utilizate pentru analiza oricăror date. Dar, cercetarea
poate necesita ca relaţiile şi corelaţiile dintre diferitele variabile să fie studiate.
La fel ca statistica univariată, statistica bivariată a datelor necesită
studierea tendinţelor fundamentale ale datelor utilizând tabele şi diagrame.
Modelele de prezentare a relaţiilor bivariate includ crearea tabelelor scatter.
O condiţie esenţială o constituie etichetarea tabelelor şi diagramelor şi
denumirea acestora.
În continuare se va ilustra elaborarea unui tabel de asociere şi a unei
diagrame cu bare.

VI.1. Introducerea datelor.

În studiu sunt introduşi 11 copii instituţionalizaţi şi 9 copii


neinstituţionalizaţi. Dintre aceştia 9 au fost fete şi 11 au fost băieţi.

Pasul 1:
În „Variable View” din „Data Editor” se denumeşte:
- prima coloană „Instituţionalizare”
- a doua coloană „Genul biologic”;
- A treia coloană „Frecvenţa”.

Se înlătură cele două zecimale.

202
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2:
Se etichetează cele două valori
ale instituţionalizării:
1 - instituţionalizat;
2 - neinstituţionalizat.
Şi genul biologic:
1. Feminin;
2. Masculin
*Paşii acestei proceduri au fost explicaţi
în capitolul 1.

Pasul 3:
Se introduc aceste numere în „Data
View” din „Data Editor”.
Primul rând se referă la fetele care
au fost instituţionalizate: sunt în număr
de 5.
Al doilea rând se referă la băieţii
care au fost instituţionalizaţi:
sunt în număr de 6.
Al treilea rând se referă la fetele
neinstituţionalizate: sunt în număr de 4.
Al patrulea rând se referă la băieţii
neinstituţionalizaţi: sunt în număr de 5.

VI.2. Ponderea datelor

Pasul 4:

Pentru a pondera datele cu scopul


ca cele patru celule să conţină
numărul de cazuri corespunzător,
se selectează:
„Data”
„Weight Cases…”

Pasul 5:
Se selectează „Frecvenţa”,
„Weight cases by” şi apoi se
apasă butonul ►pentru
transfer în căsuţa
variabilei„Frequency
Variable”.

203
Introducere în SPSS 2010 Mihaela Sandu
Se apasă „OK”

VI.3. Crearea tabelelor de asociere (Crosstabs).

Pasul 6:

Se selectează:
„Analize”
„Descriptivesc statistics”
„Crosstabs…”.

Pasul 7:
Pentru a pune „instituţionalizare” pe
rândurile tabelului, se selectează şi
apoi se apasă butonul ►de lângă
eticheta „Row(s)”.

Pentru a pune „genul biologic” pe


coloanele tabelului, se selectează şi
apoi se apasă butonul ► de lângă
eticheta „Column(s).

Se apasă „OK”.

Pasul 8:

În tabel sunt
prezentate valorile
celor două variabile.
Se observă că sunt 5
fete şi 6 băieţi
instituţionalizaţi (în total 11) şi 4 fete şi 5 băieţi neinstituţionalizaţi (în total 9).
(N=20).

Tabelul de asociere este folosit pentru prezentarea relaţiilor dintre două variabile categoriale.
În fiecare celulă a tabelului este prezentată frecvenţa parţială (adică efectivul care poartă
simultan o valoare a fiecărei variabile).
Observaţie:
1. Dacă într-un crosstabs numărul categoriilor unei variabile este mai mare decât al
alteia, atunci categoriile acelei variabile se plasează pe rânduri.
2. O celulă din crosstabs oferă informaţia despre intersecţia celor două variabile. Pentru
aceasta alegem din fereastra Crosstabs butonul de comandă Cell ce are ca efect
afişarea ferestrei Crosstabs Cell Display.

204
Introducere în SPSS 2010 Mihaela Sandu

VII. Coeficienţi de corelaţie.


Coeficienţi de corelaţie Pearson şi Spearman.
_________________________________________________________________________________________________________________

Corelaţia este o metodă statistică utilizată pentru a determina relaţiile


dintre două sau mai multe variabile. Există mai multe tipuri de corelaţii atât
parametrice cât şi neparametrice.
Coeficientul de corelaţie este o valoare cantitativă ce descrie relaţia
dintre două sau mai multe variabile. El variază între (-1 si +1), unde valorile
extreme presupun o relaţie perfectă între variabile în timp ce 0 înseamnă o lipsa
totala de relaţie liniară. O interpretare mai adecvată a valorilor obţinute se face
prin compararea rezultatului obţinut cu anumite valori prestabilite în tabele de
corelaţii în funcţie de numărul de subiecţi, tipul de legătură şi pragul de
semnificaţie dorit.
Cel mai comun şi cel mai folositor este coeficientul de corelaţie Pearson
şi coeficientul de corelaţie Spearman.
Corelaţia Pearson(r) evaluează gradul de asociere dintre două variabile

măsurate pe scală de interval/raport. Aceasta se referă la intensitatea şi sensul de

variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un

model   de   tip   liniar.   Dacă   valorile   unei   variabile   urmează,   în   sens   direct,

crescător, sau invers, descrescător, valorile celeilalte variabile, atunci cele două

variabile corelează între ele. Domeniul de variaţie a coeficientului de corelaţie

Pearson(r) este între r = ­1 (corelaţie perfectă negativă: ceea ce înseamnă că în

timp   ce   scorurile   unei   variabile   cresc,   scorurile   pentru   cealaltă   variabilă

descresc) şi r = +1 (corelaţie perfectă pozitivă: ceea ce înseamnă că scorurile

unei   variabile   se   măresc   odată   cu   creşterea   scorurilor   celeilalte   variabile).

Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin r =0.

O corelaţie de 1,00 indică o asociere perfectă între cele două variabile.

Cu   alte   cuvinte,   o   diagramă   scatter   a   celor   două   variabile   va   arăta   că   toate


205
Introducere în SPSS 2010 Mihaela Sandu

punctele sunt conţinute de o singură dreaptă. O valoare de 0,00 indică faptul că

toate  punctele  din  diagrama  scatter   sunt  dispersate   aleatoriu  în  jurul  oricărei

drepte desenate pe această diagramă a datelor sau sunt aranjate într­o manieră

curbilinie.

În continuare vom ilustra calculul corelaţiei Pearson, o diagramă scatter

şi coeficientul de corelaţie Spearman, folosind pentru aceasta datele din tabelul

următor, care reprezintă scoruri ale abilităţilor muzicale şi matematice pentru 10

copii.

muzica 3 7 8 9 9 6 4 3 4 7
matematică 7 5 4 4 5 8 9 9 7 6

VII.1. Introducerea datelor.

Pasul 1:
 În „Variable „View” din „Data
Editor” se denumeşte primul
 rând „muzică” 
şi al doilea rând „matematică”.                          * Se înlătură cele două zecimale.

Pasul 2:

 În „Data View” din „Data editor” se
introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.

VII.2. Corelaţia Pearson.

Pasul 1:

Se selectează:

206
Introducere în SPSS 2010 Mihaela Sandu

 „Analyze”, 
„Corelate”, 
 „Bivariate…”

Pasul 2:

Se selectează „Muzică” şi
„Matematică” şi apoi se apasă
butonul ►pentru a le introduce în
lista de variabile aşa cum este
arătat în figura din dreapta.

Se apasă „OK”.

VII.3. Interpretarea
output­ului.
Corelaţia dintre
„matematică” şi „muzică”
este ­ 0,845 La un test de
semnificaţie, two­tailed la
nivelul de probabilitate 0,01
sau mai mic, corelaţia este
statistic semnificativă.
Numărul cazurilor pe care este bazată corelaţia este 10. Informaţia apare şi în 
această celulă.
*One tailed – dacă distribuţia este unidirecţională.
  Two­tailed – dacă distribuţia este bidirecţională.

VII.4. Raportarea output­ului.
 Corelaţia dintre abilităţile muzicale şi cele matematice este – 0,845.
* Se obişnuieşte să se rotunjească corelaţia cu două zecimale, deci aceasta va deveni 0,90,

acesta fiind un rezultat mult mai precis pentru majoritatea măsurătorilor psihologice.

  Nivelul   de   semnificaţie   exact,   cu   trei   zecimale,   este   0,002.   Înseamnă   că

nivelul de semnificaţie este mai mic decât 0,01.

207
Introducere în SPSS 2010 Mihaela Sandu

 Interpretarea psihologică va fi: „Există o relaţie negativă semnificativă între

abilităţile muzicale şi  cele matematice , ceea  ce  înseamnă  că, copii cu nivel

ridicat al abilităţilor muzicale au un nivel scăzut al abilităţii matematice”.
Un coeficient de corelatie poate fi calculat corect numai când datele ambelor variabile
se refera la esantioane si fiecare este ales independent.
Un coeficient de corelatie poate fi apropiat de ą1, deci ne va indica o corelatie
puternica, dar ea poate fi nesemnificativa din cauza volumului mic a esantionului studiat.
Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se
pot corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi
cauza celeilalte.

VII.5. Coeficientul de corelaţie Spearman.

Pasul 1:
Identic corelaţiei Pearson se
selectează „Analyze”, „Correlate”,
„Bivariate” şi variabilele care se
doresc pentru corelaţie.
Se selectează „Spearman” şi se
deselectează Pearson (dacă nu se
doreşte ca şi corelaţie).

Se apasă „OK”.

VII.6. Interpretarea output-ului.

Coeficientul de corelaţie Spearman Numărul cazurilor este 10.


între muzică şi matematică este – 0,842.
Nivelul de semnificaţie este 0,001 sau
mai mic, deci corelaţia este statistic
semnificativă.

208
Introducere în SPSS 2010 Mihaela Sandu

VII.7. Raportarea output-ului.


 Corelaţia raportată cu două zecimale este – 0,84.
 Interpretarea psihologică va fi: „Există o corelaţie negativă semnificativă
între abilităţile muzicale şi cele matematice, ceea ce semnifică faptul că, cei cu
un nivel ridicat al abilităţii muzicale au abilităţi matematice scăzute şi
viceversa”.
 Coeficientul de corelatie al rangurilor (Spearman) testeaza gradul de corelare intre 2
variabile calitative; este alternativa neparametrica a “coeficientului de corelatie Pearson”.
 Acest coeficient variaza intre -1 si +1. O valoare apropiata de +1, inseamna ca suma
patratelor diferentelor este aproape nula, deci avem clasamente identice.
 O valoare apropiata de 0, inseamna necorelarea variabilelor, iar valoarea apropiata de -1
pune in evidenta discordanta maxima a variabilelor.

VII.8. Diagrama scatter.

Pasul 1:
Se selectează:
„Graphs”
„Scatter/Dot”

Pasul 2:

Se selectează „define” din moment ce „simple” este


deja selectat.

Pasul 3:

Pentru a avea variabila


„muzică” ca axă verticală,
se selectează şi apoi se
apasă butonul ►de lângă
căsuţa „Y Axis”

209
Introducere în SPSS 2010 Mihaela Sandu
Pentru a avea variabila „matematică” ca axă orizontală, se selectează apoi se
apasă butonul ◄ de lângă căsuţa „X Axis”.

Se apasă „OK”.

VII.9. Interpretarea output-ului.

În diagrama scatter, răspândirea


punctelor este relativ îngustă,
ceea ce indică o corelaţie mare.

Forma împrăştierii rezultatelor


este relativ în linie dreaptă,
indicând mai degrabă o relaţie
în linie dreaptă decât o relaţie
curbilinie.

Linia este de la colţul stânga sus


până în dreapta jos, ceea ce
indică o corelaţie negativă.
*Dacă relaţia este curbilinie atunci
corelaţiile Pearson şi Spearman pot fi
înşelătoare.

VII.10. Raportarea output-ului.

Despre diagrama scatter s-ar putea scrie următoarele afirmaţii: „ A fost


examinată o diagramă scatter pentru relaţia dintre abilităţile muzicale şi
matematice. Nu există nicio dovadă privind o relaţie curbilinie sau asupra
influenţei avute de rezultatele atipice”.

210
Introducere în SPSS 2010 Mihaela Sandu

VII.11. Alegeţi răspunsul corect

1. Corelaţia:
a. măsoară variaţia concomitentă a doi factori
b. măsoară parametria distribuţiei între două eşantioane
c. măsoară rangul unei distribuţii trihotomice

2. Corelaţia Pearson(r):
a. evaluează gradul de asociere dintre două variabile măsurate pe scală de
interval/raport.
b. evaluează   gradul   de   asociere   dintre   două   variabile   măsurate   pe   scală
nominală;
c. evaluează   gradul   de   asociere   dintre   două   variabile   măsurate   pe   scală
ordinală.

3. O corelaţie de 1,00 indică:
a. o asociere perfectă între cele două variabile;
b. faptul că toate punctele din diagrama scatter sunt dispersate aleatoriu în
jurul oricărei drepte desenate pe această diagramă a datelor;
c. absenţa oricărei legături (corelaţii) dintre variabile.

4. Pearson este un indicator de corelaţie:
a. parametric;
b. neparametric;

211
Introducere în SPSS 2010 Mihaela Sandu

c. ambele variante de mai sus.

5. Spearman este un indice de corelaţie:


a. parametric;
     b. neparametric;
     c. ambele variante de mai sus.

6. O corelaţie negativă semnifică faptul că:
a. în timp ce scorurile unei variabile cresc, scorurile pentru cealaltă variabilă
descresc;
b.   că   scorurile   unei   variabile   se   măresc   odată   cu   creşterea   scorurilor
celeilalte variabile). 
c. nu există nicio legătură între variabile.

7. O corelaţie pozitivă semnifică faptul că:
d. în timp ce scorurile unei variabile cresc, scorurile pentru cealaltă variabilă
descresc;
e.   că   scorurile   unei   variabile   se   măresc   odată   cu   creşterea   scorurilor
celeilalte variabile). 
f. nu există nicio legătură între variabile.

8. Norul de puncte este folosit pentru:


a. a reprezenta relaţia dintre variabile;
b. a arăta frecvenţa de apariţie pentru diferite clase de valori ale variabilei
observate;
c. a arăta intzervalul de încredere de 95% pentru media respectivă.

9. Pentru a realiza un tabel de asociere selectăm:


a. Analyze/Descrisptiv statistics/crosstabs;
b. Analyze/Descrisptiv statistics/Explore;
c. Statistics / Corelate / Crosstabs
d. Statistics / Custom tables / Crosstabs

10. Tabelul de asociere este folosit pentru:


a. selectarea unor subiecţi
b. prezentarea relaţiilor dintre două variante categoriale
c. recodificarea variabilelor
d. modificarea unui tabel

212
Introducere în SPSS 2010 Mihaela Sandu

VII.12. Răspunsuri corecte

1. a. măsoară variaţia concomitentă a doi factori


2. a. evaluează gradul de asociere dintre două variabile măsurate pe scală de

interval/raport.

3. a. o asociere perfectă între cele două variabile;

4. b. neparametric;

5. b. neparametric;

6.   a.   în   timp   ce   scorurile   unei   variabile   cresc,   scorurile   pentru   cealaltă

variabilă descresc;

7.   e.   că   scorurile   unei   variabile   se   măresc   odată   cu   creşterea   scorurilor

celeilalte variabile). 
213
Introducere în SPSS 2010 Mihaela Sandu

8. a. a reprezenta relaţia dintre variabile;

9. a. Analyze/Descrisptiv statistics/crosstabs;

10. b. prezentarea relaţiilor dintre două variante categoriale

VIII. Regresia.
Predicţia cu precizie.
_________________________________________________________________________________________________________________

Dacă există o relaţie între două variabile atunci sunt posibile estimarea
sau predicţia scorului unei persoane la o variabilă pornind de la scorul obţinut la
cealaltă variabilă. Cu cât este mai puternică corelaţia cu atât este mai bună
predicţia. Variabila independentă este variabila folosită pentru a realiza predicţia,
aceasta fiind cunoscută şi ca variabilă predictor sau variabila X.
*Este foarte important a nu se confunda variabila independentă cu cea dependentă. Cel
mai bun mod de a evita aceste probleme este de a examina scatterplot-ul sau diagrama scatter
a relaţiei dintre cele două variabile. Axa orizontală X este variabila independentă şi axa
verticala Y este variabila dependentă. Se poate investiga şi punctul de tăiere, acesta fiind
punctul în care panta se intersectează cu axa verticală.
Regresia devine o tehnică mult mai importantă atunci când sunt folosite
mai multe variabile pentru predicţia valorilor unei alte variabile.

214
Introducere în SPSS 2010 Mihaela Sandu
În continuare este ilustrată procesarea unei regresii simple şi a unei
diagrame de regresie folosind datele din tabelul următor.
Scor muzica 3 7 8 9 9 6 4 3 4 7
Scor 7 5 4 4 5 8 9 9 7 6
matematică

Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face
predictii. Desi nu se gasesc relatii perfecte în lumea reala, prin intermediul regresiei se pot
face predictii ale unei variabile, în functie de valoarea alteia. Predictia este procesul de
estimare a valorii unei variabile cunoscând valoarea unei alte variabile.
Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între
doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca
am avea o corelatie perfecta (+1 sau –1) estimarea ar fi extrem de precisa
VIII.1. Introducerea datelor.
Pasul 1:
 În „Variable „View” din „Data
Editor” se denumeşte primul
 rând „muzică” 
şi al doilea rând „matematică”.       
* Se înlătură cele două zecimale.
Pasul 2:

 În „Data View” din „Data editor” se
introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.

VIII.2. Regresia simplă.

Pasul 1:
Se selectează:
„Analyze”
„Regression”
„Linear…”

Pasul 2:

215
Introducere în SPSS 2010 Mihaela Sandu

Se selectează „Muzică” şi apoi se apasă butonul ► de lângă eticheta


„Dependent”, pentru a introduce această variabilă în căsuţa variabilei
dependente.

Se selectează „matematica” şi apoi se apasă butonul ◄ de lângă eticheta


„Independent(s) pentru a introduce această variabilă în căsuţa variabilei (lor)
independente.
Se selectează „Statistics…”

Pasul 3:

Se selectează „Confidence
Intervals”.

Se selectează „Continue”.
Se apasă „OK” din ecranul
precedent care reapare.

VIII.3. Interpretarea output-


ului.
Acest tabel conţine datele esenţiale pentru analiza regresiei.
Constanta este 12,716. Acesta este punctul în care linia de regresie
intersectează axa verticală.

Coeficientul nestandardizat Coeficientul standardizat Intervalul de


al regresiei este – 1,049. al regresiei este – 0,845. încredere ia valori
Acesta semnifică faptul că, Acesta este mai mult sau de la -1,591 la -0,507.
pentru fiecare creştere cu 1 mai puţin coeficientul de
a variabilei “matematică” corelaţie Pearson dintre
valoarea variabilei “muzică” abilităţile muzicale şi
descreşte cu – 1,049. cele matematice.

 În acest tabel, B este panta liniei de regresie (în SPSS fiind denumită
coeficient de regresie nestandardizat).
 Intervalul de încredere de 95% pentru aceşti coeficienţi este de la -1,59 la
-0,50. Intervalul de încredere de 95% arată intervalul pantelor de regresie în care
putem fi siguri într-o proporţie de 95% că panta pentru populaţie se va găsi.

216
Introducere în SPSS 2010 Mihaela Sandu
 Cota denumită „Beta” are valoarea -0,845. Aceasta este de fapt corelaţia
Pearson între cele două variabile.
Regresia simplă - o variabila dependenta si una independent

VIII.4. Scatterplot-ul de regresie.

Atunci când se realizează o regresie este recomandabilă cercetarea


diagramei scatter pentru cele două variabile.

Pasul 1:
Se selectează:
„Graphs”
„Scatter/Dot”

Pasul 2:

Se selectează „define”; „simple” este deja selectat.

Pasul 3:

Pentru a avea variabila


„muzică” ca axă verticală, se
selectează şi apoi se apasă
butonul ►de lângă căsuţa „Y
Axis”

Pentru a avea variabila


„matematică” ca axă
orizontală, se selectează apoi
se apasă butonul ◄ de lângă
căsuţa „X Axis”.
Se apasă „OK”

Pasul 4:

Pentru a încadra o linie de


regresie în scatterplot, se dă
dublu clic oriunde în interior şi
se va deschide „Chart Editor”.

217
Introducere în SPSS 2010 Mihaela Sandu
Se selectează „Elements” şi
„Fit Line at Total”.

VIII.5. Interpretarea output-ului.

Punctele de pe scatterplot sunt apropiate de linia de regresie. În plus,


punctele par să formeze o linie dreaptă (relaţia nu este curbilinie).
În regresie, axa verticală este
variabila-criteriu sau
dependentă (în cazul nostru =
muzica).

Linia de regresie are o pantă


negativă în acest caz; de
exemplu: de la stânga sus spre
dreapta jos. În consecinţă B are
valoare negativă.

În regresie axa orizontală este variabila predictor sau independentă (în


cazul nostru „matematică”).

218
Introducere în SPSS 2010 Mihaela Sandu

* Linia de regresie oblică, de la stânga sus spre dreapta jos, indică o relaţie negativă între cele
două variabile.

Punctele par relativ apropiate de line, ceea ce sugerează că beta (corelaţia)


ar trebui sa fie un număr mare (negativ) şi că intervalul de încredere este relativ
mic.
Regresia liniară - relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul
norului de puncte.

VIIII.6. Raportarea output-ului.

Interpretarea diagramei se poate realiza în felul următor:


„Diagrama scatterplot a relaţiei dintre abilităţile matematice şi muzicale
sugerează o relaţie liniară negativă între cele două variabile. Este posibilă
predicţia cu acurateţe a abilităţii muzicale a unei persoane cunoscând abilitatea
sa matematică.

219
Introducere în SPSS 2010 Mihaela Sandu

IX. Eroarea standard


_________________________________________________________________________________________________________________

Eroarea standard este un indice pentru variabilitatea mediilor mai multor


eşantioane extrase din populaţie; cu alte cuvinte este media măsurii cu care
media eşantioanelor diferă faţă de media populaţiei din care au fost extrase.
Eroarea standard poate fi folosită ca un pas intermediar în alte tehnici
statistice, cum ar fi Testul t şi este un concept important pentru calculul
intervalelor de încredere.
Calcularea erorii standard estimate pentru medie este ilustrată cu un set
de şase scoruri ale stimei de sine, prezentate în tabelul următor.

Stima de sine 5 7 3 6 4 5

IX. 1. Introducerea datelor.

Pasul 1:
Se introduc datele în „Data Editor”.
Se etichetează variabila „Stima”.

IX. 2. Eroarea standard estimată a


mediei.

Pasul 1:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptive…”

Pasul 2:

220
Introducere în SPSS 2010 Mihaela Sandu

Se selectează „stima de sine” şi apoi se apasă butonul ◄pentru a introduce


variabila „Stima de sine” în „variable(s)”.
Se selectează „Options…”

Pasul 3:

Se selectează „ S-E mean”.

Se selectează „continue”.

Se apasă „OK” din ecranul anterior care


reapare.

IX. 3. Interpretarea output-ului.

Eroarea standard (estimată) pentru medie a acestui eşantion este 0,577.


este o indicaţie a mediei cu care mediile eşantioanelor diferă de media populaţiei
din care au fost extrase.

 testul oferă valoarea erorii standard a mediilor eşantioanelor ca fiind 0,58


(suma este rotunjită la două zecimale) aceasta fiind valoarea medie cu care
mediile eşantioanelor (N=6) diferă faţă de media populaţiei.
 tabelul include şi alte informaţii cum ar fi media (5,00), abaterea standard
estimată a populaţiei bazată pe acest eşantion, valorile minime şi maxime ale
datelor.
 ultima coloană oferă abaterea standard (estimată) a celor şase scopuri, care
este 1,41.

X. Testul t.
Compararea a două eşantioane
de scopuri corelate/relaţionate.
_________________________________________________________________________________________________________________

221
Introducere în SPSS 2010 Mihaela Sandu

Testul t este folosit pentru evaluarea semnificaţiei statistice a diferenţei


dintre mediile pentru două seturi de scoruri. Cu ajutorul testului t se pune în
evidenţă dacă valoarea medie pentru un set de scoruri diferă în medie de
valoarea medie pentru alt set de scoruri.
Testul t are două variante:
1. prima variantă este folosită atunci când cele două seturi de scoruri

ce trebuie comparate provin dintr-un singur eşantion sau când


coeficientul de corelaţie între cele două seturi este mare – testul t
pentru eşantioane perechi;
2. a doua variantă a testului t este utilizată în momentul în care două

seturi diferite de valori provin din grupe diferite de participanţi. –


testul t pentru eşantioane independente.

* Testul t pentru eşantioane perechi este optim dacă distribuţia diferenţelor dintre cele
două seturi de valori se prezintă (aproximativ) sub formă de clopot (atunci când distribuţia
este normală). Dacă distribuţia este foarte diferită de forma de clopot ar trebui luată în
considerare utilizarea unei tehnici statistice relaţionate nonparametrică pentru eşantioane
perechi, cum ar fi testul de perechi Wilcoxon.

Procesarea unui Test t este ilustrată cu datele din tabelul următor unde
sunt prezentate numărul de cuvinte pe care aceeaşi copii le-au verbalizat cu
mamele lor la 18 luni şi la 24 luni.
Numărul de cuvinte verbalizate într-un minut la vârste diferite.

Alina Cristina Raluca Carmen Simona Radu Cristi Dan


18 luni 3 2 4 5 2 3 2 4
24 luni 5 4 7 8 3 4 4 6

222
Introducere în SPSS 2010 Mihaela Sandu

X.1. Introducerea datelor.

Pasul 1:
În „Variable View” din „Data
Editor” se etichetează primul rând cu
„optsprezece” şi al doilea rând cu
„douăzeci şi patru”.
* Se înlătură cele două zecimale.

Pasul 2:

În „Data View” din „Data Editor”


se introduc datele în primele două
coloane.

X.2. Testul t pentru eşantioane perechi

Pasul 1:

Se selectează:
„Analyze”
„Compare Means”
„Paired-Samples T Test…”
Pasul 2:

Se selectează „optsprezece”
şi se pune această variabilă
lângă eticheta „Variable1” sub
„Curent Selections”.
Se selectează „douăzeci şi
patru” şi se pune această
variabilă lângă eticheta
„Variable2” sub „Curent
Selections”.
Se apasă butonul ►pentru a
pune aceste două variabile în
lista variabilelor relaţionale.
Se apasă „OK”.

223
Introducere în SPSS 2010 Mihaela Sandu

X.3. Interpretarea output-ului.

Primul tabel arată media, numărul de cazuri şi abaterea standard


pentru cele două grupuri. Media pentru „optsprezece” este 3,13 şi abaterea
standard este 1,126.

Al doilea tabel arată gradul în care cele două seturi de valori sunt corelate.
Corelaţia dintre ele 0,94. Aceasta este o corelaţie mare, nivelul de semnificaţie
fiind de 0,00.
Primele trei coloane care conţin cifre sunt componentele fundamentale ale
calcului unui Test t relaţionat. Media de -2,000 este de fapt diferenţa dintre
mediile pe 18 şi 24 luni, deci în realitate este media diferenţei. Valoarea lui t
este bazată pe această medie a diferenţei (-2,00), divizată cu eroarea standard a
mediei (0,267). Calculul oferă valoarea lui t (-7,483).

X.4. Raportarea output-ului.

Rezultatele obţinute ar putea fi prezentate astfel: „Media numărului de


cuvinte verbalizate la 18 luni diferă semnificativ de media cuvintelor verbalizate
la 24 de luni.

224
Introducere în SPSS 2010 Mihaela Sandu

XI. Testul t.
Compararea a două eşantioane de
scoruri necorelate/nerelaţionate.
_________________________________________________________________________________________________________________

Atunci cînd o investigaţie de tip statistic se efectuează pe un eşantion,


orice rezultat obţinut are o valoare relativă, în sensul că datele respective nu
numai că nu coincid cu cele referitoare la populaţie, dar nici măcar nu se poate
şti cu certitudine care este diferenţa dintre cele două genuri de date, de vreme ce
starea populaţiei este, de regulă, necunoscută. Teoria matematică a
probabilităţilor oferă însă proceduri pentru evaluarea rezultatelor studiilor
selective, permiţînd o estimare, în termeni de probabilitate, a marjei maxime de
eroare ce se poate comite prin utilizarea mărimilor din eşantion în locul celor
care caracterizează populaţia.
Testul t este în esenţă o procedură de testare a semnificaţiei diferenţei

dintre două medii.

Ca   urmare,   el   este   potrivit   atunci   când   variabila   dependentă   este

măsurată pe scală cantitativă (interval­raport). Distribuţia teoretică de referinţă

(distribuţia de nul) este cea normală, pentru eşantioane mai mari de 30 de subiec

ţi, şi distribuţia t (Student), pentru eşantioane mai mici de 30 de subiecţi. Chiar

dacă formulele de calcul sunt diferite, forma de prezentare a rezultatelor şi ra

ţionamentul decizional sunt similare pentru ambele situaţii.
Testul t pentru eşantioane independente este utilizat pentru a calcula
dacă mediile pentru două seturi de variabile sunt diferite semnificativ una faţă de
cealaltă.
* Testul t pentru eşantioane independente este cel mai des folosit.
Testul t pentru eşantioane independente este utilizat atunci când cele
două seturi de variabile provin din două eşantioane diferite de oameni.

225
Introducere în SPSS 2010 Mihaela Sandu
Procesarea unui Test t pentru eşantioane independente este ilustrată cu
datele din tabelul următorcare arată valorile la un test de emotivitate pentru 10
copii care provin din familii biparentale şi 10 copii care provin din familii
monoparentale. Scopul analizei este de a aprecia dacă valorile emotivităţii sunt
diferite la copii care provin din familii cu doi părinţi faţă de copii care provin
din familii monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9

XI.1. Introducerea datelor

Pasul 1:
În „Variable View” din „Data Editor”, se etichetează pe rând „Familii”.
Aceasta va defini cele două tipuri de familii.

Se etichetează al doilea rând


„Emotivitate” (aici vor fi introduse
rezultatele la testul de emotivitate).
Se înlătură cele două zecimale.

Pasul 2:

În „Data View” din


„Data Editor” se introduc
valorile pentru cele două
variabile în primele două
coloane.
* Se observă că sunt două coloane
de date: A doua coloană conţine
cele 20 de valori ale testului de
emotivitate de la ambele grupe de
copii. Datele nu sunt păstrate
separat pentru cele două grupe;
valorile 1 din prima coloană indică copii proveniţi din familiile biparentale şi valorile 2 indică
copii proveniţi din familiile monoparentale. Astfel, este utilizată o singura variabilă
dependentă (în cazul nostru „emotivitatea”) şi altă coloană pentru variabila independentă

226
Introducere în SPSS 2010 Mihaela Sandu
(familia). Cu alte cuvinte, fiecare rând în parte reprezintă un anumit copil şi variabilele sale
dependente şi independente sunt introduse separat în „Data Editor”.

227
Introducere în SPSS 2010 Mihaela Sandu

XI.2. Efectuarea Testului t pentru eşantioane independente.

Pasul 1:

Se selectează:
„Analyze”
„Compare Means”
„Independent Samples T test…”

Pasul 2:
Se selectează
„Emotivitate” şi apoi se
apasă butonul ► pentru
a introduce această
variabilă în lista
variabilelor de test.

Se selectează „Familie”
şi apoi se apasă butonul
◄pentru a introduce
această variabilă în
căsuţa „Grouping
Variable”.

Se selectează „Define Groups…” pentru a defini cele două grupuri.

Pasul 3:
Se introduce:
- valoarea 1 (codul pentru familiile
biparentale) lături de eticheta „Group 1”
- valoarea 2 (codul pentru familiile
monoparentale) alături de eticheta „Group
2”.

Se selectează „Continue”

Se apasă „OK” din ecranul precedent, care reapare.

XI.3. Interpretarea output-ului.

228
Introducere în SPSS 2010 Mihaela Sandu

Primul tabel arată , pentru fiecare grup în parte, numărul de cazuri, media
şi abaterea standard. Media pentru familiile biparentale este 13,00. După cum se
observă există o diferenţă între cele două tipuri de familii, dar, întrebarea este
dacă mediile diferă semnificativ.
Valoarea lui t este media diferenţei (3,500) divizată cu eroarea standard a
diferenţei (1,493), diviziune ce produce valoarea 2,345.

Dacă valoarea semnificaţiei pentru Pentru varianţe egale, t este 2,345,


Testul Levene este mai mare de 0,05, care la 18 grade de libertate este
lucru care se întâmplă aici (0,642) semnificativ la 0,031 pentru nivelul
se foloseşte informaţia de pe acest two-tailed.
prim rând.
Dacă valoarea semnificaţiei pentru
Testul Levene este mai mică de 0,05,
se foloseşte informaţia de pe al doilea
rând (al doilea rând oferă cifrele pentru
cazul în care varianţele sunt diferite
semnificativ).

XI.4. Raportarea output-ului.

Rezultatele obţinute se pot raporta astfel: „Media pentru valorile testelor


de emotivitate ale copiilor ce provin din familii cu doi părinţi este semnificativ
mai mare decât cea a copiilor proveniţi din familiile cu un singur părinte”.

229
Introducere în SPSS 2010 Mihaela Sandu
Dacă se preferă folosirea intervalelor de încredere , se poate scrie:
„Diferenţa dintre valorile testelor de emotivitate ale copiilor ce provin din
familii cu doi părinţi (M=13,00, SD=3,55) şi cei proveniţi din familii cu un
singur părinte (M=9,50, SD=3,10) este de 3,50. Intervalul de încredere de 95%
pentru această diferenţă este de la 0,36 la 6,63.Deoarece intervalul nu conţine
punctul 0,00 diferenţa este statistic semnificativă la nivelul de semnificaţie two-
tailed de 5%.

230
Introducere în SPSS 2010 Mihaela Sandu

XI.5. Alegeţi răspunsul corect

1. Independent – Samples T Test se aplică în cazul:


a. aceluiaşi eşantion
b. eşantioanelor independente
c. eşantioanelor dependente

2. Independent – Samples T Test testează:


a. dacă mediile a două grupe sunt egale;
b. dacă mediile a două grupe diferă;
c. dacă se compară mediile pentru un singur grup observat la momente
diferite;

3. Testul „t” se foloseşte pentru:


a. compararea a două seturi de date pentru identificarea diferenţelor;
b. identificarea predictorilor pentru o variabilă numerică;
c. compararea datelor de frecvenţă.

4. One sample T Test este un procedeu prin care:


a. se compară mediile pentru un singur grup observat în momente diferite
b. se testează dacă mediile a două grupe sunt egale
c. se testează dacă media unei variabile este egală cu o constantă
specificată
b. se testează dacă mediile a două grupe diferă

5. Paired – Samples T test:


a. testează dacă mediile a două grupe sunt egale
b. testează dacă media unei variabile este egală cu o constantă specificată
c. compară mediile pentru un singur grup observat în momente diferite
d. compară mediile pentru mai multe medii observate în momente diferite

6. Testul t pentru eşantioane independente este utilizat atunci când:


a. cele două seturi de scoruri ce trebuie comparate provin dintr-un singur
eşantion
b. coeficientul de corelaţie între cele două seturi este mare
c. cele două seturi de variabile provin din două eşantioane diferite de
oameni.

231
Introducere în SPSS 2010 Mihaela Sandu

7. Testul t pentru eşantioane perechi este utilizat atunci când:


a. cele două seturi de scoruri ce trebuie comparate provin dintr-un singur
eşantion
b. coeficientul de corelaţie între cele două seturi este mare
c. cele două seturi de variabile provin din două eşantioane diferite de
oameni.

8. Testul t:
a. este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri;
b. este potrivit atunci când variabila dependentă este măsurată pe scală 
cantitativă (interval­raport). 
c. este utilizat pentru a calcula dacă mediile pentru două seturi de variabile
sunt diferite semnificativ una faţă de cealaltă.

232
Introducere în SPSS 2010 Mihaela Sandu

XI.6. Răspunsuri corecte

1. b. eşantioanelor independente;
2. a. dacă mediile a două grupe sunt egale;
3. a. compararea a două seturi de date pentru identificarea diferenţelor;
4. c. se testează dacă media unei variabile este egală cu o constantă
specificată;
5. c. compară mediile pentru un singur grup observat în momente
diferite
6. c. cele două seturi de variabile provin din două eşantioane diferite de
oameni.
7. a. cele două seturi de scoruri ce trebuie comparate provin dintr-un
singur eşantion
b. coeficientul de corelaţie între cele două seturi este mare
8. a. este folosit pentru evaluarea semnificaţiei statistice a diferenţei
dintre mediile pentru două seturi de scoruri;
b.   este   potrivit   atunci   când   variabila   dependentă   este   măsurată   pe

scală cantitativă (interval­raport). 
c. este utilizat pentru a calcula dacă mediile pentru două seturi de
variabile sunt diferite semnificativ una faţă de cealaltă.

233
Introducere în SPSS 2010 Mihaela Sandu

XII. Testul Chi-Square.


Diferenţe între frecvenţele eşantioanelor.
_________________________________________________________________________________________________________________

În general Testul chi-square este folosit pentru evaluarea existenţei unei


diferenţe semnificative între două eşantioane formate din date de frecvenţă (date
nominale). Acesta, analizează tabelele de asociere sau contingenţă pe baza a
două variabile categoriale nominale.
*Testul chi-square analizează frecvenţe. Niciodată acestea nu trebuie să fie
transformate în procente pentru a fi introduse în SPSS, deoarece vor da rezultate eronate
atunci când se vor calcula valoarea şi semnificaţia chi-square.
* O analiză chi-square trebuie să includă datele fiecărui individ o singură dată, astfel
încât frecvenţele totale să fie egale cu numărul persoanelor folosite în analiză.
Tabel 1. Relaţia dintre site-urile accesate şi genul biologic.
Respondenţi Site-uri anunţuri muzică
matrimoniale
Feminin 27 14 19
Masculin 17 33 9

XII.1. Introducerea datelor din tabelul anterior


folosind procedura „Weighing cases”.

Procesarea Testului chi-square folosind două sau mai multe eşantioane


este exemplificată cu datele din tabelul anterior, care arată care dintre cele trei
tipuri de site-uri este preferat de către un eşantion de 119 adolescenţi de ambele
sexe.
Pasul 1:

În meniul „Variable View” Se îndepărtează cele Se etichetează valorile


din „Data Editor” se etichetează două zecimale. „gen” şi „program”.
primele trei coloane cu „gen
biologic”, „Site” şi „Frecvenţă”.

234
Introducere în SPSS 2010 Mihaela Sandu

Pasul 2:
Se introduc valorile adecvate în meniul
„Data View” din meniul „Data Editor”.
Fiecare rând reprezintă una dintre cele şase
celule din tabelul prezentat anterior.

Paul 3:

Pentru a pondera aceste celule


se selectează:
„Data”
„Weight Cases…”

Pasul 4:

Se selectează
„Frecvenţa”, „Weight
cases by” şi apoi se
apasă butonul ◄.

Se apasă „OK”.

XII.2. Introducerea datelor din tabelul 1 caz cu caz.

Se introduc valorile pentru


cele două variabile în fiecare
dintre cele 119 cazuri.

XII.3. Efectuarea Testului chi-square pe baza tabelului 1.


Pasul 1:

Se selectează:
„Analyze”
„descriptives statistics”
„Crosstabs…”(tabele de asociere)

235
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2:

Se selectează „Gen” şi se
apasă butonul ► pentru
„Row(s)”: pentru a-l
introduce în caseta
respectivă.

Se selectează „Site” şi se
apasă butonul ◄ pentru
„Column(s)”: pentru a-l
introduce în caseta
respectivă.

Ser selectează
„Statistics…”

Pasul 3:

Se selectează „Chi-square”.
Se seletează „Continue”.

Pasul 4:

Se selectează „Cells..”

Pasul 5:

236
Introducere în SPSS 2010 Mihaela Sandu
În secţiunea „Counts” se selectează „Expected”. Se selectează „Unstandardized”
în secţiunea „Residuals”. Se selecteaze „Continue”, apoi se apasă „OK în
ecranul anterior care reapare.
* Termenul „rezidual” se referă la diferenţe.

237
Introducere în SPSS 2010 Mihaela Sandu

XII.4. Interpretarea output-ului pentru Testul chi-square.

Acest al doilea tabel din output indică frecvenţa (Count), frecvenţa


aşteptată (Expected Count” şi diferenţa (Residual) dintre cele două pentru
fiecare dintre cele şase celule ale tabelului.

De exemplu: Frecvenţa sau numărul de


fete care spun că preferă site-rile de
matrimoniale este de 17, iar numărul
anticipat de probabilitate este 21,8,
diferenţa dintre cele două valori fiind de
– 4,8.

Al treilea tabel, şi ultimul


indică valoarea
coeficientului (Pearson)
chi-square (13,518),
gradele de libertate (2) şi
semnificaţia two-tailed
(0,001). Din moment ce
această valoare este mai
mică de 0,05, coeficientul
chi-square este
semnificativ.

 Al doilea tabel indică frecvenţele observate şi cele aşteptate ale cazurilor şi


diferenţa (valoarea reziduală) dintre acestea pentru fiecare celulă. Frecvenţa
observată (numită „Count”) este prezentată prima, apoi frecvenţa aşteptată
(numită „Expected Count”. Frecvenţele observate sunt întotdeauna numere
întregi, astfel încât să fie uşor de localizat.

238
Introducere în SPSS 2010 Mihaela Sandu
 Coloana finală din tabel etichetată „Total” conţine numărul de cazuri din
respectivul rând, urmat de numărul aşteptat de cazuri din tabel.
Astfel primul rând are 60 de cazuri, urmat de numărul aşteptat de cazuri
din tabel. Astfel, primul rând are 60 de cazuri, număr care va fi identic
numărului de cazuri aşteptate (adică 60).
 În mod similar, rândul final din acest tabel (etichetat „Total) prezintă mai întâi
numărul de cazuri din respectiva coloană urmat de numărul aşteptat de cazuri
din tabel pentru coloana respectivă. Astfel, prima coloană are 44 de cazuri,
număr care ca fi întotdeauna egal cu numărul aşteptat de cazuri (adică 44,0).
 Valoarea chi-square, gradul său de liberate şi nivelul său de semnificaţie sunt
afişate în al treilea tabel care începe cu „Pearson” (cel care a elaborat acest test).
Valoarea chi-square este de 13,518, care, rotunjită la un număr cu două
zecimale, devine 13,52. Gradul său de libertate este 2, iar probabilitatea two-
tailed exactă este 0,001.
 Sub acest tabel se mai poate vedea şi mărimea „minimum expected count” a
oricărei celule din tabel, care este 13,88 pentru ultima celulă (fetele care preferă
site-urile cu muzică). Dacă diferenţa minimă aşteptată este mai mică decât 5.0,
atunci trebuie să se acorde foarte multă atenţie Testului chi-square.
* Dacă se foloseşte un tabel 2x2 de tip chi-square şi apar frecvenţe anticipate reduse, este
recomandat să se folosească testul Fisher, pe care aplicaţia SPSS îl include în output în astfel
de situaţii.

XII.5. Raportarea output-ului pentru Testul chi-square.


Există două modalităţi de descriere a rezultatelor.

* Pentru o persoană neexperimentată aceste două posibilităţi de interpretare pot părea


foarte diferite, dar, practic, ele înseamnă acelaşi lucru.

239
Introducere în SPSS 2010 Mihaela Sandu
 Rezultatele se pot descrie astfel: „A existat o diferenţă semnificativă
între frecvenţele observate şi cele aşteptate în cazul adolescenţilor băieţi şi fete
în ceea ce priveşte preferinţa lor pentru cele trei tipuri de site-uri ( χ 2 =
13,51. DF = 2, p = 0,001)”.
 O altă posibilitate de interpretare a rezultatelor obţinute ar putea fi:
„ Există o asociere semnificativă între genul biologic şi tipul de site
preferat ( χ2 = 13,51. DF = 2, p = 0,001)”.
 Raportarea şi direcţia rezultatelor se poate face astfel: „ Fetele tind mai
mult decât băieţii să prefere site-urile cu anunţuri (de toate genurile) şi preferă
mai puţin site-urile despre matrimoniale sau pe cele cu muzică”.

240
Introducere în SPSS 2010 Mihaela Sandu

XIII. Recodificarea variabilelor.


Aplicaţia SPSS poate recodifica valori în mod rapid şi cu uşurinţă, ceea ce
îi oferă cercetătorului o mare libertate de recodificare a datelor.
*Nu se modifică variabilele decât în cazul în care este absolut sigur că se doreşte
modificarea permanentă a datelor originare.
Scorurile abilităţilor muzicale şi matematice
obţinute de către un număr de 10 copii
Scor muzică Scor matematică Gen biologic Vârstă
3 7 1 10
7 5 1 9
8 4 2 12
9 4 1 8
9 5 2 11
6 8 2 13
4 9 2 7
3 9 1 10
4 7 2 9
7 6 1 11

* Scorurile abilităţilor muzicale şi matematice sunt aceleaşi care au fost prezentate


anterior în capitolul VIII.1.

Dorim să se realizeze corelaţia dintre valorile abilităţilor muzicale şi a


celor matematice, în cazul copiilor mici şi a celor mari. Pentru a realiza această
corelaţie este important să se stabilească numărul de grupe de vârstă dorite. În
acest caz se vor alege două grupe de vârstă: copii mai mici de 10 ani şi copii mai
mari de 10 ani.
XIII.1. Recodificarea rezultatelor.

Pasul 1:

Se introduc datele aşa cum este


prezentat în tabelul alăturat.
(Paşii de introducere a datelor
sunt prezentaţi în capitolele
anterioare).

Pasul 2:
241
Introducere în SPSS 2010 Mihaela Sandu

Se selectează „Transform”,
„recode”
Şi „Into Different Variables”

Pasul 3:

Se selecteaă „Vârstă” şi se
apasă butonul ◄ pentru a
introduce „Vârsta” în
caseta „Numeric Variable
– Output variable”.
Se introduce numele noii
variabile.
Se selectează „Change”
pentru a adăuga acest nume Se selectează „Old and New values”.
nou în caseta „Numeric variable
– Output Variable”.

Pasul 4:

Se selectează „Lowest
through” şi se scrie 9 în
caseta alăturată.

Se selectează „Value”
din meniul „new value”
şi se scrie 1 în căsuţa
alăturată.

Se selectează „Add” şi
se introduce „lowest
throught 9→1 „ în caseta
„Old→New”.

242
Introducere în SPSS 2010 Mihaela Sandu
Pasul 5:

Se selectează
„Range: through
highest” şi se scrie
10 în caseta de
lângă el.
Se selectează
„value” şi se scrie
2 în caseta
alăturată.

Se selectează
„Add” şi se
introduce „10
through
Highest→2” în
caseta „Old→New”. Se apasă „OK” în ecranul care va reapărea.

Pasul 6:
Noua variabilă şi valorile sale sunt
afişate în meniul „Data View”.

 1 semnifică copii cu vârste mai mici de 10


ani
 2 semnifică copii cu vârste mai mari de
10 ani.

Pentru o astfel de recodificare se


deschide fereastra Recode into Different
Variables (din meniul Transform comanda
Recode) în care:
- se selectează variabila pe care dorim să o recodificăm din lista variabilelor din
partea stângă şi se mută în lista variabileor de recodat;
- se scrie numele noii variabile în caseta Name din zona Output Variable;
- se scrie în caseta Label eticheta noii variabile;
- se acţionează butonul de comandă Change pentru a se realiza modificarea.
Pentru a defini categoriile variabilei numerice acţionăm butonul de comandă Old and
New Values ce are ca efect deschiderea unei ferestre de dialog în care pentru a schimba o
valoare particulară într-o valoare nouă se introduce valoarea veche în caseta Old Value şi
valoarea nouă în caseta New Value şi se acţionează butonul Add.
De regulă se schimbă o valoare reală cu altă valoare reală. În acest scop selectăm
butonul de opţiuni Range. Casetele de editare sunt folosite pentru a stabili limita inferioară şi
respectiv limita superioară a intervalului dorit. Apoi se selectează butonul de opţiuni Value din
zona New Value în care se introduce noua valoare şi acţionăm butonul Add.
Prin clic pe butonul de comandă Continue se revine în fereastra Record into Different
Variables în care acţionăm OK pentru recodificarea variabilei.

243
Introducere în SPSS 2010 Mihaela Sandu

XIII.2. Alegeţi răspunsul corect

1. Comanda RECODE permite:


a. recodificarea într-o variabilă diferită sau în aceeaşi variabilă;
b. tranformarea unei variabile prin divizarea valorilor acesteia într-un număr
mai mare de categorii;
c. combinarea valorilor acestei variabile cu scopul creării unei alte serii;

2. Comanda RECODE se găseşte în meniul:


a. transform/recode/into different variables;
b. transform/recode/into same variables;
c. ambele variante de mai sus.

3. Chi – Square
a. testează egalitatea a două sau mai multe proporţii
b. testează egalitatea unei proporţii cu o valoare specificată
c. testează egalitatea mediilor a două eşantioane independente
d. testează egalitatea mediilor a două eşantioane perechi

4. Pentru recodificarea în aceeaşi variabilă se selectează:


a. transform/recode/into different variables;
b. transform/recode/into same variables;
c. nicio variantă de mai sus.

5. Pentru recodificarea într-o variabilă diferită se selectează:


a. transform/recode/into different variables;
b. transform/recode/into same variables;
244
Introducere în SPSS 2010 Mihaela Sandu
c. nicio variantă de mai sus.

XIII.3. Răspunsuri corecte

1. a. recodificarea într-o variabilă diferită sau în aceeaşi variabilă;


2. c. ambele variante de mai sus.
3. a. testează egalitatea a două sau mai multe proporţii
4. b. transform/recode/into same variables;
5. a. transform/recode/into different variables;

245
Introducere în SPSS 2010 Mihaela Sandu

XIV. Calculul variabilelor noi.


_________________________________________________________________________________________________________________

Calculul variabilelor noi permite adunarea, scăderea, etc. a valorilor


câtorva variabile pentru a obţine o nouă variabilă.
Exemplu: Se doreşte să se adune câteva întrebări dintr-un chestionar, pentru a
obţine un indice general al ceea ce măsoară chestionarul.
Atunci când sunt măsurate variabilele psihologice, se folosesc mai multe
întrebări pentru a măsura mai mult sau mai puţin acelaşi lucru.
De exemplu, următoarele afirmaţii pot fi folosite pentru evaluarea satisfacţiei
profesională:
a. În general mă bucură profesia mea.

b. Uneori stresul de la serviciu devine insuportabil.

c. Unii colegi sunt enervanţi câteodată.

d. Viitorul pare promiţător la locul de muncă.

Participanţilor li se cere să afirme în ce măsură sunt de acord cu fiecare


dintre aceste afirmaţii, pe următoarea scală de la 1 la 4:
1. întru totul de acord; 2. de acord;
3. dezacord; 4. total dezacord.

246
Introducere în SPSS 2010 Mihaela Sandu
Aceşti itemi se pot folosi pentru a determina nivelul de satisfacţie
profesională a angajaţilor, prin adunarea răspunsurilor date tuturor celor patru
afirmaţii.
Întru totul De acord dezacord Total dezacord
de acord
Respondent 1
Respondent 2
Respondent 3
Deoarece este nevoie de scoruri mari pentru a indica satisfacţia
profesională, se va inversa evaluarea, astfel:
4. total de acord; 3. de acord;
2. dezacord; 1. total dezacord.

XIV.1. Procedura unei variabile noi.


Pasul 1:
Se scrie un nume
pentru noua
variabilă în caseta
de sub „Target
Variable” (ex. scor
total.
Se scrie sau se
selectează termenii
expresiei şi se
introduc în caseta
„Numeric
Expression”.
Se apasă „OK”.
Se selectează
„Paste” pentru a
salva această
procedură sub formă
de sintaxă.

Pasul 4:
Pentru a salva această
procedură sub formă de fişier
de sintaxă, se selectează
„Paste” în caseta principală.
247
Introducere în SPSS 2010 Mihaela Sandu
Această comandă de sintaxă va apărea în fereastra „Syntax”.

XV. Testele rangurilor.


Statistici nonparametrice.
_________________________________________________________________________________________________________________

Testele nonparametrice sunt folosite atunci când nu este îndeplinită


condiţia ca scorurile fiecărei variabile să fie cât de cât normal distribuite (în
formă de clopot). Aceste teste fac mai puţine presupuneri referitoare la
caracteristicile populaţiei de la care provin datele, trăsătură care nu este
caracteristică testelor parametrice (cum ar fi Testul t). Metodele statistice
nonparametrice nu testează diferenţele dintre medii, deoarece acestea folosesc
scoruri transformate în ranguri. De obicei, prin aceste metode se verifică dacă
rangurile dintr-un grup sunt mai mari sau mai mici decât rangurile din celălalt
grup.
În acest capitol vom vorbi despre Testul semnului şi Testul Wilcoxon
pentru date corelate (eşantioane perechi). Cu alte cuvinte, aceste teste sunt
echivalentele nonparametrice ale Testului t pentru eşantioane perechi.
Testul U Mann-Witney se foloseşte pentru date nerelaţionate, acesta fiind
echivalentul nonparametric al Testului pentru eşantioane independente.
Procesarea a două teste nonparametrice pentru scoruri relaţionate este
exemplificată folosind datele din tabelul următor, care a fost folosit şi în

248
Introducere în SPSS 2010 Mihaela Sandu
capitolul X şi care indică numărul de cuvinte pe care aceeaşi copii le-au
verbalizat cu mamele lor la 18 luni şi la 24 luni.

Numărul de cuvinte verbalizate într-un minut la vârste diferite.

Alina Cristina Raluca Carmen Simona Radu Cristi Dan


18 luni 3 2 4 5 2 3 2 4
24 luni 5 4 7 8 3 4 4 6

XV.1. Scoruri relaţionate: testul semnului.

Pasul 1:

În „Data View” din „Data Editor”


se introduc datele în primele două
coloane.

Pasul 2:

Se selectează:
„Analyze”
„Nonparametric Tests”
„2 Related Samples…”

Pasul 3:
Se selectează
„Optsprezece” şi
„douăzecisipatru” şi se
apasă butonul ◄ pentru
a introduce aceste două
variabile în caseta „Test
Pair(s) List”.
249
Introducere în SPSS 2010 Mihaela Sandu
Se deselectează „Wilcoxon”.
Se selectează „Sign”.
Se apasă „OK”.

XV.2. Interpretarea output-ului pentru testul semnului.


Se poate ignora primul dintre cele
două tabele care indică numărul de
diferenţe negative (0), pozitive (8)
şi inexistente (0) în ceea ce
priveşte numărul de cuvinte
verbalizate la cele două vârste.

Al doilea tabel indică nivelul de


semnificaţie al acestui test. Probabilitatea
two-tailed este de 0,008 ceea ce este
semnificativ la nivelul de 5%.

XV.3. Raportarea output-ului pentru testul semnului.

Rezultatele obţinute pot fi raportate astfel: „Există o schimbare


semnificativă la nivelul numărului de cuvinte verbalizate de la 18 luni la 24 de
luni (Testul semnului: N=0,008).

XV.4. Scoruri relaţionate: testul Wilcoxon.


Testul Wilcoxon reprezintă opţiunea predefinită în caseta de dialog a
testelor cu două eşantioane perechi. Dacă s-a deselectat anterior, se selectează
din nou. Se apasă „OK” pentru a obţine output-ul Testului Wilcoxon.

XV.5. Interpretarea output-ului pentru Testul Wilcoxon.

250
Introducere în SPSS 2010 Mihaela Sandu

Se poate ignora primul dintre cele două tabele de output. Acestea indică
numărul de diferenţe negative (0), pozitive (8) şi inexistente (0) în ceea ce
priveşte datele ordonate după cele două vârste, şi media şi suma catalogate
negative şi pozitive. Valorile pentru „două zeci şi patru „ de luni sunt mai mari
decât cele pentru „optsprezece” luni.
Al doilea tabel indică nivelul de
semnificaţie al acestui test. În loc să
folosească tabelul valorilor critice,
computerul utilizează o formulă care
stabileşte o conexiune cu distribuţia Z.
Scorul Z este de – 2,558, care are o
probabilitate two-tailed de 0,011. Aceasta înseamnă că diferenţele dintre cele
două variabile sunt semnificative din punct de vedere statistic la un nivel de 5%.

XV.6. Raportarea output-ului pentru Testul Wilcoxon.


Rezultatele obţinute pot fi raportate astfel: „Există o diferenţă
semnificativă între numărul de cuvinte verbalizate de copii între 18 şi 24 de luni
(Wilcoxon: N=8, z =2,56, two-tailed p = 0,011)”.

XV.7. Scoruri nerelaţionate: Testul U Mann-Whitney.

Pentru procesarea unui test nonparametric pentru scoruri necorelate, vom


folosi datele din tabelul următor, care indică scoruri ale emotivităţii obţinute de

251
Introducere în SPSS 2010 Mihaela Sandu
10 copii care provin din familii biparentale şi 10 copii care provin din familii
monoparentale.

Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9

Pasul 1:
- este acelaşi ca şi cel prezenta la capitolul XI.

Pasul 2:

Se selectează:
„Analyze”
„Nonparametric tests”
„2 Independent Samples…

Pasul 3:

Se selectează
„Emotivitate” şi se
apasă butonul
►pentru a introduce
parametrul
„Emotivitate” în
caseta „Test Variable
List”.

Se selectează
„Familie” şi se apasă
butonul ◄pentru a
introduce „Familie” în
caseta „Grouping
Variables”.

252
Introducere în SPSS 2010 Mihaela Sandu

Se selectează „Define Groups…”

Pasul 4:

Se scrie 1 (pentru un singur părinte) în c


aseta de lângă „Group 1”.
Se scrie 2 (pentru 2 părinţi) în caseta de
lângă „Group 2”.
Se selectează „Continue”.
Se apasă „OK” din ecranul anterior care va
reapărea.

XV.8. Interpretarea output-ului pentru testul U Mann-Whitney.

Se poate ignora primul dintre cele două tabele de output. Acest tabel
indică faptul că rangul mediu dat parametrului „Emotivitate” pentru primul grup
(adică valoarea 2) este 13,15, iar rangul mediu pentru al doilea grup (adică
valoarea 1) este de 7,85. Aceasta înseamnă că valorile din grupul 2 (biparentale)
au tendinţa să fie mai mari decât cele din grupul 1 (monoparentale).

Al doilea tabel indică statistica de bază mann-


Whitney, valoarea U fiind de 23,500, ceea ce
este semnificativ din punct de vedere statistic
la un nivel de 0,043.
Computerul a listat şi un scor Z de -2,011, care
este semnificativ la nivel de 0,044.
Aceasta este valoarea Testului Mann-Whitney
atunci când se aplică o corecţie pentru ranguri înrudite. După cum se poate
253
Introducere în SPSS 2010 Mihaela Sandu
vedea, aceasta a modificat nivelul de semnificaţie doar marginal, de la 0,44 la
0,44.
XV.9 Raportarea output-ului pentru Testul U Mann-Whitney.

Rezultatele obţinute în urma acestei analize se pot raporta astfel: „ Testul


U Mann-Whitney a concluzionat că scorurile emotivităţii la copii din fa,iliile cu
doi părinţi sunt semnificativ mai mari decât la cei din familiile cu un singur
părinte (U=23,5, N1,2=10, p two-tailed p= 0,044)”.

XVI. Analiza de varianţă (ANOVA).


Introducere în metoda one-way ANOVA
cu scoruri nerelaţionate sau necorelate.
_________________________________________________________________________________________________________________

Analiza de varianţă cu scoruri nerelaţionate/necorelate indică măsura în


care câteva (două sau mai multe) grupuri au medii foarte diferite.

*Grupurile diferite aparţin variabilei independente iar valorile numerice corespund


variabilei dependente.

Analiza de varianţă calculează variaţia dintre scoruri şi pe cea dintre


mediile eşantioanelor.
One – way ANOVA este folosit pentru testare pentru diferenţele între
două sau mai multe grupe independente. ANOVA este utilizat pentru a testa
diferenţe între cel puţin trei grupuri, deoarece cele două grupuri de caz pot fi
acoperite de u un T-test.
De fapt, testul t independent este un tip special de ANOVA simpla în care
sunt implicate doar doua grupe. ANOVA simpla permite evaluarea ipotezei nule
între mediile a doua sau mai multe serii de date cu restricţia ca acestea sa fie
trepte ale aceleiaşi variabile independente.

254
Introducere în SPSS 2010 Mihaela Sandu
ANOVA simpla permite compararea simultana a trei sau mai multe
grupe menţinând nivelul  la valoarea dorita, de maxim 0,05.
Procesarea analizei one-way de varianţă cu scoruri nerelaţionate este
exemplificată folosind datele din tabelul următor, care indică rezultatele obţinute
de către diferiţi participanţi în condiţii diferite. Este vorba despre un studiu
asupra efectului unor tratamente hormonale şi placebo asupra depresiei.
Astfel, medicamentul este variabila independentă şi depresia este
variabila dependentă.

Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4

XVI.1. Metoda one-way ANOVA pentru eşantioane independente.

Pasul 1:

Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”.

Pasul 2:

Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.

255
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă
caseta „Dependent List” –
pentru a introduce
parametrul în casetă.

Se selectează „Condiţie” şi
se apasă butonul ◄ de lângă
caseta „Factor” – pentru a
introduce parametrul acolo.

Se selectează „Options…

Pasul 4:
Se selectează metodele statistice
„descriptive” şi „Momogenity of variance
test”.

Se selectează „Continue…”.
Se apasă „OK” din ecranul anterior, care
va reapărea.

XVI.2. Interpretarea output-ului.

Primul tabel oferă diferite statistici descriptive, cum ar fi numărul de


cazuri, media şi abaterea standard în cele trei condiţii şi pe eşantionul total.

Al doilea tabel oferă rezultatele


Testului Levene al similarităţii
varianţelor. Acest test nu este
semnificativ deoarece are o

256
Introducere în SPSS 2010 Mihaela Sandu
semnificaţie de 0,441.

Al treilea tabel indică rezultatele analizei de varianţă. Raportul F este


semnificativ la nivel de 0,00, acesta fiind mai mic decât 0,05.
 Raportul F se calculează prin împărţirea „sum of square” (suma
pătratelor abaterilor de la medie) dintre grupe, este împărţită suma pătratelor de
la media din interiorul grupelor (sum of squares groups)m ceea ce dă un Raport
F de 13,941 (20,333/0,889 = 13,941).
 Aceasta înseamnă că există o diferenţă semnificativă între cele trei
grupuri.

XVI.3. Raportarea ouput-ului.

Rezultatele obţinute pot fi raportate astfel: „Per total, efectul tratamentului


cu medicamente a fost semnificativ (F2,6 = 13,94, p= 0,00). În schimb, nu a
existat nicio diferenţă semnificativă între media controlului placebo şi media
tratamentului hormonal 2.

257
Introducere în SPSS 2010 Mihaela Sandu

XVII. Analiza de varianţă bifactorială pentru


scoruri nerelaţionate/necorelate.
_________________________________________________________________________________________________________________

Analiza two-way de varianţă permite compararea mediilor unei variabile


dependente atunci când există două variabile independente.
Dacă există mai mult de o variabilă dependentă, atunci analiza se
realizează separat pentru fiecare variabilă.
Realizarea unei analize two-way pentru scoruri nerelaţionate de varianţă
este exemplificată în tabelul următor, care indică scorurile obţinute de către
diferiţi participanţi în şase condiţii, reflectând cei doi factori ai privării de somn
şi alcool. Scopul acestei analize este acela de a aprecia dacă diferitele combinaţii
de cafea şi deprivare de somn afectează diferenţiat numărul mediu de greşeli
făcute.

Datele pentru un experiment referitor la privarea de somn:


Numărul de erori în cazul unui test video.

privare de somn
3 ore 6 ore 9 ore
Consum alcool 14 16 20
10 14 22
15 23 30
Fără alcool 9 11 10
9 258 8 14
12 11 12
Introducere în SPSS 2010 Mihaela Sandu

XVII.1. Metoda two-way ANOVA pentru scoruri nerelaţionate.

Pasul 1:
Se introduc datele. Cele ouă coduri pentru
„Alcool” (1=alcool; 2= fără alcool) – în prima
coloană.

Cele trei coduri pentru „Privare de somn” se


regăsesc în a doua coloană (1= 3 ore, 2= 6 ore,
3= 9 ore).

Greşelile sunt prezentate în a treia coloană.

Se elimină cele două zecimale din mediul


„Variable View”.

Pasul 2:

Se selectează:
„Analyze”
„General Linear Model”
„Univariate…”

Pasul 3:

Se selectează „Erori” şi
se apasă butonul ► de
lângă caseta „Dependent
Variable”pentru a
introduce parametrul
acolo.
Se selectează „Alcool”
şi „Privare de somn” fie

259
Introducere în SPSS 2010 Mihaela Sandu
împreună, fie separat, şi se apasă butonul „Fixed factor(s)” pentru a le introduce
în casetă.
Se selectează „Options…”

Pasul 4:

Se selectează
„Descriptives
statistics” şi
„Homogeneity test”.

Se selectează
„Continue”.

În ecranul anterior,
care va reapărea, se
selectează „Plots…”.

Pasul 5:

Se selectează „Alcool”
şi se apasă butonul ►
de lângă caseta
„Horizontal axis” –
pentru a introduce
parametrul acolo.

Se selectează „Privare
de somn” şi se apasă
butonul ◄ de lângă
caseta „Separate Lines”
- pentru a introduce
opţiunea în casetă.

Se selectează „Add”
.
Se selectează „Continue”. Se apasă „OK” din ecranul anterior
care va reapărea.

260
Introducere în SPSS 2010 Mihaela Sandu

XVII.2. Interpretarea output-ului.


Acest tabel conţine
mediile , abaterile
standard şi numărul
(N) de cazuri
pentru cele două
variabile „Alcool”
şi „Privare de
somn”. Luate
separat sau
împreună.
Media pentru
condiţia „Alcool”
este comparată cu
„Totalul” pentru
„Privare de somn”
(adică 18,22). Media pentru privare de 3 ore de somn este comparată cu „Total”
pentru „Alcool” (adică 11,50).

Al treilea tabel de oferă


informaţii referitoare la Testul
Levene, care verifică
similaritatea varianţelor. Din
moment ce semnificaţia acestui
test este 0,085 (valoarea care este
mai mare decât 0,05), varianţele
sunt similare

Al patrulea
tabel indică
nivelele de
semnificaţie
pentru cele două
variabile
„Alcool” şi
„Privare de
somn”, şi
interacţiunea
dintre acestea.

 În tabelul de analiză a varianţei, raportul F pentru cele două efecte principale


(Alcool şi Privare de somn) este prezentat primul.

261
Introducere în SPSS 2010 Mihaela Sandu
 Pentru prima variabilă, cea a alcoolului, Raportul F este 22,891, ceea ce este
semnificativ la nivelul 0,000. Deoarece sunt numai două condiţii pentru ca acest
efect să se producă, se poate conhide că scorul mediu al uneia dintre condiţii
este mult mai mare decât pentru cealaltă.
 Pentru a doua variabilă a privării de somn, aceasta este egală cu 5,797,
valoare care are un nivel exact de semnificaţie de 0,017. Astfel, Raportul f este
semnificativ din punct de vedere statistic la un nivel de 0,05, ceea ce înseamnă
că mediile celor trei condiţii legate de somn nu sunt similare.
 Mediile care diferă de celelalte pot fi determinate ulterior prin folosirea
testelor de comparaţii multiple, cum este Testul t pentru eşantioane
independente.
 raportul F pentru interacţiunile dintre cele două variabile (Alcool şi Privare de
somn) este de 2,708 → nivelul de semnificaţie al acestui raport este de 0,107→
nu este nicio interacţiune semnificativă.
Acest grafic este realizat pentru mediile celor şase condiţii. El a fost editat
cu ajutorul comenzii “Chart Editor”.

Estimated Marginal Means of erori

privare de somn
3 ore
22,50 6 ore
9 ore
Estimated Marginal Means

20,00

17,50

15,00

12,50

10,00

alcool fara alcool

alcool

XVII.3. Raportarea output-ului.

 Rezultatele din output se pot raporta astfel: „O analiză de varianţă two-way


ANOVA demonstrează obţinerea unor efecte semnificative în cazul alcoolului (F
= 22,981, p< 0,001) şi al privării de somn (F=5,80, p = 0,017), dar nu şi în cazul
interacţiunii celor două variabile (F =2,70, p= 0,107).

262
Introducere în SPSS 2010 Mihaela Sandu

XVIII. Comparaţii multiple cu ANOVA.


_________________________________________________________________________________________________________________

Acest capitol extinde aria de acoperire a Testelor t multiple prezentate în


capitolele anterioare şi explică modul în care se decide care perechi de medii
sunt diferite în mod semnificativ între ele, în cazul analizei de varianţă.
Această tehnică se foloseşte atunci când sunt mai mult de două medii.
Pentru a prezenta această procedură vor fi folosite informaţiile prezentate
la capitolul XV.

Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4

Pasul 1:

Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”.

Pasul 2:

Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.

263
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă
caseta „Dependent List” –
pentru a introduce
parametrul în casetă.

Se selectează „Condiţie” şi
se apasă butonul ◄ de lângă
caseta „Factor” – pentru a
introduce parametrul acolo.

Se selectează „Post Hoc…”

Pasul 4:

Se selectează:
„Tukey”
„Duncan”
„Scheffe”.

Se apasă
„Continue”.

Se selectează „OK”
în ecranul care va
apărea din nou.

XVIII.1. Interpretarea output-ului.

Primul tabel reprezintă rezultatele analizei de varianţă. Raportul F pentru


efectul dintre grupuri (adică efectul hormonilor) este 13,941, care are un nivel
exact de semnificaţie de 0,006. Acest lucru înseamnă că efectul dintre grupuri
este semnificativ; per total, mediile pentru cele trei grupuri diferă.

264
Introducere în SPSS 2010 Mihaela Sandu
Al doilea tabel şi ultimul oferă rezultatele celor trei teste de comparaţii
multiple.

Dacă se foloseşte Testul Tukey al diferenţei semnificative oneste


(HSD), media de la grupul hormonului 1 este semnificativ diferită de media de
la grupul hormonului 2 (semnificaţia=0,06) şi semnificaţia de la media grupului
Controlului placebo (semnificaţia=0,020).

Subgrupele omogene.

Grupul hormonului 2 şi al
controlului Placebo
aparţin aceleiaşi
subgrupe, ceea ce
înseamnă că nu sunt
semnificativ diferite.

Grupul hormonului 1 este


singurul din această a
doua subgrupă, motiv
pentru care aceasta este
semnificativ diferită de
mediile celorlalte două
grupe.
* Sunt reprezentate mediile grupelor din subgrupele omogene.
a. Foloseşte Media armonică a dimensiunilor eşantioanelor
=3,000.

265
Introducere în SPSS 2010 Mihaela Sandu
 Tabelul final, numit „Subgrupele omogene”, enumeră grupurile de medii care
nu sunt semnificativ diferite între ele.
Dacă se ia în calcul aceste două rânduri pentru a se folosi în Testul Tukey HSD,
în acest caz există două subgrupe de medii. Subgrupa 1 indică faptul că mediile
grupelor hormonului 2 şi ale controlului placebo cu valorile 3,33 şi 4,67 nu
diferă semnificativ. Subgrupa 2 conţine doar media grupei hormonului 1, în
valoare de 9,00. Astfel, media grupului hormonului 1 este semnificativ diferită
atât de media grupei hormonului 2, cât şi de cea a gupelor de control placebo.
 Toate cele trei teste prin comparaţii multiple sugerează acelaşi lucru: faptul că
există diferenţe semnificative între grupele hormonului 1 şi hormonului 2 şi între
grupele hormonului 1 şi cele ale controlului placebo. Alte diferenţe nu mai
există.

XVIII.2. Raportarea output-ului.

Rezultatele output-ului pot fi raportate astfel: „O analiză de varianţă


unifactorială pentru scoruri necorelate a demonstrat producerea unui efect
general semnificativ pe tip de tratament medicamentos (F=13,94, p= 0,06). Prin
Metoda Scheffe de analiză a intervalului s-a descoperit că grupul hormonului 1
era diferit de grupul hormonului 2 (p= 0,07) şi de grupul controlului placebo
(p=0,24), dar nu s-au mai găsit alte diferenţe semnificative”.

266
Introducere în SPSS 2010 Mihaela Sandu

XIII.2. Alegeţi răspunsul corect

1. Calculul variabilelor noi:


a. adunarea şi scăderea;
b. înmulţirea şi împărţirea;
c. ambele variante de mai sus.

2. Analiza de varianţă (ANOVA):


a. indică măsura în care două sau mai multe grupuri au medii foarte
diferite;
b. calculează variaţia dintre două scoruri;
c. calculează variaţia dintre mediile eşantionului.

3. ANOVA este utilizată pentru:


a. a testa diferenţa între cel puţin 2 grupuri;
b. a testa diferenţa între cel puţin 3 grupuri;
c. a testa diferenţa între cel puţin 4 grupuri;

4. Analiza two-way de varianţă permite:


a. compararea mediilor unor variabile independente;
b. compararea mediilor dintre două grupuri;
c. compararea mediilor unei variabile dependente atunci când există
două variabile independente.

5. Comparaţiile multiple cu ANOVA:


a. explică modul în care se decise care perechi de medii sunt diferite
în mod semnificativ între ele;
b. se foloseşte atunci când sunt mai mult de două medii;
c. indică scorurile obţinute de respondenţi.

267
Introducere în SPSS 2010 Mihaela Sandu

XIII.3. Răspunsuri corecte

1. c. ambele variante de mai sus.


2. a. indică măsura în care două sau mai multe grupuri au medii foarte
diferite;
3. b. testa diferenţa între cel puţin 3 grupuri;
4. c. compararea mediilor unei variabile dependente atunci când există
două variabile independente.
5. a. explică modul în care se decise care perechi de medii sunt diferite
în mod semnificativ între ele;
b. se foloseşte atunci când sunt mai mult de două medii;

268
Introducere în SPSS 2010 Mihaela Sandu

BIBLIOGRAFIE

1. Andrei, T; Stancu, S; 1995 – Statistică. Teorie şi aplicaţii, Ed. All,


Bucureşti;
2. Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi
socială, Ed. “Andrei Şaguna”, Constanţa;
3. Clocotici V., Stan A., 2001 – Statistica aplicată în psihologie, Ed.
Polirom, Iaşi;
4. Dennis H., Duncan C., 2006 – Introducere în SPSS pentru psihologie, Ed.
Polirom, Iaşi;
5. Howell, D, (2002), Statistical Methods for Psychology, Ediţia a v-a,
Duxbury Press Boston;
6. Jaba E., Gramma A., (2004) – Analiza statistică cu SPSS sub Windows,
Ed. Polirom, Iaşi;
7. Jaba E., Pintilescu C., 2005 – Statistica – teste grilă şi probleme, Ed.
Sedcom Libris, Iaşi;
8. Jaba E., Gramma A., 2004 – Analiza statistică cu SPSS sub Windows, Ed.
Polirom, Iaşi;
9. Opariuc-Dan, Cristian, 2009 - "Statistica aplicata in stiintele socio-
umane. Notiuni de baza - Statistici univariate" Editura ASCR, Cluj-
Napoca;
10. Radu I. şi coord., 1993 – Metodologie psihologică şi analiza datelor, Ed.
Sincrom, Cluj – Napoca;
11.Rotariu T. şi coord., 2006 – Metode statistice aplicate în ştiinţele sociale,
Ed. Polirom, Iaşi;
12.Sava, F. A. 2004. Analiza datelor în cercetarea psihologică. Metode
statistice complementare. Cluj-Napoca : ASCR;

269
Introducere în SPSS 2010 Mihaela Sandu
13. Ţiţan E, Ghiţă, S,, Trandaş, C, 2003 – Bazele statisticii, Ediţia a 2-a, Ed.
Meteor Press, Bucureşti;
14. Vasilescu, Ilie P., 1992 – Statistică informatizată pentru ştiinţele despre
om, Ed. Militară, Bucureşti;
15.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 2004 – Statistica, Ed.
Universitară, Bucureşti;
16.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 1998 – Statistică teoretică şi
economică. Lucrări practice, teste şi studii de caz, Ed. Economică,
Bucureşti;
17.Voineagu, V; Ţiţan, E, 2004 – Sondaje şi anchete, vol. 1 şi II, Ed.
Fundaţiei „Andrei Şaguna”, Constanţa.

270

S-ar putea să vă placă și