Documente Academic
Documente Profesional
Documente Cultură
ELEMENTE
DE STATISTICĂ
APLICATĂ
BUCUREŞTI 2010
1
Elemente de statistica aplicata 2010 Mihaela Sandu
CUPRINS
PREFAŢĂ………………………………………………………………………….1
PARTEA ÎNTÂI: ELEMENTE DE STATISTICĂ
Cuvânt înainte………………………………………………………………........4
Capitolul I. Noţiuni introductive……………………………………………....6
I.1. Noţiuni şi concepte utilizate în statistică…………………………………....8
I.2. Alegeţi răspunsul corect………………………………………………….....14
I.3. Răspunsuri corecte………………………………………………………….17
Capitolul II. Observarea datelor statistice…………...……………………….18
II.1. Metode de observare statistică…………………………………………......20
II.2. Eroarea statistică. Controlul datelor statistice...................................................28
II.2. Alegeţi răspunsul corect…………………………………………………….30
II.3. Răspunsuri corecte………..………………………………………………...32
Capitolul III. Scale (nivele) de măsurare……………………………………...33
III.1. Scale neparametrice………………………………………………………...34
III.1.1. Scala nominală……………………………………………………..34
III.1.2. Scala ordinală ……………………………………...……………....39
III.2. Scale parametrice…………………………………………………………...44
III.2.1. Scala de interval....…………………………...………………….....44
III.2.2. Scala de raport...…………………………………………………...47
III.3. Alegeţi răspunsul corect…………………………………………………....49
III.4. Probleme…………………………………………………………………….52
III.5. Răspunsuri corecte………………………………………………………….54
Capitolul IV. Indicatori statistici……………………………………………….57
IV.1. Indicatori ai tendinţei centrale……………………………………………...58
IV.1.1. Media aritmetică...………………………………………………….58
IV.1.2. Modul...……………………………………………………………..61
IV.1.3.Mediana………...…………………………………………...……....64
IV.2. Quartilele…………...……………………………………………………….68
IV.3. Indicatori ai variabilităţii..…………………….……...…………………….71
IV.3.1. Indicatori sintetici ai variaţiei……………………………….……...72
IV.3.1.1. Abaterea medie liniară…………………………………….…...73
IV.3.1.2. Dispersia………………………….…………………………....75
IV.3.1.3. Abaterea medie pătratică………………………………………77
IV.3.1.4. Coeficientul de variaţie………………….……………………....78
IV.4. Indicatori ai formei distribuţiei………………………….…………………..79
IV.4.1. Indicatori ai asimetriei………………………………………………79
IV.4.2. Coeficientul Yule…………………………………………………......82
IV.4.3. Coeficientul de asimetrie Fisher………………………………… …84
2
Elemente de statistica aplicata 2010 Mihaela Sandu
3
Elemente de statistica aplicata 2010 Mihaela Sandu
4
Elemente de statistica aplicata 2010 Mihaela Sandu
5
Elemente de statistica aplicata 2010 Mihaela Sandu
6
Elemente de statistica aplicata 2010 Mihaela Sandu
7
Elemente de statistica aplicata 2010 Mihaela Sandu
PARTEA ÎNTÂI
- ELEMENTE DE STATISTICĂ -
Cuvânt înainte
8
Elemente de statistica aplicata 2010 Mihaela Sandu
9
Elemente de statistica aplicata 2010 Mihaela Sandu
I. NOŢIUNI INTRODUCTIVE
-
_______________________________________________________________________________________________________________________
10
Elemente de statistica aplicata 2010 Mihaela Sandu
1
Clocotici, V, Stan, A, 2000 – Statistica aplicată în psihologie, Ed. Polirom, Iaşi, p.13.
2
Elisabeta Jaba, 2002 – Statistica, Ed. A treia, Ed. Economică, Buc, pag. 13-16
11
Elemente de statistica aplicata 2010 Mihaela Sandu
Forma cea mai veche a statisticii moderne este statistica practică folosită în
scopuri demografice, administrative şi fiscale. Încă din mileniile IV şi III îen
chinezii dispuneau de date cu privire la numărul populaţiei, structura terenurilor şi
chiar utilizau tabele statistice pentru unele aspecte ale activităţii agricole.
Recensămintele populaţiei efectuate, începând cu anul 550 îen, de romani, greci şi
egipteni sunt, de asemenea, exemple pentru rădăcinile istorice ale statisticii practice
(etapa prestatistică).
Dezvoltarea statelor feudale a dus la evoluţia şi perfecţionarea evidenţelor
privind situaţia geografică, economică şi politică. Se elaborează lucrări în care se
prezintă detaliat situaţia social-economică folosind date statistice. Apare, astfel,
statistica descriptivă care se ocupă de culegerea datelor despre un fenomen şi cu
înregistrarea acestor date.
Fondatorul Şcolii descriptive şi autorul primului Curs de Statistică, în
1660, a fost Herman Conring (1606-1681) profesor la Universitatea din Helmstedt.
Reluând ideile lui Conring, un secol mai târziu, Gottfried Achenwall (1719-1772),
profesor la Universitatea din Göttingen, defineşte statistica drept o ştiinţă
descriptivă folosită pentru prezentarea particularităţilor unui stat, introducând
pentru prima oară termenul de statistică (statistik).3
Bazele statisticii descriptive au fost puse de către Dimitrie Cantemir prin
monografia, de talie europeană, „Descriptio Moldavie”, apărută în 1716. O altă
lucrare de referinţă poate fi considerată şi „Expunere statistică asupra Moldovei”
întocmită în 1782 de către un înalt funcţionar al Curţii de la Viena, Wenzel von
Brognard.
3
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 11.
12
Elemente de statistica aplicata 2010 Mihaela Sandu
4
Clocotici, V, Stan, A, 2001 – Statistica aplicată în psihologie, Ed. Polirom, Iaşi, p. 13
13
Elemente de statistica aplicata 2010 Mihaela Sandu
5
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 20
14
Elemente de statistica aplicata 2010 Mihaela Sandu
4. Variabile statistice.
6
Vasilescu, Ilie Puiu, (1992) – Statitica informatizată pentru ştinţele despre om, Editura Militară, Bucureşti.
8
idem, p. 20
15
Elemente de statistica aplicata 2010 Mihaela Sandu
9
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa, p. 22
16
Elemente de statistica aplicata 2010 Mihaela Sandu
a. Variabile discrete.
Variabilele discrete sunt cele a căror variaţie se manifestă prin salturi; ele nu
pot lua decât anumite valori pe scara lor de variaţie (de regulă numere întregi).
Exemplu:
numărul de copii pe care îi are o familie;
numărul de oraşe dintr-un judeţ;
genul biologic;
Gradul didactic;
În cazul variabilelor discrete, mulţimea de definiţie a valorilor sale este o
mulţime discontinuă iar între două valori nu poate fi interpusă o valoare
intermediară.
Variabilele discrete pot fi categoriale sau de rang.
b. Variabile continue
Sunt acele variabile care pot lua orice valoare dintr-un interval finit sau infinit,
care reprezintă scara lor de variaţie.
Exemplu:
greutatea → între un subiect de 76 kg şi un subiect de 78 kg putem găsi
oricând un subiect de 77,5 kg;
cifra de afaceri a unei firme;
înălţimea subiecţilor.
În cazul acestor variabile, mulţimea de definiţie a valorilor sale este una
continuă, ne-numărabilă. Aceste variabile se mai numesc şi variabile scalare (de
interval sau de raport).
17
Elemente de statistica aplicata 2010 Mihaela Sandu
Exemplu:
11
Benţea, M, Munteanu, G, 2007 – Elemente de statistică economică şi socială, Ed. Fundaţiei „Andrei Şaguna”,
Constanţa,p. 23
18
Elemente de statistica aplicata 2010 Mihaela Sandu
19
Elemente de statistica aplicata 2010 Mihaela Sandu
20
Elemente de statistica aplicata 2010 Mihaela Sandu
21
Elemente de statistica aplicata 2010 Mihaela Sandu
22
Elemente de statistica aplicata 2010 Mihaela Sandu
23
Elemente de statistica aplicata 2010 Mihaela Sandu
24
Elemente de statistica aplicata 2010 Mihaela Sandu
25
Elemente de statistica aplicata 2010 Mihaela Sandu
26
Elemente de statistica aplicata 2010 Mihaela Sandu
15
Jaba, E, Pintilescu, C, 2005 – Statistică – teste grilă şi probleme, Ed. Sedcom Libris, Iaşi, pag. 36
27
Elemente de statistica aplicata 2010 Mihaela Sandu
Erorile statistice pot apare în toate etapele cercetării statistice şi pot fi:
erori de reprezentativitate:
erori de modelare:
16
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa, p.
36
28
Elemente de statistica aplicata 2010 Mihaela Sandu
4. Ancheta statistică:
a) este o metodă de observare totală;
b) este o metodă de observare parţială care numai întâmplător poate să
îndeplinească condiţia de reprezentativitate;
c) este o metodă de observare parţială, care, în mod obligatoriu, trebuie
să îndeplinească condiţia de reprezentativitate;
d) este o metodă de observare parţială, care se bazează pe obligativitatea
completării chestionarelor;
e) mai este denumită şi sondaj statistic.
29
Elemente de statistica aplicata 2010 Mihaela Sandu
30
Elemente de statistica aplicata 2010 Mihaela Sandu
1. b - sondaje statistice;
6. a - un recensământ;
7. c - sondaj statistic.
8. b - populaţia ţării;
9. a - momentele de recensământ;
31
Elemente de statistica aplicata 2010 Mihaela Sandu
Raport
Parametric
Interval
Cuantificare
Ordinal
Neparametri
c
Nominal
32
Elemente de statistica aplicata 2010 Mihaela Sandu
Schematic, nivelurile de măsurare se pot prezenta astfel. (Figura 1).(după Opariuc, 2009).
33
Elemente de statistica aplicata 2010 Mihaela Sandu
Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
17
34
Elemente de statistica aplicata 2010 Mihaela Sandu
crea iluzia unei ierarhii (1 este mai mic decât 2 etc.), dar aceasta este doar o iluzie,
utilizată uneori în scopuri de manipulare).
Ne propunem să caracterizăm 150 de indivizi după apartenenţa la un tip de
temperament. După investigaţie, rezultă 32 de colerici, 48 de sangvinici, 37
melancolici, 33 de flegmatici. Potrivit codificării date pot fi prezentate astfel:
ni
* n n
n i= = i (1)
i n
n
i 1
ni ni
n
100 100
*
ni= n
n
i 1
i
35
Elemente de statistica aplicata 2010 Mihaela Sandu
Scala ordinală este cunoscută şi sub numele de scală de ordine, de rang, scală
ierarhică. O scală ordinală permite ordonarea observaţiilor, persoanelor, situaţiilor de
la mic la mare, de la simplu la complex, atunci când în empiricul relativ se introduc,
pe lângă relaţiile de echivalenţă şi relaţiile de ordine.
Observaţie: În cazul scalelor ordinale se poate stabili ierarhia a „n” gradaţii ale
variabilei, dar nu se poate preciza valoarea diferenţei dintre două gradaţii.
Crearea unei scale ordinale presupune, cu prioritate, stabilirea unei relaţii de
ordine între valorile posibile ale variabilei studiate.
Proprietăţile scalei:
36
Elemente de statistica aplicata 2010 Mihaela Sandu
Fci = n
k 1
k (3) F*ci = n
k 1
*
k (4)
37
Elemente de statistica aplicata 2010 Mihaela Sandu
1. creativitate expresivă;
2. creativitate productivă;
3. creativitate inventivă;
4. creativitate inovatoare;
5. creativitate emergentă.
Frecvenţa relativă (%)
Frecvenţa absolută
Nivel creativ
38
Elemente de statistica aplicata 2010 Mihaela Sandu
Din aceste considerente utilizăm diagramele sub formă de bare verticale. Vizualizările pot să aibă drept obiect atât frecvenţele absolute
cât şi cele relative.
Scala de interval are proprietăţile scalei ordinale, dar intervalul dintre două
variante este exprimat în termenii unei unităţi de măsură fixe. Prin aceasta operaţia
de măsurare a observaţiilor pe o scală de intervale determină cantitatea exactă de
caracteristică existentă în observaţii.
În psihologie practic nu întâlnim această scală decât în domeniul
psihofiziologiei, în care înregistrăm timpi de reacţie, număr de erori, forţa unei
reacţii etc. Acest nivel de măsurare ne permite să răspundem la întrebarea „cu cât
este mai mare” dar nu şi la întrebarea „de câte ori”, deoarece la nivelul acestei scale
nu întâlnim un punct zero absolut, ci unul arbitrar ales.
39
Elemente de statistica aplicata 2010 Mihaela Sandu
40
Elemente de statistica aplicata 2010 Mihaela Sandu
248, 235, 265, 254, 312, 321, 298, 274, 286, 312, 288, 286, 245, 222, 234, 238 ,254,
265, 231, 254, 233, 265.
Xmin = 221
Xmax = 321.
r=4
A 100
h= 25
r 4
Intervale Frecvenţă
221 - 246 8
246 - 271 8
271 - 296 5
296 - 321 4
41
Elemente de statistica aplicata 2010 Mihaela Sandu
Scala de raport are proprietăţile scalei de interval, iar raportul dintre două
puncte ale scalei după care unităţile sunt clasificate are semnificaţie, indiferent de
unitatea de măsură utilizată în stabilirea scalei.
1. Scala nominală:
a. nu permite redenumirea unor noi nume;
b. permite schimbarea ordinii elementelor;
c. este cunoscută şi sub numele de scală cantitativă.
6. Scala ordinală:
43
Elemente de statistica aplicata 2010 Mihaela Sandu
9. Scala de interval:
a. presupune stabilirea unei relaţii de ordine între valorile studiate;
b. presupune ca intervalul dintre două variante să fie exprimat în termenii unei
unităţi de măsură fixe;
c. nu poate determina cantitatea exactă de caracteristică existentă în
observaţii;
d. nu are ca extensie scala de interval.
44
Elemente de statistica aplicata 2010 Mihaela Sandu
III.4. Probleme
45
Elemente de statistica aplicata 2010 Mihaela Sandu
1. Ne propunem să studiem 200 de persoane pentru a vedea care este profesia lor.
După investigaţie au rezultat:
32 avocaţi 50 economişti 66 jurişti
21 contabili 31 psihologi
Cerinţe:
a. Identificaţi frecvenţa absolută;
b. Calculaţi frecvenţa relativă
2. În urma controlului de calitate, într-un lot de 500 de piese, se găsesc n i=30 piese
rebut.
Să se calculeze procentul mediu al pieselor de rebut din lot.
46
Elemente de statistica aplicata 2010 Mihaela Sandu
5. Distribuţia a „n” familii dintr-un bloc, după numărul de copii (x), la un moment
dat, se prezintă astfel:
Xi 0 1 2 3 4 5 6 7
ni 6 18 23 20 14 6 2 1
Fci 6 24 47 67 81 87 89 96
47
Elemente de statistica aplicata 2010 Mihaela Sandu
48
Elemente de statistica aplicata 2010 Mihaela Sandu
11. b - are toate caracteristicile scalei ordinale şi, în plus, distanţa sau ;
12. d - ordinală;
49
Elemente de statistica aplicata 2010 Mihaela Sandu
13. b - de interval;
30
p *100 6 0 0
500
Interpretare: Rezultatul obţinut arată că în medie, la fiecare 100 de piese
observate, 6 piese sunt rebut.
50
Elemente de statistica aplicata 2010 Mihaela Sandu
ni
4. Răspuns. ni*= * 100
ni
3030
Ni0*= * 100 30,11 %
10062
( ) ni1 ni 0 23,55 30,11 6,56%
* *
2017
Ni1*= * 100 23,55%
8563
Interpretare: Structura populaţiei ocupate în industrie a scăzut, în anul 2001 faţă
de 1993, cu 6,56%.
51
Elemente de statistica aplicata 2010 Mihaela Sandu
x
x n % 10 75 200 140 45 470 4,7ore
i i
Astfel în medie o persoană din eşantionul studiat audiază 4,7 ore de program
la postul de radio respectiv.
52
Elemente de statistica aplicata 2010 Mihaela Sandu
Compararea se face prin diferenţă sau prin raport. Prin diferenţă se compară
numai indicatorii absoluţi cu acelaşi conţinut şi exprimaţi în aceeaşi unitate de
17
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa,p. 59
53
Elemente de statistica aplicata 2010 Mihaela Sandu
măsură. Prin raport se pot compara indicatorii cu acelaşi conţinut sau conţinut
diferit, dar aflaţi în relaţie de interdependenţă.
Considerăm că termenul de medie este cel mai uşor de înţeles din întreaga
statistică.
54
Elemente de statistica aplicata 2010 Mihaela Sandu
Media reprezintă valoarea care înlocuind toţi termenii unei serii nu modifică
nivelul totalizator şi se calculează ca suma valorilor unei variabile raportată la
numărul măsurătorilor. Aceasta este media aritmetică20, deoarece în statistică mai
discutăm şi de media geometrică, media caracteristicilor alternative, media pătratică,
media rangurilor etc. Aceste concepte le întâlnim însă mai rar în domeniul ştiinţelor
socio-umane şi prin urmare nu vom face decât să le amintim.
n
x i
(1) - pentru serie simplă
x i 1
n
Exemplu: Vârsta a 7 studenţi de la facultatea de psihologie este de 25, 26, 32, 33,
40, 22, 26, 24. Vârsta medie este :
25 26 32 33 40 22 26 24 228
x 28,5ani
8 8
Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
20
55
Elemente de statistica aplicata 2010 Mihaela Sandu
xn i i
x i 1
r (2) – pentru o serie cu distribuţie de frecvenţe.
ni
i 1
Exemplu : Salariile date angajaţilor (mil. lei) de către 70 de firme în anul 2005 a avut următoarea distribuţie:
Interval ni
20 - 40 10
40 - 60 15
60 - 80 10
80 - 100 5
Să se calculeze media.
xn i i
x i 1
r unde:
n
i 1
i
Xi = centrul de interval
Ni =frecvenţa absolută
Observăm că în formulă avem şi necunoscute, adică Xi (centrul de interval) şi va
trebui să-l calculăm.
56
Elemente de statistica aplicata 2010 Mihaela Sandu
Interval ni Xi
20 – 40 10 30
40 - 60 15 50
60 - 80 10 70
80 - 100 5 90
……………………………….
80 100 180
Xi = 90
2 2
30 * 10 50 * 15 70 *10 90 * 5
x
10 15 10 5
300 750 700 450 2200
x 55 → Salariul mediu oferit este de 55 mil lei.
40 40
Notă: Pentru o serie de distribuţie de frecvenţe, media calculată pe baza
frecvenţelor relative este egală cu media aritmetică determinată pe baza
frecvenţelor absolute.
57
Elemente de statistica aplicata 2010 Mihaela Sandu
Modul este categoria cu frecvenţa cea mai mare, el reprezintă valoarea cel
mai des întâlnită într-o serie statistică sau cea care are cea mai mare frecvenţă de
apariţie. Modul se mai numeşte şi dominanta seriei sau valoarea modală.
d1
M 0 xinf M 0 hM 0
d1 d 2
unde:
xinf M 0
reprezintă limita inferioară a intervalului modal;
d1= nM nM 0 0 1 ;
58
Elemente de statistica aplicata 2010 Mihaela Sandu
d2 = nM nM
o 0 1 ;
O serie de date statistice poate să aibă una sau mai multe valori modale. O
distribuţie cu un singur mod se numeşte unimodală, dacă are două valori dominante
se numeşte bimodală, iar dacă are mai mult de două moduri se numeşte
multimodală.
Intervale ni
10-20 20
20-30 10
30-40 10
40-50 15
50-60 25
60-70 10
d1
M0 = xinf M o hM 0
d1 d 2
Intmod = 50-60 (intervalul a cărui frecvenţă absolută este cea mai mare)
xinf M 0 = 50
d1 = nM nM 0 0 1
59
Elemente de statistica aplicata 2010 Mihaela Sandu
d1 = 25 – 15 = 10
d2 = nM nM
0 0 1
nM 0
= frecvenţa intervalului modal
d2 = 25 - 10 = 15
10 10
M 0 50 20 50 20 50 8 58
10 15 25
Mo =58
Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
21
60
Elemente de statistica aplicata 2010 Mihaela Sandu
Exemplu: În cazul unui şir impar, mediana este valoarea de la mijlocul unui şir.
Dacă reluăm exemplul anterior, şi mai adăugăm un scor, obţinem:
De data aceasta, la mijlocul acestui şir găsim valoarea 17, valoarea medianei.
Observăm că n = 7.
n 1 7 1 8
LocMe = = 4
2 2 2
61
Elemente de statistica aplicata 2010 Mihaela Sandu
Altfel spus, mediana nu este altceva decât poziţia rangului din mijloc în şirul
ordonat de date. Într-o serie de la 1 la 7, poziţia din mijlocul şirului este evident,
poziţia 4. Acesta este de altfel şi locul în care găsim mediana.
Poziţia: 1, 2, 3, 4, 5, 6, 7
Pentru a calcula mediana, primul pas este acela de a ordona crescător sau
descrescător aceste date. Ordonând crescător şirul de mai sus, obţinem:
Să se calculeze mediana.
Se ordonează datele crescător, astfel : 10, 15, 18, 20, 21, 22.
n 1 6 1 7
LocMe = = 3,5 mediana se situează între a treia şi a patra
2 2 2
62
Elemente de statistica aplicata 2010 Mihaela Sandu
1 12 12
2 23 35
3 30 65
4 8 73
5 7 80
80
80 1
LocMe = 40,5
2
adică, între a 40-a şi a 41-a familie prima frecvenţă cumulată mai mare decât 40,5
este 65 varianta „trei membrii de familie” reprezintă varianta mediană situată în
mijlocul distribuţiei.
Exemplul 2: Se dă distribuţia:
63
Elemente de statistica aplicata 2010 Mihaela Sandu
Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
50-60 25 80
60-70 10 90
n 1 90 1 91
LocMe = 45,5 ; n = 90
2 2 2
LocMe Fc ( Me 1)
Me = xinf Me hMe
nMe
unde:
xinf Me - limita inferioară a intervalului median
Me = 43,66
64
Elemente de statistica aplicata 2010 Mihaela Sandu
Dezavantajele medianei:
IV.2. QUARTILELE
Quartilele împart seria în patru părţi egale, ele delimitând cele 25% din
observaţii. Quartilele sunt în număr de trei: Q1, Q2, Q3.
LocQ1 Fc ( Q1 1)
Q1 = xinf Q hQ
1 1
nQ1
unde:
xinf Q1
= limita inferioară a intervalului quartilic;
n 1
LocQ1 = ;
4
65
Elemente de statistica aplicata 2010 Mihaela Sandu
LocQ3 Fc ( Q3 1)
Q3 xinf Q3 hQ3 ;
nQ3
3(n 1)
LocQ3 ;
4
Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
50-60 25 80
60-70 10 90
LocQ1 Fc ( Q1 1)
Q1 = xinf Q hQ
1 1
nQ1
66
Elemente de statistica aplicata 2010 Mihaela Sandu
n 1 91
LocQ1 22,75
4 4
Intervalul 20;30 primul interval care are frecvenţa cumulată mai mare
decât locul quartilei Q1
hQ1 30 20 10
xinf Q1 20
Fc (Q1 1) 20
nQ1 10
22,75 20
Q1 20 10 20 10 * 0,27 22,75
10
Q3 = primele 25% din firmele care oferă cele mai mari salarii.
LocQ3 Fc ( Q3 1)
Q3 xinf Q3 hQ3
nQ3
3(n 1) 3 91
LocQ3 68,25
4 4
xinf Q3 50
hQ3 60 50 10
Fc ( Q3 1) 55
nQ3 25
68,25 55
Q3 150 10 150 5,3 155,3
25
Q3= 155,3 → primele 25% din firmele care oferă cele mai mici salarii.
67
Elemente de statistica aplicata 2010 Mihaela Sandu
A = xmax - xmin
68
Elemente de statistica aplicata 2010 Mihaela Sandu
- coeficientul de variaţie.
Se mai numeşte variaţie medie, deviaţie medie, abatere absolută medie sau
abatere liniară medie şi se poate calcula atunci când media este un bun indicator al
tendinţei centrale. Acest indicator informează asupra modului în care se abat, în
valori absolute, rezultatele de la medie, acordând aceeaşi pondere tuturor
variabilelor. Abaterea medie se poate calcula pe date grupate sau pe date discrete.
x i x
1 n
dx i 1
n
xi x
n i 1
x x n i i
dx i 1
k
n
i 1
i
x x n % . i
*
i
dx i 1
100
69
Elemente de statistica aplicata 2010 Mihaela Sandu
Exemplu:
Pentru 200 de persoane s-au sistematizat datele culese cu privire la timpul
zilnic petrecut în faţa televizorului rezultând:
persoane
*ni
ni
0-30 47 15 705 -57,75 57,75 2714,25
(Până la 30)
30-60 51 45 2295 -27,75 27,75 1415,25
T=5199
70
Elemente de statistica aplicata 2010 Mihaela Sandu
x n i i
47 *15 51* 45 24 *105 2 *135 705 2295 5700 5520 270
x i 1
n 200 200
14490
72,45
200
x i x ni
5199
dx n
25,99
200
n
i 1
i
( x x)
i
2
x2 i 1
n
71
Elemente de statistica aplicata 2010 Mihaela Sandu
( x x)
i
2
ni
2
x
i 1
k
n
i 1
i
( x x)
i
2
ni* %
x2
100
T=11490 T=182299
Să se calculeze dispersia.
k
( x x) i
2
ni
xn
n
2 i 1
, i i
=57,45
x k
x i 1
n
i 1
i n
182299
x2 911,49
200
72
Elemente de statistica aplicata 2010 Mihaela Sandu
x i 1
2
22
Petruş, Al., 2005 – Introducere în statstica socială, Editura Paralela 45, Piteşti, p. 52
73
Elemente de statistica aplicata 2010 Mihaela Sandu
( x x)
i
2
ni
- pentru o serie de frecvenţe absolute x i 1
k
n
i 1
i
( x x)
i
2
ni*%
x
100
Exemplu:
x dx 25,99
vx 100 sau vx 100 (dacă s-a calculat abaterea medie liniară 100 0,045 )
x x 57,45
74
Elemente de statistica aplicata 2010 Mihaela Sandu
Cu cât nivelul lui vx este mai apropiat de zero cu atât variaţia este mai
redusă, colectivitatea este mai omogenă, media având un grad mai ridicat de
reprezentativitate; cu cât valoarea sa este mai departe de zero, cu atât variaţia este
mai intensă, colectivitatea mai eterogenă, iar media are un nivel de semnificaţie mai
scăzut.
75
Elemente de statistica aplicata 2010 Mihaela Sandu
Fig.1 fig.2
x Me M0 x Me Mo
Fig.3 x Me Mo
76
Elemente de statistica aplicata 2010 Mihaela Sandu
As x M 0
sau
As1 3 x M e
spre dreapta (asimetrie pozitivă) şi valori negative în cazul curbelor alungite spre
stânga (asimetrie negativă).
Coeficientul de asimetrie este nul pentru o distribuţie simetrică. El mai poate fi
Cas1
3 x Me
, deoarece x M 0 3 x M e .
exprimat: x
Exemplu:
Presupunem că pentru 200 de persoane s-au sistematizat datele culese cu
privire la timpul zilnic petrecut în faţa televizorului, rezultând:
77
Elemente de statistica aplicata 2010 Mihaela Sandu
X
x i * ni
11490
57,45
n 200
d1
Mo =xinfMo-hMo d1 d 2
25
Mo=60+30 25 52 60 30 * 0,32 69,74
x M0 57,45 69,74
Cas 0,407
x 30,19
ceea ce semnifică o asimetrie negativă
Cas1
3 x Me
57,45 61
0,118
x 30,19
Casq
q2 q1
q2 q1 unde Q1= Me-Q1
Q2=Q3-Me
Casq
Q3 M e M e Q1 Q3 Q1 2M e
Q3 M e M e Q1 Q3 Q1
78
Elemente de statistica aplicata 2010 Mihaela Sandu
Acest coeficient este foarte uşor de calculat, însă ţine cont doar de câteva
valori – valorile quartile – şi nu de toate valorile din distribuţie, fapt care îi limitează
precizia şi se consideră că este doar un coeficient elementar al simetriei.
Exemplu:
Pentru o distribuţie s-au stabilit următoarele rezultate:
Q1= 150
Me= 130
Q3=140.
Să se calculeze valoarea coeficientului de asimetrie Yule.
n
utilizând frecvente
x x x x
r r
3 3
i mi i ni* %
m3 i 1
r
i 1
100
n
i 1
i
79
Elemente de statistica aplicata 2010 Mihaela Sandu
m3 m32
Coeficientul de asimetrie (Fisher): 1 .
x3 m22
Sau 2 2 3
80
Elemente de statistica aplicata 2010 Mihaela Sandu
81
Elemente de statistica aplicata 2010 Mihaela Sandu
egale, iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt
considerate ca scoruri extreme.
IV.4.4. Boltirea
82
Elemente de statistica aplicata 2010 Mihaela Sandu
Termenul folosit generic pentru acest concept este termenul de kurtosis (din
limba greacă, kurtos = „cocoşat”). Practic, boltirea se referă la aspectul „cocoaşei”
distribuţiei rezultatelor.
Aţi observat deja că boltirea nu este altceva decât simetria pe axa verticală
(OY), spre deosebire de simetria propriu zisă, deplasarea valorilor pe axa orizontală
(OX)
83
Elemente de statistica aplicata 2010 Mihaela Sandu
m4 m4
2 , unde m4 este momentul centrat de ordin 4
m22 4
x
n 4
i x
m4 i 1
n
pe baza frecventel or
x x x
r 4 r 4
i ni i x ni* %
m4 i 1
r
i 1
100
n
i 1
i
Pentru curba normală (serie simetrică) β2 = 3. Dacă β2 > 3, curba este mai
ascuţită decât cea normală (distribuţie leptocurtică). Dacă β 2 < 3, curba este mai
turtită decât cea normală (dispoziţie platicurtică).
Boltirea se mai poate măsura şi cu indicatorul:
x x
n 4
i
, care va avea valoarea zero dacă distribuţia este normală,
2 2 3 i 1
3
n 4
84
Elemente de statistica aplicata 2010 Mihaela Sandu
Rezolvare:
a. Coeficientul Yule
Casq
Q3 M e M e Q1
Q3 M e M e Q1
Q3 M e M e Q1 Q3 Q1
190,3 105,86 2 151.33 6,5
Casq 0,08
190,3 105,86 84,44
85
Elemente de statistica aplicata 2010 Mihaela Sandu
m4
2
m22
x x
4
i ni 7,93306 109
m4 20876491
n i 380
20876491
2 2,218
9413483
2 2 3 2,218 3 0,78
86
Elemente de statistica aplicata 2010 Mihaela Sandu
3. Media aritmetică a unei sume dintre două variabile este egală cu suma
mediilor celor două variabile, când:
a) cele două variabile se află într-o relaţie de interdependenţă;
b) cele două variabile se află într-o relaţie de inversă proporţionalitate;
c) cele două variabile se referă la aceeaşi colectivitate;
d) cele două variabile sunt independente;
e) cele două variabile sunt direct proporţionale.
87
Elemente de statistica aplicata 2010 Mihaela Sandu
a) prezintă valoarea din mijlocul unei serii de date în care observaţiile au fost
ordonate crescător sau descrescător;
b) nu poate fi folosită în caracterizarea tendinţei centrale pentru o serie de
date măsurate pe o scală ordinală;
c) nu are nici o legatură cu noţiunea de rang.
6. 25% din salariatii unei inteprinderii au un salariu de cel mult 4 milioane lei.
Aceasta valoare reprezintă:
a) quartila unu;
b) mediana;
c) quartila trei.
7. 75% din salariatii unei intreprinderii au un salariu de cel mult 7 milioane lei.
Aceasta valoare reprezintă:
a) quartila unu;
b) mediana;
c) quartila trei.
9. Într-o repartiţie normală valoarea faţă de care 25% din valorile individuale
sunt mai mici iar 25% din valorile individuale sunt mai mari este:
a. cuartila a doua;
b. cuartila a treia;
c. cuartila întâi;
d. valoarea modală.
10. Media este o mărime generalizată, adică, înlocuind fiecare nivel individual
al caracteristicii de distribuţie cu nivel mediu:
a. suma termenilor seriei rămâne aceeaşi;
b. suma termenilor seriei se modifică;
c. suma termenilor seriei este nulă.
88
Elemente de statistica aplicata 2010 Mihaela Sandu
d1
b) Mo = xi + hMo * d d ;
1 2
( n mo nmo 1 )
c) Mo = xi-1 + hMo (n n ) (n n )
mo mo 1 mo mo 1
89
Elemente de statistica aplicata 2010 Mihaela Sandu
Interval 0-5 5 - 10 10 - 15 15 - 20
ni 3 7 15 20
Q2=Q3-Me
(q 2 q1 )
b) Casq= (q q )
2 1
(q 3 q1 )
c) Casq= (q q )
3 1
90
Elemente de statistica aplicata 2010 Mihaela Sandu
m3
b) β2= 3
m2
2
x i x ni
dx
b) n
m4
27. Coeficientul 2 2 se utilizează pentru analiza statistică a:
m2
a) asimetriei;
b) variaţiei;
c) boltirii;
d) tendinţei centrale;
e) indicatorilor medii de poziţie.
91
Elemente de statistica aplicata 2010 Mihaela Sandu
IV.6. Probleme
92
Elemente de statistica aplicata 2010 Mihaela Sandu
Volumul
vânzărilor 0 - 10 10 - 20 20 - 30 30 - 40
Numărul
unităţilor 50 20 10 5
- comerciale
Să se calculeze nivelul mediu al vânzărilor zilnice.
3. Se dă următoarea distribuţie:
Interval ni
10-15 5
15-20 10
20-25 12
25-30 6
30-35 8
35-40 4
Să se calculeze modul.
93
Elemente de statistica aplicata 2010 Mihaela Sandu
94
Elemente de statistica aplicata 2010 Mihaela Sandu
30-60 50 45 75
60-90 60 75 135
total 200
95
Elemente de statistica aplicata 2010 Mihaela Sandu
10. Distribuţia unui eşantion de firme după cifra de afaceri lunară, X, în mil lei, în
anul 2004, este prezentată astfel:
Xi-1; Xi ni
176-178 20
178-180 25
180-182 40
182-184 35
184-186 30
186-188 10
Total 160
96
Elemente de statistica aplicata 2010 Mihaela Sandu
16. Distribuţia unui eşantion de firme după cifra de afaceri lunară X, în milioane lei,
în anul 2004, este:
Interval 176-178 178-180 180-182 182-184 184-186 186-188
ni 20 25 40 35 30 10
18. Distribuţia unui eşantion de firme după cifra de afaceri lunară, X, în mil. lei, în
anul 2006, este:
97
Elemente de statistica aplicata 2010 Mihaela Sandu
5. a - prezintă valoarea din mijlocul unei serii de date în care observaţiile au fost
ordonate crescător sau descrescător;
6. c - quartila unu;
7. c - quartila trei;
8. c - cuartila a doua;
9. a - quartila trei;
12. b - modul;
( n mo n mo 1 )
13. c - Mo = xi-1 - hMo (n n ) (n n )
mo mo 1 mo mo 1
98
Elemente de statistica aplicata 2010 Mihaela Sandu
15. d - mediana;
Q2=Q3-Me
m4
2
22. a - β2= m2 ;
23. a - β2 = 3, ∆ = 0;
24. b - β2 > 3, ∆ >0;
25. c - β2 < 3, ∆< 0;
26. b - x x
* ni ;
i
dx
n
27. c. – boltirii.
28. a - limitele inferioare şi superioare ale intervalelor extreme;
99
Elemente de statistica aplicata 2010 Mihaela Sandu
Volumul
vanzarilor ni xi Xi . n
x (i-1) ; xi
0-10 50 5 250
10-20 20 15 300
20-30 10 25 250
30-40 5 35 175
total 85 975
x =
x *n =
i i 5 * 50 15 * 20 25 *10 35 * 5
=
250 300 250 175 975
= 11,47
n i 85 85 85
milioane lei.
x = 11,47 mil lei – valoarea medie a volumului vânzărilor este de 11,47 mil lei.
d 2
3. Răspuns: Mo= xinf mo hmo d d 20 5 2 6 21,25
1
1 2
100
Elemente de statistica aplicata 2010 Mihaela Sandu
n 1 34 1 35
6. Răspuns. Locme= 17,5
2 2 2
Prima frecvenţă cumulată mai mare decât locul medianei ne indică
valoarea medianei. În cazul nostru, prima frecvenţă cumulată mai mare decât 17,5
este 27, iar intervalul mdian va fi 2.
(ni=27) ≥ (Locme = 17,5)
Me= xinfme+hme n me
100,5 75
Număr Fci Me=60+30 60 12,75 72,75 min
60
Timp muncitori Interpretare: Jumătate din numărul total al
necesar muncitorilor au consumat pentru realizarea
-30 25 25 produsului „A” până la 72,75 minute, iar
30-60 50 75 jumătate au consumat peste 72,75 minute
60-90 60 135
90-120 45 180
120-150 15 195
150- 5 200
101
Elemente de statistica aplicata 2010 Mihaela Sandu
hQ1=60 – 30 = 30
Fc(Q1-1) = 25
nQ1= 50
50,25 25
Q1= 30+30* 50
=30+30*0,50 =30+15= 45
Interpretare: 25% din numărul total al muncitorilor consumă cel mult 45 de
minute pentru realizarea unei piese.
3 n 1 3 * 201
9. Răspuns. Locq3= 150,75
4 4
Loc Q 3 Fc Q 31
nQ 3
Q3= xinfQ3+hQ3
Se calculează frecvenţa absolută cumulată crescător. Prima frecvenţă mai mare ca
valoarea deccât locul quartilei 3 ne indică intervalul quartilic 3.
150,75 135
Q3 90 30 100,75
45
Interpretare: 75% din numărul total al muncitorilor consumă cel mult 100,75 minute
pentru realizarea unei piese.
102
Elemente de statistica aplicata 2010 Mihaela Sandu
x xn
i i
3. se calculează abaterea medie liniară. d x
n i
(q 2 q1 ) (Q3 M e ) ( M e Q1 )
11. Răspuns. Casq= (q q ) = (Q M ) ( M Q ) =
2 1 3 e e 1
m4 54059,44 54059,44
2
14. Răspuns. β2= m2 = (162,6) = 26438,76 =
2
2,045 şi arată o distribuţie uşor
platicurtică deoarece
β2 < 3 ( curba este mai turtită decât cea normală).
Dacă β2 = 3 → simetrie simetrică, iar dacă β2 > 3 atunci aveam o distribuţie
leptocurtică deoarece curba era mai ascuţită decât cea normală.
103
Elemente de statistica aplicata 2010 Mihaela Sandu
x x
2
ni
16. . Răspuns: 2
i
n i
2. Se calculează media.
x
x ni i
177 * 20 179 * 25 181 * 40 183 * 35 185 * 30 187 *10
n i 160
29080
181,75mil.lei
160
x x
2
2 i ni
x
n i
104
Elemente de statistica aplicata 2010 Mihaela Sandu
105
Elemente de statistica aplicata 2010 Mihaela Sandu
106
Elemente de statistica aplicata 2010 Mihaela Sandu
x
x N i i
i
sau i 1
unde i 1, r
i 1 r
N N
i 1
i
x
x n i i
i
sau x i 1
x i 1 r
n n i 1
i
2 i 1 r
N N i 1
i
Dispersia eşantionului:
r
n
( xi x) 2
( x x) i
2
ni
sau s 2 i 1
s2 i 1 r
n 1 n 1
i 1
i
Observaţie:
Rezolvarea problemelor cuprinse în planul de sondaj are drept scop asigurarea
reprezentativităţii eşantionului, de aceasta depinzând în totalitate valoarea rezultatelor obţinute în
urma cercetării.
107
Elemente de statistica aplicata 2010 Mihaela Sandu
108
Elemente de statistica aplicata 2010 Mihaela Sandu
109
Elemente de statistica aplicata 2010 Mihaela Sandu
Exemplu:
Să alegem un eşantion aleator de n = 7 unităţi dintr-o colectivitate de 38 unităţi,
începând cu rândul 10, coloana 2 din tabelul cu numere aleatoare. Numerele citite din tabel vor fi:
7730, 8330, 5928, 7333, 4707, 6007, 4538,
8210, 7319, 4119, 7062, 4346, 0613, 2238.
Cum N = 38 are două cifre, se rearanjează secvenţa citită în grupuri de câte două cifre astfel:
77, 30, 83, 30, 59, 28, 73, 33, 47, 7, 60, 7, 45, 38,
82, 10, 73, 19, 41, 19, 70, 62, 43, 46, 6, 13, 22, 38.
Se elimină numerele mai mari de 38:
30, 30, 28, 33, 7, 7, 38, 38, 10, 19, 19, 6, 13, 22.
Dacă selecţia este fără revenire se elimină numerele care reapar în listă:
30, 7, 38, 19.
Pe baza valorilor observate x1, x2, ... ,xn în eşantionul aleator simplu de volum
n, extras dintr-o colectivitate generală de volum N, media de sondaj:
n
x1 x2 ... xn x i
x i 1
n n
s2
s x2
n
110
Elemente de statistica aplicata 2010 Mihaela Sandu
s2 s
sx
n n
Observaţie: Un eşantion se consideră de volum normal sau mare dacă n>30 unităţi
statistice.
x
z .
sx
100·(1-α)%.
111
Elemente de statistica aplicata 2010 Mihaela Sandu
n = 36, x = 800,
s = 60,
1 – α = 0,95
z0,025 = 1,96
s2 s 60
eroarea medie de reprezentativitate este : sx 10
n n 6
x x x x
800 19,6 800 19,6
780,4 819,6
36 100
N 36 20 720
5
N (x x ) x N (x )
i
pentru nivelul total al caracteristicii studiate: x
112
Elemente de statistica aplicata 2010 Mihaela Sandu
n
z
2
2
2
D x2
n
1,96 2 6,1 585,84 586
0,2 2
113
Elemente de statistica aplicata 2010 Mihaela Sandu
1
Dacă N este volumul colectivităţii generale, atunci P(x 1=x1)= N ,
1
P( x2 x2 / x1 x1 ) , cu alte cuvinte, probabilitatea evenimentului x2=x2 se
N 1
2 N n s2 N n
Dispersia mediei de selecţie este x2 şi estimată prin s x2 .
n N n N
N n s N n N n
reprezentativitate) este x şi estimată prin sx ; se
n N n N N
n
numeşte coeficient de corelaţie finită în populaţie iar raportul N
reprezintă fracţia
de sondaj.
n N n
Observaţie: Pentru 0,2 în calcule nu se ia în considerare.
N N
s N n
x z / 2 s x z / 2 .
n N
114
Elemente de statistica aplicata 2010 Mihaela Sandu
s n 2,6
sx 1 0,9 0,276
n N 80
x x x x
x
N
N x x i N x x
i 1
N N
800 13,56 xi 800 14,64 10848
i 1
x
i 1
i 11712
ridicăm la pătrat
2 N n
D x2 Z 22
n N
n NDx2 Z 22 2 Z 22 2 N
115
Elemente de statistica aplicata 2010 Mihaela Sandu
Z 22 2 N
n
NDx2 Z 22 2
n
1,96 2 2,6 2 800 216,4 216 unităţi statistice
800 0,3 1,96 2,6
2 2 2
1
x st
N
h
1
x st
N
Ni 1
i xi
Dispersia mediei x st
h
N i2 i2
x2st
i 1 N 2 n1
h
N i2 si2
x st2
i 1 N2 n
Dacă fracţia de sondaj este uniformă pentru toate straturile (selecţie stratificată
n n
proporţională) atunci N N şi expresia erorii medii de reprezentativitate devine:
i
116
Elemente de statistica aplicata 2010 Mihaela Sandu
2
1 h ni si2 si
s x st
n i 1 n
n
h
ni si2
i 1 n
reprezintă media dispersiilor de grupă din eşantion
2
si
s x st
n
117
Elemente de statistica aplicata 2010 Mihaela Sandu
118
Elemente de statistica aplicata 2010 Mihaela Sandu
119
Elemente de statistica aplicata 2010 Mihaela Sandu
V.3. Probleme
3. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eşantion de volum
n= 100, extras dintr-o populaţie de volum N = 1000, s-au obţinut x = 40 ani, s= 22
ani. (s= dispersia eşantionului).
Pentr un 0,05 (nivel de semnificaţie), valoare erorii medii de selecţie este:
a) 2,2
b) 2,0856
c) 4,312
120
Elemente de statistica aplicata 2010 Mihaela Sandu
5. Pentru un sondaj aleator simplu repetat, realizat asupra unui eşantion de volum
n= 100, valoarea mediei eşantionului şi valoarea abaterii medii pătratice (s) sunt:
x = 30 ani
s = 3 ani
Pentru un = 0,05, valoarea erorii limită de selecţie este:
a) 0,3
b) 0,588
c) 30
6. Pentru un sondaj aleator simplu nerepetat, realizat asupra unui eşantion de volum
n=25, extras dintr-o populaţie de volum N=1000, s-au obţinut:
x = 40 ani; s=22 ani;
Pentru un =0,05, valoarea erorii medii de selecţie este:
a. 2,2
b. 2,0856;
c. 4,312
121
Elemente de statistica aplicata 2010 Mihaela Sandu
1. a. un parametru;
Interpretare: numărul persoanelor care ar trebui extrase aleatoriu simplu repetat din
populaţia de volum N 0 200 este de 20,17 20 persoane.
122
Elemente de statistica aplicata 2010 Mihaela Sandu
N x z s 2
2
s 3
x z 5 1,96 4,804;5,196
2 n 900
s N n 22 1000 100
6. Răspuns b) = n N
1000
2,0856
100
123
Elemente de statistica aplicata 2010 Mihaela Sandu
18
Jaba, Elisabeta, 2002 – Statistica, Ediţia a treia, Ed. Economică, Bucureşti, p. 331-336
124
Elemente de statistica aplicata 2010 Mihaela Sandu
Ipoteze statistice:
o Ipoteza nulă;
o Ipoteza alternativă.
În toate domeniile ştiinţelor aplicate este necesar să se recurgă la
experimentarea unor noi metode, tehnologii, produse, făcându-se presupuneri asupra
superiorităţii lor faţă de procedeele curent folosite în vederea luării unei anumite
decizii. Totodată este necesar să verificăm dacă în timp s-au produs modificări în
ceea ce priveşte parametrii populaţiei sau există diferenţe semnificative între diferite
grupuri ale aceleiaşi populaţii. Toate aceste presupuneri constituie nişte ipoteze a
căror valabilitate trebuie verificată şi deoarece această verificare se face statistic
(operându-se cu date obţinute în urma unei selecţii statistice dintr-o populaţie) ele se
denumesc ipoteze statistice.
Verificarea concordanţei rezultatelor experienţei cu una dintre ipoteze se face
pe baza unui criteriu statistic furnizat de un ansamblu de reguli de prelucrare a
datelor numit test statistic. Cu ajutorul lui se ajunge la decizia de a respinge o
ipoteză şi a accepta alta. Luarea unei decizii cu privire la o ipoteză statistică se
numeşte testarea ipotezei.
O ipoteză se numeşte simplă dacă ea determină în mod univoc repartiţia
specificată a variabilei aleatoare şi compusă dacă este formată dintr-un număr finit
de ipoteze simple.
125
Elemente de statistica aplicata 2010 Mihaela Sandu
126
Elemente de statistica aplicata 2010 Mihaela Sandu
regiunea critică Rc, ipoteza H0 se respinge, iar dacă cade în afara regiunii critice Rc,
ipoteza H0 se acceptă
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată se
numeşte eroare de genul întâi.
Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α)
şi se numeşte nivel sau prag de semnificaţie.
Nivelul de încredere al unui test statistic este (1- α), iar (1- α)·100 reprezintă
probabilitatea de garantare a rezultatelor.
127
Elemente de statistica aplicata 2010 Mihaela Sandu
Fie populaţia de interes, notată cu P1. pentru orice eşantion se poate considera
o populaţie de bază, P2, din care eşantionul va fi extras.
128
Elemente de statistica aplicata 2010 Mihaela Sandu
Testul „t”:
Este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri; ele ajută la elucidarea întrebărilor comune ale
cercetătorilor dacă valoarea medie pentru un set de scoruri diferă de valoarea medie
pentru alt set de scoruri;
Deoarece, în cercetare, în mod invariabil, se lucrează cu eşantioane de
oameni extrase din populaţia latentă, trebie să estimăm dacă orice diferenţă pe care o
obţinem între cele două seturi de valori este semnificativă statistic.
Există două variante ale testului „t”:
1. Pentru eşantioane perechi
- folosit când cele două seturi de scoruri ce trebuie comparate provin dintr-
un singur eşantion;
- când coeficientul de corelaţie între cele două seturi este mare.
Uneori ne lovim de situaţii în care eşantioanele din care provin mediile ce
trebuie comparate sunt dependente (procedeul de selecţie al unui eşantion este legat
de procedeul de selecţie al celuilalt).
Când elementele celor două eşantioane sunt asociate într-un anumit mod
două câte două (de exemplu: rezultatele înregistrate înainte şi după acţiunea unui
factor experimental), procedeul cel mai simplu constă în a raţiona asupra
diferenţelorpe care le prezintă fiecare pereche de date asociate, corelate.
129
Elemente de statistica aplicata 2010 Mihaela Sandu
130
Elemente de statistica aplicata 2010 Mihaela Sandu
Cristian Opariuc-Dan, 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază. Statistici univariate,
22
131
Elemente de statistica aplicata 2010 Mihaela Sandu
• Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci când scădem o constantă din
fiecare scor particular. Deoarece din formulă rezultă această diferenţă (se scade
fiecare scor particular din medie), în final media va ajunge la valoarea zero;
132
Introducere în SPSS 2010 Mihaela Sandu
133
Introducere în SPSS 2010 Mihaela Sandu
134
Introducere în SPSS 2010 Mihaela Sandu
distribuite;
2. a. un parametru;
adevărată;
135
Introducere în SPSS 2010 Mihaela Sandu
Analiza de varianţă indică măsura în care câteva (două sau mai multe
grupuri) au medii foarte diferite. Această analiză resupune că fiecare dintre
grupurile de scoruri provine de la indivizi diferiţi.
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot
examina două sau mai multe eşantioane independente pentru a determina dacă
mediile populaţiilor din care provin ar putea fi egale, putându-se pune astfel în
evidenţă influenţa factorului considerat sau a tratamentului efectuat.
136
Introducere în SPSS 2010 Mihaela Sandu
137
Introducere în SPSS 2010 Mihaela Sandu
gruparea datelor se consideră variabile independente sau factoriale şi se notează
x1, x2, ... , xn.
138
Introducere în SPSS 2010 Mihaela Sandu
adaugă nicio informaţie în plus predicţiei faţă de cele oferite de primul
predictor.
139
Introducere în SPSS 2010 Mihaela Sandu
140
Introducere în SPSS 2010 Mihaela Sandu
141
Introducere în SPSS 2010 Mihaela Sandu
142
Introducere în SPSS 2010 Mihaela Sandu
Deşi pare cea mai simplă etapă a demersului ştiinţific, ea nu este deloc
simplă şi necesită un volum mare de cunoştinţe.
Enunţarea problemei prespune şi formularea acesteia în scris, formulare
în urma căreia rezultă obiectivle cercetării, care pot fi: generale şi specifice.
Obiectivele generale vizează cercetarea în ansamblul ei. Un studiu
ştiinţific are unul, maxim două obiective generale. Nu ne putem concentra
eforturile pe mai multe planuri – ori planurile sunt ghidate exact de modul de
formulare al obiectivelor generale.
143
Introducere în SPSS 2010 Mihaela Sandu
Obiectivele generale ale unei cercetări sunt formulate în urma unui cumul
de observaţii şi, eventual, în urma unui studiu metaanalitic. În ultima situaţie,
este necesară prezentarea rezultatelor studiului metaanalitic care a ghidat
formularea obiectivului general şi prin care se demonstrează lipsa de abordare
sau abordarea nepertinetă a problemei studiate. Spre exemplu, constatăm că pe
măsură ce creşte numărul de kilometri parcurşi cu un automobil, creşte şi riscul
de apariţie al unui accident şi ne propunem să studiem ştiinţific această
problemă. În mod normal, ar trebui să începem prin a analiza cercetările
existente în acest domeniu şi să desfăşurăm un studiu metaanalitic.
144
Introducere în SPSS 2010 Mihaela Sandu
145
Introducere în SPSS 2010 Mihaela Sandu
riscul să nu putem susţine ipoteza în condiţiile în care sensul formulat nu este
reprezentat de datele cer-cetării, chiar dacă în urma analizei pot rezulta şi alte
sensuri specifice;
146
Introducere în SPSS 2010 Mihaela Sandu
Observaţie: Atât ipoteza nulă (H0) cât şi ipoteza alternativă (Hs) se
referă la populaţie, nu la eşantioane ca atare.
147
Introducere în SPSS 2010 Mihaela Sandu
148
Introducere în SPSS 2010 Mihaela Sandu
149
Introducere în SPSS 2010 Mihaela Sandu
2. Obiectivele generale:
a. sunt formulate în urma unui cumul de observaţii şi în urma unui
studiu metaanalitic;
b. pun în evidenţă aspecte detaliate ale cercetării ştiinţifice;
c. ajută la formarea ipotezelor de cercetare.
150
Introducere în SPSS 2010 Mihaela Sandu
1. a. 1, 6, 2, 4, 3, 5.
3. a. respingerea ipotezei nule atunci când există valori mai mici decât
p;
151
Introducere în SPSS 2010 Mihaela Sandu
PARTEA A DOUA
152
Introducere în SPSS 2010 Mihaela Sandu
INTRODUCERE
_________________________________________________________________________________________________________________
153
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se dă dublu clic pe imagine
– dacă imaginea nu apare pe
ecran atunci accesaţi „Start”
→Programe→SPSS.
Pasul 2:
154
Introducere în SPSS 2010 Mihaela Sandu
Pasul 4:
Pasul 5:
155
Introducere în SPSS 2010 Mihaela Sandu
Pasul 6:
Pasul 7:
Selectând „File”→ „Save As”
datele se vor salva sub forma
unui fişier. Fişierul salvat va
primi automat de la SPSS
extensia „.sav”.
* Se recomandă folosirea unor nume
de fişiere distincte (ex. date1) pentru
a face conţinutul lor cât mai clar. Salvarea datelor este recomandat sa se facă într-un fişier
diferit de cel
al SPSS-ului.
Pasul 8:
Pentru a alege locaţia unde
va fi salvat fişierul de date,
se alege calea în mediul
„Save In” (se foloseşte
săgeata pentru a ajunge
la locaţia dorită).
Salvarea unui fişier se realizează prin
pictograma Save din bara de instrumente Standard sau cu ajutorul comenzilor Save sau Save
As şi meniul File. Aceste comenzi deschid fereastra Save Data As în care se pot stabili:
numele fişierului (File name); tipul fişierului (Save as type); locaţia în care să aibă loc
salvarea (Save In).
156
Introducere în SPSS 2010 Mihaela Sandu
157
Introducere în SPSS 2010 Mihaela Sandu
Pasul 10:
Acesta este spaţiul de lucru „Variable View”. În acest caz, o variabilă este
deja înscrisă fiind introdusă la pasul 8. Variabila poate fi redenumită şi pot fi
adăugate alte variabile destul de uşor selectând celula corespunzătoare şi tastând
numele variabilei.
Aici
se
Pasul 11:
La versiunea SPSS 12-16 (faţă de
cele anterioare unde se permit
maxim 8 caractere) nu există
limită pentru lungimea numărului
unei variabile.
Se selectează o celulă din coloana
„Name” şi se scrie un nume diferit
de variabilă. Celelalte variabile
vor primi valori care vor fi
implicit schimbate ulterior.
Acesta este numărul de zecimale
care va apărea pe ecran.
*La editarea unei variabile trebuie să se ţină cont de următoarele restricţii: numele variabilei
să fie unic, primul caracter să fie o literă, sa nu conţină simboluri speciale folosite în SPSS sau
spaţii.
Pasul 12:
Apare acest buton: se dă
clic pe el.
158
Introducere în SPSS 2010 Mihaela Sandu
Pasul 13:
Pasul 14:
Pasul 15:
Fereastra Pivot Table (Pivot Table Editor) oferă multiple posibilităţi de modificare a
tabelelor pivot: editare text, schimbarea datelor din rânduri şi coloane, adăugarea de culori,
crearea unor tabele multidimensionale, ascunderea sau afişarea selectivă a rezultatelor.
Fereastra de editare a graficelor (Chart Editor) permite modificarea elementelor unui
grafic (axe, scale, diagramă, legendă etc.)
I.5. Exemplu de calcul statistic.
Pasul 16:
Pentru a calcula media de vârstă
se urmăresc următoarele etape:
-se dă clic pe „Analyze”;
-Se selectează „Descriptive
statistics”;
-Se selectează „Descriptive…”
Pasul 17:
Se selectează „vârsta”.
Se apasă butonul ► pentru a
muta „vârsta” în căsuţa
„Variable(s)”.
Se dă clic pe „OK”.
Pasul 18:
Fereastra „Data Editor” este înlocuită de output-ul SPSS-ului. Acest tabel
apare pentru analiza realizată anterior.
160
Introducere în SPSS 2010 Mihaela Sandu
161
Introducere în SPSS 2010 Mihaela Sandu
I.7. Exerciţii
Se cere:
1. să se calculeze media de
vârstă a participanţilor la
studiu;
2. să se calculeze şi să se
interpreteze media
obţinută.
3. să se salveze fişierul
creat în „My
documents”cu
denumirea „cercetare”.
162
Introducere în SPSS 2010 Mihaela Sandu
163
Introducere în SPSS 2010 Mihaela Sandu
6. La editarea unei variabile trebuie să se ţină cont de următoarele
restricţii:
a. să conţină spaţii sau simboluri folosite în SPSS;
b. să conţină numai litere;
c. să aibă cel puţin 8 caractere;
d. primul caracter trebuie să fie o cifră;
e. să fie unic.
164
Introducere în SPSS 2010 Mihaela Sandu
165
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se defineşte variabila.
Pasul 2:
Se selectează:
„Analize”,
„Descriptive Statistics”
„Frequencies…”
166
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se apasă „OK”
Pasul 4:
167
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se selectează:
„Graphs”
„Pie”.
Pasul 2:
Se selectează „Define”.
Pasul 3:
Se selectează „Ocupaţia”
prin apăsarea butonului ►(◄).
Se apasă „OK”.
Pasul 4:
168
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se selectează:
„Elements”
„Show Data Labels”.
Pasul 2:
Se selectează „Count” şi
„X”-ul roşu pentru a nu afişa.
169
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Diagrama circulară cu
sectoarele
denumite şi frecvenţa
procentuală afişată.
Pasul 1:
Se selectează:
„Graphs”
„Bar…”.
Pasul 2:
Selectaţi „Define”.
„Simple” este preselectat.
170
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „% of cases”.
Se apasă „OK”
Diagrama cu bare.
* Diagrama cu bare este folosită pentru a reprezenta grafic mediile diferitelor grupe dintr-o
colectivitate (Summaries for groups of cases) sau valorile medii ale diferitelor variabile pentru
aceeaşi colectivitate (Summaries of separate variables).
Diagrama Bar este folosită pentru a ilustra categoriile unei distribuţii în formă convenabilă.
Diagrama prezintă atâtea bare câte categorii are o variabilă. Barele au aceeaşi bază, egală cu
unitatea, iar înălţimea proporţională cu frecvenţa categoriei astfel încât aria fiecărei bare
reprezintă numărul cazurilor categoriei considerate.
Pentru a fi interpretat un grafic trebuie să conţină următoarele elementele:
- titlul graficului – oferă informaţii asupra fenomenului reprezentat (Titlul graficului
coincide cu titlul tabelului de date);
- axele de coordonate sunt folosite pentru a reprezenta variabilele. Pe abscisă se
înscrie variabila de distribuţie, iar pe ordonată frecvenţa.
- legenda – este folosită pentru a explica elementele din diagramă;
- sursa – precizează originea datelor reprezentate.
II.5. Histograme.
171
Introducere în SPSS 2010 Mihaela Sandu
Pentru a ilustra procesul de realizare a unei histograme vom folosi datele
obţinute din răspunsurile subiecţilor la întrebarea „Vă place statistica?”.
(răspunsuri: a. foarte mult; b. mult; c. Puţin d. foarte puţin; e. deloc).
Pasul 1:
Se selectează:
„Graphs”
„Hitogram”
Pasul 2:
172
Introducere în SPSS 2010 Mihaela Sandu
II.6. Exerciţii
Se cere:
4. să se realizeze un tabel
de frecvenţe pentru
variabila „subiecţi”;
5. să se realizeze tabel de
frecvenţe pentru
variabila „vârstă”;
6. să se realizeze diagrama
de structură pentru
variabila „subiecţi”;
173
Introducere în SPSS 2010 Mihaela Sandu
174
Introducere în SPSS 2010 Mihaela Sandu
175
Introducere în SPSS 2010 Mihaela Sandu
176
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2: Pasul 3:
Pasul 4:
177
Introducere în SPSS 2010 Mihaela Sandu
Se selectează „vârsta”
şi butonul ► pentru a
introduce în lista de
variabile.
Se deselectează
butonul „Display frequencys
tables” şi se ignoră mesajul
de avertizare.
Se dă clic pe „Statistics…”
Pasul 5:
Se selectează
„Mean”;
„Median”;
„Mode”.
Se dă clic pe „Continue”.
III.2. Interpretarea
output-ului.
178
Introducere în SPSS 2010 Mihaela Sandu
aflate la mijlocul liniei de vârste de la cea
mai mică la cea mai mare) este de 21.5 ani.
Valoarea mod de vârstă este 17.
179
Introducere în SPSS 2010 Mihaela Sandu
11. Eroarea standard (ES medie) – valoarea medie cu care mediile
eşantioanelor extrase dintr-o populaţie, diferă faţă de media populaţiei.
180
Introducere în SPSS 2010 Mihaela Sandu
6. Kurtosis, ca indicator al formei distribuţiei, indică:
a. cât de ascuţită sau turtită este distribuţia scorurilor pentru o variabilă,
comparativ cu distribuţia normală;
b. simetria sau asimetria unei distribuţii de frecvenţe faţă de medie;
c. distribuţia scorurilor pentru 2 variabile comparative;
182
Introducere în SPSS 2010 Mihaela Sandu
183
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Pasul 2:
În „Data View”
din „Data Editor”
se introduc
scorurile obţinute
la „Atenţie” în
prima coloană.
Pasul 3:
Se selectează
„Analyze”,
„Descriptives
Statistics” şi
Frequencies…”
Pasul 4:
Se selectează
„atenţie” şi apoi
se apasă butonul
►pentru a
introduce în lista de variabile. Se apasă „OK”.
184
Introducere în SPSS 2010 Mihaela Sandu
A treia coloană
exprimă aceste frecvenţe ca
un procent al numărului total A patra coloană A cincea coloană
incluzând şi datele care exprimă aceste frecvenţe cumulează aceste
lipsesc. ca un procent al numărului procentaje în josul
Exemplu: Din totalul cazurilor, total excluzând datele lipsă. tabelului.
5% au obţinut scorul 55.
IV.3. Histograme.
Histograma este un grafic, folosit în statistica descriptivă şi arată o distribuţie de
frecvenţă. Distribuţia de frecvenţă se referă la numărul de evenimente statistice pe clase
(grupe) de evenimente. Pentru o serie de date statistice cu o distribuţie de frecvenţă după o
variabilă numerică continuă (sau continuă pe porţiuni), reprezentările grafice care ne permit să
vizualizăm distribuţia de frecvenţe sunt histograma şi poligonul frecvenţelor.
Pasul 1:
Se seletează:
„Graphs”,
„Histogram”
Pasul 2:
Se selectează
„Atenţie”şi
apoi se apasă
butonul ►
pentru a o
introduce în
185
Introducere în SPSS 2010 Mihaela Sandu
butonul ► butonul ► pentru a o introduce în
caseta de
în caseta de variabile Se
apasă „OK”.
Variabile.
Se apasă „OK”
186
Introducere în SPSS 2010 Mihaela Sandu
IV.5. Modalitatea.
Figura nr. 1.
O
Înălţimea subiecţilor.
Figura nr. 2.
IV.6. Simetria.
O distribuţie este
simetrică, dacă valorile sunt
egal (simetric) răspândite în
jurul tendinţei centrale. Atunci
când rezultatele tind către valori
mici, sunt aglomerate în partea
stângă a distribuţiei, avem de a
spre dreapta (sau distribuţie skewness pozitiv). Când rezultatele tind către valori
mari, se aglomerează în partea dreaptă a distribuţiei, vorbim despre o distribuţie
asimetrică la stânga (skewness negativ). Iată că, asimetria este dată de panta
distribuţiei şi nu de vârful acesteia, aşa cum tratează şi consideră unii.
188
Introducere în SPSS 2010 Mihaela Sandu
Nu ne putem limita la o apreciere pur vizuală a simetriei; acest lucru necesită
demonstrarea statistică a simetriei sau asimetriei distribuţiei. În acest scop, există mai mulţi
coeficienţi care pot fi calculaţi.
mai mici decât media este perfect simetrică cu grupa subiecţilor cu scoruri mai
mari decât media. Acest aspect este menţionat din raţiuni teoretice. În practică
nu vom întâlni o distribuţie perfect normală, ci o distribuţie care poate fi
acceptată ca fiind normală.
iar dacă în distribuţie predomină scorurile mici, atunci scorurile mari sunt
considerate ca scoruri extreme. Ştim de la analiza preciziei indicatorilor
189
Introducere în SPSS 2010 Mihaela Sandu
tendinţei centrale, că într-o serie de date în care întâlnim scoruri extreme mari,
media tinde să le pună în valoare. Iată că acest fapt este ilustrat grafic în figura
de mai sus. Observaţi relaţia existentă într-o asemenea distribuţie: Mo<Me<m.
Această relaţie este relaţia caracteristică a unei distribuţii asimetrice pozitiv.
iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt
considerate ca scoruri extreme. Ştim, de la analiza preciziei indicatorilor
tendinţei centrale, că într-o serie de date în care întâlnim scoruri extreme mici,
media tinde să le pună în valoare. Iată că acest fapt este ilustrat grafic în figura
de mai sus. Observaţi relaţia existentă într-o asemenea distribuţie: Mo>Me>m.
Această relaţie este relaţia caracteristică a unei distribuţii asimetrice negativ.
190
Introducere în SPSS 2010 Mihaela Sandu
normală, distribuţie mezocurtică. O distribuţie normală este întotdeauna o
distribuţie mezocurtică.
În figura alăturată,
distribuţia „C” este o distribuţie
leptocurtică, ascuţită. Distribuţia
„B” este o distribuţie platicurtică,
turtită, iar distribuţia „A” este o
distribuţie normală sub aspectul
boltirii, sau mezocurtică.
Figura nr. 7
191
Introducere în SPSS 2010 Mihaela Sandu
De exemplu, dacă într-o clasă de 30 de elevi, 27 obţin medii anuale între
7,9 şi 8,1. Iată că, doar două zecimi diferenţiază între aproape întreg efectivul de
elevi. Nu avem nici o problemă cu repartizarea celorlalţi trei elevi. Pe aceia îi
vom considera ori foarte buni, ori foarte slabi, în funcţie de media obţinută – sub
7,9 sau peste 8,1. Ce ne facem însă cu cei 27 de subiecţi? Suntem, iată, în
imposibilitatea de ai-i ierarhiza în vreun fel. Dacă presupunem că cei trei
subiecţi au note mai mici de 7,9, atunci cine va lua, dintre cei 27 de elevi,
premiul I, cine va lua premiul II şi cine va lua premiul III. Decizia ar fi, după
cum se poate vedea, extrem de dificilă, dacă nu chiar imposibilă. Singura
variantă în acest caz, ar putea fi creşterea preciziei. Nu calculăm media cu o
singură zecimală, ci cu 2, 3 sau 4 zecimale. Totuşi, sunt situaţii în care un
asemenea nivel de precizie este ridicol. O evaluare în care distribuţia rezultatelor
este leptocurtică, este o evaluare ce nu poate diferenţia între subiecţii de nivel
mediu, iar o curbă leptokurtică nu este o distribuţie normală;
Analiza unei distribuţii sub aspectul normalităţii este primul pas pe care îl
facem în orice prelucrare de date. Deoarece, în funcţie de rezultatul acestei
analize, vom putea alege tehnicile şi procedeele statistice pe care le putem
folosi, această etapă o întâlnim, de obicei, la începutul oricărui raport de
cercetare, imediat după descrierea eşantionului.
192
Introducere în SPSS 2010 Mihaela Sandu
1. Histograma:
a. este un grafic folosit în statistica descriptivă;
b. arată o distribuţie de frecvenţă;
c. se foloseşte pentru date calitative.
2. Valid procent:
a. exprimă aceste frecvenţe ca un procent al numărului total excluzând
datele lipsă.
b. frecvenţe ca un procent al numărului total lipsesc incluzând şi datele care
lipsesc.
c. frecvenţa valorilor.
193
Introducere în SPSS 2010 Mihaela Sandu
a. modul <mediana<media;
b. modul>mediana>modul;
c. modul=mediana=modul.
194
Introducere în SPSS 2010 Mihaela Sandu
195
Introducere în SPSS 2010 Mihaela Sandu
V. Abaterea standard.
________________________________________________________________________________________________________________
Abaterea standard este un indice care arată cât de mult deviază (diferă)
unele scoruri „în medie” faţă de media setului de scoruri din care acestea fac
parte.
Abaterea standard poate fi folosită şi pentru a transforma scoruri pentru
variabile foarte diferite în scoruri Z (sau standard), care sunt uşor de comparat şi
însumat.
Calcularea abaterii standard şi a scorurilor Z este prezentată în exemplul
următor:
Vârstă 20 22 25 26 35 38 28 24 23 24
Pasul 1:
Pasul 2:
În „Data View” din „Data Editor”
se introduc vârstele în prima
coloană.
196
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptives…”
Pasul 4:
Se selectează „vârsta” şi apoi se
apasă butonul ► pentru a o
introduce în lista de variabile.
Se selectează „Options…”
Pasul 5:
Se deselectează „Mean”,
„Minimum”, „Maximum”.
Se selectează „Continue”.
V. 2. Interpretarea output-ului.
V.3. Scorurile Z
Pasul 1:
La pasul 4 selectaţi „Save
standardized values as
variables”.
197
Introducere în SPSS 2010 Mihaela Sandu
Se apasă „OK”.
Pasul 2:
Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci când scădem o
198
Introducere în SPSS 2010 Mihaela Sandu
constantă din fiecare scor particular. Deoarece din formulă rezultă această
diferenţă (se scade fiecare scor particular din medie), în final media va
ajunge la valoarea zero
1. Abaterea standard:
a. este un indice care arată cât de mult deviază (diferă) unele scoruri „în
medie” faţă de media setului de scoruri din care acestea fac parte.
b. este un indice care arată cât de simetrică sau asimetrică este o
distribuţie;
c. este un indice care arată cât de turtită sau boltită este o distribuţie.
200
Introducere în SPSS 2010 Mihaela Sandu
1. a. este un indice care arată cât de mult deviază (diferă) unele scoruri „în
medie” faţă de media setului de scoruri din care acestea fac parte.
201
Introducere în SPSS 2010 Mihaela Sandu
În foarte multe cercetări se studiază relaţiile dintre două sau mai multe
variabile. Procedurile statistice univariate (cu o singura variabilă) care au fost
descrise până acum pot fi utilizate pentru analiza oricăror date. Dar, cercetarea
poate necesita ca relaţiile şi corelaţiile dintre diferitele variabile să fie studiate.
La fel ca statistica univariată, statistica bivariată a datelor necesită
studierea tendinţelor fundamentale ale datelor utilizând tabele şi diagrame.
Modelele de prezentare a relaţiilor bivariate includ crearea tabelelor scatter.
O condiţie esenţială o constituie etichetarea tabelelor şi diagramelor şi
denumirea acestora.
În continuare se va ilustra elaborarea unui tabel de asociere şi a unei
diagrame cu bare.
Pasul 1:
În „Variable View” din „Data Editor” se denumeşte:
- prima coloană „Instituţionalizare”
- a doua coloană „Genul biologic”;
- A treia coloană „Frecvenţa”.
202
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2:
Se etichetează cele două valori
ale instituţionalizării:
1 - instituţionalizat;
2 - neinstituţionalizat.
Şi genul biologic:
1. Feminin;
2. Masculin
*Paşii acestei proceduri au fost explicaţi
în capitolul 1.
Pasul 3:
Se introduc aceste numere în „Data
View” din „Data Editor”.
Primul rând se referă la fetele care
au fost instituţionalizate: sunt în număr
de 5.
Al doilea rând se referă la băieţii
care au fost instituţionalizaţi:
sunt în număr de 6.
Al treilea rând se referă la fetele
neinstituţionalizate: sunt în număr de 4.
Al patrulea rând se referă la băieţii
neinstituţionalizaţi: sunt în număr de 5.
Pasul 4:
Pasul 5:
Se selectează „Frecvenţa”,
„Weight cases by” şi apoi se
apasă butonul ►pentru
transfer în căsuţa
variabilei„Frequency
Variable”.
203
Introducere în SPSS 2010 Mihaela Sandu
Se apasă „OK”
Pasul 6:
Se selectează:
„Analize”
„Descriptivesc statistics”
„Crosstabs…”.
Pasul 7:
Pentru a pune „instituţionalizare” pe
rândurile tabelului, se selectează şi
apoi se apasă butonul ►de lângă
eticheta „Row(s)”.
Se apasă „OK”.
Pasul 8:
În tabel sunt
prezentate valorile
celor două variabile.
Se observă că sunt 5
fete şi 6 băieţi
instituţionalizaţi (în total 11) şi 4 fete şi 5 băieţi neinstituţionalizaţi (în total 9).
(N=20).
Tabelul de asociere este folosit pentru prezentarea relaţiilor dintre două variabile categoriale.
În fiecare celulă a tabelului este prezentată frecvenţa parţială (adică efectivul care poartă
simultan o valoare a fiecărei variabile).
Observaţie:
1. Dacă într-un crosstabs numărul categoriilor unei variabile este mai mare decât al
alteia, atunci categoriile acelei variabile se plasează pe rânduri.
2. O celulă din crosstabs oferă informaţia despre intersecţia celor două variabile. Pentru
aceasta alegem din fereastra Crosstabs butonul de comandă Cell ce are ca efect
afişarea ferestrei Crosstabs Cell Display.
204
Introducere în SPSS 2010 Mihaela Sandu
măsurate pe scală de interval/raport. Aceasta se referă la intensitatea şi sensul de
variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un
model de tip liniar. Dacă valorile unei variabile urmează, în sens direct,
crescător, sau invers, descrescător, valorile celeilalte variabile, atunci cele două
variabile corelează între ele. Domeniul de variaţie a coeficientului de corelaţie
Pearson(r) este între r = 1 (corelaţie perfectă negativă: ceea ce înseamnă că în
descresc) şi r = +1 (corelaţie perfectă pozitivă: ceea ce înseamnă că scorurile
Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin r =0.
O corelaţie de 1,00 indică o asociere perfectă între cele două variabile.
punctele sunt conţinute de o singură dreaptă. O valoare de 0,00 indică faptul că
toate punctele din diagrama scatter sunt dispersate aleatoriu în jurul oricărei
drepte desenate pe această diagramă a datelor sau sunt aranjate întro manieră
curbilinie.
În continuare vom ilustra calculul corelaţiei Pearson, o diagramă scatter
şi coeficientul de corelaţie Spearman, folosind pentru aceasta datele din tabelul
următor, care reprezintă scoruri ale abilităţilor muzicale şi matematice pentru 10
copii.
muzica 3 7 8 9 9 6 4 3 4 7
matematică 7 5 4 4 5 8 9 9 7 6
VII.1. Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data
Editor” se denumeşte primul
rând „muzică”
şi al doilea rând „matematică”. * Se înlătură cele două zecimale.
Pasul 2:
În „Data View” din „Data editor” se
introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.
VII.2. Corelaţia Pearson.
Pasul 1:
Se selectează:
206
Introducere în SPSS 2010 Mihaela Sandu
„Analyze”,
„Corelate”,
„Bivariate…”
Pasul 2:
Se selectează „Muzică” şi
„Matematică” şi apoi se apasă
butonul ►pentru a le introduce în
lista de variabile aşa cum este
arătat în figura din dreapta.
Se apasă „OK”.
VII.3. Interpretarea
outputului.
Corelaţia dintre
„matematică” şi „muzică”
este 0,845 La un test de
semnificaţie, twotailed la
nivelul de probabilitate 0,01
sau mai mic, corelaţia este
statistic semnificativă.
Numărul cazurilor pe care este bazată corelaţia este 10. Informaţia apare şi în
această celulă.
*One tailed – dacă distribuţia este unidirecţională.
Twotailed – dacă distribuţia este bidirecţională.
VII.4. Raportarea outputului.
Corelaţia dintre abilităţile muzicale şi cele matematice este – 0,845.
* Se obişnuieşte să se rotunjească corelaţia cu două zecimale, deci aceasta va deveni 0,90,
acesta fiind un rezultat mult mai precis pentru majoritatea măsurătorilor psihologice.
nivelul de semnificaţie este mai mic decât 0,01.
207
Introducere în SPSS 2010 Mihaela Sandu
Interpretarea psihologică va fi: „Există o relaţie negativă semnificativă între
ridicat al abilităţilor muzicale au un nivel scăzut al abilităţii matematice”.
Un coeficient de corelatie poate fi calculat corect numai când datele ambelor variabile
se refera la esantioane si fiecare este ales independent.
Un coeficient de corelatie poate fi apropiat de ą1, deci ne va indica o corelatie
puternica, dar ea poate fi nesemnificativa din cauza volumului mic a esantionului studiat.
Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se
pot corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi
cauza celeilalte.
VII.5. Coeficientul de corelaţie Spearman.
Pasul 1:
Identic corelaţiei Pearson se
selectează „Analyze”, „Correlate”,
„Bivariate” şi variabilele care se
doresc pentru corelaţie.
Se selectează „Spearman” şi se
deselectează Pearson (dacă nu se
doreşte ca şi corelaţie).
Se apasă „OK”.
208
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se selectează:
„Graphs”
„Scatter/Dot”
Pasul 2:
Pasul 3:
209
Introducere în SPSS 2010 Mihaela Sandu
Pentru a avea variabila „matematică” ca axă orizontală, se selectează apoi se
apasă butonul ◄ de lângă căsuţa „X Axis”.
Se apasă „OK”.
210
Introducere în SPSS 2010 Mihaela Sandu
1. Corelaţia:
a. măsoară variaţia concomitentă a doi factori
b. măsoară parametria distribuţiei între două eşantioane
c. măsoară rangul unei distribuţii trihotomice
2. Corelaţia Pearson(r):
a. evaluează gradul de asociere dintre două variabile măsurate pe scală de
interval/raport.
b. evaluează gradul de asociere dintre două variabile măsurate pe scală
nominală;
c. evaluează gradul de asociere dintre două variabile măsurate pe scală
ordinală.
3. O corelaţie de 1,00 indică:
a. o asociere perfectă între cele două variabile;
b. faptul că toate punctele din diagrama scatter sunt dispersate aleatoriu în
jurul oricărei drepte desenate pe această diagramă a datelor;
c. absenţa oricărei legături (corelaţii) dintre variabile.
4. Pearson este un indicator de corelaţie:
a. parametric;
b. neparametric;
211
Introducere în SPSS 2010 Mihaela Sandu
c. ambele variante de mai sus.
6. O corelaţie negativă semnifică faptul că:
a. în timp ce scorurile unei variabile cresc, scorurile pentru cealaltă variabilă
descresc;
b. că scorurile unei variabile se măresc odată cu creşterea scorurilor
celeilalte variabile).
c. nu există nicio legătură între variabile.
7. O corelaţie pozitivă semnifică faptul că:
d. în timp ce scorurile unei variabile cresc, scorurile pentru cealaltă variabilă
descresc;
e. că scorurile unei variabile se măresc odată cu creşterea scorurilor
celeilalte variabile).
f. nu există nicio legătură între variabile.
212
Introducere în SPSS 2010 Mihaela Sandu
interval/raport.
3. a. o asociere perfectă între cele două variabile;
4. b. neparametric;
5. b. neparametric;
variabilă descresc;
celeilalte variabile).
213
Introducere în SPSS 2010 Mihaela Sandu
VIII. Regresia.
Predicţia cu precizie.
_________________________________________________________________________________________________________________
Dacă există o relaţie între două variabile atunci sunt posibile estimarea
sau predicţia scorului unei persoane la o variabilă pornind de la scorul obţinut la
cealaltă variabilă. Cu cât este mai puternică corelaţia cu atât este mai bună
predicţia. Variabila independentă este variabila folosită pentru a realiza predicţia,
aceasta fiind cunoscută şi ca variabilă predictor sau variabila X.
*Este foarte important a nu se confunda variabila independentă cu cea dependentă. Cel
mai bun mod de a evita aceste probleme este de a examina scatterplot-ul sau diagrama scatter
a relaţiei dintre cele două variabile. Axa orizontală X este variabila independentă şi axa
verticala Y este variabila dependentă. Se poate investiga şi punctul de tăiere, acesta fiind
punctul în care panta se intersectează cu axa verticală.
Regresia devine o tehnică mult mai importantă atunci când sunt folosite
mai multe variabile pentru predicţia valorilor unei alte variabile.
214
Introducere în SPSS 2010 Mihaela Sandu
În continuare este ilustrată procesarea unei regresii simple şi a unei
diagrame de regresie folosind datele din tabelul următor.
Scor muzica 3 7 8 9 9 6 4 3 4 7
Scor 7 5 4 4 5 8 9 9 7 6
matematică
Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face
predictii. Desi nu se gasesc relatii perfecte în lumea reala, prin intermediul regresiei se pot
face predictii ale unei variabile, în functie de valoarea alteia. Predictia este procesul de
estimare a valorii unei variabile cunoscând valoarea unei alte variabile.
Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între
doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca
am avea o corelatie perfecta (+1 sau –1) estimarea ar fi extrem de precisa
VIII.1. Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data
Editor” se denumeşte primul
rând „muzică”
şi al doilea rând „matematică”.
* Se înlătură cele două zecimale.
Pasul 2:
În „Data View” din „Data editor” se
introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.
VIII.2. Regresia simplă.
Pasul 1:
Se selectează:
„Analyze”
„Regression”
„Linear…”
Pasul 2:
215
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „Confidence
Intervals”.
Se selectează „Continue”.
Se apasă „OK” din ecranul
precedent care reapare.
În acest tabel, B este panta liniei de regresie (în SPSS fiind denumită
coeficient de regresie nestandardizat).
Intervalul de încredere de 95% pentru aceşti coeficienţi este de la -1,59 la
-0,50. Intervalul de încredere de 95% arată intervalul pantelor de regresie în care
putem fi siguri într-o proporţie de 95% că panta pentru populaţie se va găsi.
216
Introducere în SPSS 2010 Mihaela Sandu
Cota denumită „Beta” are valoarea -0,845. Aceasta este de fapt corelaţia
Pearson între cele două variabile.
Regresia simplă - o variabila dependenta si una independent
Pasul 1:
Se selectează:
„Graphs”
„Scatter/Dot”
Pasul 2:
Pasul 3:
Pasul 4:
217
Introducere în SPSS 2010 Mihaela Sandu
Se selectează „Elements” şi
„Fit Line at Total”.
218
Introducere în SPSS 2010 Mihaela Sandu
* Linia de regresie oblică, de la stânga sus spre dreapta jos, indică o relaţie negativă între cele
două variabile.
219
Introducere în SPSS 2010 Mihaela Sandu
Stima de sine 5 7 3 6 4 5
Pasul 1:
Se introduc datele în „Data Editor”.
Se etichetează variabila „Stima”.
Pasul 1:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptive…”
Pasul 2:
220
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „continue”.
X. Testul t.
Compararea a două eşantioane
de scopuri corelate/relaţionate.
_________________________________________________________________________________________________________________
221
Introducere în SPSS 2010 Mihaela Sandu
* Testul t pentru eşantioane perechi este optim dacă distribuţia diferenţelor dintre cele
două seturi de valori se prezintă (aproximativ) sub formă de clopot (atunci când distribuţia
este normală). Dacă distribuţia este foarte diferită de forma de clopot ar trebui luată în
considerare utilizarea unei tehnici statistice relaţionate nonparametrică pentru eşantioane
perechi, cum ar fi testul de perechi Wilcoxon.
Procesarea unui Test t este ilustrată cu datele din tabelul următor unde
sunt prezentate numărul de cuvinte pe care aceeaşi copii le-au verbalizat cu
mamele lor la 18 luni şi la 24 luni.
Numărul de cuvinte verbalizate într-un minut la vârste diferite.
222
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
În „Variable View” din „Data
Editor” se etichetează primul rând cu
„optsprezece” şi al doilea rând cu
„douăzeci şi patru”.
* Se înlătură cele două zecimale.
Pasul 2:
Pasul 1:
Se selectează:
„Analyze”
„Compare Means”
„Paired-Samples T Test…”
Pasul 2:
Se selectează „optsprezece”
şi se pune această variabilă
lângă eticheta „Variable1” sub
„Curent Selections”.
Se selectează „douăzeci şi
patru” şi se pune această
variabilă lângă eticheta
„Variable2” sub „Curent
Selections”.
Se apasă butonul ►pentru a
pune aceste două variabile în
lista variabilelor relaţionale.
Se apasă „OK”.
223
Introducere în SPSS 2010 Mihaela Sandu
Al doilea tabel arată gradul în care cele două seturi de valori sunt corelate.
Corelaţia dintre ele 0,94. Aceasta este o corelaţie mare, nivelul de semnificaţie
fiind de 0,00.
Primele trei coloane care conţin cifre sunt componentele fundamentale ale
calcului unui Test t relaţionat. Media de -2,000 este de fapt diferenţa dintre
mediile pe 18 şi 24 luni, deci în realitate este media diferenţei. Valoarea lui t
este bazată pe această medie a diferenţei (-2,00), divizată cu eroarea standard a
mediei (0,267). Calculul oferă valoarea lui t (-7,483).
224
Introducere în SPSS 2010 Mihaela Sandu
XI. Testul t.
Compararea a două eşantioane de
scoruri necorelate/nerelaţionate.
_________________________________________________________________________________________________________________
dintre două medii.
măsurată pe scală cantitativă (intervalraport). Distribuţia teoretică de referinţă
(distribuţia de nul) este cea normală, pentru eşantioane mai mari de 30 de subiec
ţi, şi distribuţia t (Student), pentru eşantioane mai mici de 30 de subiecţi. Chiar
dacă formulele de calcul sunt diferite, forma de prezentare a rezultatelor şi ra
ţionamentul decizional sunt similare pentru ambele situaţii.
Testul t pentru eşantioane independente este utilizat pentru a calcula
dacă mediile pentru două seturi de variabile sunt diferite semnificativ una faţă de
cealaltă.
* Testul t pentru eşantioane independente este cel mai des folosit.
Testul t pentru eşantioane independente este utilizat atunci când cele
două seturi de variabile provin din două eşantioane diferite de oameni.
225
Introducere în SPSS 2010 Mihaela Sandu
Procesarea unui Test t pentru eşantioane independente este ilustrată cu
datele din tabelul următorcare arată valorile la un test de emotivitate pentru 10
copii care provin din familii biparentale şi 10 copii care provin din familii
monoparentale. Scopul analizei este de a aprecia dacă valorile emotivităţii sunt
diferite la copii care provin din familii cu doi părinţi faţă de copii care provin
din familii monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9
Pasul 1:
În „Variable View” din „Data Editor”, se etichetează pe rând „Familii”.
Aceasta va defini cele două tipuri de familii.
Pasul 2:
226
Introducere în SPSS 2010 Mihaela Sandu
(familia). Cu alte cuvinte, fiecare rând în parte reprezintă un anumit copil şi variabilele sale
dependente şi independente sunt introduse separat în „Data Editor”.
227
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se selectează:
„Analyze”
„Compare Means”
„Independent Samples T test…”
Pasul 2:
Se selectează
„Emotivitate” şi apoi se
apasă butonul ► pentru
a introduce această
variabilă în lista
variabilelor de test.
Se selectează „Familie”
şi apoi se apasă butonul
◄pentru a introduce
această variabilă în
căsuţa „Grouping
Variable”.
Pasul 3:
Se introduce:
- valoarea 1 (codul pentru familiile
biparentale) lături de eticheta „Group 1”
- valoarea 2 (codul pentru familiile
monoparentale) alături de eticheta „Group
2”.
Se selectează „Continue”
228
Introducere în SPSS 2010 Mihaela Sandu
Primul tabel arată , pentru fiecare grup în parte, numărul de cazuri, media
şi abaterea standard. Media pentru familiile biparentale este 13,00. După cum se
observă există o diferenţă între cele două tipuri de familii, dar, întrebarea este
dacă mediile diferă semnificativ.
Valoarea lui t este media diferenţei (3,500) divizată cu eroarea standard a
diferenţei (1,493), diviziune ce produce valoarea 2,345.
229
Introducere în SPSS 2010 Mihaela Sandu
Dacă se preferă folosirea intervalelor de încredere , se poate scrie:
„Diferenţa dintre valorile testelor de emotivitate ale copiilor ce provin din
familii cu doi părinţi (M=13,00, SD=3,55) şi cei proveniţi din familii cu un
singur părinte (M=9,50, SD=3,10) este de 3,50. Intervalul de încredere de 95%
pentru această diferenţă este de la 0,36 la 6,63.Deoarece intervalul nu conţine
punctul 0,00 diferenţa este statistic semnificativă la nivelul de semnificaţie two-
tailed de 5%.
230
Introducere în SPSS 2010 Mihaela Sandu
231
Introducere în SPSS 2010 Mihaela Sandu
8. Testul t:
a. este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri;
b. este potrivit atunci când variabila dependentă este măsurată pe scală
cantitativă (intervalraport).
c. este utilizat pentru a calcula dacă mediile pentru două seturi de variabile
sunt diferite semnificativ una faţă de cealaltă.
232
Introducere în SPSS 2010 Mihaela Sandu
1. b. eşantioanelor independente;
2. a. dacă mediile a două grupe sunt egale;
3. a. compararea a două seturi de date pentru identificarea diferenţelor;
4. c. se testează dacă media unei variabile este egală cu o constantă
specificată;
5. c. compară mediile pentru un singur grup observat în momente
diferite
6. c. cele două seturi de variabile provin din două eşantioane diferite de
oameni.
7. a. cele două seturi de scoruri ce trebuie comparate provin dintr-un
singur eşantion
b. coeficientul de corelaţie între cele două seturi este mare
8. a. este folosit pentru evaluarea semnificaţiei statistice a diferenţei
dintre mediile pentru două seturi de scoruri;
b. este potrivit atunci când variabila dependentă este măsurată pe
scală cantitativă (intervalraport).
c. este utilizat pentru a calcula dacă mediile pentru două seturi de
variabile sunt diferite semnificativ una faţă de cealaltă.
233
Introducere în SPSS 2010 Mihaela Sandu
234
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2:
Se introduc valorile adecvate în meniul
„Data View” din meniul „Data Editor”.
Fiecare rând reprezintă una dintre cele şase
celule din tabelul prezentat anterior.
Paul 3:
Pasul 4:
Se selectează
„Frecvenţa”, „Weight
cases by” şi apoi se
apasă butonul ◄.
Se apasă „OK”.
Se selectează:
„Analyze”
„descriptives statistics”
„Crosstabs…”(tabele de asociere)
235
Introducere în SPSS 2010 Mihaela Sandu
Pasul 2:
Se selectează „Gen” şi se
apasă butonul ► pentru
„Row(s)”: pentru a-l
introduce în caseta
respectivă.
Se selectează „Site” şi se
apasă butonul ◄ pentru
„Column(s)”: pentru a-l
introduce în caseta
respectivă.
Ser selectează
„Statistics…”
Pasul 3:
Se selectează „Chi-square”.
Se seletează „Continue”.
Pasul 4:
Se selectează „Cells..”
Pasul 5:
236
Introducere în SPSS 2010 Mihaela Sandu
În secţiunea „Counts” se selectează „Expected”. Se selectează „Unstandardized”
în secţiunea „Residuals”. Se selecteaze „Continue”, apoi se apasă „OK în
ecranul anterior care reapare.
* Termenul „rezidual” se referă la diferenţe.
237
Introducere în SPSS 2010 Mihaela Sandu
238
Introducere în SPSS 2010 Mihaela Sandu
Coloana finală din tabel etichetată „Total” conţine numărul de cazuri din
respectivul rând, urmat de numărul aşteptat de cazuri din tabel.
Astfel primul rând are 60 de cazuri, urmat de numărul aşteptat de cazuri
din tabel. Astfel, primul rând are 60 de cazuri, număr care va fi identic
numărului de cazuri aşteptate (adică 60).
În mod similar, rândul final din acest tabel (etichetat „Total) prezintă mai întâi
numărul de cazuri din respectiva coloană urmat de numărul aşteptat de cazuri
din tabel pentru coloana respectivă. Astfel, prima coloană are 44 de cazuri,
număr care ca fi întotdeauna egal cu numărul aşteptat de cazuri (adică 44,0).
Valoarea chi-square, gradul său de liberate şi nivelul său de semnificaţie sunt
afişate în al treilea tabel care începe cu „Pearson” (cel care a elaborat acest test).
Valoarea chi-square este de 13,518, care, rotunjită la un număr cu două
zecimale, devine 13,52. Gradul său de libertate este 2, iar probabilitatea two-
tailed exactă este 0,001.
Sub acest tabel se mai poate vedea şi mărimea „minimum expected count” a
oricărei celule din tabel, care este 13,88 pentru ultima celulă (fetele care preferă
site-urile cu muzică). Dacă diferenţa minimă aşteptată este mai mică decât 5.0,
atunci trebuie să se acorde foarte multă atenţie Testului chi-square.
* Dacă se foloseşte un tabel 2x2 de tip chi-square şi apar frecvenţe anticipate reduse, este
recomandat să se folosească testul Fisher, pe care aplicaţia SPSS îl include în output în astfel
de situaţii.
239
Introducere în SPSS 2010 Mihaela Sandu
Rezultatele se pot descrie astfel: „A existat o diferenţă semnificativă
între frecvenţele observate şi cele aşteptate în cazul adolescenţilor băieţi şi fete
în ceea ce priveşte preferinţa lor pentru cele trei tipuri de site-uri ( χ 2 =
13,51. DF = 2, p = 0,001)”.
O altă posibilitate de interpretare a rezultatelor obţinute ar putea fi:
„ Există o asociere semnificativă între genul biologic şi tipul de site
preferat ( χ2 = 13,51. DF = 2, p = 0,001)”.
Raportarea şi direcţia rezultatelor se poate face astfel: „ Fetele tind mai
mult decât băieţii să prefere site-urile cu anunţuri (de toate genurile) şi preferă
mai puţin site-urile despre matrimoniale sau pe cele cu muzică”.
240
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Pasul 2:
241
Introducere în SPSS 2010 Mihaela Sandu
Se selectează „Transform”,
„recode”
Şi „Into Different Variables”
Pasul 3:
Se selecteaă „Vârstă” şi se
apasă butonul ◄ pentru a
introduce „Vârsta” în
caseta „Numeric Variable
– Output variable”.
Se introduce numele noii
variabile.
Se selectează „Change”
pentru a adăuga acest nume Se selectează „Old and New values”.
nou în caseta „Numeric variable
– Output Variable”.
Pasul 4:
Se selectează „Lowest
through” şi se scrie 9 în
caseta alăturată.
Se selectează „Value”
din meniul „new value”
şi se scrie 1 în căsuţa
alăturată.
Se selectează „Add” şi
se introduce „lowest
throught 9→1 „ în caseta
„Old→New”.
242
Introducere în SPSS 2010 Mihaela Sandu
Pasul 5:
Se selectează
„Range: through
highest” şi se scrie
10 în caseta de
lângă el.
Se selectează
„value” şi se scrie
2 în caseta
alăturată.
Se selectează
„Add” şi se
introduce „10
through
Highest→2” în
caseta „Old→New”. Se apasă „OK” în ecranul care va reapărea.
Pasul 6:
Noua variabilă şi valorile sale sunt
afişate în meniul „Data View”.
243
Introducere în SPSS 2010 Mihaela Sandu
3. Chi – Square
a. testează egalitatea a două sau mai multe proporţii
b. testează egalitatea unei proporţii cu o valoare specificată
c. testează egalitatea mediilor a două eşantioane independente
d. testează egalitatea mediilor a două eşantioane perechi
245
Introducere în SPSS 2010 Mihaela Sandu
246
Introducere în SPSS 2010 Mihaela Sandu
Aceşti itemi se pot folosi pentru a determina nivelul de satisfacţie
profesională a angajaţilor, prin adunarea răspunsurilor date tuturor celor patru
afirmaţii.
Întru totul De acord dezacord Total dezacord
de acord
Respondent 1
Respondent 2
Respondent 3
Deoarece este nevoie de scoruri mari pentru a indica satisfacţia
profesională, se va inversa evaluarea, astfel:
4. total de acord; 3. de acord;
2. dezacord; 1. total dezacord.
Pasul 4:
Pentru a salva această
procedură sub formă de fişier
de sintaxă, se selectează
„Paste” în caseta principală.
247
Introducere în SPSS 2010 Mihaela Sandu
Această comandă de sintaxă va apărea în fereastra „Syntax”.
248
Introducere în SPSS 2010 Mihaela Sandu
capitolul X şi care indică numărul de cuvinte pe care aceeaşi copii le-au
verbalizat cu mamele lor la 18 luni şi la 24 luni.
Pasul 1:
Pasul 2:
Se selectează:
„Analyze”
„Nonparametric Tests”
„2 Related Samples…”
Pasul 3:
Se selectează
„Optsprezece” şi
„douăzecisipatru” şi se
apasă butonul ◄ pentru
a introduce aceste două
variabile în caseta „Test
Pair(s) List”.
249
Introducere în SPSS 2010 Mihaela Sandu
Se deselectează „Wilcoxon”.
Se selectează „Sign”.
Se apasă „OK”.
250
Introducere în SPSS 2010 Mihaela Sandu
Se poate ignora primul dintre cele două tabele de output. Acestea indică
numărul de diferenţe negative (0), pozitive (8) şi inexistente (0) în ceea ce
priveşte datele ordonate după cele două vârste, şi media şi suma catalogate
negative şi pozitive. Valorile pentru „două zeci şi patru „ de luni sunt mai mari
decât cele pentru „optsprezece” luni.
Al doilea tabel indică nivelul de
semnificaţie al acestui test. În loc să
folosească tabelul valorilor critice,
computerul utilizează o formulă care
stabileşte o conexiune cu distribuţia Z.
Scorul Z este de – 2,558, care are o
probabilitate two-tailed de 0,011. Aceasta înseamnă că diferenţele dintre cele
două variabile sunt semnificative din punct de vedere statistic la un nivel de 5%.
251
Introducere în SPSS 2010 Mihaela Sandu
10 copii care provin din familii biparentale şi 10 copii care provin din familii
monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9
Pasul 1:
- este acelaşi ca şi cel prezenta la capitolul XI.
Pasul 2:
Se selectează:
„Analyze”
„Nonparametric tests”
„2 Independent Samples…
Pasul 3:
Se selectează
„Emotivitate” şi se
apasă butonul
►pentru a introduce
parametrul
„Emotivitate” în
caseta „Test Variable
List”.
Se selectează
„Familie” şi se apasă
butonul ◄pentru a
introduce „Familie” în
caseta „Grouping
Variables”.
252
Introducere în SPSS 2010 Mihaela Sandu
Pasul 4:
Se poate ignora primul dintre cele două tabele de output. Acest tabel
indică faptul că rangul mediu dat parametrului „Emotivitate” pentru primul grup
(adică valoarea 2) este 13,15, iar rangul mediu pentru al doilea grup (adică
valoarea 1) este de 7,85. Aceasta înseamnă că valorile din grupul 2 (biparentale)
au tendinţa să fie mai mari decât cele din grupul 1 (monoparentale).
254
Introducere în SPSS 2010 Mihaela Sandu
ANOVA simpla permite compararea simultana a trei sau mai multe
grupe menţinând nivelul la valoarea dorita, de maxim 0,05.
Procesarea analizei one-way de varianţă cu scoruri nerelaţionate este
exemplificată folosind datele din tabelul următor, care indică rezultatele obţinute
de către diferiţi participanţi în condiţii diferite. Este vorba despre un studiu
asupra efectului unor tratamente hormonale şi placebo asupra depresiei.
Astfel, medicamentul este variabila independentă şi depresia este
variabila dependentă.
Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4
Pasul 1:
Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”.
Pasul 2:
Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.
255
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă
caseta „Dependent List” –
pentru a introduce
parametrul în casetă.
Se selectează „Condiţie” şi
se apasă butonul ◄ de lângă
caseta „Factor” – pentru a
introduce parametrul acolo.
Se selectează „Options…
Pasul 4:
Se selectează metodele statistice
„descriptive” şi „Momogenity of variance
test”.
Se selectează „Continue…”.
Se apasă „OK” din ecranul anterior, care
va reapărea.
256
Introducere în SPSS 2010 Mihaela Sandu
semnificaţie de 0,441.
257
Introducere în SPSS 2010 Mihaela Sandu
privare de somn
3 ore 6 ore 9 ore
Consum alcool 14 16 20
10 14 22
15 23 30
Fără alcool 9 11 10
9 258 8 14
12 11 12
Introducere în SPSS 2010 Mihaela Sandu
Pasul 1:
Se introduc datele. Cele ouă coduri pentru
„Alcool” (1=alcool; 2= fără alcool) – în prima
coloană.
Pasul 2:
Se selectează:
„Analyze”
„General Linear Model”
„Univariate…”
Pasul 3:
Se selectează „Erori” şi
se apasă butonul ► de
lângă caseta „Dependent
Variable”pentru a
introduce parametrul
acolo.
Se selectează „Alcool”
şi „Privare de somn” fie
259
Introducere în SPSS 2010 Mihaela Sandu
împreună, fie separat, şi se apasă butonul „Fixed factor(s)” pentru a le introduce
în casetă.
Se selectează „Options…”
Pasul 4:
Se selectează
„Descriptives
statistics” şi
„Homogeneity test”.
Se selectează
„Continue”.
În ecranul anterior,
care va reapărea, se
selectează „Plots…”.
Pasul 5:
Se selectează „Alcool”
şi se apasă butonul ►
de lângă caseta
„Horizontal axis” –
pentru a introduce
parametrul acolo.
Se selectează „Privare
de somn” şi se apasă
butonul ◄ de lângă
caseta „Separate Lines”
- pentru a introduce
opţiunea în casetă.
Se selectează „Add”
.
Se selectează „Continue”. Se apasă „OK” din ecranul anterior
care va reapărea.
260
Introducere în SPSS 2010 Mihaela Sandu
Al patrulea
tabel indică
nivelele de
semnificaţie
pentru cele două
variabile
„Alcool” şi
„Privare de
somn”, şi
interacţiunea
dintre acestea.
261
Introducere în SPSS 2010 Mihaela Sandu
Pentru prima variabilă, cea a alcoolului, Raportul F este 22,891, ceea ce este
semnificativ la nivelul 0,000. Deoarece sunt numai două condiţii pentru ca acest
efect să se producă, se poate conhide că scorul mediu al uneia dintre condiţii
este mult mai mare decât pentru cealaltă.
Pentru a doua variabilă a privării de somn, aceasta este egală cu 5,797,
valoare care are un nivel exact de semnificaţie de 0,017. Astfel, Raportul f este
semnificativ din punct de vedere statistic la un nivel de 0,05, ceea ce înseamnă
că mediile celor trei condiţii legate de somn nu sunt similare.
Mediile care diferă de celelalte pot fi determinate ulterior prin folosirea
testelor de comparaţii multiple, cum este Testul t pentru eşantioane
independente.
raportul F pentru interacţiunile dintre cele două variabile (Alcool şi Privare de
somn) este de 2,708 → nivelul de semnificaţie al acestui raport este de 0,107→
nu este nicio interacţiune semnificativă.
Acest grafic este realizat pentru mediile celor şase condiţii. El a fost editat
cu ajutorul comenzii “Chart Editor”.
privare de somn
3 ore
22,50 6 ore
9 ore
Estimated Marginal Means
20,00
17,50
15,00
12,50
10,00
alcool
262
Introducere în SPSS 2010 Mihaela Sandu
Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4
Pasul 1:
Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”.
Pasul 2:
Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.
263
Introducere în SPSS 2010 Mihaela Sandu
Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă
caseta „Dependent List” –
pentru a introduce
parametrul în casetă.
Se selectează „Condiţie” şi
se apasă butonul ◄ de lângă
caseta „Factor” – pentru a
introduce parametrul acolo.
Pasul 4:
Se selectează:
„Tukey”
„Duncan”
„Scheffe”.
Se apasă
„Continue”.
Se selectează „OK”
în ecranul care va
apărea din nou.
264
Introducere în SPSS 2010 Mihaela Sandu
Al doilea tabel şi ultimul oferă rezultatele celor trei teste de comparaţii
multiple.
Subgrupele omogene.
Grupul hormonului 2 şi al
controlului Placebo
aparţin aceleiaşi
subgrupe, ceea ce
înseamnă că nu sunt
semnificativ diferite.
265
Introducere în SPSS 2010 Mihaela Sandu
Tabelul final, numit „Subgrupele omogene”, enumeră grupurile de medii care
nu sunt semnificativ diferite între ele.
Dacă se ia în calcul aceste două rânduri pentru a se folosi în Testul Tukey HSD,
în acest caz există două subgrupe de medii. Subgrupa 1 indică faptul că mediile
grupelor hormonului 2 şi ale controlului placebo cu valorile 3,33 şi 4,67 nu
diferă semnificativ. Subgrupa 2 conţine doar media grupei hormonului 1, în
valoare de 9,00. Astfel, media grupului hormonului 1 este semnificativ diferită
atât de media grupei hormonului 2, cât şi de cea a gupelor de control placebo.
Toate cele trei teste prin comparaţii multiple sugerează acelaşi lucru: faptul că
există diferenţe semnificative între grupele hormonului 1 şi hormonului 2 şi între
grupele hormonului 1 şi cele ale controlului placebo. Alte diferenţe nu mai
există.
266
Introducere în SPSS 2010 Mihaela Sandu
267
Introducere în SPSS 2010 Mihaela Sandu
268
Introducere în SPSS 2010 Mihaela Sandu
BIBLIOGRAFIE
269
Introducere în SPSS 2010 Mihaela Sandu
13. Ţiţan E, Ghiţă, S,, Trandaş, C, 2003 – Bazele statisticii, Ediţia a 2-a, Ed.
Meteor Press, Bucureşti;
14. Vasilescu, Ilie P., 1992 – Statistică informatizată pentru ştiinţele despre
om, Ed. Militară, Bucureşti;
15.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 2004 – Statistica, Ed.
Universitară, Bucureşti;
16.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 1998 – Statistică teoretică şi
economică. Lucrări practice, teste şi studii de caz, Ed. Economică,
Bucureşti;
17.Voineagu, V; Ţiţan, E, 2004 – Sondaje şi anchete, vol. 1 şi II, Ed.
Fundaţiei „Andrei Şaguna”, Constanţa.
270