Sunteți pe pagina 1din 38

PROIECT PENTRU

PRACTICA IN STATISTICA

Prof. Coordonator

Student:

Anul I , ZI
FEAA

Structura proiectului

I. Obiectivul proiectului
a. Verificarea existentei unei relatii ntre 2 variabile categoriale
b. Verificarea existentei unei relatii ntre 2 variabile numerice
II. Crearea bazei de date
a. Se identific minim 4 variabiale statistice (2 numerice, 2 categoriale), conform
obiectivului cercetrii
b. Se definesc variabilele si se introduc datele n editorul de date folosind un
program statistic (Excell, SPSS)
c. Se verific datele introduse (outlieri, greseli, valori lips)
III. Descrierea statistic a variabilelor
a. Pentru variabile categoriale: proportii, valoarea dominant, diagrama de
structur, diagrama Pareto
b. Pentru variabile numerice: nivelul mediu (media aritmetic, modul, mediana),
dispersia (varianta, intervalul mediu de varietie, coeficientul de variatie), forma
distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma,
curba frecventelor, box-plot, curba de concentrare)
IV. Inferenta statistic
a. Estimarea prin interval de ncredere a unei medii
b. Estimarea prin interval de ncredere a unei proportii
c. Testarea unei valori medii cu o valoare fix
d. Testarea unei proportii cu o valoare fix
V. Analiza statistic a legturilor dintre variabile
a. Analiza variantei (ANOVA)
b. Analiza de corelatie si asociere
c. Analiza de regresie
VI. Concluzii
Bibliografie

I. Obiectivul proiectului

Orice analiza statistica a bazelor de date incepe cu pregatirea setului de date. Acestea au
fost obtinute din Anuarul Statistic al Romaniei din anul 2008 . Pentru analiza statistica urmarita,
au fost luate in calcul urmatoarele variabile:
Variabile categoriale: valorile lor aparin unei mulimi de categorii distinct;

Cauze ale deceselor


Sexul persoanelor decedate

Variabile numerice : valorile lor se stabilesc prin numarare, masurare , calcul ;

Varsta populatiei
Numarului deceselor

Obiectivul proiectului se refera la analiza si descrierea statistica a unei distributii bivariate


folosind indicatori ai tendintei centrale, indicatori ai dispersiei si indicatori ai formei precum si o
parte a statisticii inferentiale folosind estimarea si testarea unor parametri si analiza statistica a
legaturilor dintre variabile (ANOVA, Analiza de corelatie si regresie)
Datele care urmeaza a fi sistematizate sunt preluate din Anuarul Statistic al Romaniei, 2008
Sistematizarea datelor inregistrate presupune ordonarea acestora in functie de omogenitatea lor.
Rezultatul sistematizarii se prezinta intr-o forma comoda de manevrat, prin serii, tabele si grafice.
Sistematizarea datelor este prima faza a prelucrarii statistice si vizeaza obtinerea de distributii statistice.
Distributia bivariata pe care o voi analiza o voi obtine prin gruparea statistica dupa doua caracteristici.

Datele ce vor fi grupate se refera la NUMARUL DECESELOR, PE GRUPE DE


VRST in anul 2007 in Romania pentru variabile numerice, si sunt prezentate in urmatorul
tabel:

Tabelul 1.Numarul deceselor pe grupa de varsta in anul 2007 in Romania

Grupa de vrst (ani)

X i 1
xini

nr
deceselor

3046

327

10

14

343

15

19

906

20

24

1029

25

29

1243

30

34

1832

35

39

3295

40

44

3841

45

49

7602

50

54

12866

55

59

15958

60

64

16745

65

69

25386

70

74

35322

75

79

43293

80

84

42793

85

89

22821

90

94

10185

95

99

2843

100

i peste
total

289
251965

Sursa: Anuarul Statistic al Romaniei 2008

Iar pentru variabilele categoriale, datele ce vor fi grupate se refera la NUMARULUI


DECESELOR, PE CAUZE DE DECES SI SEXE in anul 2007 in Romania pentru variabile
numerice, si sunt prezentate in urmatorul tabel:

Tabelul 2 . Numarul deceselor, pe cauze de deces si sexe in anul 2007 in Romania

Sexul
CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI
METABOLISM
TULBURARI MENTALE SI DE COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS

Masculin
Feminin M+F
1746
629
2375
26753
18630
45383
1076

1306

2382

481

107
957
81253
4730
5845
965
33

588
2018
154516
12656
14568
2294
33

430

327

757

9343
708

2914
471

12257
1179

132839

118167

251006

1061

BOLI ALE APARATULUI CIRCULATOR

73263

BOLI ALE APARATULUI RESPIRATOR

7926

BOLI ALE APARATULUI DIGESTIV

8723

BOLI ALE APARATULUI GENITO-URINAR

1329

SARCINA NASTERE SI LAUZIE


MALFORMATII CONGENITALE DEFORMATII SI
ANOMALII
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE
CAUZE EXTERNE
ALTE CAUZE

TOTAL

TOTAL

Sursa: Anuarul Statistic al Romaniei 2008

III. Descrierea statistica a variabilelor

Obtinerea indicatorilor statistici este necesara pentru caracterizarea, in expresii numerice


generalizatoare, a ceea ce este esential pentru un grup de unitati sau pentru intreaga colectivitate studiata
in conditii de timp si de spatiu date.

a) Pentru variabilele categoriale vom folosi :


- Proportia
- Valoarea dominanta
- Diagrama de structura
- Diagram Pareto
Proportia este un parametru al populaiei, care arat proporia elementelor din populaie
avnd o anumit proprietate.

Mod de calcul;

unde

- reprezinta indivizii dintr-o anumita categorie (i)


N intreaga populatie

Tabelul 3 . Tabelul cu elementele necesare calcului proportiei


Proportia
Masculin
Feminin M+F
Masculin Feminin
1746
629
2375 0,006956 0,002506
26753
18630
45383 0,106583 0,074221
TOTAL

CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI
METABOLISM
TULBURARI MENTALE SI DE
COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS
BOLI ALE APARATULUI
CIRCULATOR
BOLI ALE APARATULUI
RESPIRATOR
BOLI ALE APARATULUI DIGESTIV
BOLI ALE APARATULUI GENITOURINAR
SARCINA NASTERE SI LAUZIE
MALFORMATII CONGENITALE
DEFORMATII SI ANOMALII
LEZIUNI TRAUMATICE OTRAVIRI
SI ALTE CAUZE EXTERNE
ALTE CAUZE
TOTAL

1076

1306

2382

0,004287

0,005203

481
1061

107
957

588
2018

0,001916
0,004227

0,000426
0,003813

73263

81253

154516

0,291877

0,323709

7926
8723

4730
5845

12656
14568

0,031577
0,034752

0,018844
0,023286

1329
0

965
33

2294
33

0,005295
0

0,003845
0,000131

430

327

757

0,001713

0,001303

9343
708

2914
471

12257
1179

0,037222
0,002821

0,011609
0,001876

132839

118167

251006

0,529226

0,470774

Din totalul deceselor inregistrate 53% sunt persoane de genul masculine si 47% de genul
feminin.

Valoarea dominanta ( D ) a seriei este acea valoare a caracteristicii care are cea mai mare
frecven de apariie. Valoarea dominant se mai numete valoare modal.
Tabelul 4. Tabelul cu elementele necesare calcului valorii dominante
Sexul

CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM
TULBURARI MENTALE SI DE COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS

Masculin

Feminin

1746

629
18630

2375
45383

1076

1306

2382

481

107
957
81253
4730
5845
965
33

588
2018
154516
12656
14568
2294
33

430

327

757

9343
708

2914
471

12257
1179

132839

118167

251006

1061
73263

BOLI ALE APARATULUI RESPIRATOR

7926

BOLI ALE APARATULUI DIGESTIV

8723

BOLI ALE APARATULUI GENITO-URINAR

1329

MALFORMATII CONGENITALE DEFORMATII SI


ANOMALII
LEZIUNI TRAUMATICE OTRAVIRI SI ALTE CAUZE
EXTERNE
ALTE CAUZE

TOTAL

M+F

26753

BOLI ALE APARATULUI CIRCULATOR

SARCINA NASTERE SI LAUZIE

TOTAL

Interpretare: Valoarea dominanta in exemplul nostru este valoarea in care prezentam cea
mai frecventa cauza de deces atat in cazul femeilor cat si a barbatilor . Aceasta este in cadrul
bolilor ale aparatului circulator avand valoarea de 154516 iar dominanta dintre masculin si
feminin are valoarea de 132839 si se prezinta in cazul barbatilor.

Grafic 1. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului feminin

Grafic 2. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului masculin

b) Pentru variabile numerice vom folosi : nivelul mediu (media aritmetic, modul,
mediana), dispersia, (prin varianta, intervalul mediu de varietie, coeficientul de varitie), forma
distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecventelor,
box-plot, curba de concentrare)
Indicatorii nivelului mediu sunt:
Media aritmetica a unei distributii empirice reprezinta valoarea pe care ar purta-o
fiecare unitate statistica daca distributia ar fi omogena.
In exemplul nostru media se calculeaza ca medie ponderata, cand n 1 n 2 ..n i , dupa
relatia:
m

x n
i 1
k

'

i i

n
i 1

'

, unde x i =

xi 1 xi
,
2

-mijlocul intervalelor;

- numarul indivizilor din populatie


Pentru calculul mediei aritmetice la nivelul populatiei vor fi necesare cateva elemente de
calcul ce vor fi prezentate in urmatorul tabel:
Tabelul 5. Tabelul cu elementele necesare calcului mediei
Grupa de vrst
(ani)

X i 1
xini

0
5
10
15
20
25
30
35

4
9
14
19
24
29
34
39

nr deceselor

3046
327
343
906
1029
1243
1832
3295

mijlocul
intervalului

2
7
12
17
22
27
32
37

6092
2289
4116
15402
22638
33561
58624
121915

40
45
50
55
60
65
70
75
80
85
90
95
100

44
49
54
59
64
69
74
79
84
89
94
99
i peste
Total
m

x n
'

i 1
k

i i

n
i 1

3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965

42
47
52
57
62
67
72
77
82
87
92
97
105
-

161322
357294
669032
909606
1038190
1700862
2543184
3333561
3509026
1985427
937020
275771
30345
17715277

17715277
70,30848332
251965

Interpretare : Varsta medie de deces este de 70,30 ani pentru populatia Romaniei in anul 2007

Modul (M o ) face parte din categoria marimilor medii fundamentale, de pozitie. El este valoarea
cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante.
Aflarea modului in cazul variabilelor continue presupune efectuarea urmatoarelor operatii:

a) Aflarea frecventei maxime (


b) Indicarea intervalului modal (

)
) corespunzator frecventei maxime

c) Efectuarea interpolarii in intervalul modal dupa relatia:


M o = x i 1 +d

1
,
1 2

In care: x i 1 - limita inferioara a intervalului modal


d

- marimea intervalului modal(

1 - diferenta dintre frecventa intervalului modal si frecventa intervalului anterior celui

modal ( 1 = n i - n i 1 )
2 - diferenta dintre frecventa intervalului modal si frecventa intervalului urmator celui

modal ( 2 = n i - n i 1 )

Tabelul 5. Tabelul cu elementele necesare calcului mediei


Grupa de vrst (ani)

X i 1
xini

0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100

M = x i -1 + d

4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
Total

nr deceselor

3046
327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965

=43293

(75

;79)

1 43293 35322 7971


2 43293 42793 500
Intervalul
modal

1
43293 35322
75 4
78,7639003
1 2
(43293 35322) (43293 42793)

Interpretare : La nivelul esantionului considerat cele mai multe decese au loc la varsta d 78,76
ani.

Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau
descrescator, pana la care si peste care sunt distribuite in numar egal unitatile colectivitatii observate:
jumatate din unitati au valori mai mari decat mediana si jumatate au valori mai mici.
Pentru a calcula valoarea medianei trebuie:
- calculate frecventele relative cumulate(N i ):

calcularea unitatii mediane

aflarea intervalului median in dreptul

determinarea medianei prin interpolare, in cadrul intervalului median dupa formula:

Me = x i 1 d

U Me Ni 1
, unde
ni

x i 1 -limita inferioara a intervalului median

d - marimea intervalului median


U Me - unitatea mediana
N i 1 - frecventa cumulata anterior intervalului median
ni - frecventa intervalului median
Tabelul 6. Tabelul cu elementele necesare calcului medianei, quartilelor
Grupa de vrst (ani)

X i 1
x
N iini

Interval quartilic 1

Interval median

Interval quartilic 3

nr deceselor

Frecvente

0
5
10
15
20
25
30
35
40
45
50
55
60
65

4
9
14
19
24
29
34
39
44
49
54
59
64
69

3046
327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386

3046
3373
3716
4622
5651
6894
8726
12021
15862
23464
36330
52288
69033
94419

70

74

35322

129741

75
80
85
90
95

79
84
89
94
99

43293
42793
22821
10185
2843

173034
215827
238648
248833
251676

100

Me = x i 1 d

i peste
total

289
251965

251965
-

U Me N i 1
125983 94419
70 4
73,57442953
ni
35322

Interpretare : 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57
ani.
Generalizarea medianei:
Quantilele sunt marimi de pozitie.ele sunt valori ale caracteristicii care impart seria in r grupe ale
caror effective sunt egale. Numarul r defineste ordinul quantilelor. Ele sunt folosite in calculul unor
indicatori ai dispersiei

quartile(sunt in numar de trei):

Q 1 xi 1 d

U Q1 N i 1
ni

in care: U Q1 =

1 * ni
4

Q 2 =Me
Q 3 xi 1 d

U Q 3 N i 1
ni

Calcul : U Q1 =

Q 1 60 4

= 62991,25

U Q3 =

3 * ni
4

=(60-64)

62991,25 52288
60+4* 0,6391908 = 62,55676
16745

Interpretare: 25% din decedati au varsta de pana la 62,55 ani iar 75% din ei au varsta de peste 62,55 anI
= Me = 73,57442953

U Q3

3 * 251965
188973,75
4

=(80-84)

81,47273

Interpretare : 75% din decedati au varsta de pana la 62,55 ani iar 25% din au varsta de peste 62,55 ani

Indicatori ai dispersiei

Orice colectivitate are o anumita organizare interna, definita de modul in care valorile
individuale ale caracteristicii se disperseaza sau se concentreaza in jurul valorii centrale,
generand o anumita forma a distributiei observate. Din acest motiv se impune ca indicatorii
tendintei centrale ai unei variabile sa fie completati cu indicatori ai dispersiei, asimetriei si
boltirii.
Dispersia exprima gradul de imprastiere a valorilor individuale ale unei distributii in
jurul valorii centrale si este datorata influentei factorilor aleatori.

Indicatorii pentru calculul dispersiei sunt:


- amplitudinea
- abaterea individuala
- abaterea medie liniara
- varianta
- abaterea medie patratica
- intervalul mediu de varietie,
- coeficientul de variatie

Tabelul 7. Tabelul cu elementele necesare calcului indicatorilor dispersiei


Grupa de
vrst
(ani)
x ' ' x

nr
deceselor

mijlocul
intervalului

3046
327
343

2
7
12

xi i x ni
X i 1n
x' '2

0
5
10

dx
' x i ii x
ix
i x
i

4
9
14

6092
2289
4116

-68
-63
-58

68
63
58

207128
20601
19894

4624
3969
3364

19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i
100
peste
total

906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843

17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97

15402
22638
33561
58624
121915
161322
357294
669032
909606
1038190
1700862
2543184
3333561
3509026
1985427
937020
275771

-53
-48
-43
-38
-33
-28
-23
-18
-13
-8
-3
2
7
12
17
22
27

53
48
43
38
33
28
23
18
13
8
3
2
7
12
17
22
27

48018
49392
53449
69616
108735
107548
174846
231588
207454
133960
76158
70644
303051
513516
387957
224070
76761

2809
2304
1849
1444
1089
784
529
324
169
64
9
4
49
144
289
484
729

289
251965

105
-

30345
17715277

35

35

10115
3094501

1225
26255

15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95

a) Amplitudinea variatiei(A x ):
-in marime absoluta: A x =x max im - x min im = 100 - 0= 100

b) Abaterea individuala(d i ):
- in marime absoluta: d i =x i' -

, este calculata in tabelul nr 7 in coloana 6.

c) Abaterea medie liniara( d ):

x xn
d =
n
'
i

Calcul:

d n

n
i

3094501
= 12,28147163
251965

Interpretare: In medie, numarul de decese se abat de la valoarea medie ( x ), in plus sau in


minus, cu 12,28147163
d) Varianta (dispersia, 2 ):

( x x)
2
Calcul: =
n
i

ni

d n

n
2
i

67558819
=268,1277916
251965

Interpretare: varianta,fiind o marime la patrat,este o marime abstracta, nu se interpreteaza.

e) Abaterea medie patratica():


Calcul: =

268,1277916

=16,374608

Interpretare: In medie, numarul de decese se abat de la valoarea medie ( x ), in plus sau in


minus, cu 16, 374608
f) Intervalul mediu de variatie:

d =

x d 70,308483 2-12,28147163 58,02701 69


x d 70,308483 2 12,28147163 82,589 5495

x 70,308483 2-16,374608 53,93 87532



x 70,308483 216,374608 86, 8309132

, de aici rezulta ca 68.27 % dintre decese sunt cuprins intre varsta

de 53,93 si 86,68 ani

g) Coeficientul de variatie( ):

17,46797976 => este o colectivitate omogena iar media este


moderat reprezentativa.

Indicatori ai formei
Forma unei distributii statistice poate fi apreciata cu ajutorul a doua categorii de valori tipice:
indicatori de asimetrie si indicatori de boltire.
Indicatori ai asimetriei dau informatii asupra modului de repartizare a frecventelor de
o parte sau alta a valorii centrale a unei serii.
Asimetria reprezinta o deviatie de la forma simetrica de distributie. Ca valori central pentru
aprecierea asimetriei, sunt folosite : media aritmetica ( ), modul
Pentru calculul asimetriei vom folosi:

si mediana (Me).

a) Coeficientul de asimetrie Yule(C ay ) masoara asimetria in functie de pozitia quartilelor (


Q1 ; Q3 ; Me )

C ay =

q 2 q1
Q1 Q3 2 Me
=
,
q2 q1
Q3 Q1

unde: q 1 =Me - Q 1 si q 2 =Q 3 -Me

Q 1 = 62,55676 ; Q 3 = 81,47273 ; Me= 73,57442953 - dupa cum am calculate anterior.

C ay =

7,898303

7,898303 11,01767
0,164906356
7,898303 11,01767

distributia este moderat asimetrica la

stanga

b) Coeficientul de asimetrie Pearson( 1 ):

32
,
23

1 =

unde 2

ni

( x x) n
n
3

si 3

2 268,1277916 ; 3

1 =

( x x)
n

= 9315,013

= 4,501336049 1 >0 - distributia este asimetrica la dreapta.

c) Coeficientul de asimetrie Fisher( 1 ):

1 =

3
=
3

9315,013
107,460554 => distributia este asimetrica la dreapta.
4390,487409

Indicatori ai boltirii
Indicatorii boltirii exprima masura aglomerarii frecventelor in zona centrala, pe langa medie.

Boltirea se defineste prin raportarea unei distributii empirice la distributia normal sub aspectul variatiei
variabile X si a frecventei relative
a) Coeficientul de boltire Pearson( 2 ) :
4
4

x i x ni 1123423832 11

2 = 2 ; 4

2
251965
ni

2 =

= 6,201828499

b) Coeficientul de boltire Fisher( 2 ):

2 = 2 - 3 = 6,201828499 3 = 3,201828499

2 > 6,201828499 , 2 > 3,201828499

=> distributia este leptocurtica.

Indicatori ai concentrarii
Prin concentrare se exprima aglomerarea unitatilor unei colectivitati sau a valorilor
globale ale unei distributii in jurul unei valori a caracteristicii de grupare.
Masurarea concentrarii se poate realiza prin calculul Indicelui de concentrare Gini.
Mod de calcul:
n 1

I G p i q i 1 p i 1 q i = 0,1210050149
i 1

Tabelul 8. Tabelul cu elementele necesare calcului a indicatorilor dispersiei


Grupa de
vrst
(ani)

nr
deceselor

X i 1pp q
xi
ni
ii
i 1
pipq
qii i11q1 p i1 q1
LNi

5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100

9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
peste
total

327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965

-3046
3373
3716
4622
5651
6894
8726
12021
15862
23464
36330
52288
69033
94419
129741
173034
215827
238648
248833
251676
251965
-

6092
8381
12497
27899
50537
84098
142722
264637
425959
783253
1452285
2361891
3400081
5100943
7644127
10977688
14486714
16472141
17409161
17684932
17715277
-

0,000344
0,000473
0,000705
0,001575
0,002853
0,004747
0,008056
0,014938
0,024045
0,044213
0,081979
0,133325
0,191929
0,28794
0,431499
0,619674
0,817753
0,929827
0,98272
0,998287
1
-

0,012089
0,013387
0,014748
0,018344
0,022428
0,027361
0,034632
0,047709
0,062953
0,093124
0,144187
0,207521
0,273979
0,374731
0,514917
0,686738
0,856575
0,947147
0,98757
0,998853
1
-

0,0000057192
0,0000094435
0,0000232261
0,0000523301
0,0001064689
0,0002204317
0,0005173418
0,0011471501
0,0027833758
0,0076342387
0,0192237046
0,0398293417
0,0788894725
0,1616959436
0,3190802760
0,5615819859
0,7964667679
0,9307809270
0,9858780660
0,9988530153
-

Grafic 3. Diagrama box-and-wisker

IV.Inferenta statistica
a)

Estimarea prin interval de incredere a unei medii

0,0000046035
0,0000069772
0,0000129404
0,0000353204
0,0000780535
0,0001644041
0,0003843646
0,0009404167
0,0022391422
0,0063749869
0,0170124052
0,0365282135
0,0719217911
0,1482653087
0,2963269670
0,5307970397
0,7745322756
0,9182688693
0,9815930600
0,9982870717
-

0,00000111
0,00000246
0,00001028
0,00001700
0,00002841
0,00005602
0,00013297
0,00020673
0,00054423
0,00125925
0,00221129
0,00330112
0,00696768
0,01343063
0,02275330
0,03078494
0,02193449
0,01251205
0,00428500
0,00056594

0,12100501

Estimarea punctuala a unui parametru presupune aflarea unei valori posibile a estimatorului
parametrului pe baza datelor inregistrate la nivelul unui esantion.
Pentru estimarea prin interval de incredere am avut in vedere un esantion extras din Populatia
Romaniei. . Am ales un esantion din totalul populatiei reprezentand decesele inregistrate pe

categorii de varsta in Judetul Iasi.


Tabelul 9.Numarul deceselor pe grupa de varsta in anul 2007 in Judetul Iasi

Grupa de vrst (ani)

X i 1
xini

0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100

nr deceselor

4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total

76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893

Media a populatiei se poate estima punctual prin media ( x ) obtinuta la nivelul unui esantion.
Media x este o valoare a estimatorului

, calculata pe baza datelor la nivelul unui esantion

Media la nivelul esantionului este de

x = 67,77469897 ani , iar la nivelul populatiei este de

70,30848332 .

Estimarea mediei prin interval de incredere:

I.C.( x

),

'

; unde s =

(x

x) 2

Tabelul 10. Tabelul cu elementele necesare calcului estimarii prin interval de incredere a mediei
Grupa de vrst
(ani)

X i 1
'
xx'inxx'iixx 2

0 i
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100

s'

4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total

nr deceselor

mijlocul
intervalului

76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893

24690,01549
1,8925899 ;
6893

2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-

0,05 ,

152
294
408
935
572
837
2688
3034
4032
8930
33540
30381
46066
42545
40104
83314
87740
49677
23460
6887
1575
467171

z / 2, = 1,96

-65,77469897
-60,77469897
-55,77469897
-50,77469897
-45,77469897
-40,77469897
-35,77469897
-30,77469897
-25,77469897
-20,77469897
-15,77469897
-10,77469897
-5,77469897
-0,77469897
4,22530103
9,22530103
14,22530103
19,22530103
24,22530103
29,22530103
37,22530103
-

4326,311025
3693,564035
3110,817045
2578,070055
2095,323066
1662,576076
1279,829086
947,0820967
664,335107
431,5881173
248,8411276
116,0941379
33,34714819
0,600158494
17,85316879
85,10617909
202,3591894
369,6121997
586,86521
854,1182203
1385,723037
24690,01549

=0,022795671

=1,96 *0,022795671 = 0,044679515


x x

67,77469897 - 0,044679515

67,73001945 <

67,77469897 + 0,044679515

< 67,81937849

Se poate afirma ca intervalul de variatie a varstei din esantionul studiat este (67,73001945 67,81937849 ) ani in 95% din cazuri .

Estimarea proportiei prin interval de incredere


Pentru estimarea proportiei am ales un esantion format din numarul deceselor grupate pe cauze
de deces si sexe inregistrat in Judetul Iasi in anul 2007
Tabelul 11. Decesele grupate pe cauze de deces si sexe inregistrat in Judetul Iasi in anul 2007
Sexul
CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI

Masculin

TOTAL
Feminin

86
803

M+F
45

131

875

1678

BOLI ENDOCRINE DE NUTRITIE SI


METABOLISM

36

36

72

TULBURARI MENTALE SI DE
COMPORTAMNET

24

32

BOLI ALE SISTEMULUI NERVOS

36

26

62

BOLI ALE APARATULUI CIRCULATOR

2896

1427

4323

BOLI ALE APARATULUI RESPIRATOR

368

142

510

BOLI ALE APARATULUI DIGESTIV

365

199

564

BOLI ALE APARATULUI GENITOURINAR

96

12

108

SARCINA NASTERE SI LAUZIE

MALFORMATII CONGENITALE
DEFORMATII SI ANOMALII

16

17

33

267

215

482

LEZIUNI TRAUMATICE OTRAVIRI SI


ALTE CAUZE EXTERNE

ALTE CAUZE
TOTAL
Sursa: Anuarul statistic al Romaniei 2008

19

11

30

5012

3015

8027

Intervalul de incredere pentru parametrul p , la nivelul unui esantion este:

Proportia pentru cele doua sexe:


=

0,6243927 in cazul sexului masculin

0,3756073 in cazul sexului masculine

IC:

Testarea unei valori medii cu o valoare fixa


Admitem ca parametrul - nivelul mediu al distributiei unei populatii si un estimator al
acesteia .Testarea ipotezei ca o valoare x a estimatorului estimeaza valoarea parametrului ,
presupune parcurgerea urmatoarelor etape:
1.Formularea ipotezelor:
H 0 : = 70,30848
H 1 : 70,30848
2. Alegem testul statistic:
-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:

z=

x 0

/ n
3.Specificam un prag de semnificatie

al testului

= 0,05

= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H 0 ) cand aceasta este adevarata.
4.Definim regiunea de respingere
Pentru

= 0,025 , citim in tabel valorile :

si

de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 =

In acest caz, regiunea

= 0,025 , respingem H 0 daca z <

-0,198 sau daca z > 0,198.


5.Calculam valoare numerica a statisticii z:
z=

x 0

/ n

67,77469897 70,30848
1,8925899 / 6893

= -111,152

6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H

Deci, dupa rezultatele esantionului, se

poate afirma, cu un risc de 5%, ca numarul deceselor din judetul Iasi difera semnificativ de media
populatiei 70,30848 .

Testarea unei proportii cu o valoare fixa


Admitem ca parametrul f - proportia unei populatii si un estimator al acesteia p. .Testarea
ipotezei ca o valoare p a estimatorului f estimeaza valoarea parametrului f, presupune parcurgerea
urmatoarelor etape:
1.Formularea ipotezelor:
H0:p=
H1 : p

2. Alegem testul statistic:


-avand in vedere ca esantionul este de volum mare (n> 30) se foloseste statistica z, definit de relatia:

f p
p (1 p )
n

z=

3.Specificam un prag de semnificatie

al testului

= 0,05

= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H 0 ) cand aceasta este adevarata.
4.Definim regiunea de respingere
Pentru

= 0,025 , citim in tabel valorile :

si

de respingere este z > 0,198 si z < - 0,198 . Pentru P( z > 0,198 =

In acest caz, regiunea

= 0,025 , respingem H 0 daca z <

-0,198 sau daca z > 0,198.


5.Calculam valoare numerica a statisticii z:

f p
=

p (1 p )
n

0,6243927 0.529226
0.529226(1 - 0.529226)
8027

0.0951667
0.249145840924
8027

0.0951667
17.0818
0.0055712184

6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H

Deci, dupa rezultatele esantionului, se

poate afirma, cu un risc de 5%, ca proportia deceselor din judetul Iasi difera semnificativ de proportia
populatiei

V. Analiza statistica a legaturilor dintre variabile


Analiza Variantei (ANOVA) este un procedeu de analiza a variatiei considerand un singur factor cauza.
Tabelul 12. Decesele grupate dupa varsta si numarul lor inregistrate in Judetele Iasi, Suceava,

Neamt in anul 2007


Grupa de vrst
(ani)

mijlocul
intervalului

nr decese
iasi

nr decese
suceava

76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893

65
32
45
35
15
24
65
72
85
108
592
564
675
535
553
978
983
542
246
59
12
6285

nr decese
neamt

total decese

Xxi i1x i'


0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100

4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total
media mediilor

2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-

74
36
56
82
43
42
59
85
39
96
729
836
598
753
656
987
1098
469
291
68
16
7113
-

215
110
135
172
84
97
208
239
220
394
1966
1933
2016
1923
1766
3047
3151
1582
792
198
43
20291

In exemplul oferit ne aflam in cazul unei ANOVA pentru un factor (tipul zonei).
Notam: Nr decese in Iasi: -

Nr decese in Suceava -

Nr. Decese in Neamt Numarul zonelor- k=3


Productia media pe zone:

Esantionul n = 20291 persoane repartizat in grupe cu un volum de :

6893;

6285;

=7113
Ipoteze:
cel putin varsta medie dintr doua judete diferite sa difere intre ele.
Varsta medie pe judete este reprezentata in ultima linie a tabelului!!!!!!!!!!!!!!!!
Pe baza acestor valori calculam media pe toate judetele observate:
k

x n
j

j 1
k

n
j 1

67,7747 6893 68,25473 6285 67,19162 7113


67,71898871 ani
6893 6285 7113

pentru verificarea ipotezei

aplicam testul F,fiind indeplinite conditiile:

Esantioanele au fost selectate aleator si independent- conditia de independenta


Populatiile sunt distribuite normal- conditia de normalitate
Varianta distributiei deceselor dupa grupa de varsta este aceiasi pentru fiecare judet- conditia
de homoscedasticitate

Regula de decizie: S-au admis tre judete, deci gradul de libertate


Sunt

20291

persoane

de

observant,

impartite

.
in

k=3

esantioane,

deci

Se respinge ipoteza

, la un nivel de semnificatie de

, daca are loc relatia

.
Tabelul 11. Tabel cu elementele de calcul pentru ANOVA :

x i'

xxxnxx 2n
ijiji j ij

2 2
j j
ij

7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
Total
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72

76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893
65
32
45
35
15
24
65
72
85
108
592
564
675
535
553

-65
-61
-55
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-66
-60
12
17
22
27
32
37
42
47
52
57
62
67
72

4195,76176
3752,14195
3046,11492
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184
5929
6724
7569
8464
9409
11025
4389,68925
3623,03112
144
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184

318877,8938
157589,9618
103567,9072
15895
12584
22599
86016
112258
169344
419710
1744080
1731717
2856092
2850515
2887488
6415178
7194680
4321899
2158320
668039
165375
34411824,76
285329,8011
115936,9958
6480
10115
7260
17496
66560
98568
149940
238572
1600768
1832436
2594700
2401615
2866752

77
82
87
92
97
105
Total 2
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
Total 3
Total

978
983
542
246
59
12
6285
74
36
56
82
43
42
59
85
39
96
729
836
598
753
656
987
1098
469
291
68
16
7113
20291

77
82
87
92
97
105
-65
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-

5929
6724
7569
8464
9409
11025
4249,94732
49
144
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184
5929
6724
7569
8464
9409
11025
-

Calculul Testului F

Calculul componentelor variatiei:

Variatia intergrupe:

21,462044+1804,3078+1977,736= 3803,506
Variatia intragrupe:

5798562
6609692
4102398
2082144
555131
132300
31572755,8
314496,1015
1764
8064
23698
20812
30618
60416
116365
68796
212064
1971216
2716164
2298712
3380217
3400704
5851923
7382952
3549861
2463024
639812
176400
34688078,1
100672658,7

100672658,7
Variatia totala:
100676462,1672

Calculul estimatorilor variantei


1901,753

4962,1776

Calculul raportului Fisher

0,38325

Decizie: Pentru

tabelul F valoarea

citim in

=4,605. Se compara valoarea calculate cu valoarea tabelata si se

constata ca:

)<(

=4,605); ca urmare decidem se admite egalitatea

mediilor, esantioanele comparate provin din aceiasi populatie, astfel numarul deceselor din cele 3 judete
nu influenteaza semnificativ variatia varstei medii.

ANALIZA DE CORELATIE, ASOCIERE SI REGRESIE


Tabel 12. Elementele necesare calcului analizei de corelatie si regresie

xi'
e(i2x2 ( x
y2)i 2 y xi ) 2

yx y y

(iyi iii ixi yxi76


)
2x
7

42

12

34

17

55

22

26

27

31

152

60122796,23

-60122720,23

3614741487854850,00

2514,306122

63624,05669

294

49

54127676,23

-54127634,23

2929800787336670,00

2037,877551

81932,24717

408

144

48132556,23

-48132522,23

2316739696221440,00

1611,44898

86576,05669

935

289

42137436,23

-42137381,23

1775558896922360,00

1235,020408

74659,05669

572

484

36142316,23

-36142290,23

1306265143069550,00

908,5918367

91347,86621

837

729

30147196,23

-30147165,23

908851571404921,00

632,1632653

88350,48526

32

84

37

82

42

96

47

190

52

645

57

533

62

743

67

635

72

557

77

1082

82

1070

87

571

92

255

97

71

105

15

1095

6893

2688

1024

24152076,23

-24151992,23

583318728677980,00

405,7346939

59652,24717

3034

1369

18156956,23

-18156874,23

329672081804038,00

229,3061224

60633,19955

4032

1764

12161836,23

-12161740,23

147907925422000,00

102,877551

53934,53288

8930

2209

6166716,23

-6166526,23

38026045745278,00

26,44897959

19109,77098

33540

2704

171596,23

-170951,23

29224323038,51

0,020408163

100338,1043

30381

3249

-5823523,77

5824056,77

33919637260182,90

23,59183673

41927,43764

46066

3844

-11818643,77

11819386,77

139697903618851,00

97,16326531

172027,4376

42545

4489

-17813763,77

17814398,77

317352803536578,00

220,7346939

94102,86621

40104

5184

-23808883,77

23809440,77

566889469780138,00

394,3061224

52332,00907

83314

5929

-29804003,77

29805085,77

888343137757057,00

617,877551

568157,0091

87740

6724

-35799123,77

35800193,77

1281653873969550,00

891,4489796

550210,7234

49677

7569

-41794243,77

41794814,77

1746806541658610,00

1215,020408

58933,3424

23460

8464

-47789363,77

47789618,77

2283847662181940,00

1588,591837

5363,818594

6887

9409

-53784483,77

53784554,77

2892778331807130,00

2012,163265

66171,43764

1575

11025

-63376675,77

63376690,77

4016604932956200,00

2793,877551

98118,10431

467171

76655

28118805883308400,00

19558,57143

2487501,81

Analiza de corelatie
Analiza de corelatie este o metoda statistica prin care se masoara intensitatea legaturii dintre
variabile. Dupa tipul modelului de regresie corelatia poate fi tratata ca o corelatie simpla sau multipla.
Deasemenea se evidentiaza gradul de influenta a variabilei/variabilelor factoriale asupra variabilei
rezultative.
Pentru doua variabile aleatoare X si Y la nivelul unei esantion de volum n , coeficientul de
corelatie teoretic se noteaza

si este definit astfel:

Comparand relatia coeficientului de regresie cu cea a coeficientului de corelatie :


= - 1199024

= -0,67854- legatura negativa

Valoare coeficientului de corelatie este cuprinsa intre -1 si +1. Cele doua valori extreme
reprezinta o legatura liniara perfecta (functionala) intre cele doua variabile, pozitiva sau
negative.Valoarea 0 semnifica absenta legaturii intre cele doua variabile.

Testarea coeficientului de corelatie

= > se accepta ipoteza nula deci coeficientul de corelatie nu este semnificativ


Analiza de asociere
Tabelul 13. Decesele grupate pe judete si sexe inregistrate in Romania in anul 2007

IASI
NEAMT
total

masculin feminin total


3946
2947
6893
4256
2857
7113
8202
5804
14006

Coeficientul de asociere:

-0,05327 = >intre distributia pe

sexe si distributia pe judet la momentul considerat, exista o asociere negativa slaba.

Analiza de regresie

Analiza de regresie este o metoda statistica care permite studierea si masurarea relatiei care
exista intre doua sau mai multe variabile, precum si descoperirea legii relative la forma legaturilor dintre
variabile. Prin aceasta metoda se incearca pe baza datelor unui esantion sa se estimeze relatia matematica
dintre doua sau mai multe variabile, adica sa se estimeze valorile unei variabile in functie de valorile altei
variabile.
Modelul de regresie liniara simpla exprima legatura dintre doua variabile si ia forma :
Daca :

- legatura directa (pozitiva)


- nu exista legatura

legatura inversa (negativa)


Ecuatia estimate este:

n x i y i xi y i
i

n x ( x i )
2
i

21 467171 1095 6893


-1199024
21 76655 - (1095) 2

= 328,2380952-( - 1199024 *52,14285714)= 62520844,23


= 62520844,23 + ( - 1199024 x)
Testarea semnificatiei coeficientului de regresie b
Formularea ipotezelor:

Daca respingem ipoteza

, cu un prag de semnificatie

ales, atunci legatura dintre cele doua

variabile X si Y este semnificativa.In practica se foloseste de regula


de 5% de a respinge pe nedrept ipoteza

, adica se considera un risc

atunci cand aceasta ar fi adevarata.

Test: Pentru testarea semnificatiei coeficientului de regresie

se foloseste statistica definite de

testu t:

Estimatia variantei estimatorului parametrului de regresie

Raportul Student:

la nivelul unui esantion se calculeaza:

1479937151753073.6842

=2.093

Estimarea prin interval de incredere

=>

=>

Putem spune ca ne asumam un risc de 5% ca valoarea adevarata a coeficientului de regresie sa


fie acoperita de intervalul [-1774758.5596457; -623289.4403543]

Concluzii

In urma gruparii unor date preluate din Anuarul Statistic al Romanie 2008, care se refera
la 2 variabile numerice -numarul deceselor dupa varsta in Romania in anul 2007 ,si 2 variabile
categoriale- Decesele dupa sexe si cauze de deces am obtinut o distributie statistica bivariata.
Cu ajutorul indicatorilor tendintei centrale, ai dispersiei si ai formei am analizat
si am interpretat rezultatele legate de aceasta.
Indicatorii tendintei centrale ne arata ca:
- varsta medie ( x ) de deces pe tara este egala cu 70,30 ani
- la nivelul esantionului cele mai multe decese au loc la varsta de 78,76 ani (Mo)
- 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57
ani(Me);
- Cu ajutorul quartilelor am realizat diagrama box-and-wisker care arata ca distributia este
asimetrica la dreapta.
Diagrama box-and-wisker

Cu ajutorul indicatorilor dispersiei aflam ca 68.27 % dintre decese sunt cuprins intre
varsta de 53,93 si 86,68 ani . Indicatorii formei ne arata ca distributia este leptcurtica si moderat
asimetrica la dreapta.
In urma testarii mediei putem afirma cu un coeficient de incredere de 95% ca numarul
de decese inregistrate este egal cu 70,30 ani . Din analiza ANOVA aflam ca numarul deceselor
din cele 3 judete nu influenteaza semnificativ variatia varstei medii, iar din analiza de corelatie
asociere si regresie aflam ca avem o legatura negativa.

Bibliografie

1. Anuarul Statistic al Romaniei din 2008


2.Elisabeta Jaba, Statistica, editia a 3 a revizuita, Editura Economica, Bucuresti, 2002
3.Elisabeta Jaba, Teste grila si probleme, Editura Sedcom Libris, Iasi, 2005

S-ar putea să vă placă și