Documente Academic
Documente Profesional
Documente Cultură
PRACTICA IN STATISTICA
Prof. Coordonator
Student:
Anul I , ZI
FEAA
Structura proiectului
I. Obiectivul proiectului
a. Verificarea existentei unei relatii ntre 2 variabile categoriale
b. Verificarea existentei unei relatii ntre 2 variabile numerice
II. Crearea bazei de date
a. Se identific minim 4 variabiale statistice (2 numerice, 2 categoriale), conform
obiectivului cercetrii
b. Se definesc variabilele si se introduc datele n editorul de date folosind un
program statistic (Excell, SPSS)
c. Se verific datele introduse (outlieri, greseli, valori lips)
III. Descrierea statistic a variabilelor
a. Pentru variabile categoriale: proportii, valoarea dominant, diagrama de
structur, diagrama Pareto
b. Pentru variabile numerice: nivelul mediu (media aritmetic, modul, mediana),
dispersia (varianta, intervalul mediu de varietie, coeficientul de variatie), forma
distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma,
curba frecventelor, box-plot, curba de concentrare)
IV. Inferenta statistic
a. Estimarea prin interval de ncredere a unei medii
b. Estimarea prin interval de ncredere a unei proportii
c. Testarea unei valori medii cu o valoare fix
d. Testarea unei proportii cu o valoare fix
V. Analiza statistic a legturilor dintre variabile
a. Analiza variantei (ANOVA)
b. Analiza de corelatie si asociere
c. Analiza de regresie
VI. Concluzii
Bibliografie
I. Obiectivul proiectului
Orice analiza statistica a bazelor de date incepe cu pregatirea setului de date. Acestea au
fost obtinute din Anuarul Statistic al Romaniei din anul 2008 . Pentru analiza statistica urmarita,
au fost luate in calcul urmatoarele variabile:
Variabile categoriale: valorile lor aparin unei mulimi de categorii distinct;
Varsta populatiei
Numarului deceselor
X i 1
xini
nr
deceselor
3046
327
10
14
343
15
19
906
20
24
1029
25
29
1243
30
34
1832
35
39
3295
40
44
3841
45
49
7602
50
54
12866
55
59
15958
60
64
16745
65
69
25386
70
74
35322
75
79
43293
80
84
42793
85
89
22821
90
94
10185
95
99
2843
100
i peste
total
289
251965
Sexul
CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI
METABOLISM
TULBURARI MENTALE SI DE COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS
Masculin
Feminin M+F
1746
629
2375
26753
18630
45383
1076
1306
2382
481
107
957
81253
4730
5845
965
33
588
2018
154516
12656
14568
2294
33
430
327
757
9343
708
2914
471
12257
1179
132839
118167
251006
1061
73263
7926
8723
1329
TOTAL
TOTAL
Mod de calcul;
unde
CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI
METABOLISM
TULBURARI MENTALE SI DE
COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS
BOLI ALE APARATULUI
CIRCULATOR
BOLI ALE APARATULUI
RESPIRATOR
BOLI ALE APARATULUI DIGESTIV
BOLI ALE APARATULUI GENITOURINAR
SARCINA NASTERE SI LAUZIE
MALFORMATII CONGENITALE
DEFORMATII SI ANOMALII
LEZIUNI TRAUMATICE OTRAVIRI
SI ALTE CAUZE EXTERNE
ALTE CAUZE
TOTAL
1076
1306
2382
0,004287
0,005203
481
1061
107
957
588
2018
0,001916
0,004227
0,000426
0,003813
73263
81253
154516
0,291877
0,323709
7926
8723
4730
5845
12656
14568
0,031577
0,034752
0,018844
0,023286
1329
0
965
33
2294
33
0,005295
0
0,003845
0,000131
430
327
757
0,001713
0,001303
9343
708
2914
471
12257
1179
0,037222
0,002821
0,011609
0,001876
132839
118167
251006
0,529226
0,470774
Din totalul deceselor inregistrate 53% sunt persoane de genul masculine si 47% de genul
feminin.
Valoarea dominanta ( D ) a seriei este acea valoare a caracteristicii care are cea mai mare
frecven de apariie. Valoarea dominant se mai numete valoare modal.
Tabelul 4. Tabelul cu elementele necesare calcului valorii dominante
Sexul
CAUZE
BOLI INFECTIOASE SI PARAZITARE
TUMORI
BOLI ENDOCRINE DE NUTRITIE SI METABOLISM
TULBURARI MENTALE SI DE COMPORTAMNET
BOLI ALE SISTEMULUI NERVOS
Masculin
Feminin
1746
629
18630
2375
45383
1076
1306
2382
481
107
957
81253
4730
5845
965
33
588
2018
154516
12656
14568
2294
33
430
327
757
9343
708
2914
471
12257
1179
132839
118167
251006
1061
73263
7926
8723
1329
TOTAL
M+F
26753
TOTAL
Interpretare: Valoarea dominanta in exemplul nostru este valoarea in care prezentam cea
mai frecventa cauza de deces atat in cazul femeilor cat si a barbatilor . Aceasta este in cadrul
bolilor ale aparatului circulator avand valoarea de 154516 iar dominanta dintre masculin si
feminin are valoarea de 132839 si se prezinta in cazul barbatilor.
Grafic 1. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului feminin
Grafic 2. Diagrama de structura dupa distributie cauzelor deceselor in cazul sexului masculin
b) Pentru variabile numerice vom folosi : nivelul mediu (media aritmetic, modul,
mediana), dispersia, (prin varianta, intervalul mediu de varietie, coeficientul de varitie), forma
distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecventelor,
box-plot, curba de concentrare)
Indicatorii nivelului mediu sunt:
Media aritmetica a unei distributii empirice reprezinta valoarea pe care ar purta-o
fiecare unitate statistica daca distributia ar fi omogena.
In exemplul nostru media se calculeaza ca medie ponderata, cand n 1 n 2 ..n i , dupa
relatia:
m
x n
i 1
k
'
i i
n
i 1
'
, unde x i =
xi 1 xi
,
2
-mijlocul intervalelor;
X i 1
xini
0
5
10
15
20
25
30
35
4
9
14
19
24
29
34
39
nr deceselor
3046
327
343
906
1029
1243
1832
3295
mijlocul
intervalului
2
7
12
17
22
27
32
37
6092
2289
4116
15402
22638
33561
58624
121915
40
45
50
55
60
65
70
75
80
85
90
95
100
44
49
54
59
64
69
74
79
84
89
94
99
i peste
Total
m
x n
'
i 1
k
i i
n
i 1
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965
42
47
52
57
62
67
72
77
82
87
92
97
105
-
161322
357294
669032
909606
1038190
1700862
2543184
3333561
3509026
1985427
937020
275771
30345
17715277
17715277
70,30848332
251965
Interpretare : Varsta medie de deces este de 70,30 ani pentru populatia Romaniei in anul 2007
Modul (M o ) face parte din categoria marimilor medii fundamentale, de pozitie. El este valoarea
cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante.
Aflarea modului in cazul variabilelor continue presupune efectuarea urmatoarelor operatii:
)
) corespunzator frecventei maxime
1
,
1 2
modal ( 1 = n i - n i 1 )
2 - diferenta dintre frecventa intervalului modal si frecventa intervalului urmator celui
modal ( 2 = n i - n i 1 )
X i 1
xini
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
M = x i -1 + d
4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
Total
nr deceselor
3046
327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965
=43293
(75
;79)
1
43293 35322
75 4
78,7639003
1 2
(43293 35322) (43293 42793)
Interpretare : La nivelul esantionului considerat cele mai multe decese au loc la varsta d 78,76
ani.
Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau
descrescator, pana la care si peste care sunt distribuite in numar egal unitatile colectivitatii observate:
jumatate din unitati au valori mai mari decat mediana si jumatate au valori mai mici.
Pentru a calcula valoarea medianei trebuie:
- calculate frecventele relative cumulate(N i ):
Me = x i 1 d
U Me Ni 1
, unde
ni
X i 1
x
N iini
Interval quartilic 1
Interval median
Interval quartilic 3
nr deceselor
Frecvente
0
5
10
15
20
25
30
35
40
45
50
55
60
65
4
9
14
19
24
29
34
39
44
49
54
59
64
69
3046
327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
3046
3373
3716
4622
5651
6894
8726
12021
15862
23464
36330
52288
69033
94419
70
74
35322
129741
75
80
85
90
95
79
84
89
94
99
43293
42793
22821
10185
2843
173034
215827
238648
248833
251676
100
Me = x i 1 d
i peste
total
289
251965
251965
-
U Me N i 1
125983 94419
70 4
73,57442953
ni
35322
Interpretare : 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57
ani.
Generalizarea medianei:
Quantilele sunt marimi de pozitie.ele sunt valori ale caracteristicii care impart seria in r grupe ale
caror effective sunt egale. Numarul r defineste ordinul quantilelor. Ele sunt folosite in calculul unor
indicatori ai dispersiei
Q 1 xi 1 d
U Q1 N i 1
ni
in care: U Q1 =
1 * ni
4
Q 2 =Me
Q 3 xi 1 d
U Q 3 N i 1
ni
Calcul : U Q1 =
Q 1 60 4
= 62991,25
U Q3 =
3 * ni
4
=(60-64)
62991,25 52288
60+4* 0,6391908 = 62,55676
16745
Interpretare: 25% din decedati au varsta de pana la 62,55 ani iar 75% din ei au varsta de peste 62,55 anI
= Me = 73,57442953
U Q3
3 * 251965
188973,75
4
=(80-84)
81,47273
Interpretare : 75% din decedati au varsta de pana la 62,55 ani iar 25% din au varsta de peste 62,55 ani
Indicatori ai dispersiei
Orice colectivitate are o anumita organizare interna, definita de modul in care valorile
individuale ale caracteristicii se disperseaza sau se concentreaza in jurul valorii centrale,
generand o anumita forma a distributiei observate. Din acest motiv se impune ca indicatorii
tendintei centrale ai unei variabile sa fie completati cu indicatori ai dispersiei, asimetriei si
boltirii.
Dispersia exprima gradul de imprastiere a valorilor individuale ale unei distributii in
jurul valorii centrale si este datorata influentei factorilor aleatori.
nr
deceselor
mijlocul
intervalului
3046
327
343
2
7
12
xi i x ni
X i 1n
x' '2
0
5
10
dx
' x i ii x
ix
i x
i
4
9
14
6092
2289
4116
-68
-63
-58
68
63
58
207128
20601
19894
4624
3969
3364
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i
100
peste
total
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
15402
22638
33561
58624
121915
161322
357294
669032
909606
1038190
1700862
2543184
3333561
3509026
1985427
937020
275771
-53
-48
-43
-38
-33
-28
-23
-18
-13
-8
-3
2
7
12
17
22
27
53
48
43
38
33
28
23
18
13
8
3
2
7
12
17
22
27
48018
49392
53449
69616
108735
107548
174846
231588
207454
133960
76158
70644
303051
513516
387957
224070
76761
2809
2304
1849
1444
1089
784
529
324
169
64
9
4
49
144
289
484
729
289
251965
105
-
30345
17715277
35
35
10115
3094501
1225
26255
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
a) Amplitudinea variatiei(A x ):
-in marime absoluta: A x =x max im - x min im = 100 - 0= 100
b) Abaterea individuala(d i ):
- in marime absoluta: d i =x i' -
x xn
d =
n
'
i
Calcul:
d n
n
i
3094501
= 12,28147163
251965
( x x)
2
Calcul: =
n
i
ni
d n
n
2
i
67558819
=268,1277916
251965
268,1277916
=16,374608
d =
x d 70,308483 2 12,28147163 82,589 5495
g) Coeficientul de variatie( ):
Indicatori ai formei
Forma unei distributii statistice poate fi apreciata cu ajutorul a doua categorii de valori tipice:
indicatori de asimetrie si indicatori de boltire.
Indicatori ai asimetriei dau informatii asupra modului de repartizare a frecventelor de
o parte sau alta a valorii centrale a unei serii.
Asimetria reprezinta o deviatie de la forma simetrica de distributie. Ca valori central pentru
aprecierea asimetriei, sunt folosite : media aritmetica ( ), modul
Pentru calculul asimetriei vom folosi:
si mediana (Me).
C ay =
q 2 q1
Q1 Q3 2 Me
=
,
q2 q1
Q3 Q1
C ay =
7,898303
7,898303 11,01767
0,164906356
7,898303 11,01767
stanga
32
,
23
1 =
unde 2
ni
( x x) n
n
3
si 3
2 268,1277916 ; 3
1 =
( x x)
n
= 9315,013
1 =
3
=
3
9315,013
107,460554 => distributia este asimetrica la dreapta.
4390,487409
Indicatori ai boltirii
Indicatorii boltirii exprima masura aglomerarii frecventelor in zona centrala, pe langa medie.
Boltirea se defineste prin raportarea unei distributii empirice la distributia normal sub aspectul variatiei
variabile X si a frecventei relative
a) Coeficientul de boltire Pearson( 2 ) :
4
4
x i x ni 1123423832 11
2 = 2 ; 4
2
251965
ni
2 =
= 6,201828499
2 = 2 - 3 = 6,201828499 3 = 3,201828499
Indicatori ai concentrarii
Prin concentrare se exprima aglomerarea unitatilor unei colectivitati sau a valorilor
globale ale unei distributii in jurul unei valori a caracteristicii de grupare.
Masurarea concentrarii se poate realiza prin calculul Indicelui de concentrare Gini.
Mod de calcul:
n 1
I G p i q i 1 p i 1 q i = 0,1210050149
i 1
nr
deceselor
X i 1pp q
xi
ni
ii
i 1
pipq
qii i11q1 p i1 q1
LNi
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
peste
total
327
343
906
1029
1243
1832
3295
3841
7602
12866
15958
16745
25386
35322
43293
42793
22821
10185
2843
289
251965
-3046
3373
3716
4622
5651
6894
8726
12021
15862
23464
36330
52288
69033
94419
129741
173034
215827
238648
248833
251676
251965
-
6092
8381
12497
27899
50537
84098
142722
264637
425959
783253
1452285
2361891
3400081
5100943
7644127
10977688
14486714
16472141
17409161
17684932
17715277
-
0,000344
0,000473
0,000705
0,001575
0,002853
0,004747
0,008056
0,014938
0,024045
0,044213
0,081979
0,133325
0,191929
0,28794
0,431499
0,619674
0,817753
0,929827
0,98272
0,998287
1
-
0,012089
0,013387
0,014748
0,018344
0,022428
0,027361
0,034632
0,047709
0,062953
0,093124
0,144187
0,207521
0,273979
0,374731
0,514917
0,686738
0,856575
0,947147
0,98757
0,998853
1
-
0,0000057192
0,0000094435
0,0000232261
0,0000523301
0,0001064689
0,0002204317
0,0005173418
0,0011471501
0,0027833758
0,0076342387
0,0192237046
0,0398293417
0,0788894725
0,1616959436
0,3190802760
0,5615819859
0,7964667679
0,9307809270
0,9858780660
0,9988530153
-
IV.Inferenta statistica
a)
0,0000046035
0,0000069772
0,0000129404
0,0000353204
0,0000780535
0,0001644041
0,0003843646
0,0009404167
0,0022391422
0,0063749869
0,0170124052
0,0365282135
0,0719217911
0,1482653087
0,2963269670
0,5307970397
0,7745322756
0,9182688693
0,9815930600
0,9982870717
-
0,00000111
0,00000246
0,00001028
0,00001700
0,00002841
0,00005602
0,00013297
0,00020673
0,00054423
0,00125925
0,00221129
0,00330112
0,00696768
0,01343063
0,02275330
0,03078494
0,02193449
0,01251205
0,00428500
0,00056594
0,12100501
Estimarea punctuala a unui parametru presupune aflarea unei valori posibile a estimatorului
parametrului pe baza datelor inregistrate la nivelul unui esantion.
Pentru estimarea prin interval de incredere am avut in vedere un esantion extras din Populatia
Romaniei. . Am ales un esantion din totalul populatiei reprezentand decesele inregistrate pe
X i 1
xini
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
nr deceselor
4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total
76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893
Media a populatiei se poate estima punctual prin media ( x ) obtinuta la nivelul unui esantion.
Media x este o valoare a estimatorului
70,30848332 .
I.C.( x
),
'
; unde s =
(x
x) 2
Tabelul 10. Tabelul cu elementele necesare calcului estimarii prin interval de incredere a mediei
Grupa de vrst
(ani)
X i 1
'
xx'inxx'iixx 2
0 i
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
s'
4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total
nr deceselor
mijlocul
intervalului
76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893
24690,01549
1,8925899 ;
6893
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-
0,05 ,
152
294
408
935
572
837
2688
3034
4032
8930
33540
30381
46066
42545
40104
83314
87740
49677
23460
6887
1575
467171
z / 2, = 1,96
-65,77469897
-60,77469897
-55,77469897
-50,77469897
-45,77469897
-40,77469897
-35,77469897
-30,77469897
-25,77469897
-20,77469897
-15,77469897
-10,77469897
-5,77469897
-0,77469897
4,22530103
9,22530103
14,22530103
19,22530103
24,22530103
29,22530103
37,22530103
-
4326,311025
3693,564035
3110,817045
2578,070055
2095,323066
1662,576076
1279,829086
947,0820967
664,335107
431,5881173
248,8411276
116,0941379
33,34714819
0,600158494
17,85316879
85,10617909
202,3591894
369,6121997
586,86521
854,1182203
1385,723037
24690,01549
=0,022795671
67,77469897 - 0,044679515
67,73001945 <
67,77469897 + 0,044679515
< 67,81937849
Se poate afirma ca intervalul de variatie a varstei din esantionul studiat este (67,73001945 67,81937849 ) ani in 95% din cazuri .
Masculin
TOTAL
Feminin
86
803
M+F
45
131
875
1678
36
36
72
TULBURARI MENTALE SI DE
COMPORTAMNET
24
32
36
26
62
2896
1427
4323
368
142
510
365
199
564
96
12
108
MALFORMATII CONGENITALE
DEFORMATII SI ANOMALII
16
17
33
267
215
482
ALTE CAUZE
TOTAL
Sursa: Anuarul statistic al Romaniei 2008
19
11
30
5012
3015
8027
IC:
z=
x 0
/ n
3.Specificam un prag de semnificatie
al testului
= 0,05
= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H 0 ) cand aceasta este adevarata.
4.Definim regiunea de respingere
Pentru
si
x 0
/ n
67,77469897 70,30848
1,8925899 / 6893
= -111,152
6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H
poate afirma, cu un risc de 5%, ca numarul deceselor din judetul Iasi difera semnificativ de media
populatiei 70,30848 .
f p
p (1 p )
n
z=
al testului
= 0,05
= 0,025 riscul pe care il admitem in respingerea ipotezei nule (H 0 ) cand aceasta este adevarata.
4.Definim regiunea de respingere
Pentru
si
f p
=
p (1 p )
n
0,6243927 0.529226
0.529226(1 - 0.529226)
8027
0.0951667
0.249145840924
8027
0.0951667
17.0818
0.0055712184
6.Concluzie:
Spunem cu o incredere de 95% ca se repinge ipoteza H
poate afirma, cu un risc de 5%, ca proportia deceselor din judetul Iasi difera semnificativ de proportia
populatiei
mijlocul
intervalului
nr decese
iasi
nr decese
suceava
76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893
65
32
45
35
15
24
65
72
85
108
592
564
675
535
553
978
983
542
246
59
12
6285
nr decese
neamt
total decese
4
9
14
19
24
29
34
39
44
49
54
59
64
69
74
79
84
89
94
99
i peste
total
media mediilor
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-
74
36
56
82
43
42
59
85
39
96
729
836
598
753
656
987
1098
469
291
68
16
7113
-
215
110
135
172
84
97
208
239
220
394
1966
1933
2016
1923
1766
3047
3151
1582
792
198
43
20291
In exemplul oferit ne aflam in cazul unei ANOVA pentru un factor (tipul zonei).
Notam: Nr decese in Iasi: -
Nr decese in Suceava -
6893;
6285;
=7113
Ipoteze:
cel putin varsta medie dintr doua judete diferite sa difere intre ele.
Varsta medie pe judete este reprezentata in ultima linie a tabelului!!!!!!!!!!!!!!!!
Pe baza acestor valori calculam media pe toate judetele observate:
k
x n
j
j 1
k
n
j 1
20291
persoane
de
observant,
impartite
.
in
k=3
esantioane,
deci
Se respinge ipoteza
, la un nivel de semnificatie de
.
Tabelul 11. Tabel cu elementele de calcul pentru ANOVA :
x i'
xxxnxx 2n
ijiji j ij
2 2
j j
ij
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
Total
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
76
42
34
55
26
31
84
82
96
190
645
533
743
635
557
1082
1070
571
255
71
15
6893
65
32
45
35
15
24
65
72
85
108
592
564
675
535
553
-65
-61
-55
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-66
-60
12
17
22
27
32
37
42
47
52
57
62
67
72
4195,76176
3752,14195
3046,11492
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184
5929
6724
7569
8464
9409
11025
4389,68925
3623,03112
144
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184
318877,8938
157589,9618
103567,9072
15895
12584
22599
86016
112258
169344
419710
1744080
1731717
2856092
2850515
2887488
6415178
7194680
4321899
2158320
668039
165375
34411824,76
285329,8011
115936,9958
6480
10115
7260
17496
66560
98568
149940
238572
1600768
1832436
2594700
2401615
2866752
77
82
87
92
97
105
Total 2
2
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
Total 3
Total
978
983
542
246
59
12
6285
74
36
56
82
43
42
59
85
39
96
729
836
598
753
656
987
1098
469
291
68
16
7113
20291
77
82
87
92
97
105
-65
7
12
17
22
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97
105
-
5929
6724
7569
8464
9409
11025
4249,94732
49
144
289
484
729
1024
1369
1764
2209
2704
3249
3844
4489
5184
5929
6724
7569
8464
9409
11025
-
Calculul Testului F
Variatia intergrupe:
21,462044+1804,3078+1977,736= 3803,506
Variatia intragrupe:
5798562
6609692
4102398
2082144
555131
132300
31572755,8
314496,1015
1764
8064
23698
20812
30618
60416
116365
68796
212064
1971216
2716164
2298712
3380217
3400704
5851923
7382952
3549861
2463024
639812
176400
34688078,1
100672658,7
100672658,7
Variatia totala:
100676462,1672
4962,1776
0,38325
Decizie: Pentru
tabelul F valoarea
citim in
constata ca:
)<(
mediilor, esantioanele comparate provin din aceiasi populatie, astfel numarul deceselor din cele 3 judete
nu influenteaza semnificativ variatia varstei medii.
xi'
e(i2x2 ( x
y2)i 2 y xi ) 2
yx y y
42
12
34
17
55
22
26
27
31
152
60122796,23
-60122720,23
3614741487854850,00
2514,306122
63624,05669
294
49
54127676,23
-54127634,23
2929800787336670,00
2037,877551
81932,24717
408
144
48132556,23
-48132522,23
2316739696221440,00
1611,44898
86576,05669
935
289
42137436,23
-42137381,23
1775558896922360,00
1235,020408
74659,05669
572
484
36142316,23
-36142290,23
1306265143069550,00
908,5918367
91347,86621
837
729
30147196,23
-30147165,23
908851571404921,00
632,1632653
88350,48526
32
84
37
82
42
96
47
190
52
645
57
533
62
743
67
635
72
557
77
1082
82
1070
87
571
92
255
97
71
105
15
1095
6893
2688
1024
24152076,23
-24151992,23
583318728677980,00
405,7346939
59652,24717
3034
1369
18156956,23
-18156874,23
329672081804038,00
229,3061224
60633,19955
4032
1764
12161836,23
-12161740,23
147907925422000,00
102,877551
53934,53288
8930
2209
6166716,23
-6166526,23
38026045745278,00
26,44897959
19109,77098
33540
2704
171596,23
-170951,23
29224323038,51
0,020408163
100338,1043
30381
3249
-5823523,77
5824056,77
33919637260182,90
23,59183673
41927,43764
46066
3844
-11818643,77
11819386,77
139697903618851,00
97,16326531
172027,4376
42545
4489
-17813763,77
17814398,77
317352803536578,00
220,7346939
94102,86621
40104
5184
-23808883,77
23809440,77
566889469780138,00
394,3061224
52332,00907
83314
5929
-29804003,77
29805085,77
888343137757057,00
617,877551
568157,0091
87740
6724
-35799123,77
35800193,77
1281653873969550,00
891,4489796
550210,7234
49677
7569
-41794243,77
41794814,77
1746806541658610,00
1215,020408
58933,3424
23460
8464
-47789363,77
47789618,77
2283847662181940,00
1588,591837
5363,818594
6887
9409
-53784483,77
53784554,77
2892778331807130,00
2012,163265
66171,43764
1575
11025
-63376675,77
63376690,77
4016604932956200,00
2793,877551
98118,10431
467171
76655
28118805883308400,00
19558,57143
2487501,81
Analiza de corelatie
Analiza de corelatie este o metoda statistica prin care se masoara intensitatea legaturii dintre
variabile. Dupa tipul modelului de regresie corelatia poate fi tratata ca o corelatie simpla sau multipla.
Deasemenea se evidentiaza gradul de influenta a variabilei/variabilelor factoriale asupra variabilei
rezultative.
Pentru doua variabile aleatoare X si Y la nivelul unei esantion de volum n , coeficientul de
corelatie teoretic se noteaza
Valoare coeficientului de corelatie este cuprinsa intre -1 si +1. Cele doua valori extreme
reprezinta o legatura liniara perfecta (functionala) intre cele doua variabile, pozitiva sau
negative.Valoarea 0 semnifica absenta legaturii intre cele doua variabile.
IASI
NEAMT
total
Coeficientul de asociere:
Analiza de regresie
Analiza de regresie este o metoda statistica care permite studierea si masurarea relatiei care
exista intre doua sau mai multe variabile, precum si descoperirea legii relative la forma legaturilor dintre
variabile. Prin aceasta metoda se incearca pe baza datelor unui esantion sa se estimeze relatia matematica
dintre doua sau mai multe variabile, adica sa se estimeze valorile unei variabile in functie de valorile altei
variabile.
Modelul de regresie liniara simpla exprima legatura dintre doua variabile si ia forma :
Daca :
n x i y i xi y i
i
n x ( x i )
2
i
, cu un prag de semnificatie
testu t:
Raportul Student:
1479937151753073.6842
=2.093
=>
=>
Concluzii
In urma gruparii unor date preluate din Anuarul Statistic al Romanie 2008, care se refera
la 2 variabile numerice -numarul deceselor dupa varsta in Romania in anul 2007 ,si 2 variabile
categoriale- Decesele dupa sexe si cauze de deces am obtinut o distributie statistica bivariata.
Cu ajutorul indicatorilor tendintei centrale, ai dispersiei si ai formei am analizat
si am interpretat rezultatele legate de aceasta.
Indicatorii tendintei centrale ne arata ca:
- varsta medie ( x ) de deces pe tara este egala cu 70,30 ani
- la nivelul esantionului cele mai multe decese au loc la varsta de 78,76 ani (Mo)
- 50% dintre persoanele decedate au varsta de pana la 73,57 ani si 50% varsta de peste 73,57
ani(Me);
- Cu ajutorul quartilelor am realizat diagrama box-and-wisker care arata ca distributia este
asimetrica la dreapta.
Diagrama box-and-wisker
Cu ajutorul indicatorilor dispersiei aflam ca 68.27 % dintre decese sunt cuprins intre
varsta de 53,93 si 86,68 ani . Indicatorii formei ne arata ca distributia este leptcurtica si moderat
asimetrica la dreapta.
In urma testarii mediei putem afirma cu un coeficient de incredere de 95% ca numarul
de decese inregistrate este egal cu 70,30 ani . Din analiza ANOVA aflam ca numarul deceselor
din cele 3 judete nu influenteaza semnificativ variatia varstei medii, iar din analiza de corelatie
asociere si regresie aflam ca avem o legatura negativa.
Bibliografie