Sunteți pe pagina 1din 9

PROIECT SATISTICĂ - Exemplu

Un specialist din Ministerul Dezvoltării Regionale și Turismului dorește să analizeze rata de


participare la turism în funcție de venitul mediu și de accesul la internet al gospodăriilor
populației. Pentru 12 țări selectate aleator s-au înregistrat următoarele date:

Rata de participare la Ponderea gospodăriilor populației


Venit (mii EUR) X1
turism (%) Y cu acces la internet (%) X2
59 22 85
30 3 64
81 8 82
80 29 94
75 21 92
69 9 86
74 23 87
36 8 69
66 14 82
73 22 86
44 6 77
42 16 79

Rezolvaţi – folosind EXCEL – modulul Data Analysis și funcții statistice EXCEL –


următoarele cerinţe:

a. Identificați populația statistică, eșantionul și unitatea statistică.


b. Identificați variabila dependentă (Y) și variabilele independente (X 1, X2). Clasificați
variabilele utilizând criteriile cunoscute și indicați scala lor de măsurare.
c. Analizați d.p.d.v descriptiv variabila dependentă caracterizând seria de date sub următoarele
aspecte (utilizați Tabelul Descriptive statistics obținut în Excel – Data/Data Analysis/Descriptive
Statistics, precum și alți indicatori învățați):
- Tendința centrală
- Variația
- Forma distribuției
Interpretați rezultatele obținute.
d. Estimați rata medie de participare la turism a unei țări din populația totală, utilizând un
interval de încredere garantat cu o probabilitate de 95% (tcrit = 2.2).
e. Câte țări ar trebui incluse în eșantion, dacă se dorește obținerea unei erori maxime cu 10%
mai mică decât cea anterioară?
f. Estimați ponderea țărilor din populația totală care au o rata de participare la turism mai mare
de 70%, utilizând un interval de încredere garantat cu o probabilitate de 95% (tcrit = 2.2).
g. Studiați legătura dintre variabila dependentă și primul factor de influență (Y, X1) astfel:
g.1. Reprezentați și interpretați graficul care evidențiează legătura dintre variabile (Y, X1)
g.2. Precizați ecuația de regresie și interpretați coeficienții acesteia;
g.3. Stabiliți și măsurați intensitatea legăturii dintre variabile prin intermediul metodelor de
corelație parametrică și neparametrică:
g.3.1. Covarianța și Coeficientul de corelație liniară Pearson
g.3.2. Coeficienții de corelație a rangurilor Spearman și Kendall
h. Analizați legătura dintre variabila variabila dependentă și al doilea factor de influență (Y,
X2) astfel:
h.1. Reprezentați și interpretați graficul care evidențiează legătura dintre variabile (Y, X2)
h.2. Precizați ecuația de regresie și interpretați coeficienții acesteia;
h.3. Stabiliți și măsurați intensitatea legăturii dintre variabile prin intermediul metodelor de
corelație parametrică și neparametrică:
h.3.1. Covarianța și Coeficientul de corelație liniară Pearson
h.3.2. Coeficienții de corelație a rangurilor Spearman și Kendall

Rezolvare:

a)
Populația statistică (totală): totalitatea țărilor
Eșantionul: cele 12 țări selectate aleator
Unitatea statistică: o țară

b)
Variabila Tip variabilă Clasificare Scală de
Independentă/dependentă măsurare
Rata de participare la Variabilă dependentă (Y) Variabilă atributivă, cantitativă, Scala de raport
turism continuă, non-alternativă
Venitul Variabilă independentă Variabilă atributivă, cantitativă, Scala de raport
(X1) continuă, non-alternativă
Ponderea Variabilă independentă Variabilă atributivă, cantitativă, Scala de raport
gospodăriilor cu acces (X2) continuă, non-alternativă
la internet

c)
Simboluri indicatori
Rata de participare la turism (%)
Mean 60.75 x
Standard Error 5.22 σx
Median 67.5 Me
Mode #N/A Mo
Standard Deviation 18.09 s
Sample Variance 327.11 s2
Kurtosis -1.27 kurt
Skewness -0.60 Cas(F)
Range 51 A
Minimum 30 xmin
Maximum 81 xmax
Sum 729 ∑ xi
Count 12 n
Confidence Level (95.0%) 11.49 ∆x

Caracterizarea Tendinței Centrale:

Media
x=60.75 %
Interpretare: În medie, o țară din eșantion are o rată de participare la turism de 60.75%.

Mediana:
Me=67.5%
Interpretare: 50% din țările din eșantion au o rată de participare la turism mai mică de 67.5% și
50% - mai mare.

Modul:
Nu există mod. (seria nu are mod)

Caracterizarea variației:

Amplitudinea:
A = xmax – xmin = 81-30=51%
Interpretare: Rata maximă de participare la turism este cu 51% mai mare decât rata minimă.

Dispersia:
s2 = 327.11
Interpretare: s2 > 0 există variație în serie

Abaterea standard:
s = 18.09%
Interpretare: rata de participare la turism a unei țări din eșantion se abate în medie de la media
acestuia cu 18.09%.

Coeficientul de variație:
v= s / x *100 = 18.09 / 60.75 * 100 = 29.77%
Interpretare: v < 35%, seria privind rata de participare la turism este omogena, media este
reprezentativa.

Cuartile:

30 36 42 44 59 66 69 73 74 75 80 81

12+1
Q1(loc )= =3.25 (a 3-a valoare din seria ordonata)
4

Q1 = 42%
Interpretare: 25% din țări au o rată de participare la turism mai mică de 42% și 75% - mai mare.
3∗(12+1)
Q3 (loc )= =9.75 (a 10-a valoare)
4
Q3 = 75%

Interpretare: 75% din țări au o rată de participare la turism mai mică de 75% și 25% - mai mare.

Outliers:

IQR 33
Q1-1.5*IQR -7.5
Q3+1.5*IQR 124.5

Interpretare: Întrucât nici o valoare din serie nu este mai mică de -7.5 sau mai mare de 124.5, nu
există valori de tip outlier în serie.

Caracterizarea formei distribuției

1. Asimetria:
Coeficientul de asimetrie Fisher
Cas(F) = - 0.6
Interpretare:
Cas(F) < 0 seria are asimetrie negativă, predomină valorile mari (ratele mari de participare la
turism)
0.5<| Cas(F)|<1 → asimetrie moderată

2. Boltirea/aplatizarea:
Coeficientul de boltire/aplatizare Fisher:
Kurt = -1.27
Interpretare:
Kurt < 0 distribuție platicurtică (mai aplatizată față de cea normală), valorile sunt mai puțin
concentrate în jurul mediei decât în distribuția normală.

d) Aplicarea sondajului aleator simplu pentru variabilă non-alternativă

Estimați rata medie de participare la turism a unei țări din populația totală, utilizând un interval
de încredere garantat cu o probabilitate de 95% (t_crit = 2.2).

1- α = 0,95 (95%) (nivelul de incredere), α = 0,05 (nivelul de semnificatie, 5%)


tcrit=2.2

Eroare_std 5.22 %
Eroare_limita 11.49 %
Limita_inf. 49.26 %
Limita_sup. 72.24 %
Eroarea standard:
s 18.09
σ x= = =¿5.22%
√ n √12
Eroarea limită (maxim admisă):
∆ x =t crit ∙ σ x =2.2∙ 5.22=¿ 11.49%

Intervalul de încredere pentru rata medie de participare la turism a unei țări din populația
totală:
x−∆x ≤ μ ≤ x +∆ x
60.75−11.49 ≤ μ ≤ 60.75+11.49
49.26 ≤ μ ≤ 72.24
Interpretare: Rata medie de participare la turism a unei tari din populatia totala este cuprinsa intre
49.26% si 72.24%, rezultat garantat cu o probabilitate de 95%.

e) Câte țări ar trebui incluse în eșantion, dacă se dorește obținerea unei erori maxime cu 10%
mai mică decât cea anterioară?
Noua eroare limită (maximă):
∆ ¿x =∆ x −10 % ∙ ∆ x =0.9 ∙ ∆ x =10.34

Noul volum al eșantionului:


2 2
t crit ∙ s 2
2.2 ∙327.11
n¿ = ¿ 2
= 2
=14.8 ≈ 15 țări
( ∆ x) (10.34 )

Noua eroare max. (limita) 10.34


Noul n 14.80

Noul volum al esantionului este 15 țări.

f) Estimați ponderea țărilor din populația totală care au o rata de participare la turism mai
mare de 70%, utilizând un interval de încredere garantat cu o probabilitate de 95% (t_crit =
2.2).

Variabilă alternativă – aflarea intervalului de încredere pentru media unei variabile alternative
- Caz favorabil: țări cu rata>70% (m=numărul de țări în stare favorabilă =5)
- Caz nefavorabil: celelalte țări (cu rata<=70%)

m 5
Media în eșantion: f = = =0,42
n 12
Dispersia în eșantion: s2alt =f ∙ (1−f )=0,42 ∙ ( 1−0,42 )=0,24
Eroarea standard: σ f =
salt
√n
=
n√ √
s 2alt
=
0,24
12
=0,14 (14%)

Eroarea maximă: ∆ f =t crit ∙ σ f =2.2 ∙ 0,14=0,31 (31%)


Intervalul de încredere: f −∆f ≤ p ≤ f + ∆ f
0,42−0,31≤ p ≤0,42+0,31
0,10 ≤ p ≤ 0 , 73

Medie (f=m/n)) 0.42


2
Dispersia ( salt ) 0.24
Eroare_std 0.14
Eroare_maxima 0.31
Limita_inf. 0.10
Limita_sup. 0.73

Concluzie: Ponderea tarilor cu rata mai mare de 70% din populatia totala se situeaza intre 10% si
73%. Rezultat garantat cu o probabilitate de 95%.

g) Analiza legaturii dintre Rata de participare la turism (%) Y si Venitul gospodariilor (mii EUR)
X1 (regresie si corelatie)

g1. Corelograma dintre Rata de participare la turism (%) Y si Venitul gospodariilor (mii
EUR) X1

Corelatia dintre Venitul gospodariilor (mii EUR) (X) si


Rata participare turism (%) (Y)
90
80
f(x) = 1.34087647643228 x + 40.5251131471465
70
60
50
40
30
20
10
0
0 5 10 15 20 25 30 35

Existența legăturii: există o legătură între cele două variabile


Direcția/sensul legăturii: legătură directă
Forma legăturii: legătură liniară
Concluzie: între cele două variabile există o legătură liniară directă.
g2. Ecuația de regresie liniară este:
^y i = b0 + b1 x1i
^y i = 40.53 + 1.34 x1i

unde ^y ieste valoarea ajustată/teoretică/estimată a lui Y


b 0 = 40.53 = intercepția / termenul liber al modelului (punctul de intersecție al dreptei de
regresie cu axa OY)
b 1 = 1.34 = panta dreptei de regresie
Interpretarea coeficienților ecuației:
Interpretare b0: în lipsa veniturilor, s-ar înregistra o rată medie a participarii la turism de
40.53%
Interpretare b1: la o creștere cu 1 mie EUR a venitului gospodariilor, se estimează că rata
participarii la turism crește, în medie, cu 1.34%.
b1>0 legatura directa intre variabile
Valorile ajustate ale ratei participarii la turism sunt prezentate în tabelul următor:
Rata participare turism (%) Y Valori ajustate ale ratei de participare la turism (%) y^
59 70.02
30 44.55
81 51.25
80 79.41
75 68.68
69 52.59
74 71.37
36 51.25
66 59.30
73 70.02
44 48.57
42 61.98

g3.1. Metoda corelației parametrice


Covarianța

cov ( x 1 , y ) =
∑ ( x1 i−x 1 ) ( y i− y ) =92.02
n−1
Interpretare: cov(x1,y)>0 rezultă – legătură directă între variabile
Coeficientul de corelație liniară Pearson
cov ( x 1 , y )
r x1y = =0.61
sx ∙ s y
1

r x y ∈ [−1 , 1 ]
1

Interpretare:
- Semnul arată direcția/sensul legăturii:
o Cum r x y > 0 rezultă o legătura directă între X1 și Y
1

- Valoarea absolută arată intensitatea legăturii:


o Cum 0.6<|r x y|<0.8 rezultă o legătura destul de puternică
1

Matricea de corelatie:
Rata participarii
  Venitul (X1) la turism (Y)
Venitul (X1) 1
Rata participarii la r x1 y =r yx 1=¿ 0,61 1
turism (Y)

g3.2. Metoda corelației neparametrice


Coeficientul de corelație a rangurilor Spearman:
Rata participare
Venit (mii EUR) X1
turism (%) Y R_X1 R_Y di di2
22 59 9.5 5 4.5 20.25
3 30 1 1 0 0
8 81 3.5 12 -8.5 72.25
29 80 12 11 1 1
21 75 8 10 -2 4
9 69 5 7 -2 4
23 74 11 9 2 4
8 36 3.5 2 1.5 2.25
14 66 6 6 0 0
22 73 9.5 8 1.5 2.25
6 44 2 4 -2 4
16 42 7 3 4 16
Total (suma) 0 130

6 ∙∑ di
2
6 ∙ 130 780
r s=1− =1− =1− =0,545 r s ∈ [−1 , 1 ]
n ∙ ( n −1 )
2
12 ∙ ( 12 −1 )
2
1716
Interpretare: r s> ¿0, deci legătura dintre variabile este directă
0.4 <|r s|< 0.6 deci legătura este moderată

Coeficientul de corelație a rangurilor Kendall:


Ri
X Y
Ri (x) pi qi

1 1 11 0
2 4 8 2
3.5 2 9 0
3.5 12 0 8
5 7 4 3
6 6 4 2
7 3 5 0
8 10 1 3
9.5 5 3 0
9.5 8 2 0
11 9 1 0
12 11 0 0
TOTAL 48 18

2 ∙ ( ∑ pi − ∑ q i ) 2∙ ( 48−18 ) 60
r K= = = =0,45
n∙ ( n−1 ) 12 ∙ ( 12−1 ) 132
cu r K ∈ [ −1 ,1 ]
Interpretare: r K >¿ 0, deci legătura dintre variabile este directă
0,4 <|r K|<0,6 deci legătura este moderată

h) Analiza legaturii dintre Rata participarii la turism (Y) si Ponderea gospodăriilor populației cu
acces la internet (X2) (regresie si corelatie)

Se rezolva similar cu g)

S-ar putea să vă placă și