Sunteți pe pagina 1din 6

Activitatea 1 (Săptămâna 3)

În această secțiune și în exercițiile viitoare să presupunem că cele 47.734 de puncte de


date corespund populației de clienți ai lanțului de depozite care a obținut informațiile
din baza de date descărcată. Dorim să studiem cum au fost achizițiile în acea zi, așa că
vom analiza în principal variabila CUMPĂRARE.

1. Deoarece populația este finită, estimați care trebuie să fie dimensiunea


eșantionului dacă se dorește o marjă de eroare. E=$ 500 , un nivel de încredere de
90% și se știe din studiile anterioare că abaterea standard a populației este de
aproximativ 4986 USD.
2. Utilizați Excel pentru a extrage un eșantion aleatoriu de dimensiunea determinată
la punctul a. Ei trebuie să explice pas cu pas formulele Excel și să atașeze
eșantionul în format .xlsx (Numai eșantionul, fișierul nu trebuie să conțină formule
sau procese folosite acolo).
3. Din variabila CUMPĂRARE, determinați valoarea mediei populației și abaterea
standard și prelevați-le (au populația și un eșantion). Explicați pe scurt cine este al
cui estimator acolo. De asemenea, calculați probabilitatea ca variabila medie a
eșantionului să fie mai mare sau egală cu valoarea populației.
4. Faceți histograma variabilei CUMPARARE, calculați asimetria, kurtoza și indicați pe
scurt cu ele dacă variabila pare a fi distribuită normal sau nu.

Soluţie:

1. Mărimea eșantionului corespunzătoare este calculată folosind formula pentru


dimensiunea eșantionului pentru media populației finite, care este dată de:
2 2
Zα σ N
n= 2 2 2
Z α σ + ( N −1 ) ϵ

Pentru cazul nostru, să luăm în considerare

N=47734 ; E=500 , σ=4986 y α =0.1

Pentruα =0.1 , valoarea critică din tabelul de distribuție normală este

Z α =Z 0.1 =¿1.644854
(1− )
2

În Excel folosind următoarea funcție


Apoi, prin substituirea în formulă, avem

(1,644854 )2 ( 4986 )2 (47734)


n= =267.5391 ≈ 268
( 1,644854 )2 ( 4986 )2 + ( 47734−1 )( 500 )2

2. Pentru selectarea eșantionului aleatoriu simplu de mărimea 268 va fi implementat


un mecanism de selecție numit coordonată negativă, al cărui algoritm este ilustrat
mai jos.

Metoda coordonatelor negative

 Generați N realizări ale unei variabile aleatoareξ k ( k ∈U ) cu distribuție uniformă


(0,1).
 Atribuiξ k la al k-lea element al populaţiei.
 Sortați lista de elemente descendent (sau crescător) în raport cu acest număr
aleatoriu ξ k
 Apoi, selectați primele n (sau ultimele n) elemente. Această selecție corespunde
eșantionului realizat.

Mai jos sunt primele și ultimele observații ale eșantionului simplu aleatoriu selectat de
mărimea 268, folosind metoda de selecție deja menționată.
3. Având în vedere variabila CUMPĂRARE, menționată inițial, se procedează la
determinarea valorii populației și a mediei eșantionului și a abaterii standard.

 Media populației și abaterea standard.

Media populației
n

∑ xi 20502+5851+ .. .+9888+ 20207


μ= i=1 = =9344 , 57 ≈ 9345
N 47734

Abaterea standard a populației.


n

❑ ∑ ( x i−μ ) 2
i=1
σ= =❑√ ¿ ¿ ¿
N
 Media și abaterea standard a probei.

Pentru a calcula media și abaterea standard a eșantionului, inițial se construiește


tabelul de distribuție a frecvenței pentru datele grupate, având în vedere că
eșantionul n ≥ 30

¿ de intervalos=1+3 , 32∗log ⁡(268)≈ 9

Maximo=23320

Minimo=566

Rango=Maximo−Minimo=23320−566=22754

Rango 22754
Amplitud= = =2528 , 22
¿ de intervalos 9

Apoi

Interval de clasă Mc ni fi Ni Fi
566 3094 1830 17 0,06 17 0,06
3094 5622 4358 46 0,17 63 0,24
5622 8151 6887 75 0,28 138 0,51
8151 10679 9415 42 0,16 180 0,67
10679 13207 11943 27 0,10 207 0,77
13207 15735 14471 22 0,08 229 0,85
15735 18264 16999 19 0,07 248 0,93
18264 20792 19528 17 0,06 265 0,99
20792 23320 22056 3 0,01 268 1,0
Total 268

Eșantion mediu
n

∑ M c ni [ ( 1830 ) ( 17 ) +. ..+ ( 22056 ) ( 3 ) ]


X = i =1 = =9348 , 74 ≈ 9349
n 268

Deviația standard a eșantionului


n

❑ ∑ ( M c −X ) 2 ¿ ni
i=1
S= =❑√ ¿ ¿ ¿
n−1
Conform celor de mai sus, se poate spune că media eșantionului este un estimator al
mediei populației, în timp ce abaterea standard a eșantionului este un estimator al
abaterii standard a populației, în consecință.

Nume Parametrii populației Parametri eșantion (estimatori)

Jumătate μ X
Varianta σ
2
S
2

Deviație standard σ S

Distribuția prin eșantionare a mediei

Cu alte cuvinte

( )
2
σ
X N μ,
n

În acest caz ni se cere să calculăm

P ( X ≥ μ 0 )=1−P (X ≤ μ 0)

Aplicarea teoremei limitei centrale

( )
9345−9349
P ( X ≥ μ 0 )=1−P X ≤ =1−P ( Z ≤−0.013 )=1−∅ (−0.013 )=0.5052
(4987
√ 268
❑ )
În consecință, probabilitatea ca variabila medie a eșantionului să fie mai mare sau egală cu
valoarea populației este de 0,5052.

4. Acum, pentru a identifica forma distribuției variabilei PURCHASE, se calculează


asimetria, curtoza.

Inițial se realizează histograma frecvenței


Histograma de frecuencias
(Purchase)
80 75
Frecuencias absolutas 70
60
50 46 42
40
30 27
22 19
20 17 17
10 3
0
[566- [3094- [5622- [8151- [10679 [13207 [15735 [18264 [20792
3094) 5622) 8151) 10679) - - - - -
13207) 15735) 18264) 20792) 23320]
Intervaos de clases

 Prejudecăți (asimetrie)

Coeficientul de asimetrie al eșantionului pentru datele grupate este dat de


n

∑ ( M c −X )3 ¿ ni [ ( 1830−9349 ) ¿¿ 3(17)+. . .+ ( 22056−9349 )3 (3)]


i=1
A s= = =0,6427 ¿
n S3 268 ( 5001 )
3

La fel de A s=0,6427> 0 , atunci se poate spune că distribuția pentru variabila PURCHASE


va fi pozitiv asimetrică.

 Kurtoză

Curtoza pentru datele grupate este dată de


n

∑ ( M c −X )4 ¿ ni [ ( 1830−9349 ) ¿¿ 4 (17)+. ..+ ( 22056−9349 )4 (3)]


i=1
κ= = =−0,3173 ¿
n S4 268 ( 5001 )
4

Cum este coeficientul de curtozăκ=−0,3173<0 , există foarte puțină concentrare


a datelor în medie, prezentând o formă foarte aplatizată, distribuția este
Platicurtica

Conform reprezentării grafice (histograma frecvenței) și măsurătorilor formei, se poate


concluziona că variabila (CUMPĂRARE) nu pare a fi distribuită normal.

S-ar putea să vă placă și