Sunteți pe pagina 1din 12

STATISTICA

Sondajul
statistic -III

tema 9
sapt.23-27 aprilie 2012

al.isaic-maniu
www.amaniu.ase.ro
http://www.ase.ro/ase/studenti/index.asp?item=Fisiere&ID=288

Distributia Normala

Distributia Normala
 Cea mai importanta distributie continua :
– Numeroase variabile aleatoare pot fi adecvat
modelate daca sunt normal distribuite.
– Multe distributii pot fi aproximate printr-o
distributie normala.
– Distributia normala este piatra de temelie a
inferentei statistice.

1
Legea normală (Gauss-Laplace)
• Una din ipotezele fundamentale in sondajul statistic este
normalitatea (apartenenţa la legea Gauss-Laplace) a caracterizării
investigate este necesar să discutăm despre această lege statistică.

• Modelul Gauss-Laplace uzual, din punct de vedere matematic


reprezintă o repartiţie statistică definită de
• funcţia de repartitie
x
 (x − µ)2 
(
F x; µ;σ 2 = ) 1
∫ exp− dx
σ 2π −∞  2σ 2 
unde
µ ∈ R, σ > 0, x ∈ R

Respectiv functia de frecventa


1  ( x − µ )2 
f (x ) = exp  − 
σ 2π  2σ 2 
sau funcţia de densitate a repartitiei variabilei
aleatoare X
• X – mărimea fizică măsurată şi care reprezentată grafic are
binecunoscuta formă de „clopot” (aşa-numitul „clopot al lui
Gauss”)
• Se ştie că o funcţie de densitate trebuie să îndeplinească
următoarele cerinţe:
 (i) f (x ) ≥ 0, ∨ x ∈ D şi
 (ii)
D
∫ f (x )dx = 1 unde D este domeniul de definiţie al variabilei X, în
cazul nostru dreapta reală, R.

Scurt istoric – legea normala (1)


 Originea acestui model o găsim în lucrarea „Dialog despre cele
două sisteme fundamentale ale lumii” a lui Galileo GALILEI
(1564-1642), în care el îşi expune părerile referitoare la
măsurarea distanţelor dintre diferite corpuri cereşti:
Galilei considera că:
• erorile întâmplătoare sunt inevitabile în observaţiile obţinute cu
diverse mijloace de măsurare
• erorile mici au şanse mai mari de apariţie decât cele mari sau
foarte mari
• măsurările tind să se distribuie aproximativ egal la stânga şi la
dreapta unei valori „de referinţă”
• majoritatea valorilor observate tind să se grupeze („să se
aciuiască”) în jurul acestei valori de referinţă

2
(2)
• Repartiţia normală apare de fapt pentru prima oară în 1733
într-o lucrare a lui Abraham de MOIVRE (1667-1754),
matematician cunoscut mai curând prin „formula Moivre”
referitoare la numerele complexe
• Abia odată cu lucrările lui Carl Friedrich GAUSS (1777-1855)
şi cele ale lui Pierre Simon, Marquis de LAPLACE (1749-1827)
se pun în lumină proprietăţile şi importanţa deosebită a
acestei legi statistice ca descriptor – iniţial al comportării
erorilor de observaţie (Gauss, 1809 în „Theoria Motus
Corpum Caelestium”
• Laplace (1810/1811 în „Theorie analitique des
Probabilites” din 1812) arată rolul teoretic (şi practic)
excepţional jucat de legea normală prin aşa-numita
TEOREMĂ LIMITĂ CENTRALĂ.

Cateva proprietati ale legii normale


 graficul funcţiei are un singur maximum pentru
x=µ
 si două inflexiuni de abscise x = µ ±σ

 parametrii descriptori µ şi σ2 au semnificaţia


mediei şi dispersia teoretice: M(x) = µ ; var ( x ) = σ 2

 intervalul [µ −3σ, µ + 3σ] conţine aproximativ 99,73%


din valorile mărimii X.

• Variabila U=(x−µ) /σ se numeste variabila


normală standard (sau standardizată) şi are
funcţia de densitate respectiv de repartiţie

f0 (u) =
1
(
exp − u2 / 2 )

u
1
F 0 (u ) = ∫e
−t 2 / 2
dt
2π −∞

variabila U are media O şi dispersia 1.


Aceste funcţii au fost tabelate iniţial de către Laplace.

3
Grafice ale legii normale

Erori in verificarea ipotezelor statistice


(Hypothesis testing errors)
Erori în procesul de verificare a ipotezelor statistice:
H0 /H 1

• Eroare de genul întâi: ipoteza H0 se respinge, când ea


este adevărată.
• Eroare de genul al doilea: ipoteza H1 se admite, când
ea este falsă.
• Probabilităţile de a fi comise cele două tipuri de erori sunt:
probabilitatea erorii de genul întâi – risc de genul I şi respectiv
probabilitatea erorii de genul al doilea-risc de genul II .

4
• Nivel de încredere (Confidence level)
Valoarea P = (1 − α ) a probabilităţii asociate unui interval de încredere.
Prob = (1 − α ) poate fi exprimat în procente [ (1 − α ) 100].

• Nivel (prag) de încredere ( α ) (Confidence level or significance level)


Termen folosit pentru a indica probabilitatea erorii de genul întâi ( α ).
Sinonim: nivel de semnificaţie.

• Nivel de semnificaţie (Signifiance level)


Valoarea dată a limitei superioare a probabilităţii de eroare de tipul I.
Nivelul de semnificaţie se notează cu α .

Test statistic
(Statistical test)
• Procedura statistică prin care se decide dacă ipoteza
nulă poate fi respinsă în favoarea ipotezei alternative
sau nu
• În general, un test preia apriori o anumită ipoteză, care
trebuie verificată (de exemplu, ipoteza de
independenţă a observaţiilor, ipoteza de normalitate
etc.).
• Testele pot fi construite cu ajutorul mediei aritmetice
şi cu ajutorul altor variabile aleatoare de sondaj,
acestea numindu-se de regulă statistici decizionale ale
testului statistic

Testarea normalităţii

• Verificarea faptului că datele


experimentale obţinute sunt repartizate după
legea Gauss-Laplace se poate face în mai
multe moduri, şi anume:
–algebric (utilizând indicatorii de eşantionaj cu
proprietăţile lor specifice în cazul legii normale);
–grafic (folosind aşa-numitele „hârtii” sau reţele
de tip probabilist)
–analitic (utilizând procedee statistice speciale –
aşa numitele „teste de concordanţă”).

5
Testul hi-pătrat - testul χ
2
(Chi-squared test)

◊ Testul statistic în care, pentru validarea ipotezei nule, statistica utilizată presupune
existenţa repartiţiei χ 2 . Testul este aplicat, de exemplu, la următoarele probleme:
a. testul de egalitate între varianta unei populaţii normale şi o valoare specificată, statistica
testului având la bază varianta eşantionului;
b. comparaţia între efectivele teoretice şi cele observate;
c. în validarea unei legi de repartiţie, ca de pildă cea normală.
◊ O formă clasică de construire a regiunii critice a testului χ 2 este următoarea:
◊ Fie X o variabilă care poate lua valorile x1, x2, …, xm, cu probabilităţile p1, p2, …, pm. Fie
n1, n2, …,nm frecvenţele de apariţie a valorilor x1 , x2, …, xm, într-un eşantion de volum n.
Regiunea critică a testului χ 2 pentru verificarea ipotezei p1 = p2 = … = pm se construieşte pe
baza indicatorului statistic de forma:
n
(n i − np i ) 2
∑i =1 np i
care pentru n → ∞ are repartiţia χ 2 cu n – 1 grade de libertate.

Distributii de esantionare
1.Introducere
• In practica , parametrii unei populatii nu se
calculeaza deoarece populatiile sunt foarte mari
• Decat sa se investigheze intreaga populatie, se ia
un esantion, se calculeaza o statistica legata de un
parameteru de interes, si se realizeaza o inferenta.
• Distributia de esantionare a statisticii este un
instrument care ne arata cat de apropiata este
statistica de parametru

17

Distributia de esantionare a mediei


• Un exemplu:
– Un zar este aruncat de foarte multe ori. Fie X
numarul oricarei aruncari.
– Probabilitatea de distributie a lui X este:

M(X) = 1(1/6) +
x 1 2 3 4 5 6 2(1/6) + 3(1/6)+
P(X) 1/6 1/6 1/6 1/6 1/6 1/6 ………= 3.5

V(X) = (1-3.5)2 +
(2-3.5)2 + ………
………. = 2.92

18

6
• Presupunem ca dorim sa estimam µ din x
media unui esantion de dimensiune n = 2.
• Care este distributia pe care o urmeaza x ?
Esantion Medie Esantion Mean Esantion Medie
1 1,1 1 13 3,1 2 25 5,1 3
2 1,2 1,5 14 3,2 2,5 26 5,2 3,5
3 1,3 2 15 3,3 3 27 5,3 4
4 1,4 2,5 16 3,4 3,5 28 5,4 4,5
5 1,5 3 17 3,5 4 29 5,5 5
6 1,6 3,5 18 3,6 4,5 30 5,6 5,5
7 2,1 1,5 19 4,1 2,5 31 6,1 3,5
8 2,2 2 20 4,2 3 32 6,2 4
9 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 5
11 2,5 3,5 23 4,5 4,5 35 6,5 5,5
12 2,6 4 24 4,6 5 36 6,6 6
19

Esantion Medie Esantion Medie Esantion Medie


1 1,1 1 13 3,1 2 25 5,1 3
2 1,2 1,5 14 3,2 2,5 26 5,2 3,5
3 1,3 2 15 3,3 3 27 5,3 4
4 1,4 2,5 16 3,4 3,5 28 5,4 4,5
5 1,5 3 17 3,5 4 29 25,5 5
6 1,6 3,5 18 3,6 4,5 2 30 σ x5,6 5,5
7 Notam
2,1 : µ x19= µ4,1
1,5 x si
2,5 σ =
31
x 32 6,1 3,5
8 2,2 2 20 4,2 3
9 2,3 2,5 21 4,3 3,5 33
26,2
6,3 4,5
4

10 2,4 3 22 4,4 4 34 6,4 5


11 2,5 3,5 23 4,5 4,5 35 6,5 5,5
12 2,6 4 24 4,6 5 36 6,6 6

x
M( ) =1.0(1/36)+
6/36 1.5(2/36)+….=3.5
V(X) = (1.0-
5/36 3.5)2(1/36)+
4/36 (1.5-3.5)2(2/36)... =
1.46
3/36
2/36
1/36
1 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
6.0 x 20

Varianta mediei esantionului este mai mica decat


varianta populatiei.

Medie = Medie = Medie =


1.5 1.5 2. 2.5
2.5
Populatie 11.5 2 2.5 3
1.5 2
2 2.5
1.5 2 2.5
Compara 1.5 2
imprastierea din2.5
populatie cu
Sa luam esantioane 1.5 2.5
1.5 mediei
imprastierea 2 esantionului.
2.5
din cele doua 1.5 2 2.5
1.5 2 2.5
observatii 1.5 2.5
1.5 2 2.5
1.5 2 2.5
1.5 2 2.5

De asemenea,
Valoarea asteptata a populatiei = (1 + 2 + 3)/3 = 2
Valoarea asteptata a mediei esantionului = (1.5 + 2 + 2.5)/3 = 2

21

7
Distributia de esantionare a mediei esantionului
1. µ x = µ x

2
2 σx
2. σ x =
n
3 . Daca x este normala, x este normala.

Daca x nu este normala

x este aproximati v normal distribuit a pentru

o dimensiune a esantionul ui suficient de mare.

Terminologie N

• Media populaŃiei investigate ∑X i


X0 = i =1
N

• Media de eşantion (de selecţie) – estimatorn

pentru media populaţiei investigate ∑ Xi


i =1
X =
n
N

∑(X − X 0 )2
• Dispersia populaŃiei investigate σ2 = i =1
i

• Dispersia de eşantion (de selecţie) – estimator


n
pentru dispersia populaţiei investigate ∑ ( X i − X )2 i =1
2
S =
n −1

• Interval de încredere – dublă inegalitate


probabilistă ce apare în urma inferenţei statistice
X − ∆x < X0 < X + ∆x

Sondajul aleator simplu cu revenire


1. Intervalul de încredere pentru media aritmetică
X − ∆x < X0 < X + ∆x

2. Eroarea limită sau maxim admisibilă ∆ x = µ x ⋅ Z

3. Eroarea medie de reprezentativitate


S2
σ2 σ 2 ≈ S2 vom avea: µx =
µx = dacă n>30 atunci: n
n
4. Stabilirea volumului eşantionului

S2 Z 2S 2
∆x = ⋅Z rezultă: n=
n ∆2x

8
Sondajul aleator simplu fără revenire
1. Intervalul de încredere pentru media aritmetică

X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆ x = µx ⋅ Z
3. Eroarea medie de reprezentativitate

µx =
σ2 1 − Nn dacă n>30 atunci: σ 2 ≈ S2
n
S2  n
(factor de vom avea: µx = 1 − 
corecŃie) n  N
4. Stabilirea volumului eşantionului
Z 2S 2
S2  n n=
∆x = 1 −  ⋅ Z rezultă: Z 2S 2
n  N ∆2x +
N

Sondajul statistic şi regula de adunare a


dispersiilor

• Regula adunării dispersiilor spunea că:

σ 2 = δ 2 +σ 2 (5)

Sondaj Sondaj Sondaj


Aleator Cluster Stratifica
t
Simplu

11.Aprilie .2011 26

Sondajul aleator stratificat -cu revenire

1. Intervalul de încredere pentru media aritmetică


(1' ' )
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆x = µx ⋅ Z
( 2' ' )
3. Eroarea medie de reprezentativitate(eroarea mediei )

σ2 S2
µx = dacă n>30 atunci: σ 2
≈S2 vom avea: µx = (3' ' )
n n

4. Stabilirea volumului eşantionului


Z 2S 2 ( 4' ' )
∆x =
S2
⋅Z
de unde rezultă: n=
27 n 11.Aprilie .2011 ∆2x

9
Sondajul aleator stratificat -fără revenire

1. Intervalul de încredere pentru media aritmetică


(1' ' ' )
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆ x = µx ⋅ Z ( 2' ' ' )
3. Eroarea medie de reprezentativitate

σ2
1 − Nn dacă n>30 atunci:σ ≈S2
2
µx =
n
deci : S2  n (3' ' ' )
(factor de µx = 1 − 
corecŃie) n  N
4. Stabilirea volumului eşantionului
Z 2S 2
S2  n n= ( 4' ' ' )
∆x = 1 −  ⋅ Z de unde rezultă: Z 2S 2
28
n  N11.Aprilie
 .2011
∆ +
2
x
N

Repartizarea volumului eşantionului pe straturi


(grupe)

Să presupunem că avem un eşantion de volum n unităţi statistice


dintr-o populaţie de N unităţi statistice grupate în r grupe (straturi)
după o anumită variabilă:

• repartizarea egală
În fiecare dintre cele r grupe se repartiza câte n/r unităţi
statistice
 repartizarea proporŃională
În fiecare dintre cele r grupe se repartiza unităţile statistice
proporţional cu ponderile gi celor r grupe.

Formula pentru gi = Ni
Formula de ni = n ⋅ gi
ponderi: ∑ Ni repartizare:
 repartizarea optimă
În fiecare dintre cele r grupe se repartiza unităţile statistice proporţional cu
ponderile yi celor r grupe şi ţinând cont şi de mărimea dispersiei din
interiorul fiecărei grupe. * 2
Formula pentru g i = SiSN2 Ni Formula de ni = n ⋅ g29i*
11.Aprilie .2011
ponderi: ∑ i i repartizare:

Tema -aplicaţie (1)


 Pentru a cunoaşte nivelul mediu al producţiei zilnice
obţinute de angajaţii unei firme, s-a extras aleator,
proporţional şi nerepetat un eşantion de n =100 de
angajaţi ce reprezintă 10% din numărul total de
angajaţi ai firmei

 În prealabil angajaţii au fost împărţiti, în


funcţie de vechime, în trei grupe:
I) angajaţi cu vechime mai mică de 5 ani;
II) angajaţi cu vechime între 5 şi 10 ani şi
III) angajaţi cu vechime mai mare de 10 ani.
S-au cules informaţiile, s-au efectuat
prelucrările şi s-au obţinut următoarele
rezultate:
11.Aprilie .2011 30

10
Aplicaţie (2)
I) în prima grupă de vechime, cei 25 de
angajaţi au produs în medie 15 bucăţi pe zi cu o
dispersie de 12
II) în a doua grupă de vechime, cei 50 de
angajaţi au produs în medie 20 bucăţi pe zi, cu
un coeficient de variaţie de 20%

III) în a treia grupă, dintre cei 25 de angajaţi


cei mai mulţi au produs 27 de bucăţi, media
aritmetică a fost de 25 bucăţi iar coeficientul de
asimetrie (Pearson) a înregistrat o valoare de -
0,33
11.Aprilie .2011 31

Aplicaţie (3)

Cu o probabilitate de 95,45% (Z=2) se cere:

a) Să se stabilească limitele între care se va


încadra producţia medie la nivelul întregii
firme
b) Să se stabilească un interval de încredere
pentru producţia totală a fabricii într-o zi
c) Să se determine volumul noului eşantion
dacă dorim să reducem eroarea limită de 1,5
ori şi să se repartizeze optim pe grupe
(straturi)
11.Aprilie .2011 32

Aplicaţie (4)

• Sistematizarea informaţiei disponibile


n=100 angajaţi

n=10%* N=1000
N angajaţi
P=95,45% Z=
2
Grupa de vechime I (vechime sub 5 ani)

nI=25 angajaţi xI = 15 buc S2I=12

11.Aprilie .2011 33

11
Aplicaţie (5)
Grupa de vechime II (vechime între 5 şi 10
ani)
nII=50 angajaţi
xII = 20buc CVII =20%
CVII = 100= 20%
SII
xII
S II = 20⋅20
100
= 4 buc S2II=16

Grupa de vechime III (vechime peste 10


ani)

nIII=25 angajaţi Mo=27 bucăţi xIII = 25 buc Cas=-0,3333

Cas III = x III − MoIII


= −0,333 − 0,333= 25S−III27 SIII=6 S2III=36
S III bucăţi
34 11.Aprilie .2011

Aplicaţie (6)
Tabel 1. Informaţiile calculate şi sistematizate

• coloana 1 reprezintă împărţirea iniţială (proporţională a eşantionului pe


straturi/ grupe)
• coloana 2 reprezintă valoarea medie pentru fiecare strat/ grupă
• coloana 3 reprezintă dispersia din interiorul fiecărui strat/ grupă

11.Aprilie .2011 35

12

S-ar putea să vă placă și