Curs 3

STATISTICA
Sondajul
statistic -III
tema 9
sapt.23-27 aprilie 2012
al.isaic-maniu
www.amaniu.ase.ro
http://www.ase.ro/ase/studenti/index.asp?item=Fisiere&ID=288
Distributia Normala
Distributia Normala
Cea mai importanta distributie continua :
– Numeroase variabile aleatoare pot fi adecvat
modelate daca sunt normal distribuite.
– Multe distributii pot fi aproximate printr-o
distributie normala.
– Distributia normala este piatra de temelie a
inferentei statistice.
1
Legea normală (Gauss-Laplace)
• Una din ipotezele fundamentale in sondajul statistic este
normalitatea (apartenenţa la legea Gauss-Laplace) a caracterizării
investigate este necesar să discutăm despre această lege statistică.
• Modelul Gauss-Laplace uzual, din punct de vedere matematic

reprezintă o repartiţie statistică definită de
• funcţia de repartitie
x
 (x − µ)2 
(
F x; µ;σ 2 = ) 1
∫ exp− dx
σ 2π −∞  2σ 2 
unde
µ ∈ R, σ > 0, x ∈ R
Respectiv functia de frecventa

1  ( x − µ )2 
f (x ) = exp  − 
σ 2π  2σ 2 
sau funcţia de densitate a repartitiei variabilei
aleatoare X
• X – mărimea fizică măsurată şi care reprezentată grafic are
binecunoscuta formă de „clopot” (aşa-numitul „clopot al lui
Gauss”)
• Se ştie că o funcţie de densitate trebuie să îndeplinească
următoarele cerinţe:
(i) f (x ) ≥ 0, ∨ x ∈ D şi
(ii)
D
∫ f (x )dx = 1 unde D este domeniul de definiţie al variabilei X, în
cazul nostru dreapta reală, R.
Scurt istoric – legea normala (1)

Originea acestui model o găsim în lucrarea „Dialog despre cele
două sisteme fundamentale ale lumii” a lui Galileo GALILEI
(1564-1642), în care el îşi expune părerile referitoare la
măsurarea distanţelor dintre diferite corpuri cereşti:
Galilei considera că:
• erorile întâmplătoare sunt inevitabile în observaţiile obţinute cu
diverse mijloace de măsurare
• erorile mici au şanse mai mari de apariţie decât cele mari sau
foarte mari
• măsurările tind să se distribuie aproximativ egal la stânga şi la
dreapta unei valori „de referinţă”
• majoritatea valorilor observate tind să se grupeze („să se
aciuiască”) în jurul acestei valori de referinţă
2
(2)
• Repartiţia normală apare de fapt pentru prima oară în 1733
într-o lucrare a lui Abraham de MOIVRE (1667-1754),
matematician cunoscut mai curând prin „formula Moivre”
referitoare la numerele complexe
• Abia odată cu lucrările lui Carl Friedrich GAUSS (1777-1855)
şi cele ale lui Pierre Simon, Marquis de LAPLACE (1749-1827)
se pun în lumină proprietăţile şi importanţa deosebită a
acestei legi statistice ca descriptor – iniţial al comportării
erorilor de observaţie (Gauss, 1809 în „Theoria Motus
Corpum Caelestium”
• Laplace (1810/1811 în „Theorie analitique des
Probabilites” din 1812) arată rolul teoretic (şi practic)
excepţional jucat de legea normală prin aşa-numita
TEOREMĂ LIMITĂ CENTRALĂ.
Cateva proprietati ale legii normale

graficul funcţiei are un singur maximum pentru
x=µ
si două inflexiuni de abscise x = µ ±σ
parametrii descriptori µ şi σ2 au semnificaţia

mediei şi dispersia teoretice: M(x) = µ ; var ( x ) = σ 2
intervalul [µ −3σ, µ + 3σ] conţine aproximativ 99,73%

din valorile mărimii X.
• Variabila U=(x−µ) /σ se numeste variabila

normală standard (sau standardizată) şi are
funcţia de densitate respectiv de repartiţie
f0 (u) =
1
(
exp − u2 / 2 )
2π
u
1
F 0 (u ) = ∫e
−t 2 / 2
dt
2π −∞
variabila U are media O şi dispersia 1.

Aceste funcţii au fost tabelate iniţial de către Laplace.
3
Grafice ale legii normale
Erori in verificarea ipotezelor statistice

(Hypothesis testing errors)
Erori în procesul de verificare a ipotezelor statistice:
H0 /H 1
• Eroare de genul întâi: ipoteza H0 se respinge, când ea

este adevărată.
• Eroare de genul al doilea: ipoteza H1 se admite, când
ea este falsă.
• Probabilităţile de a fi comise cele două tipuri de erori sunt:
probabilitatea erorii de genul întâi – risc de genul I şi respectiv
probabilitatea erorii de genul al doilea-risc de genul II .
4
• Nivel de încredere (Confidence level)
Valoarea P = (1 − α ) a probabilităţii asociate unui interval de încredere.
Prob = (1 − α ) poate fi exprimat în procente [ (1 − α ) 100].
• Nivel (prag) de încredere ( α ) (Confidence level or significance level)

Termen folosit pentru a indica probabilitatea erorii de genul întâi ( α ).
Sinonim: nivel de semnificaţie.
• Nivel de semnificaţie (Signifiance level)

Valoarea dată a limitei superioare a probabilităţii de eroare de tipul I.
Nivelul de semnificaţie se notează cu α .
Test statistic
(Statistical test)
• Procedura statistică prin care se decide dacă ipoteza
nulă poate fi respinsă în favoarea ipotezei alternative
sau nu
• În general, un test preia apriori o anumită ipoteză, care
trebuie verificată (de exemplu, ipoteza de
independenţă a observaţiilor, ipoteza de normalitate
etc.).
• Testele pot fi construite cu ajutorul mediei aritmetice
şi cu ajutorul altor variabile aleatoare de sondaj,
acestea numindu-se de regulă statistici decizionale ale
testului statistic
Testarea normalităţii
• Verificarea faptului că datele

experimentale obţinute sunt repartizate după
legea Gauss-Laplace se poate face în mai
multe moduri, şi anume:
–algebric (utilizând indicatorii de eşantionaj cu
proprietăţile lor specifice în cazul legii normale);
–grafic (folosind aşa-numitele „hârtii” sau reţele
de tip probabilist)
–analitic (utilizând procedee statistice speciale –
aşa numitele „teste de concordanţă”).
5
Testul hi-pătrat - testul χ
2
(Chi-squared test)
◊ Testul statistic în care, pentru validarea ipotezei nule, statistica utilizată presupune
existenţa repartiţiei χ 2 . Testul este aplicat, de exemplu, la următoarele probleme:
a. testul de egalitate între varianta unei populaţii normale şi o valoare specificată, statistica
testului având la bază varianta eşantionului;
b. comparaţia între efectivele teoretice şi cele observate;
c. în validarea unei legi de repartiţie, ca de pildă cea normală.
◊ O formă clasică de construire a regiunii critice a testului χ 2 este următoarea:
◊ Fie X o variabilă care poate lua valorile x1, x2, …, xm, cu probabilităţile p1, p2, …, pm. Fie
n1, n2, …,nm frecvenţele de apariţie a valorilor x1 , x2, …, xm, într-un eşantion de volum n.
Regiunea critică a testului χ 2 pentru verificarea ipotezei p1 = p2 = … = pm se construieşte pe
baza indicatorului statistic de forma:
n
(n i − np i ) 2
∑i =1 np i
care pentru n → ∞ are repartiţia χ 2 cu n – 1 grade de libertate.
Distributii de esantionare
1.Introducere
• In practica , parametrii unei populatii nu se
calculeaza deoarece populatiile sunt foarte mari
• Decat sa se investigheze intreaga populatie, se ia
un esantion, se calculeaza o statistica legata de un
parameteru de interes, si se realizeaza o inferenta.
• Distributia de esantionare a statisticii este un
instrument care ne arata cat de apropiata este
statistica de parametru
17
Distributia de esantionare a mediei

• Un exemplu:
– Un zar este aruncat de foarte multe ori. Fie X
numarul oricarei aruncari.
– Probabilitatea de distributie a lui X este:
M(X) = 1(1/6) +
x 1 2 3 4 5 6 2(1/6) + 3(1/6)+
P(X) 1/6 1/6 1/6 1/6 1/6 1/6 ………= 3.5
V(X) = (1-3.5)2 +
(2-3.5)2 + ………
………. = 2.92
18
6
• Presupunem ca dorim sa estimam µ din x
media unui esantion de dimensiune n = 2.
• Care este distributia pe care o urmeaza x ?
Esantion Medie Esantion Mean Esantion Medie
1 1,1 1 13 3,1 2 25 5,1 3
2 1,2 1,5 14 3,2 2,5 26 5,2 3,5
3 1,3 2 15 3,3 3 27 5,3 4
4 1,4 2,5 16 3,4 3,5 28 5,4 4,5
5 1,5 3 17 3,5 4 29 5,5 5
6 1,6 3,5 18 3,6 4,5 30 5,6 5,5
7 2,1 1,5 19 4,1 2,5 31 6,1 3,5
8 2,2 2 20 4,2 3 32 6,2 4
9 2,3 2,5 21 4,3 3,5 33 6,3 4,5
10 2,4 3 22 4,4 4 34 6,4 5
11 2,5 3,5 23 4,5 4,5 35 6,5 5,5
12 2,6 4 24 4,6 5 36 6,6 6
19
Esantion Medie Esantion Medie Esantion Medie

1 1,1 1 13 3,1 2 25 5,1 3
2 1,2 1,5 14 3,2 2,5 26 5,2 3,5
3 1,3 2 15 3,3 3 27 5,3 4
4 1,4 2,5 16 3,4 3,5 28 5,4 4,5
5 1,5 3 17 3,5 4 29 25,5 5
6 1,6 3,5 18 3,6 4,5 2 30 σ x5,6 5,5
7 Notam
2,1 : µ x19= µ4,1
1,5 x si
2,5 σ =
31
x 32 6,1 3,5
8 2,2 2 20 4,2 3
9 2,3 2,5 21 4,3 3,5 33
26,2
6,3 4,5
4
10 2,4 3 22 4,4 4 34 6,4 5

11 2,5 3,5 23 4,5 4,5 35 6,5 5,5
12 2,6 4 24 4,6 5 36 6,6 6
x
M( ) =1.0(1/36)+
6/36 1.5(2/36)+….=3.5
V(X) = (1.0-
5/36 3.5)2(1/36)+
4/36 (1.5-3.5)2(2/36)... =
1.46
3/36
2/36
1/36
1 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
6.0 x 20
Varianta mediei esantionului este mai mica decat

varianta populatiei.
Medie = Medie = Medie =

1.5 1.5 2. 2.5
2.5
Populatie 11.5 2 2.5 3
1.5 2
2 2.5
1.5 2 2.5
Compara 1.5 2
imprastierea din2.5
populatie cu
Sa luam esantioane 1.5 2.5
1.5 mediei
imprastierea 2 esantionului.
2.5
din cele doua 1.5 2 2.5
1.5 2 2.5
observatii 1.5 2.5
1.5 2 2.5
1.5 2 2.5
1.5 2 2.5
De asemenea,
Valoarea asteptata a populatiei = (1 + 2 + 3)/3 = 2
Valoarea asteptata a mediei esantionului = (1.5 + 2 + 2.5)/3 = 2
21
7
Distributia de esantionare a mediei esantionului
1. µ x = µ x
2
2 σx
2. σ x =
n
3 . Daca x este normala, x este normala.
Daca x nu este normala
x este aproximati v normal distribuit a pentru
o dimensiune a esantionul ui suficient de mare.
Terminologie N
• Media populaŃiei investigate ∑X i

X0 = i =1
N
• Media de eşantion (de selecţie) – estimatorn
pentru media populaţiei investigate ∑ Xi

i =1
X =
n
N
∑(X − X 0 )2
• Dispersia populaŃiei investigate σ2 = i =1
i
• Dispersia de eşantion (de selecţie) – estimator

n
pentru dispersia populaţiei investigate ∑ ( X i − X )2 i =1
2
S =
n −1
• Interval de încredere – dublă inegalitate

probabilistă ce apare în urma inferenţei statistice
X − ∆x < X0 < X + ∆x
Sondajul aleator simplu cu revenire

1. Intervalul de încredere pentru media aritmetică
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆ x = µ x ⋅ Z
3. Eroarea medie de reprezentativitate

S2
σ2 σ 2 ≈ S2 vom avea: µx =
µx = dacă n>30 atunci: n
n
4. Stabilirea volumului eşantionului
S2 Z 2S 2
∆x = ⋅Z rezultă: n=
n ∆2x
8
Sondajul aleator simplu fără revenire
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆ x = µx ⋅ Z
µx =
σ2 1 − Nn dacă n>30 atunci: σ 2 ≈ S2
n
S2  n
(factor de vom avea: µx = 1 − 
corecŃie) n  N
Z 2S 2
S2  n n=
∆x = 1 −  ⋅ Z rezultă: Z 2S 2
n  N ∆2x +
N
Sondajul statistic şi regula de adunare a

dispersiilor
• Regula adunării dispersiilor spunea că:
σ 2 = δ 2 +σ 2 (5)
Sondaj Sondaj Sondaj

Aleator Cluster Stratifica
t
Simplu
11.Aprilie .2011 26
Sondajul aleator stratificat -cu revenire

(1' ' )
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆x = µx ⋅ Z
( 2' ' )
3. Eroarea medie de reprezentativitate(eroarea mediei )
σ2 S2
µx = dacă n>30 atunci: σ 2
≈S2 vom avea: µx = (3' ' )
n n

Z 2S 2 ( 4' ' )
∆x =
S2
⋅Z
de unde rezultă: n=
27 n 11.Aprilie .2011 ∆2x
9
Sondajul aleator stratificat -fără revenire

(1' ' ' )
X − ∆x < X0 < X + ∆x
2. Eroarea limită sau maxim admisibilă ∆ x = µx ⋅ Z ( 2' ' ' )
σ2
1 − Nn dacă n>30 atunci:σ ≈S2
2
µx =
n
deci : S2  n (3' ' ' )
(factor de µx = 1 − 
corecŃie) n  N
Z 2S 2
S2  n n= ( 4' ' ' )
∆x = 1 −  ⋅ Z de unde rezultă: Z 2S 2
28
n  N11.Aprilie
 .2011
∆ +
2
x
N
Repartizarea volumului eşantionului pe straturi

(grupe)
Să presupunem că avem un eşantion de volum n unităţi statistice

dintr-o populaţie de N unităţi statistice grupate în r grupe (straturi)
după o anumită variabilă:
• repartizarea egală
În fiecare dintre cele r grupe se repartiza câte n/r unităţi
statistice
repartizarea proporŃională
În fiecare dintre cele r grupe se repartiza unităţile statistice
proporţional cu ponderile gi celor r grupe.
Formula pentru gi = Ni
Formula de ni = n ⋅ gi
ponderi: ∑ Ni repartizare:
repartizarea optimă
În fiecare dintre cele r grupe se repartiza unităţile statistice proporţional cu
ponderile yi celor r grupe şi ţinând cont şi de mărimea dispersiei din
interiorul fiecărei grupe. * 2
Formula pentru g i = SiSN2 Ni Formula de ni = n ⋅ g29i*
11.Aprilie .2011
ponderi: ∑ i i repartizare:
Tema -aplicaţie (1)

Pentru a cunoaşte nivelul mediu al producţiei zilnice
obţinute de angajaţii unei firme, s-a extras aleator,
proporţional şi nerepetat un eşantion de n =100 de
angajaţi ce reprezintă 10% din numărul total de
angajaţi ai firmei
În prealabil angajaţii au fost împărţiti, în

funcţie de vechime, în trei grupe:
I) angajaţi cu vechime mai mică de 5 ani;
II) angajaţi cu vechime între 5 şi 10 ani şi
III) angajaţi cu vechime mai mare de 10 ani.
S-au cules informaţiile, s-au efectuat
prelucrările şi s-au obţinut următoarele
rezultate:
11.Aprilie .2011 30
10
Aplicaţie (2)
I) în prima grupă de vechime, cei 25 de
angajaţi au produs în medie 15 bucăţi pe zi cu o
dispersie de 12
II) în a doua grupă de vechime, cei 50 de
angajaţi au produs în medie 20 bucăţi pe zi, cu
un coeficient de variaţie de 20%
III) în a treia grupă, dintre cei 25 de angajaţi

cei mai mulţi au produs 27 de bucăţi, media
aritmetică a fost de 25 bucăţi iar coeficientul de
asimetrie (Pearson) a înregistrat o valoare de -
0,33
11.Aprilie .2011 31
Aplicaţie (3)
Cu o probabilitate de 95,45% (Z=2) se cere:
a) Să se stabilească limitele între care se va

încadra producţia medie la nivelul întregii
firme
b) Să se stabilească un interval de încredere
pentru producţia totală a fabricii într-o zi
c) Să se determine volumul noului eşantion
dacă dorim să reducem eroarea limită de 1,5
ori şi să se repartizeze optim pe grupe
(straturi)
11.Aprilie .2011 32
Aplicaţie (4)
• Sistematizarea informaţiei disponibile

n=100 angajaţi
n=10%* N=1000
N angajaţi
P=95,45% Z=
2
Grupa de vechime I (vechime sub 5 ani)
nI=25 angajaţi xI = 15 buc S2I=12
11.Aprilie .2011 33
11
Aplicaţie (5)
Grupa de vechime II (vechime între 5 şi 10
ani)
nII=50 angajaţi
xII = 20buc CVII =20%
CVII = 100= 20%
SII
xII
S II = 20⋅20
100
= 4 buc S2II=16
Grupa de vechime III (vechime peste 10

ani)
nIII=25 angajaţi Mo=27 bucăţi xIII = 25 buc Cas=-0,3333
Cas III = x III − MoIII

= −0,333 − 0,333= 25S−III27 SIII=6 S2III=36
S III bucăţi
34 11.Aprilie .2011
Aplicaţie (6)
Tabel 1. Informaţiile calculate şi sistematizate
• coloana 1 reprezintă împărţirea iniţială (proporţională a eşantionului pe

straturi/ grupe)
• coloana 2 reprezintă valoarea medie pentru fiecare strat/ grupă
• coloana 3 reprezintă dispersia din interiorul fiecărui strat/ grupă
11.Aprilie .2011 35
12

Curs 3

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 3

Încărcat de

Drepturi de autor:

Formate disponibile

STATISTICA

• Modelul Gauss-Laplace uzual, din punct de vedere matematic

Respectiv functia de frecventa

Scurt istoric – legea normala (1)

Cateva proprietati ale legii normale

parametrii descriptori µ şi σ2 au semnificaţia

intervalul [µ −3σ, µ + 3σ] conţine aproximativ 99,73%

• Variabila U=(x−µ) /σ se numeste variabila

variabila U are media O şi dispersia 1.

Erori in verificarea ipotezelor statistice

• Eroare de genul întâi: ipoteza H0 se respinge, când ea

• Nivel (prag) de încredere ( α ) (Confidence level or significance level)

• Nivel de semnificaţie (Signifiance level)

• Verificarea faptului că datele

Distributia de esantionare a mediei

Esantion Medie Esantion Medie Esantion Medie

10 2,4 3 22 4,4 4 34 6,4 5

Varianta mediei esantionului este mai mica decat

Medie = Medie = Medie =

Daca x nu este normala

x este aproximati v normal distribuit a pentru

o dimensiune a esantionul ui suficient de mare.

• Media populaŃiei investigate ∑X i

• Media de eşantion (de selecţie) – estimatorn

pentru media populaţiei investigate ∑ Xi

• Dispersia de eşantion (de selecţie) – estimator

• Interval de încredere – dublă inegalitate

Sondajul aleator simplu cu revenire

2. Eroarea limită sau maxim admisibilă ∆ x = µ x ⋅ Z

3. Eroarea medie de reprezentativitate

Sondajul statistic şi regula de adunare a

• Regula adunării dispersiilor spunea că:

Sondaj Sondaj Sondaj

Sondajul aleator stratificat -cu revenire

1. Intervalul de încredere pentru media aritmetică

4. Stabilirea volumului eşantionului

1. Intervalul de încredere pentru media aritmetică

Repartizarea volumului eşantionului pe straturi

Să presupunem că avem un eşantion de volum n unităţi statistice

Tema -aplicaţie (1)

În prealabil angajaţii au fost împărţiti, în

III) în a treia grupă, dintre cei 25 de angajaţi

Cu o probabilitate de 95,45% (Z=2) se cere:

a) Să se stabilească limitele între care se va

• Sistematizarea informaţiei disponibile

nI=25 angajaţi xI = 15 buc S2I=12

Grupa de vechime III (vechime peste 10

nIII=25 angajaţi Mo=27 bucăţi xIII = 25 buc Cas=-0,3333

Cas III = x III − MoIII

• coloana 1 reprezintă împărţirea iniţială (proporţională a eşantionului pe

S-ar putea să vă placă și