Sunteți pe pagina 1din 22

Proportii.

Chi-2 1
INFERENE ASUPRA PROPORIILOR
Proporia, procentajul din populaie i
probabilitatea asociat producerii unui eveniment
dat implic toate parametrul binomial p
probabilitatea teoretic (n populaie) de succes.
Dac X=B(n,p), atunci = np, = sqrt(np(1-p))
X fiind numrul de succese din n ncercri,
definim p ca probabilitatea binomial observat
(a eantionului): p=X/n.
X este aproximativ normal pentru n>20 i np>5,
n(1-p)>5. Aceasta permite utilizarea unora dintre
metodele anterioare pentru inferene asupra lui p.
Proportii. Chi-2 2
INFERENE ASUPRA LUI p
O valoare observat a lui p aparine unei distribuii de
selecie care este: aproximativ normal (n condiiile
de mai sus), are media
p
= np/n=p i eroarea
standard
p
= sqrt( p(1-p) / n ).
Se poate aplica atunci (cu aproximaie!) procedura z,
cu:
p este valoarea din H
0
.
Exemplu. A spune c cel puin 15% din studeni
fumeaz. B vrea s verifice i gsete c dintr-un
eantion de 200 de studeni, 17 fumeaz. Pentru
nivelul de semnificaie =0,10, se poate respinge
ipoteza lui A?
. n / x ' p unde ,
n / ) p 1 ( p
p ' p
z
esantion
=

=
Proportii. Chi-2 3
TESTAREA IPOTEZELOR ASUPRA PROPORIILOR
Cu valoarea critic:
H
0
: p = 0,15 (). H
a a
: p < 0,15.
Pentru = 0,10 se gsete z
*
= -z(0,10) = -1,28.
p = 17 / 200=0,085.
Se respinge H
0
: eantionul aduce dovezi c mai puin
de 15% dintre studeni fumeaz.
Cu probabiliti:
P = P{Z< z / H
0
} = P{Z < -2,60 / H
0
} = 0,0047.
Pentru = 0,10 , informaia din eantion este
semnificativ. Se respinge H
0
.
6 , 2
025 , 0
065 , 0
200 / 85 , 0 15 , 0
150 , 0 085 , 0
n / ) p 1 ( p
p ' p
z
esantion
=

=
Proportii. Chi-2 4
INTERVAL DE NCREDERE PENTRU PROPORII
Estimarea parametrului p proporia succeselor n
populaie se face pornind de la statistica p =x/n
valoarea observat n eantion.
Intervalul de ncredere este:
Se observ c eroarea standard, necunoscut (depinde
de p), se nlocuiete cu p.
n exemplul anterior, cea mai bun estimare punctual
a lui p este p = 0,085, iar intervalul de ncredere la
nivelul =0,10 este (z(0,05)=1,645): 0,085+-0,033
(0,052; 0,118)
)
n
) ' p 1 ( ' p
) 2 / ( z ' p ,
n
) ' p 1 ( ' p
) 2 / ( z ' p (

+


Proportii. Chi-2 5
DIMENSIONAREA EANTIONULUI (1)
Dac se d eroarea maxim admis E pentru estimarea
proporiei, atunci numrul de indivizi n necesari n
eantion pentru a nu depi E, cu nivelul de ncredere
cerut este mcar:
n = [z(/2)]
2
p (1-p) / E
2
.
p se nlocuiete fie cu o estimare a proporiei, fie cu
0,5 (maximiznd astfel valoarea lui n de mai sus).
Cte persoane trebuie incluse ntr-un eantion pentru a
estima cu eroare cel mult 2%, la un nivel de ncredere
0,10, proporia celor ce intenioneaz s voteze?
n(1,645)
2
(0,5)(0,5)/(0,02)
2
= 1701,56. Deci, n=1702.
Proportii. Chi-2 6
DIMENSIONAREA EANTIONULUI (2)
Exemplu. Furnizorul unei fabrici afirm c doar
5% din piesele pe care le livreaz spre asamblare
au defecte. S se determine mrimea unui eantion
care s permit estimarea proporiei de piese
defecte, cu o precizie de 0,02 i la un nivel de
ncredere de 90%.
Soluie. z(/2)=1,645; E=0,02;
p=0,05; 1-p=0,95.
n consecin:
n (1,645)
2
(0,05) (0,95) / (0,02)
2
= 323,3
n=324. Aici ns, se d valoarea lui p.
Proportii. Chi-2 7
INFERENE ASUPRA DISPERSIEI
Deseori, dispersia trebuie cunoscut / controlat. De
exemplu, o companie de mbuteliat buturi trebuie s
tie ct de mult variaz nivelul de umplere a sticlelor,
chiar dac media este cea corect.
S presupunem c dispersia 0,0004 este acceptabil, iar
dac trece de aceast valoare, se ajusteaz maina de
umplere.
H
0
:
2
= 0,0004 (); H
a
:
2
> 0,0004.
Statistica testului:

2
= (n-1) s
2
/
2
,
unde s
2
este dispersia estimat nedeplasat din eantion,
iar
2
, valoarea din H
0
.
Proportii. Chi-2 8
DISTRIBUIA
2
(1)
Dac se extrag eantioane aleatoare de dimensiune
n dintr-o populaie normal de dispersie cunoscut

2
, atunci variabila aleatoare (n-1)s
2
/
2
are
distribuie
2
.
Proprieti ale distribuiei
2
:
Valorile
2
sunt pozitive;
Curba
2
este asimetric, cu mdul spre stnga;
Pentru df>2, media aflat la dreapta mdului este
chiar df (n-1 pentru inferenele prezentate);
Exist cte o distribuie
2
pentru fiecare valoare df.
Proportii. Chi-2 9
DISTRIBUIA
2
(2)

2
=
1..n
(
k
- )
2
/
2
,
k
fiind variabile
normale independente N(, ).

2
are funcia de densitate de probabilitate
(pentru x 0) definit prin:
Valorile critice se iau din tabele, sub forma

2
(df; ), fiind aria de la dreapta valorii
critice.
) 2 / n ( 2
e x
) x ( f
2 / n
2
x
1
2
n
2

Proportii. Chi-2 10
EXEMPLUL I
n exemplul cu mbutelierea:
2
admis este
0,0004. Dac un eantion de 28 de sticle d o
dispersie observat de 0,0010, se poate afirma, la
nivelul de ncredere 0,05, c procesul de
mbuteliere nu este sub control din punct de
vedere al dispersiei?
Regiunea critic se afl sub partea dreapt (>) a
curbei de distribuie i are o arie de 0,05.

2
critic
=
2
(27; 0,05) = 40,1.

2
eantion
= (n-1) s
2
/
2
= 270,001/0,0004 = 67,5.
Concluzie: se respinge H
0
(
2
eantion
se afl n
regiunea critic).
Proportii. Chi-2 11
EXEMPLUL II
Un test este util dac, n urma corectrii, notele au o
mprtiere suficient de mare pentru a ierarhiza elevii, dar
nu ntr-att nct diferenele de note s fie prea mari.
Se afirm c un test cu punctaj total 100 este util dac
deviaia standard este 12.
La un test de 100 puncte dat la 28 de elevi, deviaia
standard observat este 10,5. Putem afirma cu nivel de
ncredere 95% c testul respectiv este util?
H
0
: =12; H
a
: 12. H
a
simetric dou valori critice.

2
critic1
=
2
(27; 0,975) = 14,6;

2
critic2
=
2
(27; 0,025) = 43,2.

2
eantion
= (n-1)s
2
/
2
= 2976,75/144 = 20,6719
Decizie. H
0
nu se respinge: testul poate fi considerat util.
Proportii. Chi-2 12
INTERVAL DE NCREDERE PENTRU DISPERSIE
Capetele intervalului de ncredere se obin
din cele dou valori critice; pentru calculul
intervalului de ncredere, eantionul
furnizeaz doar n i valoarea lui s.

2
= (n-1)s
2
/
2

2
= (n-1)s
2
/
2
.
Dat nivelul , se obin valorile critice:

2
(df;1-/2) <
2
(df; /2).
Capetele intervalului sunt:
(n-1)s
2
/
2
(df; /2) ; (n-1)s
2
/
2
(df; 1-/2).
Proportii. Chi-2 13
EXEMPLUL II INTERVAL DE NCREDERE
Cu datele din exemplul II, intervalele de ncredere
la nivel =0,05 pentru dispersia, respectiv deviaia
standard a populaiei sunt:
Dispersie: extremele intervalului sunt date de
(27)(10,5)
2
/ 43,2, respectiv (27)(10,5)
2
/ 14,6.
Aadar, cu 95% ncredere estimm dispersia
populaiei ca fiind ntre 68,9 i 203,9.
Intervalul de ncredere pentru deviaia standard a
populaiei este dat de radicalii valorilor de mai
sus: (8,3; 14,3).
Proportii. Chi-2 14
ALTE APLICAII ALE LUI
2
Pentru variabile categoriale tabele ale frecvenelor
(eventual, pe intervale sau clase).
Inferene statistice pentru:
1.- EXPERIMENTE MULTINOMIALE.
2.- TESTE DE INDEPENDEN.
3.- TESTE DE OMOGENITATE.
Toate folosesc statistica
2
:
O
i
, E
i
frecvena i observat, frecvena i ateptat.
La eantionri repetate i pentru n (numrul total de
observaii) mare, statistica de mai sus are aproximativ
distribuia cu aceeai notaie.
Ipotezele statistice sunt mai libere nu se exprim
neaprat direct prin parametri.


=
i
i
2
i i
2
E
) E O (
Proportii. Chi-2 15
INFERENE ASUPRA EXPERIMENTELOR MULTINOMIALE
S presupunem c testm ipoteza H
0
: zarul este
corect, cu =0,05. Pentru a o testa, aruncm zarul
de 60 de ori. H
0
ar fi n mod ideal satisfcut dac
fiecare fa a zarului ar fi aprut exact de 10 ori
(frecvena ateptat).
Observm frecvenele (n ordinea, irelevant, a
numerelor de pe cele k=6 fee ale zarului):
7, 12, 10, 12, 8, 11.
Din calcule, rezult:
2
= 2,2.
=0,05, iar n cazul multinomial, df=k-1=6-1=5.

2
(5; 0,05) = 11,1 (cu regiunea critic la dreapta).
Decizie: Nu se respinge H
0
.
Proportii. Chi-2 16
EXPERIMENTE MULTINOMIALE
n repetri n condiii identice ale aceluiai experiment;
rezultatul fiecrei repetri este exact unul din k
rezultate posibile;
fiecare rezultat posibil are ataat o probabilitate
prezumat fix. p
1
+ p
2
+ + p
k
= 1.
experimentul d frecvenele observate O
1
,O
2
,,O
k
(O
1
+O
2
++O
k
=n).
E
i
= np
i
pentru statistica
2
.
Ipoteza nul nu se exprim neaprat prin
parametri.
Valoarea critic se obine din nivelul de semnifica-
ie i din numrul de grade de libertate df=k-1.
Regiunea critic se afl la dreapta.
Proportii. Chi-2 17
EXEMPLUL III
Studenii doresc o ct mai mare libertate n
alegerea cursurilor. apte cursuri similare, predate
de cadre didactice diferite, au fost alese de 119
studeni astfel (ordinea este aleatoare):
18, 12, 25, 23, 8, 19, 14. Indic datele preferine
pentru anumii profesori?
H
0
: distribuie fr preferine.
p
i
= 1/7; = 0,05;
2
(6; 0,05) = 12,6.

2
esantion
= (18-17)
2
/ 17 + (12-17)
2
/ 17 + (25-17)
2
/ 17 + (23-17)
2
/ 17 + (8-17)
2
/ 17 + (19-17)
2
/ 17
+ (14-17)
2
/ 17 = 220 / 17 = 12,9411.
Decizie. Se respinge H
0
!
Proportii. Chi-2 18
TABELE DE CONTINGEN (1)
Aranjament de date pe linii i coloane dou
variabile, pentru care se testeaz (in)dependena
sau omogenitatea.
1.- Independena. 300 de studeni, clasificai pe
sexe, au fost ntrebai n ce domeniu al artelor
liberale prefer s-i aleag cursurile.
Sex Mat.-t. t. Soc. t.Um. Total
F 35 72 71 178
M 37 41 44 122
Total 72 113 115 300
Proportii. Chi-2 19
TABELE DE CONTINGEN (2)
H
0
: alegerea cursurilor este independent de sex.
H
a
: alegerea cursurilor este dependent de sex.
Valoarea critic. Numrul de grade de libertate este
numrul de celule ce pot fi completate fr restricii
dac se dau totalurile: dou n acest caz. n general:
(nr_linii 1)(nr_coloane 1).
2
(2; 0,05) = 6,00.
Regiunea critic este la dreapta:

2
esantion
>
2
critic
se respinge H
0
Probabilitile p
i,j
ataate fiecrei celule: proporionale
cu totalurile marginale (ce se ntmpl n general este
valabil i pentru fiecare sub-populaie). De exemplu, biei
alegnd fiecare domeniu ar trebui s fie: (72/300)122; (113/300)122;
(113/ 300)122.
p
i,j
= total_linie
i
total_coloan
j
/ n
Proportii. Chi-2 20
TABELE DE CONTINGEN (3)

2
esantion
= (35 - 42,72)
2
/ 42,72 + (72 - 67,05)
2
/ 67,05 +
(71 - 68,23)
2
/ 68,23 + (37 - 29,28)
2
/ 29,28 + (41 - 45,95)
2
/ 45,95 + (44 - 46,77)
2
/ 46,77 = 1,395 + 0,365 + 0,112 +
2,035 + 0,533 + 0,164 = 4,604 < 6,00!
Decizie. Nu se poate respinge H
0
!
Sex Mat.-t. t.Soc. t.Uman. Total
F 35
(42,72)
72
(67,05)
71
(68,23)
178
B 37
(29,28)
41
(45,95)
44
(46,77)
122
Total 72 113 115 300
Proportii. Chi-2 21
TABELE DE CONTINGEN (4)
2. Omogenitate. Experimentatorul controleaz una
din cele dou variabile pentru a obine totaluri date.
Exemplu. Se proiecteaz un sondaj de opinie asupra
prerilor despre o lege (pentru / mpotriv),
intervievnd persoane din mediile urban, suburban
i rural. Proporiile sunt date (fie ele 2/5, 1/5, 2/5).
Opiniile asupra legii difer n cele trei medii?
Fie =0,05. S presupunem c au fost intervievai
500 de subieci, cu rspunsurile date n tabel.
H
0
: proporia celor ce sunt pentru legea respectiv
este aceeai n mediile urban, suburban, rural.
H
a
: n cel puin un mediu proporia este alta.
Proportii. Chi-2 22
OMOGENITATE - TABELUL
df = (3-1)(2-1) = 2.
2
critic
(2; 0,05) = 6,00.

2
esantion
= (143-101,6)
2
/ 101,6 + ... = 91,72.
Decizie: Se respinge H
0
: proporiile difer.
MEDIUL PENTRU CONTRA TOTAL
URBAN 143
(101,6)
57
(98,4)
200
SUBURBAN 13
(50,8)
87
(49,2)
100
RURAL 98
(101,6)
102
(98,4)
200
TOTAL 254 246 500