Sunteți pe pagina 1din 35

Estimare si testare

Subiecte:
- distributii de selectie
- estimarea unei medii si a unei proportii prin interval de incredere
- determinarea volumului esantionului
- testarea parametrilor:
o testarea unei medii cu o valoare fixata
o testarea unei proportii cu o valoare fixata
o testarea diferentei dintre doua medii
o testarea diferentei dintre trei sau mai multe medii (ANOVA unifactoriala)

Distribuţii de selecţie

In statistica inferentiala se discuta despre trei notiuni fundamentale:


- estimatia
- estimatorul
- parametrul

Numărul de eşantioane care se pot extrage

- în cazul eşantionării aleatoare repetate:


k=Nn
De exemplu, dacă dintr-o populaţie de adultă de 240.000 de persoane, se doreşte
extragerea unui eşantion de 800 de persoane, atunci, din populaţie se pot extrage un număr
de:
240.000800 = 1,47e4304 eşantioane de 800 de persoane.
- în cazul eşantionării aleatoare nerepetate:

Proprietatile estimatorilor

1. Nedeplasarea - media estimatorului este egala cu valoarea parametrului

2. Convergenta – cand creste volumul esantionului, se reduce varianta estimatorului

3. Eficienta – estimatorul are varianta minima

Aplicatie
Un grup de studiu la Bazele Statisticii are șase studenți (N=6), cu vârstele: 18, 18, 19, 20, 20,
21. Vom construi distribuția de selecție a mediei de vârstă pentru eșantioane de 2 studenți (n =
2). Esantioanele vor fi extrase prin selectie aleatoare repetata.
Rezolvare
În primul rând, extragem toate cele k eșantioane de volum n = 2 și calculăm mediile de vârstă
pentru toate eșantioanele.

Numarul total de esantioane de extras:


k=Nn=62=36 esantioane

Tema:
Să se construiască distribuţia de selecţie a mediei la nivelul tuturor eşantioanelor de volum
n=2, considerând datele de la nivelul unei populaţii de muncitori, pentru care s-a înregistrat
numărul de piese produse într-o zi.

X: {2, 4, 6, 8}

Esantioanele vor fi extrase prin procedeul selectiei aleatoare nerepretate.


Verificati proprietatea de nedeplasare a mediei de selectie.
Estimarea parametrilor unei distributii

Estimarea punctuala si prin interval de incredere (IC) a mediei unei populatii

- daca se cunoaste varianta la nivelul unei populatii (σ2) – se foloseste variabila Z

- daca nu se cunoaste varianta la nivelul unei populatii (σ2) – se foloseste variabila t


Alta abordare:
Estimarea punctuala si prin interval de incredere (IC) a proportiei unei populatii

- când se cunoaşte varianţa variabilei alternative:

- când nu se cunoaşte varianţa variabilei alternative:


Aplicatii

1. Dintr-un lot de 1000 de piese se extrage un esantion de 5 piese, care se observa dupa
greutate. Datele inregistrate la nivelul esantionului sunt 9, 11, 9, 8, 13. Se cere să se estimeze
punctual şi prin interval de încredere greutatea medie a pieselor la nivelul lotului. Se consideră
un risc de 5%.

Interpretare: cu o incredere de 95% putem afirma ca greutatea medie a pieselor din lot este
acoperita de intervalul [7.52, 12.48] grame.
2. Din populaţia firmelor din Iaşi, de volum N=15000 se extrage aleator un eşantion de 100 de
firme, observate după numărul angajaţilor, şi se obţine că este 150, iar abaterea standard la
nivelul populatiei este 15. Să se estimeze prin interval de incredere numărul mediu de angajaţi
la nivelul firmelor din Iaşi, cu un risc de 5%.
3. Dintr-un lot de 1000 de piese se extrage aleator un eşantion de 50 de piese, care au fost
observate după calitate. În urma observării a rezultat un număr de 7 rebuturi. Se cere să se
estimeze prin interval de incredere proporţia rebuturilor la nivelul întregului lot, riscul asumat
fiind de 5%.
Tema

4. Din totalul localitatilor României se extrage aleator un eşantion de 50 de localitati, care au


fost observate după castigul salarial net. La nivelul eşantionului s-a obţinut xi=100,
. Se cere să se estimeze prin interval de incredere câştigul mediu la nivelul
tuturor localitatilor, considerând un risc de 5%.

5. La nivelul unui eşantion de 150 de persoane s-a observat statusul cu privire la fumat si s-a
inregistrat ca 68% dintre persoanele din esantion sunt fumatoare. Stiind ca varianta la nivelul
populatiei este de 0.12, să se estimeze prin interval de incredere proporţia fumatorilor la nivelul
întregii populatii, riscul asumat fiind de 10%.

IC pentru μ: [5-4.108, 5+4.108]=[0.892, 9.108]


Estimarea prin IC in SPSS

Descriptives

Statistic Std. Error


durata Mean 5,0000 1,29099
95% Confidence Lower Bound ,8915
Interval for Mean Upper Bound
9,1085

5% Trimmed Mean 5,0000


Median 5,0000
Variance 6,667
Std. Deviation 2,58199
Minimum 2,00
Maximum 8,00
Range 6,00
Interquartile Range 5,00
Skewness ,000 1,014
Kurtosis -1,200 2,619

Lower Bound este limita inferioara a intervalului de incredere

Upper Bound este limita superioara a intervalului de incredere

Deci, IC pt μ este: [0.8915; 9.1085]

Calculul volumului eşantionului

Unde este eroarea maximă admisibilă (marja de eroare), iar este abaterea standard a
variabilei alternative pentru care se estimează π.

În practică, se fixează probabilitatea sau nivelul de încredere, (1-α), cu care dorim să garantăm
rezultatul (de regulă, 0,95) şi eroarea maxim admisibilă (de exemplu, ). Având aceste date, se
poate calcula volumul eşantionului care estimează, cu un anumit nivel de încredere, parametrul π.

Parametrul σ2, care exprimă gradul de omogenitate al populaţiei, de regulă nu se cunoaşte, însă în
calculul volumului eşantionului se poate utiliza valoarea lui maximă, care este egală cu 0,25.
Aplicatii

1. Să se calculeze volumul eşantionului pentru o probabilitate de 0,95, o eroarea maxim admisibilă de


şi o varianţă de 0,25.

Tema

2. Să se calculeze volumul eşantionului pentru o probabilitate de 0,95, o eroarea maxim admisibilă de


şi o varianţă de 0,25.
Testarea statistica

Obiectivele testării statistice


- verificarea ipotezelor asupra unui parametru al unei populaţii
- verificarea ipotezelor privind două sau mai multe populaţii
- verificarea ipotezelor privind legea de distribuţie a unei populaţii

Demersul testării statistice

1. Formularea ipotezelor statistice


O ipoteză este o presupunere cu privire la valoarea unui parametru, legea de distribuţie
a variabilei studiate etc.
Ipoteza nulă H0 : se presupune egalitatea unui parametru cu o valoare fixă sau se face o
presupunere cu privire la legea de repartiţie a unei variabile.
Ipoteza alternativă H1: este opusul ipotezei nule.

2. Alegerea testului statistic

3. Alegerea pragului de semnificaţie α al testului şi citirea valorii critice din tabelul


repartiţiei statisticii test
- riscul (pragul de semnificaţie) α reprezintă probabilitatea de a respinge ipoteza nulă,
atunci când aceasta este adevărată.

4. Calculul valorii statisticii test, folosind datele observate la nivelul eşantionului.

5. Regiunea de respingere/acceptare a ipotezei nule

Regiunea de respingere – intervalul dintr-o distribuţie de probabilitate în care se respinge


ipoteza nulă, acest interval este acoperit de probabilitatea α
Regiunea de acceptare (interval de încredere) – intervalul în care nu se respinge ipoteza nulă şi
este acoperit de probabilitatea 1- α

Regiunea critica pentru:


a) test bilateral
b) test unilateral dreapta
c) test unilateral stanga
Aplicarea regulii de decizie folosind valoarea calculata si valoarea teoretica a
testului
Aplicarea regulii de decizie folosind p-value (Sig.) si α
Ca principiu, testarea statistica vizeaza verificarea unor presupuneri pe care
le facem cu privire la comportamentul populatiilor. Astfel:

 Mai intai, se presupune, prin reducere la absurd, ca ipoteza H0 este


adevarata.
 Apoi, folosind un instrument de analiza (testul statistic potrivit pentru
ipoteza H0), vedem ce dovezi in sprijinul ipotezei H0 aduc datele pe care le
avem la nivel de esantion (valoarea calculata a testului).
 Apoi verificam daca aceste dovezi inclina spre a confirma sau a infirma, cu
o anumita probabilitate, ipoteza H0 (prin compararea valorii calculate a
testului cu valoarea teoretica a testului)
 Daca datele de la nivelul esantionului produc suficiente dovezi pentru a
sustine afirmatia de la H0 (valoarea calculata a testului este mai mica decat
valoarea teoretica a testului), garantam, cu probabilitatea 1- α, ca ipoteza H0
nu poate fi respinsa ca fiind falsa.
 In caz contrar (valoarea calculata a testului este mai mare decat valoarea
teoretica a testului), afirmam, cu un risc asumat α, ca ipoteza H0 este
respinsa.
Testarea ipotezelor asupra mediei unei populaţii

c) Alegerea pragului de semnificaţie şi citirea din tabel a valorii critice a statisticii test

d). Calculul valorii statisticii test pe baza datelor eşantionului


Testarea ipotezelor asupra proporţiei

Demersul testării:
a) Formularea ipotezelor statistice

b) Alegerea pragului de semnificaţie

c) Testul statistic

c) Regula de decizie

d) Decizie si interpretare
Testarea ipotezelor privind două eşantioane (cazul eşantioanelor
independente)

În cazul eşantioanelor independente, statistica test folosită în testarea ipotezelor statistice este
statistica Z sau t.

Ipoteze statistice

Statistica test:
- daca se cunoaste σ12 si σ22, se foloseste testul Z

- daca nu se cunoaste σ12 si σ22, se foloseste testul t

e) Regula de decizie

f) Decizie si interpretare
Testarea egalităţii a trei sau mai multe medii (ANOVA
unifactoriala)

Obiectiv
- procedeu de analiză a variaţiei în funcţie de sursa acesteia
- permite compararea mediilor a 3 sau mai multe grupe sau populaţii cu scopul de a
verifica dacă există diferenţe semnificative între acestea

Se bazează pe descompunerea variaţiei totale (VT sau TSS) pe componente:


- variaţia explicată (variaţia sub influenţa factorului de grupare): VE sau ESS
- variaţia reziduală (variaţia sub influenţa factorilor întâmplători ): VR sau RSS

1. Ipoteze statistice:

Notatie: k reprezinta numarul grupurilor comparate

2. Se alege statistica test Fisher

3. Se alege pragul de semnificaţie şi se citeşte valoarea critică a testul F din tabelul


repartiţiei Fisher, pentru riscul α admis, şi v1 = k-1 si v2 = n-k grade de libertate,

4. Valoarea statisticii F se calculează astfel:

5. Regula de decizie
6. Decizia si interpretarea
APLICATII

1. Din totalul autoturismelor vandute intr-un an de o firma a fost extras un esantion de 1000 de
autoturisme pentru care a fost inregistrat pretul (mii euro). Datele cunoscute sunt:
Pentru un risc asumat de 5%, se cere sa se testeze daca exista diferente
semnificative intre pretul mediu al lotului de autoturisme vandute in anul curent si pretul mediu
inregistrat anul trecut, de 30 mii euro.
2. Din totalul autoturismelor vandute intr-un an de o firma a fost extras un esantion de 1000 de
autoturisme pentru care a fost inregistrat pretul (mii euro). Datele cunoscute sunt:
Pentru un risc asumat de 5%, se cere sa se testeze daca exista diferente
semnificative intre pretul mediu al lotului de autoturisme vandute in anul curent si pretul mediu
inregistrat anul trecut, de 30 mii euro.
3. Din totalul autovehiculelor vandute intr-un an de o firma a fost extras un esantion de 150
autovehicule pentru care a fost inregistrat tipul acestora (autoturism sau motocicleta). La
nivelul eşantionului s-au inregistrat 30 de motociclete vândute. Pentru un risc asumat de 5%, se
cere sa se testeze daca exista diferente semnificative intre ponderea autoturismelor vandute de
firma si ponderea autoturismelor vandute de principalul competitor, de 75%.
4. Pentru o cercetare prin sondaj asupra opiniei consumatorilor unui produs se cunoaşte că
media de vârstă a consumatorilor din eşantion este de 38 de ani. Pentru un risc asumat de 5% şi
o valoare Sig. de 0,008 se cere să se verifice dacă există diferenţe semnificative de vârstă intre
consumatorii produsului si o valoare stabilită prin strategia de marketing, de 40 de ani.
Tema

1. Din totalul localitatilor României se extrage aleator repetat un eşantion de 50 localitati, care
au fost observate după castigul salarial net. La nivelul eşantionului s-a obţinut xi=100,
. Se cere sa se verifice daca exista diferente semnificative intre castigul salarial
mediu al Romaniei si castigul salarial mediu al U.E., de 5 u.m.

2. Din totalul salariaţilor unei firme se extrage un eşantion de 23 de persoane. Salariaţii sunt
observaţi după educaţie (ani) si, pe baza datelor de eşantion, se obtine o valoare calculata a
testului de 10,58. Pentru un risc asumat de 5% se cere să se verifice dacă există diferenţe
semnificative de educaţie între firmă şi principalul concurent, cu un nivel medie de 13 ani de
şcoală.
Testarea diferentei dintre doua medii

1. Pentru două eşantioane extrase din două populaţii cu varianţe egale, se cunosc n1=n2=100,
Pentru un risc asumat de 5%, se cere să se verifice dacă există diferenţe
semnificative între mediile celor două populaţii.

Interpretare: Pentru un risc asumat de 5%, exista diferente semnificative intre cele doua medii ale populatiilor.
2. Din totalul angajatilor unei firme am extras un esantion de angajati observati dupa vechimea in munca (luni) si
sexul angajatului (M, F). Datele obţinute la nivelul eşantioanelor sunt: nM=50, nF=100,
Pentru un risc asumat de 5%, se cere sa se testeze daca exista diferente
semnificative intre vechimea medie a angajatilor de sex masculin si vechimea medie a angajatilor de sex feminin.

Interpretare: Pentru un risc asumat de 5%, exista diferente semnificative de vechime intre barbati si femei.
ANOVA

1. Un eşantion de 50 de consumatori de băuturi răcoritoare ale firmei Coca-Cola a fost observat după au consumul
înregistrat într-o lună. În urma observării a rezultat, pentru cele 5 mărci de băuturi răcoritoare, că ESS = 5400 şi
RSS = 1200. Considerând un risc de 5%, să se verifice dacă marca băuturii răcoritoare influenţează semnificativ
consumul.

n = 50
ESS = 5400
RSS = 1200
α = 0.05
k=5

1. Formularea ipotezelor
H0: μ1 = μ2 = ... = μ5 (Nu exista diferente semnificative intre mediile de consum pentru cele 5 marci, sau marca nu
influenteaza semnificativ consumul)

H1: Cel putin doua medii sunt diferite (exista diferente semnificative intre mediile de consum pentru cele 5 marci,
sau marca influenteaza semnificativ consumul)

2. Alegerea testului: F

3. Valoarea teoretica a testului

Fteoretic = Fα, k-1, n-k= F0.05,4,45 = 2,606

4. Valoarea calculata a testului

5. Luarea deciziei

Fcalculat = 50.62 > Fteoretic = 2.606 : Se respinge H0


6. Interpretare

Pentru un risc asumat de 5%, exista diferente semnificative de consum in functie de marca, adica marca
influenteaza semnificativ consumul.

2. Din totalul angajatilor unei firme am extras un esantion de angajati observati dupa vechimea in munca (luni) si
pozitia ierarhica ocupata (functionar, middle management, top management). Datele sunt prezentate in tabelul de
mai jos. Pentru un risc asumat de 5%, se cere sa se testeze daca vechimea este influentata de pozitia ierarhica
(daca exista diferente semnificative de vechime in functie de pozitia ierarhica ocupata in firma).

ANOVA

Months since Hire


Grade de Estimatori ai
Variatia libertate variantei F Sig.
Intergrupe 6,227 2 3,114 ,031 ,970
Intragrupe 47872,068 471 101,639
Total 47878,295 473

ANOVA

Months since Hire


Sum of
Squares df Mean Square F Sig.
Between Groups 6,227 2 3,114 ,031 ,970
Within Groups 47872,068 471 101,639
Total 47878,295 473

k-1 = 2, deci k = 3

n-k = 471

n – 1 = 473, deci n = 474

ESS = 6.227
RSS = 47872.068

Fcalculat = 0.031
α = 0.05

1. Formularea ipotezelor
H0: μ1 = μ2 = μ3 (Nu exista diferente semnificative de vechime in functie de pozitia ierarhica ocupata in firma , sau
vechimea nu este influentata de pozitia ierarhica)

H1: Cel putin doua medii sunt diferite (Exista diferente semnificative de vechime in functie de pozitia ierarhica
ocupata in firma, sau vechimea este influentata de pozitia ierarhica)

2. Alegerea testului: F

3. Valoarea teoretica a testului


Fteoretic = Fα, k-1, n-k= F0.05,2,471 = 2,996

4. Valoarea calculata a testului

5. Luarea deciziei

Fcalculat = 0.031 < Fteoretic = 2.996 : Se accepta H0

6. Interpretare

Pentru o probabilitate de 95%, garantam ca nu exista diferente semnificative de vechime in functie de pozitia
ierarhica ocupata in firma, adica vechimea nu este influentata de pozitia ierarhica.

S-ar putea să vă placă și