Sunteți pe pagina 1din 47

ANALIZA

DE
DATE
PENTRU
AFACERI

CURS 4 – 27 OCTOMBRIE 2020

1
STRUCTURA CURSULUI DE AZI

 Estimatoripunctuali
 Intervaledeestimare(depredicţie,deîncredere)
 Testarea ipotezelor statistice
ESTIMĂRI

Necesarepentruluareadecizilor,atuncicândnuavem
acceslavaloriexacte.

Adeseainevitabile.
Tipuri de estimatori ai populaţiei:

 Estimatori punctuali

 Intervale deestimaresaude
predicţie
ESTIMATORII PUNCTUALI
 Oestimarepunctualăreprezintăunnumărfolosit
pentruaestimaunparametrunecunoscutalunei
populații.

Exemplu: “Presedintele ANAT și al Asociației Litoral-Delta


Dunării, Corina Martin, estimează că peste 30.000 de
turiști sevor afla pelitoral în minivacanța de1Mai.”
(Sursa:http://m.ziare.com/vacanta/peste-30-000-de-turisti-sunt-asteptati-
pe-litoral-in-minivacanta-de-1- mai-1223602, Data: 11 Martie 2013)
INTERVALE DE ÎNCREDERE

 Intervalul deîncredereasigurăo plajă devalori


între două limite extreme,între caresepoate
afla valoarea căutată.

|Exemplu:“Se estimează că între 20.000 și 40.000 de


turiști se vor afla pe litoral în minivacanța de 1Mai.”
Estimatori punctuali
• Mediadeselecție– pentrumediapopulației
• Proporțiadeselecție– pentruproporțiapopulației
I. Estimatori punctuali

EXEMPLU:
 Înfiecaresăptămână,departamentuldevânzărial
lanțului demagazineABCDselecteazăaleatoriu
un eșantion de 35 de magazine pentru afla
numărul decărțivândute saptămânal.
I. Estimatori punctuali
DATEEȘANTION: (bucă
ți)
101 100 110 93 105
105 98 102 110 112
97 97 107 112 93
93 112 106 98 97
114 97 100 97 99
103 110 102 94 100
100 106 98 103 99
I. Estimatori punctuali
Valoarea medie a numărului de cărți vândute
saptămânal de firma respectivă este dată de
mediade selecţie:

X=3570/35=102carti
I. Estimatori punctuali

Folosindvaloareamedieideselecţiecaestimator,
media populaţiei μ este de 102 cărți vândute
săptămânal.
II. Intervale de incredere
 asigură o plajă de valori între două
limite extreme, între care se poate afla
valoarea căutată.
1. Estimarea intervalului de încredere
pentru media unei populații – σ
cunoscut
 Managerul unei firme doreşte să facă o estimare
(predicţie) asupra mediei de viaţă a bateriilor auto
produse de firma la care lucrează.
 Selectează un eşantion de 200 de baterii şi în urma
testelor efectuate, determină o medie de viaţă de 36
de luni.
 Se cunoaşte abaterea standard a populaţiei ca fiind 10
luni.
1. Estimarea intervalului de încredere
pentru media unei populații – σ
cunoscut
Care este intervalul de incredere al mediei populatiei,
calculat la un prag de incredere de 95%?
1. Estimarea intervalului de încredere
pentru media unei populații – σ
cunoscut
Eroarea medie standard / abaterea standard de selectie:

𝜎 10
– 𝜎𝑥ҧ = = 0.707
𝑛 200
=

Eroarea de selectie:
– ∆𝑥 ҧ = 𝑧 𝛼 × 𝜎𝑥ҧ =
1.385
2
Forma generala a unui interval de
incredere pentru media unei populatii:

(𝑥ҧ ± 𝑧 𝛼
× 𝜎𝑥ҧ )
In exemplul nostru:
2
(36 – 1.96 * 0,707; 36 + 1.96 * 0,707)
(34.614 ; 37.385)

In acest caz, avem o încredere de 95% că media de viaţă a unei baterii se


situează în intervalul 34.614 şi 37.385 luni.
2. Estimarea intervalului de încredere
pentru media unei populații – σ necunoscut
O agenţie de asistenţă socială este interesată să estimeze valoarea medie anuală a
salariului a 700 de familii ce locuiesc în blocurile cu 4 etaje dintr-o comunitate.

Este extras aleatoriu un eşantion de 50 de familii şi se determină că salariul mediu


este de 4800 lei şi abaterea standard de 950 lei.

Se consideră un prag de încredere de 90%.


2. Estimarea intervalului de încredere
pentru media unei populații – σ necunoscut
Avem:
– Dimensiunea eşantionului n = 50
– Media de selecţie 𝑥 = 4800
– Abaterea standard de selecţie s = 950 (Nu cunoaştem abaterea standard a
populaţiei, aşa că vom folosi abaterea standard a eşantionului)
– Dimensiunea populaţiei N = 700
– 90% încredere
2. Estimarea intervalului de încredere pentru
media unei populații – σ necunoscut
Eroarea standard a populaţiei

– Avem o populaţie finită, 700 de familii, deci vom folosi următoarea


formulă pentru a calcula eroarea standard a mediei populaţiei finite:

𝜎𝑥ҧ = 𝜎 × 𝑁 − 𝑛
𝑛
𝑛−1

In exemplul nostru:
700−50
𝜎𝑥 = 950 × = 129.57 lei
ҧ 50 50−1
2. Estimarea intervalului de încredere pentru
media unei populații – σ necunoscut
– 90% încredere  z =
1,64 Intervalul de predicţie:
– (𝑥ҧ ± 𝑧 × 𝜎𝑥ҧ )
– (4800 − 1,64 ∗ 129,57 ;
4800 + 1,64 ∗ 129,57)
– (4587,50 ; 5012,50)

Cu o încredere de 90% putem estima că media anuală a câştigului celor 700


de familii care locuiesc în blocurile cu 4 etaje este cuprinsă între 4587,50 şi
5012,50 lei.
Observatie
! – Pentru esantioanele cu un numar mai mic sau egal cu 30 se va utiliza
distributia t in locul distributiei normale de probabilitate, iar formula
generica pentru determinarea unui interval de incredere pentru media
unei populatii devine:

(𝑥ҧ ± 𝑡 𝛼 × 𝜎𝑥ҧ )
2
Testarea ipotezelor statistice
– În multe cazuri decizia se prezintă sub forma unor alternative, însoţite de
formularea unor ipoteze.

– Ipoteza statistică este ipoteza care se face cu privire la parametrul


unei repartiţii sau legea de repartiţie pe care o urmează anumite variabile
aleatoare.

– O ipoteză statistică nu este neapărat adevărată!


Testarea ipotezelor statistice

– În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza


alternativă.

– Ipoteza statistică ce urmează a fi testată se numeşte ipoteza nulă, H0, şi este


afirmaţia referitoare la valoarea cea mai nefavorabilă, faţă de valoarea reală a
parametrului.
– Ipoteza statistică care ajută la acceptarea sau respingerea ipotezei nule este
ipoteza alternativă, H1, şi este afirmaţia conform căreia parametrul ia alte valori
decât cea specificată de H0.

– Testarea ipotezelor sau testul statistic este evaluarea statistică a deciziei de


respingere a ipotezei nule.
Testarea ipotezelor statistice

– Ipoteza alternativă poate avea 3 forme, care răspund la 3 întrebări referitoare


la parametrul studiat:
– Dacă parametrul este diferit decât valoarea specificată în ipoteza nulă ≠
– Dacă parametrul este mai mare decât valoarea specificată în ipoteza nulă
>
– Dacă parametrul este mai mic decât valoarea specificată în ipoteza nulă <

– Nivelul de încredere al unui test statistic este (1 – α), iar în expresie


procentuală, (1 – α)*100% reprezintă probabilitatea de generare a rezultatelor.
Testarea ipotezelor statistice

Testele statistice pot fi:


– Univariate
– Bilaterale
– Unilaterale
– Pentru o caracteristică alternativă
– Bivariate
Teste statistice univariate
Putem avea una din următoarele variante ale ipotezelor statistice:
– Ipoteza nulă va avea întotdeauna această formă:

=𝑎
, pentru test bilateral şi unilateral;
𝐻0: 𝑥ഥ
0

Ipoteza alternativă poate avea una din formele următoare:


– , pentru test bilateral;
≠ 𝑎
𝐻1: ഥ
𝑥
– 0
, pentru test unilateral la stânga;
< 𝑎
𝐻1: 𝑥ഥ0
– , pentru test unilateral la dreapta.
> 𝑎
𝐻1: ഥ
𝑥0

Calculul raportului critic: 𝑅𝐶 = 𝑥ҧ = 𝑥ҧ


𝜇𝑥
−𝑎 −𝑎𝜎 2
𝑛
Teste statistice univariate

– Cand cunoastem abaterea standard a populatiei, se foloseste


distribuţia
normala, ideal fiind un eşantion cu dimensiunea mai mare sau egală cu 30.

– Daca esantionul este mai mic de 30, atunci populatia din care vine
acest
esantion trebuie sa aiba o distributie normala.

– Cand nu cunoastem abaterea standard a populatiei se foloseste distribuţia


Student (t).
Testul bilateral

– Dacă RC este în intervalul −𝑧 𝛼 , sau −𝑡 𝛼 , 𝑡 𝛼 atunci se acceptă ipoteza


𝑧𝛼 2 2 2 2
nulă. În caz contrar se va respinge ipoteza nulă.
Testul unilateral la stânga

– Dacă RC este mai mare ca −𝑧𝛼 sau −𝑡 𝛼 atunci acceptăm ipoteza nulă.
Testul unilateral la dreapta

– Dacă RC este mai mic decât 𝑧 𝛼 sau 𝑡 𝛼 atunci acceptăm ipoteza nulă.
Aplicatie 1

– Dispunem de datele privind un eşantion de 20 de salariaţi, provenit dintr-o


populaţie de 7000 de angajaţi ai firmei „X”, ce are sedii în Braşov (B), Cluj (C) şi
Iaşi (I).

– Cunoaştem salariul lunar exprimat în mii lei, vechimea exprimată în ani, genul şi
studiile (S – studii superioare, C – muncitori calificaţi, N – muncitori necalificaţi,
T – tehnicieni):
Oraşul Salariul lunar Vechimea Genul Studiile

B 3.8 2 F C

C 3.75 1 F T

C 2.5 3 F S

C 2.46 5 F S

C 2.35 4 M C

I 3.8 5 M S

B 2.9 12 M N

C 3 10 F N

B 3.15 11 F C

B 3.05 16 F C

B 3.5 18 M C

C 3.65 24 M C

C 3.3 19 M C

I 2.3 25 M C

B 1.52 26 F C

B 3 26 M C

I 2.95 2 M T

C 2.28 4 M T

C 1.45 7 F S

I 1.75 8 F S
Aplicatie 1. A.
A. Pentru un prag de semnificaţie α = 0,05 (95% încredere), testaţi dacă salariul angajaţilor
diferă semnificativ de 3 mii lei.

Rezolvare:

n = 20
σ 𝑥𝑖
𝑥ҧ =𝑛 = 2.823 mii
lei
𝑠 = 0.73
mii lei
Ipotezele testului bi-lateral:
– 𝐻0: 𝜇 = 𝜇0, 𝑢𝑛𝑑𝑒 𝜇0 = 3 (Nu exista diferente semnificative)
– 𝐻1: 𝜇 ≠ 𝜇0 (Exista diferente)

– Alegem testul t pentru ca nu cunoastem abaterea standard a populatiei. De asemenea,


esantionul este mai mic ca 30.
Aplicatie 1. A.

– La un nivel de incredere de 95% → 𝛼 = 0.05 → t𝑐𝑟𝑖𝑡𝑖𝑐 = 𝑡 𝛼 ;𝑛 −1 = 𝑡0.05 ;19 = 2.093


2 2
(valoarea este luata din tabelul din slide-ul 37)

– 𝑅𝑐 = (−∞; −t𝑐𝑟𝑖𝑡𝑖𝑐) ∪ (t𝑐𝑟𝑖𝑡𝑖𝑐; +∞), adica 𝑅𝑐=(−∞; −2.093)∪(2.093; +∞)


𝑥ҧ 0 2.823 −3
– tcalc = −𝜇 = 0.73 = -1.08
𝜎2 20
𝑛
– t𝑐𝑎𝑙𝑐= -1.08 𝑛𝑢 𝑎𝑝𝑎𝑟𝑡𝑖𝑛𝑒 𝑅𝑐 → 𝑆𝑒 𝑎𝑐𝑐𝑒𝑝𝑡𝑎 𝐻0

– Pe baza datelor din esantionul studiat, nu putem respinge ipoteza nula. Adica salariul
mediu din esantion nu difera semnificativ de 3 mii lei. Probabilitatea de garantare a
acestui rezultat este 0.95.
Aplicatie 1. A.

t -2.093 t 2.093

tcalc = -1.08
Testarea ipotezelor privind
diferenţa dintre două medii
– Multe cazuri de analiză statistică implică o comparaţie între mediile a două
colectivităţi generale.
– De exemplu, putem testa dacă există sau nu diferenţe privind vânzările unui
produs înainte şi după o campanie publicitară.
– Sau, ne putem dori să vedem dacă există diferenţe în consumul de electricitate
de 2 cuptoare cu microunde.
– În aceste situaţii, un estimator al diferenţei μ1 – μ2 este diferenţa dintre mediile
eşantioanelor 𝑥1 − 𝑥 2.
Testarea ipotezelor privind
diferenţa dintre două medii
– Ipotezele ce vor fi testate:
– 𝐻0: 𝜇1 − 𝜇2 = 𝐷
– 𝐻1: 𝜇1 − 𝜇2 ≠ 𝐷, 𝑝𝑒𝑛𝑡𝑟𝑢 𝑡𝑒𝑠𝑡 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙
– 𝐻1: 𝜇1 − 𝜇2 > 𝐷, 𝑝𝑒𝑛𝑡𝑟𝑢 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑙𝑎 𝑑𝑟𝑒𝑎𝑝𝑡𝑎
– 𝐻1: 𝜇1 − 𝜇2 < 𝐷, 𝑝𝑒𝑛𝑡𝑟𝑢 𝑡𝑒𝑠𝑡 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 𝑙𝑎 𝑠𝑡â𝑛𝑔𝑎

– unde D este diferenţa ipotetică dintre mediile populaţiilor, deseori egală cu 0.


Testarea ipotezelor privind
diferenţa dintre două medii
Cazul esantioanelor independente
– Testul statistic utilizat are forma:

𝑥1 − 𝑥2
𝑧=
−𝐷
𝜎 𝑥 1 −𝑥 2

– unde eroarea standard / abaterea medie pătratică a distribuţiei de eşantionare este:


𝜎𝑥2 𝜎2
1
+
𝜎 𝑥 1 −𝑥 2
= 𝑥2
𝑛1
– şi unde 𝜎𝑥21 şi 𝜎 2𝑥 2sunt dispersiile celor două populaţii𝑛 eşantionate, iar n1 şi n2 sunt volumele
2
eşantioanelor respective.
Testarea ipotezelor privind
diferenţa dintre două medii
Regiunea critică este dată de:
– Pentru testul bilateral: z < - zα/2 sau z > zα/2
– Pentru testul unilateral dreapta: z > zα
– Pentru testul unilateral stanga: z < - zα
Aceste teste caracterizează relaţiile dintre două eşantioane sau două grupe ale unui
acelaşi eşantion şi pot fi de independenţă sau de dependenţă.
Observatie!

Atunci cand cele 2 esantioane sunt egale sau mai mici ca 30, se va aplica testul
statistic t si vom presupune ca:
– Ambele colectivitati generale din care s-au extras esantioanele sunt normal
sau aproximativ normal distribuite
– Dispersiile din cele doua colectivitati generale sunt egale
–Evident, esantioanele aleatoare sunt selectate independent unul de celalalt
De asemenea, eroarea standard va avea urmatoarea formula:

𝑛 1 −1 𝑠 12 +(𝑛 2 −1)𝑠 2 1 1
= 2
(𝑛1
+ )
𝜎 𝑥 1−𝑥 2
𝑛 1 +𝑛 2 −2 𝑛2
Aplicatie 1. B.
B. Pentru un prag de semnificaţie α = 0,05 (95% încredere) testaţi dacă există diferenţe
între salariul angajaţilor pe gen.

Datele oferite (slide 23):

Grupul 1 (gen feminin)


n1 = 10
𝑥ҧ1= 2.643
s1= 0.859

Grupul 2 (gen
masculin)
n2 = 10
𝑥2ҧ = 3.003
s2= 0.562
Aplicatie 1. B.

– 𝑅𝑐 = (−∞; −t𝑐𝑟𝑖𝑡𝑖𝑐) ∪ (t𝑐𝑟𝑖𝑡𝑖𝑐; +∞), adica 𝑅𝑐=(−∞; -2.101)∪(2.101;


+∞)

Testul statistic t va avea forma:

– t = 𝑥𝜎1 −𝑥 −𝐷
𝑥 12−𝑥 2 = -0.36 / 0.324 = -1.11

– t𝑐𝑎𝑙𝑐= -1.11 𝑛𝑢 𝑎𝑝𝑎𝑟𝑡𝑖𝑛𝑒 𝑅𝑐 → 𝑆𝑒 𝑎𝑐𝑐𝑒𝑝𝑡𝑎 𝐻0

– Pe baza datelor din esantionul studiat, nu putem respinge ipoteza nula. Adica nu exista diferente
semnificative intre salariile femeilor si barbatilor din firma “X”. Probabilitatea de garantare al
acestui rezultat este 0.95.
Aplicatie 2

Managerul unui restaurant doreşte să determine dacă o campanie de publicitate a


dus la creşterea veniturilor medii zilnice. Au fost înregistrate veniturile pentru 50
de zile înainte de desfăşurarea campaniei. După desfăşurarea campaniei şi trecerea
unei perioade de 20 de zile pentru ca această campanie să îşi facă efectul, se
înregistrează veniturile pentru 30 de zile. Aceste două eşantioane vor permite
testarea ipotezei privind efectul campaniei asupra veniturilor. Din prelucrarea
datelor pentru cele două eşantioane, rezultă:
– Înainte de campanie: n1 = 50, x1 = 12,55 mii lei, s1 = 2,15 mii lei
– După campanie: n2 = 30, x2 = 13,30 mii lei, s2 = 2,38 mii lei.
Aplicatie 2

Dorim să vedem dacă veniturile au crescut, 𝜇1 < 𝜇 2, aşadar vom efectua un test unilateral la stânga:
– 𝐻0: 𝜇1= 𝜇2
– 𝐻1: 𝜇1 < 𝜇2

 Rc = (−∞ ; -zcritic)

Pentru un prag de semnificaţie 0,05, zα = z critic = 1,64 => Rc = (−∞ ; -1.64)


Calculăm z:
12,55−13,30
– 𝑧𝑐𝑎𝑙𝑐 = 𝑥 1 −𝑥 2 −0
= = −0,75 = −1,41
𝜎 𝑥 1 −𝑥 2 2,15∗2,15 2,38∗2,38
+
0,5305
50 30

Verificăm dacă zcalc este mai mic decât zcritic. Avem -1,41 mai mare de – 1,64. Nu ne aflăm în regiunea
critică. Nu avem suficiente dovezi pentru a concluziona că veniturile au crescut în urma campaniei de
publicitate.
Va multumesc!

S-ar putea să vă placă și