Documente Academic
Documente Profesional
Documente Cultură
6. Testarea statistică
Exemplu.
d. Variabila statistică
reprezintă însuşirea, trăsătura esenţială purtată de unităţile
statistice ale unei populaţii.
se notează cu X. Valorile (variantele) variabilei se notează cu
xi.
e. Indicatorul statistic
mărime statistică, rezultatul numeric al unei numărări, al
unei măsurări statistice sau al unui calcul asupra datelor
obţinute printr-o înregistrare statistică.
f. Indice statistic
mărime statistică relativă care se obţine prin compararea, sub
formă de raport, a două valori ale unui indicator statistic.
1.3. Tipuri de variabile statistice
după modul de exprimare:
1. Variabile cantitative:
- variabile discrete. Ex.: nr. de şomeri, nr. de angajaţi, nr. de
copii pe familie.
- variabile continue. Ex.: înălţimea, greutatea, viteza.
2. Variabile calitative:
- variabile nominale. Caz particular: variabile alternative
(dummy).
- variabile ordinale.
1.3. Tipuri de variabile statistice
2. Variabile calitative:
- variabile nominale.
Ex. Sexul persoanei (se pot acorda codurile 1 pentru masculin, 2
pentru feminin)
Caz particular: variabile alternative (dummy).
- variabile ordinale.
Ex. Preferinţa pentru un produs: Foarte bun, Bun, Nici bun- nici
rău, rău, foarte rău
1.4. Scale de măsurare
Definire:
Scala este un continuum de cifre sau de simboluri, plasate
ierarhic, de la inferior la superior.
Tipuri de scale
1. Variabile calitative
a. Scala nominală presupune acordarea de numere (coduri)
fiecărei categorii a unei populaţii (doi indivizi care aparţin
unor categorii distincte au valori diferite).
1.4. Scale de măsurare
este caracteristică variabilelor nominale.
Exemplu: Sexul persoanei
Exemplu:
- măsurarea temperaturii în sistemul Celsius şi în sistemul
Fahrenheit: diferenţa dintre două temperaturi are un sens.
1.4. Scale de măsurare
b. Scala raport
are aceleaşi proprietăţi ca scala interval şi, în plus, posedă un
zero absolut (considerat punct de referinţă)
diferenţa şi raportul dintre două valori au un sens
valoarea zero arată absenţa unui fenomen
Adresa: http://ec.europa.eu/eurostat/data/database
1.5. Metode de culegere a datelor
1.5. Metode de culegere a datelor
2. Lucrări de înregistrare statistică
a. Recensământul reprezintă o lucrare de înregistrare exhaustivă,
la un moment dat, a unei populaţii.
- înregistrarea surprinde starea populaţiei la un moment dat,
numit moment critic.
b. Rapoarte statistice
reprezintă lucrări de înregistrare totală (evenimente, fapte).
d. Monografia statistică
are ca obiectiv cunoaşterea unei singure unităţi complexe sau
a unei singure probleme.
Aplicaţii:
I. Pentru ansamblul firmelor din județul Iași care desfășoară
activitate de producție se înregistrează valoarea cifrei de
afaceri (mil. lei) la 31 decembrie 2019. Se cere:
să se precizeze dacă înregistrarea statistică realizată asupra
firmelor observate presupune o cercetare exhaustivă.
1
2. Analiza unei serii statistice univariate
2.1. Variabile cantitative
A. Variabilă discretă
2
• Frecvenţe absolute cumulate crescător (Ni )
sau descrescător (Ni )
- exprimă numărul de unităţi statistice cumulate “până la”
sau “peste” nivelul considerat al caracteristicii, adică
valori ≤ xi, respectiv ≥ xi.
i
N i = N i −1 + ni = nh
h =1
m
N i = N i +1 + ni = nh
h =i
3
• Frecvenţe relative cumulate crescător (Fi )
sau descrescător (Fi )
4
2. Caracterizarea seriei folosind metode grafice
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea
acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.
b. Curba frecvenţelor:
- presupune ajustarea printr-o linie curbă, continuă a
poligonului frecvenţelor.
- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată.
5
3. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,
cunoscuţi şi sub denumirea de caracteristici numerice ale
unei distribuţii.
a. Definire:
- mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii.
- cele mai importante mărimi medii sunt media artitmetică,
modul şi mediana .
6
3. Analiza seriei folosind metode numerice
b. Media aritmetică ( x )
- Media aritmetică este valoarea pe care am observa-o dacă
unităţile statistice ar înregistra aceleaşi valori ale variabilei
(dacă nu ar exista variaţii ale valorilor înregistrate de
unităţile statistice).
7
Media simplă: xi
x= i
n
Media ponderată.
x i ni
x= i sau x = xi f i
ni i
i
Observaţie:
Media aritmetică este sensibilă la prezenţa valorilor extreme
(outliers).
8
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.
9
c. Modul (Mo)
este valoarea variabilei cea mai frecvent observată într-o
distribuţie, adică valoarea xi care corespunde frecvenţei
maxime (nimax).
Observaţie:
modul poate fi aflat doar în cazul seriilor cu frecvenţe
diferite.
o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).
10
d. Mediana (Me)
- este acea valoare a variabilei unei serii ordonate, crescător sau
descrescător, până la care şi peste care sunt distribuite în
număr egal unităţile colectivităţii: jumătate din unităţi au
valori mai mici decât mediana, iar jumătate au valori mai mari
decât mediana.
- corespunde locului unităţii mediane calculate astfel:
n+1
U Me
=
2
11
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:
- număr impar de termeni.
- număr par de termeni.
12
- se află prima valoare N i U Me
- valoarea xi corespunzătoare acesteia este Me.
Observaţie:
- mediana nu este influenţată de valorile extreme.
13
e. Relaţii între cele trei mărimi medii x ,Mo,Me
14
f. Quartilele
- sunt valori ale variabilei care împart volumul eşantionului în
4 părţi egale.
- reprezentare grafică şi mod de calcul ( Q1, Q2, Q3).
g. Decile
- decila unu (D1) şi decila 9 (D9).
15
Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şi
asimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin
reprezentarea simultană a diagramelor).
16
Diagrama box-plot
1
NOTA
3 4 5 6 7 8 9 10 11
17
NOTA_1
NOTA_2
3 4 5 6 7 8 9 10 11
18
3.2. Indicatori ai dispersiei (variaţiei)
Definire:
- dispersia exprimă gradul de variaţie a valorilor individuale
ale unei variabile faţă de nivelul mediu.
- aprecierea fenomenului de dispersie al unei distribuţii
permite identificarea gradului de reprezentativitate a mediei
unei distribuţii.
2. Varianţa
( x i − x ) ni
2
( xi − x )
2
s2 = i
s2 = i ni
n
, respectiv i
22
5. Amplitudinea intervalului interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.
23
În mod sintetic, cele mai importante caracteristici numerice
ale unei distribuţii pot fi “cuplate” astfel:
media - abaterea standard (valoare absolută) - coeficientul de
variaţie (valoare relativă)
mediana - intervalul interquartilic (valoare absolută) -
coeficientul de variaţie interquartilic (valoare relativă)
24
3.3. Indicatori ai formei
1. Asimetria:
- reprezintă o deviere de la forma simetrică a unei distribuţii.
25
Aprecierea numerică a asimetriei se poate realiza cu ajutorul
Coeficientului de asimetrie Fisher
3
1 =
s3
Interpretare:
26
2. Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei
variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
27
Determinarea numerică a boltirii
Coeficientul de boltire Fisher:
2 = 42 − 3 = 44 − 3
2 s
Interpretare:
28
3.4. Indicatorii statisticii descriptive în
Excel
Column1
Mean 8.6
Standard Error 0.347735
Median 8
Mode 10
Standard Deviation 1.904622
Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8
Minimum 4
Maximum 12
Sum 258
Count 30 29
B. Variabilă continuă
1. Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale de
variaţie.
Observaţie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţi
a informaţiei iniţiale.
30
31
b. Poligonul frecvenţelor
c. Curba frecvenţelor
d. Curba frecvenţelor cumulate:
- este reprezentarea grafică a funcţiei de repartiţie a
frecvenţelor unei variabile: F(X<xi).
32
2. Analiza unei serii univariate
2.1. Variabilă cantitativă
A. Variabilă discretă
B. Variabilă continuă
I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
33
II. Reprezentare grafică
a) Variabile nominale:
• Pentru a reprezenta structura pe categorii la nivelul unui
eşantion se calculează frecvenţe relative;
• Reprezentarea structurii unui eşantion se realizează folosind
diagrame de structură: dreptunghiul, pătratul şi cercul de
structură (Bar Chart, Pie Chart).
b) Variabile ordinale:
Reprezentarea structurii unui eşantion se realizează folosind
diagrame de structură (Bar Chart, Pie Chart)
34
Exemplu:
masc
33,3%
fem
66,7%
36
b) Variabile ordinale:
1. Mărimi relative
- frecvenţe relative (fi)
- frecvenţe relative cumulate (Fi)
37
BAZELE STATISTICII
Chirilă Viorica
Programa analitică
1. Noţiuni introductive
2. Analiza unei serii statistice unidimensionale, folosind
metode grafice şi numerice (variabile cantitative:
indicatori ai tendinţei centrale, indicatori ai dispersiei,
indicatori ai formei şi ai concentrării; variabile calitative).
3. Analiza unei serii statistice bidimensionale.
4. Indici statistici
3. Analiza unei serii bidimensionale
3.1. Prezentarea seriei
O serie bidimensională prezintă variaţia unităţilor unui
eşantion după două variabile de grupare în mod simultan:
- variabilele Xi cu valorile xi , i = 1, m şi Yj cu valorile y j , j = 1, p
Efectivele (unităţile) eşantionului care poartă simultan
valoarea xi şi valoarea y j sunt n ij .
Distribuţia bivariată este definită de:
(xi , y j , nij ), i = 1, m, j = 1, p
3. Analiza unei serii bidimensionale
3.2. Tipuri de variabile
- o variabilă numerică şi o variabilă nenumerică;
- ambele variabile numerice;
- ambele variabile nenumerice.
m
n• j = nij
i =1
3. Analiza unei serii bidimensionale
b) Distribuţii condiţionate (m+p distribuţii)
Distribuţia condiţionată a variabilei X în funcţie de Y
ni • n• j
◼ f i• = ; f• j =
n•• n••
nij
f ij =
n••
3. Analiza unei serii bidimensionale
nij
f j /i = i valoare fixa, j = 1,..., p
ni•
3.6. Medii condiţionate (pe grupe)
Dacă X este variabila numerică, atunci media variabilei X pe
grupe este:
m
xi nij m
i =1
xj = , cu n• j = nij , j = 1, p
n• j i =1
3.7. Media pe total
p
x j n• j
j =1
x= p
.
n• j
j =1
3.8. Varianţe condiţionate (varianţe de grupă)
- măsoară variaţia în cadrul unei grupe (intragrupă)- influența
factorilor întâmplători.
m
(x − x j ) 2 nij
Y = yj
i
s 2j = i =1
n• j pentru
s =
2 j
n j
j
3.10. Varianţa între grupe (varianţa intergrupe)
Măsoară influența factorului de grupare (factor esențial)
p
( x j − x ) n• j
2
j =1
s x2 j = p
n• j
j =1
( x i − x ) ni •
2
s 2X = i
ni •
i s =s +s
2
X
2 2
xj
3.12 Determinarea gradului de influență al factorilor
s =s +s
2
X
2 2
xj
2
s xj
k1 = 2
100
s x
2
s
k2 = 2 100
sx
BAZELE STATISTICII
Aplicații
Chiar dacă sunt întrebări, aici prezentate, cu mai multe răspunsuri
corecte, la parțial o să aveți întrebări cu un singur răspuns corect.
Aplicaţii
1. Se cunoaște distribuția salariaților unor firme după vârstă, pe
medii de rezidență, prezentată astfel:
Vârsta (ani) Urban Rural
25-35 5 0
35-45 3 2
45-55 2 5
55-65 1 10
Să se calculeze vârsta medie a persoanelor din mediul urban
Cât % dintre salariații din mediul urban au vârsta cuprinsa intre 35-45 ani?
Cât % dintre salariați au vârsta cuprinsă între 45-55 ani si sunt din mediul rural?
Cât % dintre salariații cu vârsta cuprinsa intre 25-35 ani sunt din mediul rural?
Aplicaţii
Rezolvare:
1. Să se calculeze vârsta medie a persoanelor din mediul urban
xU =
'
xn
i i
=
430
= 39,09 ani
n i 11
Aplicaţii
Rezolvare:
2. Cat % dintre salariații din mediul urban au vârsta cuprinsă între 35-45
ani?
Salariați în mediul urban: 11
Salariați din mediul urban cu vârsta cuprinsă între 35-45 ani: 3
3
f (%) = 100 = 27, 27%
11
Aplicaţii
Rezolvare:
3. Cat % dintre salariați au vârsta cuprinsă intre 45-55 ani și sunt din mediul
rural?
Salariați total: 28
Salariați cu vârsta cuprinsă între 45-55 din mediul rural și care sunt din mediul
rural: 5
5
f (%) = 100 = 17,86%
28
Aplicaţii
Rezolvare:
4. Cat % dintre salariații cu vârsta cuprinsă între 25-35 ani sunt din mediul
rural?
Salariații cu vârsta cuprinsă între 25-35 ani: 5
Salariați cu vârsta cuprinsă între 25-35 ani din mediul rural: 0
0
f (%) = 100 = 0%
5
Aplicaţii
2. Pentru o firmă se cunosc x = 10 mld .lei , s x2 = 4 şi datele de mai jos:
Domeniul de n.j
activitate
s 2j
A 1,2 20
B 0,9 30
C 1,4 50
TOTAL - 100
s =s −s
2
xj
2
X
2
s 2j n j 1, 2 20 + 0,9 30 + 1, 4 50 121
s2 = = = = 1, 21
j
n j 100 100
j
s = s − s = 4 − 1, 21 = 2, 79
2
xj
2
X
2
3. Pentru o firmă se cunosc: sX= 4 mld. lei şi datele prezentate în tabelul de mai
jos:
A 12 20
B 9 30
C 14 50
TOTAL - 100
Media generală:
p
x
j =1
j n• j
12 20 + 9 30 + 14 50 1210
x= p
= = = 12,1
100 100
n
j =1
•j
varianta intergrupe
( x
p
− x) n ( x
p
− x) n
2 2
j j j j
j =1 j =1 469
sx2j = p
= = = 4,69
n 100
n
j =1
j
sX2 = 42 = 16
75% din salariaţii unei întreprinderi au un salariu de cel mult 2000 RON. Această valoare
reprezintă:
a) quartila unu
b) mediana
c) quartila trei
Se organizează o anchetă prin sondaj privind opinia a 100 de consumatori de
ciocolata asupra calității produsului (calitate slabă, bună, foarte bună). Sunt
adevărate afirmațiile:
a)Variabila înregistrată este nominala
b)Unitatea statistica este opinia consumatorilor
c)Variabila înregistrată este calitativa
a. Valoarea modului pentru mediul urban este mai mica decat pentru mediul
rural
b. 54.5% dintre persoanele din mediul urban au pana in 45 de ani, inclusiv
c. 10 persoane din mediul rural au peste 35 de ani, inclusiv
d. Varsta mediana a persoanelor din mediul rural este mai mare decat cea a
persoanelor din mediul urban
a. Valoarea modului pentru mediul urban este mai mica decât pentru mediul
rural
Urban - Mo=55 ani > Rural-Mo=25 ani
n + 1 12
Urban: U = Me
= =6
2 2
Ni U Me
Ni = 6 Me = 45 ani
Se considera distribuția unui eșantion de persoane după nivelul de educație si
sexul persoanei. Identificați răspunsurile corecte.
22
18
16
14
12
10
Female Male
Gender
25 1 10
35 3 2
45 2 5
55 5 3
Media 15 50
Varianta 100 25
a. Populația din mediul rural este mai omogenă decât cea din mediul urban
b. Media populației urbane este nereprezentativă
c. 50% dintre persoanele din mediul urban au pana in 15 ani, iar restul peste 15 ani
d. Pentru populația rurală, în medie, vârsta unei persoane se abate de la vârsta medie cu 25 ani.
e. Coeficientul de variație pentru populația rurala este 0,5.
Vârsta Urban Rural
(ani)
Media 15 50
Varianta 100 25
a) Populația din mediul rural este mai omogenă decât cea din mediul urban
5
10
vU = 100 = 66,67% vR = 100 = 10%
15 50
c) 50% dintre persoanele din mediul urban au până în 15 ani, iar restul peste 15 ani
d) Pentru populația rurală, în medie, vârsta unei persoane se abate de la vârsta medie cu 25 ani.
X – variabilă aleatoare
pi - probabilitate de apariție
∑ pi =1 (100%)
Ω { 1,2 ,3,4 ,5 ,6 }
Exemplu
În cazul aruncării zarului, să se calculeze probabilitatea de
apariție a unei fețe cu număr par.
Ω { 1,2 ,3 ,4 ,5 ,6 } A = {2, 4, 6}. ( 6 cazuri posibile, 3 cazuri favorabile
m 3
p 0,5
n 6
4. Probabilităţi şi distribuţii teoretice
b. Definiţia probabilităţii bazată pe frecvenţă
Probabilitatea este definită ca un caz limită al frecvenţei, atunci când
numărul de experienţe tinde la infinit.
m
p lim
n n
unde m este numărul efectiv de realizări ale unui eveniment dintr-un
număr n de experienţe realizate, adică este frecvenţa relativă de
apariţie a unui eveniment.
Exemplu.
În cazul aruncării zarului, să se afle probabilitatea de apariție a fiecărei
fețe și să se prezinte distribuția de probabilitate corespunzătoare.
4. Probabilităţi şi distribuţii teoretice
xi pi
1 1/6
2 1/6
3 …
4 …
5
6
1,00
4. Probabilităţi şi distribuţii teoretice
4.2. Variabile aleatoare
4.2.1. Definire
O experienţă aleatoare este descrisă prin mulţimea
evenimentelor elementare {1 , 2 ,...n ,...} .
Exemplu
Un exemplu de variabilă aleatoare este cea asociată
experienţei aleatoare a aruncării pe o masă a două zaruri.
Funcţia care se poate asocia experienţei este aceea a atribuirii
unui număr real fiecărui eveniment elementar egal cu suma
punctelor obţinute la fiecare aruncare.
4. Probabilităţi şi distribuţii teoretice
Spunem că probabilitatea ca variabila aleatoare X să ia o
anumită valoare este:
p P( X x ) P{ , X ( ) x , i 1, n}
i i i
F ( x) P( X x), () x R
4. Probabilităţi şi distribuţii teoretice
Funcţia de repartiţie are următoarele proprietăţi:
() x R, 0 F ( x) 1
lim F ( x) 1
x
lim F ( x) 0
x
5. Probabilităţi şi distribuţii teoretice
Pentru variabila discretă, funcţia de repartiţie este F ( x ) pi
{ xi x }
x
Pentru variabila continuă, F ( x) f (t ) dt , () x R
5. Probabilităţi şi distribuţii teoretice
5.2.4. Caracteristici numerice ale unei variabile aleatoare
Media unei variabile aleatoare
M( X )
Dacă variabila X este discretă, atunci: M ( X ) xi pi
iI
5. Probabilităţi şi distribuţii teoretice
Dacă variabila X este o variabilă continuă:
M ( X ) x f ( x) dx
R
2 V( X )
5. Probabilităţi şi distribuţii teoretice
5.3. Distribuţii utilizate în statistică
5.3.1. Distribuţii pentru variabile discrete – OPȚIONAL
a. Distribuţia Bernoulli : X ~ B(p).
Se prezintă astfel: 0 1
X :
q p
unde: p P( X 1 ) q P( X 0 )
Parametrii acestei repartiţii sunt:
M(X) = p;
V(X) = pq. ,
5. Probabilităţi şi distribuţii teoretice
Exemplu:
k
X : k k n k
C n p q k 0 ,n
5. Probabilităţi şi distribuţii teoretice
unde p + q = 1, iar k reprezintă numărul de realizări ale
evenimentului favorabil, în condiţiile repetării de n ori a
experienţei Bernoulli.
Parametrii acestei repartiţii sunt:
M(X) = np;
V(X) = npq.
5. Probabilităţi şi distribuţii teoretice
5.3.2. Distribuţii pentru variabile continue
a. Distribuţia normală generalizată
Repartiţia normală generalizată se simbolizează N ( , 2
) .
Funcţia densitate este:
( x )2
1
f(x) e 2 2
2
5. Probabilităţi şi distribuţii teoretice
b. Distribuţia normală standard
Variabila normală standard se obţine dintr-o variabilă
normală generalizată prin procedeul de standardizare:
X
Z
O variabilă aleatoare repartizată după o lege normală
standard, simbolizată N(0,1), are o funcţie densitate dată de
relaţia:
z2
1
f(z) e 2
2
5. Probabilităţi şi distribuţii teoretice
O variabilă X poate fi transformată în variabilă Z după
relația: xi
zi
Notație
X N , 2 Z N 0 ,1
Valorile Z și valorile funcției Laplace sunt tabelate
0 z
5. Probabilităţi şi distribuţii teoretice
Proprietățile funcției Laplace
Φ(zi)=P(0<Z<zi)
Φ(0) = 0
Φ(-zi) = - Φ(zi)
Dacă z1< z2, atunci P( z1 Z z 2 ) ( z 2 ) ( z1 )
1
P(Z>zi)=1- P(Z<zi)=2 ( zi )
1
P(Z<zi)=2 ( zi )
5. Probabilităţi şi distribuţii teoretice
Pentru interese practice, de calcul al unor probabilităţi, se
utilizează funcţia lui Laplace, definită pe baza repartiţiei
normale standard. Funcţia lui Laplace este definită de relaţia:
z t2
1
( z ) e 2 dt
0 2
1
Funcţia de repartiţie devine: F ( z ) ( z )
2
5. Probabilităţi şi distribuţii teoretice
Pe baza funcţiei lui Laplace, se poate determina, de exemplu,
probabilitatea ca variabila aleatoare normală standard să ia
valori într-un interval simetric de tipul (-a; a). Această
probabilitate este:
a
P( a Z a ) F ( a ) F ( a ) ( a ) ( a ) 2( a ) f ( t )dt
a
5. Probabilităţi şi distribuţii teoretice
c) Distribuţia chi-pătrat
O variabilă aleatoare repartizată după o lege chi-pătrat este
simbolizată 2
( n , ) .
5. Probabilităţi şi distribuţii teoretice
Dacă considerăm n variabile aleatoare identic repartizate
după o lege normală standard, Xi ~ N(0,1), i 1,n , atunci
variabila n
X Xi ~ (n )
2 2
i 1
5. Probabilităţi şi distribuţii teoretice
d). Distribuţia Student
O variabilă aleatoare repartizată după o lege Student,
simbolizată t(n).
Dacă se consideră două variabile aleatoare X~N(0,1) şi Y~ 2 ( n )
atunci variabila aleatoare Student se obţine prin relaţia:
X
t ~ t( n )
Y unde n reprezintă numărul de grade de
n libertate, parametrul acestei distribuţii.
5. Probabilităţi şi distribuţii teoretice
e). Distribuţia Snedecor-Fisher
O variabilă aleatoare repartizată după o lege Snedecor-Fisher,
simbolizată ( n1 ,n2 ) .
Dacă se consideră două variabile aleatoare: X~ ( n1 , )
2
K=Nn
5. Estimarea parametrilor unei populaţii
5.2 Parametru – Estimator – Estimaţie
Parametrul reprezintă o valoare fixă şi necunoscută, numită
şi valoare reală sau adevărată, a unei populaţii studiate după o
anumită variabilă. ( )
Exemplu: , 2 , , .
Estimatorul este o statistică, adică o variabilă aleatoare care
este determinată de totalitatea eşantioanelor posibile de
volum n care se pot extrage din populaţia de referinţă.
5. Estimarea parametrilor unei populaţii
Estimatorul este definit ca o funcţie a variabilelor de selecţie. Se
notează cu ̂
Exemplu: ˆ x1 , x2 , x3 ,..., xk
1. Nedeplasarea
M (ˆ)
5. Estimarea parametrilor unei populaţii
2. Convergenţa:
V (ˆ) 0, când n N
- convergenţa în probabilitate impune o condiţie de volum al
eşantionului: dacă acesta este suficient de mare, atunci orice
valoare posibilă a estimatorului (orice estimaţie) converge
către parametru.
Această proprietate este o expresie a legii numerelor mari.
- convergenţa în repartiţie (teorema limită centrală) impune o
condiţie de volum pentru estimatorul transformat prin
5. Estimarea parametrilor unei populaţii
operaţia de standardizare:
~ ˆ M ( ˆ )
ˆ
V ( ˆ )
Dacă volumul eşantionului creşte peste o anumită limită,
atunci variabila aleatoare obţinută prin standardizarea
estimatorului urmează o lege de repartiţie normală standard:
~
ˆ Z ~ N ( 0 ,1 )
3. Eficienţa: V ( ˆ ) min .
5. Estimarea parametrilor unei populaţii
5.3. Statistici uzuale în inferenţa statistică
a) Media de selecţie
Estimatorul numit medie de selecţie este obţinut ca o medie
aritmetică a variabilelor aleatoare de selecţie Xi.
O valoare posibilă a estimatorului este media de sondaj.
Variabila media de selecţie se caracterizează prin legea
normală - teorema limită centrală bazată pe legea numerelor
mari.
2
ˆ ~ N ( , )
n
5. Estimarea parametrilor unei populaţii
Caracteristici ale estimatorului ̂ :
- nedeplasat;
- convergent;
- eficient.
b) Dispersia de selecţie
- Este un estimator deplasat.
- Ca o corecţie la acest estimator, se construieşte dispersia de
selecţie modificată sau corectată. O valoare posibilă a acestui
estimator este dispersia de sondaj modificată:
5. Estimarea parametrilor unei populaţii
1
s' 2
n1
( xi x )2
c) Proporţia de selecţie
- are aceleaşi proprietăţi cu media de selecţie.
(1 )
ˆ ~ N ( , )
n
5. Estimarea parametrilor unei populaţii
5.4 Estimarea punctuală a parametrilor unei populaţii
a) Definire
- presupune calculul unei estimaţii la nivelul unui eşantion, ca
o valoare a unui estimator convenabil ales, care respectă
proprietăţile de nedeplasare şi convergenţă.
b) Estimarea punctuală a mediei unei populaţii
-presupune calculul unei estimaţii la nivelul unui eşantion
x
x i
n
5. Estimarea parametrilor unei populaţii
s 2
i
n 1
nA
p
n
5. Estimarea parametrilor unei populaţii
5.4 Estimarea prin interval de încredere (IC) a parametrilor
unei populaţii
a) Definire
- a estima prin IC un parametru presupune a identifica două
variabile aleatoare, Li şi Ls , care, pentru o anumită
probabilitate ( 1 ) , numită nivel de încredere,
respectă condiţia:
P( Li Ls ) ( 1 )
-
, cu ( 0 ,1 )
5. Estimarea parametrilor unei populaţii
- estimarea prin IC se bazează pe estimatori nedeplasaţi şi
convergenţi, cărora li se aplică Teorema limită centrală.
2
ˆ ~ N ( , ) Z ~ N (0,1)
n
5. Estimarea parametrilor unei populaţii
ˆ
z
/ n
ˆ
P( z / 2 z / 2 ) ( 1 )
/ n
P( ˆ z / 2 z / 2
ˆ ) (1 )
n n
5. Estimarea parametrilor unei populaţii
la nivelul unui eşantion extras:
x z / 2 , x z / 2
n n
ˆ
t ~ t( n 1 )
ˆ '
n
5. Estimarea parametrilor unei populaţii
P( t / 2 t t / 2 ) ( 1 )
- valoarea t / 2 se citeşte din tabelul Student pentru:
P( t t / 2 ) / 2
s' s'
x t / 2 ; n 1 , x t / 2 ; n 1
n n
5. Estimarea parametrilor unei populaţii
Observaţie:
Precizia estimării creşte (mărimea intervalului de încredere
este mai mică), atunci când:
IC este :
s' 2
x t 0.025;19 20 2 ,093 19 ,064; 20 ,936
n 20
p (1 p) 0, 56 (1 0 , 56)
p t / 2 ; n 1 0 , 56 1, 96 0 , 53; 0 , 59
n 1500
5. Estimarea parametrilor unei populaţii
5.5. Estimarea prin IC în SPSS
Descriptives
1
6. Testarea statistică
6.1. Aspecte generale ale testării statistice
6.1.1. Obiectivele testării statistice
6.1.2. Demersul testării statistice
6.1.3. Teste parametrice versus teste neparametrice
6.2. Testarea ipotezelor asupra unui eşantion
6.2.1 Testarea ipotezelor asupra mediei: testul t, testul Z
6.2.2 Testarea ipotezelor asupra proporţiei: testul binomial
2
6.1. Aspecte generale ale testării statistice
6.1.1. Obiectivele testării statistice
- verificarea ipotezelor asupra unui parametru al unei populaţii;
- verificarea ipotezelor privind legea de distribuţie a unei
populaţii;
- verificarea ipotezelor privind două sau mai multe populaţii;
- verificarea existenţei legăturii dintre două variabile.
3
6.1. Aspecte generale ale testării statistice
6.1.2. Demersul testării statistice
4
6.1. Aspecte generale ale testării statistice
Test bilateral:
H 0 : 0 - parametru
H1 : 0 0 valoare fixă
Test unilateral la dreapta:
H 0 : 0
H1 : 0
5
6.1. Aspecte generale ale testării statistice
b) Alegerea testului statistic
- există două categorii de teste statistice: teste parametrice şi
teste neparametrice.
7
6.1. Aspecte generale ale testării statistice
Regiunea de respingere – intervalul dintr-o distribuţie de
probabilitate în care se respinge ipoteza nulă, acest interval
este acoperit de probabilitatea
Regiunea de acceptare (interval de încredere) – intervalul în
care nu se respinge ipoteza nulă şi este acoperit de
probabilitatea 1-
f) Decizia statistică
8
Erori de testare
Decizia testului se ia cu o anumită eroare, care poate fi:
eroare de tip I (eroare de primă speţă, notată )
eroare de tip II (eroare de a doua speţă, notată )
Realitate
H0 adevărată H0 falsă
10
6.1.3 Teste parametrice şi teste neparametrice
Teste parametrice:
presupun o serie de ipoteze restrictive (de ex. ipoteza de
normalitate a distribuţiei populaţiei din care a fost extras
eşantionul analizat), care nu sunt întotdeauna reale/adevărate;
variabila analizată este măsurată pe o scală interval sau
raport;
mărimea eşantionului trebuie să fie suficient de mare (ex.
n>30).
11
6.1.3 Teste parametrice şi teste neparametrice
Teste neparametrice:
puţine ipoteze restrictive privind legea de distribuţie a
populaţiei din care a fost extras eşantionul analizat
(“distribution free methods”);
adecvate pentru date calitative;
mărimea eşantionului poate fi mică, până la n=6;
datele sunt transformate în ranguri sau în semne (pozitive,
negative), ceea ce duce la pierderea de informaţii.
12
6.2. Testarea ipotezelor asupra unui eşantion
6.2.1. Testarea ipotezelor asupra mediei unei populaţii
a) Formularea ipotezelor H 0 : 0
H1 : 0
b) Alegerea testului statistic
2
1. Dacă se cunoaşte se foloseşte statistica Z, Z ~ N ( 0, 1 )
ˆ 0
Z calc
/ n
2. Dacă nu se cunoaşte 2 , se foloseşte statistica t, t ~ t( n 1 )
ˆ 0
tcalc
ˆ '/ n
13
6.2.1. Testarea ipotezelor asupra mediei unei
populaţii
c. Alegerea pragului de semnificaţie şi citirea din tabel a
valorii critice a statisticii test
x 0 x 0
z calculat t calculat
/ n s' / n
14
6.2.1. Testarea ipotezelor asupra mediei unei
populaţii
e. Regula de decizie
z calculat z / 2 sau Sig se respinge ipoteza nulă,
pentru un risc și se acceptă ipoteza alternativă
15
6.2.1. Testarea ipotezelor asupra mediei unei
populaţii
e. Regula de decizie
tcalculat t / 2; n 1 sau Sig
se respinge ipoteza nulă,
pentru un risc și se acceptă ipoteza alternativă.
16
Exemplu
În urma prelucrării datelor privind veniturile familiilor dintr-
o regiune înregistrate la nivelul unui eşantion de volum
n=625, s-au obţinut următoarele rezultate:
x 12 mii lei , s‘2= 4. Să se testeze dacă există diferenţe
semnificative între veniturile medii ale familiilor la nivelul
populaţiei din care a fost extras eşantionul şi venitul mediu
0 13 mii lei
pe ţară, , considerând un risc de 5%.
17
Exemplu
x 12 mii lei 0 , 05
0 13 mii lei
n=625, s‘2= 4
1. Formularea ipotezelor:
H 0 : 0 H 0 : 13 mii lei
sau
H1 : 0 H1 : 13 mii lei
2. Alegerea pragului de semnificație
0 , 05
18
Exemplu
3.Alegerea și calcularea statisticii test
x 0
tcalc
s / n
12 13 1 25
tcalc 12 , 5
2 / 625 2 / 25 2
4. Regula de decizie
19
Exemplu
5. Decizia statistică
20
6.2.2 Testarea ipotezelor asupra proporţiei
Demersul testării:
a) Formularea ipotezelor statistice
H0 : 0
H1 : 0
De ex.H : 0.5
0
H 1 : 0.5
c) Testul statistic
p 0
tcalculat
p (1 p ) / n
d) Regula de decizie
tcalculat t / 2; n 1 sau Sig se respinge ipoteza nulă,
pentru un risc și se acceptă ipoteza alternativă.
1
7. Testarea statistică
7.1. Aspecte generale ale testării statistice
7.1.1. Obiectivele testării statistice
7.1.2. Demersul testării statistice
7.1.3. Teste parametrice şi teste neparametrice
7.2. Testarea ipotezelor asupra unui eşantion
7.2.1 Testarea ipotezelor asupra mediei: testul t, testul Z
7.2.3 Testarea ipotezelor asupra proporţiei
2
7.2.2 Testarea ipotezelor asupra proporţiei
Demersul testării:
a) Formularea ipotezelor statistice
H0 : 0
- parametrul proporție
H1 : 0 0 - valoarea considerată în testare
H 0 : 0.5
sau
H 1 : 0.5
c) Testul statistic
p 0
tcalculat
p (1 p ) / n
d) Regula de decizie
Dacă se respinge ipoteza nulă, pentru un risc
α și se acceptă t / 2 ; n alternativă.
tcalculatipoteza 1
5
7.2.3 Testarea ipotezelor asupra proporţiei
1. Formularea ipotezelor
H 0 : π π0 H 0 : π 0 , 02
H1 : π π 0 sau H1 : π 0 ,02
2. Alegerea pragului de semnificație
α 0 ,05
3. Alegerea și calcularea statisticii test
nA 21
p 0 , 042
n 500
p 0 0,042 0,02 0,022 0,022
tcalc tcalc 2, 389
p 1 p / n 0,042 1 0,042 0, 20589 0,009207
500 22, 36068 6
7.2.3 Testarea ipotezelor asupra proporţiei
Atenție: În aceste calcule, numărul de zecimale luat în
considerare, poate determina obținerea unor rezultate diferite.
Luați în considerare cât mai multe zecimale posibile (dat totuși,
nu mai mult de 6).
4. Regula de decizie
Dacă tcalc t / 2;n 1 nu se respinge ipoteza H0.
Dacă tcalc t / 2;n 1 cu un risc asumat α se respinge ipoteza
nulă și se acceptă ipoteza alternativă.
7
7.2.3 Testarea ipotezelor asupra proporţiei
5. Decizia statistică
0,025;499 1,96
Deoarece t 2,389 t
calc
8
7.3. Testarea diferenţei dintre două medii
În cazul eşantioanelor independente, statistica test folosită în
testarea ipotezelor statistice este statistica Z sau t.
Ipoteze statistice
H 0 : 1 2 0
H 1 : 1 2 0
x1 x 2
t calculat
1 1
s' p
n1 n 2
10
7.3. Testarea diferenţei dintre două medii
unde:
s' 12 ( n1 1 ) s' 22 ( n 2 1 )
s' p
n1 n 2 2
Regula de decizie:
Exemplu
Pentru două eșantioane extrase aleator simplu de volum
n1=n2=625 persoane s-a înregistrat vârsta și s-au obținut
următoarele rezultate:
;x1 35 ani , x2 32 ani
s' 1 2 ani , s' 2 4 ani
Să se testeze ipoteza potrivit căreia între vârstele medii ale
celor două populații din care au fost extrase eșantioanele
observate există diferențe semnificative. Varianțele
populațiilor diferă între ele. Se consideră un risc de 0,05.
12
7.3. Testarea diferenţei dintre două medii
1. Formularea ipotezelor
H 0 : 1 2 0 H 0 : 1 2
H1 : 1 2 0 sau H1 : 1 2
Dacă
tcalc t / 2; n1 n2 2 nu se respinge ipoteza H .
0
14
7.3. Testarea diferenţei dintre două medii
5. Decizia statistică
15
Exemplu
16
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
a) Obiectiv
- procedeu de analiză a variaţiei în funcţie de sursa acesteia;
- ANOVA unifactorială / Anova bi- şi multifactorială;
- permite compararea mediilor a 3 sau mai multe grupe sau
populaţii cu scopul de a verifica dacă există diferenţe
semnificative între acestea.
b) Condiţii de aplicare
- Condiţia de independenţă
- Condiţia de normalitate
- Condiţia de homoscedasticitate 17
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
Se bazează pe descompunerea variaţiei totale pe componente:
- variaţia explicată sau intergrupe (variaţia sub influenţa
factorilor esenţiali);
- variaţia reziduală sau intragrupe (variaţia sub influenţa
factorilor întâmplători).
VT VE VR
- La nivelul unui eşantion: TSS=ESS+RSS.
18
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
VT , respectiv TSS reprezintă variaţia totală, TSS n ( x x ) 2
i
i
n
VE , respectiv ESS - variaţia variabilei explicată ESS (x j x )2
i 1
VR , respectiv RSS – variaţia reziduală nj k
RSS ( xij x j ) 2
i 1 j 1
c). Ipoteze statistice:
H 0 : 1 2 k
20
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
e. Se alege pragul de semnificaţie şi se citeşte valoarea
critică a testul F din tabelul repartiţiei Fisher, pentru riscul
admis, şi v1 k 1, v2 n k grade de libertate,
F .
, v1 ,v2
21
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
f. Valoarea statisticii F se calculează astfel:
ESS / k 1 ESS n k
Fcalculat
RSS / n k RSS k 1
22
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
g. Regula de decizie:
Fcalculat F ,v1 ,v2 sau Sig se respinge ipoteza nulă H 0
pentru riscul admis
23
7.4 Testarea egalităţii a trei sau mai multe
medii (ANOVA)
ANOVA
venit
Sum of
Squares df Mean Square F Sig.
Between Groups 149.400 2 ESS 74.700 ESS 19.597 .000
k 1 k 1
Within Groups 64.800 17 RSS 3.812 RSS
nk nk
Total 214.200 19
24
BAZELE STATISTICII
Programa analitică
1. Noţiuni introductive
2. Analiza unei serii statistice univariate, folosind metode
grafice şi numerice (variabile cantitative: indicatori ai
tendinţei centrale, indicatori ai dispersiei, indicatori ai
formei şi ai concentrării; variabile calitative).
3. Analiza unei serii statistice bivariate.
Programa analitică
4. Probabilități și distribuții teoretice
5. Estimarea parametrilor unei populații
6. Testarea statistică
7. Indicatori ai seriilor de timp
7. Indicatori ai seriilor de timp
7.1. Definire serie de timp
- O serie de timp este o serie care prezintă valorile înregistrate
ale unui fenomen Y în diferite momente de timp, t=1,n.
- Prezentarea seriei:
Momentul yt
de timp (t)
t1 y1
t2 y2
: :
7. Indicatori ai seriilor de timp
7.2. Reprezentare grafică
- cronograma liniară.
7. Indicatori ai seriilor de timp
7.3. Tipuri de indicatori ai seriilor de timp
Indicatorii care măsoară dinamica unui fenomen pot fi
calculaţi:
- în mărime absolută şi se numesc indicatori absoluţi;
- în mărime relativă şi se numesc rate/indici;
- ca mărimi medii şi se numesc indicatori medii.
7. Indicatori ai seriilor de timp
7.4 Indicatori absoluţi
- nivelul absolut;
- volumul absolut;
- sporul absolut;
-rata sporului.
yt
-cu baza în lanţ: it / t 1 ( x100 )
y t 1
7. Indicatori ai seriilor de timp
b) Rata sporului (rata de creştere)
- exprimă cu cât s-a modificat, în mărime relativă, nivelul
fenomenului Y în momentul curent, t, faţă de momentul de
referinţă.
7. Indicatori ai seriilor de timp
Poate fi calculat:
- cu baza fixă:
t / 0
rt / 0 ( x100 ) it / 0 1 ( x100 )
y0
- cu baza în lanţ:
t / t 1
rt / t 1 ( x100 ) it / t 1 1 ( x100 )
y t 1
7. Indicatori ai seriilor de timp
7.6. Indicatori medii sunt:
a) Nivelul mediu y
y t
b) Sporul mediu n/ 0
n 1
- arată modificarea medie absolută pe unitatea de timp înregistrată
de un fenomen într-o perioadă.
7. Indicatori ai seriilor de timp
c) Rata medie de variaţie
yn
i n 1
y0