Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
CARMEN PINTILESCU
STATISTICĂ
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
CUPRINS
INTRODUCERE ................................................................................................................ 3
1. Statistică descriptivă şi statistică inferenţială ......................................................... 3
2. Variabile statistice ................................................................................................... 3
PARTEA ÎNTÂI ................................................................................................................. 7
CAPITOLUL 1. DISTRIBUŢII STATISTICE .............................................................. 7
1.1. Distribuţii statistice pentru variabile numerice discrete....................................... 7
1.2. Distribuţii statistice pentru variabile numerice continue ..................................... 8
1.3. Distribuţii statistice pentru variabile categoriale ............................................... 10
CAPITOLUL 2. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O
VARIABILĂ NUMERICĂ DISCRETĂ ...................................................................... 13
2.1. Frecvenţe absolute cumulate crescător (Ni↓ ) sau descrescător (Ni↑ ) ............... 13
2.2. Frecvenţe relative cumulate crescător (Fi↓) sau descrescător (Fi↑) ................... 13
2.3. Caracterizarea seriei statistice folosind metode grafice ..................................... 18
2.4. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 21
CAPITOLUL 3. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O
VARIABILĂ NUMERICĂ CONTINUĂ .................................................................... 57
3.1. Frecvenţe absolute şi relative cumulate crescător sau descrescător................... 57
3.2. Caracterizarea seriei folosind metode grafice .................................................... 59
3.3. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 61
CAPITOLUL 4. CARACTERIZAREA UNEI SERII STATISTICE DUPĂ O
VARIABILĂ CATEGORIALĂ ................................................................................... 75
4.1. Caracterizarea seriei folosind metode grafice .................................................... 75
4.2. Caracterizarea seriei folosind indicatori ai statisticii descriptive ...................... 76
PARTEA A DOUA........................................................................................................... 81
Capitolul 5. Noţiuni şi notaţii folosite în inferenţa statistică ........................................ 81
5.1. Populaţie şi eşantion .......................................................................................... 81
5.2. Parametri şi estimaţii.......................................................................................... 81
5.3. Distribuţia de selecţie a mediei .......................................................................... 82
Capitolul 6. Estimarea parametrilor unei populaţii ....................................................... 87
6.1. Estimarea mediei unei populaţii ( µ ) ................................................................. 87
6.2. Estimarea proporţiei unei populaţii (p) .............................................................. 89
CAPITOLUL 7. TESTAREA IPOTEZELOR STATISTICE ...................................... 93
7.1. Testarea ipotezelor cu privire la un parametru .................................................. 93
7.2 Testarea ipotezelor cu privire la doi parametri ................................................. 104
7.3. Estimare versus testare ..................................................................................... 112
ANEXE ........................................................................................................................... 113
BIBLIOGRAFIE ............................................................................................................. 117
2
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
INTRODUCERE
2. Variabile statistice
3
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Variabilele ordinale sunt acele variabile în care există o relaţie de ordine între
unităţile din categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale
variabilei X are, în acest caz, un sens.
Exemple: pentru variabila X: Preferinţa pentru un produs, cu variantele Foarte
bun, Bun, Nici bun-nici rău, Foarte rău, Rău, ordinea acordării codurilor are un sens.
Valorile variabilei X sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 - Foarte rău, 5-
Rău.
4
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
- variabile continue sunt acele variabile care pot lua o infinitate de valori din
domeniul de valori al variabilei.
Exemple: variabilele Înălţimea, Greutatea, Viteza etc.
Scala nominală este o scală care presupune atribuirea de coduri variantelor unei
variabile categoriale nominale. Aceste coduri nu au decât rolul de a realiza o separare a
unităţilor statistice pe clase sau grupe. Ordinea acordării acestor coduri nu are un sens. Pe
această scală de măsurare, nu este posibilă realizarea operaţiilor de adunare, scădere etc.
Exemplu
- pentru variabila Sexul persoanei, codurile care se atribuie valorilor acestei
variabile sunt, de exemplu, 1 - pentru unităţile statistice de sex masculin, 2-
pentru unităţile statistice de sex feminin. Ordinea acordării acestor coduri nu
are un sens, ceea ce înseamnă că se poate atribui codul 1 - pentru unităţile
statistice de sex feminin şi codul 2- pentru unităţile statistice de sex masculin.
Pentru această variabilă statistică, singurele operaţii care pot fi realizate
privesc doar frecvenţele sau numărul de unităţi statistice. De exemplu, poate fi
identificată categoria care are frecvenţa cea mai mare, însă nu poate fi
calculată media aritmetică, deoarece valorile codurilor sunt arbitrare.
Scala ordinală este o scală care presupune atribuirea de coduri variantelor unei
variabile categoriale ordinale. Scala ordinală introduce relaţia de ordine între valorile
acestor coduri. Pe această scală de măsurare, este posibilă realizarea operaţiilor specifice
variabilelor nominale, dar şi a operaţiilor care au la bază relaţia de ordine.
Exemplu
- pentru variabila Nivelul de educaţie cu variantele Studii primare, Studii
gimnaziale, Studii liceale, Studii superioare, codurile care se atribuie valorilor
acestei variabile sunt, de exemplu, 1 - Studii primare, 2 - Studii gimnaziale, 3
- Studii liceale, 4 - Studii superioare. Ordinea acordării acestor coduri are, în
acest caz, un sens. Pentru această variabilă statistică, poate fi identificată
categoria care are frecvenţa cea mai mare, dar şi numărul de unităţi care au
studii primare, gimnaziale şi liceale.
5
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Dacă se consideră temperatura exprimată în grade Celsius, diferenţa dintre
valorile 200 şi 100 are aceeaşi semnificaţie ca diferenţa dintre valorile 300 şi 200.
Temperatura de 200 de grade, de exemplu, nu arată însă faptul că aceasta este o
temperatură de două ori mai mare decât temperatura de 100. De aceea, raportul dintre
două valori în cazul scalei interval nu are sens.
Scala raport este folosită pentru variabilele numerice şi are ca proprietate faptul
că posedă un zero absolut. Valoarea zero arată, în acest caz, absenţa unui fenomen. În
cazul acestei scale sunt posibile toate operaţiile aritmetice.
Exemplu
Dacă se consideră greutatea unor persoane, diferenţa şi raportul dintre două valori
au un sens. O greutate de 50 kg este de două ori mai mare decât greutatea de 25 de kg.
Valoarea zero arată faptul absenţa greutăţii pentru unitatea respectivă.
6
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
PARTEA ÎNTÂI
STATISTICĂ DESCRIPTIVĂ
Exemplu
Pentru un ansamblu format din 20 de studenţi se înregistrează nota obţinută la un
examen în sesiunea iunie 2009 şi se obţin următoarele rezultate: 9, 6, 5, 5, 6, 7, 6, 7, 9,
10, 7, 8, 4, 5, 8, 8, 7, 7, 6, 8. Se cere să se formeze distribuţia de frecvenţă.
7
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Variabila statistică X este reprezentată de Nota obţinută la examen, iar variantele
variabilei X sunt valorile xi: (4, 5, 6, 7, 8, 9, 10).
Pentru formarea distribuţiei de frecvenţă, se ordonează valorile variabilei X: Nota
obţinută la examen în sens crescător şi se determină frecvenţa de apariţie, ni, a fiecărei
variante xi. Rezultatele sunt prezentate în tabelul de mai jos:
8
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Observaţie
În cazul variabilelor discrete care prezintă un număr mare de valori, pentru o
prezentare sintetică a distribuţiei unităţilor statistice, se realizează, de regulă, gruparea
acestora pe intervale de variaţie.
Exemplu
Pentru un ansamblu format din 30 de firme se înregistrează valoarea vânzărilor
(mil. Lei) obţinute în luna decembrie 2008 şi se obţin următoarele rezultate: 11, 9, 15, 16,
18, 20, 22, 12, 9, 6, 5, 5, 6, 7, 6, 7, 9, 10, 7, 8, 7, 5, 8, 8, 21, 22, 7, 7, 6, 8. Se cere să se
formeze distribuţia de frecvenţă pe intervale de variaţie egale, considerând 5 intervale de
grupare.
Rezolvare
Variabila statistică X este reprezentată de Valoarea vânzărilor.
Pentru formarea distribuţiei de frecvenţă pe intervale de variaţie egale, se parcurg
următoarele etape:
• se calculează mărimea intervalelor de grupare, după relaţia:
A x − xmin 22 − 5
l = = max = = 3 ,4 . Mărimea intervalelor de variaţie este
k k 5
l = 3 ,4 ≈ 4.
• se formează intervalele de grupare. Primul interval de variaţie este intervalul (5-
9), al doilea interval este (9-13) etc.
9
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Observaţie
Pentru gruparea datelor pe intervale de variaţie, există mai multe variante
posibile. Dacă limita superioară a unui interval coincide cu limita inferioară a altui
interval, se precizează printr-o notă unde a fost inclusă acea valoare. În exemplul de mai
sus, firmele cu vânzări de 9, 13, 17, 21 mil. Lei au fost incluse în intervalele în care
aceste valori sunt limite superioare.
Exemplu
Pentru un ansamblu format din 10 persoane se înregistrează mediul de rezidenţă
(urban, rural) şi se obţin următoarele rezultate: urban, urban, urban, urban, rural, rural,
urban, urban, rural, urban. Se cere să se formeze distribuţia de frecvenţă.
Rezolvare
Variabila statistică X este reprezentată de Mediul de rezidenţă, variabilă
categorială nominală, iar variantele variabilei X sunt xi: (urban, rural).
Rezultatele sunt prezentate în tabelul de mai jos:
10
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
11
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
12
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
13
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
ni n
• fi = = i , atunci când frecvenţele sunt exprimate sub formă de coeficient.
∑ ni n
i
În acest caz, ∑ fi = 1.
i
ni n
• fi = ⋅ 100 = i ⋅ 100 , atunci când frecvenţele sunt exprimate sub formă de
∑ ni n
i
procente (%). În acest caz, ∑ fi = 100%.
i
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Rezolvare
Frecvenţe absolute cumulate crescător( Ni↓)
Frecvenţele absolute cumulate crescător se calculează după relaţia:
i
N i ↓= N i −1 ↓ + ni = ∑ nh .
h =1
Pentru exemplul dat, avem:
N 1 ↓= n1 = 10 ;
N 2 ↓= N 1 ↓ + n 2 = 10 + 25 = 35;
N 3 ↓= N 2 ↓ + n3 = 35 + 40 = 75 etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
14
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Numărul studenţilor care au obţinut nota 4 la examen este de 10 studenţi.
Numărul studenţilor care au obţinut cel mult nota 5 este de 35 persoane. Numărul
studenţilor care au obţinut cel mult nota 6 este de 75 persoane. În mod similar, se
interpretează celelalte rezultate.
Observaţie
În calculul frecvenţelor absolute cumulate crescător, ultima valoare Ni↓ este
întotdeauna egală cu volumul total al eşantionului observat. În exemplul dat, avem
N7↓=n=210.
15
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Numărul studenţilor care au obţinut nota 10 la examen este de 5 studenţi.
Numărul studenţilor care au obţinut peste nota 9 este de 25 persoane. Numărul studenţilor
care au obţinut peste nota 8 este de 80 persoane. În mod similar, se interpretează celelalte
rezultate.
Interpretare
Ponderea studenţilor care au obţinut nota 4 la examen este de 4,76% din numărul
total de studenţi. Ponderea studenţilor care au obţinut nota 5 este de 11,91%, iar ponderea
studenţilor care au obţinut nota 6 este de 19,05%. În mod similar, se interpretează
celelalte rezultate.
16
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Ponderea studenţilor care au obţinut nota 4 la examen este de 4,76% din numărul
total de studenţi. Ponderea studenţilor care au obţinut cel mult nota 5 este de 16,67%.
Ponderea studenţilor care au obţinut cel mult nota 6 este de 35,72%. În mod similar, se
interpretează celelalte rezultate.
17
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Ponderea studenţilor care au obţinut nota 10 la examen este de 2,38%. Ponderea
studenţilor care au obţinut peste nota 9 este de 9,52%. Ponderea studenţilor care au
obţinut peste nota 8 este de 38,09%. În mod similar, se interpretează celelalte rezultate.
Poligonul frecvenţelor
Construirea poligonului frecvenţelor presupune găsirea locului geometric al
punctelor Ai de coordonate (xi , ni) sau (xi , fi) şi unirea acestora prin segmente de dreaptă.
Poligonul frecvenţelor aproximează forma unei distribuţii.
Alura poligonului frecvenţelor este reprezentată în figura de mai jos:
Curba frecvenţelor
Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă
a poligonului frecvenţelor. Curba frecvenţelor aproximează mai bine forma de distribuţie
a colectivităţii după variabila considerată.
Alura curbei frecvenţelor este reprezentată în figura de mai jos:
18
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
19
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
20
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
a. Media aritmetică ( x )
Media aritmetică pentru o serie statistică după o variabilă discretă se calculează
după relaţiile:
∑ xi
x= i , pentru o serie simplă de valori;
n
∑ x i ⋅ ni
x= i , pentru o serie cu frecvenţe ni.
∑ ni
i
21
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
2. Pentru o serie cu frecvenţe, media aritmetică este plasată între valorile extreme,
oscilând în jurul valorii cu frecvenţa dominantă.
Media este considerată în statistică un punct de echilibru, similar centrului de
greutate în fizică. Dacă o serie nu prezintă o asimetrie pronunţată, atunci media va fi în
apropierea valorii cu frecvenţa cea mai mare.
3. Media este o mărime normală, adică suma abaterilor valorilor individuale ale unei
variabile X de la media lor este egală cu zero:
∑ ( xi − x ) = 0 , pentru o serie simplă de valori;
i
Exemple
1. Vânzările unei firme (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7.
Se cere să se calculeze media aritmetică.
Rezolvare
Media aritmetică pentru o serie simplă de valori se calculează după relaţia:
∑ xi
x= i .
n
Pentru exemplul dat, obţinem:
∑ xi 10 + 9 + 8 + 7 + 7
x= i = = 8 ,2 mil. Lei.
n 5
Interpretare
Nivelul mediu al vânzărilor zilnice ale firmei este de 8,2 mil. Lei.
22
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Media aritmetică pentru o serie statistică cu frecvenţe se calculează după relaţia
∑ x i ⋅ ni
x= i .
∑ ni
i
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
b. Modul (Mo)
Modul este valoarea variabilei cea mai frecvent observată într-o distribuţie, adică
valoarea xi care corespunde frecvenţei maxime (nimax).
Aflarea modului presupune identificarea valorii xi corespunzătoare frecvenţei
maxime (nimax).
Exemple
1. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7,
7. Se cere să se afle modul.
Rezolvare
Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei
maxime (nimax). Frecvenţa maximă este nimax=2, iar valoarea xi corespunzătoare este xi=7.
Pentru seria dată, modul este: Mo=7 mil. Lei.
23
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Valoarea vânzărilor cea mai frecvent înregistrată de firma A este de 7 mil. Lei pe
zi.
2. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 8, 8 7,
7. Se cere să se afle valoarea modului.
Rezolvare
Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei
maxime (nimax). Frecvenţa maximă este nimax=2, iar valorile xi corespunzătoare sunt xi=7
şi xi=8. Seria dată este o serie bimodală, valorile modului fiind de 7 mil. Lei şi de 8 mil.
Lei.
Interpretare
Valorile vânzărilor cele mai frecvente sunt de 7 mil. Lei şi de 8 mil. Lei pe zi .
Rezolvare
Pentru aflarea modului, se află frecvenţa maximă: nimax=60. Valoarea xi care
corespunde acestei frecvenţe maxime este xi=8. Pentru seria dată, modul este: Mo=8.
Interpretare
Cei mai mulţi studenţi au luat la examenul din sesiunea iunie 2009 nota 8.
c. Mediana (Me)
Mediana reprezintă acea valoare a variabilei care împarte seria ordonată crescător
în două părţi egale: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au
valori mai mari decât mediana.
Aflarea medianei se realizează diferit în funcţie de tipul seriei:
24
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen, în sesiunea
iunie 2009, se prezintă astfel:
25
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Etape pentru aflarea medianei:
210
∑ ni
Me i
• se calculează unitatea mediană: U = = 105 ;=
2 2
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
Interpretare
Jumătate din numărul total al studenţilor au luat la examenul din sesiunea iunie
2009 o notă de până la 7, iar jumătate au luat peste 7.
Observaţie
Locul medianei într-o distribuţie depinde de forma acesteia. Doar în cazul unei
distribuţii simetrice mediana este termenul central al seriei.
Exemplu
Se consideră distribuţiile a două serii, prezentate în tabelele de mai jos:
26
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Seria I
xi ni
1 20
2 40
3 20
4 15
5 5
TOTAL 100
Seria II
xi ni
1 10
2 20
3 40
4 20
5 10
TOTAL 100
Rezolvare
Pentru seria I, aflarea medianei presupune parcurgerea următoarelor etape:
∑ ni 100
Me
• se calculează unitatea mediană: U = i = = 50 ;
2 2
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
27
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Se observă că poziţia medianei pentru cele două distribuţii diferă, deşi volumul
colectivităţii este acelaşi, n=100. Seria I este o serie asimetrică, spre deosebire de seria II
care este o distribuţie simetrică. În acest ultim caz, mediana este reprezentată de termenul
central al seriei.
28
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
29
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Aceste valori arată că salariul mediu obţinut de salariaţii firmei este de 1500
lei/lună, însă cei mai mulţi salariaţi câştigă 700 lei/lună, iar jumătate din numărul total al
salariaţilor câştigă până la 800 lei/lună, iar jumătate câştigă peste 800 lei/lună. Distribuţia
salariaţilor firmei observate este o distribuţie puternic asimetrică la dreapta.
Aceste rezultate pot fi explicate prin diferenţe mari înregistrate între valorile
salariului obţinut de salariaţii din firma considerată. Media aritmetică este o mărime
influenţată de valorile extreme, aberante. De aceea, este deosebit de utilă şi interpretarea
celorlalte mărimi medii fundamentale.
1. Quartilele
Quartilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 4
părţi egale.
Poziţia celor trei quartile într-o distribuţie simetrică este prezentată în figura de
mai jos:
30
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen, în sesiunea
iunie 2009, se prezintă astfel:
Rezolvare
Quartila unu
210
∑ ni
Q1 i
• se calculează unitatea quartilică unu: U = =
= 52 ,5 ;
4 4
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
31
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
25% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 6, iar 75% au luat peste 6.
Quartila trei
3 ⋅ ∑ ni
Q3 3 ⋅ 210 i
• se calculează unitatea quartilică trei: U = = 157 ,5 ; =
4 4
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
• se află prima valoare Ni↓≥UQ3. Pentru exemplul dat, N i ↓= 190 ≥ U Q3 = 157 ,5.
• valoarea xi corespunzătoare primei frecvenţe Ni↓≥UQ3 este quartila trei. Pentru
exemplul dat, Q3=8.
Interpretare
75% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 8, iar 25% au luat peste 8.
32
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
2. Decilele
Decilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 10
părţi egale. Cele mai importante decile sunt decila unu şi decila nouă.
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Rezolvare
Decila unu
∑ ni 210
D1 i
• se calculează unitatea decilică unu: U = = = 21 ;
10 10
33
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
10% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 5, iar 90% au luat peste 5.
Decila nouă
9 ⋅ ∑ ni
D9 9 ⋅ 210i
• se calculează unitatea decilică nouă: U = = 189 ; =
10 10
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
34
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
90% din numărul total al studenţilor au luat la examenul din sesiunea iunie 2009 o
notă de până la 8, iar 10% au luat peste 8.
D1 Q1 Q2 Q3 D9
35
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
a valorilor individuale ale unei variabile faţă de nivelul mediu. Aprecierea fenomenului
de dispersie al unei distribuţii permite identificarea gradului de reprezentativitate a
mediei unei distribuţii.
b. Indicatorii dispersiei
Principalii indicatori ai dispersiei sunt:
1. Amplitudinea de variaţie
Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim
al unei variabile. Se calculează pe baza relaţiei:
A = x max − x min .
Acest indicator permite aprecierea întinderii domeniului de variaţie al variabilei
X. Dezavantajul acestui indicator constă în faptul că nu „pătrunde” în interiorul
distribuţiei, respectiv între cele două valori extreme ale variabilei.
2. Varianţa
Varianţa este media pătratelor abaterilor valorilor xi de la nivelul mediu şi poate fi
calculată pe baza relaţiei:
∑ ( xi − x ) 2
s2 = i , pentru o serie simplă;
n
∑ ( x i − x ) 2 ⋅ ni
s2 = i , pentru o serie cu frecvenţe.
∑ ni
i
Varianţa nu are unitate de măsură şi nu se interpretează.
4. Coeficientul de variaţie
Întrucât abaterea standard şi media se exprimă în aceeaşi unitate de măsură cu cea
a variabilei X, aceşti indicatori nu pot fi folosiţi pentru a compara două serii de date care
sunt exprimate în unităţi de măsură diferite. Pentru a înlătura acest inconvenient, se
calculează coeficientul de variaţie, după relaţia:
36
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
s
v= ⋅ 100 .
x
Prin evaluarea acestui coeficient se poate aprecia gradul de reprezentativitate a
mediei unei distribuţii. În general, o valoare a coeficientului de variaţie mai mică de 50%
arată că media este reprezentativă.
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Rezolvare
Cei mai importanţi indicatori ai dispersiei sunt: amplitudinea de variaţie, varianţa,
abaterea standard şi coeficientul de variaţie.
Amplitudinea de variaţie
Amplitudinea de variaţie se calculează pe baza relaţiei:
A = x max − x min = 10 − 4 = 6 .
Interpretare
Diferenţa dintre nivelul maxim şi nivelul minim al variabilei X este egală cu 6.
Varianţa
Varianţa se calculează pe baza relaţiei:
∑ ( x i − x ) 2 ⋅ ni
s2 = i . Pentru această distribuţie, media este x = 6 ,93 .
∑ ni
i
Elementele de calcul ale varianţei sunt prezentate în tabelul de mai jos:
37
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Abaterea standard
Abaterea standard se calculează pe baza relaţiei:
s = s 2 = 1,876 = 1,37 .
Interpretare
Notele obţinute de studenţii din seria dată variază, în medie, faţă de nota medie cu
1,37~1 punct, în sens pozitiv şi negativ.
Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
s 1,37
v = ⋅ 100 = ⋅ 100 = 19 ,77% .
x 6 ,93
Interpretare
Valoarea coeficientului de variaţie arată că distribuţia studenţilor după nota
obţinută la un examen în sesiunea iunie 2009 este o distribuţie omogenă, caracterizată
printr-o dispersie mică (v<50%). Media este reprezentativă pentru această distribuţie.
38
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
39
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori
mai mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală
şi sunt tabelate (Anexa 1).
Tabelul care prezintă aceste rezultate este de forma:
0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M
Pe prima coloană sunt valorile lui z, întregul şi prima zecimală, iar valorile din
următoarele coloane reprezintă a doua zecimală a valorii zi. Valorile din interiorul tabelul
40
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
arată proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z
corespunzător.
Exemple
1. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle
proporţia unităţilor care înregistrează valori cuprinse în intervalele ( x ± s ), ( x ± 2 ⋅ s ) şi
( x ± 3 ⋅ s ).
Rezolvare
Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul
( x − s ; x + s ) , se calculează scorul Z, astfel:
x −x x−s−x
z1 = 1 = = −1
s s
x −x x+s−x
z2 = 2 = = +1 .
s s
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=1, şi anume 0,341.
0 0.01 K 0.05 K
0
0.1
0.2
M
1 0,341
1.1 0,375
M
41
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi
zi=1. Proporţia unităţilor care înregistrează valori cuprinse în intervalul ( x − s ; x + s )
este: 2 ⋅ 0 ,341 = 0 ,682 sau 68,2%.
Din tabelul Z, se citeşte valoarea care corespunde unui nivel zi=2, de 0,477.
0 K 0.05 K
0
0.1
0.2
M
2 0,477
M
42
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
0 K 0.05 K
0
0.1
0.2
M
3 0,499
43
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Într-o distribuţie normală, în intervalul ( x ± s ) sunt cuprinse 68,2% din unităţi, în
intervalul ( x ± 2 ⋅ s ) sunt cuprinse 95,4% din unităţi şi în intervalul ( x ± 3 ⋅ s ) sunt
cuprinse 99,8% din unităţi.
2. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală
şi se caracterizează prin următoarele rezultate: x = 7 şi s=2. Se cere să se afle proporţia
studenţilor care au luat note mai mici decât 6.
Rezolvare
Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:
x −x 6−7
zi = i = = −0 ,5
s 2
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu
0,191.
0 0.01 K 0.05 K
0
0.1
0.2
M
0,5 0,191
M
Proporţia studenţilor care au luat note mai mici decât 6 este f=0,5-0,191=0,309
sau 30,9%.
44
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Observaţie
Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am
precizat anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o
distribuţie simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu
este de 0,5.
Rezolvare
Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:
x − x 27 − 30
z1 = 1 = = −0 ,75
s 4
x − x 35 − 30
z2 = 2 = = +1,25 .
s 4
Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:
0 K 0.05 K
0
0.1
0.2
M
0,7 0,273
M M
1,2 0,394
M M
45
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Această problemă poate fi prezentată grafic astfel:
Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat
anterior: se cunoaşte proporţia (95%) şi trebuie să aflăm valoarea zi care corespunde
acestei proporţii.
Pentru a afla valoarea zi, se calculează aria suprafeţei cuprinsă între nivelul mediu
95%
şi z, care este egală cu = 47 ,5% sau 0,475.
2
46
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Prin urmare, într-o distribuţie normală, 95% din unităţi au valori cuprinse în
intervalul [x − 1,96 ⋅ s ; x + 1,96 ⋅ s ] .
Observaţie
În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,
obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii,
în 95% din cazuri, de exemplu.
47
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
a. Asimetria
O distribuţie este simetrică dacă valorile frecvenţelor sunt egal dispersate faţă de
valoarea centrală a seriei. Distribuţia normală este exemplul clasic al unei repartiţii
simetrice. Graficul densităţii de repartiţie în cazul unei distribuţii normale are forma unui
clopot simetric, cu axa de simetrie reprezentată de media seriei. O deviere de la forma
simetrică a unei distribuţii evidenţiază fenomenul de asimetrie.
40
Frequency
30
20
10
0 Mean = 7,00
Std. Dev. =
4,00 6,00 8,00 10,00 1,54303
N = 190
Nota
60
50
Frequency
40
30
20
10
0 Mean = 6,4737
Std. Dev. =
4,00 6,00 8,00 10,00 1,43163
N = 190
Nota
48
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
60
50
Frequency
40
30
20
10
Mean = 7,5263
Std. Dev. =
0 1,43163
N = 190
4,00 6,00 8,00 10,00
Nota
49
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Nota
Nota
50
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
∑ ( x i − x ) 3 ⋅ ni
i
µ3 = reprezintă momentul centrat de ordinul 3;
∑ ni
i
∑ ( x i − x ) 2 ⋅ ni
µ2 = i
= s 2 reprezintă momentul centrat de ordinul 2, adică
∑ ni
i
varianţa.
Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui
µ 3. Atunci când µ 3>0, distribuţia este asimetrică la dreapta. Atunci când µ 3<0, distribuţia
este asimetrică la stânga.
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Rezolvare
Indicatorii asimetriei sunt:
1. Asimetria în mărime absolută
As = x − Mo = 6 ,93 − 8 = −1,07 .
51
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Valoarea indicatorului de asimetrie arată că distribuţia studenţilor dintr-o serie
după nota obţinută la un examen în sesiunea iunie 2009 prezintă o asimetrie la stânga
(As<0).
∑ ( x i − x ) 2 ⋅ ni
µ2 = i
= s 2 reprezintă momentul centrat de ordinul 2, adică
∑ ni
i
varianţa.
∑ ( x i − x ) 3 ⋅ ni − 112 ,20
i
µ3 = = = −0 ,534
∑ ni 210
i
Înlocuind în relaţia de mai sus, se obţine:
µ 32 ( −0 ,534 ) 2 0 ,2852
β1 = 3 = = = 0 ,0432 .
µ2 1,876 3 6 ,6023
52
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată se
caracterizează printr-o asimetrie ( β 1 ≠ 0 ) la stânga (µ 3<0).
b. Boltirea
Boltirea este definită prin compararea distribuţiei statistice cu distribuţia normală
din punctul de vedere al variaţiei variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor.
Alura curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă
un accentuat fenomen de boltire este reprezentată în figura de mai jos:
53
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
∑ ( x i − x ) 4 ⋅ ni
i
µ4 = reprezintă momentul centrat de ordinul 4.
∑ ni
i
O valoare a coeficientului de boltire Pearson β 2 = 3 arată o distribuţie
mezocurtică. O valoare β 2 > 3 arată o distribuţie leptocurtică iar o valoare β 2 < 3 arată
o distribuţie platicurtică.
Exemplu
Distribuţia studenţilor dintr-o serie după nota obţinută la un examen în sesiunea
iunie 2009 se prezintă astfel:
Rezolvare
Indicatorii boltirii sunt:
Coeficientul de boltire Pearson se calculează pe baza relaţiei:
µ4 µ4
β2 = = , unde:
µ 22 s 4
∑ ( x i − x ) 4 ⋅ ni
i
µ4 = reprezintă momentul centrat de ordinul 4.
∑ ni
i
Elementele de calcul sunt prezentate în tabelul de mai jos:
54
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Valoarea coeficientului de boltire Pearson arată că distribuţia studenţilor după
nota obţinută la examen în sesiunea iunie 2009 este o distribuţie platicurtică ( β 2 < 3 ) .
Interpretare
Valoarea coeficientului de boltire Fisher arată că distribuţia studenţilor după nota
obţinută la examen în sesiunea iunie 2009 este o distribuţie platicurtică ( γ 2 < 0 ).
55
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
56
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.1. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme
până la 10 20
10-20 40
20-30 35
30-40 15
peste 40 10
TOTAL 110
57
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Închiderea intervalelor de variaţie
Mărimea intervalelor de variaţie este l=10. Limita inferioară a primului interval
de variaţie se închide luând în considerare aceeaşi mărime, deci: 10-10=0. Limita
superioară a ultimului interval de variaţie este: 40+10=50.
Interpretare
Un număr de 20 firme au realizat vânzări de până la 10 mil. Lei ( N 1 ↓ ). Un
număr de 60 firme au realizat vânzări de până la 20 mil. Lei ( N 2 ↓ ). În mod similar se
interpretează celelalte valori din tabelul de mai sus.
Din numărul total al firme, 10 firme au realizat vânzări de peste 40 mil. Lei. Un
număr de 25 de firme au realizat vânzări de peste 30 mil. Lei. În mod similar se
interpretează celelalte valori din tabelul de mai sus.
Observaţie
În interpretarea frecvenţelor absolute cumulate crescător se consideră limita
superioară a intervalului de variaţie, iar în interpretarea frecvenţelor absolute cumulate
descrescător se consideră limita inferioară a intervalului de variaţie.
58
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Ponderea firmelor care au realizat vânzări de până la 10 mil. Lei ( F1 ↓ ) este de
16,67%. Ponderea firmelor care au realizat vânzări de până la 20 mil. Lei ( F2 ↓ ) este de
50%. În mod similar se interpretează celelalte valori din Tabelul 3.3.
Ponderea firmelor care au realizat vânzări de peste 40 mil. Lei este de 8,33%.
20,83% din numărul total al firmelor au realizat vânzări de peste 30 mil. Lei. În mod
similar se interpretează celelalte valori din Tabelul 3.3.
Histograma
Construirea histogramei presupune ridicarea unor dreptunghiuri alăturate, cu baza
egală, în cazul intervalelor egale de variaţie, sau inegală, în cazul intervalelor inegale, de
înălţime ni. Alura histogramei, considerând intervale egale de variaţie, este reprezentată
în figura de mai jos:
Histogram
5
4
Frequency
0
4,00 6,00 8,00 10,00
59
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Poligonul frecvenţelor
Construirea poligonului frecvenţelor presupune găsirea locului geometric al
punctelor Ai de coordonate ( x'i , ni ) sau ( x'i , ni ) şi unirea acestora prin segmente de
dreaptă. Valorile x'i reprezintă mijlocul sau centrul intervalelor de variaţie, calculat ca
medie aritmetică simplă a limitelor intervalelor de variaţie:
x + xi
x'i = i −1 .
2
Curba frecvenţelor
Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă
a poligonului frecvenţelor. Curba frecvenţelor pentru o distribuţie normală este
reprezentată în figura de mai jos:
4
Frequency
0
4,00 6,00 8,00 10,00
Nota
60
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
100%
75%
Percent
50%
25%
0%
5 6 7 8 9
nota
a. Media aritmetică
Media aritmetică pentru o serie statistică după o variabilă continuă se calculează
după relaţia:
∑ xi' ⋅ ni x + xi
x= i , unde x'i = i −1 .
∑ ni 2
i
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.4. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme
- 10 20
10-20 40
20-30 35
30-40 15
peste 40 10
TOTAL 110
61
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
∑ xi' ⋅ ni xi −1 + xi
Media aritmetică se calculează după relaţia x = i
, unde x'i = .
∑ ni 2
i
x0 + x1 0 + 10
Centrul intervalelor de variaţie se calculează astfel: x1' = = =5;
2 2
x1 + x 2 10 + 20
x'2 = = = 15 etc.
2 2
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
Interpretare
Valoarea medie a vânzărilor zilnice realizate în luna octombrie 2009 de firmele
din judeţul Iaşi este de 21,25 milioane lei.
b. Modul (Mo)
Pentru aflarea modului în cazul unei variabile continue, trebuie parcurse
următoarele etape:
• se află frecvenţa maximă, nimax;
• în dreptul acestei frecvenţe maxime, se citeşte intervalul modal (xi-1, xi);
• în acest interval, modul se află prin interpolare, după relaţia:
∆1
Mo = xi −1 + d ⋅ , unde:
∆1 + ∆2
xi-1, reprezintă limita inferioară a intervalului modal;
d este mărimea intervalului modal, d= xi - xi-1;
62
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.6. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme
0- 10 20
10-20 40
20-30 35
30-40 15
40-50 10
TOTAL 110
Rezolvare
Etapele aflării modului sunt:
• se află frecvenţa maximă, nimax=40;
• în dreptul acestei frecvenţe maxime se citeşte intervalul modal (10-20);
• în acest interval, modul se află prin interpolare, după relaţia:
∆1
Mo = xi −1 + d ⋅ , unde:
∆1 + ∆2
xi-1 =10;
d= xi - xi-1 =20-10=10 ;
∆1 = ni max − ni −1 = 40 − 20 = 20 ;
∆1 = ni max − ni +1 = 40 − 35 = 5 .
Înlocuind în relaţia de mai sus, se obţine:
( 40 − 20 )
Mo = 10 + 10 ⋅ = 18 mil. Lei.
( 40 − 20 ) + ( 40 − 35 )
Interpretare
Cele mai multe firme din judeţul Iaşi au realizat în luna octombrie 2009 vânzări
zilnice de 18 mil. Lei.
63
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
c. Mediana (Me)
Aflarea medianei presupune parcurgerea următoarelor etape:
∑ ni
Me
• se calculează unitatea mediană: U = i ;
2
• se calculează frecvenţele absolute cumulate crescător, Ni↓;
• se află prima valoare Ni↓≥UMe;
• în dreptul primei valori Ni↓≥UMe, se citeşte intervalul median: (xi-1, xi);
• în acest interval, mediana se află prin interpolare după relaţia:
U Me − N i −1 ↓
Me = xi −1 + d ⋅ , unde:
ni
xi-1, reprezintă limita inferioară a intervalului median;
d este mărimea intervalului median, d= xi - xi-1;
N i −1 ↓ este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
median;
ni este frecvenţa absolută corespunzătoare intervalului median.
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei),
înregistrată în luna octombrie 2009, este prezentată în tabelul de mai jos:
Tabelul 3.7. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme
0- 10 20
10-20 40
20-30 35
30-40 15
40-50 10
TOTAL 120
Rezolvare
Etape pentru aflarea medianei:
120
∑ ni
Me i
• se calculează unitatea mediană: U = = 60 ;=
2 2
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
64
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
1. Quartilele
Quartila unu (Q1)
Aflarea quartilei unu presupune parcurgerea următoarelor etape:
∑ ni
Q1
• se calculează unitatea quartilică unu: U = i ;
4
• se calculează frecvenţele absolute cumulate crescător, Ni↓;
• se află prima valoare Ni↓≥UQ1;
• în dreptul primei valori Ni↓≥UQ1, se citeşte intervalul quartilic unu: (xi-1, xi);
• în acest interval, quartila unu se află prin interpolare după relaţia:
U Q1 − N i −1 ↓
Q1 = xi −1 + d ⋅ , unde:
nQ1
xi-1, reprezintă limita inferioară a intervalului quartilic unu;
d este mărimea intervalului quartilic unu, d= xi - xi-1;
65
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
Tabelul 3.8. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
Valoare vânzări Număr firme
0- 10 20
10-20 40
20-30 35
30-40 15
40-50 10
TOTAL 120
Rezolvare
Quartila unu
Etape pentru aflarea quartilei unu:
66
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
120
∑ ni
Q1 i
• se calculează unitatea quartilică unu: U = = 30 ; =
4 4
• se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt
prezentate în tabelul de mai jos:
Tabelul 3.8. Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor
zilnice (mil. Lei), în luna octombrie 2009
xi-1-xi ni Ni ↓
0- 10 20 20
10-20 40 60
20-30 35 95
30-40 15 110
40-50 10 120
TOTAL 120 -
Quartila trei
3 ⋅ ∑ ni
Q3 i 3 ⋅ 120
• se calculează unitatea quartilică trei: U = = = 90 ;
4 4
• prima valoare Ni↓=95 ≥UQ1=90;
• în dreptul acestei valori se citeşte intervalul quartilic trei: (20-30);
• în acest interval, quartila trei se află prin interpolare după relaţia:
U Q3 − N i −1 ↓
Q3 = xi −1 + d ⋅ , unde:
nQ3
xi-1=20;
d= xi - xi-1=30-20=10;
N i −1 ↓= 60 ;
67
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
ni = 35.
90 − 60
Înlocuind în relaţia de mai sus, se obţine: Q3 = 20 + 10 ⋅ = 28 ,57 mil. Lei.
35
Interpretare
75% din numărul total al firmelor din judeţul Iaşi au realizat vânzări zilnice de
până la 28,57 mil. Lei, iar 25% au realizat vânzări zilnice de peste 28,57 mil. Lei.
2. Varianţa
Varianţa se calculează pe baza relaţiei:
∑ ( xi' − x )2 ⋅ ni
s2 = i . Varianţa nu are unitate de măsură şi nu se interpretează.
∑ ni
i
4. Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
s
v = ⋅ 100 .
x
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
68
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Rezolvare
Abaterea standard
Abaterea standard se calculează pe baza relaţiei:
∑ ( x'i − x )2 ⋅ ni
s = s2 = i
.
∑ ni
i
Pentru această distribuţie, media aritmetică este x = 21,25 mil. Lei.
Elementele de calcul ale abaterii standard sunt prezentate în tabelul de mai jos:
Interpretare
Vânzările zilnice ale firmelor din judeţul Iaşi, realizate în luna octombrie 2009,
variază, în medie, de la nivelul mediu al vânzărilor zilnice, cu ± 11,48 mil. Lei.
Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
s 11,48
v = ⋅ 100 = ⋅ 100 = 54 ,02% .
x 21,25
69
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Valoarea coeficientului de variaţie arată că distribuţia firmelor după valoarea
vânzărilor zilnice realizate în luna octombrie 2009 este o distribuţie eterogenă,
caracterizată printr-o dispersie mare (v>50%). Media nu este reprezentativă pentru
această distribuţie.
Asimetria
Indicatorii asimetriei se calculează, în cazul unei variabile continue, astfel:
1. Asimetria în mărime absolută
Asimetria în mărime absolută poate fi calculată pe baza relaţiei:
As = x − Mo .
Modul de interpretare este identic cu cel prezentat în cazul variabilelor discrete.
∑( xi' − x ) 2 ⋅ ni
µ2 = i
= s 2 reprezintă momentul centrat de ordinul 2, adică varianţa.
∑ ni
i
Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui
µ 3. Atunci când µ 3>0, distribuţia este asimetrică la dreapta. Atunci când µ 3<0, distribuţia
este asimetrică la stânga.
Boltirea
Indicatorii boltirii se calculează după relaţiile
1. Coeficientul de boltire Pearson
Coeficientul de boltire Pearson se calculează pe baza relaţiei:
µ4 µ4
β2 = = , unde:
µ 22 s 4
70
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
∑ ( xi' − x )4 ⋅ ni
i
µ4 = reprezintă momentul centrat de ordinul 4.
∑ ni
i
O valoare a coeficientului de boltire Pearson β 2 = 3 arată o distribuţie
mezocurtică. O valoare β 2 > 3 arată o distribuţie leptocurtică iar o valoare β 2 < 3 arată
o distribuţie platicurtică.
Exemplu
Distribuţia firmelor din judeţul Iaşi după valoarea vânzărilor zilnice (mil. Lei)
înregistrată în luna octombrie 2009 este prezentată în tabelul de mai jos:
Rezolvare
Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
µ 32
β1 = , unde:
µ 23
∑ ( xi' − x )3 ⋅ ni ∑ ( xi' − x )2 ⋅ ni
µ3 = i
; µ2 = i
= s2 .
∑ ni ∑ ni
i i
Elementele de calcul ale momentelor centrate de ordinul doi şi trei sunt prezentate
în tabelul de mai jos:
71
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Tabelul 3.12. Elemente de calcul ale momentelor centrate de ordinul doi şi trei
xi-1-xi ni xi' xi' − x ( xi' − x ) 2 ( xi' − x ) 2 ⋅ ni ( xi' − x )3 ( xi' − x )3 ⋅ ni
0 - 10 20 5 -16,25 264,06 5281,25 -4291,02 -85820,31
10-20 40 15 -6,25 39,06 1562,50 -244,14 -9765,63
20-30 35 25 3,75 14,06 492,19 52,73 1845,70
30-40 15 35 13,75 189,06 2835,94 2599,61 38994,14
40-50 10 45 23,75 564,06 5640,63 13396,48 133964,84
TOTAL 120 - - - 15812,50 - 79218,75
Interpretare
Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată prezintă o
asimetrie ( β 1 ≠ 0 ) la dreapta (µ 3>0).
72
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
43169 ,76
Coeficientul de boltire Pearson este: β 2 = = 2 ,49 .
131,77 2
Interpretare
Valoarea coeficientului de boltire Pearson arată că distribuţia dată este o
distribuţie platicurtică ( β 2 < 3 ).
73
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
74
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Sexul_persoanei
Masculin
Feminin
35,0%
65,0%
70,0%
60,0%
50,0%
Percent
40,0%
65,0%
30,0%
20,0%
35,0%
10,0%
0,0%
Masculin Feminin
Sexul_persoanei
75
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia studenţilor dintr-o grupă pe sexe, la 1 ianuarie 2009, se prezintă astfel:
Rezolvare
Frecvenţele relative se calculează după relaţia:
n n
f i = i ⋅ 100 = i ⋅ 100 .
∑ ni n
i
Pentru exemplul dat, avem:
n 7
f 1 = 1 ⋅ 100 = ⋅ 100 = 35%
∑ ni 20
i
n2 13
f2 = ⋅ 100 = ⋅ 100 = 65% .
∑ ni 20
i
Interpretare
Ponderea persoanelor de sex masculin este de 35%, iar ponderea persoanelor de
sex feminin este de 65%.
76
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009, se prezintă
astfel:
Rezolvare
Mărimile relative de corespondenţă se calculează după relaţia:
X X
K A / B = A ⋅ 100 , respectiv K B / A = B ⋅ 100 .
XB XA
Considerând grupa A, grupa formată din persoanele de sex masculin, şi grupa B
cea a persoanelor de sex feminin, se obţine:
X 7000
K A / B = A ⋅ 100 = ⋅ 100 = 538 ,5
XB 1300
X 1300
K B / A = B ⋅ 100 = ⋅ 100 = 18 ,6 .
XA 7000
Interpretare
La 100 de persoane de sex feminin revin 538,5~540 de persoane de sex masculin.
La 100 de persoane de sex masculin revin 18,6~19 persoane de sex feminin.
77
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemple
Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009 se prezintă
astfel:
Rezolvare
Pentru aflarea modului, se observă că nimax=700. Categoria care corespunde
acestei frecvenţe maxime este xi=1-Masculin.
Interpretare
Cele mai multe persoane din colectivitatea observată sunt de sex masculin.
Rezolvare
Modul
Pentru identificarea modului, se află nimax=50. Categoria care corespunde acestei
frecvenţe maxime este xi=Superior.
Interpretare
Cele mai multe persoane din colectivitatea observată au studii superioare.
Mediana
∑ ni
100
Me i
Pentru aflarea medianei, se află U = =
= 50 . Se calculează
2 2
frecvenţele absolute cumulate crescător, prezentate în tabelul de mai jos:
78
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Jumătate din numărul total al persoanelor sunt cu studii primare, gimnaziale şi
liceale, iar jumătate sunt cu studii superioare.
79
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
80
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
PARTEA A DOUA
INFERENŢA STATISTICĂ
Inferenţa statistică are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin
prelucrarea datelor la nivelul unui eşantion extras aleatoriu din aceasta. Inferenţa
statistică presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.
Parametrii reprezintă mărimi reale dar necunoscute prin care poate fi caracterizată
o populaţie. De exemplu, o populaţie poate fi caracterizată folosind un indicator al
tendinţei centrale, cum ar fi media populaţiei ( µ ), şi un indicator al dispersiei, cum ar fi
abaterea medie pătratică ( σ ).
Aceste mărimi sunt estimate prin prelucrarea datelor înregistrate la nivelul unui
eşantion, proces în urma căruia se obţin estimaţii ale parametrilor populaţiei. De
exemplu, prin înregistrarea valorilor unei variabile la nivelul unui eşantion, pot fi
calculate media eşantionului ( x ) şi abaterea medie pătratică ( s ).
81
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Estimaţii Parametri
(eşantion) (populaţie)
Media x µ
Varianţa s2 σ2
Abaterea standard s σ
Proporţia f p
∑ ( X i − µ )2 ( 22 − 24 )2 + ( 25 − 24 ) 2 + ( 26 − 24 ) 2 + ( 24 − 24 )2 + ( 23 − 24 )2
σ2 = i
= =2
N 5
82
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
22 + 25 25 + 24
Eşantionul 1: x1 = = 23 ,5 Eşantionul 6: x6 = = 24 ,5
2 2
22 + 26 25 + 23
Eşantionul 2: x 2 = = 24 Eşantionul 7: x7 = = 24
2 2
22 + 24 26 + 24
Eşantionul 3: x3 = = 23 Eşantionul 8: x8 = = 25
2 2
22 + 23 26 + 23
Eşantionul 4: x4 = = 22 ,5 Eşantionul 9: x9 = = 24 ,5
2 2
25 + 26 24 + 23
Eşantionul 5: x5 = = 25 ,5 Eşantionul 10: x10 = = 23 ,5
2 2
83
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
σ2 N −n
de selecţie este egală cu σ µ2ˆ = ⋅ , în cazul unui sondaj aleator
n N
σ2
nerepetat. Se demonstrează că în cazul unui sondaj aleator repetat, σ µ2ˆ = ⋅
n
- abaterea standard a mediei de selecţie este:
σ µˆ = σ µ2ˆ = ∑ xi2 ⋅ pi − ( ∑ xi ⋅ pi )2 = 0 ,75 = 0 ,866 .
i i
25
20
Frequency
15
10
Mean = 24,00
0 Std. Dev. =
0,87039
22,00 23,00 24,00 25,00 26,00 N = 100
VAR00001
84
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
După cum se observă, distribuţia mediei de selecţie urmează o lege normală, iar
mediile eşantioanelor „se grupează” în jurul mediei lor, adică a mediei populaţiei.
85
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
86
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
87
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Observaţii
Precizia estimării creşte (mărimea intervalului de încredere este mai mică), atunci
când:
- volumul eşantionului (n) creşte (“legea rădăcinii pătrate”: mărirea de 4 ori a
volumului eşantionului, dublează precizia estimării);
- probabilitatea cu care se garantează rezultatele este mai mică;
- varianţa eşantionului este mică (valorile aberante afectează mărimea intervalului
de încredere).
Exemple
1. La nivelul unui eşantion format din 25 de persoane, extras aleator simplu, s-au
obţinut următoarele rezultate privind vârsta (ani): x = 32 ani , s' = 2 ani . Să se estimeze
prin interval de încredere vârsta medie a întregii populaţii din care a fost extras
eşantionul, considerând un risc de 0,05.
Rezolvare
• (n=20)≤30, în estimarea prin IC a mediei populaţiei se foloseşte statistica t
Student. Din Tabelul repartiţiei Student se citeşte valoarea t0,025;20-1=2,093.
t K 0.025 K
M
19 K 2,093 K
s
• IC este definit de: x ± tα / 2 ⋅ . Înlocuind cu valorile date, se obţine:
n
88
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
2
32 ± 2 ,093 ⋅ sau [31,163; 32 ,837 ] .
25
Interpretare
Se poate garanta cu o probabilitate de 0,95 că vârsta medie a întregii populaţii din
care a fost extras eşantionul ( µ ) este acoperită de intervalul: [31,163; 32 ,837 ] ani.
2. La nivelul unui eşantion format din 9 persoane, extras aleator simplu, s-au
obţinut următoarele rezultate privind vârsta (ani): x = 32 ani , s' = 2 ani . Să se estimeze
prin interval de încredere vârsta medie a întregii populaţii din care a fost extras
eşantionul, considerând un risc de 0,05.
Rezolvare
• (n=9)≤30, în estimarea prin IC a mediei populaţiei se foloseşte statistica t
Student. Din Tabelul Student se citeşte valoarea t0,025;9-1=2,306.
t K 0.025 K
M
8 K 2,306 K
s'
• IC este definit de: x ± tα / 2 ⋅ . Înlocuind cu valorile date, se obţine:
n
2
32 ± 2 ,306 ⋅ sau [30 ,46 ; 33 ,54 ] .
9
Interpretare
Se poate garanta cu o probabilitate de 0,95 că vârsta medie a întregii populaţii din
care a fost extras eşantionul ( µ ) este acoperită de intervalul: [30 ,46 ; 33 ,54 ] ani.
Observaţie
Mărimea intervalului de încredere este, în acest caz, mai mare faţă de exemplul
anterior. Precizia estimării s-a micşorat datorită volumului redus al eşantionului.
89
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
În urma realizării unui sondaj electoral la nivelul unui eşantion format din 1500
persoane, se observă că 840 persoane au votat pentru candidatul A. Să se estimeze
punctual proporţia persoanelor care au votat pentru candidatul A la nivelul întregii
populaţii.
Rezolvare
Proporţia persoanelor care au votat pentru candidatul A calculată la nivelul
n 840
eşantionului este: f = i = = 0 ,56 .
n 1500
Interpretare
Proporţia persoanelor care au votat pentru candidatul A la nivelul întregii
populaţii poate fi estimată punctual prin proporţia calculată la nivelul eşantionului, deci
p=0,56 sau p=56%.
Exemplu
În urma realizării unui sondaj electoral la nivelul unui eşantion format din 1500
persoane, se observă că 840 persoane au votat pentru candidatul A. Să se estimeze prin
interval de încredere proporţia persoanelor care au votat pentru candidatul A la nivelul
întregii populaţii, considerând un risc de 0,05.
Rezolvare
Proporţia persoanelor care au votat pentru candidatul A, la nivelul eşantionului,
n 840
este: f = i = = 0 ,56 sau 56%.
n 1500
Limitele intervalului de încredere se calculează astfel:
f ⋅(1 − f )
f ± tα / 2 ⋅ , unde:
n
f = 0 ,56 ;
90
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
tα / 2 este valoarea statisticii t Student care se citeşte din Tabelul Student pentru un risc
α = 0 ,05 şi n-1 grade de libertate. Din Tabelul Student se citeşte: t0,025;1500-1=1,96.
t K 0.025 K
M
M K K
∞ K 1,96 K
Interpretare
Se poate garanta cu o probabilitate de 0,95 că proporţia persoanelor care au votat
pentru candidatul A la nivelul întregii populaţii este cuprinsă între 0,53 sau 53% şi 0,59
sau 59%.
91
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
92
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
93
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
1-α
α/2 α/2
-zα/2 zα/2 Z
H 1 H 0 H 1
Ipoteze statistice
În testarea semnificaţiei mediei unei populaţii se formulează următoarele ipoteze
statistice:
- ipoteza nulă este ipoteza prin care se presupune că nu există diferenţe între
media unei populaţii, µ , estimată prin media calculată la nivelul eşantion, şi o valoare de
referinţă considerată, µ 0 .
De exemplu, într-un studiu statistic cu privire la nivelul ratei şomajului în anumite
ţări ale Uniunii Europene, în procesul testării statistice se poate urmări dacă există
diferenţe semnificative între nivelul mediu al ratei şomajului pentru ansamblul ţărilor din
94
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
- ipoteza alternativă este contrară ipotezei nule, deci este ipoteza prin care se
presupune că există diferenţe între valorile comparate.
Pentru exemplul prezentat anterior, ipoteza alternativă se formulează astfel:
H 1 : µ ≠ µ 0 (test bilateral), H 1 : µ > µ 0 (test unilateral la dreapta) sau H 1 : µ < µ 0 (test
unilateral la stânga).
x − µ0 x − µ0
∑ ( xi − x ) 2
i
t calculat = = , unde s' = .
s µˆ s' / n n −1
95
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
1-α
α/2 α/2
-zα/2 zα/2 Z
H 1 H 0 H 1
96
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
97
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemple
1. La nivelul unui eşantion format din 100 de persoane, se înregistrează salariul
lunar obţinut şi se obţine x = 14 mil .lei . Ştiind că σ = 4 mil .lei , se cere să se testeze
dacă există diferenţe semnificative între salariul mediu al întregii populaţii din care a fost
extras eşantionul şi salariul mediu pe economie, de 13 mil. lei. Se consideră un risc
α = 0 ,05.
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 milioane lei (nu există diferenţe semnificative între salariul mediu al
întregii populaţii din care a fost extras eşantionul şi salariul mediu pe economie)
H 1 : µ ≠ 13 milioane lei (există diferenţe semnificative între salariul mediu al
întregii populaţii din care a fost extras eşantionul şi salariul mediu pe economie)
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se
x − µ0
foloseşte statistica test Z: z = .
σ/ n
Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.
98
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
z calculat = 2 ,5 > z 0 ,025 = 1,96 sau (Pr ob. = 2 ⋅ 0 ,006 = 0 ,012 ) < α = 0 ,05 , se
respinge ipoteza Ho. Se poate garanta cu o probabilitate de 0,95 că există diferenţe
semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul
observat ( µ ) şi salariul mediu pe economie ( µ 0 ) .
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13 milioane lei
H 1 : µ > 13 milioane lei
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii, atunci când se cunoaşte σ , se
x − µ0
foloseşte statistica test Z: z = .
σ/ n
99
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Regula de decizie
Folosind probabilitatea asociată statisticii test calculate:
• dacă Pr ob. < α , atunci se respinge ipoteza H0;
• dacă Pr ob. ≥ α , atunci se acceptă ipoteza H0.
Interpretare
z calculat = 2 ,5 > z 0 ,025 = 1,65 sau Pr ob. = 0 ,006 < α = 0 ,05 , se respinge ipoteza
Ho. Se poate garanta cu o probabilitate de 0,95 că salariul mediu al întregii populaţii din
100
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
care a fost extras eşantionul observat ( µ ) este mai mare decât salariul mediu pe
economie ( µ 0 ) .
Rezolvare
Formularea ipotezelor statistice
H 0 : µ = 13
H 1 : µ ≠ 13
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t
x − µ0
Student, t = .
s' / n
Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;
• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.
t K 0.025 K
M
24 K 2,064 K
101
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
0,95
0,025 0,025
tcalc =5
t
-2,064 2,064
H1 H0 H1
Figura 33. Regiunea de respingere şi de acceptare a ipotezei H0
Ipoteze statistice
Ipotezele care se formulează în testarea semnificaţiei unei proporţii sunt:
H 0 : p = p0
H 1 : p ≠ p0 (test bilateral)
102
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemplu
La nivelul unui eşantion de volum n=25 de persoane, se observă că ponderea
persoanelor care votează pentru candidatul A este de 49%. Se cere să se testeze dacă
există diferenţe semnificative între proporţia persoanelor care votează pentru candidatul
A la nivelul întregii populaţii şi proporţia persoanelor care au votat pentru acest candidat
la alegerile anterioare, de 51%. Se consideră un risc α = 0 ,05.
Rezolvare
Formularea ipotezelor statistice
H 0 : p = 51%
H 1 : p ≠ 51%
Statistica test
Pentru testarea semnificaţiei mediei unei populaţii se foloseşte statistica test t
f − p0
Student, t = .
f ⋅( 1 − f ) / n
Regula de decizie
• dacă t calculat < −tα / 2 sau t calculat > +tα / 2 , atunci se respinge ipoteza H0;
• dacă t calculat ≥ −tα / 2 sau t calculat ≤ +tα / 2 , atunci se acceptă ipoteza H0.
103
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
t calculat = 0 ,2 < t 0 ,025;24 = 2 ,064 , se acceptă ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care
votează pentru candidatul A la nivelul întregii populaţii, p, şi proporţia persoanelor care
au votat pentru acest candidat la alegerile anterioare, p0.
Ipoteze statistice
H 0 : µ1 − µ 2 = 0
H 1 : µ1 − µ 2 ≠ 0
104
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Exemple
1. Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane
s-a înregistrat vârsta şi s-au obţinut următoarele rezultate: x1 = 35 ani , x 2 = 32 ani ;
s1 = 2 ani , s 2 = 4 ani . Să se testeze ipoteza potrivit căreia între vârstele medii ale celor
două populaţii din care au fost extrase eşantioanele observate există diferenţe
semnificative. Se consideră un risc de 0,05.
Rezolvare
Ipoteze statistice:
H0: µ 1 = µ 2 (nu există diferenţe semnificative între vârstele medii ale celor două
populaţii din care au fost extrase eşantioanele)
H1: µ 1 ≠ µ 2 (există diferenţe semnificative între vârstele medii ale celor două
populaţii din care au fost extrase eşantioanele)
Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se
foloseşte statistica t, calculată după relaţia:
x − x2
t= 1
s12 s 22
+
n1 n 2
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
105
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
1-α
α/2 α/2
-t α/2 tα/2 t
H 1 H 0 H 1
Interpretare
( t calc = 16 ,7 ) > (t0 ,025 = 1,96 ), se respinge ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între vârstele medii ale populaţiilor
din care au fost extrase eşantioanele observate.
2. Pentru două eşantioane, extrase aleator simplu, formate din 7 persoane de sex
masculin, iar al doilea din 9 persoane de sex feminin, se înregistrează salariul lunar
obţinut şi se obţin următoarele rezultate: x M = 24 sute lei , x F = 25 sute lei ;
s M = 3 , s F = 2 . Să se testeze ipoteza potrivit căreia între salariul mediu al persoanelor
de sex masculin şi salariul mediu al persoanelor de sex feminin există diferenţe
semnificative, la nivelul populaţiei din care au fost extrase eşantioanele observate. Se
consideră un risc de 0,05.
Rezolvare
Ipoteze statistice
H0: µ M = µ F
H1: µ M ≠ µ F
106
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Statistica test
Când nu se cunosc varianţele populaţiilor, pentru testarea ipotezelor statistice se
foloseşte statistica t, calculată după relaţia:
x − xF
t= M
sM2 sF2
+
n1 n2
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
1-α
α/2 α/2
-t α/2 tα/2 t
H 1 H 0 H 1
Interpretare
( t calc = 0 ,76 ) < (t0 ,025 = 2,145 ), se acceptă ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între salariul mediu al
persoanelor de sex masculin şi salariul mediu al persoanelor de sex feminin, la nivelul
populaţiilor din care au fost extrase eşantioanele observate.
107
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Ipoteze statistice
H 0 : µ1 − µ 2 = 0
H 1 : µ1 − µ 2 ≠ 0
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.
Valoarea critică a statisticii test ( tα / 2 ) se alege pentru n-1 grade de libertate.
Exemplu
Pentru două eşantioane formate din 5 persoane, se înregistrează punctajele
obţinute la două teste susţinute în primul şi al doilea semestru, şi se obţin următoarele
rezultate:
Rezolvare
Ipoteze statistice
H0: µ semI − µ semII = 0
108
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Statistica test
Pentru testarea ipotezelor statistice se foloseşte statistica t, calculată după relaţia:
xd
t calculat = , unde:
sd / n
xd este media diferenţelor dintre valorile înregistrate între cele două momente:
∑ ( xi 1 − xi 2 ) ∑ d i
i i
xd = = ;
n n
∑ ( d i − xd )2
i
sd = este abaterea standard a diferenţelor di.
n −1
Regula de decizie
• dacă t calc > tα / 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 , se acceptă ipoteza H0.
Regiunea de acceptare şi regiunea de respingere a ipotezei Ho sunt prezentate în
figura de mai jos:
1-α
α/2 α/2
-t α/2 tα/2 t
H 1 H 0 H 1
109
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
∑ di24
i
Media diferenţelor, x d , este: x d = =
= 4 ,8 .
n 5
Abaterea standard a diferenţelor dintre valorile înregistrate în cele două momente
10 ,8
este: s d = = 2 ,7 = 1,64 .
5 −1
Statistica test se calculează astfel:
4 ,8
t calculat = = 6 ,55 .
1,64 / 5
Interpretare
( t calc = 6 ,55 ) > (t0 ,025 = 2 ,776 ), se respinge ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între punctajele medii obţinute la
testele susţinute în semestrul I şi semestrul II, la nivelul populaţiilor din care au fost
extrase eşantioanele.
Ipoteze statistice
H 0 : p1 − p 2 = 0
H 1 : p1 − p 2 ≠ 0
110
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 ;n + n , se acceptă ipoteza H0.
1 2 −2
Exemplu
Pentru două eşantioane extrase aleator simplu de volum n1=n2=625 persoane s-a
înregistrat proporţia persoanelor care au votat pentru candidatul A în anul 2009 şi în anul
2005 şi s-au obţinut următoarele rezultate: f 1 = 51%,; f 2 = 49% . Să se testeze ipoteza
potrivit căreia între proporţia persoanelor care au votat pentru candidatul A în cele două
momente, la nivelul populaţiilor, există diferenţe semnificative. Se consideră un risc de
0,05.
Rezolvare
Ipoteze statistice:
H0: p1 = p 2 (nu există diferenţe semnificative între proporţia persoanelor care au
votat pentru candidatul A în anul 2009 şi anul 2005)
H1: p1 ≠ p 2 (există diferenţe semnificative între proporţia persoanelor care au
votat pentru candidatul A în anul 2009 şi anul 2005)
Statistica test
Statistica t se calculează după relaţia:
f1 − f 2
t calculat =
f1 ⋅ ( 1 − f1 ) f 2 ⋅ ( 1 − f 2 )
+
n1 n2
Regula de decizie
• dacă t calc > tα / 2 ; n1 + n2 − 2 , se respinge ipoteza H0;
• dacă t calc ≤ tα / 2 ;n + n , se acceptă ipoteza H0.
1 2 −2
111
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Interpretare
( t calc = 0 ,71) < (t0 ,025 = 1,96 ), se acceptă ipoteza H0. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între proporţia persoanelor care
au votat pentru candidatul A în anul 2009 şi în anul 2005, la nivelul populaţiilor din care
au fost extrase eşantioanele observate.
112
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
ANEXE
113
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
Repartiţia Laplace:
z t2
1 −
Φ( z ) = ∫e 2 dt
2π 0
0 z
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.000 0.004 0.008 0.012 0.016 0.020 0.024 0.028 0.032 0.036
0.1 0.040 0.044 0.048 0.052 0.056 0.060 0.064 0.067 0.071 0.075
0.2 0.079 0.083 0.087 0.091 0.095 0.099 0.103 0.106 0.110 0.114
0.3 0.118 0.122 0.126 0.129 0.133 0.137 0.141 0.144 0.148 0.152
0.4 0.155 0.159 0.163 0.166 0.170 0.174 0.177 0.181 0.184 0.188
0.5 0.191 0.195 0.198 0.202 0.205 0.209 0.212 0.216 0.219 0.222
0.6 0.226 0.229 0.232 0.236 0.239 0.242 0.245 0.249 0.252 0.255
0.7 0.258 0.261 0.264 0.267 0.270 0.273 0.276 0.279 0.282 0.285
0.8 0.288 0.291 0.294 0.297 0.300 0.302 0.305 0.308 0.311 0.313
0.9 0.316 0.319 0.321 0.324 0.326 0.329 0.331 0.334 0.336 0.339
1 0.341 0.344 0.346 0.348 0.351 0.353 0.355 0.358 0.360 0.362
1.1 0.364 0.367 0.369 0.371 0.373 0.375 0.377 0.379 0.381 0.383
1.2 0.385 0.387 0.389 0.391 0.393 0.394 0.396 0.398 0.400 0.401
1.3 0.403 0.405 0.407 0.408 0.410 0.411 0.413 0.415 0.416 0.418
1.4 0.419 0.421 0.422 0.424 0.425 0.426 0.428 0.429 0.431 0.432
1.5 0.433 0.434 0.436 0.437 0.438 0.439 0.441 0.442 0.443 0.444
1.6 0.445 0.446 0.447 0.448 0.449 0.451 0.452 0.453 0.454 0.454
1.7 0.455 0.456 0.457 0.458 0.459 0.460 0.461 0.462 0.462 0.463
1.8 0.464 0.465 0.466 0.466 0.467 0.468 0.469 0.469 0.470 0.471
1.9 0.471 0.472 0.473 0.473 0.474 0.474 0.475 0.476 0.476 0.477
2 0.477 0.478 0.478 0.479 0.479 0.480 0.480 0.481 0.481 0.482
2.1 0.482 0.483 0.483 0.483 0.484 0.484 0.485 0.485 0.485 0.486
2.2 0.486 0.486 0.487 0.487 0.487 0.488 0.488 0.488 0.489 0.489
2.3 0.489 0.490 0.490 0.490 0.490 0.491 0.491 0.491 0.491 0.492
2.4 0.492 0.492 0.492 0.492 0.493 0.493 0.493 0.493 0.493 0.494
2.5 0.494 0.494 0.494 0.494 0.494 0.495 0.495 0.495 0.495 0.495
2.6 0.495 0.495 0.496 0.496 0.496 0.496 0.496 0.496 0.496 0.496
2.7 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497 0.497
2.8 0.497 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.498
2.9 0.498 0.498 0.498 0.498 0.498 0.498 0.498 0.499 0.499 0.499
3 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499 0.499
114
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
115
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
116
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
BIBLIOGRAFIE
1. Andrei, T., Statistică şi econometrie, Editura Economica, Bucureşti, 2003.
2. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
3. Bărbat, Al. , Teoria statisticii sociale, Editura Didactică şi Pedagogică, Bucureşti, 1972.
4. Baron, T.; Biji, E.; Tövissi, L., ş.a., Statistică teoretică şi economică, Editura Didactică
şi Pedagogică, Bucureşti, 1991.
5. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979.
2. Biji, M.; Stoichiţă, I. , Metoda selectivă a cercetării statistice, Editura Ştiinţifică,
Bucureşti, 1957.
3. Capanu, I; Wagner, P.; Mitruţ, C., Sistemul conturilor naţionale şi agregate
macroeconomice, Editura All, Bucureşti, 1994.
4. Chelcea, S., Chestionarul în investigaţia sociologică, Editura Ştiinţifică şi
Enciclopedică, Bucureşti, 1975.
3. Galton, Fr., Natural Inheritance, Macmillan, London, 1889
4. Georgescu Roegen, N. , Metoda statistică - elemente de statistică matematică, I.S.C.S.,
Bucureşti, 1933.
5. Glenberg, A.M., Andrzejewski, M.E., Learning from data. An Introduction to
Statistical Reasoning, Taylor and Francis Group, New York, 2008.
6. Isaic-Maniu, Al.; Grădinaru, A.; Voineagu, V.; Mitruţ, C. - Statistică teoretică şi
economică, Editura Tehnică, Chişinău, 1994.
7. Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Ed. Polirom, Iaşi, 2004
8. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
9. Jaba, E., Pintilescu, C., Iosub F., Statistică descriptivă. Teste grilă şi probleme, Editura
Sedcom Libris, Iaşi, 2001.
10. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi,
2005.
11. Jemna, D., Econometrie, Editura Sedcom Libris, Iaşi, 2009.
12. Jemna, D., Pintilescu, C., Turturean, C., Chirilă V., Chirilă, C, Viorică, D.,
Econometrie. Probleme şi teste grilă, Editura Sedcom Libris, Iaşi, 2009.
13. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
14. Mallinvaud, E. - Méthodes statistique de l'économetrie, Dunod, Paris, 1981
15. Marinescu, I. , Analiza factorială, Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1984.
16. McClave, J.T.; Benson, P.G. , Statistics for Business and Economics, Dellen Publishing
Company, San Francisco, 1985.
117
© 2010 Prof. Univ. Dr. Carmen Pintilescu Statistica – Suport de curs
17. Mills, Fr.G., Statistical Methods, 3rd ed., Henry Holt, New York, 1955.
18. Milton Smith, G. - Ghid simplificat de statistică pentru psihologie şi pedagogie, E.D.P.,
Bucureşti 1971.
19. Minium, E.W., Clarke, R., C., Coladarci, T., Elements of Statistical Reasoning, John
Wiley and Sons, 1999.
20. Pecican, E.S. - Econometrie, Editura All, Bucureşti, 1994
21. Pintilescu, C., Analiza datelor, Editura Junimea, Iaşi, 2002.
22. Pintilescu, C., Analiză statistică multivariată, Editura Universităţii “Alexandru Ioan
Cuza” Iaşi, 2007.
23. Saporta, G., Probabilités, analyse des données et statistique, Editura Technip, Paris,
1990
24. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.
25. Trebici, V.(coord.) - Mica enciclopedie de statistică, Editura Ştiinţifică şi
Enciclopedică, Bucureşti, 1985.
26. Ţarcă, M. , Statistică, vol.I şi II, Universitatea "Al.I.Cuza" Iaşi, 1979.
27. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică,
Bucureşti, 1969.
28. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
118