Documente Academic
Documente Profesional
Documente Cultură
Curs Bazele Statisticii Partea I 2022
Curs Bazele Statisticii Partea I 2022
Statistica inferenţială:
Metodele inferenţiale au la bază ideea culegerii datelor, a
prelucrării şi analizei acestora de la nivelul unui eşantion
reprezentativ extras din populaţie după un procedeu
ştiinţific corespunzător. Obiectivul principal al acestor
metode este estimarea unor parametri şi testarea unor
ipoteze care privesc realitatea analizată.
1.2. Concepte fundamentale
a. Populaţia statistică
reprezintă o mulţime de elemente care pot fi
reprezentate de obiecte, persoane, fapte, evenimente sau
procese din lumea reală.
volumul unei populaţii se notează cu N.
c. Unităţile statistice
sunt elementele componente ale unei populaţii statistice.
Exemplu:
d. Variabila statistică
reprezintă însuşirea, trăsătura esenţială purtată de unităţile
statistice ale unei populaţii.
Exemplu
Exemplu
1.3. Tipuri de variabile statistice
după modul de exprimare:
1. Variabile numerice (cantitative): Valorile variabilei se
exprimă prin numere.
- variabile discrete
Exemplu:
- variabile continue.
Exemplu:
1.3. Tipuri de variabile statistice
după modul de exprimare:
2. Variabile nenumerice (calitative):
- variabile nominale. Caz particular: variabile alternative
(dummy).
- variabile ordinale.
2. Analiza unei serii statistice univariate
2.1. Variabile cantitative
A. Variabilă discretă
i
N i N i 1 ni nh
h 1
m
N i N i 1 ni nh
h i
• Frecvenţe relative cumulate crescător (F i )
sau descrescător (Fi )
- exprimă ponderea unităţilor statistice cumulate “până la”
sau “peste” nivelul considerat al caracteristicii, adică valori
≤ xi, respectiv ≥ xi.
i
Fi Fi 1 f i f h
h 1
m
Fi Fi 1 f i f h
h i
A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,
cunoscuţi şi sub denumirea de caracteristici numerice ale
unei distribuţii.
a. Definire:
- mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii.
- cele mai importante mărimi medii sunt media aritmetică,
modul şi mediana.
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( x )
- Media aritmetică este valoarea pe care am observa-o dacă
unităţile statistice ar înregistra aceleaşi valori ale variabilei
(dacă nu ar exista variaţii ale valorilor înregistrate de
unităţile statistice).
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe
diferite (variabilă discretă).
Media simplă: xi
i
x
n
Media ponderată.
x i ni
x i saux xi f i
ni i
i
Observaţie:
Media aritmetică este sensibilă la prezenţa valorilor extreme
(outliers).
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ x ≤xmax.
Me n1
U
2
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:
- număr impar de termeni.
- număr par de termeni.
Observaţie:
mediana nu este influenţată de valorile extreme.
Știați că …
În anul 2010, 388 de persoane dețineau veniturile echivalente
a jumătate din populația lumii?
g. Decile
- sunt valori ale variabilei care împart volumul eşantionului în
10 părţi egale.
- decila unu (D1) şi decila 9 (D9).
A.2.2. Indicatori ai dispersiei (variaţiei)
Definire:
- dispersia exprimă gradul de variaţie a valorilor individuale
ale unei variabile faţă de nivelul mediu.
- aprecierea fenomenului de dispersie al unei distribuţii
permite identificarea gradului de reprezentativitate a mediei
unei distribuţii.
Indicatori sintetici ai dispersiei:
1. Varianţa
( xi x ) 2 (x x)
i
2
ni
s
2 i
s
2 i
n , respectiv n
i
i
( xi x ) 2 (x i x ) 2 ni
s i
, s i
n n i
i
3. Coeficientul de variaţie (v)
s
v 100
x
se exprimă în procente.
valori ridicate ale acestui coeficient (v>50%) arată o
distribuţie eterogenă, care se caracterizează printr-o
variaţie mare a valorilor xi faţă de nivelul mediu şi o
medie nereprezentativă.
4. Intervalul interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.
3 (x i x)3
Coeficientul de asimetrie Fisher: sw , cu 3 i
s3 n
Relaţii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când x Mo Me distribuţia este simetrică.
2. Când x Me Mo distribuţia este asimetrică la
dreapta (asimetrie pozitivă).
3. Când x Me Mo distribuţia este asimetrică la
stânga (asimetrie negativă).
2. Boltirea
- este definită prin compararea distribuţiei empirice cu
distribuţia normală din punctul de vedere al variaţiei
variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
4 4 (x i x)4
k 3 3 4 i
22 s4 , cu n
A.3. Analiza seriei folosind metode grafice
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea
acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.
b. Histograma
c. Curba frecvenţelor
- presupune ajustarea printr-o linie curbă, continuă a
histogramei.
- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată, comparativ cu histograma.
Figura 1. Distribuția elevilor de la un liceu după nota
obținută la un examen, în martie 2016
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”
Forma diagramei (D1, Q1, Q2, Q3, D9);
Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şi
asimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin
reprezentarea simultană a diagramelor).
Diagrama box-plot
1
NOTA
3 4 5 6 7 8 9 10 11
Mean 3.209581
Standard Error 0.131265
Median 3
Mode 2
Standard Deviation 1.696319
Sample Variance 2.877498
Kurtosis 1.40152
Skewness 1.315485
Range 9
Minimum 1
Maximum 10
Sum 536
Count 167
B. Variabilă continuă
B.1. Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale de
variaţie.
Observaţie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţi
a informaţiei iniţiale.
I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
II. Indicatori specifici si reprezentare grafică
a) Variabile nominale:
• Pentru a reprezenta structura pe categorii la nivelul unui
eşantion se calculează frecvenţe relative.
• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart.
• Indicatori specifici: modul.
b) Variabile ordinale:
• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart.
• Frecvenţe absolute şi relative.
• Indicatori specifici: modul şi quartilele.