Documente Academic
Documente Profesional
Documente Cultură
BAZELE
STATISTICII
S E M I N AR 3
ANALIZA UNEI SERII STATISTICE UNIDIMENSIONALE
X – variabila
xi – valorile variabilei X
ni – frecventa absoluta (numarul de unitati statistice)
n - volumul esantionului
PREZENTAREA SERIEI:
SERII SIMPLE ȘI SERII CU FRECVENȚE DIFERITE
O serie statistică este reprezentată de termenii (xi ,ni) sau (xi ,fi), cu i=1,m.
FRECVENŢE ABSOLUTE CUMULATE CRESCĂTOR (𝑁𝑖 )
SAU DESCRESCĂTOR (𝑁𝑖 )
exprimă numărul de unităţi statistice cumulate “până la” ( ) sau “peste” ( ) nivelul considerat al
caracteristicii, adică valori ≤ xi, respectiv ≥ xi.
i Unde:
N i = N i −1 + ni = n h 𝑛𝑖 - efectivul corespunzator modalitatii i
h =1 n – efectivul total
𝑁𝑖 - efectivul cumulat până la” sau “peste”modalitatea i
m
N i = N i +1 + ni = nh
h =i
FRECVENŢE RELATIVE CUMULATE CRESCĂTOR
(𝐹𝑖 ) SAU DESCRESCĂTOR (𝐹𝑖 )
exprimă ponderea unităţilor statistice cumulate “până la” sau “peste” nivelul considerat al
caracteristicii, adică valori ≤ xi, respectiv ≥ xi.
ANALIZA SERIEI FOLOSIND METODE NUMERICE
Definire:
- mediile sunt acele valori în jurul cărora se repartizează unităţile unei populaţii.
- cele mai importante mărimi medii sunt media aritmetică, modul şi mediana .
- Media aritmetică este valoarea pe care am observa-o dacă unităţile statistice ar
înregistra aceleaşi valori ale variabilei (dacă nu ar exista variaţii ale valorilor
înregistrate de unităţile statistice).
xi ni
Media ponderată: x =
i
sau x = xi f i
ni i
i
Observaţii:
- de cele mai multe ori, valoarea mediei nu coincide cu niciuna din valorile individuale din care s-a calculat
(s-a extras esenţialul din grup);
- media aritmetică este sensibilă la prezenţa valorilor extreme (outliers);
▪ Media unei distribuţii este o valoare internă:
xmin≤ 𝑥ҧ ≤xmax.
▪ Media este o mărime normală: suma abaterilor valorilor individuale ale unei
variabile X de la media lor este egală cu zero.
σ i xi 10+8+9+7+7
x= = = 𝟖. 𝟐 𝒎𝒊𝒍 𝒍𝒆𝒊
n 5
Observaţii:
o distribuţie poate avea una, două sau mai multe valori modale (serii unimodale,
bimodale sau plurimodale).
MODUL (MO)
Se consideră vânzările unor firme prezentate astfel: 10, 8, 9, 7, 7 (mil. lei).
MEDIANA (ME)
AFLAREA MEDIANEI SE FACE DIFERIT ÎN
1. Serii simple:
FUNCŢIE DE TIPUL SERIEI:
- număr impar de termeni - atunci mediana este egală cu termenul central al seriei
ordonate crescător sau descrescător
- număr par de termeni - atunci mediana este egală cu media aritmetică simplă a celor
2 termeni centrali ai seriei ordonate crescător sau descrescător.
Pentru un şir de date ordinale format din număr par de termeni, mediana este egală cu una din cele două
variante din centrul seriei dacă aceste variante sunt egale, iar dacă variantele nu sunt egale mediana ia 2 valori
deoarece nu se poate face media lor
Interpretare: Jumatate (50%) din numarul total de firme au realizat vanzari de cel mult 8 milioane lei,
iar cealalta jumatate (50%) au realizat vanzari de cel putin 8 milioane lei.
Exemplu:
Se cunoaşte următorul set de valori ale unei caracteristici: 5 7 4 9 12 3 10
Interpretare
Exemplu:
Fie următorul set de valori: 3 1 5 7 9 4
Interpretare
Arată forma unei distribuţii:
APLICATII
Serie cu frecvente diferite:
xi ni fi
5 1 1/10
6 2 2/10
7 3 3/10
8 4 4/10
Total n =10 1
APLICATII
Se înregistrează cheltuielile anuale (mii lei) realizate de 3 familii pentru produsul A:
Familia 1: 1, 3, 7, 6, 9.
Familia 2: 1, 3, 7, 3, 5, 3, 7.
Familia 3: 1, 3, 1, 7, 7, 3.
APLICATII
Distribuția unui eșantion de angajați ai firmei X in functie de numărul de mijloace carti impumutate de pe
Bookster:
xi 1 2 3 4
ni 5 75 27 3
Se cere să se afle:
APLICATII
1 2 3 4 5 6 7
Ni ↓ -
ni Ni ↑ -
crescator
decrescator fi Fi ↑ (%)
frecve Fi ↓ (%)
frecvențel
xi nțele frecvențele frecvențele frecvențele relative
e frecvențele relative
absolut absolute relative cumulate
absolute cumulate crescător
e cumulate simple decrescător
cumulate
simple decrescător
crescător
Nr. copii(xi) 0 1 2 3 4
Se cere să se afle:
a) numărul de familii care au cel mult 3 copii;
b) numărul de familii care au cel puțin 2 copii;
c) ponderea familiilor care au cel puțin 2 copii;
d) ponderea familiilor care au cel mult 1 copil;
e) ponderea familiilor care au 2 copii.
APLICATII
Se consideră seria: 2, 5, 6, 7, 8, 1000. Să se precizeze mărimea medie cea mai
reprezentativă. Explicați.
Sa se calculeze mediana seriei:
xi 1 2 3 4
ni 5 75 27 3
APLICATII
1. Distribuția numărului de copii pentru familiile dintr-un bloc se prezintă astfel:
Nr. copii 0 1 2 3 4
Nr. familii 10 15 30 3 2
Se cere să se afle cele 3 mărimi medii fundamentale și să se aprecieze relația dintre acestea.
TEMA
SEMINAR
BAZELE
STATISTICII
S E M I N AR 4
Analiza unei serii statistice univariate. Cazul unei variabile cantitative discrete
1. Mărimi medii:
2. Indicatori ai dispersiei
- varianta (𝑠 2),
- abaterea standard (s)
- coeficientul de variatie (v)
3. Indicatori ai formei
- Asimetrie (Skewness)
- Boltire (Kurtosis)
RECAPITULARE SEMINAR 3
Media aritmetica (ഥ
𝒙) Modul (𝑴𝒐 )
n+1
U Me
=
2
Mediana (𝑴𝒆 )
Interpretare:
• Prima cuartilă, Q1, este valoarea pentru care 25% dintre observații sunt mai mici, iar 75% sunt mai mari
• Q2 este același cu mediana (50% sunt mai mici, 50% sunt mai mari)
• 25% dintre observații sunt mai mari decât a treia quartila (Q3)
- Prima quartilă (Q1) este definită ca numărul
mijlociu dintre cel mai mic număr (minimum)
și mediana setului de date. Este, de
asemenea, cunoscut sub numele de quartila
inferioară sau a 25-a, deoarece 25% din
date sunt sub acest punct.
n=9 𝑄1 𝑄2 𝑄3
𝑄2 = 0.50 (9 + 1 ) = 5 pozitia - 𝑄2 = 16
𝒏+𝟏
𝑸𝟏 : 𝑼 𝑸 𝟏 =
𝟒
.
.
𝟑(𝒏+𝟏)
𝑸𝟑 : 𝑼 𝑸 𝟑 =
𝟒
Mod de calcul
𝒏+𝟏
𝑫𝟏 : 𝑼𝑫𝟏 =
𝟏𝟎
𝟐(𝒏+𝟏)
𝑫𝟐 : 𝑼𝑫𝟐 =
𝟏𝟎
.
.
𝑫𝟓 =Me = 𝑸𝟐
.
.
𝟗(𝒏+𝟏)
𝑫𝟗 : 𝑼𝑫𝟗 =
𝟏𝟎
Definire:
- dispersia exprimă gradul de variaţie a valorilor individuale ale unei variabile faţă de nivelul
mediu.
- arată cu cât variază, în medie, valorile 𝑥𝑖 ale variabilei faţă de nivelul mediu al distribuţiei, în sens
pozitiv şi negativ
- se exprimă în aceeaşi unitate de măsură cu cea a variabilei.
( xi − x ) ( x i − x ) ni
2 2
2. Varianţa s2 = i
sau s2 = i
n ni
i
◼ arată cu cât variază, în medie, valorile xi ale variabilei faţă de nivelul mediu al distribuţiei, în sens pozitiv şi
negativ.
◼ se exprimă în aceeaşi unitate de măsură cu cea a variabilei.
Exemplu:
45
Salarii (mii lei) : 3; 7; 8 ; 12; 15 𝑥ҧ = 5
= 9 mii lei
➢ este sensibil faţă de valoarea mediei: cu cât media este mai apropiată de zero,
cu atât coeficientul de variaţie este mai dificil de folosit (tinde spre infinit).
Exemplu:
Eșantionul 1: Eșantionul 2:
𝑣1 si 𝑣2 au valori < 50% :
𝑥1 = 25 𝑎𝑛𝑖 𝑥2 = 50 𝑎𝑛𝑖 ambele distributii sunt
s1= 2 ani s2= 2 ani omogene, se caracterizeaza
prin dispersie mica, iar mediile
𝑠1 2 sunt representative.
𝑣1 = * 100 = * 100 = 8%
𝑥1 25
𝑠2 2
𝑣2 = * 100 = * 100 = 4%
𝑥2 50
5. Amplitudinea intervalului interquartilic
IQ=Q3-Q1
- cuprinde 50% din volumul eşantionului.
În mod sintetic, cele mai importante caracteristici numerice ale unei distribuţii
pot fi “cuplate” astfel:
❑ media - abaterea standard (valoare absolută) - coeficientul de variaţie
(valoare relativă)
❑ mediana - intervalul interquartilic (valoare absolută).
Indicatori ai formei
1. Asimetria (Skewness):
- reprezintă o deviere de la forma simetrică a unei distribuţii.
1. Se înregistrează vânzările unor firme în anul 2019 (mil. lei): 13, 11, 10, 12, 18, 17, 17.
Se cere să afle valoarea quartilei 3.
2. Se înregistrează salariile lunare pentru un eșantion de persoane și se obțin următoarele
rezultate:
Să se aprecieze :
a) Tipul distributiei statistice.
b) Omogenitatea distribuției.
4. Distribuția numărului de copii pentru familiile dintr-un bloc se prezintă astfel:
Nr. copii 0 1 2 3 4
Nr. familii 10 15 30 3 2
𝑥1 = 35 𝑎𝑛𝑖 𝑥2 = 80 𝑎𝑛𝑖
s1= 2 ani s2= 2 ani
Eșantionul 1: Eșantionul 2:
𝑥1 = 25 𝑎𝑛𝑖 𝑥2 = 50 𝑎𝑛𝑖
s1= 2 ani s2= 27 ani
6. Intr-o repartitie normala valoarea fata de care 75% din valorile individuale sunt mai mici
iar 25% din valorile individuale sunt mai mari este:
a. cuartila a doua;
b. cuartila a treia;
c. cuartila intai;
d. valoarea modala.
7. Daca dorim sa obtinem un indicator al tendintei centrale pentru date masurate pe
orice scala, vom determina:
a) media aritmetica;
b) modul;
1. Mărimi medii:
3. Indicatori ai formei
- Asimetrie (Skewness)
- Boltire (Kurtosis)
RECAPITULARE SEMINAR 4
Quartile Varianţa
𝒏+𝟏 Abaterea medie liniară
𝑸𝟏 : 𝑼𝑸𝟏 =
( x i − x ) ni
2
xi − x
𝟒
( xi − x )
2
x i − x ni
d= i s2 = i s2 = i
d= i
ni n ni
Decile n i i
𝒏+𝟏
𝑼𝑫𝟏 =
𝟏𝟎
s
v = 100
x
3 4 4
1 = 2 = −3= −3
s 3 22 s 4
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unirea acestora prin
segmente de dreaptă.
- aproximează forma unei distribuţii.
Figura 1. Distribuția elevilor de la un liceu după nota
obținută la un examen, în martie 2016
b. Curba frecvenţelor:
1 18
2 23
3 20
4 14
5 6
6 2
7 1
Total 90
c. Diagrama “box-plot” sau “box-and-whiskers” (“cutie şi mustăţi”)
Diagrama bloxpot este un instrument deosebit de util pentru studiul distribuţiei variabilelor
continue, şi mai ales pentru detectarea rapidă a outlierilor unei serii de date (valori extreme sau
aberante).
Avantaje:
mijocul cutiei
3. dacă distribuţia este asimetrică la
stânga (predomină scorurile micii),
cutia este apropiată de mustaţa
superioară, iar mediana de latura
superioară a cutiei (a treia quartilă).
Asimetrie la dreapta
Asimetrie la stanga
Analiza unei serii univariate după o variabilă cantitativă continuă:
Observaţie:
a. Histograma
b. Poligonul frecvenţelor
c. Curba frecvenţelor
a. Histograma
3. Indicatori ai statisticii descriptive
2. Variabilă calitativă
I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
A) Variabile nominale
33,3%
fem
66,7%
Exemplu
B) Variabile ordinale
1. În urma prelucrării datelor privind notele obținute de un grup de studenți obținut, s-au obținut următoarele rezultate:
Statistics
Se cere să se aprecieze: note
a) reprezentativitatea mediei; N Valid 71
Missing
Interpretare: Coeficientul de variatie este mai mic de 50%, deci media este reprezentativa. 0
b) să se aprecieze forma distribuției; Mean 7.34
Asimetria: Skewness = 0.268 Median 7.00
Mode 8
Seria analizata este asimetrica la dreapta (pozitiva).
Std. 1.253
Deviation
Boltirea: Kurtosis = -0.523
Variance 1.570
Seria analizata este mezocurtica.
Skewness .268
c) să se interpreteze valorile quartilelor; Kurtosis -.523
Q1: 25% dintre studenti au obtinut cel mult nota 6, iar 75% dintre studenti au obtinut cel putin 6. Percentil 25 6.00
es 50 7.00
Q2: 50% dintre studenti au obtinut cel mult nota 7, iar 50% dintre studenti au obtinut cel putin 7. 75 8.00
Q3: 75% dintre studenti au obtinut cel mult nota 8, iar 25% dintre studenti au obtinut cel putin 8.
2. Se consideră distribuția familiilor după numărul de membri prezentată astfel:
Număr Număr
membri (xi) familii (ni)
2 4
3 11
4 10
5 2
6 1
TOTAL n=28
Interpretare: Se observă că distribuția eșantionului de familii după numărul de membri prezintă o asimetrie
la dreapta. Aceasta arată că se înregistrează frecvențe mai mari pentru valorile mici ale variabilei (este o
distribuție în care predomină familiile cu un număr mic de copii).
3. Pentru distribuția numarului de someri din Romania la nivelul anului 2013, s-au inregistrat următoarele
rezultate:
Se cere:
a) să se precizeze forma distribuției.
b) să se interpreteze valoarea quartilei trei.
𝑄3 = 47000
c) să se interpreteze amplitudinea intervalului interquartilic. 𝑄1 = 28000
Rezolvare:
a) Diagrama Boxplot ne prezintă, la fel ca histograma, o distribuție ce prezintă o asimetrie pozitivă, cu abatere
spre dreapta.
b) Quartila 3 are valoarea de 47000 șomeri, ceea ce înseamnă că, 75% din valorile numarului de someri
înregistrate se poziționează sub valoarea de 47000 șomeri, iar 25% peste această valoare.
c) Amplitudinea intervalului interquartilic - cuprinde 50% din volumul eşantionului.
IQ=Q3-Q1 = 47000-28000 = 19000
4. Se consideră distribuția PIB/locuitor (euro) în țările Uniunii Europene, în anul 2018, în funcție de momentul
aderării (Grupa_1 - formată din țările care erau înainte de extinderea spre Europa Centrală și de Est (fără
Luxembourg); Grupa_2 - formată din țările care au aderat în anul 2004; Grupa_3 - formată din țările care au aderat
în anii 2007 și 2013) . Reprezentarea grafică a acestor distribuții este prezentată în figura de mai jos:
Rezolvare:
Tarile din Vest au dispersia cea mai mare fata
de restul tarilor, iar tarile care au aderat
dupa 2007 au dispersia cea mai mica.
5. Se consideră distribuţia numarului de minute alocate de fiecare student zilnic pentru pregatirea
seminarului bazele statisticii, prezentată în tabelul de mai jos:
20-30 2
30-40 4
40-50 11
50-60 8
60-70 3
TOTAL 28
6. Pentru distribuția persoanelor după gen (masculin și feminin) prezentată în tabelul de mai jos, să se afle
valoarea modului.
Genul persoanei Număr persoane Pondere persoane
(xi) (ni) (fi)
Masculin 25 22.7%
Rezolvare:
Feminin 85 77.3%
𝑛𝑖 𝑚𝑎𝑥 = 85
TOTAL n=110 100%
Aflarea modului presupune identificarea categoriei care corespunde frecvenței celei mai mari.
Frecvența absolută cea mai mare este 85, iar frecvența relativă cea mai mare este 77.3%.
Categoria asociată acesteia este genul feminin. Modul este reprezentat de această categorie (feminin).
Interpretare: În eșantionul observat, cele mai multe persoane (85 persoane sau 77.3%) sunt de genul feminin.
7. Reprezentarea grafică a unei serii de studenți pe sexe este realizată în figura de mai jos:
Rezolvare:
Interpretare:
Modul este reprezentat de categoria “Masculin”.
8. Pentru distribuția persoanelor după nivelul de studii absolvite, prezentată în tabelul de mai jos, să se afle valoarea
mediană și quartila 3.
Studii liceale 23
Studii universitare 16
Studii post-universitare 17
Doctorat 3
TOTAL n = 59
9. Pentru distribuţia studenţilor unei serii după nota obţinută la un test se cunosc următoarele rezultate: D1=
2,5, Q1 = 4, Me=6,5, Q3 = 7, D9=8. Să se construiască diagrama box-plot. Să se calculeze şi să se interpreteze
amplitudinea intervalului interquartilic.
10. Pentru un eșantion de salariați, se înregistrează salariul lunar (mii lei) la 1 ianuarie 2017 și se obțin
următoarele rezultate:
Column1
Mean 2.76
Standard Error 0.301552
Median 2
Se cere: Mode 2
a) Să se aprecieze reprezentativitatea mediei. Standard Deviation 1.507758
b) Să se aprecieze forma distribuției Sample Variance 2.273333
(asimetria și boltirea). Kurtosis -0.77295
Skewness 0.523621
Range 5
Minimum 1
Maximum 6
Sum 69
Count 25
1. Graficul a carui reprezentare se utilizeaza: valoarea minima, quartile 1, mediana, quartile 3 si
valoarea maxima
maxima se numeste:
a) Poligonul frecventelor
b) Poligonul frecventelor cumulate
c) Diagrama Box-Plot
1. Prezentarea seriei
(xi , y j , nij ), i = 1, m, j = 1, p
Variaţii pe coloană – variaţii după i, intrucât nivelul j este constant, este acelasi
Nivelurile de variatie ale variabilei Y sunt pe coloane – cele 6 judete ale Regiunii Nord Est (Bacau, Botosani,
Iasi, Neamt, Suceava, Vaslui).
Avem un total de 48179 persoane care activeaza in domeniul sanitar, care pot fi impartite in 6 grupuri in
functie de judetul din care face parte, sau in 5 grupuri, in functie categoria personalului din care face parte.
Observație:
ni • n• j
f i• = ; f• j =
n•• n••
nij
f ij =
n ••
Frecvenţe relative condiţionate
nij
fi / j = j valoare fixa,i = 1,..., m
n• j
nij
f j /i = i valoare fixa, j = 1,..., p
ni•
6. Medii condiţionate (pe grupe)
7. Media pe total:
p
x j n• j
j =1
x= p
.
n• j
j =1
8. Varianţa general
- masoara, la nivelul populatiei, diferentele dintre indivizi, negrupati
s =s +s
2
X
2
xj
2
p
( x j − x ) n• j
2
j =1
s x2 j = p
n• j
j =1
b) Media varianţelor de grupă (varianţa intra-grupe)
- masoara, la nivel general, diferentele dintre indivizii de acelasi fel (din acelasi
grup)
unde s 2j sunt varianţe condiţionate (varianţe de grupă).
s 2
j n• j
Acestea măsoară variaţia în cadrul unei grupe
s =
2 j
n
j
•j
(intragrupă).
Se calculează astfel:
( xi − x j ) nij 2 pentru Y = yj
s 2j = i =1
n• j
Măsurarea gradului de influenţă a factorului de grupare și a factorilor aleatori
2
s
k2 = 2 100
sX
k1+k2=100%
Interpretare
Dacă k1>k2, atunci factorul de grupare explică mai mult din variaţia variabilei studiate decât
factorii întâmplători.
Se considera distributia unui esantion de 1000 de cititori ai Bibliotecii Centrale Universitare Mihai Eminescu din Iasi
dupa numarul de carti citite intr-o luna, X, si categoria de varsta, Y. Datele sunt prezentate in tabelul de mai jos.
APLICATII
Se cere:
1. Puneți în evidență distribuția marginală a variabilei X și distribuția marginală a variabilei Y.
2. Puneți în evidență distribuțiile condiționate. Câte distribuții condiționate sunt?
3. Să se calculeze și să se interpreteze frecvențele relative parțiale.
4. Să se calculeze și să se interpreteze frecvențele relative marginale.
5. Să se calculeze și să se interpreteze frecvențele relative condiționate.
6. Să se calculeze și să se interpreteze mediile și varianțele condiționate (mediile și variantele pe grupe).
7. Să se calculeze și să se interpreteze media pe total.
8. Să se calculeze media varianțelor de grupă (varianța intra-grupe).
9. Să se calculeze varianța între grupe sau varianța mediilor de grupă (varianța intergrupe).
10. Să se calculeze varianța generala.
11. Să se calculeze coeficientul de influență a factorului de grupare și coeficientul de influență a factorilor
aleatori/întâmplători.
1. Să se calculeze media varianțelor de grupă (varianța intra-grupe).
2. Să se calculeze varianța între grupe sau varianța mediilor de grupă (varianța intergrupe).
3. Să se calculeze varianța generala.
4. Să se calculeze coeficientul de influență a factorului de grupare și coeficientul de influență a
factorilor aleatori/întâmplători.
TEMA
SEMINAR
BAZELE
STATISTICII
S E M I N AR 7 -
R E C AP I T U L AR E
CONCEPTE FUNDAMENTALE DIN STATISTICĂ
populaţie,
eşantion,
unitate statistică,
variabile statistice şi tipuri de variabile,
indicatori statistici,
indici statistici
POPULAŢIA STATISTICĂ
Exemplu:
- Un student de peste 30 ani
VARIABILA STATISTICĂ
❖ variabile discrete: variabile ale cărei valori se exprimă prin numere întregi (fără
subdiviziuni zecimale).
❖ variabile continue: sunt variabile care pot lua o infinitate de valori într-un interval.
❖ variabile nominale: sunt variabile pentru care între valorile acesteia nu există o
ierarhie.
Foarte rău Rău Nici rău, nici bun Bun Foarte bun
1 2 3 4 5
SCALE DE MĂSURARE
❖ Definire:
❖ Tipuri de scale
1. Variabile calitative
2. Variabile cantitative
Exemplu:
- măsurarea temperaturii în sistemul Celsius şi în sistemul Fahrenheit: diferenţa
dintre două temperaturi are un sens.
SCALE DE MĂSURARE
b. Scala raport
❖ are aceleaşi proprietăţi ca scala interval şi, în plus, posedă un zero absolut
(considerat punct de referinţă).
❖ diferenţa şi raportul dintre două valori au un sens.
O serie statistică este reprezentată de termenii (xi ,ni) sau (xi ,fi), cu i=1,m.
FRECVENŢE ABSOLUTE CUMULATE CRESCĂTOR (𝑁𝑖 )
SAU DESCRESCĂTOR (𝑁𝑖 )
exprimă numărul de unităţi statistice cumulate “până la” ( ) sau “peste” ( ) nivelul considerat al
caracteristicii, adică valori ≤ xi, respectiv ≥ xi.
i Unde:
N i = N i −1 + ni = n h 𝑛𝑖 - efectivul corespunzator modalitatii i
h =1 n – efectivul total
𝑁𝑖 - efectivul cumulat până la” sau “peste”modalitatea i
m
N i = N i +1 + ni = nh
h =i
Analiza unei serii statistice univariate. Cazul unei variabile cantitative discrete
1. Mărimi medii:
3. Indicatori ai formei
- Asimetrie (Skewness)
- Boltire (Kurtosis)
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţe diferite (variabilă
discretă).
xi
Media simplă: x= i
n
xi ni
Media ponderată: x =
i
sau x = xi f i
ni i
i
Observaţii:
- de cele mai multe ori, valoarea mediei nu coincide cu niciuna din valorile individuale din care s-a calculat
(s-a extras esenţialul din grup);
- media aritmetică este sensibilă la prezenţa valorilor extreme (outliers);
este valoarea variabilei cea mai frecvent observată într-o distribuţie, adică valoarea xi
care corespunde frecvenţei maxime (nimax).
Observaţii:
o distribuţie poate avea una, două sau mai multe valori modale (serii unimodale,
bimodale sau plurimodale).
MODUL (MO)
▪ este acea valoare a variabilei unei serii ordonate, crescător sau descrescător, până
la care şi peste care sunt distribuite în număr egal unităţile colectivităţii:
jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai
mari decât mediana.
MEDIANA (ME)
AFLAREA MEDIANEI SE FACE DIFERIT ÎN
1. Serii simple:
FUNCŢIE DE TIPUL SERIEI:
- număr impar de termeni - atunci mediana este egală cu termenul central al seriei
ordonate crescător sau descrescător
- număr par de termeni - atunci mediana este egală cu media aritmetică simplă a celor
2 termeni centrali ai seriei ordonate crescător sau descrescător.
Pentru un şir de date ordinale format din număr par de termeni, mediana este egală cu una din cele două
variante din centrul seriei dacă aceste variante sunt egale, iar dacă variantele nu sunt egale mediana ia 2 valori
deoarece nu se poate face media lor
xi − x x i − x ni ( xi − x )
2
( x i − x ) ni
2
Decile d= i d= i
s2 = i
s2 = i
𝒏+𝟏 ni n ni
𝑼𝑫𝟏 = n i i
𝟏𝟎
s
v = 100
x
3 4 4
1 = 2 = −3= −3
s 3 22 s 4
a. Poligonul frecvenţelor:
- construirea acestuia presupune găsirea locului
geometric al punctelor Ai de coordonate (xi,ni) sau
(xi,fi) şi unirea acestora prin segmente de dreaptă.
- aproximează forma unei distribuţii.
Figura 1. Distribuția elevilor de la un liceu după nota
obținută la un examen, în martie 2016
b. Curba frecvenţelor:
1 18
2 23
3 20
4 14
5 6
6 2
7 1
Total 90
c. Diagrama “box-plot” sau “box-and-whiskers” (“cutie şi mustăţi”).
Diagrama bloxpot este un instrument deosebit de util pentru studiul distribuţiei variabilelor
continue, şi mai ales pentru detectarea rapidă a outlierilor unei serii de date (valori extreme sau
aberante).
Avantaje:
Observaţie:
a. Histograma
b. b. Poligonul frecvenţelor
c. c. Curba frecvenţelor
a. Histograma
3. Indicatori ai statisticii descriptive
I. Tipuri de variabile
A. Variabile nominale
B. Variabile ordinale
A) Variabile nominale
1. Prezentarea seriei
(xi , y j , nij ), i = 1, m, j = 1, p
Variaţii pe coloană – variaţii după i, intrucât nivelul j este constant, este acelasi
Observație:
ni • n• j
f i• = ; f• j =
n•• n••
nij
f ij =
n ••
Frecvenţe relative condiţionate
nij
fi / j = j valoare fixa,i = 1,..., m
n• j
nij
f j /i = i valoare fixa, j = 1,..., p
ni•
6. Medii condiţionate (pe grupe)
7. Media pe total:
p
x j n• j
j =1
x= p
.
n• j
j =1
8. Varianţa general
- masoara, la nivelul populatiei, diferentele dintre indivizi, negrupati
s =s +s
2
X
2
xj
2
p
( x j − x ) n• j
2
j =1
s x2 j = p
n• j
j =1
b) Media varianţelor de grupă (varianţa intra-grupe)
- masoara, la nivel general, diferentele dintre indivizii de acelasi fel (din acelasi
grup)
unde s 2j sunt varianţe condiţionate (varianţe de grupă).
s 2
j n• j
Acestea măsoară variaţia în cadrul unei grupe
s =
2 j
n
j
•j
(intragrupă).
Se calculează astfel:
( xi − x j ) nij 2 pentru Y = yj
s 2j = i =1
n• j
Măsurarea gradului de influenţă a factorului de grupare și a factorilor aleatori
2
s
k2 = 2 100
sX
k1+k2=100%
Interpretare
Dacă k1>k2, atunci factorul de grupare explică mai mult din variaţia variabilei studiate decât
factorii întâmplători.
1. Un eşantion de angajaţi ai unei firme a răspuns la câteva întrebări cu caracter personal şi
profesional. Precizaţi natura următoarelor variabile:
APLICATII
2. Distributia notelor obtinute de un grup de studenti la examenul bazele statisticii se prezinta astfel:
Nota obtinuta 6 7 8 9 10
Număr studenti 4 8 12 14 5
APLICATII
3. Distributia unui esantion de angajati in functie de salarial obtinut, se prezinta astfel:
a. Sa se caracterizeze distributia.
APLICATII
4. In anul 2021, pentru un esantion de familii, media venitului pe gospodarie era de 4000
lei, mediana de 4500, iar modul de 4300. Sa sa precizeze forma distributiei.
APLICATII
5. Se considera distributia unui esantion de studenti in functie de numarul de ore de
voluntariat realizat la un camin de copii saptamanal.
2 10
3 19
4 80
5 25
6 10
Total 144
APLICATII
5.
Se cere sa se determine:
a. Cati studenti fac 3 ore de voluntariat saptamanal?
b. Cati studenti face cel mult 4 ore de voluntariat saptamanal?
c. Cat % dintre studenti fac cel putin 4 ore de voluntariat saptamanal?
d. Cat % dintre studenti fac maxim 5 ore de de voluntariat saptamanal?
e. Cat % dintre studenti fac 6 ore de de voluntariat saptamanal?
f. Cati studenti fac minim 3 ore de voluntariat saptamanal?
g. Media esantionului este reprezentativa? Dar populatia, este omogena?
APLICATII
6. O variabila ia urmatoarele valori: 14, 5, 8, 2, 12.
APLICATII
7. In urma analizei statistice privind salariul per familie (exprimat in mii lei), s-a obtinut
urmatoarea diagrama Box-plot.
APLICATII
8. Pentru doua serii de studenti s-au reprezentat grafic distributiile notelor obtinute la un test. Sa se precizeze sensul
asimetriei. Sa se specifice care serie a obtinut note mai mari.
NOTA_1
NOTA_2
APLICATII 3 4 5 6 7 8 9 10 11
9. Se considera distribuţia unui eşantion firme din judetul Iasi, observate după valoarea
profitului acestora (milioane lei). Datele sunt prezentate in tabelul urmator.
20-30 10
30-40 20
40-50 40
50-60 35
60-70 7
Total 112
APLICATII
10. Se considera distribuţia unui eşantion de masini, observate după pretul acestora (mii
euro). Sa se interpreteze indicatorii prezentati in tabelul de mai jos.
Statistics
N Valid 155
Missing 2
Mean 27.39
Median 22.79
Mode 12.64
Std. Deviation 14.35
Variance 205.97
Skewness 1.76
Kurtosis 3.63
Percentil 25 17.89
es
APLICATII 50
75
22.79
31.96
11. Reprezentarea grafică a unei populatii pe medii de rezidenta este realizată în figura
de mai jos:
APLICATII
12. Pentru un esantion de angajati, distribuiti dupa variabila educatie (in ani) si pozitia in
firma, s-au obtinut urmaoarele rezultate:
Media 24 20 36
Varianta 64 16 36
APLICATII
12.
APLICATII
13. Selectați indicatorii statistici:
a) numărul populației Republicii Moldova la 1 ianuarie 2015 a constituit 3555,2 mii persoane;
b) indicele volumului producției industriale a Republicii Moldova în anul 2014 este 107,3%;
d) exprimă dispersarea tuturor nivelurilor individuale ale unei caracteristici faţă de nivelul
lor mediu.
15. Populația unei țări reprezintă:
a) media aritmetică;
b) modulul (dominanta);
c) dispersia;
d) mediana.
17. Valoarea unei serii statistice ordonate crescător sau descrescător, care împarte
seria în două părţi egale, reprezintă:
a) abaterea liniară;
b) modulul (dominanta);
c) mediana;
d) media geometrică.
18. O distributie unidimensionala se prezinta sub forma:
a. X, Y:{𝑥𝑖 , 𝑦𝑗 , 𝑛𝑖𝑗 }, i=1, 𝑚 si j=1, 𝑝
𝑥1 … … … 𝑥𝑖 … … . 𝑥𝑚
b. X: 𝑛 … … . . 𝑛 … … . 𝑛 , i=1, 𝑚
1 𝑖 𝑚
c. X: (𝑥𝑖 ) i=1, 𝑛
19. . O distributie biidimensionala se prezinta sub forma:
a. X, Y:{𝑥𝑖 , 𝑦𝑗 , 𝑛𝑖𝑗 }, i=1, 𝑚 si j=1, 𝑝
b. X: (𝑥𝑖 ) i=1, 𝑛
𝑥1 … … … 𝑥𝑖 … … . 𝑥𝑚
c. X: 𝑛 … … . . 𝑛𝑖 … … . 𝑛𝑚 , i=1, 𝑚
1
SEMINAR
BAZELE
STATISTICII
S E M I N AR 8
PROBABILITĂŢI ŞI DISTRIBUŢII TEORETICE
1. Probabilităţi
2. Variabile aleatoare
3. Distribuţii teoretice
1. PROBABILITĂŢI
- Planul empiric
O variabilă statistică X: (𝑥𝑖 ) cu frecvenţele 𝑛𝑖 sau 𝑓𝑖 formează o distribuţie statistică
xi-1-xi ni fi Fi
0-10 10 0.125 0.125
10-20 20 0.250 0.375 𝑥ҧ = 23.13
20-30 30 0.375 0.750
𝑠 2 = 115.23
30-40 15 0.188 0.938
40-50 5 0.062 1.000
Total 80 1.000 -
- Planul teoretic
X – variabila aleatoare
𝑝𝑖 - probabilitatea de apariţie
σ𝑖 𝑝𝑖 = 1 (100%)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
Total ∑ pi =1.0
Definire
() x R, f ( x) 0
+
f ( x) dx = 1
−
= M( X )
2 =V( X )
DISTRIBUŢIA UNEI VARIABILE ALEATOARE
Distribuţia sau legea de probabilitate a unei variabile aleatoare este dată prin funcţia
sa de probabilitate P(X).
F ( x) = P( X x), () x R
Funcţia de repartiţie are următoarele proprietăţi:
() x R, 0 F ( x) 1
lim F ( x ) = 1
x → +
lim F ( x) = 0
x → −
DISTRIBUTII UTILIZATE IN STATISTICA
Notaţie: X ~ N (μ , 𝜎 2 )
( x − )2
1 −
f(x)= e 2 2
2
b) Distribuţia normală standard Z
𝑥𝑖 − μ
𝑧𝑖 =
σ
Notaţie: X ~ N (μ , 𝜎 2 ) → Z ~ N (0,1)
Orice distributie normala poate fi standardizata prin conversia valorilor sale in scoruri z.
Scorurile z ne arata la cate abateri standard fata de medie se afla fiecare valoare.
0.0
0.1
0.2
0 z
Transformarea unei distributii statistice intr-o distributie teoretica si interpretarea acesteia in termeni
probabilistici presupune:
- Calculul mediei si abaterii standard a seriei observate;
- Calculul valorilor variabilei normale centrate reduse Z corespunzatoare valorilor xi;
Xi − μ
zi =
σ
- Se citeste din tabela Laplace, probabilitatea corespunzatoare P(Z < zi), adica probabilitatea ca o unitate
colectiva sa aiba o valoare X inferioara valorii xi considerate. Tabela indica valoarea suprafetei cuprinsa
intre curba, axa Ox si ordonatele in x=0 si xi=zi.
Distributia normala vs distributia normala standard
Toate distribuțiile normale, la fel ca distribuția normală standard, sunt unimodale și distribuite simetric cu o
curbă în formă de clopot. Cu toate acestea, o distribuție normală poate lua orice valoare ca medie și
deviație standard. În distribuția normală standard, media și deviația standard sunt întotdeauna fixate.
Fiecare distribuție normală este o versiune a distribuției normale standard care a fost întinsă sau stoarsă și
deplasată orizontal la dreapta sau la stânga.
Media determină unde este centrată curba. Creșterea mediei deplasează curba spre dreapta, în timp ce
scăderea mișcă curba spre stânga.
Abaterea standard întinde sau micsoreaza curba. O abatere standard mică are ca rezultat o curbă îngustă, în
timp ce o abatere standard mare duce la o curbă largă.
Standardizarea unei distribuții normale
Când standardizați o distribuție normală, media devine 0 și deviația standard devine 1. Acest lucru vă
permite să calculați cu ușurință probabilitatea apariției anumitor valori în distribuția dvs. sau să
comparați seturi de date cu diferite mijloace și abateri standard.
În timp ce punctele de date sunt denumite x într-o distribuție normală, ele sunt numite scoruri z sau z în
distribuția z. Un scor z este un scor standard care vă arată la câte deviații standard se află la distanță de
media unei valori individuale (x):
1. Un scor z pozitiv înseamnă că valoarea dvs. x este mai mare decât media.
2. Un scor z negativ înseamnă că valoarea dvs. x este mai mică decât media.
Normalizați scorurile pentru luarea deciziilor statistice (de exemplu, notarea pe o curbă).
Găsiți probabilitatea observațiilor într-o distribuție care cade peste sau sub o anumită valoare.
Distribuția normală standard este o distribuție a probabilității, astfel încât aria de sub curba dintre două puncte
vă indică probabilitatea ca variabilele să ia un interval de valori. Suprafața totală sub curbă este de 1 sau
100%.
Fiecare scor z are o valoare p asociată care vă indică probabilitatea apariției tuturor valorilor sub sau peste
acel scor z. Aceasta este zona de sub curba stângă sau dreaptă a scorului z.
Proprietăţile funcţiei lui Laplace, Φ(z)
▪ Φ(zi)=P(0<Z<zi)
▪ Φ(0) = 0
▪ Φ(-zi) = - Φ(zi)
P( − zi Z zi ) = F ( zi ) − F ( − zi ) = ( zi ) − ( − zi ) = 2 ( zi )
Observație:
Tabela Z se folosește:
-pentru a afla o probabilitate care corespunde unei valori date a lui Z (de
exemplu, P(Z>zi)).
e) Distribuţia Snedecor-Fisher
O variabilă aleatoare repartizată după o lege Snedecor-Fisher, simbolizată F (1 , 2 ) .
• unde υ1 şi υ2 reprezintă grade de libertate, parametrii repartiţiei Snedecor-Fisher.
APLICATII
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
2) Pentru o variabilă 𝑋~𝑁(23,13; 115,23), să se afle 𝑃(𝑋 < 30).