Documente Academic
Documente Profesional
Documente Cultură
VARIABILE
ALEATOARE ȘI REPARTIȚII STATISTICE
Fiecare din unităţile unei populaţii statistice are anumite trăsături, însuşiri
sau proprietăţi, numite caracteristici statistice. În general, unităţile statistice
posedă un număr foarte mare de însuşiri, dar în cadrul analizei statistice se reţin
numai acelea care prezintă interes pentru cercetarea întreprinsă.
După modul de exprimare, caracteristicile statistice pot fi cantitative
(numerice) sau calitative (atributive). Caracteristicile cantitative se măsoară
(cifra de afaceri, producţia, consumul etc.), se numără (numărul de muncitori,
numărul de utilaje etc.) sau se calculează, în timp ce caracteristicilor calitative li
1
se observă frecvenţa realizării (starea socială, profesia, calitatea produselor etc.).
Distincţia dintre o caracteristică exprimată cantitativ şi o caracteristică atributivă
este, uneori, convenţională. Unei caracteristici numerice i se pot atribui, dacă se
doreşte, expresii calitative, precum şi caracteristicile calitative pot fi cuantificate
numeric, pe baza unor convenţii.
După numărul valorilor posibile pe care unităţile statistice le pot
înregistra, caracteristicile sunt alternative şi nealternative. Caracteristicile
nealternative pot lua diferite valori diferite pentru fiecare unitate în parte, în timp
ce caracteristicile alternative (binomiale sau bernoulliene) au caracter dihotomic,
pot lua numai două valori (admis – respins, da – nu etc.).
Partea din populaţia statistică care face de cele mai multe ori obiectul
cercetării statisticii se numeşte selecţie sau eşantion şi este o submulţime
reprezentativă a populaţiei.
Eşantionul reprezintă ansamblul unităţilor statistice ale căror caracteristici
sunt înregistrate în cercetarea statistică, al cărui volum este, de regulă,
considerabil mai mic decât cel al populaţiei studiate. Procesul de obţinere a
eşantionului poartă numele de selecţie sau sondaj statistic şi trebuie să
îndeplinească o serie de condiţii care să asigure reprezentativitatea acestuia, adică
la o scară mai mică, eşantionul trebuie să reproducă trăsăturile populaţiei din care
provine. Acest proces are la bază conceptele de experiență aleatoare, respectiv,
de variabilă aleatoare.
Cel mai simplu mod de a defini o experienţă aleatoare este prin a spune
că aceasta este acea experienţă al cărei rezultat nu poate fi cunoscut decât după
încheierea ei. Cuvântul „aleator” semnifică faptul că nu se poate preciza dinainte
valoarea pe care o va lua variabila respectivă la un moment dat.
O experienţă aleatoare are mai multe rezultate posibile, cu o anumită
probabilitate teoretică de apariție. Având în vedere că fiecare eveniment este
caracterizat de o anumită probabilitate de apariţie, valorile variabilei aleatoare vor
fi însoţite de probabilităţile asociate apariţiei lor.
Din punct de vedere practic, pentru a descrie o experienţă aleatoare în
termeni de rezultate posibile şi probabilităţi de apariţie se foloseşte un tablou
format din două linii, pe prima linie înscriindu-se rezultatele posibile ale
experienţei şi pe linia a doua probabilităţile teoretice corespunzătoare.
2
De exemplu, experienţa aleatoare care corespunde obținerii unei note după
prezentarea la un examen se poate descrie prin intermediul următorului tablou:
1 2 3 4 5 6 7 8 9 10
𝑋: ( )
1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10
Pe prima linie sunt înscrise notele de la 1 la 10, care sunt toate rezultatele
posibile după prezentarea la un examen, iar pe linia a doua s-a pus în evidenţă
faptul că fiecare rezultat are o şansă din 10 să apară.
𝑎
P (eveniment A)=
𝑏
4
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE
o condiţia de calitate, care impune înregistrarea unor date reale, fără erori.
Îndeplinirea acestei condiții depinde foarte mult de măsurile prin care se asigură
logistica desfăşurării observării statistice: elaborarea coerentă și omogenă a
formularelor de înregistrare a datelor şi a instrucţiunilor de completare a acestora,
1
recrutarea şi instruirea temeinică a personalului de înregistrare, optimizarea
timpului necesar culegerii datelor, stabilirea locurilor concrete de unde se vor
obține informațiile etc.
2
După volumul de date obţinute în urma observării statistice, observarea
poate fi totală sau parţială.
3
În funcție de modul de culegere a datelor, observarea statistică poate fi
indirectă sau directă.
4
legii numerelor mari, aceste erori se compensează și se anulează reciproc, dacă
numărul de observații este suficient de mare.
5
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE
Faza ulterioară observării statistice, în urma căreia s-au obţinut toate datele
necesare, o reprezintă prelucrarea primară a datelor, care constă în operaţiuni de
centralizare, ordonare, grupare şi reprezentare a datelor sub formă de serii, tabele
sau grafice.
A = xmax – xmin
în care, xmax reprezintă nivelul maxim al caracteristicii, iar xmin este nivelul minim
al acesteia.
Următoarea etapă o reprezintă stabilirea dimensiunii optime a intervalului
de grupare h.
1
În cazul populaţiilor de volum mare, grupate după caracteristici cu tendinţe
de variaţie sistematică şi cu o amplitudine de variaţie mare, dimensiunea optimă
a intervalelor de grupare (h) se poate determina conform formulei lui H. Sturges:
xmax xmin
h
1 3,322 lg n
2
Frecvenţele relative (fi) sunt determinate fie sub formă de coeficient, fie
ni
procentual, ca raport între frecvențele absolute și volumul eșantionului: f i
n
Suma frecvenţelor relative este fie 1, dacă sunt exprimate sub formă de
coeficient, fie 100%, dacă se exprimă procentual:
fi 1 ,
k
i 1
f
i 1
i 100%
i i
Cni nm ; Cfi f m
m 1 m 1
3
Exemple curs Statistică 17.03.2021:
Pe baza unui eşantion format din 10 date referitoare la profiturile lunare realizate de o
companie, se cere gruparea acestora pe intervale de frecvenţă.
Valorile înregistrate sunt [mii lei]:
9,3 5,2 11,5 4,8 8,2 6,8 9,1 12,7 6,3 10,2
Valoarea obținută din calcul se rotunjește în sus către cea mai apropiată valoare întreagă.
h = 2.
Deoarece caracteristica Profit este continuă, vom construi intervalele de grupare după
următorul algoritm:
Primul interval va include valoarea minimă dintre datele analizate (cel mai adesea, în
practică, limitele intervalelor sunt valori întregi):
4–6
6–8
8 – 10
10 – 12
12 – 14
Limita superioară a primului interval (6) devine limita inferioară a intervalului al doilea, și
se continuă cu același algoritm până se include valoarea maximă în intervalele construite.
Pasul următor e să stabilim în ce interval includem limitele care apar în două intervale
succesive. Există două variante:
1. Includem limitele inferioare în fiecare interval și le excludem pe cele superioare:
[4 – 6)
[6 – 8)
[8 – 10)
[10 – 12)
[12 – 14)
Intervale propuse:
1 – 4 (includem notele de 1, 2, 3 și 4 reprezentând studenții nepromovați la examen)
5 – 7 (includem notele de 5, 6 și 7 reprezentând studenții care au promovat examenul cu
note mici și medii)
8 – 10 (includem notele de 8, 9 și 10 reprezentând studenții care au promovat examenul cu
note mari și foarte mari)
9,3 5,2 11,5 4,8 8,2 6,8 9,1 12,7 6,3 10,2
[4 – 6)
[6 – 8)
[8 – 10)
[10 – 12)
[12 – 14)
Frecvențele absolute (ni) reprezintă numărul de valori care se includ în fiecare interval în
parte:
xi ni
[4 – 6) 2
[6 – 8) 2
[8 – 10) 3
[10 – 12) 2
[12 – 14) 1
Total 10
Suma frecvențelor absolute este întotdeauna egală cu volumul eșantionului (numărul de date
analizate – n).
Frecvențele cumulate ne arată câte valori (sau ce procent din ele) se regăsesc sub un anumit
nivel.
De exemplu, sub nivelul de 10 mii lei avem 7 valori ale profitului, reprezentând 70% din
totalul profiturilor analizate.
Sub nivelul de 8 mii lei avem 4 valori ale profitului, reprezentând doar 40% din total.
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE
𝑥1 𝑥2 … … 𝑥𝑖 … … 𝑥𝑘
𝑋: ( 𝑛 𝑛 … … 𝑛 … … 𝑛 )
1 2 𝑖 𝑘
sursele datelor, care trebuie riguros citate, deoarece acest lucru permite
verificarea exactităţii şi corectitudinii datelor înregistrate în tabel.
statistică studiată, locul şi perioada cercetării şi care trebuie să fie clar şi concis;
reţeaua graficului, care este opțională și este formată din linii paralele,
orizontale şi verticale, ce servesc la determinarea locului unor puncte, simboluri
sau figuri, fără a îngreuna citirea graficului;
Cele mai des întâlnite tipuri de grafice în reprezentarea seriilor statistice sunt
diagramele. Acestea pot fi reprezentate prin benzi sau prin coloane.
În cazul diagramelor prin benzi, se utilizează un sistem de axe
bidimensional. Benzile sunt de fapt dreptunghiuri, ale căror baze se reprezintă pe
axa Oy, în timp ce, pe axa Ox se reprezintă nivelul valoric al caracteristicii
studiate.
Diagramele prin coloane sunt, de asemenea, dreptunghiuri, cu diferenţa că,
de această dată, bazele dreptunghiurilor se reprezintă pe axa Ox, iar nivelul
valoric al caracteristicii studiate se reprezintă pe axa Oy.
2
CAPITOLUL 3. PARAMETRII REPARTIȚIILOR STATISTICE
Media
x i
x i 1
n
3
Ca medie aritmetică ponderată:
k
x i ni
x i 1
k
n
i 1
i
x i
*
ni
x i 1
k
n
i 1
i
Mai există și alte variante de medie, mai rar utilizate în economie, precum:
x i
2
o media pătratică: x p i 1
n
n
o media armonică: xh n
1
x
i 1 i
n
o media geometrică: xg n xi 1
i
4
Mediana
Mediana (Me) unei serii de date este valoarea centrală a unei serii de date
ordonate crescător sau descrescător care împarte seria respectivă în două părţi
egale.
n
N e1
Me le he 2
ne
5
Modul
Modul (Mo) sau valoarea modală a unei variabile economice este valoarea
caracteristicii cu frecvenţa maximă de apariţie, adică valoarea cea mai des
întâlnită în repartiţia de date analizate.
1
Mo lo h0
1 2
6
Exemple curs Statistică 24.03.2021:
1 2 3 4 5 6 7 8 9 10
( )
0 2 5 10 15 20 15 20 15 10
Histograma:
Pe datele din exemplul de mai sus, se construiesc dreptunghiuri care au drept bază notele (sau
intervalele de grupare, dacă datele sunt grupate), iar drept înălțime frecvențele absolute, în cazul
nostru, numărul de studenți care a primit notele respective.
Linia neagră care unește bazele superioare ale dreptunghiurilor histogramelor reprezintă
poligonul frecvențelor.
Oy
(nr. stud)
20
15
10
5
2
1 2 3 4 5 6 7 8 9 10 Ox (notele)
O serie de studenți cu rezultate foarte bune la disciplina respectivă:
Oy
(nr. stud)
20
15
10
5
2
1 2 3 4 5 6 7 8 9 10 Ox (notele)
Oy
(nr. stud)
20
15
10
5
2
1 2 3 4 5 6 7 8 9 10 Ox (notele)
MEDIA
Media aritmetică simplă:
1 2 3 4 5 6 7 8 9 10
( )
0 2 5 10 15 20 15 20 15 10
MEDIANA
Mediana pe date grupate pe intervale:
Intervalul median: primul interval a cărui frecvență cumulată depășește pentru prima dată n/2
= 112 / 2 = 56
În cazul nostru, 67 depășește pentru prima dată valoarea 56, deci intervalul median este
intervalul între 5 – 7:
1
Abaterea medie liniară este un parametru concludent al variaţiei numai
pentru populaţiile statistice omogene. Neajunsurile abaterii medii liniare sunt
înlăturate prin calcularea varianţei.
Varianţa (σ2) sau dispersia unei populații statistice este cel mai cunoscut
parametru teoretic al variației şi se determină ca o medie aritmetică a pătratelor
abaterilor valorilor studiate de la media lor. Cel mai adesea în practica economică
ea este calculată la nivelul eșantionului de date avut la dispoziție.
2
Abaterea standard () sau abaterea medie pătratică a unei populații
statistice se determină ca o medie pătratică a abaterilor valorilor seriei faţă de
media lor, respectiv, ca rădăcină pătrată din varianţă ( 2 ).
La nivelul eșationului, se determină după relația generală .
3
Fiind un parametru relativ al împrăştierii, coeficientul de variaţie permite
compararea variaţiei mai multor caracteristici diferite, atât ca ordin de mărime,
cât şi ca natură.
4
Exemple curs Statistică 31.03.2021:
Luăm exemplul a doi studenți diferiți care au primit note la două discipline. Presupunem că
numărul de credite la cele două discipline sunt egale, astfel încât ponderile acestora în nota finală
sunt identice și nu influențează rezultatul final.
Note student 1: 6 8
Note student 2: 4 10
Observăm că diferența dintre cei doi studenți nu poate fi evidențiată cu ajutorul mediei
aritmetice.
Astfel, e nevoie de calcularea și interpretarea parametrilor variației pentru a diferenția cele
două situații.
Abaterea medie liniară:
Observăm că, atât în cazul studentului 1, cât și în cazul studentului 2, suma celor două
diferențe este egală cu 0. Aceasta e o proprietate fundamentală a mediei aritmetice.
Pentru a putea însuma aceste diferențe, fără ca rezultatul final să fie 0, e necesar ca diferențele
negative să fie transformate în diferențe pozitive.
Abaterea medie liniară realizează acest deziderat prin punerea în modul a diferențelor față de
medie:
Pe date negrupate:
Cu cât abaterea medie liniară este mai mare, cu atât variațiile fenomenului analizat în raport
cu media sunt mai mari (adică fenomenul este mai fluctuant). În economie, cu cât fenomenele sunt
mai fluctuante, cu atât ele sunt mai greu de previzionat și de ținut sub control.
Varianța
Pe date negrupate:
Variața realizează dezideratul de a însuma diferențele față de medie fără ca rezultatul final să
fie 0 prin ridicarea la pătrat a acestora:
Varianța are valori mult mai mari deoarece prin ridicare la pătrat, valoarea obținută este mult
mai mare decât valorile inițiale de la care s-a pornit.
Drept urmare, varianța este un indicator teoretic al variației, ea este rar utilizată în practică.
Pentru a aduce valoarea obținută la nivelul valorilor de la care s-a pornit, se extrage radicalul
din varianță și se obține abaterea medie pătratică (abaterea standard).
Datorită modului său de calcul (prin ridicare la pătrat și apoi extragerea radicalului) abaterea
medie pătratică are întotdeauna valori mai mari decât abaterea medie liniară, calculată prin punerea
în modul.
În practica economică, se consideră că abaterea medie pătratică reflectă cel mai corect
variațiile unui fenomen.
Abaterea medie pătratică are dezavantajul că nu permite compararea unor fenomene exprimate
în unități de măsură diferite.
Acest dezavantaj este eliminat prin calcularea coeficientului de variație:
1,41
Pentru studentul nr. 1: 𝐶𝑉 = ∗ 100 = 20,14% e mai mic de 35%, ceea ce arată o situație
7
normală
4,24
Pentru studentul nr. 2: 𝐶𝑉 = ∗ 100 = 60,57% e între 35% și 70%, ceea ce arată o
7
variabilitate crescută, care necesită luarea unor măsuri de reglare a situației.
CAPITOLUL 4. CERCETAREA PRIN SONDAJ
(ESTIMAȚII, ESTIMATORI, INTERVALE DE ÎNCREDERE)
Astfel, așa cum s-a arătat și în capitolul introductiv, populaţia statistică este
alcătuită din totalitatea unităţilor ce compun fenomenul supus cercetării, iar
volumul său se notează, de regulă, cu N.
Eșantionul cunoscut și sub denumirile de colectivitate parţială,
colectivitate de selecţie, probă, mostră etc., reprezintă subansamblul de unităţi
extrase din populația statistică în vederea culegerii datelor şi a generalizării la
nivelul întregii populaţii statistice a rezultatelor obţinute din prelucrarea acestora.
Volumul eşantionului se notează cu n.
1
Întotdeauna, în cazul cercetării parţiale va fi valabilă relaţia: n N, iar în
cazul cercetării totale n = N. Dintr-o anumită populaţie statistică pot fi prelevate
mai multe eşantioane, care să difere între ele ca volum şi structură.
Media
xi x i
m i 1
x i 1
aritmetică N n
N n
Varianţa
xi m2 x x i
2
2 i 1
s2 i 1
N n 1
2
Estimatorul reprezintă o funcţie statistică utilizată pentru a estima un
parametru necunoscut al populaţiei statistice. Acesta este rezultatul procesului de
inferenţă sau inducţie statistică şi are asociată o probabilitate ce caracterizează
gradul său de acurateţe (încredere).
3
s s
P x t m x t 1
n n
n 1 s 2 n 1 s 2
P
2
1
2 2
1
2 2
libertate
n 1 s 2
n 1 s 1
2
P
2 2
1
2 2
4
Exemple curs Statistică 07.04.2021:
2 3 6 5
2 + 3 + 6 + 5 16
𝑥̅ = = = 4 mii lei
4 4
1 1
𝑠2 = ∙ [(2 − 4)2 + (3 − 4)2 + (6 − 4)2 + (5 − 4)2 ] = ∙ (4 + 1 + 4 + 1) =
(4 − 1) 3
10
= = 3,33
3
Se calculează abaterea medie pătratică: 𝑠 = √𝑠 2 = √3,33 = 1,82
Se determină valoarea tabelară t tabelar aferentă testului Student. Ea se culege din tabelele statistice
în funcție de probabilitatea α / 2 și n – 1 grade de libertate.
p = 95% (0,95) de unde rezultă că α = 5% (0,05)
Probabilitatea α / 2 = 0,05 / 2 = 0,025
n = 4, rezultă gradele de libertate n – 1 = 3
1,82 1,82
Limita inferioară = = 4 − 5,392 ∙ = 4 − 5,392 ∙ = 4 − 5,392 ∙ 0,91 =
√4 2
= 4 – 4,90 = - 0,90
1,82
Limita superioară = = 4 + 5,392 ∙ = 4 + 4,90 = 8,90
√4
Putem spune cu probabilitatea de 95% (sau coeficientul de încredere p) că profitul firmei analizate
se va situa în intervalul (- 0,90; 8,90). Observăm că limitele intervalului sunt foarte largi, deoarece
am lucrat pe un eșantion foarte mic, de doar 4 valori. Drept urmare, valoarea tabelară din tabelele
repartiției Student a fost foarte mare.
2
Pentru 𝜒𝛼 : α / 2 = 0,025; n – 1 = 3
2
2
Din tabelul statistic aferent repartiției hi pătrat rezultă : 𝜒𝛼 : = 9,348
2
2
Pentru 𝜒1− 𝛼 : 1 – α /2 = 1 – 0,05 / 2 = 1 – 0,025 = 0,975; n – 1 = 3
2
2
Din tabelul statistic aferent repartăției hi pătrat: 𝜒1− 𝛼 = 0,216
2
Pentru abaterea medie pătratică, extragem radical din limitele intervalului pentru varianță:
Putem spune cu probabilitatea de 95% că abaterea medie pătratică (variația medie a profitului)
va fi între 1,02 și 6,80 mii lei