Sunteți pe pagina 1din 44

Statistica

1. Notiuni introductive

1.1 Precizari istorice

Forme elementare de statistica au fost folosite inca de la inceputurile civilizatiei.


In timpul razboiului peloponesiac (431-404 i.Hr), atenienii au folosit tehnici cunoscute azi ca fiind
instrumente de baza ale statisticii pentru a determina inaltimea zidurilor cetatii Plataea.

Dinastia Han (202 i.Hr – 220 d.Hr) si Imperiul Roman au fost printre primele state ce au colectat
date despre populatia, geografia si bogatia imperiului.

Al-Khalil (717 – 786 d.Hr) a folosit prima data conceptele de permutari si combinatii, iar Al-Kindi
(801-873 d.Hr) a folosit prima data conceptul de analiza frecventelor pentru a decripta mesaje
codate.

In 1662, John Graunt si William Petty au creat primul “life table” calculand probabilitatea de
supravietuire pentru fiecare varsta si au estimate populatia Londrei.

Incepand cu secolul al XVI-lea, dezvoltarea teoriei probabilitatilor asaza statistica pe o noua


directie de dezvoltare, ca parte componenta a matematicii. In 1749, Gottfrien Achenwall introduce
pentru prima data termenul STATISTIK, pentru a descrie analiza datelor legate de stat. In 1791
termenul este preluat si in limba engleza, fiind introdus de catre Sir John Sinclair in lucrarile
Statistical Account of Scotland.

Pierre de Fermat, Blaise Pascal (teoria probabilitatilor), Jakob Bernoulli, Abraham de Moivre
(bazele matematice ale statisticii), Thomas Bayes (teorema lui Bayes) Pierre-Simon Laplace, Carl
Friedrich Gaus (legea normala) William Playfair (reprezentarile grafice), Antoine Augustine Cournot
(valoarea mediana), Karl Pearson (primul department de statistica intr-o universitate – University
College London, testul chi-patrat, coeficientul de corelatie), Ronald Fisher (testul ANOVA), William
Sealy Gosset (distributia Student), Jerzy Neyman (intervale de incredere) sunt printer matematicienii
si oamenii de stiinta ce au avut contributii importante la dezvoltarea statisticii.

1.2 Definitia statisticii

Initial statistica a avut rolul de a furniza autoritatilor date cu un caracter demografic. Incepand cu
secolul al XIX-lea statistica devine ramura a matematicii, conceptul fiind extins si aplicat in diverse
domenii ale stiintei si economiei.

Statistica utilizeaza date intr-un context de incertitudine, pentru a genera informatii despre
lumea care ne inconjoara. In acest fel se creaza un fundament pentru luarea deciziilor.

In societatea actuala, actiunile intreprinse se bazeaza pe date si genereaza alte date. Prelucrarea
acestora (date) are la baza elemente si tehnici ale statisticii.

Sintetic, statistica ar putea fi definita ca stiinta colectarii, prelucrarii si analizei datelor cu scopul
de a obtine informatii legate de un fenomen sau o populatie studiat(a).

1
1.3 Concepte

Statistica nu studiaza elementele individuale ale populatiei, ci populatia in ansamblu, oferind


informatii cu un anumit grad de probabilitate. Statistica nu face niciodata afirmatii certe!

Intelegerea populatiei Probabilitati


Populatie
Ce informatii furnizeaza parametrii statistica Teoria probabilitatilor contribuie la
despre populatia studiata construirea esantioanelor

Parametrii Esantion

Statistica inferentiala Statistica descriptiva


Statistici Datele colectate din esantion sunt
Parametrii polulatiei sunt estimati si
analizati pornind de la statistici. organizate si prelucrate pt obtinerea
Se folosesc si notiuni de probabilitati de informatii relevante despre date

Studiile statistice se impart in doua categorii:

1. Sample survey - se analizeaza elemente ce provin dintr-o populatie statistica pentru a


determina caracteristici ale populatiei;
2. Comparative survey - se compara elemente ce provin dintr-o populatie statistica cu alte
elemente ce provin din aceeasi populatie sau din alta populatie pentru a evidentia anumite
diferente sau pentru a studia fenomene/procese.

Notiunile fundamentale ce stau la baza tehnicilor si instrumentelor statistice sunt:

• Elementul statistic – reprezinta purtatorul de date.


Exemplu: firma, studentul, clientul.

• Populatia statistica - reprezinta totalitatea elementelor statistice si are un caracter general.


Exemplu: totalitatea firmelor din Romania, studentii UBB, clientii Dell.

2
Volumul unei populatii statistice este, in general, foarte mare si prin urmare nu este eficient
sa fie analizata intreaga populatie statistica. Din acest motiv, studiile statistice se fac folosind
submultimi ale populatiei statistice si nu intreaga populatie.
O exceptie este reprezentata de recensamant (Census), cand intreaga populatie statistica
este analizata.
Notatie: N.

• Cadrul de esantionare (sampling frame) – reprezinta o “lista” a tuturor elementelor


statistice. Cadrul de esantionare are un caracter specific.
Exemplu: lista completa cu numele tuturor frmelor din Romania: For Your Team, Kudos
Technologies, Fivetech Software Solutions, Elcar, Vest TransCom, Magic Tour, Magic Fashion,
Schuller, OMV Romania, Petrom, HBC, …;
lista complete cu numele tuturor studentilor din UBB: Ionut, Daria, Ioana, Andreea, Cristian,
Alexandru, …;
In mod ideal, cadrul de esantionare ar trebui sa cuprinda intreaga populatie. In realitate,
datorita volumului foarte mare al populatiei statistice, cadrul de esantionare nu cuprinde
intreaga populatie.
Este necesar sa se genereze un cadru de esantionare reprezentativ pentru populatie, adica sa
cuprinda toate clasele (grupele) existente in populatie.
De exemplu, analizand totalitatea firmelor din Romania (populatia statistica), cadrul de
esantionare ar trebui sa cuprinda firme din fiecare domeniu de activitate. Neluarea in
considerare a firmelor dintr-un domeniu (transporturi de exemplu) conduce la un cadru de
esantionare nereprezentativ.

• Esantionul prevazut (intended sample) - reprezinta acea submultime a populatiei statistice


de la care se doreste obtinerea datelor. Nu toate elementele statistice ale esantionului
prevazut vor furniza insa date. Dintre motive ar putea fi: refuzul de a participa la studiu,
raspunsurilor incomplete, raspunsuri invalide, etc.
Esantionul prevazut trebuie sa fie reprezentativ, adica sa aiba o rata de participare suficient
de mare.

• Esantionul (sample) – reprezinta acea submultime a populatiei statistice care furnizeaza


datele folosite efectiv in studiu.
Exemplu: For Your Team, Kudos Technologies, Fivetech Software Solution.
Esantionul trebuie sa fie reprezentativ pentru populatia studiata, cea ce inseamn ca trebuie
sa aiba o anumita structura (reprezentativitatea cadrului de esantionare)un anumit volum
(reprezentativitatea esantionului prevazut).
Notatie: n.
• Variabila statistica – proprietatea comuna a datelor statistice, in functie de care acestea
(datele) sunt organizate si prelucrate.
Exemplu: numar de angajati, cifra de afaceri, judetul de resedinta al sediului social, anul
infiintarii, temperature, inaltimea, greutatea, gradul de satisfactie.
• Datele statistice – reprezinta informatiile colectate si prelucrate in cadrul studiului.
Datele satistice pot fi:
✓ Calitative – atunci cand exprima o anumita caracteristica, fiind cuvinte/atribute.

3
Exemplu: valorile variabilei “judetul de resedinta al sediului social”: Cluj, Bihor,
Bistrita Nasaud, Salaj, Maramures;
valorile variabilei “grad de satisfactie”: satisfacut, nesatisfacut
✓ Cantitative discrete – sunt numere pentru care nu au sens fractiunile. Au sens
valorile intregi (2, 3, -3, 5, 0) dar nu au sens cele fractionare (2.25, 3.86, 2.5)
Exemplu: valorile variabilei “numar de angajati”: 2, 5, 3, 61;
valorile variabilei “anul infiintarii”: 2019, 2017, 2003, 1991;
✓ Cantitative continue – sunt numere pentru care au sens fractiunile. Au sens atat
valorile intregi (2, 3, 5, 10, -6), cat si cele fractionare (2.98, 3.64, 2.5, -19.2)
Exemplu: valorile variabilei “cifra de afaceri”: 15820, 17121, 20673415, 15219.3;
valorile variabilei “temperatura”: 19.3OC, -10.2OC, 20OC, 5OC.

Diagrama urmatoare prezinta schematic notiunile fundamentale discutate.

Populatia statistica

Esantion

element data
statistic

Exemplu: Sunt analizate firmele din Romania privind: numarul de angajati, cifra de afaceri, judetul
de resedinta al sediului social, anul infiintarii firmei, valoarea creantelor.
Elementul statistic - fiecare firma din Romania. In diagrama de mai sus elementul statistic este
reprezentat prin simbolul , cateva exemple fiind: For Your Team , Kudos Technologies, Fivetech
Software Solutions, Elcar, Vest TransCom, Magic Tour, Magic Fashion;
Populatia statistica - totalitatea firmelor din Romania: 877050 de firme active;
Cadrul de esantionare (sample frame) – lista cu numele tuturor firmelor din Romania;
Esantionul prevazut (intended sample) – firmele de la care se doreste obtinerea de informatii;
Esantionul – acele firme care au furnizat date valide: For Your Team , Kudos Technologies, Fivetech
Software Solutions, Elcar;
Variabilele statistice: numarul de angajati, cifra de afaceri, judetul de resedinta al sediului social,
anul infiintarii, valoarea creantelor;
Datele reprezinta informatiile colectate de la fiecare firma in parte. In diagrama de mai sus, datele
sunt reprezentate prin simbolul , cateva exemple fiind: 2, 15540, CJ, 2019, 8200, 2, 900, CJ, 2019,
3500, 2, 18150, CJ 2019, 6255, 61, 20274237, BN, 1991, 1235800.

4
1.4 Marginea erorii
Informatiile despre populatie determinate prin studiile statistice se bazeaza pe parametrii
populatiei. Parametrii populatiei nu pot fi calculati (exceptand recensamintele), ci doar estimati pe
baza statisticilor.

Pentru un esantion dat se calculeaza anumite valori ale statisticilor. Este foarte probabil ca
aceste valori sa difere de parametrii populatiei. Daca se foloseste un alt esantion probabil ca se vor
obtine alte valori pentru statistici, care e posibil din nou sa difere de parametrii populatiei.

Diferenta maxima ce poate sa apara intre statistici (esantion) si parametrii (populatie) reprezinta
marginea erorii.

Marginea erorii arata acuratetea studiului. Ea depinde de volumul esantionului (n), fiind
1
proportionala cu si NU depinde de volumul populatiei (N). Graficul urmator arata legatura ce
√𝑛
exista intre marginea erorii si volumul esantionului.

Relatia dintre marginea erorii si volumul esantionului


20.00%
18.00%
16.00%
marginea erorii

14.00%
12.00%
10.00%
8.00%
6.00%
4.00%
2.00%
0.00%
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
volumul esantionului

Se observa ca intre volumul esantionului si marginea erorii exista o legatura invers


proportionala. Marginea erorii este semnificativa la esantioanele mici, dar pe masura ce volumul
esantionului creste marginea erorii scade. Rata de scadere a marginii erorii este foarte mare pentru
esantioane mici, dar este foarte mica in cazul esantioanelor mari.
Utilizarea unor esantioane mari genereaza costuri semnificative si prin urmare se impune gasirea
unui echilibru. Din studiile efectuate de institute de sondare (Gallup, Pew Research Center) se
observa ca cel mai frecvent esantioanele au volumul intre 1000 si 2000, ceea ce genereaza o marja
de eroare intre 3.16% si 2.24%.
Afirmatiile facute de statistica au un anumit nivel de incredere, valorile uzuale fiind de 90%, 95%
sau 99%.Prin urmare o marja de eroare de 3% obtinuta cu un nivel de incredere de 95% inseamna ca
in 95 de situatii din 100 diferenta dintre parametrii si statistici este cuprinsa in limita a 3%, iar in 5
situatii din cele 100 diferenta depaseste limita de 3%.

5
2. Colectarea datelor
2.1 Formularea intrebarilor intr-un chestionar
Tipul intrebarilor si datele generate
Datele necesare unui studiu statistic sunt colectate, in general, folosind chestionare. Fiecare
intrebare dintr-un chestionar reprezinta o variabila statistica. La formularea intrebarilor, analistul
trebuie sa tina cont de obiectivul urmarit prin studiu si de modul in care formuleaza intrebarile
pentru a evita bias-urile. Bias-ul este tendinta unui proces de masurare de a sub/supra evalua un
parametru).

Intrebarile incluse intr-un chestionar pot fi:

✓ inchise – ii ofera respondentului variante dintre care poate alege. Prelucrarea raspunsurilor
este mai usoara, dar formularea intrebarilor solicita o atentie sporita pentru evitarea bias-
urilor.
✓ deschise – ii permit respondentului sa formulize raspunsul cum doreste, dar prelucrarea
ulterioara este mult mai dificila.

Modul de formulare a intrebarii va determina tipul de datelor rezultate.

Exemplul:
Va rugam sa apreciati curatenia din camera in care ati fost cazat in hotelul nostru:
o nesatisfacatoare
o satisfacatoare
o buna
o foarte buna
va genera date calitative.

Va rugam sa evaluate curatenia camerei in care ati fost cazat in hotelul nostru.
1 2 3 4 5 6 7 8 9 10
va genera date cantitative discrete.

Va rugam sa evaluati curatenia camerei in care ati fost cazat in hotelul nostru (marcati cu X)

complet nesatisfacut foarte satisfacut

va genera date cantitative continue.

Care este numarul de angajati din firma dvs? ______ va genera date cantitative discrete.

Care este inaltimea dvs? _____ va genera date cantitative continue.

Capcane in formularea intrebarilor


La formularea intrebarilor este necesar sa se tina cont de posibilitatea aparitiei unor capcane sau
neclaritati ce pot influenta acuratetea studiului. Cateva dintre acestea sunt prezentate in lista
urmatoare:

6
✓ In cazul intrebarilor unidirectionale, respondentii au tendinta de a alege raspunsul
favorabil (de acord).
Este dificil pentru absolventi sa aiba un viitor stralucit?
o de acord
o NU sunt de acord
(este o intrebare unidimensionala deoarece este evaluata doar dificultate de a avea un viitor
stralucit, posibilitatea de a avea un viitor stralucit fiind ignorata).

Absolventii vor avea un viitor stralucit.


o de acord
o NU sunt de acord
(este o intrebare unidimensionala deoarece este evaluata doar existent unui viitor stralucit,
posibilitatea de esec fiind ignorata).

Se recomanda evitarea intrebarilor unidirectionale, cele doua intrebari putand fi reformulate


astfel:
Sunteti de accord sau nu ca este dificil pentru absolventi sa aiba un viitor stralucit?
Sunteti de accord sau nu ca absolventii vor avea un viitor stralucit?
✓ In cazul existentei unei variante de raspuns indecise, respondentii au tendinta de a alege
acea varianta.
Care este opinia dvs despre presedinte?
o favorabila
o nefavorabila
o nu stiu
Se recomanda eliminarea varianta indecise de raspuns.
✓ Respondentii au tendinta de a alege prima variant de raspuns.
Va rugam sa alegeti o culoare:
o albastru
o rosu
Se recomanda alegerea cu atentie a ordinii raspunsurilor.
✓ Atunci cand exista o ancora in intrebare, respondentii au tendinta de a ramane in
apropierea ancorei.
Stiind ca populatia USA este de 316 mil, cat este populatia Canadei?

Se recomanda evitarea ancorelor in intrebari, intrebarea putand fi reformulate astfel:


Care este populatia Canadei?
✓ Atunci cand prin intrebare se interzice ceva, respondentii au tendinta de a raspunde NU.
Sunteti de acord sau nu cu o ordonanta care va interzice sa iesiti din casa?

Se recomanda reformularea intrebarii astfel:


Sunteti de acord sau nu cu o ordonanta care va cere sa ramaneti in casa?

✓ Se recomanda evitarea intrebarilor complexe care pot deruta respondentul.


Considerati ca medicii si personalul medical ar trebui sa beneficieze de drepturi special?

7
Respondentul nu stie ce sa aleaga: numai medicii, numai personalul medical, ambele
categorii, nici o categorie.
Pentru a evita ambiguitatea, intrebarea poate fi reformulata astfel:
Cine considerati ca ar trebui sa beneficieze de drepturi suplimentare?
o Medicii
o Personalul medical
o Ambele categorii
o Nici o categorie
✓ Intrebarea nu trebuie sa contina informatii necunoscute respondentului, pe baza carora
acesta trebuie sa formulize raspunsul.
Oamenii cu Indexul de Masa Corporala mai mare sau egal cu 95% ar trebui sa evite
vizionarea zilnica a TV.
Ce inseamna Indexul de Masa Corporala si cum se calculeaza? Daca se foloseste in intrebare
ar trebui explicat mai intai.

Intrebarile (variabilele) auxiliare


Esantionul folosite in studiile statistice ar trebui sa fie o reprezentare in miniatura a populatiei.
Din pacate acest lucru nu se intampla intotdeauna, in special datorita ratei reduse a raspunsurilor.
Consecinta este sub-reprezentarea unor clase din populatie si supra-reprezentarea altora, ceea ce
conduce la rezultate cu o acuratete redusa. Remedierea situatiei se poate face prin ponderarea
raspunsurilor. Pentru a aplica metoda ponderarii raspunsurilor este necesar ca in chestionar sa fie
prevazute intrebari auxiliare, a caror distributie sa fie cunoscuta si pentru intreaga populatie. Aceste
intrebari auxiliare se refera, de obicei, la factorii demografici: sex, varsta, domiciliu, stare sociala.

Pe baza studiului se determina distributia variabilei auxiliare si se compara cu distributia acesteia


la nivelul intregii populatii. Daca distributiile sunt identice atunci se considera ca toate clasele sunt
bine reprezentate in esantion. Existent unor diferente intre distributii sugereaza existenat unor clase
sub-reprezentate, respective supra-reprezentate. Pentru corectarea reprezentativitatii se introduc
ponderile calculate pe baza variabilei aleatoare.

Exemplul: Se efectueaza un studiu in care se analizeaza nivelul veniturilor, culoarea masinii si varsta.
Pentru aceasta se foloseste un chestionar cu urmatoarele intrebari:

1. Care este venitul dvs. lunar? _________________


2. Ce culoare are masina dvs? _________________
3. In ce categorie de varsta va incadrati?
o Tanar (<= 30 ani)
o Adult (30<…<=60 ani)
o Varstnic (>60 ani)

Rezultatele obtinute pe un esantion de 10 de persoane sunt:

venit culoare varsta


2000 albastru t

8
2500 rosu t
5000 rosu a
3000 albastru v
3500 verde v
5800 albastru a
2900 albastru t
3200 verde a
4200 rosu t
6100 rosu v
Consideram ca distributia variabilei varsta la nivelul intregii populatii este cunoscuta, aceasta fiind:

Categorie varsta
%
(populatie)
T 30%
A 50%
V 20%
Variabila varsta poate fi considerate o variabila auxiliara, distributia acesteia la nivel de esantion
fiind:
Categorie varsta
%
(esantion)
T 40%
A 30%
V 30%
Se observa ca distributiile variabilei varsta difera pe esantion fata de populatie, prin urmare
esantionul nu este reprezentativ pentru populatie din punct de vedere al varstei. Se impune asadar
pondrarea raspunsurilor la nivel de esantion pentru celelalte variabile. Algoritmul de ponderare se
bazeaza pe regula de 3 simpla:

𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑟𝑖𝑙𝑒 𝑡𝑖𝑛𝑒𝑟𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑎𝑛𝑡𝑖𝑜𝑛 … 40% 0.3


} ⟹ 𝑃𝑜𝑛𝑑𝑒𝑟𝑒𝑡𝑖𝑛𝑒𝑟𝑖 = = 0.75
𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑙 𝑡𝑖𝑛𝑒𝑟𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑒 … 30% 0.4

Se observa ca ponderea tinerilor la nivel de esantion este mai mare decat la nivel de populatie, prin
urmare categoria tinerilor este supra-reprezentata. Pentru corectarea, raspunsurile tinerilor vor fi
inmultite cu un coeficient subunitar de 0.75.

𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑟𝑖𝑙𝑒 𝑎𝑑𝑢𝑙𝑡𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑎𝑛𝑡𝑖𝑜𝑛 … 30% 0.5


} ⟹ 𝑃𝑜𝑛𝑑𝑒𝑟𝑒𝑎𝑑𝑢𝑙𝑡𝑖 = = 1.67
𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑙 𝑎𝑑𝑢𝑙𝑡𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑒 … 50% 0.3

Se observa ca ponderea adultilor la nivel de esantion este mai mica decat la nivel de populatie, prin
urmare categoria adultilor este sub-reprezentata. Pentru corectarea, raspunsurile adultilor vor fi
inmultite cu un coeficient supraunitar de 1.67.

𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑟𝑖𝑙𝑒 𝑣𝑎𝑟𝑠𝑡𝑛𝑖𝑐𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑒𝑠𝑎𝑛𝑡𝑖𝑜𝑛 … 30% 0.2


} ⟹ 𝑃𝑜𝑛𝑑𝑒𝑟𝑒𝑣𝑎𝑟𝑠𝑡𝑛𝑖𝑐𝑖 = = 0.67
𝑅𝑎𝑠𝑝𝑢𝑛𝑠𝑢𝑙 𝑣𝑎𝑟𝑠𝑡𝑛𝑖𝑐𝑖𝑙𝑜𝑟 𝑙𝑎 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑒 … 20% 0.3

Se observa ca ponderea varstnicilor la nivel de esantion este mai mare decat la nivel de populatie,
prin urmare categoria varstnicilor este supra-reprezentata. Pentru corectarea, raspunsurile adultilor
vor fi inmultite cu un coeficient subunitar de 0.67.

9
Deoarece variabila venit contine date cantitative, valorile acesteia pot fi corecatate prin ponderare,
astfel:

varsta pondere venit venit ponderat


t 0.75 2000 1500
t 0.75 2500 1875
a 1.67 5000 8350
v 0.67 3000 2010
v 0.67 3500 2345
a 1.67 5800 9686
t 0.75 2900 2175
a 1.67 3200 5344
t 0.75 4200 3150
v 0.67 6100 4087
Deoarece variabila culoare contine date calitative, ponderarea va fi vizibila in calcularea distributiei
culorilor, astfel:
varsta culoare pondere
t albastru 0.75
t rosu 0.75
a rosu 1.67
v albastru 0.67
v verde 0.67
a albastru 1.67
t albastru 0.75
a verde 1.67
t rosu 0.75
v rosu 0.67
10.02

culoare % inainte % dupa


albastru 40% = (1+1+1+1)/10 38.32% = (0.75+0.67+1.67+0.75)/10.02
rosu 40% = (1+1+1+1)/10 38.32% = (0.75+1.67+0.75+0.67)/10.02
verde 20% = (1+1)/10 23.36% = (0.67+1.67)/10.02
100% 100%

2.2 Metode de esantionare


Esantionul este o reprezentare in miniatura a populatiei statistice. Prin urmare elementele selectate
in esantion ar trebui sa reprezinte intreaga populatie. Exista 2 categorii de metode pentru selectarea
elementelor din esantion:
1. Metode probabilistice - selectarea elementelor incluse in esantion se face in mod aleator,
fiind cunoscuta probabilitatea fiecarui element al populatiei de a fi selectat in esantion. Sunt

10
metode complexe, dar care genereaza esantioane cu reprezentativitate buna, iar rezultatele
obtinute au acuratete (precizie) ridicata.
2. Metode non-probabilistice – selecatrea elementelor incluse in esantion se face in mod
subiectiv de catre analist. Probabilitatea ca esantionul sa nu fie reprezentativ pentru
populatie este crescuta si in consecinta bias-ul poate fi semnificativ.
Metode probabilistice
Simple random sampling
Fiecare element din populatie are aceeasi probabilitate de a fi selectat in esantion, selectia facandu-
se in mod aleator.

O vizualizare grafica pentru simple random sampling este disponibila la link-ul:


https://www.youtube.com/watch?v=yx5KZi5QArQ

Systematic sampling
Se alege in mod aleator un element al populatiei care va reprezenta elementul de pornire in
construirea esantionului. Se calculeaza un pas pe baza caruia vor fi determinate celelate elemente ce
urmeaza sa fie incluse in esantion.
Presupunand ca avem o populatie de volum N=10000, iar pentru studiu avem nevoie de un esantion
de volum n=1000, pasul il vom calcula astfel:
𝑁 10000
𝑝𝑎𝑠 = = = 10
𝑛 1000
Astfel presupunand ca elemental de pornire este al 15-lea element al populatiei, urmatoarele
elemente vor fi calculate astfel:

• al 2-lea element: 15+10=25


• al 3-lea element: 25+10=35
• ….
Iterativ se determina, folosind algoritmul de mai sus, toate elementele ce vor constitui esantionul.

O vizualizare grafica pentru systematic sampling este disponibila la link-ul:


https://www.youtube.com/watch?v=QFoisfSZs8I

Stratified sampling
Populatia este impartita in grupuri, numite STRATURI. Grupurile contin elemente omogene
(asemanatoare), iar intre ele grupurile sunt heterogene (diferite). Folosind metode aleatoare se
selecteaza din FIECARE grup (strat) elemente ce vor fi incluse in esantion.
Prin urmare, esantionul contine elemente ce au fost selectate din FIECARE strat.

11
O vizualizare grafica pentru stratified sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=sYRUYJYOpG0

Cluster sampling
Populatia este impartita in grupuri, numite CLUSTERE. Grupurile contin elemente heterogene
(diferite), fiecare grup fiind o imagine in miniatura a populatiei. Dintre toate clusterele create, sunt
selectate cateva pentru a fi considerate la generarea esantionului.
Exista doua variante de construire a esantionului:
• toate elementele clusterelor selectate sunt incluse in esantion;
• din clusterele selectate se aleg aleator elemente ce sunt incluse in esantion.
Prin urmare, esantionul contine elemente ce au fost selectate DOAR DIN UNELE clustere.

O vizualizare grafica pentru cluster sampling este disponibila la link-ul:


https://www.youtube.com/watch?v=QOxXy-I6ogs

Multi-stage sampling
Presupune combinarea a doua sau mai multe metode probabilistice de esantionare.

Metode non-probabilistice
Convenience sampling
Pentru formarea esantionului, analistul selecteaza elemente ale populatiei la care are cel mai rapid
acces.
De exemplu analistul poate trimite un chestionar la toate contactele ce le are salvate in telefon sau
la toate contactele ce le are in social media.
Este cea mai simpla metoda de esantionare, dar bias-ul este semnificativ, se bazeaza pe multe
elemente ce nu pot fi controlate de analist, iar credibilitatea studiilor bazate pe aceasta metoda este
foarte redusa.
Metoda poate fi folosita pentru testarea chestionarului, generarea unor ipoteze, obtinerea de
informatii primare privind perceptia fata de un produs.

12
O vizualizare grafica pentru convenience sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=aomNbRO5Zac
Purposive/judgement sampling
Pentru formarea esantionului, analistul selecteaza elemente ale populatiei bazandu-se pe propria
ratiune si experienta. Sunt selectate acele elemente ce corespund unui anumit criteriu.
De exemplu, un reporter care intervieveaza persone pe strada referitor la o situatie politica se
bazeaza pe o anumita logica (ratiune) atunci cand alege persoanele.
Este una din cele mai eficiente (timp si cost) metode de esantionare, fiind utila atunci cand avem
acces limitat la elementele populatiei. Metoda este vulnerabila fata de erorile de judecata ale
analistului si poate avea bias semnificativ.

O vizualizare grafica pentru purposive/judgement sampling este disponibila la link-ul:


https://www.youtube.com/watch?v=CdK7N_kTzHI

Quota sampling
Analistul imparte populatia in grupe, pe baza unor criterii relevante pentru studiu (de exemplu:
varsta, sex, venit, etc). Stabileste procentul din populatie ce va fi inclus in esantion si il aplica asupra
grupelor stabilite, calculand astfel cate elemente trebuie sa aleaga din fiecare grup. In continuarea
va alege in mod subiectiv (NU ALEATOR) din fiecare grup elemenetele pentru esantion.
Quota sampling si stratified sampling sunt metode asemanatoare diferenta fiind data de modul de
alegere a elementelor din grupe: aleator in cazul stratified sampling si subiectiv in cazul quota
sampling.
Metoda poate fi aplicata atunci cand timpul alocat studiului este foarte scurt, fiind si eficienta din
punct de vedere al costurilor. Ca orice metoda non-probabilistica are o probabilitate ridicata de a
genera bias, extinderea rezultatelor studiului pentru intreaga populatie fiind riscanta, iar esantionul
generat e posibil sa nu fie reprezentativ.

13
O vizualizare grafica pentru quota sampling este disponibila la link-ul:
https://www.youtube.com/watch?v=K8lcSHlB64w

Snowball sampling
Este o metoda folosita atunci cand subiectul studiului este unul delicat, iar identificarea populatiei
statistice este imposibila. Selectarea esantionului se face prin referintele furnizate de membrii
selectati anterior.
Metoda are o eficienta ridicata (cost si timp), dar nu exista nici o garantie ca esantionul este
reprezentativ, iar inferentele sunt riscante.

Snow-ball sampling este metoda folosita pentru generarea esantionului in studiul durerii cornice la
nivelul UE, studiu coordonat de PAE si disponibil la: https://pae-eu.eu/wp-
content/uploads/2019/09/2019-Survey-PAE-final-short-report.pdf

O vizualizare grafica pentru snowball sampling este disponibila la link-ul:


https://www.youtube.com/watch?v=lq8dQel2ZRI

Descrieri ale metodologiei de esantionare folosita de Gallup si Pew Research sunt disponibile la link-
urile:
https://media.gallup.com/PDF/FAQ/HowArePolls.pdf
https://www.journalism.org/wp-content/uploads/sites/8/2020/03/PJ_2020.03.18_Coronavirus-
News1_METHODOLOGY.pdf

14
3. Organizarea datelor
Pentru efectuarea unui studiu se aplica urmatorul chestionar pe un esantion de volum n=50.

Chestionar
1. Va rugam sa mentionati in ce judet isi are sediul social firma dvs. _________________
2. Va rugam sa mentionati cati angajati are firma dvs. ____________________________
3. Va rugam sa mentionati care este cifra de afaceri a firmei dvs in ultimul an. _________

Raspunsurile obtinute sunt:

Chestionar Judet Angajati Cifra de Afaceri Chestionar Judet Angajati Cifra de Afaceri
1 CJ 4 916930 26 BH 3 97521
2 BN 4 97406 27 BN 8 768886
3 CJ 5 757557 28 AB 1 974347
4 BH 3 467018 29 BH 7 291942
5 BH 3 588042 30 AB 6 490498
6 BH 5 503741 31 CJ 8 560752
7 CJ 7 352155 32 AB 3 252879
8 AB 1 97437 33 MM 4 882307
9 BN 7 318087 34 AB 1 163690
10 BH 5 88920 35 MM 8 789122
11 CJ 4 975625 36 BN 7 499762
12 CJ 3 585501 37 CJ 0 960688
13 BN 1 375912 38 BN 1 959054
14 MM 6 940819 39 CJ 9 406511
15 AB 0 427737 40 AB 8 573812
16 CJ 1 69592 41 MM 2 870454
17 MM 1 703083 42 MM 7 741177
18 MM 9 795067 43 AB 2 388131
19 BN 3 269978 44 BN 7 767443
20 CJ 0 398641 45 BH 5 417183
21 CJ 5 124175 46 BH 8 702018
22 AB 3 990722 47 CJ 8 193391
23 MM 8 305280 48 CJ 8 108470
24 BH 3 760408 49 BH 9 600078
25 MM 3 508740 50 BH 6 751521
Prezentarea rezultatelor obtinute sub aceasta forma nu este foarte eficienta, acest aspect fiind si
mai evident cand volumul esantionului este mult mai mare.
O forma de prezentare eficienta a datelor este folosind tabelele de frecventa si graficele.
Tabelel de frecventa pot prezenta datele in raport cu:
• singura variabila, caz in care avem tabele uni-dimensionale
• doua variabile, caz in care avem tabele bi-dimensionale.

Tabele de frecventa (serii statistice) unidimensionale au forma:


𝑣𝑎𝑙𝑜𝑟𝑖𝑙𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑒𝑖
𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑎: ( )
𝑓𝑟𝑒𝑐𝑣𝑒𝑛𝑡𝑎

15
Tabelele de frecventa (serii statistice) bi-dimensionale au forma:
Var 1
Valorile variabilei Total
Var 2
Valorile variabilei Frecvente Frecventa marginala
Total Frecventa marginala Volumul esantionului

Construirea tabelelor de frecventa se poate face fie prin determinarea “manuala” a acestora fie
utilizand tehnici de calcul (excel, statgraphics, SPSS, stata, R).
In cazul variabilelor uni-dimensionale vom prezenta ambele abordari, iar pentru variabilele bi-
dimensionale doar abordarea bazata pe tehnica de calcul (Excel).
Reprezentarile grafice vor fi generate doar folosind tehnica de calcul (Excel).

Analizele statistice in Excel se fac din meniul Data – Data Analysis. By default, Excelul nu este
configurat pentru prelucrarile statistice si prin urmare, daca in meniul Data nu este vizibil Data
Analysis, trebuie configurat Excelul. Configurarea se face astfel:
• se acceseaza File
• se selecteaza Options
• se selecteaza Add-Ins
• pe coloana Name din lista se cauta pachetul Analysis ToolPack (atentie NU Analysis ToolPack
- VBA), se selecteaza si se apasa Go.
• se bifeaza Analysis ToolPack (atentie NU Analysis ToolPack - VBA) si se apasa OK.

Tabele de frecventa uni-dimensionale


Cazul datelor cantitative discrete
Abordarea “manuala”: Sa ne reamintim ca datele cantitative de tip discret sunt valorile numerice
pentru care nu au sens fractiunile. Prin urmare fiecare valoare unica a variabilei va fi analizata
distinct. Pe prima linie (valorile variabilei) a tabelului de frecventa se vor trece valorile unice ale
variabilei, in ordine crescatoare. Frecventa se determina prin numararea aparitiei fiecarei valori
unice (frecventa absoluta), respectiv prin raportarea frecventei absolute la volumul esantionului
(frecventa relativa).
In exemplul nostru, variabila angajati contine date cantitative discrete.
Procesul de construire a tabelului de frecventa:
• Din cele 50 de valori ale variabilei angajati am identificat ca valori unice: 0, 1, 2, 3, 4, 5, 6, 7,
8 si 9. Acestea se trec pe prima linie a tabelului de frecventa.
• Se numara de cate ori apare fiecare valoare unica in cele 50 de date. Determinam astfel
frecventele absolute.Valoarea 3, de exemplu, a aparut de 9 ori in cele 50 de date, iar
valoarea 6 a aparut de 3 ori. Frecventele absolute se trec pe a doua linie a tabelului de
frecvente, rezultand astfel tabelul frecventelor absolute.
0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( )
3 7 2 9 4 5 3 6 8 3
Pentru a verifica daca tabelul frecventelor absolute este corect determinat, trebuie ca suma
frecventelor absolute sa fie 50.

16
• Pentru fiecare valoare unica a variabilei se calculeaza frecventa relativa, prin impartirea
frecventei absolute la volumul esantionului. Pentru firmele cu 3 angajati avem 9/50=0.18, iar
pentru cele cu 7 angajati avem 6/50=0.12. Frecventele relative se exprima in procente.
Tabelul frecventelor relative este:
0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( ).
6% 14% 4% 18% 8% 10% 6% 12% 16% 6%
Pentru a verifica daca tabelul frecventelor relative este corect determinat, trebuie ca suma
frecventelor relative sa fie 100%.
Interpretarea datelor: 9 firme din cele 50 analizate, adica 18% au 3 angajati (a fost interpretata
clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:

Descrierea procesului:
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B), ce
va avea eticheta angajati.
2. Generare valori unice: Trebuie sa determinam valorile unice din cele 50 de date analizate.
Copiem toate valorile pe o noua coloana (Coloana D) si folosim eticheta valori unice.
Folosind optiunea Data - Remove Duplicates sunt filtrare pe Coloana D doar valorile unice,
care apoi sunt sortate crescator prin folosirea optiunii Home – Sort & Filter – Sort smallest
to largest.
3. Generarea tabelului frecventelor absolute: Pentru construirea tabelului de frecventa se
acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care deschide
fereastra

17
In campul Input Range se selecteaza datele ce trebuie analizate (cele 50 de valori ale
variabilei angajati), aflate in exemplul nostru pe coloana B.
In campul Bin Range se selecteaza valorile unice, aflate in exemplul nostru pe coloana D.
Daca se selecteaza si etichetele (Angajati, date unice) aflate in celulele B2 si D2 atunci se
bifeaza optiunea Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(F2 in exemplul nostru).
Apasand butonul OK se genereaza tabelul frecventelor absolute.
4. Generarea tabelului frecventelor relative: nu este un proces automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana H in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=G3/50 in
exemplul nostrum si apoi copiem aceasta formula pentru toate clasele).

Cazul datelor calitative


Abordarea “manuala”: Pe prima linie (valorile variabilei) din tabelul de frecventa se vor trece valorile
unice ale variabilei. Frecventa se determina prin numararea aparitiei fiecarei valori unice (frecventa
absoluta), respectiv prin raportarea frecventei absolute la volumul esantionului (frecventa relativa).
In exemplul nostru, variabila judet contine date calitative.
Procesul de construire a tabelului de frecventa:
• Din cele 50 de valori ale variabilei judet am identificat valorile unice.Acestea sunt: CJ, BN, BH,
AB si MM. Aceste valori unice se trec pe prima linie a tabelului de frecventa.
• Se numara de cate ori apare fiecare valoare unica in cele 50 de date. Determinam astfel
frecventele absolute. Judetul CJ, de exemplu, a aparut de 13 ori in cele 50 de date, iar judetul
BN a aparut de 8 ori. Frecventele absolute se trec pe a doua linie a tabelului de frecvente,
rezultand astfel tabelul frecventelor absolute.
𝐶𝐽 𝐵𝑁 𝐵𝐻 𝐴𝐵 𝑀𝑀
𝑗𝑢𝑑𝑒𝑡: ( )
13 8 11 9 9
• Pentru fiecare valoare unica a variabilei se calculeaza frecventa relativa, prin impartirea
frecventei absolute la volumul esantionului. In cazul judetului CJ avem 13/50=0.26, iar in
cazul judetului BN avem 8/50=0.16. Frecventele relative se exprima in procente. Tabelul
frecventelor absolute este:
𝐶𝐽 𝐵𝑁 𝐵𝐻 𝐴𝐵 𝑀𝑀
𝑗𝑢𝑑𝑒𝑡: ( ).
26% 16% 22% 18% 18%

Interpretarea datelor 13 firme din cele 50 analizate, adica 26% sunt din judetul Cluj (a fost
interpretata clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:

18
Descrierea procesului
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta judet.
2. Determinarea valorilor unice: Copiem datele pe o noua coloana (Coloana E in exemplul
nostru) si folosim eticheta valori unice judet. Folosind optiunea Data - Remove Duplicates
sunt filtrare pe Coloana E doar valorile unice.
3. Generarea codurilor: Excelul nu stie sa lucreze cu date calitative (cuvinte, atribute). Pentru a
rezolva aceasta deficienta a Excelului se folosesc coduri. Prin operatiunea de codificare
fiecare valoare calitativa unica primeste un cod numeric.
Codurile numerice se introduc de la tastatura pe o coloana distincta (Coloana F in exemplul
nostru), si se foloseste eticheta coduri.
Codurile numerice generate trebuie atasate si datelor ce le prelucram (cele aflate pe
Coloana B). Astfel pe Coloana C, in dreptul fiecarei valori se trec codurile corespunzatoare.
Operatiunea se poate face introducand codurile de la tastatura sau folosind functia
VLOOKUP. Coloana ce contine codurile (Coloana C) va primi eticheta coduri.
4. Generarea tabelului frecventelor absolute: se parcurg aceeasi pasi ca si in cazul datelor
cantitative discrete, dar acum se va lucre cu codurile (1, 2, 3, …) si nu cu datele calitative (CJ,
BN, BH, ….).
Se acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care
deschide fereastra

In campul Input Range se selecteaza codurile pentru datele ce trebuie analizate, aflate in
exemplul nostru pe coloana C.
In campul Bin Range se selecteaza codurile unice, aflate in exemplul nostru pe coloana F.
Daca se selecteaza si etichetele (coduri) aflate in celulele C2 si F2 atunci se bifeaza optiunea
Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply

19
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(H2 in exemplul nostru).
Apasand butonul OK se genereaza tabelul frecventelor absolute.
5. Generarea tabelului frecventelor relative: nu este un process automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana J in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=I3/50 in
exemplul nostrum si apoi copiem aceasta formula pentru toate clasele).

Cazul datelor cantitative continue


Abordarea “manuala”: Sa ne reamintim ca datele cantitative continue sunt valorile numerice pentru
care au sens fractiunile. Prin urmare nu are sens sa tratam distinct fiecare valoare unica a variabilei.
Datele se grupeaza in intervale. Analistul alege cate interval foloseste, astfel incat sa poata fi
determinate pattern-uri (nu se folosesc foarte putine interval, dar nici foarte multe). Pe prima linie
(valorile variabilei) a tabelului de frecventa se trec intervalele create. Frecventa intervalului se
determina numarand valorile cuprinse in interval (frecventa absoluta), respectiv prin raportarea
frecventei absolute la volumul esantionului (frecventa relativa).
In exemplul nostru, variabila cifra de afaceri contine date cantitative continue.
Procesul de construire a tabelului de frecventa:
• Se construiesc intervalele astfel:
Analistul alege numarul de interval. Fie acesta 5.
Se calculeaza lungimea fiecarui interval, astfel
𝑣𝑎𝑙 𝑚𝑎𝑥𝑖𝑚𝑎 − 𝑣𝑎𝑙 𝑚𝑖𝑛𝑖𝑚𝑎
𝑙=
𝑛𝑟 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑒
In cazul datelor disponibile pentru cifra de afaceri, constatam ca valoarea maxima
este 990722, iar valoarea minima 69592. Prin urmare intervalele vor avea lungimea
990722−69592
𝑙= = 184226.
5
Se determina intervalele:

69592 253818 438044 622270 806496 990722


184226 184226 184226 184226 184226

Intervalele ce se obtin sunt:


[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]

• Se numara cate valori contine in fiecare interval, obtinandu-se astfel frecventele absolute. De
exemplu intervalul [69592; 253818] contine valori, iar intervalul (438044; 622270] contine
valori. Frecventele absolute se trec pe a doua linie a tabelului de frecvente, rezultand astfel
tabelul frecventelor absolute.
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
• Pentru fiecare interval se calculeaza frecventa relativa, prin impartirea frecventei absolute la
volumul esantionului. Pentru firmele cu CA intre 69592 si 253818 (primul interval) avem

20
10/50=0.2, iar pentru cele cu CA intre 622270 si 806496 (al patrulea interval) avem
10/50=0.2. Frecventele relative se exprima in procente. Tabelul frecventelor relative este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
20% 22% 20% 20% 18%
Interpretarea datelor 10 firme din cele 50 analizate, adica 20% au cifra de afaceri cuprinsa intre
69592 si 253818 lei (a fost interpretata clasa marcata cu rosu in tabelele de frecvente).
Abordarea prin Excel:

Descrierea procesului
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta cifra de afaceri.
2. Determinarea capatului superior al intervalului: Conform algoritmului descris mai sus se
determina intervalele si se retine capatul superior al fiecarui interval. Acestea se trec pe o
coloana distincta (Coloana D in exemplul nostru) ce va avea eticheta capat superior.
3. Generarea tabelului frecventelor absolute: Pentru construirea tabelului de frecventa se
acceseaza meniul Data – Data Analysis si se selecteaza optiunea Histogram, care deschide
fereastra

In campul Input Range se selecteaza datele ce trebuie analizate (cele 50 de valori ale
variabilei cifra de afaceri), aflate in exemplul nostru pe coloana B.
In campul Bin Range se selecteaza capetele superioare ale intervalelor, aflate in exemplul
nostru pe coloana D.
Daca se selecteaza si etichetele (cifra de afaceri, capat superior) aflate in celulele B2 si D2
atunci se bifeaza optiunea Labels, altfel optiunea Labels ramane nebifata.
Trebuie sa alegem unde dorim sa generam tabelul de frecvente, fiind posibile 3 optiuni:
• in aceeasi fereastra Excel, incepand cu o celula anume: Output range
• intr-o pagina Excel noua: New Worksheet Ply
• intr-un document Excel nou: New Workbook.
Alegem sa generam tabelul de frecvente in aceeasi fereastra Excel si prin urmare selectam
optiunea Output Range, unde vom selecta celula incepand cu care vrem sa generam tabelul
(F2 in exemplul nostru).

21
Apasand butonul OK se genereaza tabelul frecventelor absolute.
6. Generarea tabelului frecventelor relative: nu este un proces automatizat in Excel. Prin
urmare noi scriem formulele de calcul. Pe coloana urmatoare (Coloana H in exemplul nostru)
a tabelului frecventelor absolute introducem formula de calcul a procentului (=G3/50 in
exemplul nostru si apoi copiem aceasta formula pentru toate clasele).

Tabele de frecventa bi-dimensionale


Asa cum am expus si in randurile de mai sus, tabelele bi-dimensionale le vom genera doar folosind
Excelul. Procedura consta de fapt in generarea tabelelor pivot din meniul Insert – Pivot Table.
In cazul utilizarii in tabelul pivot a unei variabile ce contine date cantitative continue, este nevoie de
introducerea codurilor ce au rolul de a simula intervalele.
La generarea tabelului pivot, pe langa cele doua variabile implicate avem nevoie de un al treilea set
de date necesar calcularii frecventelor. Recomandam ca al treilea set de date sa fie format doar din
valori 1.
Exemplu: Generarea distributiei bi-dimensionale pentru judet si numar de angajati.
Niciuna din variabilele implicate nu contine date cantitative continue, prin urmare nu avem nevoie
de coduri.
Pe Coloanele B si C introducem cele 50 de valori ale variabilelor judet, respective angajati, iar pe
Coloana D generam valorile 1 necesare calcularii frecventelor.

Apelam meniul Insert – Pivot table. In fereastra ce se deschide vom selecta valorile ce trebuie
analizate si celula de unde sa inceapa construirea tabelului pivot, iar apoi apasam OK.
Atentie: Se selecteaza inclusive eticheta (numele) pentru valorile ce trebuie analizate!

22
Prin mutarea (drag and drop) a etichetelor judet, angajati si val frecv in campurile Row Labels,
Column Labels si Values este generat in mod automat tabelul pivot.

Interpretare: 4 firme din cele 50 analizate au 3 angajati, iar sediul social este in Bihor.
Folosind frecventele marginale se obtin distributiile unidimensionale ale celor 2 variabile implicate:
judet si angajati.

Exemplu: Generarea distributiei bi-dimensionale pentru judet si cifra de afaceri.


Variabila cifra de afaceri contine date cantitative continue, prin urmare avem nevoie de coduri
pentru a simula intervalele. Fiecare din cele 5 intervale construite primesc un cod, astfel:
[69592; 253818] primeste codul 1;
(253818; 438044] primeste codul 2;
(438044; 622270] primeste codul 3;
(622270; 806496] primeste codul 4;
(806496; 990722] primeste codul 5.

Pe Coloanele B si C introducem cele 50 de valori ale variabilelor judet, respective cifra de afaceri, pe
Coloana D generam codurile corespunzatoare celor 5 intervale, iar pe Coloana E generam valorile 1
necesare calcularii frecventelor.

Apelam meniul Insert – Pivot table. In fereastra ce se deschide vom selecta valorile ce trebuie
analizate si celula de unde sa inceapa construirea tabelului pivot, iar apoi apasam OK.
Atentie: Se selecteaza inclusive eticheta (numele) pentru valorile ce trebuie analizate!

23
Prin mutarea (drag and drop) a etichetelor judet, cod CA si val frecv in campurile Row Labels, Column
Labels si Values este generat in mod automat tabelul pivot. Codurile 1, 2, 3, 4, 5 care apar pe primul
rand al tabelului reprezinta cele 5 intervale ale cifrei de afaceri

Interpretare: 4 firme din cele 50 analizate au cifra de afaceri intre 438044 lei si 62227 lei, iar sediul
social este in Bihor.
Folosind frecventele marginale se obtin distributiile unidimensionale ale celor 2 variabile implicate:
judet si cifra de afaceri.

Reprezentari grafice
Reprezentarile grafice ofera o vizualizare mai intuitiva, permitand in unele cazuri si vizualizarea unor
posibile pattern-uri.
Histograma poate fi generate simultan cu construirea tabelului de frecventa, prin bifarea optiunii
Chart Output, asa cum se poate vedea si in imaginea de mai jos

24
In cazul datelor calitative si a celor cantitative discrete, este mult mai intuitiv ca in locul histogramei
sa se foloseasca un grafic de tip Pie. Dupa generarea histogramei, aceasta poate fi schimbata usor
intr-un grafic Pie din optiunile graficului.
O alta modalitate de generare a graficelor consta in selectarea frecventelor obtinute prin construirea
tabelului de frecventa si generarea graficului droit din meniul Insert – Charts.
Exemple:

Distributia Cifrei de afaceri pentru cele 50 firme analizate


12
10
Numar de firme

8
6
4
2
0
(69592 - 253818] (253818 - 438044] (438044 - 622270] (622270 - 806496] (806496 - 990722]
Cifra de afaceri

Distributia sediului pentru cele 50 de firme


analizate

18% 26%
18%
16%
22%

CJ BN BH AB MM

25
4. Analiza datelor
4.1 Indici statistici
Tabelele de frecventa pot prezenta si distributia teritoriala sau temporala a unor date. In aceasta
situatie este util sa putem analiza modificarea frecventelor de la o clasa la alta, ceea ce se face
folosind indicii statistici.
Fie distributia:
𝑦1 𝑦2 𝑦3 𝑦𝑛−2 𝑦𝑛−1 𝑦𝑛
𝑌: ( 𝑓 𝑓 𝑓 ⋯ 𝑓 )
1 2 3 𝑛−2 𝑓𝑛−1 𝑓𝑛

Modificarea frecventelor de la o clasa la alta se studiaza folosind indicii statistici. Acestia pot fi
calculati cu:
baza fixa – frecventa analizata se raporteaza la frecventa primei clase (fi se
raporteaza la f1, pentru orice 𝑖 = ̅̅̅̅̅
1, 𝑛)
baza in lant – frecventa analizata se raporteaza la frecventa anterioara (fi se
raporteaza la fi-1, pentru orice 𝑖 = ̅̅̅̅̅
1, 𝑛)
Indicii statistici sunt:
1. Diferenta absoluta – arata cu cat se modifica indicatorul in clasa analizata fata de clasa de
referinta si se calculeaza astfel:
cu baza fixa ∆= 𝒇𝒊 − 𝒇𝟏 , ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
cu baza in lant ∆= 𝒇𝒊 − 𝒇𝒊−𝟏 , ∀𝒊 = ̅̅̅̅̅𝟏, 𝒏
O valoare negativa pt ∆ indica scaderea indicatorului fata de clasa de referinta, iar o valoare
pozitiva pt ∆ indica cresterea indicatorului fata de clasa de referinta.
2. Diferenta relativa – arata % cu care se modifica indicatorul in clasa analizata fata de clasa de
referinta si se calculeaza astfel:
𝒇
cu baza fixa 𝑹 = (𝒇 𝒊 − 𝟏) × 𝟏𝟎𝟎, ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
𝟏
𝒇𝒊
cu baza in lant 𝑹 = (𝒇 − 𝟏) × 𝟏𝟎𝟎, ∀𝒊 = ̅̅̅̅̅
𝟏, 𝒏
𝒊−𝟏
O valoare negativa pt 𝑅 indica scaderea indicatorului fata de clasa de referinta, iar o valoare
pozitiva pt 𝑅 indica cresterea indicatorului fata de clasa de referinta.
3. Greutatea specifica – arata ponderea unei clase in total si se calculeaza astfel:
𝒇
𝒈𝒊 = 𝒊 × 𝟏𝟎𝟎, 𝒊 = ̅̅̅̅̅
𝒕𝒐𝒕𝒂𝒍
𝟏, 𝒏
Exemplu: Se analizeaza vanzarile lunare ale unei societati comerciale ce are 6 puncte de lucru.
Distributia lunara a vanzarilor este:
𝐽𝑎𝑛 𝐹𝑒𝑏 𝑀𝑎𝑟 𝐴𝑝𝑟 𝑀𝑎𝑦 𝐽𝑢𝑛 𝐽𝑢𝑙 𝐴𝑢𝑔 𝑆𝑒𝑝 𝑂𝑐𝑡 𝑁𝑜𝑣 𝐷𝑒𝑐
𝑣𝑎𝑛𝑧 𝑙𝑢𝑛𝑎𝑟𝑒: ( )
6500 7000 7300 8000 8200 9000 10000 8000 7800 7500 7200 6800
Iar distributia vanzarilor pe cele 6 puncte de lucru este:
𝑃𝐿1 𝑃𝐿2 𝑃𝐿3 𝑃𝐿4 𝑃𝐿5 𝑃𝐿6
𝑣𝑎𝑛𝑧 𝑃𝐿: ( )
15000 16000 18000 16500 15000 12800
Indicii statistici calculati pentru vanzarile lunare si vanzarile punctelor de lucru sunt:

26
diferenta absoluta diferenta relative
greutatea
luna vanzari
baza fixa baza lant baza fixa baza lant specifica
Jan 6500 0 x 0.00% X 7%
Feb 7000 500 500 7.69% 7.69% 8%
Mar 7300 800 300 12.31% 4.29% 8%
Apr 8000 1500 700 23.08% 9.59% 9%
May 8200 1700 200 26.15% 2.50% 9%
Jun 9000 2500 800 38.46% 9.76% 10%
Jul 10000 3500 1000 53.85% 11.11% 11%
Aug 8000 1500 -2000 23.08% -20.00% 9%
Sep 7800 1300 -200 20.00% -2.50% 8%
Oct 7500 1000 -300 15.38% -3.85% 8%
Nov 7200 700 -300 10.77% -4.00% 8%
Dec 6800 300 -400 4.62% -5.56% 7%

Interpretare:
Vanzarile in luna Martie au crescut cu 800 lei, adica au crescut cu cu 12.31% fata de luna Ianuarie.
Vanzarile in luna Martie au crescut cu 300 lei, adica au crescut cu cu 4.29% fata de luna Februarie.
Vanzarile in luna August au crescut cu 1500 lei, adica au crescut cu 23.08% fata de luna Ianuarie.
Vanzarile in luna August au scazut cu 2000 lei, adica au scazut cu 20% fata de luna Iulie.
In luna Iunie s-au realizat 10% din vanzarile anuale.

diferenta absoluta diferenta relative


greutatea
PL vanzari
baza fixa baza lant baza fixa baza lant specifica
PL1 15000 0 x 0.00% X 16%
PL2 16000 1000 1000 6.67% 6.67% 17%
PL3 18000 3000 2000 20.00% 12.50% 19%
PL4 16500 1500 -1500 10.00% -8.33% 18%
PL5 15000 0 -1500 0.00% -9.09% 16%
Pl6 12800 -2200 -2200 -14.67% -14.67% 14%

Lasam in seama cititorului interpretarea valorilor marcate cu rosu, folosind modelul anterior.

4.2 Calcularea statisticilor


Intelegerea unei populatii statistice, precum si a interactiunilor ce se exercita in aceasta se face
analizand parametrii statistici. Datorita volumului foarte mare al unei populatii statistice nu este
eficient ca aceasta sa fie analizata in totalitate si prin urmare parametrii nu pot fi calculate. Acestia
sunt estimati pe baza statisticilor calculate la nive de esantion. Acest capitol este destinat studierii
statisticilor esantionului. Unele statistici pot fi calculate doar pentru date cantitative, iar altele
pentru orice tip de date.
Calcularea statisticilor se poate face atat aplicand formule matematice si efectuand calculele
aferente, cat si apeland la tehnici de calcul (Excel, Statgraphics, SPSS, R, …), unde sunt predefinite
proceduri si formule pentru calcularea statisticilor. In acest material vom prezenta atat abordarea
bazata pe formule matematice, cat si cea bazata pe Excel.

27
1. Valoarea medie
Valoarea medie reprezinta acea valoare ce ar avea-o datele analizate daca toti factorii de influenta
ar actiona la fel.
Valoarea medie se calculeaza DOAR pentru date cantitative.
Notatie: 𝑥̅ .
Calculul valorii medii pentru date cantitative discrete.
Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛.
1 2 𝑛−1 𝑓𝑛

Valoarea medie 𝑥̅ se calculeaza astfel:


𝑥1 𝑓1 + 𝑥2 𝑓2 + ⋯ + 𝑥𝑛−1 𝑓𝑛−1 + 𝑥𝑛 𝑓𝑛
𝑥̅ =
𝑛
Exemplu: Calculul numarului mediu de angajati pentru cele 50 de firme analizate.
Distributia numarului de angajati in cele 50 de firme analizate este:
0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( )
3 7 2 9 4 5 3 6 8 3
Numarul mediu de angajati in cele 50 de firme se calculeaza astfel:
0∗3+1∗7+2∗2+3∗9+4∗4+5∗5+6∗3+7∗6+8∗8+9∗3
𝑥̅ = = 4.6
50
Interpretare: Numarul mediu de angajati in cele 50 de firme analizate este de 4.6 persoane.
Calculul valorii medii pentru date cantitative continue
Consideram tabelul frecventelor absolute pentru un set de n date cantitative continue
[𝑥 − 𝑥1 ] (𝑥1 − 𝑥2 ] (𝑥𝑛−2 − 𝑥𝑛−1 ] (𝑥𝑛−1 − 𝑥𝑛 ]
𝑋: ( 0 ⋯ ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛.
𝑓1 𝑓2 𝑓𝑛−1 𝑓𝑛
Valoarea medie 𝑥̅ se calculeaza astfel:
𝑥1′ 𝑓1 + 𝑥2′ 𝑓2 + ⋯ + 𝑥𝑛−1

𝑓𝑛−1 + 𝑥𝑛′ 𝑓𝑛
𝑥̅ =
𝑛
iar 𝑥𝑖′ reprezinta mijlocul intervalului (𝑥𝑖−1 − 𝑥𝑖 ], ∀𝑖 = ̅̅̅̅̅
1, 𝑛.
In aceasta formula, datele cuprinse intr-un interval sunt aproximate prin mijlocul intervalului. Prin
urmare valoarea medie calculata astfel este o APROXIMARE a mediei reale a esantionului.
Exemplu: Calculul cifrei de afaceri medie pentru cele 50 de firme analizate.
Distributia cifrei de afaceri pentru cele 50 de firme analizate este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
Pentru a calcula cifra de afaceri medie este nevoie sa deteminam mai intai mijlocul fiecarui interval.
Calcularea mijlocului fiecarui interval se face adunand capetele intervalului si impartind suma la 2.
Prin urmare obtinem:
• mijlocul intervalului [69592; 253818] este (69592+253818)/2=161705;
• mijlocul intervalului (253818; 438044] este (253818+438044)/2=345931;

28
• mijlocul intervalului (438044; 622270] este (438044+622270)/2=530157;
• mijlocul intervalului (622270; 806496] este (622270+806496)/2=714383;
• mijlocul intervalului (806496; 990722] este (806496+990722)/2=898609.
Cifra de afaceri medie a celor 50 de firme se calculeaza astfel:
161705 ∗ 10 + 345931 ∗ 11 + 530157 ∗ 10 + 714383 ∗ 10 + 898609 ∗ 9
𝑥̅ = = 519103.4
50
Interpretare: Aproximam ca cifra de afaceri medie a celor 50 de firme analizate este de 519103.4 lei.

Calcularea valorii medii in Excel pentru date cantitative discrete si continue


Formula de calculul a valorii medii este
=AVERAGE(datele analizate)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
Exemplu: Imaginile urmatoare prezinta calculul numarului mediu de angajati si a cifrei de afaceri
medie pentru cele 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Numarul mediu de angajati Cifra de afaceri medie

Rezultatele obtinute prin aplicarea in Excel a formulei AVERAGE sunt: 4.6 in cazul angajatilor si
532604 in cazul cifrei de afaceri.
Interpretare: Numarul mediu de angajati in cele 50 de firme analizate este de 4.6 persoane.
Interpretare: Cifra de afaceri medie a celor 50 de firme analizate este de 532604 lei.
Cifra de afaceri medie a celor 50 de firme, calculata in Excel folosind formula AVERAGE, este de
532604, valoare ce difera de cea calculate prin aplicarea formulei 𝑥̅ si care este de 519103.4 lei.
Astfel este evidentiata aproximarea generata de formula 𝑥̅ si amintita in randurile de mai sus.
Mentionam ca 532604 lei este valoarea REALA a cifrei de afaceri medie a celor 50 de firme.
2. Imprastierea datelor in jurul mediei (dispersia si abaterea medie patratica)
Factori de influenta ce actioneaza asupra elementelor statistice face ca datele statistice sa fie diferite
(in general) de valoarea medie. De exemplu, nici una din cele 50 de firme analizate nu are 4.6
angajati, respective o cifra de afaceri de 519103.4 lei (532604 lei).
Prin urmare, apar o serie de abateri intre datele analizate si valoarea medie a acestora. Obiectivul
nostru in acest punct este de a masura aceasta abaterea/imprastiere.
Dispersia
Dispersia masoara imprastierea datelor fata de valoarea medie.
Se noteaza cu s2 si in mod evident se calculeaza doar pentru date cantitative.
Calculul dispersiei in cazul datelor cantitative discrete

29
Consideram tabelul frecventelor absolute pentru un set de n date cantitative
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛
1 2 𝑛−1 𝑓𝑛

si fie 𝑥̅ valoarea medie a acestor date.


Dispersia se calculeaza conform formulei

2
(𝑥1 − 𝑥̅ )2 𝑓1 + (𝑥2 − 𝑥̅ )2 𝑓2 + ⋯ + (𝑥𝑛−1 − 𝑥̅ )2 𝑓𝑛−1 + (𝑥𝑛 − 𝑥̅ )2 𝑓𝑛
𝑠 =
𝑛−1
Exemplu: In cazul numarului de angajati din cele 50 de firme, pentru care am calculat anterior ca
media este 𝑥̅ = 4.6, dispersia se calculeaza astfel:
(0 − 4.6)2 ∗ 3 + (1 − 4.6)2 ∗ 7 + (2 − 4.6)2 ∗ 2 + ⋯ + (9 − 4.6)2 ∗ 3
𝑠2 = = 7.84
50 − 1

Calculul dispersiei in cazul datelor cantitative continue


Consideram tabelul frecventelor absolute pentru un set de n date cantitative continue
[𝑥 − 𝑥1 ] (𝑥1 − 𝑥2 ] (𝑥𝑛−2 − 𝑥𝑛−1 ] (𝑥𝑛−1 − 𝑥𝑛 ]
𝑋: ( 0 ⋯ ), 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛
𝑓1 𝑓2 𝑓𝑛−1 𝑓𝑛
si fie 𝑥̅ valoarea medie a acestor date.
Dispersia se calculeaza conform formulei
(𝑥1′ − 𝑥̅ )2 𝑓1 + (𝑥2′ − 𝑥̅ )2 𝑓2 + ⋯ + (𝑥𝑛−1

− 𝑥̅ )2 𝑓𝑛−1 + (𝑥𝑛′ − 𝑥̅ )2 𝑓𝑛
𝑠2 =
𝑛−1
iar 𝑥𝑖′ reprezinta mijlocul intervalului (𝑥𝑖−1 − 𝑥𝑖 ], ∀𝑖 = ̅̅̅̅̅
1, 𝑛.
Avand in vedere ca in aceasta formula datele dintr-un interval sunt aproximate prin mijlocul acelui
interval, dispersia astfel calculata este o APROXIMARE a dispersiei reale a esantionului.
Exemplu: In cazul cifrei de afaceri a celer 50 de firme, pentru care am calculate anterior o medie de
𝑥̅ = 519103.4, dispersia se calculeaza astfel:

(161705 − 519103.4)2 ∗ 10 + (345931 − 519103.4)2 ∗ 11 + ⋯ + (898609 − 519103.4)2 ∗ 9


𝑠2 =
50 − 1
= 67061126345.68

La calcularea dispersiei s-au folosit mijloace intervalelor determinate anterior pentru calcularea
valorii medii.
Interpretare: Datorita ridicarii la patrat ce apare in formula dispersiei se obtine o unitate de masura
ce nu are semnificatie si prin urmare dispersia nu se interpreteaza.
Variatia numarului de angajati fata de media de 4.6 persoane este de 7.84 persoane 2. Unitatea de
masura persoane2 nu are semnificatie.
Variatia cifrei de afaceri fata de media de 519103.4 lei este de 67061126345.68 lei2. Unitatea de
masura lei2 nu are semnificatie.
Mentionam ca, valoarea de 67061126345.68 lei2 reprezinta o APROXIMARE a dispersiei datelor din
esantion.

30
Calcularea dispersiei in Excel pentru date cantitative discrete si continue
Formula de calculul a dispersiei este
=VAR(datele analizate)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
Exemplu: Imaginile urmatoare prezinta calculul dispersiei pentru numarul de angajati si cifra de
afaceri in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri

Rezultatele obtinute prin aplicarea in Excel a formulei VAR sunt: 7.84 in cazul angajatilor si
82696919532 in cazul cifrei de afaceri.
Interpretare: Datorita unitatii de masura, dispersia de 7.84 persoane2 nu se interpreteaza.
Interpretare: Datorita unitatii de masura, dispersia de 82696919532 lei2 nu se interpreteaza.
Dispersia cifrei de afaceri a celor 50 de firme fata de media de 532604 lei, calculata in Excel folosind
formula VAR, este de 82696919532 lei2, valoare ce difera de cea calculata prin aplicarea formulei 𝑠 2 ,
care este de 67061126345.68 lei2. Astfel este evidentiata aproximarea generata de formula 𝑠 2 si
amintita in randurile de mai sus.
Mentionam ca 82696919532 lei2 reprezinta valoarea REALA a dispersiei datelor din esantion.

Abaterea medie patratica


Avand in vedere inconvenientul creat de unitatea de masura a dispersiei, se impune utilizarea unei
alte masuri pentru imprastierea datelor in jurul mediei. Aceasta noua masura a imprastierii se
bazeaza pe dispersie si urmareste elimiarea patratului din unitatea de masura a dispersiei.
Eliminarea patratului se face prin aplicarea radicalului de ordin 2.
Abaterea medie patratica - masoara imprastierea datelor fata de valoarea medie.
Se noteaza cu s si in mod evident se calculeaza doar pentru date cantitative.

Calculul abaterii pentru date cantitative discrete si continue se face folosind formula 𝑠 = √𝑠 2 .
Exemplu: Abaterea numarului de angajati din cele 50 de firme fata de media de 4.6 persoane se
calculeaza astfel
𝑠 = √7.84 = 2.8
Interpretare: Numarul de angajati din cele 50 de firme se abate de la media de 4.6 persoane in
medie cu 2.8 persoane.
Abaterea cifrei de afaceri a celor 50 de firme fata de media de 519103.4 lei se calculeaza astfel

𝑠 = √67061126345.68 = 258961.6

31
Interpretare: Aproximam ca cifra de afaceri a celor 50 de firme se abate de la media de 519103.4 lei
in medie cu 258961.6 lei.
Calcularea abaterii in Excel pentru date cantitative discrete si continue
Formula de calculul a abaterii este
=STDEV(datele analizate)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
Exemplu: Imaginile urmatoare prezinta calculul abaterii pentru numarul de angajati si cifra de afaceri
in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri

Rezultatele obtinute prin aplicarea in Excel a formulei STDEV sunt: 2.8 in cazul angajatilor si 287571
in cazul cifrei de afaceri.
Interpretare: Numarul de angajati din cele 50 de firme se abate de la media de 4.6 persoane in
medie cu 2.8 persoane.
Interpretare: Cifra de afaceri a celor 50 de firme se abate de la media de 532604 in medie cu 287571
lei.
Abaterea, calculata in Excel folosind formula STDEV, a cifrei de afaceri a celor 50 de firme fata de
media de 532604 lei este de 287571 lei. Valoare difera de cea calculata prin aplicarea formulei s,
care este de 258961.6 lei. Este evidentiata aproximarea generata de formula s si amintita in
randurile de mai sus.
Mentionam ca 287571 lei reprezinta valoarea REALA a abaterii datelor din esantion.

Coeficientul de variatie
Se pune intrebarea daca imprastierea datelor analizate in jurul mediei este mare sau nu? Asa cum
am vazut in randurile de mai sus, imprastierea este masurata prin dispersie/abatere, aceasta fiind un
numar.
Privind un numar izolat nu putem stabili daca el este mare sau nu. De exemplu, 1 este o valoare
mare? Dar 1000000? Pentru a stabili daca un numar este mare sau mic, el trebuie comparat cu o
valoare de referinta.
Prin urmare, pentru a evalua daca imprastierea datelor in jurul mediei este mare sau nu se
raporteaza abaterea la valoarea medie.

Coeficientul de variatie arata amplitudinea imprastierii datelor fata de medie.


Se noteaza Vx si in mod evident se calculeaza doar pentru date cantitative.

Calculul coeficientului de variatie pentru date cantitative discrete si continue se face folosind
𝑠
formula 𝑉𝑥 = 𝑥̅ × 100. Coeficientul de variatie se exprima in procente.

32
Prin conventie in domeniul economic, se considera ca daca Vx < 40%, atunci imprastierea datelor in
jurul mediei este mica.
Exemplu: In cazul analizei numarului de angajati din cele 50 de firme, media calculata este 4.6
persoane cu o abatere de 2.8 persoane. Coeficientul de variatie are valoarea
2.8
𝑉𝑥 = × 100 = 61% > 40%.
4.6
Interpretare: Imprastierea datelor in jurul mediei este mare si putem afirma ca numarul mediu de
angajati de 4.6 persoane nu caracterizeaza bine cele 50 de firme analizate.
In cazul analizei cifrei de afaceri a celor 50 de firme, media calculata este de 519103.4 lei cu o
abatere de 258961.6 lei. Coeficientul de variatie are valoarea
258961.6
𝑉𝑥 = × 100 = 49.8% > 40%.
519103.4
Interpretare: Imprastierea datelor in jurul mediei este mare si putem afirma ca cifra de afaceri medie
de 519103.4 lei nu caracterizeaza bine cele 50 de firme analizate.

Calcularea coeficientului de variatie in Excel pentru date cantitative discrete si continue


In Excel nu exista predefinita o formula pentru calculul coeficientului de variatie. Acesta se
calculeaza prin raportarea abaterii la valozarea medie, astfel
𝑆𝑇𝐷𝐸𝑉(𝑑𝑎𝑡𝑒𝑙𝑒 𝑎𝑛𝑎𝑙𝑖𝑧𝑎𝑡𝑒)
=
𝐴𝑉𝐸𝑅𝐴𝐺𝐸 (𝑑𝑎𝑡𝑒𝑙𝑒 𝑎𝑛𝑎𝑙𝑖𝑧𝑎𝑡𝑒)

3. Valoarea modala (modulul)


Valoarea modala (modulul) este valoarea cu cea mai mare frecventa, sau spus in limbaj natural
modulul este valoarea ce apare cel mai des.
Se noteaza cu Mo si este singura statistica ce poate fi calculata pentru orice tip de date (calitative si
cantitative).
Calculul modulului in cazul datelor calitative
Consideram tabelul frecventelor absolute pentru un set de n date calitative
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ) , 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛
1 2 𝑛−1 𝑓𝑛
̅̅̅̅̅
Identificam cea mai mare frecventa 𝑓𝑖 , ∀𝑖 = 1, 𝑛, fiind posibile doua situatii:
Avem o singura frecventa maxima. Fie fk frecventa maxima. In acest caz avem o variabila
unimaodala, iar valoarea modala este 𝑀𝑜 = 𝑥𝑘 .
Avem mai multe frecvente maxime. Fie fs si ft frecventele maxime. In acest caz avem o derie
plurimodala, iar valorile modale sunt 𝑀𝑜1 = 𝑥𝑠 si 𝑀𝑜2 = 𝑥𝑡 .
Exemplu: Distributia sediului social pentru cele 50 de firme este:
𝐶𝐽 𝐵𝑁 𝐵𝐻 𝐴𝐵 𝑀𝑀
𝑗𝑢𝑑𝑒𝑡: ( )
13 8 11 9 9
Ceam mai mare frecventa este 13 si ea corespunde judetului Cluj. Variabila judet este unimodala
(are o singura valoare modala), iar valoarea modala este Mo = Cluj.

33
Interpretare: Cele mai multe firme din cele 50 analizate au sediul social in judetul Cluj.
Exemplu: Consideram ca distrubutia culorii pentru 80 de automobile vandute de un dealer este:
𝑎𝑙𝑏𝑎𝑠𝑡𝑟𝑢 𝑛𝑒𝑔𝑟𝑢 𝑎𝑙𝑏 𝑔𝑟𝑖
𝑐𝑢𝑙𝑜𝑎𝑟𝑒: ( )
25 25 20 10
Cea mai mare frecventa este 25 si ea corespunde culorilor albastru si negru. Variabila culoare este
plurimodala (are mai multe valori modale – doua in acest exemplu), iar valorile modale sunt
Mo1=albastru si Mo2=negru.
Interpretare: Culorile cele mai solicitate pentru cele 80 de masini comercializate sunt albastru si
negru.

Calculul modulului in cazul datelor cantitative discrete


Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 ) , 𝑐𝑢 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 = 𝑛
1 2 𝑛−1 𝑓𝑛
Identificam cea mai mare frecventa 𝑓𝑖 , ∀𝑖 = ̅̅̅̅̅
1, 𝑛, fiind posibile doua situatii:
Avem o singura frecventa maxima. Fie fk frecventa maxima. In acest caz avem o variabila
unimaodala, iar valoarea modala este 𝑀𝑜 = 𝑥𝑘 .
Avem mai multe frecvente maxime. Fie fs si ft frecventele maxime. In acest caz avem o derie
plurimodala, iar valorile modale sunt 𝑀𝑜1 = 𝑥𝑠 si 𝑀𝑜2 = 𝑥𝑡 .
Exemplu: Distributia numarului de angajati in cele 50 de firme analizate este
0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( )
3 7 2 9 4 5 3 6 8 3
Cea mai mare frecventa este 9 si ea corespunde firmelor ce au 3 angajati. Variabila angajati este
unimodala (o singura valoare modala), iar valoarea modala este MO=3.
Interpretare: Din cele 50 de firme analizate, cel mai frecvent sunt firmele cu 3 angajati.

Calculul modulului in cazul datelor cantitative continue


Consideram tabelul frecventelor absolute pentru un set de n date cantitative continue
[𝑥0 − 𝑥1 ] (𝑥1 − 𝑥2 ] (𝑥𝑘−2 − 𝑥𝑘−1 ] (𝑥𝑘−1 − 𝑥𝑘 ] (𝑥𝑘 − 𝑥𝑘+1 ] (𝑥𝑛−1 − 𝑥𝑛 ]
𝑋: ( ⋯ ⋯ )
𝑓1 𝑓2 𝑓𝑘−1 𝑓𝑘 𝑓𝑘+1 𝑓𝑛
Procesul pentru determinarea valorii modale presupune parcurgerea urmatorilor pasi:
1. Determinarea frecventei maxime: fie fk frecventa cea mai mare;
2. Determinarea intervalului modal (intervalul ce contine valoarea modala): intervalul
corespunzator frecventei maxime fk este intervalul modal. Fie (𝑥𝑘−1 − 𝑥𝑘 ] intervalul modal.
3. Calcularea valorii modale:
∆1
𝑀𝑜 = 𝑥𝑘−1 + 𝑙
∆1 + ∆2
unde: 𝑥𝑘−1reprezinta cea mai mica valoare a intervalului modal
∆1 = 𝑓𝑘 − 𝑓𝑘−1 (frecventa intervalului modal – frecventa intervalului anterior)

34
∆2 = 𝑓𝑘 − 𝑓𝑘+1 (frecventa intervalului modal – frecventa intervalului urmator)
𝑙 = 𝑥𝑘 − 𝑥𝑘−1 (lungimea intervalului modal).
Modala calculata prin aplicarea acestei formule este o APROXIMARE a modalei celor 50 de valori
analizate.
Exemplu: Distributia cifrei de afaceri pentru cele 50 de firme analizate este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
Frecventa cea mai mare este 𝑓𝑘 = 11. Intervalul corespunzator este intervalul modal, acesta fiind
(𝑥𝑘−1 − 𝑥𝑘 ] = (253818; 438044]. Valoarea modala o calculam astfel:
(11 − 10)
𝑀𝑜 = 253818 + (438044 − 253818) = 345931
(11 − 10) + (11 − 10)
Interpretare: Din cele 50 de firme analizate, cel mai frecvent avem firme cu CA de 345931 lei.

Calculul modulului in Excel


Formula de calculul a modulului este
=MODE(datele analizate).
In cazul datelor cantitative (atat discrete cat si continue) se aplica formula MODE asupra setului de
date analizat.
Exemplu: Imaginile urmatoare prezinta calculul modulului pentru numarul de angajati si cifra de
afaceri in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri

Rezultatele obtinute prin aplicarea in Excel a formulei MODE sunt: 3 in cazul angajatilor si #NA in
cazul cifrei de afaceri.
Interpretare: Din cele 50 de firme analizate, cele mai frecvente sunt cele cu 3 angajati.
Interpretare: In cazul variabilei cifra de afaceri, functia MODE nu returneaza nici o valoare. Aceasta
inseamna ca variabila este plurimodala (mai multe valori modale). In exemplu analizat, fiecare cifra
de afaceri este unica si prin urmare fiecare valoare apare cu frecventa 1.
Abaterea, calculata in Excel folosind formula MODE, difera de cea calculata prin aplicarea formulei
MO. Este evidentiata aproximarea generata de formula MO si amintita in randurile de mai sus.

In cazul datelor calitative formula MODE nu este functionala. Totusi formula poate fi aplicata daca
datele calitative sunt codificate cu date numerice, asa cum a fost cazul si la construirea tabelului de
frecventa.
Descrierea procesului

35
1. Preluarea datelor: Preluam datele ce trebuie analizate pe o coloana in Excel (Coloana B in
exemplul nostru), ce va avea eticheta judet.
2. Determinarea valorilor unice: Copiem datele pe o noua coloana (Coloana E in exemplul
nostru) si folosim eticheta valori unice judet. Folosind optiunea Data - Remove Duplicates
sunt filtrare pe Coloana E doar valorile unice.
3. Generarea codurilor: Excelul nu stie sa lucreze cu date calitative (cuvinte, atribute). Pentru a
rezolva aceasta deficienta a Excelului se folosesc coduri. Prin operatiunea de codificare
fiecare valoare calitativa unica primeste un cod numeric.
Codurile numerice se introduc de la tastatura pe o coloana distincta (Coloana F in exemplul
nostru), si se foloseste eticheta coduri.
Codurile numerice generate trebuie atasate si datelor ce le prelucram (cele aflate pe
Coloana B). Astfel pe Coloana C, in dreptul fiecarei valori se trec codurile corespunzatoare.
Operatiunea se poate face introducand codurile de la tastatura sau folosind functia
VLOOKUP. Coloana ce contine codurile (Coloana C) va primi eticheta coduri.
4. Determinarea valorii modale pentru coduri: se face aplicand formula MODE pentru codurile
generate pe Coloana C.
5. Identificarea valorii modale folosind modala codurilor.

Exemplu: Imaginea urmatoare prezinta determinarea modalei atunci cand este analizat sediul social
al celor 50 de firme.

Rezultatul obtinut prin aplicarea in Excel a functiei MODE asupra codurilor generate in Coloana C
este 1. Cautand in Coloanele E si F, deduce ca 1 este codul numeric corespunzator judetului Cluj. Prin
urmare, valoarea modala este judetul Cluj.
Interpretare: Din cele 50 de firme analizate, cele mai multe au sediul social in judetul Cluj.

4. Quartilele
Quartilele reprezinta acele valori numerice ce impart datele analizate in 4 parti egale.
Notatii si denumiri: Q1 - quartile inferioara
Q2 sau Me - quartila mijlocie sau mediana
Q3 – quartile superioara
Distributia datelor analizate in raport cu quartilele se prezinta astfel
[𝑣𝑎𝑙 min − 𝑄1 ] (𝑄1 − 𝑄2 ] (𝑄2 − 𝑄3 ] (𝑄3 − 𝑣𝑎𝑙 𝑚𝑎𝑥]
𝑋: ( )
25% 25% 25% 25%
semnificatia acestora fiind:

36
Q1 delimiteaza cele mai mici valori;
Q2 (Me) imparte datele in 2 parti egale (jumatate sunt mai mici decat Q2 si jumatate mai mari);
Q3 delimiteaza cele mai mari valori.
Chiar din definitia quartilelor (valori numerice) este evident ca acestea pot fi calculate doar pentru
date cantitative.
Calculul quartilelor in cazul datelor cantitative discrete
Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
𝑥1 𝑥2 𝑥𝑛−1 𝑥𝑛
𝑋: ( 𝑓 𝑓 ⋯ 𝑓 )
1 2 𝑛−1 𝑓𝑛

Calcularea quartilelor este un process mai complex ce presupune parcurgerea urmatorilor pasi:
1. Se aranjaza datele in ordine crescatoare
2. Determinarea rangului quartilei (rk) – rangul quartilei indica pozitia quartilei in sirul de
valori, adica spus in limbaj natural ne arata a cata valoare este quartile in sirul de n valori.
Rangul quartilei Q1 este r1 si se calculeaza tinand cont ca in fata quartilei Q1 sunt un
sfert din valorile analizate. Astfel
1
𝑟1 = 𝑛
4
Rangul quartilei Q2 este r2 si se calculeaza tinand cont ca in fata quartilei Q2 sunt
jumatate din valorile analizate. Astfel
1
𝑟2 = 𝑛
2
Rangul quartilei Q3 este r3 si se calculeaza tinand cont ca in fata quartilei Q3 sunt trei
sferturi din valorile analizate. Astfel
3
𝑟3 = 𝑛
4
3. Determinarea quartilei
daca 𝑟𝑘 ∈ 𝑍 (rangul quartilei este numar intreg: 2, 3, 10) atunci quartila se calculeaza
astfel:
𝑥𝑟 + 𝑥𝑟𝑘 +1
𝑄𝑘 = 𝑘
2
daca 𝑟𝑘 ∉ 𝑍 (rangul quartilei nu este numar intreg: 2.5, 3.75, 10.25) atunci quartila
se calculeaza astfel:
𝑄𝑘 = 𝑥[𝑟𝑘 ]+1

Avand in vedere gradul de complexitate al quartilelor, consideram ca este necesar sa explicam in


limbaj natural procesul descries mai sus.
Sa presupunem ca analizam un sir de 10 valori: 1 2 1 2 1 3 4 5 5 4.
Aranjam datele in ordine crescatoare, fiecare ocupand o anumita pozitie in sirul de valori, astfel:
1 1 1 2 2 3 4 4 5 5
poz 1 poz 2 poz 3 poz 4 poz 5 poz 6 poz 7 poz 8 poz 9 poz 10

Rangul quartilei (rk) indica pozitia quartilei in acest sir. Avem asadar:

37
1
rangul quartilei Q1 este 𝑟1 = 10 = 2.5, ceea ce inseamna ca quartila Q1 va fi plasata
4
undeva in zona pozitiei 2.5 in sirul de 10 valori.
Deoarece r1=2.5 nu este numar intreg, prima quartila va fi calculata astfel:
𝑄1 = 𝑥[2.5]+1 = 𝑥2+1 = 𝑥3 = 𝑎𝑑𝑖𝑐𝑎 𝑣𝑎𝑙𝑜𝑎𝑟𝑒𝑎 𝑎𝑓𝑙𝑎𝑡𝑎 𝑝𝑒 𝑝𝑜𝑧 3 𝑖𝑛 𝑠𝑖𝑟 = 1
1
rangul quartilei Q2 este 𝑟1 = 2 10 = 5, cee ace inseamna ca quartila Q2 va fi plasata
undeva in zona pozitiei 5 in sirul de 10 valori.
Deoarece r2=5 este numar intreg, quartila mijlocie (mediana) va fi calculata astfel:
𝑥5 + 𝑥5+1 𝑥5 + 𝑥6 2 + 3
𝑄2 = = = = 2.5
2 2 2
3
rangul quartilei Q3 este 𝑟3 = 4 10 = 7.5, ceea ce inseamna ca quartila Q3 va fi
plasata undeva in zona pozitiei 7.5 in sirul de 10 valori.
Deoarece r3=7.5 nu este numar intreg, quartila a treia va fi calculata astfel:
𝑄3 = 𝑥[7.5]+1 = 𝑥7+1 = 𝑥8 = 𝑎𝑑𝑖𝑐𝑎 𝑣𝑎𝑙𝑜𝑎𝑟𝑒𝑎 𝑎𝑓𝑙𝑎𝑡𝑎 𝑝𝑒 𝑝𝑜𝑧 8 𝑖𝑛 𝑠𝑖𝑟 = 4

Exemplu: Sa ne reamintim ca distributia angajatilor in cele 50 de firme analizate este:


0 1 2 3 4 5 6 7 8 9
𝑎𝑛𝑔𝑎𝑗𝑎𝑡𝑖: ( )
3 7 2 9 4 5 3 6 8 3
In tabelul de frecventa valorile sunt aranjate deja in ordine crescatoare: 0, 1, 2, 3,….
Deoarece esantionul analizat contine 50 de valori, rangurile celor 3 quartile vor fi:
1
𝑟1 = 50 = 12.5
4
1
𝑟2 = 50 = 25
2
3
𝑟3 = 50 = 37.5
4
Deoarece r1=12.5 nu este numar intreg, prima quartila o vom calcula astfel:
𝑄1 = 𝑥[12.5]+1 = 𝑥12+1 = 𝑥13 = 𝑎𝑑𝑖𝑐𝑎 𝑎 13 𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑑𝑖𝑛 𝑠𝑖𝑟𝑢𝑙 𝑑𝑒 50 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑖

In continuare trebuie sa identificam care este a 13-a valoare in sir.


Interpretarea frecventelor absolute ne spune ca valoarea 0 apare de 3 ori, adica primele 3 pozitii din
sir sunt: 0, 0, 0.
Noi avem nevoie de valoarea a 13, insa prima clasa ne furnizeaza doar primele 3 valori.
Prin urmare va trebui sa trecem si la a doua clasa.
Frecventa celei de-a doua clase este 7 si astfel vom ajunge pana la pozitia 10, valorile fiind: 0, 0, 0, 1,
1, 1, 1, 1, 1, 1.
Tot nu este suficient, deoarece am ajuns pana la pozitia 10 insa noi avem nevoie de pozitia 13.
Prin urmare va trebui sa trecem si la a treia clasa.
Frecventa celei de-a treia clase este 2 si astfel vom ajunge pana la pozitia 12. Tot nu este sufficient,
noi avand nevoie de pozitia 13.
Prin urmare va trebui sa trecem si la a patra clasa.
Frecventa celei de-a patra clase este 9 si astfel vom ajunge pana la pozitia 21. Pozitia 13 a fost atinsa
si prin urmare quartila cautata este in a patra clasa, avand valoarea
𝑄1 = 3.

38
Deoarece r2=25 este numar intreg, a doua quartila (mediana) o vom calcula astfel:
𝑥25 + 𝑥25+1 𝑥25 + 𝑥26
𝑄2 = =
2 2
In continuare trebuie sa identificam care sunt a 25-a si a 26-a valoare in sirul de 50 de valori.
Folosind rationamentul descries mai sus, in care adunam frecventele calselor pana cand ajungem la
pozitia cautata, obtinem ca 𝑥25 = 4 si 𝑥26 = 5, ceea ce inseamna ca
𝑥25 + 𝑥26 4 + 5
𝑄2 = = = 4.5
2 2
Deoarece r3=37.5 nu este numar intreg, a treia quartila o vom calcula astfel:
𝑄3 = 𝑥[37.5]+1 = 𝑥37+1 = 𝑥38 = 𝑎𝑑𝑖𝑐𝑎 𝑎 38 𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑑𝑖𝑛 𝑠𝑖𝑟𝑢𝑙 𝑑𝑒 50 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑖

In continuare trebuie sa identificam care este a 38-a valoare in sir. Folosind rationamentul descries
mai sus, in care adunam frecventele calselor pana cand ajungem la pozitia cautata, obtinem ca 𝑥38 =
7, ceea ce inseamna ca
𝑄3 = 7.
Interpretare: Q1 Un sfert din firmele analizate au mai putin de 3 angajati.
Q2 Jumatate din firmele analizate au mai putin de 4.5 angajati.
Q3 Un sfert din firmele analizate au mai mult de 7 angajati.

Calculul quartilelor in cazul datelor cantitative continue


Consideram tabelul frecventelor absolute pentru un set de n date cantitative discrete
[𝑥0 − 𝑥1 ] (𝑥1 − 𝑥2 ] (𝑥𝑘−2 − 𝑥𝑘−1 ] (𝑥𝑘−1 − 𝑥𝑘 ] (𝑥𝑘 − 𝑥𝑘+1 ] (𝑥𝑛−1 − 𝑥𝑛 ]
𝑋: ( ⋯ ⋯ )
𝑓1 𝑓2 𝑓𝑘−1 𝑓𝑘 𝑓𝑘+1 𝑓𝑛
Calcularea quartilelor este un process mai complex ce presupune parcurgerea urmatorilor pasi:
1. Determinarea rangului quartilei (rk) – rangul quartilei indica pozitia quartilei in sirul de
valori, adica spus in limbaj natural ne arata a cata valoare este quartile in sirul de n valori.
Rangul quartilei se determina folosind formula
𝑘
𝑟𝑘 = 𝑛, 𝑢𝑛𝑑𝑒 𝑘 = 1, 2, 3
4
1
Astfel, daca k=1 obtinem 𝑟1 = 𝑛, care este rangul quartilei Q1, samd.
4
2. Determinarea intervalului din care face parte quartila. Rangul quartilei indica pozitia
acesteia in sirul de n valori. Avand in vedere ca acum datele sunt grupate in intervale este
imposibil sa identificam direct valoarea aflata pe pozitia indicata. In schimb putem
determina intervalul ce contine valoarea aflata pe pozitia indicate. Pentru determinarea
intervalului, adunam frecventele pana cand ajungem (sau depasim) rangul. Ultima frecventa
adunata indica intervalul in care va fi plasata quartila. Fie intervalul (𝑥𝑘−1 − 𝑥𝑘 ] acesta.
3. Calculul quartilei. Calcularea quartilei se face folosind formula
𝑟𝑘 − 𝑁𝑘−1
𝑄𝑘 = 𝑥𝑘−1 + 𝑙
𝑁𝑘
unde: 𝑥𝑘−1reprezinta cea mai mica valoare a intervalului ce contine quartila
𝑟𝑘 este rangul quartilei
𝑁𝑘−1 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘−1
𝑁𝑘 = 𝑓𝑘

39
Valorile quartilelor astfel calculate reprezinta APROXIMARI ale quartilelor reale la nivel de esantion.
Exemplu: Sa ne reamintim ca distributia cifrei de afaceri in cele 50 de firme analizate este:
[69592; 253818] (253818; 438044] (438044; 622270] (622270; 806496] (806496; 990722]
𝐶𝐴: ( )
10 11 10 10 9
Deoarece esantionul analizat contine 50 de valori, rangurile celor 3 quartile vor fi:
1
𝑟1 = 50 = 12.5
4
1
𝑟2 = 50 = 25
2
3
𝑟3 = 50 = 37.5
4
Rangul primei quartile este 𝑟1 = 12.5. Primul interval contine 10 valori, deci Q1 nu este in primul
interval. Luand in considerare si al doilea interval, ajungem pana la valoarea a 21-a in sirul de 50 de
valori. Prin urmare 𝑄1 ∈ (253818; 438044].
Calcularea valorii lui Q1 se face astfel:
12.5 − 10
𝑄1 = 253818 + 184226 = 295687.5
11
Interpretare: Un sfert din cele 50 de firme analizate au cifra de afaceri intre 253818 si 295687.5 lei.

Rangul quartilei a doua este 𝑟2 = 25. Pentru determinarea intervalului ce contine a doua quartila
adunam frecventele pana cand ajungem la valoarea de 25. Astfel, 𝑄2 ∈ (438044; 622270].
Calcularea valorii lui Q2 se face astfel:
25 − (10 + 11)
𝑄2 = 438044 + 184226 = 511734.4
10
Interpretare: Jumatate din cele 50 de firme analizate au cifra de afaceri intre 253818 si 511734.4 lei.

Rangul quartilei a treia este 𝑟3 = 37.5. Pentru determinarea intervalului ce contine a treia quartila
adunam frecventele pana cand ajungem la valoarea de 37.5. Astfel, 𝑄3 ∈ (622270; 806496].
Calcularea valorii lui Q3 se face astfel:
37.5 − (10 + 11 + 10)
𝑄3 = 622270 + 184226 = 742016.9
10
Interpretare: Un sfert din cele 50 de firme analizate au cifra de afaceri intre 742016.9 si 990722 lei.

Calcularea quartilelor in Excel pentru date cantitative discrete si continue


Formula de calculul a quartilelor este
=QUARTILE(datele analizate,nr quartilei)
folosindu-se atat pentru date cantitative discrete cat si pentru date cantitative continue.
De retinut ca functia QUARTILE are 2 parametrii. La primul parametru se selecteaza toate valorile
analizate, iar al doilea parametru indica ce quartila se calculeaza. Astfel formula:
=QUARTILE(…,1) va genera prima quartila Q1;
=QUARTILE(…,2) va genera a doua quartila Q2;
=QUARTILE(…,3) va genera a treia quartila Q3.

40
Exemplu: Imaginile urmatoare prezinta calculul quartilelor pentru numarul de angajati si cifra de
afaceri in cazul celor 50 de firme. Cele 50 de date analizate au fost incarcate in Excel pe Coloana B, in
celulele B3:B52.
Dispersia angajatilor Dispersia cifrei de afaceri

Rezultatele obtinute prin aplicarea in Excel a formulei QUARTILE sunt:


Q1=3, Q2=4.5 si Q3=7 in cazul angajatilor si
Q1=308482, Q2=506241 si Q3=765684 in cazul cifrei de afaceri.
Interpretare: Un sfert din cele 50 de firme au mai putin de 3 angajati
Jumatate din cele 30 de firme au mai putin de 4.5 angajati
Un sfert din cele 50 de firme au mai mult de 7 angajati.
Interpretare: Un sfert din cele 50 de firme au cifra de afaceri intre 69592 si 308482 lei.
Jumatate din cele 50 de firme au cifra de afaceri intre 69592 si 506241 lei.
Un sfert din cele 50 de firme au cifra de afaceri intre 765684 si 990722 lei.
Valorile quartilelor, calculate in Excel folosind formula QUARTILE, pentru variabila continua (cifra de
afaceri) sunt diferite de valorile calculate folosint formula Qk. Astfel este evidentiata aproximarea
generata de formula Qk si amintita in randurile de mai sus.
Mentionam ca valorile 308482, 506241 si 765684 reprezinta valoarile REALA ale quartilelor pentru
datele din esantion.

Dupa prezentarea celor 4 categorii de statistici consideram util sa facem un scurt rezumat si o scurta
analiza a lor:

Tipul de date pt care se poate


calcula statistica
Statistici Notatie Excel
Date Date cant Date cant
calitative discrete continue
Valoare medie 𝑥̅ =AVERAGE(date)
Dispersie 𝑠2 =VAR(date)
Abatere 𝑠 =STDEV(date)
Coef de var 𝑉𝑥 =STDEV(date / AVERAGE(date)
Valoare modala 𝑀𝑜 =MODE(date)
Quartile inferioara 𝑄1 =QUARTILE(date,1)
Q mijl (Mediana) 𝑄2 ; 𝑀𝑒 =QUARTILE(date,2)
Quartila superioara 𝑄3 =QUARTILE(date,3)
De retinut ca in cazul datelor cantitative continue, calcularea statisticilor folosind formulele
matematice genereaza APROXIMARI ale statisticilor la nivel de esantion.
Statisticile prezentate se impart in trei categorii:

41
1. Statisticile (parametrii) tendintei centrale – indica pozitia in jurul careia se grupeaza
ansamblul datelor studiate. Din aceasta categorie fac parte: valoarea medie (𝑥̅ ), valoarea
modala (Mo) si mediana (Me).
2. Statisticile (parametrii) de structura – arata structura datelor analizate in raport cu variabila
considerata. Din aceasta categorie fac parte quartilele.
3. Statisticile (parametrii) variatiei – arata imprastierea datelor analizate in jurul valorii medii.
Din aceasta categorie fac parte: dispersia (s2), abaterea (s) si coeficientul de variatie (Vx).
Relatia de ordine existent intre valoarea media, valoarea modala si mediana furnizeaza informatii
suplimentare despre distributia datelor, astfel:
1. Daca 𝑥̅ = 𝑀𝑜 = 𝑀𝑒, atunci datele au o distributie simetrica.

2. Daca valorile celor trei statistici nu sunt egale, atunci datele au o distributie asimetrica, fiind
posibile doua situatii:
Asimetrie pozitiva, daca 𝑀𝑜 ≤ 𝑀𝑒 ≤ 𝑥̅

Asimetrie negative, daca 𝑥̅ ≤ 𝑀𝑒 ≤ 𝑀𝑜

42
4.3 Analiza legaturii intre variabile
Pentru datele colectate din esantion se pot obtine informatii utile si prin analiza legaturilor ce pot sa
apara intre variabile. Astfel pot sa apara indicii despre existenta unor factori de influenta. In acest
context vom lucra cu variabile dependente si variabile independente.
Legaturile dintre variabile pot fi studiate, de exemplu, folosind coeficientul de corelatie si coeficientul
de determinatie. Acesti coeficienti pot fi calculate doar pentru date cantitative.
Sa presupunem ca datele colectate dintr-un esantion de volum n studiat in raport cu doua variabile X
si Y sunt:
X Y
x1 y 1
x2 y 2
⋮ ⋮
xi y i
⋮ ⋮
xn y n
Prin conventie, variabila dependenta este notata Y, iar variabila independenta este notata X.

Coeficientul de corelatie
Coeficientul de corelatie (r) – arata daca exista sau nu legatura intre variabilele X si Y, iar daca
legatura exista indica tipul si intensitatea ei.
Coeficientul de corelatie se calculeaza folosind formula
𝑛∑𝑥𝑦 − ∑𝑥∑𝑦
𝑟=
√𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ∗ √𝑛 ∑ 𝑦 2 − (∑ 𝑦)2
Coeficientul de corelatie r poate avea valori doar in intervalul [−1; 1 ].
Indicii privind existenta legaturii
Daca 𝑟 = 0, atunci intre X si Y nu exista legatura.
Daca 𝑟 ≠ 0, atunci intre X si Y exista legatura.
Indicii privind tipul legaturii (directa sau indirecta)
Legatura dintre X si Y este:
Directa, daca 𝑟 ∈ (0; 1].
In cazul legaturii directe, sensul de modificare a datelor este acelasi. Daca valorile lui
X cresc, atunci si valorile lui Y cresc.
Indirecta, daca 𝑟 ∈ [−1; 0).
In cazul legaturii indirecte, sensul de modificare a datelor este opus. Daca valorile lui
X cresc, atunci si valorile lui Y scad.
Indicii privind intensitatea legaturii (cat de puternica este legatura intre X si Y)
Legatura dintre X si Y este:
Slaba, daca 𝑟 ∈ (0; 0.3] sau 𝑟 ∈ [−0.3; 0)
Medie, daca 𝑟 ∈ (0.3; 0.7] sau 𝑟 ∈ [−0.7; −0.3)
Puternica, daca 𝑟 ∈ (0.7; 1] sau 𝑟 ∈ [−1; −0.7)

43
Coeficientul de determinatie
Coeficientul de determinatie (r2) – arata in ce % variatia variabilei dependente este influentata de
variatia variabilei independente.
Coeficientul de determinatie se calculeaza prin ridicarea la patrat a valorii coeficientului de corelatie.
Coeficientul de determinatie se exprima in %.

Exemplu:
Consideram cifra de afaceri si numarul de angajati in cazul a 10 firme si dorim sa analizam existenta
unei posibile legaturi intre cele doua variabile. In mod logic cifra de afaceri este variabila
independenta (X), iar numarul de angajati este variabila dependenta (Y). Datele analizate sunt:

Cifra de afaceri Numar de angajati


10.000 2
50.000 6
80.000 8
60.000 7
100.000 11
75.000 9
80.000 9
120.000 13
95.000 9
77.000 10
Pentru a calcula coeficientul de corelatie, vom determina prima data sumele ce apar in formula lui r.

Cifra de afaceri (X) Numar de angajati (Y) xy x2 y2


10,000 2 20,000 100,000,000 4
50,000 6 300,000 2,500,000,000 36
80,000 8 640,000 6,400,000,000 64
60,000 7 420,000 3,600,000,000 49
100,000 11 1,100,000 10,000,000,000 121
75,000 9 675,000 5,625,000,000 81
80,000 9 720,000 6,400,000,000 81
120,000 13 1,560,000 14,400,000,000 169
95,000 9 855,000 9,025,000,000 81
77,000 10 770,000 5,929,000,000 100
747,000 84 7,060,000 63,979,000,000 786

Prin urmare, coeficientul de corelatie este


10 ∗ 7.060.000 − 747.000 ∗ 84
𝑟= = 0.97
√10 ∗ 63.979.000.000 − 747.0002 √10 ∗ 786 − 842
Interpretare: Intre cifra de afaceri si numarul de angajati exista o legatura directa (cresterea cifrei de
afaceri genereaza o crestere a numarului de angajati) puternica.
Pentru a evalua cat este de puternica legatura dintre cele doua variabile vom calcula coeficientul de
determinatie.
𝑟 2 = 0.972 = 0.94
Interpretare: 94% din variatia numarului de angajati se datoreaza variatiei cifrei de afaceri.

44

S-ar putea să vă placă și