Sunteți pe pagina 1din 149

Statistică aplicată - Curs 1

ELEMENTE INTRODUCTIVE
2

Titular curs + seminar:


Lector Univ. Dr. Mihaela Sandu

MIHAELA.SANDU@FAA.UNIBUC.RO
Evaluare și punctaj final

 Examen final: 6 puncte

 Examenul constă în rezolvarea a 10 întrebări/ grile cu


răspuns deschis

 Evaluare pe parcurs (proiect): 3 puncte

 Un punct din oficiu

 Activitatea de seminar nu poate fi recuperată în


afara orelor din timpul semestrului
Material didactic

 Cursurile în format ppt și/ sau word


 Seturi de date
5

Bibliografie selectivă:
 „Statistica pe înţelesul tuturor”, Elena Druică,
Ioniţă Druică, Mihaela Sandu, Rodica Ioanole,
Editura C.H. Beck, 2011
 „Bazele statisticii economice”, Liliana
Duguleană, Ed. C.H. Beck, 2012
 „Statistică. Teorie şi aplicaţii în sectorul terţiar”,
Emilia Ţiţan, Ed. Meteor Press
 „Statistics for Business and Economics”, David R.
Anderson, Dennis J. Sweeney, Thomas A.
Williams
Rolul analizei datelor în 6

analiza economică
Departamentul comercial Previziunea vânzărilor
Setarea target-urilor
Logistică și Managementul Previzionarea comenzilor
producției Analiza calității producției
Marketing Analiza cererilor
Previzionarea vânzărilor
Ciclul de viață al unui produs
Preferința consumatorilor
Finanțe Riscuri privind oferta
Analiza pieței
Previzionarea bugetelor
Previzionarea profitului
Planificare Previziune și planificări strategice
Serii de date folosite 7

 Serii de timp – evoluția în timp a unui fenomen economic;


 Frecvența: anuale, semestriale, trimestriale, lunare, săptămânale zilnice;
 Exemplu: PIB-ul României în perioada 1990-2017
 Cross-sectional – valorile unei caracteristici la nivelul unei unități
statistice elementare;
 Exemplu: indicele corupției în anul 2006 pentru 112 țări; numărul
angajaților la nivelul firmelor dintr-o anumită localitate, la finele anului
2006;
 Date panel – fiecare valoare este localizată prin doi indici: unul pentru
precizarea dimensiunii temporale, altul pentru identificarea unității
statistice;
 Exemplu: avem 4 indicatori economici – PIB, populația, exportul net și
datoria externă, pentru țările UE, în perioada 2007-2017; setul de date
se va prezenta în acest caz sub forma unei matrice;
Metode de analiză 8

folosite
 Pentru seriile de timp: modele specifice seriilor de
timp (ex. proiecția trendului, analiza de
sezonalitate, modele autoregresive etc.)

 Pentru datele cross - sectional: modelele de


regresie

 Pentru datele panel: modele de tip analiză panel


(modele cu efecte fixe, cu efecte aleatorii, de tip
“between”, sau de tip “first difference”)
Rolul analizei datelor în 9

analiza economică
1. Identificarea unor trăsături caracteristice ale
fenomenelor studiate
Alegerea unei teorii economice care va sta la baza
studierii fenomenului analizat
2. Testarea unor ipoteze statistice
Analiza datelor/ construirea modelelor
3. Efectuarea de previziuni
Se folosesc modele econometrice estimate pentru
anticiparea și eventual aplicarea unor corecții
evoluțiilor viitoare ale unui anumit fenomen
Exemplu: vom putea anticipa modificări ale nivelului
consumului privat ca urmare a modificării veniturilor
disponibile.
Ce vom studia în
continuare?
 Introducere în R - Studio
 R ca și calculator
 Citirea unui fișier
 Structura datelor utilizate și câteva operații simple
 Grafice, statistici descriptive și interpretarea lor
Descărcați R și R Studio

 Informații generale despre R:


 https://www.r-project.org
 Descărcați R:
 https://www.r-project.org
 Descărcați RStudio:
 https://www.rstudio.com/products/rstudio/download/
 Observație: pentru ca RStudio să funcționeze, aveți
nevoie să aveți descărcat în prealabil R
Cele 4 ferestre ale lui R
Studio
 RStudio cuprinde o serie de instrumente care ajută la o
operare mai ușoară în R
 Include: consola, un editor de coduri, instrumente pentru
plotare și pachete pentru funcții, la care se adaugă un
manager de spațiu.
 Stânga sus: acolo scrieți codurile, pe care apoi le
executați
 Stânga jos: acolo vor rula codurile și veți obține rezultatele
operațiilor
 Dreapta sus: acela este spațiul de lucru, unde vor fi
stocate toate informațiile despre datele pe care le utilizați
și despre ceea ce creați pe parcurs.
 Dreapta jos: acolo sunt stocate pachetele cu funcții,
instrumentele de plotare, informațiile care vă ajută să
găsiți explicații/descrieri ale diferitelor funcții în R etc.
R ca și calculator

 R recunoaște și execută toate operațiile de bază


 +, -, *, /, ^
 R recunoaște funcții predefinite
 log(15), exp(4)
 R poate opera cu mai mult decât un singur
număr: poate aduna vectori, poate să-i scadă
etc.
Exemplu

 Ce veți obține la rularea codului următor?


 a <- c(12,45,18,1)
 b<- c(2,4,67,15)
 a+b
 a*b
 a/b

 a <- c(12,45,18,1)
 b<- c(2,4,67,15)
 sum(a*b)
Citirea unui fișier în R

 Seturile de date (format csv și txt): fereastra din


dreapta sus
 Import Dataset
 Codurile: fereasta din stânga sus
 Deschiderea unui fișier existent
 Crearea unui fișier nou
Câteva aplicații folosind R
– codurile folosite
 # definim vectorul:
 venit <- c(2, 3, 5, 6, 7)
 # media
 mean(venit)
 # abaterea standard
 sd(venit)
 #sumarul statistic
 summary(venit)
 # histograma
 hist(venit, main = "Venitul", xlab = "Venitul", ylab =
"Frecventa")
Câteva aplicații folosind R
– rezultatele obținute
 > venit <- c(2, 3, 5, 6, 7)
 > mean(venit)
 [1] 4.6
 > sd(venit)
 [1] 2.073644
 > summary(venit)
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 2.0 3.0 5.0 4.6 6.0 7.0
Raportarea datelor

Variabila Minim Medie Mediana Maxim Abatere


standard
Venitul 2 4.6 5 7 2.07
Interpretarea rezultatelor
 Venitul variază între un minim egal cu 2 și un maxim egal cu
7.
 Valoarea medie a venitului este 4,6. Conform mediane,
tendința centrală a valorilor venitului este 5. Media și
mediana au valori apropiate, deci mulțimea de date este
una simetrică (nu avem valori extreme).
 Împrăștierea punctelor față de valoarea medie este 2,07.
Comparativ cu media valoarea abaterii standard este
destul de mare, mulțimea fiind una împrăștiată.
 Quartila 1 = 3; quartila 1 = procentila 25
 25% din valorile venitului sunt mai mici sau egale cu 3 și 75%
dintre acestea sunt mai mari sau egale cu 3.
 Quartila 3 = 6; quartila 3 = procentila 75
 25% din valorile venitului sunt mai mici sau egale cu 6 și 75%
dintre acestea sunt mai mari sau egale cu 6.
Observație!

 Aplicația prezentată în slide-urile precedente este


pur orientativă având caracter didactic.

 Găsiți pe slide-urile următoare câteva elemente


de teorie privind statisticile descriptive ce au fost
folosite în aplicațiile efectuate în acest curs.
SĂ NE AMINTIM...

REZUMAREA TABELARĂ A DATELOR STATISTICE


REZUMAREA GRAFICĂ A DATELOR STATISTICE
INDICATORI AI STATISTICILOR DESCRIPTIVE
Rezumarea tabelară a datelor
Exemplu: datele referitoare la
salariile iniţiale ale absolvenţilor
unei facultăţi

 Datele referitoare la 80 de studenţi


 Volum mare de date
 Incomoditate
 Dacă ne interesează ceva anume ? Ce facem ?
Salariu iniţial (lei) Salariu iniţial (lei)

.
Absolvent Specializarea Absolvent Specializarea

1 Finanţe 1550 21 Management 1380

2 Management 1310 22 Marketing 1730

3 Management 1575 23 Management 1640


4 Marketing 1675 24 Contabilitate 2000

5 Contabilitate 1585 25 Marketing 1400

6 Marketing 1590 26 Management 1325

7 Management 1580 27 Contabilitate 1900

8 Contabilitate 1475 28 Marketing 1600

9 Management 1300 29 Contabilitate 1600

10 Finanţe 1650 30 Contabilitate 1555


11 Contabilitate 1565 31 Marketing 1700

12 Marketing 1320 32 Marketing 1380

13 Finanţe 1750 33 Management 1620

14 Contabilitate 1725 34 Contabilitate 1650

15 Marketing 1650 35 Contabilitate 2000

16 Management 1740 36 Finanţe 1455

17 Contabilitate 1650 37 Contabilitate 1625

18 Contabilitate 1875 38 Management 1340

19 Marketing 1620 39 Contabilitate 1530

20 Finanţe 1550 40 Finanţe 1410


.
Absolvent Specializarea Salariu iniţial (lei) Absolvent Specializarea Salariu iniţial (lei)
41 Finanţe 1590 61 Management 1775
42 Contabilitate 1570 62 Finanţe 2025
43 Contabilitate 2015 63 Marketing 1450
44 Management 1620 64 Management 1425
45 Finanţe 1860 65 Management 1820
46 Marketing 1625 66 Management 1900
47 Management 2000 67 Contabilitate 1700
48 Marketing 1850 68 Management 1900
49 Finanţe 1640 69 Contabilitate 1475
50 Marketing 1900 70 Contabilitate 1850
51 Contabilitate 1450 71 Management 1500
52 Contabilitate 1815 72 Finanţe 1620
53 Marketing 1440 73 Management 1600
54 Management 1420 74 Finanţe 1580
55 Management 1550 75 Contabilitate 1705
56 Contabilitate 1550 76 Management 1780
57 Contabilitate 1660 77 Management 1400
58 Contabilitate 1760 78 Contabilitate 1550
59 Marketing 1550 79 Contabilitate 1390
60 Management 1650 80 Management 1600
Tabel 2.2. Distribuţia de frecvenţă pentru salariile iniţiale ale absolvenţilor facultăţii

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1400 8

Cel puţin 1400, dar sub 1500 11

Cel puţin 1500, dar sub 1600 17

Cel puţin 1600, dar sub 1700 19

Cel puţin 1700, dar sub 1800 10

Cel puţin 1800, dar sub 1900 6

Cel puţin 1900, dar sub 2000 4

Cel puţin 2000, dar sub 2100 5

Total 80
Tabel 2.3. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor
specializării Contabilitate

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1400 1

Cel puţin 1400, dar sub 1500 3

Cel puţin 1500, dar sub 1600 7

Cel puţin 1600, dar sub 1700 5

Cel puţin 1700, dar sub 1800 4

Cel puţin 1800, dar sub 1900 3

Cel puţin 1900, dar sub 2000 1

Cel puţin 2000, dar sub 2100 3

Total 27
Tabel 2.4. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor facultăţii

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1700 55

Cel puţin 1700, dar sub 2100 25

Total 80

 Imagine neclară deoarece tabelul nu oferă


prea multă informaţie
Tabel 2.5. Distribuţia de frecvenţă pe tipuri de absolvenţi ai facultăţii studiate

Specializarea absolvită Frecvenţa

Contabilitate 27

Finanţe 12

Management 25

Marketing 16

Total 80
Distribuţia relativă de
frecvenţă

 Frecvenţa unei clase – numărul total de itemi din


mulţimea de date care aparţin clasei respective
 Frecvenţa relativă a itemilor – fracţiunea din
totalul itemilor care aparţine unei anumite clase
 Frecvenţa relativă a clasei = (Frecvenţa clasei / n)
Tabel 2.7. Distribuţia de frecvenţă relativă pentru salariile iniţiale ale absolvenţilor
facultăţii

Salariul iniţial (lei) Frecvenţa Frecvenţa relativă

Cel puţin 1300, dar sub 1400 8 8/80 = 0,10000

Cel puţin 1400, dar sub 1500 11 11/80 = 0,1375

Cel puţin 1500, dar sub 1600 17 17/80 = 0,2125

Cel puţin 1600, dar sub 1700 19 19/80 = 0,2375

Cel puţin 1700, dar sub 1800 10 10/80 = 0,1250

Cel puţin 1800, dar sub 1900 6 6/80 = 0,0750

Cel puţin 1900, dar sub 2000 4 4/80 = 0,0500

Cel puţin 2000, dar sub 2100 5 5/80 = 0,0625

Total 80 1
Tabel 2.8. Distribuţia de frecvenţă relativă pe tipuri de absolvenţi ai facultăţii
studiate

Specializarea Frecvenţa Frecvenţa relativă

Contabilitate 27 27/80 = 0,3375

Finanţe 12 12/80 = 0,1500

Management 25 25/80 = 0,3125

Marketing 16 16/80 = 0,2000

Total 80 1
Observaţii

 0,0625 deci 6,25 % din cei 80 de absolvenţi au


salarii cuprinse între 2000 şi 2100
 0,3375 deci 33,75 % din cei 80 absolvenţi au
studiat Contabilitatea
Distribuţia cumulativă de
frecvenţă
 Este una dintre variantele derivate
din distribuţia de frecvenţă
 Este utilă uneori în procesul
rezumării unei mulţimi de date
 cuprinde acelaşi număr de clase
ca şi distribuţia de frecvenţă, doar
că pentru fiecare dintre aceste
clase ea indică totalul itemilor care
sunt mai mici decât limita
superioară a clasei
Tabel care arată distribuţia
cumulativă de frecvenţă
Salariul iniţial (lei) Frecvenţa cumulativă

Mai mic de 1400 8

Mai mic de 1500 19

Mai mic de 1600 36

Mai mic de 1700 55

Mai mic de 1800 65

Mai mic de 1900 71

Mai mic de 2000 75

Mai mic de 2100 80


Noi perspective de a privi
datele
 un număr de 55 dintre absolvenţi câştigă mai
puţin de 1700 lei
 36 dintre aceştia câştigă mai puţin de 1600 lei
 19 câştigă mai puţin de 1500 lei
 8 câştigă mai puţin de 1400 lei
Tabel care arată distribuţia
cumulativă de frecvenţă
relativă
Salariul iniţial (lei) Frecvenţa cumulativă

Mai mic de 1400 0,1000

Mai mic de 1500 0,2375

Mai mic de 1600 0,4500

Mai mic de 1700 0,6875

Mai mic de 1800 0,8125

Mai mic de 1900 0,8875

Mai mic de 2000 0,9375

Mai mic de 2100 1,0000


Prezentarea grafică a
distribuţiilor de frecvenţă
 Frecvenţa, frecvenţa relativă,
frecvenţa cumulativă şi distribuţia
cumulativă de frecvenţă relativă sunt
proceduri tabelare de rezumare a
datelor
 pot fi utilizate pentru creşterea
gradului de înţelegere a informaţiilor
conţinute în mulţimea de date
 Rezumarea grafică oferă adesea
intuiţii suplimentare cu privire la natura
mulţimii de date
Moduri de reprezentare a
datelor statistice
 histograma,
 poligonul de frecvenţă,
 ogiva
Histograma pentru datele
iniţiale
Observaţii

 salariile iniţiale cu cea mai mare frecvenţă sunt


repartizate în intervalul 1500 – 1700
 frecvenţa salariilor descreşte de o parte şi de alta
a acestui nivel
Poligonul de frecvenţă

 este o alternativă la histogramă, ca manieră de


prezentare a distribuţiei de frecvenţă în formă
grafică
 valorile datelor sunt poziţionate pe axa orizontală
şi frecvenţele pe axa verticală
Poligonul de frecvenţă

20
18
Numărul de absolvenţi

16
14
12
10
8
6
4
2
0
1300 1400 1500 1600 1700 1800 1900 2000 2100
Salariul iniţial
Ogiva

 Este reprezentarea grafică a unei distribuţii


cumulative de frecvenţă, sau a unei distribuţii
cumulative de frecvenţă relativă
 Valorile datelor sunt poziţionate pe axa orizontală
şi frecvenţele cumulate pe axa verticală
Ogiva pentru salariile iniţiale

90
80
Frecvenţa cumulativă

70
60
50
40
30
20
10
0
1300 1400 1500 1600 1700 1800 1900 2000
Salariul iniţial
MEDIA
MEDIANA

Măsuri
MODUL
ale
PROCENTILA P
locaţiei pentru
date nerezumate
Date utilizate
 Dispunem de date despre salariile iniţiale provenite dintr-un
eşantion format cu 80 de absolvenţi ai unei facultăţi cu profil
economic.
 Ne vom ocupa doar de eşantionul de dimensiune 12 al
absolvenţilor de Finanţe şi de cel de dimensiune 25 al
absolvenţilor de Management
Specializarea Finanţe

1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
1. Media
 Este prima şi cea mai des întâlnită măsură a locaţiei
 Se mai numeşte şi valoare medie a datelor
De ce este necesară?
 un absolvent de Finanţe probabil va fi interesat de salariul pe
care l-a primit, în medie, o persoană care face parte din
eşantion
 Odată cunoscută această valoare medie, absolventul îşi poate
face o idee despre ce înseamnă o ofertă de muncă „bună” sau
„proastă”.
În consecinţă:
MEDIA OFERĂ O BUNĂ MĂSURĂ A TENDINŢEI
CENTRALE A UNEI MULŢIMI DE DATE.
Pentru absolvenţii de

Finanţe
Vom nota: x
salariul iniţial al primului absolvent din eşantionul
1
specializării Finanţe, cu salariul iniţial al celui de-al doilea
absolvent din acelaşi eşantion şi tot aşa x2
Media este:
x 1  x 2  ...  x 12
12
SALARIUL MEDIU INIŢIAL =

= 1640
În general:

 Media de selecţie

x
 xi
(1)
n
unde n reprezintă dimensiunea eşantionului
O interpretare a statisticii

rezumative:
presupunem că a fost calculat şi salariul mediu iniţial pentru
eşantionul absolvenţilor de Management şi că rezultatul este
1590 lei
 acest salariu mediu iniţial este mai mic pentru absolvenţii
specializării Management decât pentru absolvenţii de Finanţe
Observaţie:
 Rezultatul a fost ibţinut din eşantioane
 Nu putem spune că salariul mediu iniţial pentru întreaga
populaţie de absolvenţi de Finanţe este cu 50 de lei mai mare
decât salariul mediu iniţial pentru întreaga populaţie de
absolvenţi de Management
Pentru afirmaţii care

vizează populaţiile
Vom vedea cum se procedează pentru a putea obţine
informaţii despre diferenţele între parametrii studiaţi – în acest
caz, mediile populaţiilor – pe baza diferenţelor pe care le-am
observat în eşantioanele din care am dedus mediile de selecţie
 Deocamdată nu generalizăm!
Formula de
calcul a mediei

populaţiei
μ
N
x
este i

similară
UNDE N REPREZINTĂ DIMENSIUNEA POPULAŢIEI
2. Mediana
 Este o altă măsură a tendinţei centrale a unei mulţimi de date.
 Este valoarea din mijloc din mulţimea de date, atunci când
datele sunt aranjate în ordinea lor crescătoare
Mai exact:
 În situaţia în care există un număr impar de itemi, mediana este
itemul din mijloc.
 Dacă numărul de date este par, urmărim convenţia care
defineşte mediana ca fiind media itemilor din mijloc.
Definiţia Medianei
 Dacă numărul de date este impar, atunci mediana este
valoarea itemului din mijloc atunci când datele sunt aranjate în
ordine crescătoare
 Dacă numărul de date este par, atunci mediana este valoarea
medie a celor doi itemi din mijloc atunci când datele sunt
aranjate în ordine crescătoare.
Pentru specializarea

Finanţe
Aranjarea itemilor în ordine crescătoare conduce la următoarea
listă:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
 Mediana pentru eşantionul studiat este media celor doi itemi pe
care i-am pus în evidenţă
Calculul
medianei
1590  1620
2

MEDIANA =

= 1605
Observaţii
 media este o măsură a tendinţei centrale foarte des utilizată
 există situaţii în care mediana este o măsură mai bună
Motivele:
 Media este influenţată de valorile extreme dintr-o mulţime de
date
 Mediana nu este influenţată de aceste valori extreme
Exemplu:
 presupunem că unul dintre absolvenţii
specializării Finanţe are ca salariu iniţial 10000
lei
 Dacă înlocuim valoarea 2025 care era cea
mai mare valoare din eşantion cu valoarea
10000, media de selecţie pentru noile date
rezultă a fi 2305 lei
 Mediana, totuşi, rămâne neschimbată pentru
că valorile 1590 şi 1640 rămân tot în mijlocul
mulţimii de date
Afirmaţie
general
valabilă:
ORI DE CÂTE ORI ÎN MULŢIMEA DE DATE EXISTĂ VALORI
EXTREME, MEDIANA ESTE O MĂSURĂ MAI BUNĂ A
TENDINŢEI CENTRALE DECÂT VALOAREA MEDIE.
Comparaţie pe baza
medianei
 În cazul eşantionului absolvenţilor de
Management există un număr impar de itemi
 Mediana pentru acest eşantion este 1600 lei
(temă de seminar)
 Prin compararea medianelor provenite de la
cele două eşantioane observăm că există o
diferenţă de 5 lei în favoarea absolvenţilor de
Finanţe.
Observaţii
 Deşi atât media, cât şi mediana sunt folosite ca măsuri ale
locaţiei, multe persoane sunt familiarizate mai degrabă cu
media şi, din acest motiv, preferă să lucreze cu ea
 Totuşi, atunci când în mulţimea de date intervin valori extreme,
mediana este o măsură mai bună a tendinţei centrale
3. Modul
DEFINIŢIE: MODUL UNEI MULŢIMI DE DATE ESTE
VALOAREA CARE APARE CU CEA MAI MARE
FRECVENŢĂ.
Specializarea Finanţe
 singurul nivel salarial care apare mai mult decât o sigură dată
este 1550
 pentru că această valoare, pe care o regăsim cu frecvenţa 2,
este singura care apare mai mult de o singură dată, ea este
modul din acest eşantion
Specializarea

Management
frecvenţa cea mai mare, din nou egală cu 2, apare pentru trei
valori diferite: 1600, 1620 şi 1900
 mulţimea de date are trei moduri diferite (adică este o mulţime
multimodală)
Observaţie în consecinţă
 cel mai bun lucru într-o astfel de situaţie este
să nu ne referim la mod ca la o măsură
reprezentativă pentru că în mod evident cele
trei valori nu reuşesc să descrie o tendinţă
centrală a datelor
 probabil că majoritatea practicienilor s-ar
limita la medie şi mediană pentru a descrie
toate datele referitoare la salariile iniţiale
De reţinut
 Diferitele măsuri ale tendinţei centrale nu se folosesc doar pentru
că există!
 Uneori ele nu sunt deloc utile, sau relevante!
 Trebuie ştiut de fiecare dată care este măsura care trebuie
folosită pentru o descriere corectă a datelor.
Aspect
important
TIPURILE DE DATE PENTRU CARE MODUL ESTE O
CONSIDERAT O MĂSURĂ UTILĂ SUNT CELE CALITATIVE.
În exemplul absolvenţilor
 specializarea absolvită este un exemplu de caracteristică de
natură calitativă
 Există 12 absolvenţi de Finanţe, 25 de absolvenţi de
Management, 27 de absolvenţi de Contabilitate şi 16 de
Marketing
 Prin urmare modul, dat de cea mai frecventă apariţie, este
Contabilitatea.
Observaţie
PENTRU DATE CALITATIVE NU ARE NICIUN SENS SĂ
DISCUTĂM DESPRE MEDIE, SAU MEDIANĂ!
Alt exemplu
 Un fabricant trimite pe piaţă un produs în trei ambalaje diferite
 Utilizând designul celor trei ambalaje ca fiind variabilă calitativă
şi observând frecvenţa de cumpărare, putem stabili că modul
este dat de acel design care se cumpără cel mai des
4. Procentila
 oferă un mijloc de identificare a locaţiei valorilor din mulţimea
de date care nu sunt neapărat valori centrale
 oferă informaţii despre modul în care sunt împrăştiate datele de
la cea mai mică la cea mai mare valoare a lor
Deci, procentila:
 poate fi privită şi ca o măsură a dispersării, sau variabilităţii
mulţimii de date
 În mulţimile mari de date, în care nu avem prea multe valori
care să se repete, procentila p este acea valoare care divide
mulţimea de date în două părţi
Cum anume se divide

mulţimea de date?
Aproximativ p% dintre itemi iau valori mai mici decât procentila
de ordin p
 Aproximativ (100 – p)% dintre itemi iau valori mai mari decât
aceasta
O definiţie
formală a
procentilei
PROCENTILA DE ORDIN P A DATELOR ESTE O VALOARE
ASTFEL ÎNCÂT CEL PUŢIN P% DINTRE ITEMI IAU ACEASTĂ
VALOARE SAU MAI PUŢIN ŞI CEL PUŢIN (100 – P)% DINTRE
ITEMI IAU ACEASTĂ VALOARE SAU MAI MULT.
Exemplu:
 Punctajele obţinute la examenele de admitere sunt raportate
frecvent în termeni de procentilă
 un aplicant are un punctaj de 84 de puncte; nu este foarte clar
care este poziţia acestui candidat în raport cu ceilalţi
participanţi la concurs
Punctajul corespunde procentilei de
ordin 70:
 70% dintre aplicanţi au un scor mai mic, sau egal cu al
aplicantului în discuţie
 doar 30% dintre concurenţi au obţinut un punctaj mai bun
Problema salariilor iniţiale
 Ne interesează procentila 90
 Este o măsură corespunzătoare a salariilor de top, pentru că
doar un procent de aproximativ 10% dintre absolvenţi primesc
salarii egale sau mai mari cu procentila 90
Pentru Finanţe
 1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
 Primele 11 din cele 12 salariipână la 1860, reprezintă 91,7% dintre
datele pe care le studiem
 două, anume 1860, 2025, reprezintă 16,7%
Prin urmare:
 dintre toţi cei 12 itemi cel puţin 90% au o valoare egală sau mai
mică decât 1860
 cel puţin 10% dintre ei au o valoare egală sau mai mare decât
1860
 procentila 90 pentru eşantionul absolvenţilor de Finanţe este
1860
Regulă
DACĂ EXISTĂ DOI ITEMI CARE SATISFAC ÎN ACELAŞI
TIMP DEFINIŢIA PROCENTILEI P PENTRU O MULŢIME DE
DATE, CONVENIM CA PROCENTILA P SĂ FIE MEDIA
ARITMETICĂ A CELOR DOUĂ VALORI
Specializarea Finanţe
 atât 1590 cât şi 1620 satisfac definiţia procentilei 50 (temă de
seminar)
 spunem că procentila de ordin 50 este media celor două valori,
adică 1605
 observăm că valoarea 1605 este de asemenea mediana
mulţimii de date
Reamintim:
 mediana este acel item care divide mulţimea de date ordonată
crescător în două mulţimi de dimensiuni egale
 Astfel, în termeni de procentilă, mediana este procentila 50.
Calculul Procentilei p
 Pasul 1. Aranjaţi datele în ordine crescătoare
 Pasul 2. Calculaţi un indice i după formula: i = (p/100) x n, unde
p este procentila de interes, iar n este numărul de date de care
dispunem în eşantion.
Pasul III
 (a) Dacă n nu este un întreg, atunci următorul întreg de valoare
mai mare decât i indică poziţia procentilei de ordin p
 (b) Dacă i este întreg, atunci procentila de ordin p se obţine ca
valoare medie a datelor aflate pe poziţiile i şi i+1.
Exemplu
PROCENTILA 90 PENTRU DATELE PROVENITE DIN
EŞANTIONUL ABSOLVENŢILOR DE FINANŢE.
Pasul 1.
ARANJĂM DATELE ÎN ORDINE CRESCĂTOARE ŞI OBŢINEM:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750,
1860, 2025
Pasul 2
CALCULĂM I = (90/100) * 12 = 10,8
Pasul 3
 Indicele i nu este un număr întreg,
 poziţia procentilei 90 este dată de următoarea valoare întreagă
mai mare decât 10,8 şi anume 11.
 în şirul de date aranjate în ordine crescătoare, observăm cum
procentila de ordin 90 corespunde valorii 1860.
Temă de
seminar
CALCULUL PROCENTILEI 50, PENTRU ACEEAŞI
MULŢIME DE DATE.
DISPERSIA
ABATAEREA STANDARD
RANGUL
COEFICIENTUL DE VARIAŢIE
Măsuri ale împrăştierii
Specializarea Finanţe

1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
Comentarii preliminare
Ori de câte ori colectăm date, fie ele pentru un eşantion sau
pentru întreaga populaţie, este de dorit să luăm în considerare
variabilitatea, sau dispersia valorilor acestora
Exemplu
 lucraţi la sectorul aprovizionare al unei fabrici
 de obicei trimiteţi comenzi către doi ofertanţi de materii prime
 ambii indică faptul că este nevoie de aproximativ 10 zile
lucrătoare pentru a onora comanda voastră
Ce observaţi cu timpul:
 Acest număr mediu de zile este corect
 Totuşi, modul în care arată histogramele pe care le-aţi construit
vă nedumereşte
Primul ofertant
Al doilea ofertant
Observaţii pe baza

histogramelor:
dispersarea diferită pentru datele provenite de la cei doi
colaboratori
 câteva situaţii în care aprovizionarea se face în 14 sau 15 zile pot
fi dezastruoase pentru menţinerea ritmului corect al procesului
de producţie
Alte comentarii
 timpul mediu de livrare este un aspect important care trebuie
luat în calcul de către agentul de aprovizionare
 DAR exemplul anterior arată cum există situaţii în care dispersia,
sau variabilitatea în durata aprovizionării este un aspect poate
chiar mai important uneori.
Măsuri studiate
 Rangul
 Dispersia, sau varianţa
 Abaterea standard
 Coeficientul de variaţie
1. Rangul

PROBABIL CEA MAI SIMPLĂ MĂSURĂ A


VARIABILITĂŢII UNEI MULŢIMI DE DATE
Definiţie

RANGUL UNEI MULŢIMI DE DATE ESTE DIFERENŢA


DINTRE CEA MAI MARE ŞI CEA MAI MICĂ VALOARE
DIN MULŢIME.
Eşantionul absolvenţilor de

Finanţe
Cel mai mare salariu iniţial este 2025 lei
 Cel mai mic este de 1410 lei
 Rangul acestei mulţimi de date este 2025 – 1410 = 615
Observaţii:
CU TOATE CĂ RANGUL ESTE CEA MAI
SIMPLĂ MĂSURĂ STATISTICĂ A
VARIABILITĂŢII, EA NU ESTE FOARTE DES
UTILIZATĂ
Motive:
 pentru a-l determina ne bazăm doar pe doi itemi din întreaga
mulţime de date
 ca atare este influenţat într-o măsură foarte mare de valorile
extreme
Exemplu
 Unul dintre absolvenţii specializării Finanţe primeşte un salariu
iniţial de 10000 lei
 Rangul va fi, în această variantă, 10000 – 1410 = 8590
 Totuşi, restul de 11 din cele 12 salarii iniţiale sunt strâns grupate
între 1410 lei şi 1860 lei (au variabilitate mică).
În consecinţă
ACEASTĂ VALOARE MARE A RANGULUI NU VA
DESCRIE FOARTE RELEVAT VARIABILITATEA DATELOR
Ca atare:
 Cei mai mulţi statisticieni preferă măsuri ale variabilităţii care să
implice toţi itemii din mulţimea de date
 Măsurile pe care le vom discuta mai departe chiar implică toate
datele şi oferă cele mai obişnuite metode de a măsura
variabilitatea.
2. Dispersia, sau varianţa
 Calculăm diferenţele dintre valorile datelor de care dispunem şi
media întregii mulţimi de itemi
 Diferenţele dintre valorile datelor şi valoarea medie numesc
abateri faţă de medie
 Vom lua în considerare abaterea fiecăreia dintre valori faţă de
valoarea medie
Eşantionul
absolvenţilor de
Finanţe
ARĂTĂM MODUL CUM SE CALCULEAZĂ
DIFERENŢELE DINTRE VALORILE DATELOR ŞI MEDIA
DE SELECŢIE
Absolvent Salariu Media Abaterile faţă de media de
iniţial selecţie
1
1550 1640 - 90
2
1650 1640 10
3
1750 1640 110
4
1550 1640 - 90
5
1455 1640 - 185
6
1410 1640 - 230
7
1590 1640 - 50
8
1860 1640 220
9
1640 1640 0
10
2025 1640 385
11
1620 1640 - 20
12
1580 1640 - 60
Totaluri 19680 0
Observaţii
 Suma tuturor abaterilor individuale faţă de media de selecţie
este zero
 Lucrul acesta este adevărat pentru orice mulţime de date
Ce rezultă de aici:
 Abaterile pozitive şi cele negative se anulează reciproc
 Calcul abaterii medii nu conduce la niciun fel de informaţii
despre variabilitatea mulţimii de date
 O posibilitate ar fi să eliminăm toate semnele minus considerând
valoarea absolută a abaterilor individuale
Care este cea mai
des utilizată
măsură?
CEA CARE SE BAZEAZĂ PE ELIMINAREA SEMNELOR
MINUS PRIN RIDICAREA LA PĂTRAT A ABATERILOR
INDIVIDUALE
Pentru acelaşi
eşantion
AL ABSOLVENŢILOR DE FINANŢE
Absolvent Salariu iniţial Abaterile faţă Pătratele
de media de abaterilor
selecţie faţă de media
de selecţie
1 1550 - 90 8100
2 1650 10 100
3 1750 110 12100
4 1550 - 90 8100
5 1455 - 185 34225
6 1410 - 230 52900
7 1590 - 50 2500
8 1860 220 48400
9 1640 0 0
10 2025 385 148225
11 1620 - 20 400
12 1580 - 60 3600
Totaluri 19680 0 318650
Media pătratelor
abaterilor
318650 26554,17

12
Comentarii:
 Media pătratelor abaterilor pentru o mulţime de date care
reprezintă o întreagă populaţie are o semnificaţie specifică în
statistică.
 Ea este numită dispersie, sau varianţă.
Dispersia
populaţiei se
notează
2
σ
Formulă de calcul

2  x i  x 
2

σ 
N
Observaţii:
 În multe aplicaţii statistice, mulţimea de date cu care lucrăm
este un eşantion
 O măsură a variabilităţii eşantionului ar trebui să fie un estimator
pentru dispersia întregii populaţii.
Tentaţia
SĂ UTILIZĂM MEDIA PĂTRATELOR ABATERILOR
PENTRU EŞANTION CA ESTIMATOR AL DISPERSIEI
POPULAŢIEI.
Care este rezultatul?
 Statisticienii au constatat că valoarea medie calculată pentru
eşantion subestimează dispersia populaţiei
 Din cauza acestei tendinţe de subestimare, media pătratelor
abaterilor datelor din eşantion este un estimator deplasat.
Se poate arăta că dacă suma
pătratelor abaterilor
individuale

ESTE ÎMPĂRŢITĂ LA N-1 ÎN LOC DE N,


ATUNCI STATISTICA REZULTATĂ OFERĂ
UN ESTIMATOR NEDEPLASAT AL
DISPERSIEI POPULAŢIEI.
Dispersia de selecţie

2  x i  x  2

s 
n 1
Absolvenţii specializării
Finanţe

2  x i  x 
2
318650
s    28968,18
n 1 11
Semnificaţie
 este dificil să obţinem o semnificaţie intuitivă a valorii numerice
28968,18
 putem observa că valori mai mari ale dispersiei pot fi obţinute
doar din mulţimi de date cu abateri mari faţă de medie şi, prin
urmare, mai dispersate
Comentarii
 valoarea numerică obţinută efectiv nu este
simplu de interpretat ca atare
Dispersia de selecţie (Formulă
prescurtată)


2
2 xi  nx
s 
n 1
Dispersia populaţiei (Formulă
prescurtată)


2
2 xi  Nx
σ 
N
3. Abaterea standard
 este definită ca rădăcină pătrată din dispersie
 vom nota cu s abaterea standard de selecţie
 vom nota cu σ abaterea standard pentru întreaga populaţie
2
s s

2
σ σ
Comentarii
 Abaterea standard este şi ea o măsură a dispersiei, pentru că
radical dintr-o mărime mare va conduce la o valoare mare.
 Abaterea standard a datelor provenite de la eşantionul
absolvenţilor de Finanţe este 170,2
Ce am câştigat?
 unităţile de măsură care apar în calculul dispersiei sunt ridicate
la pătrat
 De exemplu, dispersia de selecţie pentru salariile iniţiale ale
absolvenţilor de Finanţe este exprimată în lei la pătrat.
 Acesta este cel mai important motiv pentru care este dificil să
obţinem o interpretare intuitivă a acestei mărimi
Aşadar:
 Pentru că abaterea standard este radicalul
dispersiei, înseamnă că ea se exprimă în aceeaşi
unitate de măsură ca şi datele pe care le avem
iniţial,
 în cazul exemplului nostru, se exprimă în lei.
 Din acest motiv, de obicei abaterea standard
este mai uşor de comparat cu media şi cu alte
statistici care se măsoară în aceeaşi unitate de
măsură ca şi datele iniţiale
4. Coeficientul de
variaţie

ESTE O MĂSURĂ RELATIVĂ A VARIABILITĂŢII, NU UNA


ABSOLUTĂ
De ce ne trebuie
 o abatere stadard de 1 cm va fi considerată foarte mare pentru
o piesă de motor, dar va fi semnificativă pentru lungimea unui
cablu pentru telefon
 Trebuie să putem compara mulţimi de date pentru care atât
abaterea standard, cât şi medi sunt diferite
Formula de calcul

σ
100
μ

s
 100
x
De exemplu, pentru eşantionul
absolvenţilor de Finanţe
coeficientul de variaţie este

170,2
100  10,38%
1640
Interpretare:
ABATEREA STANDARD PENTRU ACESTE DATE ESTE
10,38% DIN VALOAREA MEDIE DE SELECŢIE
Observaţii I:
 această mărime poate fi utilizată doar pentru mulţimi care
conţin toate, sau aproape toate datele pozitive
 atunci când în mulţimea de date sunt prezente atât valori
pozitive, cât şi negative, se pot obţine valori nule, sau aproape
nule ale mediei
Observaţii II
DACĂ VALOAREA MEDIE ESTE ZERO, SAU FOARTE
APROPIATĂ DE ZERO, COEFICIENTUL DE VARIAŢIE
POATE AVEA O VALOARE FOARTE MARE CHIAR ŞI
ATUNCI CÂND ABATEREA STANDARD A MULŢIMII SE
DATE ESTE FOARTE MICĂ.

S-ar putea să vă placă și