Sunteți pe pagina 1din 295

Statistică aplicată

ELEMENTE INTRODUCTIVE
2

Bibliografie selectivă:
 „Statistica pe înţelesul tuturor”, Elena Druică,
Ioniţă Druică, Mihaela Sandu, Rodica Ioanole,
Editura C.H. Beck, 2011
 „Bazele statisticii economice”, Liliana
Duguleană, Ed. C.H. Beck, 2012
 „Statistică. Teorie şi aplicaţii în sectorul terţiar”,
Emilia Ţiţan, Ed. Meteor Press
 „Statistics for Business and Economics”, David R.
Anderson, Dennis J. Sweeney, Thomas A.
Williams
Rolul analizei datelor în 3

analiza economică
Departamentul comercial Previziunea vânzărilor
Setarea target-urilor
Logistică și Managementul Previzionarea comenzilor
producției Analiza calității producției
Marketing Analiza cererilor
Previzionarea vânzărilor
Ciclul de viață al unui produs
Preferința consumatorilor
Finanțe Riscuri privind oferta
Analiza pieței
Previzionarea bugetelor
Previzionarea profitului
Planificare Previziune și planificări strategice
Serii de date folosite 4

 Serii de timp – evoluția în timp a unui fenomen economic;


 Frecvența: anuale, semestriale, trimestriale, lunare, săptămânale zilnice;
 Exemplu: PIB-ul României în perioada 1990-2017
 Cross-sectional – valorile unei caracteristici la nivelul unei unități
statistice elementare;
 Exemplu: indicele corupției în anul 2006 pentru 112 țări; numărul
angajaților la nivelul firmelor dintr-o anumită localitate, la finele anului
2006;
 Date panel – fiecare valoare este localizată prin doi indici: unul pentru
precizarea dimensiunii temporale, altul pentru identificarea unității
statistice;
 Exemplu: avem 4 indicatori economici – PIB, populația, exportul net și
datoria externă, pentru țările UE, în perioada 2007-2017; setul de date
se va prezenta în acest caz sub forma unei matrice;
Metode de analiză 5

folosite
 Pentru seriile de timp: modele specifice seriilor de
timp (ex. proiecția trendului, analiza de
sezonalitate, modele autoregresive etc.)

 Pentru datele cross - sectional: modelele de


regresie

 Pentru datele panel: modele de tip analiză panel


(modele cu efecte fixe, cu efecte aleatorii, de tip
“between”, sau de tip “first difference”)
Rolul analizei datelor în 6

analiza economică
1. Identificarea unor trăsături caracteristice ale
fenomenelor studiate
Alegerea unei teorii economice care va sta la baza
studierii fenomenului analizat
2. Testarea unor ipoteze statistice
Analiza datelor/ construirea modelelor
3. Efectuarea de previziuni
Se folosesc modele econometrice estimate pentru
anticiparea și eventual aplicarea unor corecții
evoluțiilor viitoare ale unui anumit fenomen
Exemplu: vom putea anticipa modificări ale nivelului
consumului privat ca urmare a modificării veniturilor
disponibile.
Ce vom studia în
continuare?
 Introducere în R - Studio
 R ca și calculator
 Citirea unui fișier
 Structura datelor utilizate și câteva operații simple
 Grafice, statistici descriptive și interpretarea lor
Descărcați R și R Studio

 Informații generale despre R:


 https://www.r-project.org
 Descărcați R:
 https://www.r-project.org
 Descărcați RStudio:
 https://www.rstudio.com/products/rstudio/download/
 Observație: pentru ca RStudio să funcționeze, aveți
nevoie să aveți descărcat în prealabil R
Cele 4 ferestre ale lui R
Studio
 RStudio cuprinde o serie de instrumente care ajută la o
operare mai ușoară în R
 Include: consola, un editor de coduri, instrumente pentru
plotare și pachete pentru funcții, la care se adaugă un
manager de spațiu.
 Stânga sus: acolo scrieți codurile, pe care apoi le
executați
 Stânga jos: acolo vor rula codurile și veți obține rezultatele
operațiilor
 Dreapta sus: acela este spațiul de lucru, unde vor fi
stocate toate informațiile despre datele pe care le utilizați
și despre ceea ce creați pe parcurs.
 Dreapta jos: acolo sunt stocate pachetele cu funcții,
instrumentele de plotare, informațiile care vă ajută să
găsiți explicații/descrieri ale diferitelor funcții în R etc.
R ca și calculator

 R recunoaște și execută toate operațiile de bază


 +, -, *, /, ^
 R recunoaște funcții predefinite
 log(15), exp(4)
 R poate opera cu mai mult decât un singur
număr: poate aduna vectori, poate să-i scadă
etc.
Exemplu

 Ce veți obține la rularea codului următor?


 a <- c(12,45,18,1)
 b<- c(2,4,67,15)
 a+b
 a*b
 a/b

 a <- c(12,45,18,1)
 b<- c(2,4,67,15)
 sum(a*b)
Citirea unui fișier în R

 Seturile de date (format csv și txt): fereastra din


dreapta sus
 Import Dataset
 Codurile: fereasta din stânga sus
 Deschiderea unui fișier existent
 Crearea unui fișier nou
Câteva aplicații folosind R
– codurile folosite
 # definim vectorul:
 venit <- c(2, 3, 5, 6, 7)
 # media
 mean(venit)
 # abaterea standard
 sd(venit)
 #sumarul statistic
 summary(venit)
 # histograma
 hist(venit, main = "Venitul", xlab = "Venitul", ylab =
"Frecventa")
Câteva aplicații folosind R
– rezultatele obținute
 > venit <- c(2, 3, 5, 6, 7)
 > mean(venit)
 [1] 4.6
 > sd(venit)
 [1] 2.073644
 > summary(venit)
 Min. 1st Qu. Median Mean 3rd Qu. Max.
 2.0 3.0 5.0 4.6 6.0 7.0
Raportarea datelor

Variabila Minim Medie Mediana Maxim Abatere


standard
Venitul 2 4.6 5 7 2.07
Interpretarea rezultatelor
 Venitul variază între un minim egal cu 2 și un maxim egal cu
7.
 Valoarea medie a venitului este 4,6. Conform mediane,
tendința centrală a valorilor venitului este 5. Media și
mediana au valori apropiate, deci mulțimea de date este
una simetrică (nu avem valori extreme).
 Împrăștierea punctelor față de valoarea medie este 2,07.
Comparativ cu media valoarea abaterii standard este
destul de mare, mulțimea fiind una împrăștiată.
 Quartila 1 = 3; quartila 1 = procentila 25
 25% din valorile venitului sunt mai mici sau egale cu 3 și 75%
dintre acestea sunt mai mari sau egale cu 3.
 Quartila 3 = 6; quartila 3 = procentila 75
 25% din valorile venitului sunt mai mici sau egale cu 6 și 75%
dintre acestea sunt mai mari sau egale cu 6.
Observație!

 Aplicația prezentată în slide-urile precedente este


pur orientativă având caracter didactic.

 Găsiți pe slide-urile următoare câteva elemente


de teorie privind statisticile descriptive ce au fost
folosite în aplicațiile efectuate în acest curs.
SĂ NE AMINTIM...

REZUMAREA TABELARĂ A DATELOR STATISTICE


REZUMAREA GRAFICĂ A DATELOR STATISTICE
INDICATORI AI STATISTICILOR DESCRIPTIVE
Rezumarea tabelară a datelor
Exemplu: datele referitoare la
salariile iniţiale ale absolvenţilor
unei facultăţi

 Datele referitoare la 80 de studenţi


 Volum mare de date
 Incomoditate
 Dacă ne interesează ceva anume ? Ce facem ?
Salariu iniţial (lei) Salariu iniţial (lei)

.
Absolvent Specializarea Absolvent Specializarea

1 Finanţe 1550 21 Management 1380

2 Management 1310 22 Marketing 1730

3 Management 1575 23 Management 1640

4 Marketing 1675 24 Contabilitate 2000

5 Contabilitate 1585 25 Marketing 1400

6 Marketing 1590 26 Management 1325

7 Management 1580 27 Contabilitate 1900

8 Contabilitate 1475 28 Marketing 1600

9 Management 1300 29 Contabilitate 1600

10 Finanţe 1650 30 Contabilitate 1555


11 Contabilitate 1565 31 Marketing 1700

12 Marketing 1320 32 Marketing 1380

13 Finanţe 1750 33 Management 1620

14 Contabilitate 1725 34 Contabilitate 1650

15 Marketing 1650 35 Contabilitate 2000


16 Management 1740 36 Finanţe 1455

17 Contabilitate 1650 37 Contabilitate 1625

18 Contabilitate 1875 38 Management 1340

19 Marketing 1620 39 Contabilitate 1530

20 Finanţe 1550 40 Finanţe 1410


.
Absolvent Specializarea Salariu iniţial (lei) Absolvent Specializarea Salariu iniţial (lei)
41 Finanţe 1590 61 Management 1775
42 Contabilitate 1570 62 Finanţe 2025
43 Contabilitate 2015 63 Marketing 1450
44 Management 1620 64 Management 1425
45 Finanţe 1860 65 Management 1820
46 Marketing 1625 66 Management 1900
47 Management 2000 67 Contabilitate 1700
48 Marketing 1850 68 Management 1900
49 Finanţe 1640 69 Contabilitate 1475
50 Marketing 1900 70 Contabilitate 1850
51 Contabilitate 1450 71 Management 1500
52 Contabilitate 1815 72 Finanţe 1620
53 Marketing 1440 73 Management 1600
54 Management 1420 74 Finanţe 1580
55 Management 1550 75 Contabilitate 1705
56 Contabilitate 1550 76 Management 1780
57 Contabilitate 1660 77 Management 1400
58 Contabilitate 1760 78 Contabilitate 1550
59 Marketing 1550 79 Contabilitate 1390
60 Management 1650 80 Management 1600
Tabel 2.2. Distribuţia de frecvenţă pentru salariile iniţiale ale absolvenţilor facultăţii

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1400 8

Cel puţin 1400, dar sub 1500 11

Cel puţin 1500, dar sub 1600 17

Cel puţin 1600, dar sub 1700 19

Cel puţin 1700, dar sub 1800 10

Cel puţin 1800, dar sub 1900 6

Cel puţin 1900, dar sub 2000 4

Cel puţin 2000, dar sub 2100 5

Total 80
Tabel 2.3. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor
specializării Contabilitate

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1400 1

Cel puţin 1400, dar sub 1500 3

Cel puţin 1500, dar sub 1600 7

Cel puţin 1600, dar sub 1700 5

Cel puţin 1700, dar sub 1800 4

Cel puţin 1800, dar sub 1900 3

Cel puţin 1900, dar sub 2000 1

Cel puţin 2000, dar sub 2100 3

Total 27
Tabel 2.4. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor facultăţii

Salariul iniţial (lei) Numărul de absolvenţi

Cel puţin 1300, dar sub 1700 55

Cel puţin 1700, dar sub 2100 25

Total 80

 Imagine neclară deoarece tabelul nu oferă


prea multă informaţie
Tabel 2.5. Distribuţia de frecvenţă pe tipuri de absolvenţi ai facultăţii studiate

Specializarea absolvită Frecvenţa

Contabilitate 27

Finanţe 12

Management 25

Marketing 16

Total 80
Distribuţia relativă de
frecvenţă

 Frecvenţa unei clase – numărul total de itemi din


mulţimea de date care aparţin clasei respective
 Frecvenţa relativă a itemilor – fracţiunea din
totalul itemilor care aparţine unei anumite clase
 Frecvenţa relativă a clasei = (Frecvenţa clasei / n)
Tabel 2.7. Distribuţia de frecvenţă relativă pentru salariile iniţiale ale absolvenţilor
facultăţii

Salariul iniţial (lei) Frecvenţa Frecvenţa relativă

Cel puţin 1300, dar sub 1400 8 8/80 = 0,10000

Cel puţin 1400, dar sub 1500 11 11/80 = 0,1375

Cel puţin 1500, dar sub 1600 17 17/80 = 0,2125

Cel puţin 1600, dar sub 1700 19 19/80 = 0,2375

Cel puţin 1700, dar sub 1800 10 10/80 = 0,1250

Cel puţin 1800, dar sub 1900 6 6/80 = 0,0750

Cel puţin 1900, dar sub 2000 4 4/80 = 0,0500

Cel puţin 2000, dar sub 2100 5 5/80 = 0,0625

Total 80 1
Tabel 2.8. Distribuţia de frecvenţă relativă pe tipuri de absolvenţi ai facultăţii
studiate

Specializarea Frecvenţa Frecvenţa relativă

Contabilitate 27 27/80 = 0,3375

Finanţe 12 12/80 = 0,1500

Management 25 25/80 = 0,3125

Marketing 16 16/80 = 0,2000

Total 80 1
Observaţii

 0,0625 deci 6,25 % din cei 80 de absolvenţi au


salarii cuprinse între 2000 şi 2100
 0,3375 deci 33,75 % din cei 80 absolvenţi au
studiat Contabilitatea
Distribuţia cumulativă de
frecvenţă
 Este una dintre variantele derivate
din distribuţia de frecvenţă
 Este utilă uneori în procesul
rezumării unei mulţimi de date
 cuprinde acelaşi număr de clase
ca şi distribuţia de frecvenţă, doar
că pentru fiecare dintre aceste
clase ea indică totalul itemilor care
sunt mai mici decât limita
superioară a clasei
Tabel care arată distribuţia
cumulativă de frecvenţă
Salariul iniţial (lei) Frecvenţa cumulativă

Mai mic de 1400 8

Mai mic de 1500 19

Mai mic de 1600 36

Mai mic de 1700 55

Mai mic de 1800 65

Mai mic de 1900 71

Mai mic de 2000 75

Mai mic de 2100 80


Noi perspective de a privi
datele
 un număr de 55 dintre absolvenţi câştigă mai
puţin de 1700 lei
 36 dintre aceştia câştigă mai puţin de 1600 lei
 19 câştigă mai puţin de 1500 lei
 8 câştigă mai puţin de 1400 lei
Tabel care arată distribuţia
cumulativă de frecvenţă
relativă
Salariul iniţial (lei) Frecvenţa cumulativă

Mai mic de 1400 0,1000

Mai mic de 1500 0,2375

Mai mic de 1600 0,4500

Mai mic de 1700 0,6875

Mai mic de 1800 0,8125

Mai mic de 1900 0,8875

Mai mic de 2000 0,9375

Mai mic de 2100 1,0000


Prezentarea grafică a
distribuţiilor de frecvenţă
 Frecvenţa, frecvenţa relativă,
frecvenţa cumulativă şi distribuţia
cumulativă de frecvenţă relativă sunt
proceduri tabelare de rezumare a
datelor
 pot fi utilizate pentru creşterea
gradului de înţelegere a informaţiilor
conţinute în mulţimea de date
 Rezumarea grafică oferă adesea
intuiţii suplimentare cu privire la natura
mulţimii de date
Moduri de reprezentare a
datelor statistice
 histograma,
 poligonul de frecvenţă,
 ogiva
Histograma pentru datele
iniţiale
Observaţii

 salariile iniţiale cu cea mai mare frecvenţă sunt


repartizate în intervalul 1500 – 1700
 frecvenţa salariilor descreşte de o parte şi de alta
a acestui nivel
Poligonul de frecvenţă

 este o alternativă la histogramă, ca manieră de


prezentare a distribuţiei de frecvenţă în formă
grafică
 valorile datelor sunt poziţionate pe axa orizontală
şi frecvenţele pe axa verticală
Poligonul de frecvenţă

20
18
Numărul de absolvenţi

16
14
12
10
8
6
4
2
0
1300 1400 1500 1600 1700 1800 1900 2000 2100
Salariul iniţial
Ogiva

 Este reprezentarea grafică a unei distribuţii


cumulative de frecvenţă, sau a unei distribuţii
cumulative de frecvenţă relativă
 Valorile datelor sunt poziţionate pe axa orizontală
şi frecvenţele cumulate pe axa verticală
Ogiva pentru salariile iniţiale

90
80
Frecvenţa cumulativă

70
60
50
40
30
20
10
0
1300 1400 1500 1600 1700 1800 1900 2000
Salariul iniţial
MEDIA
MEDIANA

Măsuri
MODUL
ale
PROCENTILA P
locaţiei pentru
date nerezumate
Date utilizate
 Dispunem de date despre salariile iniţiale provenite dintr-un
eşantion format cu 80 de absolvenţi ai unei facultăţi cu profil
economic.
 Ne vom ocupa doar de eşantionul de dimensiune 12 al
absolvenţilor de Finanţe şi de cel de dimensiune 25 al
absolvenţilor de Management
Specializarea Finanţe

1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
1. Media
 Este prima şi cea mai des întâlnită măsură a locaţiei
 Se mai numeşte şi valoare medie a datelor
De ce este necesară?
 un absolvent de Finanţe probabil va fi interesat de salariul pe
care l-a primit, în medie, o persoană care face parte din
eşantion
 Odată cunoscută această valoare medie, absolventul îşi poate
face o idee despre ce înseamnă o ofertă de muncă „bună” sau
„proastă”.
În consecinţă:
MEDIA OFERĂ O BUNĂ MĂSURĂ A TENDINŢEI
CENTRALE A UNEI MULŢIMI DE DATE.
Pentru absolvenţii de

Finanţe
Vom nota: x
salariul iniţial al primului absolvent din eşantionul
1
specializării Finanţe, cu salariul iniţial al celui de-al doilea
absolvent din acelaşi eşantion şi tot aşa x2
Media este:
x 1  x 2  ...  x 12
12
SALARIUL MEDIU INIŢIAL =

= 1640
În general:

 Media de selecţie

x
 xi
(1)
n
unde n reprezintă dimensiunea eşantionului
O interpretare a statisticii

rezumative:
presupunem că a fost calculat şi salariul mediu iniţial pentru
eşantionul absolvenţilor de Management şi că rezultatul este
1590 lei
 acest salariu mediu iniţial este mai mic pentru absolvenţii
specializării Management decât pentru absolvenţii de Finanţe
Observaţie:
 Rezultatul a fost ibţinut din eşantioane
 Nu putem spune că salariul mediu iniţial pentru întreaga
populaţie de absolvenţi de Finanţe este cu 50 de lei mai mare
decât salariul mediu iniţial pentru întreaga populaţie de
absolvenţi de Management
Pentru afirmaţii care

vizează populaţiile
Vom vedea cum se procedează pentru a putea obţine
informaţii despre diferenţele între parametrii studiaţi – în acest
caz, mediile populaţiilor – pe baza diferenţelor pe care le-am
observat în eşantioanele din care am dedus mediile de selecţie
 Deocamdată nu generalizăm!
Formula de
calcul a mediei

populaţiei
μ
N
x
este i

similară
UNDE N REPREZINTĂ DIMENSIUNEA POPULAŢIEI
2. Mediana
 Este o altă măsură a tendinţei centrale a unei mulţimi de date.
 Este valoarea din mijloc din mulţimea de date, atunci când
datele sunt aranjate în ordinea lor crescătoare
Mai exact:
 În situaţia în care există un număr impar de itemi, mediana este
itemul din mijloc.
 Dacă numărul de date este par, urmărim convenţia care
defineşte mediana ca fiind media itemilor din mijloc.
Definiţia Medianei
 Dacă numărul de date este impar, atunci mediana este
valoarea itemului din mijloc atunci când datele sunt aranjate în
ordine crescătoare
 Dacă numărul de date este par, atunci mediana este valoarea
medie a celor doi itemi din mijloc atunci când datele sunt
aranjate în ordine crescătoare.
Pentru specializarea

Finanţe
Aranjarea itemilor în ordine crescătoare conduce la următoarea
listă:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
 Mediana pentru eşantionul studiat este media celor doi itemi pe
care i-am pus în evidenţă
Calculul
medianei
1590  1620
2

MEDIANA =

= 1605
Observaţii
 media este o măsură a tendinţei centrale foarte des utilizată
 există situaţii în care mediana este o măsură mai bună
Motivele:
 Media este influenţată de valorile extreme dintr-o mulţime de
date
 Mediana nu este influenţată de aceste valori extreme
Exemplu:
 presupunem că unul dintre absolvenţii
specializării Finanţe are ca salariu iniţial 10000
lei
 Dacă înlocuim valoarea 2025 care era cea
mai mare valoare din eşantion cu valoarea
10000, media de selecţie pentru noile date
rezultă a fi 2305 lei
 Mediana, totuşi, rămâne neschimbată pentru
că valorile 1590 şi 1640 rămân tot în mijlocul
mulţimii de date
Afirmaţie
general
valabilă:
ORI DE CÂTE ORI ÎN MULŢIMEA DE DATE EXISTĂ VALORI
EXTREME, MEDIANA ESTE O MĂSURĂ MAI BUNĂ A
TENDINŢEI CENTRALE DECÂT VALOAREA MEDIE.
Comparaţie pe baza
medianei
 În cazul eşantionului absolvenţilor de
Management există un număr impar de itemi
 Mediana pentru acest eşantion este 1600 lei
(temă de seminar)
 Prin compararea medianelor provenite de la
cele două eşantioane observăm că există o
diferenţă de 5 lei în favoarea absolvenţilor de
Finanţe.
Observaţii
 Deşi atât media, cât şi mediana sunt folosite ca măsuri ale
locaţiei, multe persoane sunt familiarizate mai degrabă cu
media şi, din acest motiv, preferă să lucreze cu ea
 Totuşi, atunci când în mulţimea de date intervin valori extreme,
mediana este o măsură mai bună a tendinţei centrale
3. Modul
DEFINIŢIE: MODUL UNEI MULŢIMI DE DATE ESTE
VALOAREA CARE APARE CU CEA MAI MARE
FRECVENŢĂ.
Specializarea Finanţe
 singurul nivel salarial care apare mai mult decât o sigură dată
este 1550
 pentru că această valoare, pe care o regăsim cu frecvenţa 2,
este singura care apare mai mult de o singură dată, ea este
modul din acest eşantion
Specializarea

Management
frecvenţa cea mai mare, din nou egală cu 2, apare pentru trei
valori diferite: 1600, 1620 şi 1900
 mulţimea de date are trei moduri diferite (adică este o mulţime
multimodală)
Observaţie în consecinţă
 cel mai bun lucru într-o astfel de situaţie este
să nu ne referim la mod ca la o măsură
reprezentativă pentru că în mod evident cele
trei valori nu reuşesc să descrie o tendinţă
centrală a datelor
 probabil că majoritatea practicienilor s-ar
limita la medie şi mediană pentru a descrie
toate datele referitoare la salariile iniţiale
De reţinut
 Diferitele măsuri ale tendinţei centrale nu se folosesc doar pentru
că există!
 Uneori ele nu sunt deloc utile, sau relevante!
 Trebuie ştiut de fiecare dată care este măsura care trebuie
folosită pentru o descriere corectă a datelor.
Aspect
important
TIPURILE DE DATE PENTRU CARE MODUL ESTE O
CONSIDERAT O MĂSURĂ UTILĂ SUNT CELE CALITATIVE.
În exemplul absolvenţilor
 specializarea absolvită este un exemplu de caracteristică de
natură calitativă
 Există 12 absolvenţi de Finanţe, 25 de absolvenţi de
Management, 27 de absolvenţi de Contabilitate şi 16 de
Marketing
 Prin urmare modul, dat de cea mai frecventă apariţie, este
Contabilitatea.
Observaţie
PENTRU DATE CALITATIVE NU ARE NICIUN SENS SĂ
DISCUTĂM DESPRE MEDIE, SAU MEDIANĂ!
Alt exemplu
 Un fabricant trimite pe piaţă un produs în trei ambalaje diferite
 Utilizând designul celor trei ambalaje ca fiind variabilă calitativă
şi observând frecvenţa de cumpărare, putem stabili că modul
este dat de acel design care se cumpără cel mai des
4. Procentila
 oferă un mijloc de identificare a locaţiei valorilor din mulţimea
de date care nu sunt neapărat valori centrale
 oferă informaţii despre modul în care sunt împrăştiate datele de
la cea mai mică la cea mai mare valoare a lor
Deci, procentila:
 poate fi privită şi ca o măsură a dispersării, sau variabilităţii
mulţimii de date
 În mulţimile mari de date, în care nu avem prea multe valori
care să se repete, procentila p este acea valoare care divide
mulţimea de date în două părţi
Cum anume se divide

mulţimea de date?
Aproximativ p% dintre itemi iau valori mai mici decât procentila
de ordin p
 Aproximativ (100 – p)% dintre itemi iau valori mai mari decât
aceasta
O definiţie
formală a
procentilei
PROCENTILA DE ORDIN P A DATELOR ESTE O VALOARE
ASTFEL ÎNCÂT CEL PUŢIN P% DINTRE ITEMI IAU ACEASTĂ
VALOARE SAU MAI PUŢIN ŞI CEL PUŢIN (100 – P)% DINTRE
ITEMI IAU ACEASTĂ VALOARE SAU MAI MULT.
Exemplu:
 Punctajele obţinute la examenele de admitere sunt raportate
frecvent în termeni de procentilă
 un aplicant are un punctaj de 84 de puncte; nu este foarte clar
care este poziţia acestui candidat în raport cu ceilalţi
participanţi la concurs
Punctajul corespunde procentilei de
ordin 70:
 70% dintre aplicanţi au un scor mai mic, sau egal cu al
aplicantului în discuţie
 doar 30% dintre concurenţi au obţinut un punctaj mai bun
Problema salariilor iniţiale
 Ne interesează procentila 90
 Este o măsură corespunzătoare a salariilor de top, pentru că
doar un procent de aproximativ 10% dintre absolvenţi primesc
salarii egale sau mai mari cu procentila 90
Pentru Finanţe
 1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
 Primele 11 din cele 12 salariipână la 1860, reprezintă 91,7% dintre
datele pe care le studiem
 două, anume 1860, 2025, reprezintă 16,7%
Prin urmare:
 dintre toţi cei 12 itemi cel puţin 90% au o valoare egală sau mai
mică decât 1860
 cel puţin 10% dintre ei au o valoare egală sau mai mare decât
1860
 procentila 90 pentru eşantionul absolvenţilor de Finanţe este
1860
Regulă
DACĂ EXISTĂ DOI ITEMI CARE SATISFAC ÎN ACELAŞI
TIMP DEFINIŢIA PROCENTILEI P PENTRU O MULŢIME DE
DATE, CONVENIM CA PROCENTILA P SĂ FIE MEDIA
ARITMETICĂ A CELOR DOUĂ VALORI
Specializarea Finanţe
 atât 1590 cât şi 1620 satisfac definiţia procentilei 50 (temă de
seminar)
 spunem că procentila de ordin 50 este media celor două valori,
adică 1605
 observăm că valoarea 1605 este de asemenea mediana
mulţimii de date
Reamintim:
 mediana este acel item care divide mulţimea de date ordonată
crescător în două mulţimi de dimensiuni egale
 Astfel, în termeni de procentilă, mediana este procentila 50.
Calculul Procentilei p
 Pasul 1. Aranjaţi datele în ordine crescătoare
 Pasul 2. Calculaţi un indice i după formula: i = (p/100) x n, unde
p este procentila de interes, iar n este numărul de date de care
dispunem în eşantion.
Pasul III
 (a) Dacă n nu este un întreg, atunci următorul întreg de valoare
mai mare decât i indică poziţia procentilei de ordin p
 (b) Dacă i este întreg, atunci procentila de ordin p se obţine ca
valoare medie a datelor aflate pe poziţiile i şi i+1.
Exemplu
PROCENTILA 90 PENTRU DATELE PROVENITE DIN
EŞANTIONUL ABSOLVENŢILOR DE FINANŢE.
Pasul 1.
ARANJĂM DATELE ÎN ORDINE CRESCĂTOARE ŞI OBŢINEM:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750,
1860, 2025
Pasul 2
CALCULĂM I = (90/100) * 12 = 10,8
Pasul 3
 Indicele i nu este un număr întreg,
 poziţia procentilei 90 este dată de următoarea valoare întreagă
mai mare decât 10,8 şi anume 11.
 în şirul de date aranjate în ordine crescătoare, observăm cum
procentila de ordin 90 corespunde valorii 1860.
Temă de
seminar
CALCULUL PROCENTILEI 50, PENTRU ACEEAŞI
MULŢIME DE DATE.
DISPERSIA
ABATAEREA STANDARD
RANGUL
COEFICIENTUL DE VARIAŢIE
Măsuri ale împrăştierii
Specializarea Finanţe

1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
Comentarii preliminare
Ori de câte ori colectăm date, fie ele pentru un eşantion sau
pentru întreaga populaţie, este de dorit să luăm în considerare
variabilitatea, sau dispersia valorilor acestora
Exemplu
 lucraţi la sectorul aprovizionare al unei fabrici
 de obicei trimiteţi comenzi către doi ofertanţi de materii prime
 ambii indică faptul că este nevoie de aproximativ 10 zile
lucrătoare pentru a onora comanda voastră
Ce observaţi cu timpul:
 Acest număr mediu de zile este corect
 Totuşi, modul în care arată histogramele pe care le-aţi construit
vă nedumereşte
Primul ofertant
Al doilea ofertant
Observaţii pe baza

histogramelor:
dispersarea diferită pentru datele provenite de la cei doi
colaboratori
 câteva situaţii în care aprovizionarea se face în 14 sau 15 zile pot
fi dezastruoase pentru menţinerea ritmului corect al procesului
de producţie
Alte comentarii
 timpul mediu de livrare este un aspect important care trebuie
luat în calcul de către agentul de aprovizionare
 DAR exemplul anterior arată cum există situaţii în care dispersia,
sau variabilitatea în durata aprovizionării este un aspect poate
chiar mai important uneori.
Măsuri studiate
 Rangul
 Dispersia, sau varianţa
 Abaterea standard
 Coeficientul de variaţie
1. Rangul

PROBABIL CEA MAI SIMPLĂ MĂSURĂ A


VARIABILITĂŢII UNEI MULŢIMI DE DATE
Definiţie

RANGUL UNEI MULŢIMI DE DATE ESTE DIFERENŢA


DINTRE CEA MAI MARE ŞI CEA MAI MICĂ VALOARE
DIN MULŢIME.
Eşantionul absolvenţilor de

Finanţe
Cel mai mare salariu iniţial este 2025 lei
 Cel mai mic este de 1410 lei
 Rangul acestei mulţimi de date este 2025 – 1410 = 615
Observaţii:
CU TOATE CĂ RANGUL ESTE CEA MAI
SIMPLĂ MĂSURĂ STATISTICĂ A
VARIABILITĂŢII, EA NU ESTE FOARTE DES
UTILIZATĂ
Motive:
 pentru a-l determina ne bazăm doar pe doi itemi din întreaga
mulţime de date
 ca atare este influenţat într-o măsură foarte mare de valorile
extreme
Exemplu
 Unul dintre absolvenţii specializării Finanţe primeşte un salariu
iniţial de 10000 lei
 Rangul va fi, în această variantă, 10000 – 1410 = 8590
 Totuşi, restul de 11 din cele 12 salarii iniţiale sunt strâns grupate
între 1410 lei şi 1860 lei (au variabilitate mică).
În consecinţă
ACEASTĂ VALOARE MARE A RANGULUI NU VA
DESCRIE FOARTE RELEVAT VARIABILITATEA DATELOR
Ca atare:
 Cei mai mulţi statisticieni preferă măsuri ale variabilităţii care să
implice toţi itemii din mulţimea de date
 Măsurile pe care le vom discuta mai departe chiar implică toate
datele şi oferă cele mai obişnuite metode de a măsura
variabilitatea.
2. Dispersia, sau varianţa
 Calculăm diferenţele dintre valorile datelor de care dispunem şi
media întregii mulţimi de itemi
 Diferenţele dintre valorile datelor şi valoarea medie numesc
abateri faţă de medie
 Vom lua în considerare abaterea fiecăreia dintre valori faţă de
valoarea medie
Eşantionul
absolvenţilor de
Finanţe
ARĂTĂM MODUL CUM SE CALCULEAZĂ
DIFERENŢELE DINTRE VALORILE DATELOR ŞI MEDIA
DE SELECŢIE
Absolvent Salariu Media Abaterile faţă de media de
iniţial selecţie
1
1550 1640 - 90
2
1650 1640 10
3
1750 1640 110
4
1550 1640 - 90
5
1455 1640 - 185
6
1410 1640 - 230
7
1590 1640 - 50
8
1860 1640 220
9
1640 1640 0
10
2025 1640 385
11
1620 1640 - 20
12
1580 1640 - 60
Totaluri 19680 0
Observaţii
 Suma tuturor abaterilor individuale faţă de media de selecţie
este zero
 Lucrul acesta este adevărat pentru orice mulţime de date
Ce rezultă de aici:
 Abaterile pozitive şi cele negative se anulează reciproc
 Calcul abaterii medii nu conduce la niciun fel de informaţii
despre variabilitatea mulţimii de date
 O posibilitate ar fi să eliminăm toate semnele minus considerând
valoarea absolută a abaterilor individuale
Care este cea mai
des utilizată
măsură?
CEA CARE SE BAZEAZĂ PE ELIMINAREA SEMNELOR
MINUS PRIN RIDICAREA LA PĂTRAT A ABATERILOR
INDIVIDUALE
Pentru acelaşi
eşantion
AL ABSOLVENŢILOR DE FINANŢE
Absolvent Salariu iniţial Abaterile faţă Pătratele
de media de abaterilor
selecţie faţă de media
de selecţie
1 1550 - 90 8100
2 1650 10 100
3 1750 110 12100
4 1550 - 90 8100
5 1455 - 185 34225
6 1410 - 230 52900
7 1590 - 50 2500
8 1860 220 48400
9 1640 0 0
10 2025 385 148225
11 1620 - 20 400
12 1580 - 60 3600
Totaluri 19680 0 318650
Media pătratelor
abaterilor
318650 26554,17

12
Comentarii:
 Media pătratelor abaterilor pentru o mulţime de date care
reprezintă o întreagă populaţie are o semnificaţie specifică în
statistică.
 Ea este numită dispersie, sau varianţă.
Dispersia
populaţiei se
notează
2
σ
Formulă de calcul

2  x i  x 
2

σ 
N
Observaţii:
 În multe aplicaţii statistice, mulţimea de date cu care lucrăm
este un eşantion
 O măsură a variabilităţii eşantionului ar trebui să fie un estimator
pentru dispersia întregii populaţii.
Tentaţia
SĂ UTILIZĂM MEDIA PĂTRATELOR ABATERILOR
PENTRU EŞANTION CA ESTIMATOR AL DISPERSIEI
POPULAŢIEI.
Care este rezultatul?
 Statisticienii au constatat că valoarea medie calculată pentru
eşantion subestimează dispersia populaţiei
 Din cauza acestei tendinţe de subestimare, media pătratelor
abaterilor datelor din eşantion este un estimator deplasat.
Se poate arăta că dacă suma
pătratelor abaterilor
individuale

ESTE ÎMPĂRŢITĂ LA N-1 ÎN LOC DE N,


ATUNCI STATISTICA REZULTATĂ OFERĂ
UN ESTIMATOR NEDEPLASAT AL
DISPERSIEI POPULAŢIEI.
Dispersia de selecţie

2  x i  x  2

s 
n 1
Absolvenţii specializării
Finanţe

2  x i  x 
2
318650
s    28968 ,18
n 1 11
Semnificaţie
 este dificil să obţinem o semnificaţie intuitivă a valorii numerice
28968,18
 putem observa că valori mai mari ale dispersiei pot fi obţinute
doar din mulţimi de date cu abateri mari faţă de medie şi, prin
urmare, mai dispersate
Comentarii
 valoarea numerică obţinută efectiv nu este
simplu de interpretat ca atare
Dispersia de selecţie (Formulă
prescurtată)


2
2 xi  nx
s 
n 1
Dispersia populaţiei (Formulă
prescurtată)


2
2 xi  Nx
σ 
N
3. Abaterea standard
 este definită ca rădăcină pătrată din dispersie
 vom nota cu s abaterea standard de selecţie
 vom nota cu σ abaterea standard pentru întreaga populaţie
2
s s

2
σ σ
Comentarii
 Abaterea standard este şi ea o măsură a dispersiei, pentru că
radical dintr-o mărime mare va conduce la o valoare mare.
 Abaterea standard a datelor provenite de la eşantionul
absolvenţilor de Finanţe este 170,2
Ce am câştigat?
 unităţile de măsură care apar în calculul dispersiei sunt ridicate
la pătrat
 De exemplu, dispersia de selecţie pentru salariile iniţiale ale
absolvenţilor de Finanţe este exprimată în lei la pătrat.
 Acesta este cel mai important motiv pentru care este dificil să
obţinem o interpretare intuitivă a acestei mărimi
Aşadar:
 Pentru că abaterea standard este radicalul
dispersiei, înseamnă că ea se exprimă în aceeaşi
unitate de măsură ca şi datele pe care le avem
iniţial,
 în cazul exemplului nostru, se exprimă în lei.
 Din acest motiv, de obicei abaterea standard
este mai uşor de comparat cu media şi cu alte
statistici care se măsoară în aceeaşi unitate de
măsură ca şi datele iniţiale
4. Coeficientul de
variaţie

ESTE O MĂSURĂ RELATIVĂ A VARIABILITĂŢII, NU UNA


ABSOLUTĂ
De ce ne trebuie
 o abatere stadard de 1 cm va fi considerată foarte mare pentru
o piesă de motor, dar va fi semnificativă pentru lungimea unui
cablu pentru telefon
 Trebuie să putem compara mulţimi de date pentru care atât
abaterea standard, cât şi medi sunt diferite
Formula de calcul

σ
 100
μ

s
 100
x
De exemplu, pentru eşantionul
absolvenţilor de Finanţe
coeficientul de variaţie este

170 ,2
 100  10,38 %
1640
Interpretare:
ABATEREA STANDARD PENTRU ACESTE DATE ESTE
10,38% DIN VALOAREA MEDIE DE SELECŢIE
Observaţii I:
 această mărime poate fi utilizată doar pentru mulţimi care
conţin toate, sau aproape toate datele pozitive
 atunci când în mulţimea de date sunt prezente atât valori
pozitive, cât şi negative, se pot obţine valori nule, sau aproape
nule ale mediei
Observaţii II
DACĂ VALOAREA MEDIE ESTE ZERO, SAU FOARTE
APROPIATĂ DE ZERO, COEFICIENTUL DE VARIAŢIE
POATE AVEA O VALOARE FOARTE MARE CHIAR ŞI
ATUNCI CÂND ABATEREA STANDARD A MULŢIMII SE
DATE ESTE FOARTE MICĂ.
STATISTICI DESCRIPTIVE PENTRU DATE
CROSS-SECTIONAL - APLICAȚII
Datele ”cross-sectional”

 presupun observaţii privind o caracteristică,


măsurate la un anumit moment dat, pentru mai
multe unități statistice

 Exemplu: salariul în luna octombrie 2018 a 100


persoane; PIB-ul pe județe în septembrie 2018;
numărul firmelor nou înființate în țările UE în anul
2017; etc.
Exemplu

 Sursa datelor: World Bank, indicatori de dezvoltare economică


 Date preluate din prima săptămână a cursului Foundations of
Development Policy, www.edx.org
 Tipul de date: cross sectional, anul 2013
 Denumirea fișierului: WorldBank_development_indicators.csv
 Variabile:
 countrycode: codul țării
 countryname: numele țării
 gdp_per_capita: PIB pe cap de locuitor
 literacy_female: gradul de alfabetizare, femei
 literacy_male: gradul de alfabetizare, bărbați
 literacy_all: gradul de alfabetizare pe ansamblul populației
 infant_mortality: mortalitatea infantilă, procentul copiilor care mor
înainte să atingă vârsta de un an, din 1000 de copii născuți vii
Descrierea setului de date

 str(wb) oferă informații despre tipul de variabile,


unde wb este denumirea setului de date, așa
cum a fost importat.
 Asigurați-vă întotdeauna ca setul de date are
aceeași denumire cu aceea care apare în cod și
că ați selectat “Heading - yes” (dacă este cazul).
 summary(wb) oferă informații despre conținutul
variabilelor
Structura setului de date

 str(wb)
 'data.frame': 214 obs. of 7 variables:
 $ countrycode : Factor w/ 214 levels
"ABW","ADO","AFG",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ countryname : Factor w/ 214 levels "Afghanistan",..:
10 5 1 6 2 202 8 9 4 7 ...
 $ gdp_per_capita : num 19913 35628 415 2738 4091
...
 $ literacy_female : num 96.7 NA 17.6 59.1 95.7 ...
 $ literacy_male : num 96.9 NA 45.4 82.5 98 ...
 $ literacy_all : num 96.8 NA 31.7 70.6 96.8 ...
 $ infant_mortality: num NA 2.2 70.2 101.6 13.3 ...
Semnificație

 Este un “data frame” cu 214 observații și 7


variabile
 Două dintre variabile sunt de tip factor, deci
variabile categoriale
 Cinci dintre variabile sunt variabile numerice
 Există informații care nu sunt disponibile,
înregistrate ca NA (not available)
 Simbolul $ indică faptul că urmează numele unei
variabile
Sumarul setului de date

 summary(wb)
 În cazul variabilelor numerice:
 Oferă informații despre valorile minim, maxim,
medie, mediană, prima și a treia quartilă
(procentilele 25 și 75)
 Indică numărul de observații care nu sunt
disponibile
 În cazul variabilelor de tip factor:
 Oferă informații despre numărul de observații care
apar în fiecare categorie.
Exemplu: GDP per capita

 gdp_per_capita
 Min. : 155.2
 1st Qu.: 1124.4
 Median : 4109.6
 Mean : 12967.2
 3rd Qu.: 15122.3
 Max. :158802.5
 NA's :15
Cum știm cine
corespunde minimului și
maximului?
which.min(wb$gdp_per_capita)
 14 # asta înseamnă că este țara care corespunde
observației nr. 14
 Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[14]
 Burundi # Deci, Burundi este țara cu cel mai mic GDP per
capita în 2013
 which.max(wb$gdp_per_capita)
 121 # asta înseamnă că este țara care corespunde
observației nr. 121
 Aflăm care este aceasta cu ajutorul comenzii
wb$countryname[121]
 Monaco # Deci, Monaco este țara cu cel mai mare GDP
per capita în 2013
Cum raportăm rezultatul?

 Valorile variabilei GPD per capita sunt cuprinse între o


valoare minimă de 155.2 USD pe cap de locuitor, în cazul
Burundi și o valoare maximă de 158802.5 USD pe cap de
locuitor, în cazul Principatelor Monaco.
 Se observă că 25% din țările analizate au un GDP per
capita de cel mult 1124.4 USD, pe când cel mult 25% dintre
acestea depășesc ca valoare 15122.3 USD.
 Din faptul că există o diferență semnificativă între medie și
mediană în cazul acestei variabile, deducem că distribuția
GDP - ului per capita în cazul țărilor analizate nu este una
normală, iar din valoarea foarte mare a mediei în raport
cu mediana deducem că există un grup mic de țări cu un
GDP per capita foarte mare în raport cu celelalte.
Reprezentarea
histogramei
Histograma (varianta
elegantă)
Reprezentare boxplot

 Un boxplot ajută la vizionarea repartizării datelor


în funcție de cinci valori caracteristice:
 partea de sus a cutiei este procentila 75
 partea de jos a cutiei este procentila 25
 linia din interiorul cutiei este mediana, sau
procentila 50
 unele reprezentări pun în evidență minimul și
maximul
Boxplotul pentru GDP per
capita
Câteva investigații
suplimentare
 Vrem să vedem câte țări au GDP per capita mai
mare decât procentila 75 și care sunt acelea.
 Definim un subset al setului inițial de date, pentru
care GDP per capita este mai mare decât
valoarea corespunzătoare din
summary(wb$gdp_per_capita)
 rich_countries = subset(wb, wb$gdp_per_capita >
15122.3)
Similar

 Putem defini o submulțime a setului inițial, care să


ne indice cele mai sărace țări
 poor_countries = subset(wb, wb$gdp_per_capita
< 1124.4)
Observație

 Diferența dintre procentila 25 și procentila 75 nu


este foarte mare 50% dintre țările analizate au
GDP per capita cuprins în acest interval, îngust în
raport cu rangul mulțimii de date
 rich_countries = subset(wb, wb$gdp_per_capita >
15122.3)
 poor_countries = subset(wb, wb$gdp_per_capita
< 1124.4)
 procentila 75 - procentila 25 = 13997.9
 max - min = 158647.3
Observație

 Distribuția inegală a GDP - ului per capita în


mulțimea de date analizată este pusă în evidență
în mai multe moduri:
 prin diferența dintre medie și mediană
 prin aplatizarea spre dreapta a histogramei
 prin forma boxplot-ului, “înghesuit” spre partea de
jos graficului
 prin concentrarea a 50% dintre observații într-un
interval foarte mic în raport cu valorile extreme pe
care le ia variabila analizată
Cum raportăm statisticile
descriptive pentru date
cross-sectional
Variabilă Minim Mediană Medie Maxim Abatere
standard

GDP per capita

Rata totală a alfabetismului

Rata alfabetismului la femei

Rata alfabetismului la
bărbați
Rata mortalității infantile
1
6
6

STATISTICI DESCRIPTIVE
– TABELE, GRAFICE, INDICATORI –
1
6
Exemplu: 7

 Se consideră datele privind locul naşterii, genul, vârsta, studiile şi


salariul a 100 de persoane. Avem mai jos primele 10 observații:
locul naşterii salariul genul vârsta studiile
Bucuresti 2400 F 24 12 clase
Provincie 1000 F 26 12 clase
Provincie 1800 B 29 < 10 clase
Provincie 2000 B 29 facultate
Bucuresti 3000 F 33 facultate
Bucuresti 2000 B 26 facultate
Bucuresti 1700 B 22 facultate
Bucuresti 1500 F 21 facultate
Provincie 2050 B 43 12 clase
1
6
A. Sistematizarea (rezumarea 8
tabelară a) datelor:
 Tabele de frecvenţă
 Tabele de contingenţă
 Tabele de asociere (Crosstabs)
1
6
Tabele de frecvenţă 9

Salariul

Frecvența absolută Frecvența relativă Frecvența cumulativă


< 1000.00 19 19.0 19.0
1000.00 - 1999.00 44 44.0 63.0

2000.00 - 2999.00 28 28.0 91.0

3000.00 - 3999.00 5 5.0 96.0

4000.00 - 4999.00 2 2.0 98.0

5000.00 - 5999.00 1 1.0 99.0

6000.00+ 1 1.0 100.0


Total 100 100.0
1
7
Tabele de contingenţă 0

Genul

Frecvența Frecvența Frecvența cumulativă


absolută relativă relativă
Masculin 44 44.0 44.0

Feminin 56 56.0 100.0

Total 100 100.0


1
7
Tabele de asociere 1

(Crosstabs)
studiile * genul

Count
genul
B F Total
studiile < 10 clase 3 8 11
12 clase 19 20 39
facultate 22 28 50
Total 44 56 100
1
7
Tabele de asociere 2

(Crosstabs)
studiile * genul
genul
B F Total
studiile < 10 clase Count 3 8 11
Expected Count 4.8 6.2 11.0

12 clase Count 19 20 39
Expected Count 17.2 21.8 39.0

facultate Count 22 28 50
Expected Count 22.0 28.0 50.0

Total Count 44 56 100


Expected Count 44.0 56.0 100.0
1
7
B. Reprezentarea grafică 3

a unei distribuţii în SPSS:


 Grafice pentru mulţimi univariate:
 Histograma şi curba de frecvenţă
 Boxplot
 Bar plot (pentru variabile calitative)
 Pie plot (pentru variabile calitative)

 Grafice pentru mulţimi bivariate:


 Două variabile calitative
 Două variabile cantitative
 O variabilă calitativă şi o variabilă cantitativă
1
7
Histograma şi curba de 4

frecvenţă
1
7
Boxplot 5
1
7
6
Boxplot
1
7
7
BOXPLOT (pentru salariu)
1
7
Bar plot (pentru variabile 8

calitative)
1
7
Pie plot (pentru variabile 9

calitative)
1
8
Două variabile calitative 0
1
8
Două variabile cantitative 1
1
8
O variabilă calitativă şi o 2

variabilă cantitativă
1
8
O variabilă calitativă şi o 3

variabilă cantitativă
1
8
4
C. Indicatori ai tendinţei
centrale, dispersiei şi formei
 Indicatori ai tendinței centrale pentru variabile cantitative:

 Media

Mediana

unei distribuţii statistice


 Modul

 Indicatori ai tendinței centrale pentru variabile calitative:

univariate:
 Procentila

 Modul

 Quantilele:

 Quartile (Q) – sunt în număr de 3 şi împart datele în 4 părţi egale.

 Decile (D) – sunt în număr de 9 şi împart datele în 10 părţi egale.

 Centile (C) – sunt în număr de 99 şi împart datele în 100 de părţi egale.

 Me = Q2 = D5 = C50

 Indicatori ai dispersiei pentru variabile cantitative:

 Rangul (Amplitudinea)

 Varianța (Dispersia)

 Abaterea medie pătratică (Abaterea standard)

 Indicatori ai formei unei distribuţii

 Coeficientul de asimetrie (Skewness)

 Coeficientul de boltire sau aplatizare (Kurtosis)


1
8
Skewness şi Kurtosis 5
1
8
6
Indicatori ai tendinţei
centrale, dispersiei şi formei
Salariul
Statistics

unei distribuţii statistice:


N

Mean
Valid
Missing
100
0
1754.6500
Median 1580.0000
Mode 2000.00
Std. Deviation 967.78180
Variance 936601.604

Skewness 1.880
Std. Error of Skewness .241
Kurtosis 4.899
Std. Error of Kurtosis .478
Range 5500.00
Minimum 500.00
Maximum 6000.00
Sum 175465.00
Percentiles 25 1000.0000
50 1580.0000
75 2037.5000
18
7

ANALIZA ŞI PROGNOZA SERIILOR DE TIMP


METODE DE NETEZIRE
ANALIZA TRENDULUI
Ce veţi învăţa în acest
curs:

188
 Ce este o serie de timp şi pentru ce este ea
utilizată
 Care sunt metodele de prognoză utilizate
pentru datele provenite dintr-o serie de
timp.
 Care sunt cele patru componente ale unei
serii de timp
 Metoda mediei mobile ponderate
 Netezirea exponenţială
 Prognoza seriilor de timp utilizând proiecţia
trendului
Comentarii generale

189
 Planificare pentru perspectivă
reprezintă unul dintre aspectele
esenţiale într-o organizaţie.
 Incertitudinea care grevează asupra
viitorului face dificilă estimarea exactă
a unor mărimi.
 Analiza şi prognoza seriilor de timp oferă
tocmai astfel de instrumente de analiză
şi prognoză.
Exemplu

190
 Vi se cere să prognozaţi nivelul
vânzărilor trimestriale pentru un produs,
pentru o perioadă viitoare de 1 an.
 De ceea ce veţi prognoza vor depinde:
planificarea producţiei, planul de
achiziţionare a materiilor prime şi
materialelor, nivelul stocurilor etc.
 O prognoză defectuoasă a nivelului
vânzărilor trimestriale va conduce la o
proastă planificare a tuturor acestor
elemente.
Cum procedăm?

191
 Utilizăm informaţii cu privire la vânzările trimestriale
anterioare (de exemplu, din ultimii trei ani).
 Din analiza acestor date încercăm să stabilim un nivel
general al vânzărilor şi căutăm să identificăm un anume
trend.
Mai departe?

192
 O cercetare mai profundă poate
conduce la descoperirea unor tipare
sezoniere, ca de exemplu un vârf al
vânzărilor în cel de-al treilea trimestru al
fiecărui an şi un minim general în
trimestrul al patrulea.
 În consecinţă, datele istorice ne pot
furniza informaţii despre anumite
regularităţi şi ne pot ajuta să realizăm
prognoze mai apropiate de realitate.
Câteva definiţii

193
 Datele istorice la care ne-am referit
anterior formează ceea ce în statistică
se numeşte serie de timp.
 O serie de timp este, deci, o succesiune
de observaţii efectuate la
momente/intervale succesive pe
parcursul unei perioade de timp.
 Obiectivul analizei unei serii de timp
este acela de a realiza prognoze cu
privire la valorile ei viitoare.
Metodele de prognoză
pentru seriile de timp:

194
 Metode de netezire
 Proiecţia trendului
I. Componentele unei serii
de timp

195
 Trendul
 Ciclicitatea
 Sezonalitatea
 Componenta neregulată
I.1. Trendul

196
 În analiza seriilor de timp, datele se colectează la
anumite intervale de timp (ore, zile etc.).
 Deşi în seriile de timp datele prezintă unele fluctuaţii,
seria ca atare poate manifesta o anumită tendinţă, sau
trend, care se datorează influenţei unor factori pe
termen lung.
Exemple de astfel de
factori:

197
Modificări demografice
 Schimbări ale tehnologiei
 Schimbări în preferinţele consumatorilor
Exemplu:

198
 Un fabricant de echipament fotografic
poate înregistra o variabilitate mare a
vânzărilor de la o lună la alta.
 După o analiză a datelor despre
vânzările lunare pe parcursul ultimilor 15
ani, fabricantul observă o creştere
gradată a volumului anual al vânzărilor.
 Observă că nivelul vânzărilor în anul
1973 a fost de (aproximativ) 1800 de
aparate foto pe lună, în anul 1978 de
2200 aparate foto pe lună, iar în anul
1983 de 2600 aparate foto pe lună
În consecinţă:

199
 Deşi nivelul lunar al vânzărilor arată o mare variabilitate,
totuşi această tendinţă de creştere gradată în timp
arată că vânzările de aparate foto au un trend
crescător.
 Din figura următoare se poate observa că trendul
poate fi descris ca liniar crescător.
 Există şi trenduri neliniare.
20
0
Tendinţa liniară a vânzărilor aparatelor foto

3000
Vânzări lunare (bucăţi)

2500
2000
1500
1000
500
0
1973 1978 1983
Anul
20
Alte exemple de trenduri 1

A B C

Volumul

Volumul
Volumul

Timpul Timpul Timpul

Trend neliniar Trend liniar Fara trend


descrescaător
.
Comentarii:

202
 Graficul A poate fi o bună reprezentare pentru
dinamica vânzărilor unui produs, urmărită de la intrarea
acestuia pe piaţă, la perioada de creştere şi apoi la
saturarea pieţei.
 Graficul B este util pentru fenomenele care arată o
tendinţă de descreştere în timp.
 Graficul C arată că nu există un trend.
Componenta ciclică

203
 Deşi trendul este de ajutor pentru
determinarea tendinţei generale a
datelor, nu ne putem aştepta ca toate
valorile să fie situate pe o aceeaşi
dreaptă, anume pe linia trendului.
 De fapt, seriile de timp cuprind adesea
fluctuaţii deasupra şi sub linia trendului
 Orice tipar regulat al unui şir de puncte
care apar deasupra şi dedesubtul liniei
trendului este atribuit componentei
ciclice a unei serii de timp.
20
Exemplu, pentru observaţii 4
anuale
. Ciclicitatile sunt indicate prin observaţiile
aflate sub şi deasupra trendului liniar
Volumul

Trend liniar

Timpul
Comentarii

205
 Multe serii de timp indică o componentă ciclică, în care
se desprinde o regularitate a datelor deasupra şi sub
linia trendului
 Opinia generală este aceea că această componentă
a seriei de timp este cea care arată mişcările ciclice din
economie.
Exemplu:

206
 Perioadele de inflaţie moderată sunt urmate de
perioade de inflaţie rapidă.
 Aceste fluctuaţii sunt puse în evidenţă deasupra şi
dedesubtul liniei unui trend crescător.
Componenta sezonalitate

207
 Atât trendul, cât şi componenta ciclică
sunt puse în evidenţă în seriile de timp
prin analize pe mai mulţi ani.
 Există şi tipare care indică regularităţi
de la un an la altul.
 De exemplu, un fabricant de
echipamente pentru înot va avea un
maxim al vânzărilor primăvara şi vara.
 Această componentă a unei serii de
timp care indică regularităţile sezoniere
se numeşte sezonalitate.
Observaţie:

208
 Chiar dacă sezonalitatea se defineşte
referitor la tipare care apar de la un an
la altul, ea poate fi definită şi pentru
regularităţi care se înregistrează şi
pentru perioade mai mici de un an.
 De exemplu, intensitatea traficului zilnic
poate manifesta o componentă
sezonieră, în sensul că există ore de vârf
şi intervale de timp când circulaţia
maşinilor este mai lejeră.
Componenta neregulată

209
 Este acea componentă “reziduală”,
care rămâne după ce am eliminat
toate celelalte componente.
 Se manifestă ca abatere de la valorile
seriei de timp pe care le-am aştepta
dacă ne-am ghida doar după
componentele trend, ciclicitate şi
sezonalitate.
 Este o variabilă aleatoare şi datorită ei
seria de timp devine o variabilă
aleatoare.
Cum apare şi care îi sunt
efectele?

210
 Este rezultatul unor factori care apar pe termen scurt,
sunt neanticipaţi şi nu se repetă.
 Această componentă nu este predictibilă, fiind
componenta aleatoare a seriei de timp.
 Nu putem prezice nici care va fi impactul ei asupra
seriei de timp.
Prognoză utilizând metode
de netezire

211
 Metodele discutate în această secţiune
sunt utilizate pentru prognoză asupra
seriilor de timp relativ stabile.
 Acestea nu manifestă niciun trend
semnificativ, nicio ciclicitate sau
sezonalitate.
 În astfel de situaţii, obiectivul metodei
de prognoză este să “netezească”
acea componentă neregulată prin
unele metode care implică un calcul
de valori medii.
Metodele:

212
 Metoda mediei mobile
 Metoda mediei mobile ponderate
 Netezirea exponenţială
Metoda mediei mobile

213
 Presupune calculul mediei celor mai recente n valori din
seria de timp.
 Această valoare medie este utilizată apoi ca prognoză
pentru perioada următoare.
 Matematic, calcul mediei mobile este următorul:
21

Media
4

mobilă:
MEDIA MOBILĂ = (SUMA CELOR MAI RECENTE N
VALORI ALE DATELOR)/N
21
5

Exemplu:
CONSIDERĂM DATELE DESPRE
VÂNZĂRILE DE COMBUSTIBIL ALE UNEI
BENZINĂRII, ÎNREGISTRATE PE
PARCURSUL A 12 SPĂTĂMÂNI.
Săptămâna Vânzări (mii litri) 21
1 17 6
2 21
3 19
4 23
5 18
6 16
7 20
8 18
9 22
10 20
11 15
12 22
21
7
25
Vânzări (mii de litri)

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12
Săptămâna
21
8

Ce ne
propunem?

SĂ PROGNOZĂM NIVELUL VÂNZĂRILOR DIN


SĂPTĂMÂNA 13, DE EXEMPLU.
Cum aplicăm metoda?

219
 Selectăm numărul de date care vor
intra în media mobilă.
 De exemplu, calculăm, această medie
pentru trei date:
 Media mobilă (săptămânile 1 -3)  (17 +
21 + 19)/3  19
 Această valoare ar putea fi utilizată
pentru a prognoza nivelul vânzărilor din
săptămâna a patra.
Observaţii:

220
 Valoarea efectiv înregistrată în săptămâna 4 este 23,
deci eroarea este de 4 (mii l) prin lipsă.
 În general, eroarea în prognoza seriei de timp este
diferenţa dintre valoarea observată şi cea prognozată.
 Cea de-a doua medie mobilă de va calcula pe baza
datelor din săptămânile 2, 3, 4:
Continuăm calculul:

221
 Media mobilă (săptămânile 2 - 4)  (21
+ 19 + 23)/3  21
 Deci, prognoza pentru săptămâna a
cincea este 21.
 Eroarea de prognoză este, în acest caz,
negativă (valoarea prognotază este
mai mare decât valoarea observată).
 Calculul complet este prezentat în
tabelul şi figura care urmează:
22
Săpt Valoarea Prognoza prin Eroarea de 2
(Eroare)²
seriei de timp media mobilă prognoză
1 17
2 21
3 19
4 23 19 4 16
5 18 21 -3 9
6 16 20 -4 16
7 20 19 1 1
8 18 18 0 0
9 22 18 4 16
10 20 20 0 0
11 15 20 -5 25
12 22 19 3 9
22
Predictia mediei miscarii 3
in 3 saptamani

25
Vânzări (mii de litri)

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12
Săptămâna
Observaţie:

224
 Un aspect important în utilizarea
oricărei metode de prognoză şi deci şi
în utilizarea metodei mediei mobile este
acurateţea prognozei.
 Ultimele două coloane din tabelul
anterior (diapozitiv 36) pot fi folosite
pentru construcţia unor măsuri ale
acurateţei.
 Suma erorilor individuale conduce la
valoarea zero, deci ca şi în alte cazuri
vom folosi suma erorilor ridicate la
Pentru seria de timp cu
care lucrăm

225
 Suma pătratelor erorilor (ultima coloană din tabelul de
pe diapozitivul 36) este 92.
 Sunt 9 valori, deci media sumei pătratelor erorilor este
92:9 adică 10,22.
 Această valoare este cunoscută sub numele de media
pătratelor erorilor (notată MPE) şi este o măsură pentru
acurateţea prognozei prin această metodă.
O altă măsură:

226
 Este media valorilor absolute ale erorilor (MAE)
 În loc să ridicăm erorile la pătrat, le calculăm valoarea
absolută (modulul).
 Adunăm valorile şi împărţim la numărul lor.
 MAE  (4 + 3 + 4 + 1 + 0 + 4 + 0 + 5 + 3)/9  2,67
Diferenţe între MAE şi MPE

227
 MPE este influenţată mult mai mult de erorile mari de
prognoză (pentru că acestea intră în componenţa ei la
pătrat).
 Nu există un acord între specialişti cu privire la care
anume metodă de evaluare a eroilor este cea mai
bună.
 MPE este, totuşi, mai larg utilizată.
Comentarii:

228
 Termenul “medie mobilă” provine de la faptul că pe
măsură ce o nouă observaţie devine accesibilă, ea o
va înlocui pe cea mai veche observaţie din setul
anterior de date.
 Ca rezultat, media se schimbă, devine “mobilă”.
Observaţii

229
 Dacă în exemplul anterior am fi ales să
calculăm media mobilă utilizând datele
provenite din patru sau cinci săptămâni
pentru a realiza prognoza, rezultatele ar
fi fost diferite de cele pe care le-am
obţinut.
 Pentru a selecta numărul corect de
informaţii care să intre în calculul mediei
mobile se poate proceda prin încercări,
căutând acel număr de date care va
conduce la o valoare minimă a erorii
de prognoză.
Metoda mediei mobile ponderate

230
 Reamintim că în cazul metodei mediei
mobile fiecare dintre observaţiile care
intrau în calculul mediei mobile erau
ponderate identic.
 Metoda mediei mobile ponderate
presupune să aplicăm ponderi diferite
pentru valorile care intră în calculul
valorilor medii utilizate pentru prognoză.
 Regula: observaţiile cele mai recente
primesc ponderi mai mari, iar aceste
ponderi descresc pe măsură ce
observaţiile sunt mai vechi.
Exemplu:

231
 Vom aplica metoda mediei mobile
ponderate pentru datele referitoare la
vânzările de benzină din exemplul
anterior.
 Vom utiliza media mobilă pentru trei
observaţii, pentru care cea mai recentă
observaţie primeşte de trei ori
ponderea celei mai vechi observaţii, iar
cea de-a doua observaţie primeşte de
două ori ponderea celei de-a treia.
Săptămâna Vânzări (mii litri) 23
1 17 2
2 21
3 19
4 23
5 18
6 16
7 20
8 18
9 22
10 20
11 15
12 22
Exemplu de calcul:

233
 Prognoza pentru săptămâna a patra:
 Media mobilă ca prognoză pentru săptămâna a patra
 (3/6) ∙ 19 + (2/6) ∙ 21 + (1/6) ∙ 17  19,33
Observaţii:

234
 Ponderile implicate în calculul mediei mobile
ponderate, prin însumare, conduc la valoarea 1.
 Acelaşi lucru este valabil şi în cazul mediei mobile
simple, doar că ponderile sunt egale, toate, cu 1/3.
 În cazul mediei mobile simple am obţinut prognoza
pentru săptămâna 4 ca fiind 19.
Teme de seminar:

235
 Calculul celorlalte medii mobile ponderate
 Determinarea erorii totale a estimării
 Compararea celor două metode din punct de vedere
al acurateţei prognozelor.
Observaţii:

236
 Metoda mediei mobile şi metoda mediei mobile
ponderate nu sunt foarte des folosite în practică.
 În locul lor, metoda de netezire exponenţială este mult
mai des întâlnită.
 Metodele mediei mobile şi mediei mobile ponderate
joacă un rol esenţial în identificarea sezonalităţii unei
serii.
Netezirea exponenţială

237
 Este o tehnică de prognoză care utilizează valorile
netezite ale unei serii de timp dintr-o perioadă pentru a
prognoza valorile seriei într-o altă perioadă.
 Modelul de netezire exponenţială arată astfel:
Ft 1  Yt  1   Ft
(1)

238
 Membrul stâng reprezintă prognoza
seriei de timp pentru perioada t + 1
 Termenul în Y din membrul drept
reprezintă valoarea efectivă a seriei de
timp în perioada t
 Termenul în F din membrul drept
reprezintă valoarea prognozată pentru
seria de timp în perioada t.
 α este constanta de netezire şi ia valori
între 0 şi 1
Observaţii:

239
 Formula (1) spune că prognoza pentru orice perioadă a
seriei de timp este media ponderată a valorii efective şi
a celei prognozate din perioada anterioară.
 Dacă facem înlocuiri succesive, obţinem că prognoza
pentru orice perioadă a seriei de timp este media
ponderată a valorilor efective din perioadele
anterioare.
Exemplu pentru datele
vânzărilor de benzină:

240
F2  αY1  1  α F1

F1  Y1  17

F2  αY1  1  α Y1  Y1  17
Continuare, pentru α 
0,2:

241
F3  0,2Y2  1  0,2F2  17,8

F4  0,2Y3  1  0,2F3  18,4


24
2
Săpt Valoarea Prognoza prin Eroarea de (Eroare)²
seriei de timp netezirea exp. prognoză
1 17 17,00 -
2 21 17,00 4,00 16
3 19 17,80 1,20 1,44
4 23 18,04 4,96 24,6
5 18 19,03 - 1,03 1,06
6 16 18,83 - 2,83 8,01
7 20 18,26 1,74 3,03
8 18 18,61 - 0,61 0,37
9 22 18,49 3,51 12,32
10 20 19,19 0,81 0,66
11 15 19,35 - 4,35 18,92
12 22 18,48 3,52 12,39
Pentru săptămâna 13:

243
F13  0,2F12  1  0,2Y12  19,18
Diferenţa dintre seria observată
(roz) şi seria prognozată (galben):

244
25
Vânzări (mii de litri)

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12
Săptămâna
Alegerea valorii α

245
 În exemplul nostru am ales α  0,2
 Orice valoare a lui α din intervalul [0, 1] este potrivită,
dar unele conduc la erori de prognoză mai mici decât
altele.
 Pentru alegerea celei mai bune valori pentru α rescriem
formula (1) într-o formă echivalentă.
Ft 1  αYt  1  α Ft

246
Ft 1  αYt  Ft  αFt

Ft 1  αYt  Ft   Ft
Observaţie:

247
 În ultima egalitate intervin: eroarea de prognoză pentru
perioada t, ponderată cu valoarea α
 Prognoza pentru perioada t
 Deci, prognoza din perioada t + 1 este prognoza din
perioada t ajustată cu o fracţiune α din eroarea de
prognoză din aceeaşi perioadă t.
Cum decidem:

248
 Dacă seria de timp este foarte volatilă, în sensul în care
conţine o variabilitate aleatoare substanţială, este de
preferat ca fracţiunea din eroarea din perioada
anterioară să fie mică.
 În acest caz, este de preferat o valoare mică a
constantei de netezire.
 Motivul este legat de faptul că o mare parte a erorii de
prognoză este datorat componentei aleatoare
neregulate.
 Pentru serii de timp relativ stabile, cu variabilitate
aleatoare relativ mică, alegerea unei constante de
netezire mai mari are avantaje.
Care sunt avantajele:

249
 Ajustează prognoza rapid atunci când a apărut
eroarea de prognoză.
 Permite valorii prognozate să se adapteze rapid la
modificarea condiţiilor.
25
0

De fapt:
ALEGEREA LUI Α TREBUIE SĂ MINIMIZEZE EROAREA
MPE
Acelaşi exemplu pentru α
 0,3

251
Săpt Valoarea Prognoza prin Eroarea de (Eroare)²
seriei de timp netezirea exp. prognoză
1 17 17,00 -
2 21 17,00 4,00 16,00
3 19 17,80 0,80 0,64
4 23 18,04 4,56 20,79
5 18 19,03 - 1,81 3,28
6 16 18,83 - 3,27 10,69
7 20 18,26 1,71 2,92
8 18 18,61 - 0,80 0,64
9 22 18,49 3,44 11,83
10 20 19,19 0,41 0,17
11 15 19,35 - 4,71 22,18
12 22 18,48 3,70 13,69
Compararea erorilor:

252
 Pentru α  0,2 rezultă MPE  8,98
 Pentru α  0,3 rezultă MPE  9,35
 Prin urmare, coeficientul de netezire α  0,2 conduce la
o eroare totală mai mică şi prin urmare este de preferat
valorii α  0,3.
25
3

ANALIZA TRENDULUI UNEI SERII DE TIMP


25
4

Prognoză utilizând analiza


trendului
25
Analiza trendului - 1 5

 Permite descrierea tiparelor din trecut


 Exemplu: verificând tendinţa numărului
de înscrişi, o facultate pate evalua
eficienţa programului de recrutare de
noi studenţi
25
Analiza trendului - 2 6

 Permite proiectarea trendului în viitor


 Exemplu: examinând rata de creştere a
populaţiei globului putem realiza o
prognoză a populaţiei în viitorul apropiat
25
Analiza trendului - 3 7

 Permite izolarea componentei trend


dintr-o serie de timp
 Efecte: devine mai simplu să studiem
efectele celorlalte trei componente
 Exemplu: eliminând trendul din datele
care arată vânzările echipamentelor de
ski, este mai simplu să analizăm
componenta sezonieră
25
8

Tipuri de trend
 Liniar
 Neliniar; de exemplu, ciclul de viaţă al unei
afaceri, absorbţia pe piaţă a unui nou
produs, creşterea nivelului poluării
25
Analiza trendului prin 9

metoda celor mai mici


pătrate
Trendul liniar este descris astfel:


y  a  bx
 

b
 xy  n x y

x nx
2 2

 
a  y b x
26
Transformarea sau 0

codarea timpului
 De obicei măsurăm timpul în unităţi de
măsură ca săptămâni, luni şi ani
 Putem transforma aceste unităţi pentru a
realiza un calcul mai bun şi mai simplu
 Exemplu: 1986, 1987, 1988 codăm şi
devin +1, 0, -1
26
Două cazuri 1

 Dacă seria de timp are un număr impar de


elemente (ca mai sus) codăm astfel:
 0 va fi pentru elementul central

b
 xy 
 ±1,
x ±2.....
0 pentru celelalte elemente a y
x 2

→ pentru astfel de cazuri, deci şi


 Dacă
 seria de timp are un număr par de
x  0
elemente, codăm doar cu ±1, ±3..., fără zero
→ de asemenea
26
De ce codificare? 2

 Eliminăm ridicarea la pătrat a unor


numere mari, ca 1986, 1987 etc
 Simplificăm  formulele de calcul pentru b
0
şi a, pentrux că
26
Exemplu 3

 Considerăm datele din tabelul următor


care arată numărul de vapoare ce au
încărcat marfă dintr-un anumit port între
anii 1982 şi 1989
 Vrem să determinăm ecuaţia care
descrie trendul încărcăturilor
1982 1983 1984 1985 1986 1987 1988 1989
98 105 116 119 135 156 177 208
26
4

Codăm

 Avem 8 momente, vom avea deci valorile ±1,


±3, ±5, ±7
26
5
Anul 1982 1983 1984 1985 1986 1987 1988 1989 Total

x -7 -5 -3 -1 1 3 5 7 0

y 98 105 116 119 135 156 177 208 1114

xy -686 -525 -348 -119 135 468 885 1456 1266

x² 49 25 9 1 1 9 25 49 168
26
Din tabel rezultă: 6


 xy
 În forma codificată, x 2
b = 1266/168 =

a y
7,536

 = 139,25 
y  139,25  7,536  x
 Deci numărul estimat de vapoare ce
încarcă marfă în port este:
unde x = 0 reprezintă 1985 şi jumătate
26
Proiecţia prin ecuaţia 7

trendului
 Pentru a face prognoza pentru anul
1990, trebuie să convertim 1990 în x
 x = 1990 – 1985½ = 4,5 ani, adică 9

jumătăţi de an
y  139,25  7,536  9  207
 x = 9,
26
8

Procedura pentru un
număr impar de termeni
ai seriei de timp
 este identică, doar că am fi utilizat pentru
codificare ani întregi, nu jumătăţi de an
26
Utilizarea ecuaţiei de 9

gradul doi într-o serie de


timp Am descris până acum diferite metode

ce aveau un trend liniar
 Dar cele mai multe serii de timp sunt
descrise cel mai bine de curbe şi nu de
linii drepte
 Pentru a lămuri această problemă, se
foloseşte destul de des aproximarea
seriei printr-o parabolă care este
descrisă matematic printr-o ecuaţie are
gradul doi
27
0
Forma generală a unei
ecuaţii de gradul doi

y  a  bx  cx 2

unde: y este estimarea variabilei dependente


a, b, şi c sunt constante numerice
x reprezintă codificările variabilei timp
27
Graficul parabolei 1
27
Pe baza metodei celor 2

mai mici pătrate obţinem


.


  y  ax  c  x 2


 x y  a  x  c  x
2 2 4


b   xy

  x 2
27
Exemplu 3

 În ultimii ani, vânzările ceasurilor cu cuarţ


au crescut foarte mult.
 Tabelul de mai jos arată datele privind
vânzările din 1985 până în 1989

1985 1986 1987 1988 1989


13 24 39 65 106
27
4

An 1985 1986 1987 1988 1989


x -2 -1 0 1 2 0
y 13 24 39 65 106 247
xy -26 -24 0 65 212 227
x² 4 1 0 1 4 10
x4 16 1 0 1 16 34
x²y 52 24 0 65 424 565
27
Înlocuind valorile din tabel 5

în sistem obţinem:

 b = 227/10 = 22,7
 c = 39,3
 a = 5,07

y  39,3  22,7 x  5,07 x 2

27
Trendul parabolic pentru 6

exemplul nostru
27
Prognoza utilizând 7

ecuaţia de gradul al
doilea
Presupunem că vrem să facem

prognoza pentru anul 1994
 Pentru că 1987 este codificat cu “zero“,
atunci 1994 este codificat cu 7
 Avem atunci următoarea prognoză:

y  39,3  22,7  7  5,07  7 2  446,6
27
Observăm că 8

 prognoza este foarte mare !


 Deşi trendul parabolic poate fi util pentru
o perioadă scurtă de timp, pe termen
lung prognozele pot fi nerealiste: o
parabolă creşte permanent şi foarte
repere, probabil fenomenul real nu
creşte la fel şi pe termen lung !
27
Observaţie 9

 Atunci când utilizăm funcţia de gradul al


doilea pentru analiza trendului va trebui
să luăm în considerare factori care pot
încetini sau chiar “întoarce” rata de
creştere a variabilei studiate
28
Observaţie 0

 Exemplul nostru se referea la vânzările


unui anumit tip de ceas
 Trebuie să avem grijă să luăm în calcul
trendul obişnuit pentru evoluţia unui
produs: creştere lentă, creştere rapidă,
apoi creştere din nou lentă – saturare
 Este nevoie de multă atenţie în
interpretarea prognozei. Uneori tendinţa
trendului se modifică.
28
Variaţia ciclică 1

 Arată oscilaţiile seriei de timp deasupra şi sub


linia trendului, pentru perioade de timp de
peste un an
 Metodă specifică de identificare a acestei
componente este metoda reziduală
28
Metoda reziduală 2

 Observaţie: pentru seriile de timp la care


ni se dau date anuale, nu vom lua în
calcul componenta sezonalitate.
Aceasta afectează doar ce se întâmplă
pe parcursul unui an şi influenţa ei se
încheie la fiecare sfârşit de an
 Pentru că putem descrie trendul (printr-o
linie să spunem), putem izola
componenta ciclică şi pe cea
neregulată
28
Observaţie 3

 Presupunem că această componentă


ciclică explică cea mai mare parte din
variaţia care a rămas după izolarea
trendului, deşi multe dintre seriile reale nu
satisfac această ipoteză.
 În astfel de cazuri mai complexe se
folosesc analiza Fourier sau analiza
spectrală pentru analiza componentei
ciclice, însă aceste aspecte depăşesc
cadrul cursului nostru
28
Exprimarea varianţei 4

ciclice ca şi procent din


trend
 Pentru serii de date anuale avem:
y

 100
Procent din trend y=

y

unde reprezintă estimarea valorii


trendului
y reprezintă valoarea efectiv
observată,
ambele le acelaşi moment de timp
28
Exemplu 5

 Măsurarea variaţiei volumului recoltei de


grâu obţinută de membrii unei asociaţii
de profil pe parcursul ultimilor 8 ani
 Variaţiile de recoltă se pot datora ploilor,
diferenţelor de temperatură ş.a.m.d.
28
6


x y (volum efectiv (volum Procentul Reziduul
(anul) Recoltă, 10 000)
y estimat trendului ciclic relativ

Recoltă ,10 000) y
 100 yy


 100
y y

1982 7,5 7,6 98,7 -1,3

1983 7,8 7,8 100,0 0,0

1984 8,2 8,0 102,5 2,5

1985 8,2 8,2 100,0 0,0

1986 8,4 8,4 100,0 0,0

1987 8,5 8,6 98,8 -1,2

1988 8,7 8,8 98,9 -1,1

1989 9,1 9,0 101,1 1,1


28
7

Observaţie
 Variaţiile efective sunt între 98,7 şi 102,5, aşa
cum se vede din coloana 4 a tabelului
28
Semnificaţie 8

 Procentul din trend indică măsura


variaţiei ciclice ca procent din trend
 Este de fapt fracţiunea din valoarea
observată care se regăseşte în valoarea
estimată a trendului
 Dacă este 100%, înseamnă că întreaga
valoare observată se regăseşte în
valoarea estimată a trendului, deci aici
componenta ciclică are 0% contribuţie !
28
Exprimarea variaţiilor 9

ciclice ca reziduuri ciclice


relative
Reziduul ciclic relativ este o altă măsură

a variaţiei ciclice
 Deviaţia procentuală a trendului este

calculată pentru fiecarey  yvaloare

 100
 Reziduul ciclic relativ =
y

 Valorile corespunzătoare reziduurilor


ciclice le găsim în coloana a cincea a
tabelului din diapozitivul 31
29
0

Compararea celor două


măsuri ale variaţiei
ciclice
 Sunt, ambele, procente din trend
29
Exemplu 1

 În 1987, procentul din trend 98,8 indică


faptul că recolta efectivă a fost doar
98,8% din recolta aşteptată pentru acel
an
 Pentru acelaşi an, reziduul ciclic relativ
indică faptul că recolta efectivă a fost
cu 1,2% mai mică decât cea aşteptată
(pentru că reziduul ciclic este negativ)
29
Fluctuaţiile ciclice în jurul 2

liniei trendului
29
Reprezentarea grafică a 3

variaţiei ciclice

 Este reprezentarea grafică a variaţiei


ciclice ca procent din trend
 Prin acest proces, este eliminată linia
trendului şi este izolată componenta
ciclică
29
Graficul procentului din 4

trend
103
102
101
100
99
98
97
96
1982 1983 1984 1985 1986 1987 1988 1989
29
Observaţie 5

 Metodele prezentate în această


secţiune se pot utiliza doar pentru
descrierea variaţiilor ciclice din trecut şi
nu pentru predicţii ale unor variaţii
ciclice viitoare
 Tehnicile pe care le-am utiliza pentru
predicţii depăşesc scopul (gradul de
dificultate) pentru acest curs