Documente Academic
Documente Profesional
Documente Cultură
ELEMENTE INTRODUCTIVE
2
MIHAELA.SANDU@FAA.UNIBUC.RO
Evaluare și punctaj final
Bibliografie selectivă:
„Statistica pe înţelesul tuturor”, Elena Druică,
Ioniţă Druică, Mihaela Sandu, Rodica Ioanole,
Editura C.H. Beck, 2011
„Bazele statisticii economice”, Liliana
Duguleană, Ed. C.H. Beck, 2012
„Statistică. Teorie şi aplicaţii în sectorul terţiar”,
Emilia Ţiţan, Ed. Meteor Press
„Statistics for Business and Economics”, David R.
Anderson, Dennis J. Sweeney, Thomas A.
Williams
Rolul analizei datelor în 6
analiza economică
Departamentul comercial Previziunea vânzărilor
Setarea target-urilor
Logistică și Managementul Previzionarea comenzilor
producției Analiza calității producției
Marketing Analiza cererilor
Previzionarea vânzărilor
Ciclul de viață al unui produs
Preferința consumatorilor
Finanțe Riscuri privind oferta
Analiza pieței
Previzionarea bugetelor
Previzionarea profitului
Planificare Previziune și planificări strategice
Serii de date folosite 7
folosite
Pentru seriile de timp: modele specifice seriilor de
timp (ex. proiecția trendului, analiza de
sezonalitate, modele autoregresive etc.)
analiza economică
1. Identificarea unor trăsături caracteristice ale
fenomenelor studiate
Alegerea unei teorii economice care va sta la baza
studierii fenomenului analizat
2. Testarea unor ipoteze statistice
Analiza datelor/ construirea modelelor
3. Efectuarea de previziuni
Se folosesc modele econometrice estimate pentru
anticiparea și eventual aplicarea unor corecții
evoluțiilor viitoare ale unui anumit fenomen
Exemplu: vom putea anticipa modificări ale nivelului
consumului privat ca urmare a modificării veniturilor
disponibile.
Ce vom studia în
continuare?
Introducere în R - Studio
R ca și calculator
Citirea unui fișier
Structura datelor utilizate și câteva operații simple
Grafice, statistici descriptive și interpretarea lor
Descărcați R și R Studio
a <- c(12,45,18,1)
b<- c(2,4,67,15)
sum(a*b)
Citirea unui fișier în R
.
Absolvent Specializarea Absolvent Specializarea
Total 80
Tabel 2.3. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor
specializării Contabilitate
Total 27
Tabel 2.4. Distribuţia de frecvenţă a salariilor iniţiale ale absolvenţilor facultăţii
Total 80
Contabilitate 27
Finanţe 12
Management 25
Marketing 16
Total 80
Distribuţia relativă de
frecvenţă
Total 80 1
Tabel 2.8. Distribuţia de frecvenţă relativă pe tipuri de absolvenţi ai facultăţii
studiate
Total 80 1
Observaţii
20
18
Numărul de absolvenţi
16
14
12
10
8
6
4
2
0
1300 1400 1500 1600 1700 1800 1900 2000 2100
Salariul iniţial
Ogiva
90
80
Frecvenţa cumulativă
70
60
50
40
30
20
10
0
1300 1400 1500 1600 1700 1800 1900 2000
Salariul iniţial
MEDIA
MEDIANA
Măsuri
MODUL
ale
PROCENTILA P
locaţiei pentru
date nerezumate
Date utilizate
Dispunem de date despre salariile iniţiale provenite dintr-un
eşantion format cu 80 de absolvenţi ai unei facultăţi cu profil
economic.
Ne vom ocupa doar de eşantionul de dimensiune 12 al
absolvenţilor de Finanţe şi de cel de dimensiune 25 al
absolvenţilor de Management
Specializarea Finanţe
1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
1. Media
Este prima şi cea mai des întâlnită măsură a locaţiei
Se mai numeşte şi valoare medie a datelor
De ce este necesară?
un absolvent de Finanţe probabil va fi interesat de salariul pe
care l-a primit, în medie, o persoană care face parte din
eşantion
Odată cunoscută această valoare medie, absolventul îşi poate
face o idee despre ce înseamnă o ofertă de muncă „bună” sau
„proastă”.
În consecinţă:
MEDIA OFERĂ O BUNĂ MĂSURĂ A TENDINŢEI
CENTRALE A UNEI MULŢIMI DE DATE.
Pentru absolvenţii de
Finanţe
Vom nota: x
salariul iniţial al primului absolvent din eşantionul
1
specializării Finanţe, cu salariul iniţial al celui de-al doilea
absolvent din acelaşi eşantion şi tot aşa x2
Media este:
x 1 x 2 ... x 12
12
SALARIUL MEDIU INIŢIAL =
= 1640
În general:
Media de selecţie
x
xi
(1)
n
unde n reprezintă dimensiunea eşantionului
O interpretare a statisticii
rezumative:
presupunem că a fost calculat şi salariul mediu iniţial pentru
eşantionul absolvenţilor de Management şi că rezultatul este
1590 lei
acest salariu mediu iniţial este mai mic pentru absolvenţii
specializării Management decât pentru absolvenţii de Finanţe
Observaţie:
Rezultatul a fost ibţinut din eşantioane
Nu putem spune că salariul mediu iniţial pentru întreaga
populaţie de absolvenţi de Finanţe este cu 50 de lei mai mare
decât salariul mediu iniţial pentru întreaga populaţie de
absolvenţi de Management
Pentru afirmaţii care
vizează populaţiile
Vom vedea cum se procedează pentru a putea obţine
informaţii despre diferenţele între parametrii studiaţi – în acest
caz, mediile populaţiilor – pe baza diferenţelor pe care le-am
observat în eşantioanele din care am dedus mediile de selecţie
Deocamdată nu generalizăm!
Formula de
calcul a mediei
populaţiei
μ
N
x
este i
similară
UNDE N REPREZINTĂ DIMENSIUNEA POPULAŢIEI
2. Mediana
Este o altă măsură a tendinţei centrale a unei mulţimi de date.
Este valoarea din mijloc din mulţimea de date, atunci când
datele sunt aranjate în ordinea lor crescătoare
Mai exact:
În situaţia în care există un număr impar de itemi, mediana este
itemul din mijloc.
Dacă numărul de date este par, urmărim convenţia care
defineşte mediana ca fiind media itemilor din mijloc.
Definiţia Medianei
Dacă numărul de date este impar, atunci mediana este
valoarea itemului din mijloc atunci când datele sunt aranjate în
ordine crescătoare
Dacă numărul de date este par, atunci mediana este valoarea
medie a celor doi itemi din mijloc atunci când datele sunt
aranjate în ordine crescătoare.
Pentru specializarea
Finanţe
Aranjarea itemilor în ordine crescătoare conduce la următoarea
listă:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
Mediana pentru eşantionul studiat este media celor doi itemi pe
care i-am pus în evidenţă
Calculul
medianei
1590 1620
2
MEDIANA =
= 1605
Observaţii
media este o măsură a tendinţei centrale foarte des utilizată
există situaţii în care mediana este o măsură mai bună
Motivele:
Media este influenţată de valorile extreme dintr-o mulţime de
date
Mediana nu este influenţată de aceste valori extreme
Exemplu:
presupunem că unul dintre absolvenţii
specializării Finanţe are ca salariu iniţial 10000
lei
Dacă înlocuim valoarea 2025 care era cea
mai mare valoare din eşantion cu valoarea
10000, media de selecţie pentru noile date
rezultă a fi 2305 lei
Mediana, totuşi, rămâne neschimbată pentru
că valorile 1590 şi 1640 rămân tot în mijlocul
mulţimii de date
Afirmaţie
general
valabilă:
ORI DE CÂTE ORI ÎN MULŢIMEA DE DATE EXISTĂ VALORI
EXTREME, MEDIANA ESTE O MĂSURĂ MAI BUNĂ A
TENDINŢEI CENTRALE DECÂT VALOAREA MEDIE.
Comparaţie pe baza
medianei
În cazul eşantionului absolvenţilor de
Management există un număr impar de itemi
Mediana pentru acest eşantion este 1600 lei
(temă de seminar)
Prin compararea medianelor provenite de la
cele două eşantioane observăm că există o
diferenţă de 5 lei în favoarea absolvenţilor de
Finanţe.
Observaţii
Deşi atât media, cât şi mediana sunt folosite ca măsuri ale
locaţiei, multe persoane sunt familiarizate mai degrabă cu
media şi, din acest motiv, preferă să lucreze cu ea
Totuşi, atunci când în mulţimea de date intervin valori extreme,
mediana este o măsură mai bună a tendinţei centrale
3. Modul
DEFINIŢIE: MODUL UNEI MULŢIMI DE DATE ESTE
VALOAREA CARE APARE CU CEA MAI MARE
FRECVENŢĂ.
Specializarea Finanţe
singurul nivel salarial care apare mai mult decât o sigură dată
este 1550
pentru că această valoare, pe care o regăsim cu frecvenţa 2,
este singura care apare mai mult de o singură dată, ea este
modul din acest eşantion
Specializarea
Management
frecvenţa cea mai mare, din nou egală cu 2, apare pentru trei
valori diferite: 1600, 1620 şi 1900
mulţimea de date are trei moduri diferite (adică este o mulţime
multimodală)
Observaţie în consecinţă
cel mai bun lucru într-o astfel de situaţie este
să nu ne referim la mod ca la o măsură
reprezentativă pentru că în mod evident cele
trei valori nu reuşesc să descrie o tendinţă
centrală a datelor
probabil că majoritatea practicienilor s-ar
limita la medie şi mediană pentru a descrie
toate datele referitoare la salariile iniţiale
De reţinut
Diferitele măsuri ale tendinţei centrale nu se folosesc doar pentru
că există!
Uneori ele nu sunt deloc utile, sau relevante!
Trebuie ştiut de fiecare dată care este măsura care trebuie
folosită pentru o descriere corectă a datelor.
Aspect
important
TIPURILE DE DATE PENTRU CARE MODUL ESTE O
CONSIDERAT O MĂSURĂ UTILĂ SUNT CELE CALITATIVE.
În exemplul absolvenţilor
specializarea absolvită este un exemplu de caracteristică de
natură calitativă
Există 12 absolvenţi de Finanţe, 25 de absolvenţi de
Management, 27 de absolvenţi de Contabilitate şi 16 de
Marketing
Prin urmare modul, dat de cea mai frecventă apariţie, este
Contabilitatea.
Observaţie
PENTRU DATE CALITATIVE NU ARE NICIUN SENS SĂ
DISCUTĂM DESPRE MEDIE, SAU MEDIANĂ!
Alt exemplu
Un fabricant trimite pe piaţă un produs în trei ambalaje diferite
Utilizând designul celor trei ambalaje ca fiind variabilă calitativă
şi observând frecvenţa de cumpărare, putem stabili că modul
este dat de acel design care se cumpără cel mai des
4. Procentila
oferă un mijloc de identificare a locaţiei valorilor din mulţimea
de date care nu sunt neapărat valori centrale
oferă informaţii despre modul în care sunt împrăştiate datele de
la cea mai mică la cea mai mare valoare a lor
Deci, procentila:
poate fi privită şi ca o măsură a dispersării, sau variabilităţii
mulţimii de date
În mulţimile mari de date, în care nu avem prea multe valori
care să se repete, procentila p este acea valoare care divide
mulţimea de date în două părţi
Cum anume se divide
mulţimea de date?
Aproximativ p% dintre itemi iau valori mai mici decât procentila
de ordin p
Aproximativ (100 – p)% dintre itemi iau valori mai mari decât
aceasta
O definiţie
formală a
procentilei
PROCENTILA DE ORDIN P A DATELOR ESTE O VALOARE
ASTFEL ÎNCÂT CEL PUŢIN P% DINTRE ITEMI IAU ACEASTĂ
VALOARE SAU MAI PUŢIN ŞI CEL PUŢIN (100 – P)% DINTRE
ITEMI IAU ACEASTĂ VALOARE SAU MAI MULT.
Exemplu:
Punctajele obţinute la examenele de admitere sunt raportate
frecvent în termeni de procentilă
un aplicant are un punctaj de 84 de puncte; nu este foarte clar
care este poziţia acestui candidat în raport cu ceilalţi
participanţi la concurs
Punctajul corespunde procentilei de
ordin 70:
70% dintre aplicanţi au un scor mai mic, sau egal cu al
aplicantului în discuţie
doar 30% dintre concurenţi au obţinut un punctaj mai bun
Problema salariilor iniţiale
Ne interesează procentila 90
Este o măsură corespunzătoare a salariilor de top, pentru că
doar un procent de aproximativ 10% dintre absolvenţi primesc
salarii egale sau mai mari cu procentila 90
Pentru Finanţe
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750, 1860,
2025
Primele 11 din cele 12 salariipână la 1860, reprezintă 91,7% dintre
datele pe care le studiem
două, anume 1860, 2025, reprezintă 16,7%
Prin urmare:
dintre toţi cei 12 itemi cel puţin 90% au o valoare egală sau mai
mică decât 1860
cel puţin 10% dintre ei au o valoare egală sau mai mare decât
1860
procentila 90 pentru eşantionul absolvenţilor de Finanţe este
1860
Regulă
DACĂ EXISTĂ DOI ITEMI CARE SATISFAC ÎN ACELAŞI
TIMP DEFINIŢIA PROCENTILEI P PENTRU O MULŢIME DE
DATE, CONVENIM CA PROCENTILA P SĂ FIE MEDIA
ARITMETICĂ A CELOR DOUĂ VALORI
Specializarea Finanţe
atât 1590 cât şi 1620 satisfac definiţia procentilei 50 (temă de
seminar)
spunem că procentila de ordin 50 este media celor două valori,
adică 1605
observăm că valoarea 1605 este de asemenea mediana
mulţimii de date
Reamintim:
mediana este acel item care divide mulţimea de date ordonată
crescător în două mulţimi de dimensiuni egale
Astfel, în termeni de procentilă, mediana este procentila 50.
Calculul Procentilei p
Pasul 1. Aranjaţi datele în ordine crescătoare
Pasul 2. Calculaţi un indice i după formula: i = (p/100) x n, unde
p este procentila de interes, iar n este numărul de date de care
dispunem în eşantion.
Pasul III
(a) Dacă n nu este un întreg, atunci următorul întreg de valoare
mai mare decât i indică poziţia procentilei de ordin p
(b) Dacă i este întreg, atunci procentila de ordin p se obţine ca
valoare medie a datelor aflate pe poziţiile i şi i+1.
Exemplu
PROCENTILA 90 PENTRU DATELE PROVENITE DIN
EŞANTIONUL ABSOLVENŢILOR DE FINANŢE.
Pasul 1.
ARANJĂM DATELE ÎN ORDINE CRESCĂTOARE ŞI OBŢINEM:
1410, 1455, 1550, 1550, 1580, 1590, 1620, 1640, 1650, 1750,
1860, 2025
Pasul 2
CALCULĂM I = (90/100) * 12 = 10,8
Pasul 3
Indicele i nu este un număr întreg,
poziţia procentilei 90 este dată de următoarea valoare întreagă
mai mare decât 10,8 şi anume 11.
în şirul de date aranjate în ordine crescătoare, observăm cum
procentila de ordin 90 corespunde valorii 1860.
Temă de
seminar
CALCULUL PROCENTILEI 50, PENTRU ACEEAŞI
MULŢIME DE DATE.
DISPERSIA
ABATAEREA STANDARD
RANGUL
COEFICIENTUL DE VARIAŢIE
Măsuri ale împrăştierii
Specializarea Finanţe
1 1550 7 1590
2 1650 8 1860
3 1750 9 1640
4 1550 10 2025
5 1455 11 1620
6 1410 12 1580
Comentarii preliminare
Ori de câte ori colectăm date, fie ele pentru un eşantion sau
pentru întreaga populaţie, este de dorit să luăm în considerare
variabilitatea, sau dispersia valorilor acestora
Exemplu
lucraţi la sectorul aprovizionare al unei fabrici
de obicei trimiteţi comenzi către doi ofertanţi de materii prime
ambii indică faptul că este nevoie de aproximativ 10 zile
lucrătoare pentru a onora comanda voastră
Ce observaţi cu timpul:
Acest număr mediu de zile este corect
Totuşi, modul în care arată histogramele pe care le-aţi construit
vă nedumereşte
Primul ofertant
Al doilea ofertant
Observaţii pe baza
histogramelor:
dispersarea diferită pentru datele provenite de la cei doi
colaboratori
câteva situaţii în care aprovizionarea se face în 14 sau 15 zile pot
fi dezastruoase pentru menţinerea ritmului corect al procesului
de producţie
Alte comentarii
timpul mediu de livrare este un aspect important care trebuie
luat în calcul de către agentul de aprovizionare
DAR exemplul anterior arată cum există situaţii în care dispersia,
sau variabilitatea în durata aprovizionării este un aspect poate
chiar mai important uneori.
Măsuri studiate
Rangul
Dispersia, sau varianţa
Abaterea standard
Coeficientul de variaţie
1. Rangul
2 x i x
2
σ
N
Observaţii:
În multe aplicaţii statistice, mulţimea de date cu care lucrăm
este un eşantion
O măsură a variabilităţii eşantionului ar trebui să fie un estimator
pentru dispersia întregii populaţii.
Tentaţia
SĂ UTILIZĂM MEDIA PĂTRATELOR ABATERILOR
PENTRU EŞANTION CA ESTIMATOR AL DISPERSIEI
POPULAŢIEI.
Care este rezultatul?
Statisticienii au constatat că valoarea medie calculată pentru
eşantion subestimează dispersia populaţiei
Din cauza acestei tendinţe de subestimare, media pătratelor
abaterilor datelor din eşantion este un estimator deplasat.
Se poate arăta că dacă suma
pătratelor abaterilor
individuale
2 x i x 2
s
n 1
Absolvenţii specializării
Finanţe
2 x i x
2
318650
s 28968,18
n 1 11
Semnificaţie
este dificil să obţinem o semnificaţie intuitivă a valorii numerice
28968,18
putem observa că valori mai mari ale dispersiei pot fi obţinute
doar din mulţimi de date cu abateri mari faţă de medie şi, prin
urmare, mai dispersate
Comentarii
valoarea numerică obţinută efectiv nu este
simplu de interpretat ca atare
Dispersia de selecţie (Formulă
prescurtată)
2
2 xi nx
s
n 1
Dispersia populaţiei (Formulă
prescurtată)
2
2 xi Nx
σ
N
3. Abaterea standard
este definită ca rădăcină pătrată din dispersie
vom nota cu s abaterea standard de selecţie
vom nota cu σ abaterea standard pentru întreaga populaţie
2
s s
2
σ σ
Comentarii
Abaterea standard este şi ea o măsură a dispersiei, pentru că
radical dintr-o mărime mare va conduce la o valoare mare.
Abaterea standard a datelor provenite de la eşantionul
absolvenţilor de Finanţe este 170,2
Ce am câştigat?
unităţile de măsură care apar în calculul dispersiei sunt ridicate
la pătrat
De exemplu, dispersia de selecţie pentru salariile iniţiale ale
absolvenţilor de Finanţe este exprimată în lei la pătrat.
Acesta este cel mai important motiv pentru care este dificil să
obţinem o interpretare intuitivă a acestei mărimi
Aşadar:
Pentru că abaterea standard este radicalul
dispersiei, înseamnă că ea se exprimă în aceeaşi
unitate de măsură ca şi datele pe care le avem
iniţial,
în cazul exemplului nostru, se exprimă în lei.
Din acest motiv, de obicei abaterea standard
este mai uşor de comparat cu media şi cu alte
statistici care se măsoară în aceeaşi unitate de
măsură ca şi datele iniţiale
4. Coeficientul de
variaţie
σ
100
μ
s
100
x
De exemplu, pentru eşantionul
absolvenţilor de Finanţe
coeficientul de variaţie este
170,2
100 10,38%
1640
Interpretare:
ABATEREA STANDARD PENTRU ACESTE DATE ESTE
10,38% DIN VALOAREA MEDIE DE SELECŢIE
Observaţii I:
această mărime poate fi utilizată doar pentru mulţimi care
conţin toate, sau aproape toate datele pozitive
atunci când în mulţimea de date sunt prezente atât valori
pozitive, cât şi negative, se pot obţine valori nule, sau aproape
nule ale mediei
Observaţii II
DACĂ VALOAREA MEDIE ESTE ZERO, SAU FOARTE
APROPIATĂ DE ZERO, COEFICIENTUL DE VARIAŢIE
POATE AVEA O VALOARE FOARTE MARE CHIAR ŞI
ATUNCI CÂND ABATEREA STANDARD A MULŢIMII SE
DATE ESTE FOARTE MICĂ.