Sunteți pe pagina 1din 20

Academia de Studii Economice

Facultatea de Cibernetic, Statistic i Informatic Economic


Analiza Afacerilor i Controlul Performanei ntreprinderii

Statistic i Econometrie

Denisa Giorghic
Miriam Haghighi

Bucureti, 2017
Introducere

Studiul de fa este construit din patru capitole i anume: analiza distribuiei de date,
modelul lui Sharpe, modelul regresiei logistice i un model construit pe date de tip panel.
Pentru acestea se vor utiliza diferite seturi de date, astfel:
- pentru analiza distribuiei de date, precum i pentru modelul lui Sharpe se va folosi un
set de date privind activele unei companii alese;
- pentru regresia logistic am ales un set de date care corespunde rii Panama;
- pentru ultima parte, n care se realizeaz o interpretare a unor date de tip panel, s-a
utilizat un set de date care caracterizeaz un numr de firme pe o anumit perioad de
timp.

1. Analiza distribuiei de date

n prima parte, se studiaz evoluia activelor companiei Mondelez pentru o perioad de


timp, folosind diferite elemente statistice i econometrice. Datele preluate, referitoare la
compania aleas, acoper perioada 26.05.2015 25.11.2016, fiind un set de date zilnice.
Datele sunt colectate de pe Yahoo Finance i importate n R Studio, mediul de lucru pentru
acest proiect. Setul de date conine trei coloane: data, preul activului Mondelez i preul
pieei.

Pentru nceput, am importat seria de date n R, iar pentru analiza distribuiei de date
vom interpreta cteva elemente pe care le vom prelua rulnd diferite comenzi n mediul de
lucru.

Histograma

Mai jos sunt reprezentate histogramele pentru cele dou preuri. Se observ c niciuna
dintre cele dou histograme nu urmeaz clopotul lui Gauss. Prima histogram prezint o
coad alungit n partea stng i valori mult mai ridicate n partea dreapt. Pe de alt parte,
histograma pentru pia figura 2 nu urmeaz nici un pattern, astfel nct, nu se poate trage
o concluzie referitoare la distribuie.

Figura 1

2
Figura 2

Box plot

n continuare, am reprezentat box plot-urile pentru cele dou serii de date. n primul
grafic figura 3 , cel referitor la seria de preuri Mondelez, se observ existena a doi
outlieri, n partea de jos, care se coreleaz cu alungirea cozii din stnga a histogramei
reprezentate mai sus figura 2. Intervalul dintre cuartile (IQR), adic intervalul dintre cuartila
1 i cuartila 3, este dat de diferena dintre valorile celor dou cuartile, adic 44-41, iar
mediana este aproximativ egal cu 43.

Figura 3

Cel de-al doilea box plot se refer la seria de date ale pieei. Se observ c valoarea
medianei este aproximativ 62.5, iar intervalul dintre cuartile (IQR) este 65-52.5. Distribuia
nu prezint outliere, adic nu exist valori mai mari dect Q3+1,5*IQR sau valori mai mici
dect Q1-1,5*IQR.

3
Figura 4

Plotul de densitate

Urmtorul pas este reprezentarea ploturilor de densitate ale celor dou serii de date
studiate. Primul grafic reprezint plotul de densitate a seriei de preuri Mondelez, iar cel de-al
doilea grafic prezint plotul de densitate a seriei de preuri ale pieei. Se confirm din nou
concluziile la care am ajuns din interpretrile histogramelor i a box-ploturilor.

Figura 5 Figura 6

Media i abaterea pentru activul studiat - Mondelez

4
Din outputul de mai sus se observ c media este 42.51957, iar abaterea standard este
1.927303.

Analiza distribuiilor

n graficul de mai jos se observ evoluia distribuiei activului studiat, n comparaie


cu distribuia normal, generat avnd ca medie i abatere valorile distribuiei de valori
aferente Mondelez. Se observ c distribuia activului linia de culoare neagr urmeaz
ntr-o oarecare msur distribuia normal. Totui, nu se poate spune c distribuia activului
Mondelez este una normal.

Figura 7

Asimetrie i aplatizare

- observm c valoarea coeficientului de asimetrie este una negativ,


deci distribuia prezint asimetrie la stnga, ceea ce nseamn c exist o coad a graficului
mai lung n stnga.

- observm c valoarea coeficientului de aplatizare este mai mic


dect 3, deci distribuia este platicurtic.

- coficientul de corelaie nregistreaz o valoare egal cu 0.282, o


valoare destul de mic, ceea ce arat o corelaie slab ntre cele dou serii de preuri.

Standardizare

n continuare, cele dou preuri sunt standardizate, iar pentru noile date este realizat
plot-ul de mai jos n care am reprezentat cele dou serii, respectiv nasstd, pentru seria de

5
date standardizat a preului de pia, i monstd, pentru seria de date standardizat a preului
Mondelez.

Figura 8

Qqplot

n graficul qqplot comparm cuantilele corespunztoare distribuiei standardizate a


preului de pia cu cuantilele distribuiei standardizate a preului Mondelez. Se observ c
graficul se aaz destul de bine pe linia primei bisectoare, ceea ce nseamn c cele dou
variabile au distribuie asemntoare, implicit, cuantilele acestora sunt asemntoare.

Figura 9

6
2. Modelul lui Sharpe

Pentru analiza modelului lui Sharpe trebuie ca, n primul rnd, s crem seria de
pt pt 1
randamente, utiliznd formula .
pt1

n imaginea alturat, sunt reprezentate mediile i abaterile standard


ale seriilor de randamente corespunztoare preurilor pieei i
Mondelez.

n graficul alturat am generat n


mod aleator o serie nou de date,
distribuit normal, cu medie i
abatere standard egale cu cele ale
seriei de randamente Mondelez. n
acelai grafic, am aezat cele trei
ploturi de densitate
corespunztoare celor trei
distribuii.

Figura 10

Dup cum se observ, distribuiile celor dou serii de preuri sunt mai alungite, mai
ascuite dect distribuia normal, adic leptocurtice. Totui, nu prezint diferene foarte mari
fa de cea normal.

- Ri asimetrie uoar la stnga i leptocurtic.


- Rm asimetrie mai pronunat la dreapta i leptocurtic.

Testul Jarque Bera

Testul Jarque Bera se refer la normalitatea distribuiei, iar ipoteza nul a acestuia
spune c seria este distribuit normal. n cazul de fa, s-a realizat acest test pentru seria de
randamente a activului studiat, iar rezultatele sunt afiate mai jos.

7
Dup cum se observ, valoarea pentru acest test este 51.668 cu un p-value de 2.2e-16,
adic foarte mic. Prin urmare, pe baza valorii p-value, se respinge ipoteza nul i se accept
ipoteza alternativ. Seria de randamente pentru activul companiei Mondelez nu este una
normal.

Staionaritate

Testul Dickey-Fuller se folosete pentru analiza staionaritii seriei de timp, iar


ipoteza nul a acestuia este seria nu este staionar.

Rezultatele aplicrii testului Dickey-Fueller pentru cele dou serii de randamente sunt
afiate n imaginile de mai sus. n ambele cazuri, p-value este mic, deci vom respinge ipoteza
nul i vom accepta ipoteza alternativ. Prin urmare, cele dou serii sunt staionare.

n continuare, vom reprezenta corelogramele funciilor de autocorelare pentru ambele


serii de randamente, cu scopul de a verifica rezultatele testului Dickey-Fuller.
Se observ c prima valoare este 1, ntruct oricare eroare se autocoreleaz cu ea
nsi, iar celelalte valori se ncadreaz n intervalul de ncredere, ceea ce nseamn c
autocorelarea cu erorile de lag mai mare este slab.

Figura 11

8
Figura 12

Urmtorul grafic reprezint ploturile pentru ambele serii ale randamentelor, respectiv
cea a pieei, cu negru, i cea aferent Mondelez, cu rou. Se observ c mediile acestora nu
variaz n timp, adic sunt constante, deci seriile sunt staionare.

Figura 13

n acest caz, se aplic metoda celor mai mici ptrate OLS i estimm modelul de
regresie.

Regresie

Figura 14

9
Dup reprezentarea norului de puncte corespunztor celor dou serii de date, am
estimat un model de regresie, care se observ trasat cu rou n graficul se mai sus.

Rezumatul de mai sus este al modelului de regresie estimat. Se observ c, n dreptul


coeficientului Beta, se afl trei stelue i c p-value este foarte mic, ceea ce nseamn c
acesta este semnificativ statistic. Dac verificm valoarea p-value corespunztoare
coeficientului Alfa, putem ajunge la concluzia c acesta nu este semnificativ statistic i nu
poate fi folosit n model. ns, valorile pentru Adjusted R-squared - 0.2231 i pentru p-value
corespunztor lui F-statistic, putem spune c acest model este valid. Seria de randamente Ri
este explicat n proporie de 22% de seria de randamente Rm.

n figura alturat este reprezentat intervalul


de ncredere pentru coeficientul Beta, aferent Rm, i pentru coeficientul Alfa. Cu o
probabilitate de 95%, putem spune c panta se ncadreaz n intervalul 0.46, 0.67. De
asemenea, tot cu o probabilitate de 95%, coeficientul liber, adic Intercept, se ncadreaz n
intervalul -0.00146, 0.00138.

Descompunerea riscului

Pentru descompunerea riscului se stabilesc dou valori iniiale, i anume riscul


sistematic i riscul nesistematic. Formula dup care efectum calculele este:

2i 2M + 2 ,i

Prima parte a formulei reprezint variana datorat pieei, adic riscul sistematic, iar a
doua parte a formulei reprezint variana specific, adic riscul nesistematic.
n urma calculelor, am aflat c riscul sistematic reprezint 21.8% din riscul total, iar
riscul nesistematic reprezint 78.2% din riscul total. Prin urmare, evoluia activului studiat
este impactat mai mult de riscul specific dect de riscul datorat pieei.

10
Validitatea modelului lui Sharpe

Studiem normalitatea distribuiei erorilor, folosind testul Jarque-Bera.


H0: erorile sunt distribuite normal;
H1: erorile nu sunt distribuite normal.

Output-ul testului arat un p-value foarte mic, ceea ce nseamn c respingem ipoteza
nul, iar erorile nu sunt distribuite normal.

Testul Breusch-Godfrey

H0: nu exist autocorelare de ordin superior;


H1: exist autocorelare de ordin superior.

Valoarea p-value este foarte mare, deci vom accepta ipoteza nul i anume c nu
exist autocorelare de ordin superior.

Testul Breusch-Pagan

H0: erorile sunt homoscedastice;


H1: erorile sunt heteroscedastice.

11
n cazul de fa, rezultatele testului arat un p-value foarte mare, deci vom accepta
ipoteza nul, deci variana erorilor este constant n timp.

Testul Reset

H0: modelul este liniar;


H1: modelul nu este liniar;

Acest test verific liniaritatea modelului. Cu o valoare foarte mare pentru p-value, se
va accepta ipoteza nul, modelul fiind liniar.

n continuare, identificm care sunt zilele, respectiv, nregistrrile care pot provoca
probleme n modelarea seriei de date. Problemele pot aprea fie pentru c erorile sunt prea
mari, fie pentru c valorile respective sunt prea deprtate de medie. Observm n cadrul
graficului cu distana Cook care sunt zilele n care distana este foarte mare. Acestea sunt:
296, 360 i 370. Dac alegem s tergem nregistrrile acestea din seria noastr de date,
outputul de regresie ar arta, probabil, mai diferit.

Figura 15
Concluzie modelul lui Sharpe

Din outputul regresiei, se observ c coeficienii estimai au valori foarte mici, ceea ce
nseamn c piaa nu influeneaz evoluia activului studiat. Interpretarile de la modelul
Sharpe sunt valabile, cu urmtoarele neajunsuri - modelul nu respect ipoteza de normalitate a
erorilor.

12
3. Regresie logistic

Pentru regresia logistic, am ales, ca ar, Panama. n urmtoarele imagini am


reprezentat dou dintre variabilele din setul de date, variabile care sunt binare, adic au dou
variante yes i no. Pentru fiecare, am precizat cte nregistrri sunt cu valoarea yes i
cte cu no, folosind funcia table.

n total, sunt 1178 de observaii i 9 coloane. ns, printre aceste nregistrri, exist i
valori de N/A. Astfel, am eliminat datele care conin N/A i am rulat din nou funciile care
numr ci de yes i ci de no sunt pentru variabilele binare bstart i futsup.

n figura de mai sus sunt afiate variantele de rspuns pentru variabila occu, cu
frecvenele fiecreia. n total sunt 8 variante de rspuns.

n cadrul vectorului oc, am grupat variantele pentru variabila occu, reprezentate


mai sus, n trei categorii, i anume: I am currently employed in full-time work, I am
currently employed in part-time work i I am currently self-employed n categoria 1, I am
currently seeking employment i I am a student, n categoria 2 i I am not currently
employed because I am retired or disabled, I am full-time home-maker i Other, n
categoria 3. Prima categorie conine 740 de nregistrri, a doua, 124 de nregistrri, iar ultima,
314 nregistrri.

13
Modelul de regresie

Pentru setul de date ales, se va construi un model de regresie n care variabila


dependent este futsup care reprezint inteniile antreprenoriale de a ncepe o nou afacere n
urmtorii trei ani. Variabilele independente pstrate n model sunt:
- Gender genul feminim sau masculin;
- Age vrsta;
- Knowent cunoaterea unor persoane care au deschis o afacere n ultimii doi ani;
- Suskill ncrederea de a avea cunotinele necesare pentru a ncepe o afacere;
- Oc vectorul care cuprinde statusul curent al forei de munc.

Coeficienii pentru intercept, knowentYes i suskillYes sunt semnificativi statistic,


avnd un p-value foarte mic. Cea mai mare influen pozitiv provine de la indicatorul
suskillYes persoanele care au cunotinele necesare pentru a deschide o afacere , iar cea mai
puternic influen negativ este dat de genderFemale. Coeficienii estimai pentru variabila
oc, variantele 2 i 3, nu sunt semnificativi statistic, ntruct p-value este destul de mare.

Funcia exponenial

14
Mai sus, a fost aplicat funcia exponenial coeficienilor estimai. Funcia ne arat cu
ct se modific raportul dintre cele dou probabiliti (probabilitatea de a-i deschide sau nu o
afacere) la modificarea variabilelor explicative.
Conform coeficientului genderFemale, ansa de a-i deschide o afacere este cu 23%
mai mic n cazul femeilor dect n cazul brbailor.
Coeficientul age ne arat c ansele scad cu 1% cu naintarea n vrst.
Conform coeficientului corespunztor categoriei 2 a vectorului oc, putem concluziona
c sunt cu 20% mai mari ansele de a i deschide o afacere celor din categoria a 2-a dect
celor din prima sau ultima categorie. n alte cuvinte, sunt anse mai mari s i deschid o
afacere studenii sau cei care sunt neangajai. Dac analizm i coeficientul corespunztor
celei de-a 3-a categorii, din cadrul vectorului oc, am putea spune c, pentru acetia, ansele de
a i deschide o afacere sunt cu 16% mai mici. Adic, oamenii care sunt pensionari sau cei
care stau acas au anse mai mici s i deschid o afacere dect cei care sunt angajai sau cei
care i caut un loc de munc.

Funcia predict

Funcia predict arat probabilitatea ca evenimentul studiat s se realizeze cnd se


cunosc caracteristicile obiectului analizat. Adic, studiem probabilitatea ca persoanele s i
deschid o afacere, cunoscnd estimrile coeficienilor variabilelor care influeneaz acest
eveniment i rspunsurile acestor persoane la chestionar.

Figura 16

15
Curba ROC, reprezentat n figura 16, rezum performana modelului prin evaluarea
schimburilor dintre True positive rate si False positive rate. Cu ct e mai mare zona de sub
curba ROC, cu att puterea modelului de predicie este mai bun. n cazul nostru, puterea de
predicie este mai mare dect alegerea aleatoare a rspunsului referitor la deschiderea unei
afaceri de ctre o persoan.

n final, am reprezentat probabilitile ca anumii indivizi, alei aleator, s i deschid


o afacere, folosind modelul de regresie logistic analizat mai sus. Spre exemplu, dintre
indivizii din eantion, individul 387 are mai multe anse s i deschid o afacere dect ceilali
selectai.

16
4. Analiza pe date de tip panel

Pentru ultima parte a proiectului, vom analiza o serie de date de tip panel care se refer
la anumite firme pentru care avem indicatori pentru o perioad de timp.

Graficul de mai jos ne arat care este intervalul n care se poziioneaz, n medie,
profitul pentru fiecare firm. Media este calculat ca o medie aritmetic ntre cele 4
nregistrri corespunztoare celor 4 ani analizai. Spre exemplu, pentru firma 4, un interval de
ncredere de 95% pentru media profitului firmei este 1500 2000.

Figura 17

Graficul de mai jos ne arat care este intervalul n care se poziioneaz, n medie,
profitul pentru fiecare an. Media este calculat ca o medie aritmetic ntre cele 5 firme. Spre
exemplu, pentru anul 2009, un interval de ncredere de 95% pentru media profitului este 1000
2500.

Figura 18

17
Pentru setul de date, am realizat i un model de regresie n care variabila dependent
este profitul firmelor, iar variabila independent este dat de indicatorul investiiilor.
Coeficientul pentru intercept este semnificativ statistic, n timp ce coeficientul pentru
variabila independent nu este, avnd un p-value de 0,551.
Pentru testul F, de validitate a modelului, p-value este 0,5513, ceea ce nseamn c
suntem n zona de acceptare a ipotezei nule. Prin urmare, modelul nu este valid.

Modelul cu efecte fixe

Modelul cu efecte fixe presupune c componenta i a erorii poate fi corelat cu


regresorii.

18
Figura 19

n figura 19 se observ linia de regresie i nregistrrile corespunztoare celor cinci


firme. Considerm c modelul nu este valid, att din concluziile regresiei, ct i din grafic.

Modelul de regresie pentru efecte aleatoare

Modelul cu efecte aleatoare presupune componenta erorii i total aleatoare, adic


nu se coreleaz cu regresorii.

n figura alturat sunt


rezultatele analizei
regresiei efectuate profit
n funcie de investiie. Se
observ c ambii
coeficieni estimai sunt
semnificativi statistic i
pot fi folosii n model. De
asemenea, Adjusted R-
Squared este 0.59, adic
profitul este explicat de
investiie n proporie de
59%. n plus fa de
acestea, rezultatul testului
F arat faptul c modelul
este valid.
Prin urmare, putem decide c modelul de regresie mai potrivit pentru seria noastr de
date de tip panel este cel cu efecte aleatoare. ns, pentru a alege cu acuratee modelul cel mai
potrivit dintre cele dou prezentate mai sus, se aplic testul Hausman.

19
Testul Hausman

H0: model cu efecte aleatoare;


H1: model cu efecte fixe.

Conform rezultatului de mai jos, p-value are o valoare destul de ridicat, peste pragul
de 5% stabilit, astfel, nu se va putea respinge ipoteza nul. Prin urmare, modelul cu efecte
aleatoare este mai potrivit pentru regresia datelor de tip panel. n cazul modelului cu efecte
aleatoare, componenta erorii nu se coreleaz cu regresorii.

20