Documente Academic
Documente Profesional
Documente Cultură
PROIECT ECONOMETRIE
1.Fundamentare teoretică
Econometria consta in aplicarea statisticii in analiza datelor economice, in scopul adoptarii deciziilor
economice potrivite. Econometria permite analiza seturilor de date de interes, testarea ipotezelor si a
realizarii de prognoze, acestea fiind etape necesare pentru determinarea celor mai bune decizii
economice.
Realizarea unei analize de regresie presupune explorarea si masurarea relatiilor care exista intre o
varibila dependenta, care poate fi denumita si variabila explicata, si una sau mai multe variabile
independente, care se pot numi si variabile explicative, implicand construirea unui model de regresie,
unifactorial sau multifactorial, in functie de numarul de variabile independente existente. Rezultatul
analizei de regresie este o ecuatie de regresie care trebuie sa exprime o forma cat mai conforma a relatiei
dintre variabilele care se regasesc in modelul de regresie construit. Ecuatia de regresie este, de cele mai
multe ori, estimata prin Metoda celor mai mici patrate.
Alegerea temei “Abilități analitice ale copiilor dotați intelectual” este justificata prin faptul ca
supradotarea intelectuala reprezinta o manifestare umana deosebita, care trebuie identificata si valorizata
cat mai devreme in viata unui copil, pentru ca acesta sa aiba sansa de a fi integrat in medii potrivite si de
a primi servicii educative superioare, pentru a-si atinge adevaratul potential. Din aceste motive, este
necesara determinarea anumitor factori care pot indica sau influenta aceste capacitati exceptionale.
In cadrul acestui proiect, va fi analizata relatia dintre scorul obtinut de copiii dotati intelectual la un test
pentru abilitati analitice si o serie de variabile care pot explica variatia scorului, precum numarul de ore
pe care un copil le petrece urmarind un program educational la televizor sau varsta la care un copil a
vorbit pentru prima data. Scopul acestei analize este determinarea factorilor care influenteaza
semnificativ scorul obtinut de copii si in ce masura contribuie fiecare factor la variatia scorului.
Initial, va fi acceptata ipoteza conform careia scorul obtinut depinde linear de toate variabilele
independente existente in setul de date, astfel, se va construi un model de regresie linear, multifactorial.
In urma analizelor efectuate, se va determina daca ipoteza este valida sau nu si se va alege cel mai
adecvat model de regresie.
II.Modelul utilizat și software-ul ales
1.Software utilizat
Pentru realizarea analizei de regresie, construirea si alegerea celui mai bun model de regresie, testarea
ipotezelor si realizarea unei prognoze se va utiliza, in cadrul acestui proiect, software-ul statistic
RStudio, care implementeaza limbajul R. RStudio este un software open-source, distribuit sub licenta
GNU, fiind disponibil in mod gratuit.
Acesta prezinta functionalitati, precum faptul ca accepta seturi mari de date, are o sintaxa simpla si
intuitiva, usor de implementat, posibilitati de realizare a numeroase tipuri de grafice, precum grafice
animate, interactive, de tip boxplot, piechart, barplot. De asemenea, citeste diferite tipuri de date,
precum date cu extensia „csv” sau „xlsx”. In RStudio, rezultatele pot fi afișate pe ecran, memorate într-
un obiect sau scrise pe disc, putand fi accesibile local sau în rețea.
Limbajul R este flexibil si reproductibil, caracteristica importanta in detectarea erorilor, si este un limbaj
orientat pe obiect.
Pentru prelucrări statistice se utilizează funcții predefinite, care se regasesc in anumite pachete de
funcții. RStudio contine functii pentru nenumarate analize statistice fundamentale, precum analize
clasice, modele lineare, metoda celor mai mici patrate, distributii, analiza seriilor de timp, analiza
seturilor de date care contin variabile categoriale. Toate aceste functii se regasesc in pachete standard,
care sunt instalate si incarcate initial in R. Pentru analize complexe, teme si functii suplimentare este
necesara instalarea si activarea unor pachete corespunzatoare.
2.Descrierea datelor
Setul de date utilizat in realizarea analizei este regasit sub denumirea „gifted.csv” si este alcatuit din 36
de observatii, fiecare observatie reprezentand un copil, si 8 variabile, o variabila dependenta si 7
variabile independente. Variabila dependenta „score” reprezinta scorul obtinut de copii la un test de
abilitati analitice, desfasurat utilizand o procedura standard. Variabila independenta „fatheriq” reprezinta
coeficientul de inteligenta al tatalui copilului. Variabila independenta „motheriq” reprezinta coeficientul
de inteligenta al mamei copilului. Variabila independenta „speak” reprezinta varsta, in luni, la care
copilul a vorbit pentru prima data. Variabila independenta „count” reprezinta varsta, in luni, la care
copilul a numarat, cu succes, pana la 10. Variabila independenta „read” reprezinta media numarului de
ore, pe saptamana, pe care parintii copilului il petrec citindu-i acestuia. Variabila independenta „edutv”
reprezinta media numarului de ore, pe saptamana, pe care copilul le-a petrecut urmarind un program
educational la televizor, in ultimele 3 luni. Variabila independenta „cartoons” reprezinta media
numarului de ore, pe saptamana, pe care copilul le-a petrecut urmarind desene animate la televizor, in
ultimele 3 luni.
III.Etape în efectuarea analizei de regresie
Functia show()
Functia view()
Pentru intelegerea setului de date, se va apela functia str(numele setului de date), pentru vizualizarea
structurii setului de date. Functia names(numele setului de date) returneaza numele variabilelor din setul
de date.
Functia str()
Functia names()
S-a efectuat redenumirea variabilelor setului de date, pentru o mai buna intelegere si eficienta, cu
ajutorul functiei colnames(numele setului de date)[numarul coloanei], apoi functia „names()” a fost
reapelata pentru vizualizarea modificarilor.
Redenumirea variabilelor
Pentru accesarea mai facila a elementelor setului de date, fara necesitatea mentionarii sursei datelor, se
va folosi functia attach(numele setului de date).
2.Estimarea modelului
Primul model de regresie liniara multipla realizat este cel care contine toate variabilele independente.
Cel de-al doilea model de regresie liniara multipla realizat este cel care contine variabilele IQ_tata,
IQ_mama, Vorbit, Citit, Desene si Program.
Al doilea model de regresie
Coeficientul de determinare a acestui model de regresie este 0.7442, ceea ce inseamna ca acest model
explica aproximativ 74.4% din variatia scorului si coeficientul de determinare ajustat este 0.6913.
Se observa faptul ca variabilele IQ_mama si Citit au coeficienti de regresie semnificativ diferiti de 0,
variabilele IQ_tata si Desene sunt, de asemenea, semnificative la un nivel de semnificatie de 10% si
coeficientul de regresie aferent termenului liber este semnificativ diferit de 0. Variabila Program
prezinta, de asemenea, un coeficient de regresie semnificativ diferit de 0. Coeficientul de regresie
aferent variabilei Vorbit nu este semnificativ de 0, nefiind semnificativa pentru model.
Coeficientul de determinare a acestui model de regresie este 0.7338, ceea ce inseamna ca acest model
explica aproximativ 73.3% din variatia scorului si coeficientul de determinare ajustat este 0.6894.
Variabilele IQ_mama si Citit au coeficienti de regresie semnificativ diferiti de 0, variabilele IQ_tata si
Desene sunt, de asemenea, semnificative la un nivel de semnificatie de 10% si coeficientul de regresie
aferent termenului liber este semnificativ diferit de 0. Variabila Program prezinta, de asemenea, un
coeficient de regresie semnificativ diferit de 0. Astfel, se observa faptul ca toti coeficientii de regresie
sunt semnificativ diferiti de 0.
Pentru compararea unor modele de regresie cu numar diferit de variabile independente, se va utiliza
coeficientul de determinare ajustat. Modelul pentru care coeficientul de determinare ajustat este mai
mare, este mai bun, deoarece acesta explica mai mult din variatia variabilei dependente. Intrucat
modelul 2 are coeficientul de determinare ajustat mai mare, se vor folosi criteriile de specificare Akaike
si Schwartz pentru identificarea celui mai bun model de regresie liniara, modelul cu indicele AIC sau
BIC cel mai mic fiind cel mai bun.
Conform indicelui AIC, se observa ca modelul 3 este cel mai bun model de regresie. Conform indicelui
BIC, se observa ca modelul 3 este cel mai bun model de regresie.
Pentru identificarea automata a celui mai bun model de regresie liniara, pornind de la modelul care
contine toate variabilele independente, se poate folosi functia step(numele modelului). In urma aplicarii
functiei „step()” pe modelul 1, se determina faptul ca modelul 3 este cel mai bun model de regresie.
Afisarea coeficientilor de regresie se poate realiza fie prin apelarea functiei model$coefficients, fie prin
apelarea functiei summary(model) si interpretarea coloanei „Estimate”.
model$coefficients
summary(model)
Coeficientul termenului liber este 79.04678, fiind semnificativ diferit de 0, avand valoarea p a testului t-
Student 0.00231, care este mai mica decat 0.05.
Coeficientul de regresie aferent variabilei IQ_tata este 0.23736 , ceea ce inseamna ca la o crestere cu o
unitate a IQ-ului tatalui, se inregistreaza o crestere de 0.23736 a scorului obtinut la testul de abilitati
analitice, acesta avand valoarea p a testului t-Student 0.09206, fiind acceptat ca fiind diferit de 0, la un
nivel de semnificatie de 10%.
Coeficientul de regresie aferent variabilei IQ_mama este 0.41211 , ceea ce inseamna ca la o crestere cu
o unitate a IQ-ului mamei, se inregistreaza o crestere de 0.41211 a scorului obtinut la testul de abilitati
analitice, acesta avand valoarea p a testului t-Student 2.87e-06, fiind semnificativ diferit de 0.
Coeficientul de regresie aferent variabilei Citit este 11.90132 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece citind, se inregistreaza o crestere de 11.90132 a
scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-Student 6.03e-06, fiind
semnificativ diferit de 0.
Coeficientul de regresie aferent variabilei Program este -4.88814 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece urmarind un program educational, se inregistreaza o
scadere de -4.88814 a scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-
Student 0.03114, fiind diferit de 0.
Coeficientul de regresie aferent variabilei Desene este -3.82023 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece urmarind desene animate, se inregistreaza o scadere
de -3.82023 a scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-Student
0.06163, fiind acceptat ca fiind diferit de 0, la un nivel de semnificatie de 10%.
Intrucat se accepta faptul ca toti coeficientii de regresie sunt diferiti de 0, se respinge ipoteza nula
conform careia estimatorii sunt egali cu 0 si conform careia estimatorii nu sunt semnificativi. Se accepta
ipoteza alternativa conform careia estimatorii sunt semnificativ diferiti de 0.Astfel, se accepta faptul ca
estimatorii sunt semnificativi pentru model.
Intrucat valoarea p a testului F statistic este egala cu 7.669e-08, fiind mai mica de 0.05, se accepta
ipoteza alternativa, conforma careia modelul este semnificativ, in forma generala, din punct de vedere
statistic.Exista, asadar, o relatie semnificativa intre variabile.
5.Diagnosticele modelului de
regresie
Diagnosticele modelului
Afisarea graficelor diagnostic ale modelului individual, pe ipoteze presupune schimbarea parametrilor
grafici cu functia par(mfrow=c(1,1)), astfel încât sa se asigure afisarea unui singur grafic în partea
"Plots"a ferestrei RStudio. Acest pas este necesar în cazul în care parametrii grafici au fost modificati
anterior, fara a avea certitudinea ca acestia au fost modificati pe valoarea default apoi.
Intrucat graficul diagnostic pentru testarea linearitatii modelului a indicat faptul ca acesta nu este liniar,
este necesara aplicarea unui test econometric pentru a stabili daca acesta este liniar sau nu. Testul
econometric aplicat pentru verificare este testul Ramsey RESET, implementat in R cu ajutorul functiei
resettest(numele modelului), inclusa in pachetul „lmtest”, care trebuie sa fie, in prealabil, instalat si
incarcat. Ipoteza nula a acestui test este aceea ca modelul este liniar si corect specificat, pentru o valoare
p a testului mai mare de 0.05.
Se observa faptul ca valoarea p a testului este egala cu 0.4085, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia modelul este liniar si corect specificat, si respingerea
ipotezei alternative, conform careia modelul nu este liniar, asa cum indica graficul diagnostic realizat
anterior.
Se observa faptul ca valoarea p a testului este egala cu 0.123, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia nu exista autocorelare de ordinul I, si respingerea
ipotezei alternative, conform careia autocorelarea de ordin I este prezenta.
c.Testarea heteroscedasticitatii.
Pentru testarea heteroscedasticitatii este necesara utilizarea functiei bptest(numele modelului), inclusa in
pachetul „lmtest”. Aceasta functie implementeaza testul Breusch-Pagan, a carei ipoteza nula este aceea
ca nu exista heteroscedasticitate, erorile fiind homoscedastice, pentru o valoare p a testului mai mare de
0.05.
Se observa faptul ca valoarea p a testului este egala cu 0.7504, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia nu exista heteroscedasticitate, si respingerea ipotezei
alternative, conform careia heteroscedasticitatea este prezenta.
Testul econometric aplicat pentru verificare este testul Jarque-Bera, implementat in R cu ajutorul
functiei jarque.bera.test(summary(numele modelului)$residuals), inclusa in pachetul „tseries”, care
trebuie sa fie, in prealabil, instalat si incarcat. Ipoteza nula a acestui test este aceea ca erorile sunt
normal distribuite, pentru o valoare p a testului mai mare de 0.05.
e. Testarea multicolinearitatii.
Pentru testarea multicolinearitatii este necesara utilizarea functiei omcdiag(numele modelului), inclusa in
pachetul „mctest”, instalat si incarcat. Aceasta functie returneaza rezultatul mai multor teste pentru
multicolinearitate, cifra 1 indicand prezenta multicolinearitatii, iar cifra 0 indicand absenta acesteia.
Testarea multicolinearitatii
Cu toate ca celalalte teste indica absenta multicolinearitatii, testul Farrar Chi-patrat indica prezenta
multicolinearitatii, prin prezenta valorii 1 in urma efectuarii testului. Asadar, se va considera ca este
prezenta multicolinearitatea.
Afisarea matricei de corelatie pentru intreg setul de date, pentru identificarea variabilelor care se afla in
relatie liniara cu alte variabile, se realizeaza cu ajutorul functiei cor(numele setului de date).
Matricea de corelatie
Conform matricei de corelatie, exista o corelatie puternic pozitiva intre variabilele Numarat si Citit, cu
un coeficient de corelatie egal cu 0.91025191, si o corelatie puternic negativa intre varibilele Program si
Desene, cu un coeficient de corelatie egal cu -0.9234370.
g. Realizarea unei predictii.
Realizarea unei predictii pentru valorile variabilei Scor este posibila cu ajutorul functiei predict(numele
modelului).
h. Realizarea histogramei.
Realizarea histogramei de frecvente pentru valorile variabilei dependente Scor este posibila folosind
functia hist(numele modelului si o serie de parametrii grafici). Codul utilizat pentru crearea histogramei
se regaseste in captura de ecran de mai jos:
Xlab si ylab seteaza denumirile axelor, iar cex.axis, font.axis si col.axis seteaza dimensiunile, fontul si
culorile denumirilor axelor. Cex.lab, col.lab, font.lab determina dimensiunile, culorile si fontul
etichetelor. Argumentul col determina culorile care vor fi folosite in crearea histogramei, prin
intermediul hcl.colors(), care creeaza un vector de 10 culori, preluate din paleta Viridis, afisate in ordine
inversa.
Pentru afisarea tuturor culorilor care pot fi utilizate pentru personalizarea graficelor, se poate utiliza
functia grDevices::colors().
i.Realizarea diagramei scatter între variabila dependenta Scor si variabila independenta Citit.
Diagrama scatter intre doua variabile se realizeaza cu ajutorul functiei plot().Codul utilizat pentru
crearea diagramei se regaseste in captura de ecran de mai jos:
Primul argument denumeste variabilele utilizate pentru realizarea diagramei, fiind urmat de argumentul
main care este utilizat pentru setarea numelui diagramei si argumentele col.main, font.main si cex.main
pentru setarea culorii, fontului si dimensiunii titlului.
Diagrama scatter 1
Denumirile axelor sunt setate cu ajutorul argumentelor xlab si ylab, iar culoarea, fontul si dimensiunea
cu argumentele col.lab, font.lab, cex.lab.Col reprezinta culoarea punctelor de pe grafic, pch determina
simbolul utilizat pentru aceste puncte, cex determina dimensiunea lor, iar bg reprezinta culoarea
fundalului acestor puncte. Font.axis reprezinta fontul utilizat pentru axe. Tipul de cadran desenat in
cadrul graficului este setat prin intermediul argumentului bty. Fg determina culoarea axelor.
Prima functie abline traseaza dreapta de regresie a unui model de regresie intre variabila Scor si
variabila Citit, argumentul lty determinand tipul dreptei, iar argumentul lwd, grosimea acesteia. Se
observa faptul ca drepta de regresie nu indica o relatie liniara intre cele doua variabile. A doua functie
abline traseaza dreapta pe baza mediei.
Codul utilizat pentru crearea diagramei se regaseste in captura de ecran de mai jos:
Interpretarea codului utilizat pentru crearea digramei scatter in acest caz este asemanatoare interpretarii
codului utilizat pentru crearea
diagramei scatter anterioare. De
asemenea, interpretarea functiilor
abline este acceasi. Diferentele
dintre cele doua diagrame constau
in variabilele, culorile si semnele
utilizate.
k. Realizarea unei diagrame interactive care sa includa variabilele Scor, IQ_mama, Citit si
Program.
Pentru realizarea unor diagrame interactive sau animate, sunt necesare pachete speciale, precum ggplot2,
plotly, gganimate si ggthemes. Pachetul ggplot2 ofera posibilitatea crearii graficelor. Pachetul plotly este
pachetul care permite crearea diagramelor interactive. Pachetul ggthemes prezinta teme si alte
instrumente suplimentare, care pot fi utilizate impreuna cu cele din pachetul ggplot2. In cadrul acestui
proiect, toate pachetele au fost instalate si incarcate folosind functiile install.packages() si library(). Pe
langa aceste pachete, un alt pachet denumit hrbrthemes a fost incarcat si instalat pentru a avea acces la
tema ipsum folosita in crearea diagramei.
Codul utilizat pentru crearea diagramei interactive poate fi vizualizat in captura de ecran de mai jos:
Crearea categoriilor pentru variabila Scor se realizeaza cu ajutorul functiei cut, mentionand ca
argumente varibila si punctele care vor fi capete de interval.
Interpretarea codului pentru realizarea diagramei pe categorii este similara celei pentru realizarea
diagramei anterioare. Diferentele dintre cele doua diagrame constau in tema si culorile utilizate si prin
faptul ca optiunea de umplere a punctelor utilizate este atributa categoriilor variabilei Scor. De
asemenea, tema utilizata pentru crearea acestui grafic se numeste theme_calc si se regaseste in pachetul
ggthemes.
Codul utilizat pentru crearea graficului animat in cadrul acestui proiect poate fi regasit in captura de
ecran de mai jos:
Interpretarea codului este asemanatoare interpretarii codului utilizat pentru crearea diagramei
interactive. Cu toate acestea, codul prezinta anumite elemente care il fac sa se diferentieze de codurile
utilizate anterior. Tema utilizata pentru acest grafic este tema theme_bw. De asemenea, pot fi observate
trei elemente noi care construiesc animatia graficului: labs, care seteaza atat titlul graficului, cat si titlul
axelor, transition_time care determina elementul in functie de care sa se faca tranzitia si ease_aes, care
determina modul in care o valoare se schimba catre o alta valoare, in timpul tranzitiei. In mod predefinit,
aceasta modificare se realizeaza liniar. Elementul shadow_mark permite afisarea datelor care au fost
afisate inainte de cele din cadrul curent.