Sunteți pe pagina 1din 22

Universitatea din București

Facultatea de Administrație și Afaceri


Specializarea Cibernetică Economică
Semestrul II, Anul II

PROIECT ECONOMETRIE

“Abilități analitice ale copiilor dotați intelectual”

Student: Profesor coordonator:


Drăghici Mihaela-Cristiana Lect.Univ.Dr. Nicolae-Marius Jula
Grupa 202
Curprins
I.Introducere

1.Fundamentare teoretică

Econometria consta in aplicarea statisticii in analiza datelor economice, in scopul adoptarii deciziilor
economice potrivite. Econometria permite analiza seturilor de date de interes, testarea ipotezelor si a
realizarii de prognoze, acestea fiind etape necesare pentru determinarea celor mai bune decizii
economice.

Realizarea unei analize de regresie presupune explorarea si masurarea relatiilor care exista intre o
varibila dependenta, care poate fi denumita si variabila explicata, si una sau mai multe variabile
independente, care se pot numi si variabile explicative, implicand construirea unui model de regresie,
unifactorial sau multifactorial, in functie de numarul de variabile independente existente. Rezultatul
analizei de regresie este o ecuatie de regresie care trebuie sa exprime o forma cat mai conforma a relatiei
dintre variabilele care se regasesc in modelul de regresie construit. Ecuatia de regresie este, de cele mai
multe ori, estimata prin Metoda celor mai mici patrate.

2.Prezentarea temei și ipotezele de lucru

Alegerea temei “Abilități analitice ale copiilor dotați intelectual” este justificata prin faptul ca
supradotarea intelectuala reprezinta o manifestare umana deosebita, care trebuie identificata si valorizata
cat mai devreme in viata unui copil, pentru ca acesta sa aiba sansa de a fi integrat in medii potrivite si de
a primi servicii educative superioare, pentru a-si atinge adevaratul potential. Din aceste motive, este
necesara determinarea anumitor factori care pot indica sau influenta aceste capacitati exceptionale.

In cadrul acestui proiect, va fi analizata relatia dintre scorul obtinut de copiii dotati intelectual la un test
pentru abilitati analitice si o serie de variabile care pot explica variatia scorului, precum numarul de ore
pe care un copil le petrece urmarind un program educational la televizor sau varsta la care un copil a
vorbit pentru prima data. Scopul acestei analize este determinarea factorilor care influenteaza
semnificativ scorul obtinut de copii si in ce masura contribuie fiecare factor la variatia scorului.

Initial, va fi acceptata ipoteza conform careia scorul obtinut depinde linear de toate variabilele
independente existente in setul de date, astfel, se va construi un model de regresie linear, multifactorial.
In urma analizelor efectuate, se va determina daca ipoteza este valida sau nu si se va alege cel mai
adecvat model de regresie.
II.Modelul utilizat și software-ul ales

1.Software utilizat

Pentru realizarea analizei de regresie, construirea si alegerea celui mai bun model de regresie, testarea
ipotezelor si realizarea unei prognoze se va utiliza, in cadrul acestui proiect, software-ul statistic
RStudio, care implementeaza limbajul R. RStudio este un software open-source, distribuit sub licenta
GNU, fiind disponibil in mod gratuit.

Acesta prezinta functionalitati, precum faptul ca accepta seturi mari de date, are o sintaxa simpla si
intuitiva, usor de implementat, posibilitati de realizare a numeroase tipuri de grafice, precum grafice
animate, interactive, de tip boxplot, piechart, barplot. De asemenea, citeste diferite tipuri de date,
precum date cu extensia „csv” sau „xlsx”. In RStudio, rezultatele pot fi afișate pe ecran, memorate într-
un obiect sau scrise pe disc, putand fi accesibile local sau în rețea.

Limbajul R este flexibil si reproductibil, caracteristica importanta in detectarea erorilor, si este un limbaj
orientat pe obiect.

Pentru prelucrări statistice se utilizează funcții predefinite, care se regasesc in anumite pachete de
funcții. RStudio contine functii pentru nenumarate analize statistice fundamentale, precum analize
clasice, modele lineare, metoda celor mai mici patrate, distributii, analiza seriilor de timp, analiza
seturilor de date care contin variabile categoriale. Toate aceste functii se regasesc in pachete standard,
care sunt instalate si incarcate initial in R. Pentru analize complexe, teme si functii suplimentare este
necesara instalarea si activarea unor pachete corespunzatoare.

2.Descrierea datelor

Setul de date utilizat in realizarea analizei este regasit sub denumirea „gifted.csv” si este alcatuit din 36
de observatii, fiecare observatie reprezentand un copil, si 8 variabile, o variabila dependenta si 7
variabile independente. Variabila dependenta „score” reprezinta scorul obtinut de copii la un test de
abilitati analitice, desfasurat utilizand o procedura standard. Variabila independenta „fatheriq” reprezinta
coeficientul de inteligenta al tatalui copilului. Variabila independenta „motheriq” reprezinta coeficientul
de inteligenta al mamei copilului. Variabila independenta „speak” reprezinta varsta, in luni, la care
copilul a vorbit pentru prima data. Variabila independenta „count” reprezinta varsta, in luni, la care
copilul a numarat, cu succes, pana la 10. Variabila independenta „read” reprezinta media numarului de
ore, pe saptamana, pe care parintii copilului il petrec citindu-i acestuia. Variabila independenta „edutv”
reprezinta media numarului de ore, pe saptamana, pe care copilul le-a petrecut urmarind un program
educational la televizor, in ultimele 3 luni. Variabila independenta „cartoons” reprezinta media
numarului de ore, pe saptamana, pe care copilul le-a petrecut urmarind desene animate la televizor, in
ultimele 3 luni.
III.Etape în efectuarea analizei de regresie

1.Importul setului de date


Pentru importul setului de date în Rstudio am folosit wizard-ul de importare, apăsând pe opțiunea
„Import dataset”, iar apoi selectând opțiunea “From Text(readr)…”. În fereastra deschisă, am folosit
opțiunea „Browse” pentru a localiza și selecta setul de date, urmată de opțiunea “Import” pentru a
importa datele.
Cel de-al doilea pas efectuat este vizualizarea setului de date atat in consola, cu ajutorul functiei
show(numele setului de date), cat si intr-o alta fereastra, cu ajutorul functiei view(numele setului de
date), inclusa in pachetul „tibble”. Pentru instalarea unui anumit pachet, se va folosi functia
install.packages(„numele pachetului”), iar incarcarea acestuia in RStudio se va realiza cu ajutorul
functiei library(„numele pachetului”).

Functia show()

Functia view()
Pentru intelegerea setului de date, se va apela functia str(numele setului de date), pentru vizualizarea
structurii setului de date. Functia names(numele setului de date) returneaza numele variabilelor din setul
de date.

Functia str()

Functia names()

S-a efectuat redenumirea variabilelor setului de date, pentru o mai buna intelegere si eficienta, cu
ajutorul functiei colnames(numele setului de date)[numarul coloanei], apoi functia „names()” a fost
reapelata pentru vizualizarea modificarilor.

Redenumirea variabilelor
Pentru accesarea mai facila a elementelor setului de date, fara necesitatea mentionarii sursei datelor, se
va folosi functia attach(numele setului de date).

2.Estimarea modelului

Realizarea unui model de regresie liniara este posibila cu ajutorul functiei


„lm(formula=Variabila_dependenta~Variabilele independente separate prin virgula, data=numele
setului de date).
Functia summary(numele modelului de regresie) genereaza un sumar al modelului de regresie obtinut,
afisand coeficientii de regresie, coeficientul de determinare, coeficientul de determinare ajustat, abaterea
standard, valoarea t, valoarea p pentru fiecare coeficient pentru testul t-Student si valoarea p pentru
testul statistic F.

Primul model de regresie liniara multipla realizat este cel care contine toate variabilele independente.

Primul model de regresie

Interpretarea rezultatelor pentru primul model de regresie realizat


Coeficientul de determinare a acestui model de regresie este 0.7496, ceea ce inseamna ca acest model
explica aproximativ 75% din variatia scorului si coeficientul de determinare ajustat este egal cu 0.687.
Se observa faptul ca variabila IQ_mama are un coeficient de regresie semnificativ diferit de 0,
variabilele IQ_tata si Program sunt, de asemenea, semnificative la un nivel de semnificatie de 10% si
coeficientul de regresie aferent termenului liber este semnificativ diferit de 0. Coeficientii de regresie
aferenti variabilelor Vorbit, Numarat, Citit si Desene nu sunt semnificativi diferiti de 0, p-value pentru
variabila Numarat fiind cea mai mare, aceasta nefiind semnificativa pentru model. Asadar, se va construi
un alt model de regresie, care va contine toate variabilele independente, mai putin variabila pentru care
p-value este cea mai mare, variabila Numarat.

Cel de-al doilea model de regresie liniara multipla realizat este cel care contine variabilele IQ_tata,
IQ_mama, Vorbit, Citit, Desene si Program.
Al doilea model de regresie

Interpretarea rezultatelor pentru al doilea model de regresie realizat

Coeficientul de determinare a acestui model de regresie este 0.7442, ceea ce inseamna ca acest model
explica aproximativ 74.4% din variatia scorului si coeficientul de determinare ajustat este 0.6913.
Se observa faptul ca variabilele IQ_mama si Citit au coeficienti de regresie semnificativ diferiti de 0,
variabilele IQ_tata si Desene sunt, de asemenea, semnificative la un nivel de semnificatie de 10% si
coeficientul de regresie aferent termenului liber este semnificativ diferit de 0. Variabila Program
prezinta, de asemenea, un coeficient de regresie semnificativ diferit de 0. Coeficientul de regresie
aferent variabilei Vorbit nu este semnificativ de 0, nefiind semnificativa pentru model.

Intrucat nu toate variabilele independente au coeficienti de regresie semnificativ diferiti de 0, se va


proceda la realizarea unui model de regresie care sa contina variabilele semnficative pentru model.
Astfel, se va construi un model de regresie care sa contina variabilele independente IQ_mama, IQ_tata,
Citit, Desene, Program.

Al treilea model de regresie


Interpretarea rezultatelor pentru al treilea model de regresie realizat

Coeficientul de determinare a acestui model de regresie este 0.7338, ceea ce inseamna ca acest model
explica aproximativ 73.3% din variatia scorului si coeficientul de determinare ajustat este 0.6894.
Variabilele IQ_mama si Citit au coeficienti de regresie semnificativ diferiti de 0, variabilele IQ_tata si
Desene sunt, de asemenea, semnificative la un nivel de semnificatie de 10% si coeficientul de regresie
aferent termenului liber este semnificativ diferit de 0. Variabila Program prezinta, de asemenea, un
coeficient de regresie semnificativ diferit de 0. Astfel, se observa faptul ca toti coeficientii de regresie
sunt semnificativ diferiti de 0.

3.Alegerea modelului de regresie adecvat

Pentru compararea unor modele de regresie cu numar diferit de variabile independente, se va utiliza
coeficientul de determinare ajustat. Modelul pentru care coeficientul de determinare ajustat este mai
mare, este mai bun, deoarece acesta explica mai mult din variatia variabilei dependente. Intrucat
modelul 2 are coeficientul de determinare ajustat mai mare, se vor folosi criteriile de specificare Akaike
si Schwartz pentru identificarea celui mai bun model de regresie liniara, modelul cu indicele AIC sau
BIC cel mai mic fiind cel mai bun.

Criteriile Akaike si Schwartz

Conform indicelui AIC, se observa ca modelul 3 este cel mai bun model de regresie. Conform indicelui
BIC, se observa ca modelul 3 este cel mai bun model de regresie.

Pentru identificarea automata a celui mai bun model de regresie liniara, pornind de la modelul care
contine toate variabilele independente, se poate folosi functia step(numele modelului). In urma aplicarii
functiei „step()” pe modelul 1, se determina faptul ca modelul 3 este cel mai bun model de regresie.

Conform analizei efectuate, cu ajutorul coeficientului de determinare ajustat, al criteriilor Akaike si


Schwartz, precum si al functiei "step", se constata ca modelul de regresie liniara cel mai bun este
modelul 3(model3). Asadar, modelul de regresie asupra carora se vor aplica si analiza testele specifice
pentru testarea ipotezelor, a linearitatii, heteroscedasticitatii, normalitatii distributiei erorilor,
autocorelarii de ordinul I si multicolinearitatii este modelul 3.
IV.Diagnostic, testare si interpretare
1.Interpretarea coeficientilor de regresie

Afisarea coeficientilor de regresie se poate realiza fie prin apelarea functiei model$coefficients, fie prin
apelarea functiei summary(model) si interpretarea coloanei „Estimate”.

model$coefficients

summary(model)

Coeficientul termenului liber este 79.04678, fiind semnificativ diferit de 0, avand valoarea p a testului t-
Student 0.00231, care este mai mica decat 0.05.

Coeficientul de regresie aferent variabilei IQ_tata este 0.23736 , ceea ce inseamna ca la o crestere cu o
unitate a IQ-ului tatalui, se inregistreaza o crestere de 0.23736 a scorului obtinut la testul de abilitati
analitice, acesta avand valoarea p a testului t-Student 0.09206, fiind acceptat ca fiind diferit de 0, la un
nivel de semnificatie de 10%.

Coeficientul de regresie aferent variabilei IQ_mama este 0.41211 , ceea ce inseamna ca la o crestere cu
o unitate a IQ-ului mamei, se inregistreaza o crestere de 0.41211 a scorului obtinut la testul de abilitati
analitice, acesta avand valoarea p a testului t-Student 2.87e-06, fiind semnificativ diferit de 0.

Coeficientul de regresie aferent variabilei Citit este 11.90132 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece citind, se inregistreaza o crestere de 11.90132 a
scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-Student 6.03e-06, fiind
semnificativ diferit de 0.

Coeficientul de regresie aferent variabilei Program este -4.88814 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece urmarind un program educational, se inregistreaza o
scadere de -4.88814 a scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-
Student 0.03114, fiind diferit de 0.
Coeficientul de regresie aferent variabilei Desene este -3.82023 , ceea ce inseamna ca la o crestere cu o
unitate a numarului de ore pe care copilul le petrece urmarind desene animate, se inregistreaza o scadere
de -3.82023 a scorului obtinut la testul de abilitati analitice, acesta avand valoarea p a testului t-Student
0.06163, fiind acceptat ca fiind diferit de 0, la un nivel de semnificatie de 10%.

2.Interpretarea testului t-Student

Intrucat se accepta faptul ca toti coeficientii de regresie sunt diferiti de 0, se respinge ipoteza nula
conform careia estimatorii sunt egali cu 0 si conform careia estimatorii nu sunt semnificativi. Se accepta
ipoteza alternativa conform careia estimatorii sunt semnificativ diferiti de 0.Astfel, se accepta faptul ca
estimatorii sunt semnificativi pentru model.

3.Interpretarea testului F-statistic

Intrucat valoarea p a testului F statistic este egala cu 7.669e-08, fiind mai mica de 0.05, se accepta
ipoteza alternativa, conforma careia modelul este semnificativ, in forma generala, din punct de vedere
statistic.Exista, asadar, o relatie semnificativa intre variabile.

4.Interpretarea coeficientului de determinare

Valoarea coeficientului de determinare, Multiple R-squared, este de 0.7338, ceea ce inseamna ca


aproximativ 73.4% din variatia variabilei dependente Scor poate fi explicata de model.

5.Diagnosticele modelului de
regresie

Afisarea diagnosticelor modelului


simultan presupune apelarea functiei
par(mfrow=c(2,2)), cu scopul
modificarii parametrilor grafici, astfel
incat in zona „Plots” a ferestrei sa fie
afisate toate cele 4 grafice simultan.
Realizarea graficelor se realizeaza
prin intermediul functiei plot(numele
modelului).

Diagnosticele modelului
Afisarea graficelor diagnostic ale modelului individual, pe ipoteze presupune schimbarea parametrilor
grafici cu functia par(mfrow=c(1,1)), astfel încât sa se asigure afisarea unui singur grafic în partea
"Plots"a ferestrei RStudio. Acest pas este necesar în cazul în care parametrii grafici au fost modificati
anterior, fara a avea certitudinea ca acestia au fost modificati pe valoarea default apoi.

Apoi, se va apela functia plot(numele modelui,1) pentru afisarea


graficului „Residuals vs Fitted”, care testeaza linearitatea
modelului. Acest grafic testeaza prima ipoteza, conform careia
variabila dependenta si cele independente sunt in relatie liniara.
In cazul in care linia rosie este aproximativ orizontala in dreptul
lui 0, modelul poate fi considerat liniar. In cazul acestui model,
linia rosie nu este orizontala, ceea ce ar putea indica absenta
linearitatii modelului. Este, astfel, necesara o testare suplimentara
a linearitatii modelului, pentru a putea stabili daca aceasta este
prezenta sau nu.

Pentru crearea graficului „Scale-Location” prin intermediul


careia se testeaza heteroscedasticitatea modelului, se va
utiliza functia plot(numele modelului, 3). Acest grafic
testeaza cea de-a doua ipoteza conform careia termenul
eroare prezinta o dispersie constanta, erorile fiind
homoscedastice. In cazul in care linia rosie este orizontala,
modelul poate fi considerat ca fiind homoscedastic. In
aceasta situatie, linia rosie observata nu este orizontala, ceea
ce indica prezenta
heteroscedasticitatii.

Crearea graficului „Normal Q-Q” presupune apelarea functiei


plot(model,2). Acest grafic testeaza cea de-a patra ipoteza,
distributia normala a termenului eroare. Termenul eroare
urmeaza o distributie normala daca punctele reprezentate pe
grafic urmaresc o linie dreapta. Se poate observa ca termenii
eroare urmeaza o linie aproximativ dreapta.
Functia plot(model,5) realizeaza graficul „Residuals vs Leverage” pentru identificarea valorilor
aberante. Intrucat nu exista puncte care sa se afle prea aproape sau in afara liniilor rosii punctate, se
poate considera faptul ca modelul nu prezinta outlieri.

6.Aplicarea testelor econometrice asupra modelului

a. Testarea linearitatii modelului.

Intrucat graficul diagnostic pentru testarea linearitatii modelului a indicat faptul ca acesta nu este liniar,
este necesara aplicarea unui test econometric pentru a stabili daca acesta este liniar sau nu. Testul
econometric aplicat pentru verificare este testul Ramsey RESET, implementat in R cu ajutorul functiei
resettest(numele modelului), inclusa in pachetul „lmtest”, care trebuie sa fie, in prealabil, instalat si
incarcat. Ipoteza nula a acestui test este aceea ca modelul este liniar si corect specificat, pentru o valoare
p a testului mai mare de 0.05.

Testul Ramsey RESET pentru linearitatea modelului

Se observa faptul ca valoarea p a testului este egala cu 0.4085, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia modelul este liniar si corect specificat, si respingerea
ipotezei alternative, conform careia modelul nu este liniar, asa cum indica graficul diagnostic realizat
anterior.

b. Testarea autocorelarii de ordinul I.

Testarea autocorelarii de ordinul I se realizeaza utilizand functia dwtest(numele modelului), inclusa in


pachetul „lmtest”. Aceasta functie implementeaza testul Durbin-Watson pentru autocorelarea de ordin I,
a carei ipoteza nula este aceea ca modelul nu prezinta autocorelare de ordin I, pentru o valoare p mai
mare de 0.05.
Testul Durbin-Watson pentru autocorelarea de ordin I

Se observa faptul ca valoarea p a testului este egala cu 0.123, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia nu exista autocorelare de ordinul I, si respingerea
ipotezei alternative, conform careia autocorelarea de ordin I este prezenta.

c.Testarea heteroscedasticitatii.

Pentru testarea heteroscedasticitatii este necesara utilizarea functiei bptest(numele modelului), inclusa in
pachetul „lmtest”. Aceasta functie implementeaza testul Breusch-Pagan, a carei ipoteza nula este aceea
ca nu exista heteroscedasticitate, erorile fiind homoscedastice, pentru o valoare p a testului mai mare de
0.05.

Testul Breusch-Pagan pentru heteroscedasticitate

Se observa faptul ca valoarea p a testului este egala cu 0.7504, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform careia nu exista heteroscedasticitate, si respingerea ipotezei
alternative, conform careia heteroscedasticitatea este prezenta.

d. Testarea normalitatii distributiei erorilor.

Testul econometric aplicat pentru verificare este testul Jarque-Bera, implementat in R cu ajutorul
functiei jarque.bera.test(summary(numele modelului)$residuals), inclusa in pachetul „tseries”, care
trebuie sa fie, in prealabil, instalat si incarcat. Ipoteza nula a acestui test este aceea ca erorile sunt
normal distribuite, pentru o valoare p a testului mai mare de 0.05.

Testul Jarque-Bera pentru normalitatea distributiei erorilor


Se observa faptul ca valoarea p a testului este egala cu 0.7035, fiind mai mare de 0.05. Acest lucru
permite acceptarea ipotezei nule, conform termenii eroare sunt normal distribuiti, si respingerea ipotezei
alternative, conform careia erorile nu sunt normal distribuite.

e. Testarea multicolinearitatii.

Pentru testarea multicolinearitatii este necesara utilizarea functiei omcdiag(numele modelului), inclusa in
pachetul „mctest”, instalat si incarcat. Aceasta functie returneaza rezultatul mai multor teste pentru
multicolinearitate, cifra 1 indicand prezenta multicolinearitatii, iar cifra 0 indicand absenta acesteia.

Testarea multicolinearitatii

Cu toate ca celalalte teste indica absenta multicolinearitatii, testul Farrar Chi-patrat indica prezenta
multicolinearitatii, prin prezenta valorii 1 in urma efectuarii testului. Asadar, se va considera ca este
prezenta multicolinearitatea.

f.Afisarea matricei de corelatie.

Afisarea matricei de corelatie pentru intreg setul de date, pentru identificarea variabilelor care se afla in
relatie liniara cu alte variabile, se realizeaza cu ajutorul functiei cor(numele setului de date).

Matricea de corelatie

Conform matricei de corelatie, exista o corelatie puternic pozitiva intre variabilele Numarat si Citit, cu
un coeficient de corelatie egal cu 0.91025191, si o corelatie puternic negativa intre varibilele Program si
Desene, cu un coeficient de corelatie egal cu -0.9234370.
g. Realizarea unei predictii.

Realizarea unei predictii pentru valorile variabilei Scor este posibila cu ajutorul functiei predict(numele
modelului).

Realizarea unei predictii

h. Realizarea histogramei.

Realizarea histogramei de frecvente pentru valorile variabilei dependente Scor este posibila folosind
functia hist(numele modelului si o serie de parametrii grafici). Codul utilizat pentru crearea histogramei
se regaseste in captura de ecran de mai jos:

Crearea unei histograme


Argumentul Scor reprezinta numele variabilei pentru care se doreste sa se realizeze histograma.
Argumentul freq=TRUE indica faptul ca valorile reprezentate vor fi sub forma de frecvente. Argumentul
breaks indica numarul de intervale care vor fi reprezentate, iar argumentul right=TRUE semnifica faptul
ca intervalele sunt inchise la dreapta si deschise la stanga. Titlul histogramei este setat cu ajutorul
argumentului main, iar fontul si culoarea sunt setate prin intermediul argumentelor font.main si
col.main.

Xlab si ylab seteaza denumirile axelor, iar cex.axis, font.axis si col.axis seteaza dimensiunile, fontul si
culorile denumirilor axelor. Cex.lab, col.lab, font.lab determina dimensiunile, culorile si fontul
etichetelor. Argumentul col determina culorile care vor fi folosite in crearea histogramei, prin
intermediul hcl.colors(), care creeaza un vector de 10 culori, preluate din paleta Viridis, afisate in ordine
inversa.

Pentru afisarea tuturor culorilor care pot fi utilizate pentru personalizarea graficelor, se poate utiliza
functia grDevices::colors().

i.Realizarea diagramei scatter între variabila dependenta Scor si variabila independenta Citit.

Diagrama scatter intre doua variabile se realizeaza cu ajutorul functiei plot().Codul utilizat pentru
crearea diagramei se regaseste in captura de ecran de mai jos:

Primul argument denumeste variabilele utilizate pentru realizarea diagramei, fiind urmat de argumentul
main care este utilizat pentru setarea numelui diagramei si argumentele col.main, font.main si cex.main
pentru setarea culorii, fontului si dimensiunii titlului.

Diagrama scatter 1
Denumirile axelor sunt setate cu ajutorul argumentelor xlab si ylab, iar culoarea, fontul si dimensiunea
cu argumentele col.lab, font.lab, cex.lab.Col reprezinta culoarea punctelor de pe grafic, pch determina
simbolul utilizat pentru aceste puncte, cex determina dimensiunea lor, iar bg reprezinta culoarea
fundalului acestor puncte. Font.axis reprezinta fontul utilizat pentru axe. Tipul de cadran desenat in
cadrul graficului este setat prin intermediul argumentului bty. Fg determina culoarea axelor.

Prima functie abline traseaza dreapta de regresie a unui model de regresie intre variabila Scor si
variabila Citit, argumentul lty determinand tipul dreptei, iar argumentul lwd, grosimea acesteia. Se
observa faptul ca drepta de regresie nu indica o relatie liniara intre cele doua variabile. A doua functie
abline traseaza dreapta pe baza mediei.

j.Realizarea diagramei scatter între variabila dependenta Scor si variabila independenta


IQ_mama.

Codul utilizat pentru crearea diagramei se regaseste in captura de ecran de mai jos:

Interpretarea codului utilizat pentru crearea digramei scatter in acest caz este asemanatoare interpretarii
codului utilizat pentru crearea
diagramei scatter anterioare. De
asemenea, interpretarea functiilor
abline este acceasi. Diferentele
dintre cele doua diagrame constau
in variabilele, culorile si semnele
utilizate.

Din diagrama scatter, se observa,


in acest caz, faptul ca variabila
Diagrama scatter 2
independenta explica mai bine
variabila dependenta si ca relatia dintre acestea este liniara, comparata cu relatia din cazul precedent.

k. Realizarea unei diagrame interactive care sa includa variabilele Scor, IQ_mama, Citit si
Program.

Pentru realizarea unor diagrame interactive sau animate, sunt necesare pachete speciale, precum ggplot2,
plotly, gganimate si ggthemes. Pachetul ggplot2 ofera posibilitatea crearii graficelor. Pachetul plotly este
pachetul care permite crearea diagramelor interactive. Pachetul ggthemes prezinta teme si alte
instrumente suplimentare, care pot fi utilizate impreuna cu cele din pachetul ggplot2. In cadrul acestui
proiect, toate pachetele au fost instalate si incarcate folosind functiile install.packages() si library(). Pe
langa aceste pachete, un alt pachet denumit hrbrthemes a fost incarcat si instalat pentru a avea acces la
tema ipsum folosita in crearea diagramei.

Pentru cresterea eficacitatii si imbunatatirea aspectului diagramei, a fost necesara transformarea


variabilei cantitative Scor in factor, cu ajutorul functiei factor.

Codul utilizat pentru crearea diagramei interactive poate fi vizualizat in captura de ecran de mai jos:

ggplot este functia utilizata pentru crearea


graficului. Aceasta functie primeste ca
argumente numele setului de date si o serie de
variabile, pe axa x fiind variabila IQ_mama, pe
axa y variabila Citit, dimensiunea punctelor de
pe grafic fiind in functie de variabila Program,
iar culoarea acestora de variabila Scor,
transformata in factor. ggtitle seteaza titlul
diagramei. geom_point determina o serie de
caracteristici ale punctelor de pe grafic precum
culoarea care va completa punctele, transparenta
acestora, forma si dimensiunea. theme_ipsum
reprezinta tema utilizata, avand modificati o
serie de parametrii, precum dimensiunea, fontul
si familia fontului titlului axelor, familia fontului
titlului diagramei, xlab determina numele axei
x, iar ylab numele axei y. theme modifica, de
asemenea, o serie de parametrii, precum
culoarea titlului axelor si culoarea fundalului
diagramei.

Prin apelarea functiei ggplotly, diagrama este


afisata.
Diagrama interactiva
l. Realizarea unei diagrame interactive care sa includa variabilele Scor, IQ_mama, Citit si
Program, care sa includa si cateogoriile variabilei Scor.

Crearea categoriilor pentru variabila Scor se realizeaza cu ajutorul functiei cut, mentionand ca
argumente varibila si punctele care vor fi capete de interval.
Interpretarea codului pentru realizarea diagramei pe categorii este similara celei pentru realizarea
diagramei anterioare. Diferentele dintre cele doua diagrame constau in tema si culorile utilizate si prin
faptul ca optiunea de umplere a punctelor utilizate este atributa categoriilor variabilei Scor. De
asemenea, tema utilizata pentru crearea acestui grafic se numeste theme_calc si se regaseste in pachetul
ggthemes.

m.Realizarea unui grafic animat.


Diagrama interactive pe categorii
Realizarea unui grafic animat presupune utilizarea unor elemente speciale, care se regasesc in pachetul
gganimate.

Codul utilizat pentru crearea graficului animat in cadrul acestui proiect poate fi regasit in captura de
ecran de mai jos:
Interpretarea codului este asemanatoare interpretarii codului utilizat pentru crearea diagramei
interactive. Cu toate acestea, codul prezinta anumite elemente care il fac sa se diferentieze de codurile
utilizate anterior. Tema utilizata pentru acest grafic este tema theme_bw. De asemenea, pot fi observate
trei elemente noi care construiesc animatia graficului: labs, care seteaza atat titlul graficului, cat si titlul
axelor, transition_time care determina elementul in functie de care sa se faca tranzitia si ease_aes, care
determina modul in care o valoare se schimba catre o alta valoare, in timpul tranzitiei. In mod predefinit,
aceasta modificare se realizeaza liniar. Elementul shadow_mark permite afisarea datelor care au fost
afisate inainte de cele din cadrul curent.

Salvarea graficului se realizeaza cu functia anim_save(„Numele dat graficului.gif”).

V.Interpretarea rezultatelor și concluzii

S-ar putea să vă placă și