Documente Academic
Documente Profesional
Documente Cultură
y <- c(50,70,60,75,80,90,75,100,110,90)
summary(x)
sum(x)
mean(x)
var(x) #Dispersie
summary(y)
sum(y)
mean(y)
var(y) #Dispersie
cv <- sd(y)/mean(y)
cov(x,y) #Covarianta
View(saci_de_dormit)
str(saci_de_dormit)
#Modelul de regresie
mymodel
summary(mymodel)
#y=359.267-5.277x
#y=359.267+(-5.277x)
#2.COEFICIENTUL DE DETERMINARE
SPR=SPT-SPE
SPR
SPR/SPT
summary(mymodel)
mymodel$coefficients
#3.SEMNIFICATIA STATISTICA
#INTR-O REGRESIE SIMPLA TESTUL F(p-value,trebuie sa fie sub 0.05, atunci modelul este bun) SI TESTUL
t AU ACELASI REZULTAT, ATUNCI MODELUL ESTE BUN.
#DACA TESTUL F si TESTUL t SUNT SUB 0,05 SI DACA VALOAREA LUI R^2 ESTE MICA, ATUNCI MODELUL
ESTE BUN DPDV ECONOMETRIC, DAR POATE EXPLICA DOAR O MICA PARTE DIN VARIATIE.
#CHIAR DACA MODELUL ESTE BUN DPDV ECONOMETRIC, NU POATE FI FOLOSIT PENTRU CA EXPLICA
FOARTE PUTIN DIN VARIATIE
# model1_E DE REGRESIE LINIARA MULTIPLA (CU MAI MULTE VARIABILE (INDEPENDENTE))
# EXEMPLUL 1:
# Variabilele:
# X5 = % populatiei cu varsta cuprinsa intre 16 si 19 care nu sunt inscrisi la liceu si nici nu l-au finalizat
library(readxl)
str(mlr06)
# numele variabilelor
names(mlr06)
# redenumim variabilele
colnames(mlr06)[1] = "Infractionalitate"
colnames(mlr06)[2] = "Infractionalitate_cu_violenta"
colnames(mlr06)[3] = "Finantare_politie"
colnames(mlr06)[4] = "Populatie_peste_25ani"
colnames(mlr06)[5] = "Populatie_16_19ani"
colnames(mlr06)[6] = "Populatie_18_24ani"
colnames(mlr06)[7] = "Populatie_peste_24ani"
Populatie_16_19ani + Populatie_18_24ani +
summary(model1_1) #p-value(tstul f) e sub 0,05, modelul e statistic semnificativ, aprox 61.32% din
variatie poate fi explciata de model
summary(model1_2)
#r patrat ajustat, atunci cand am modele cu nr diferit de variabile explicative, nu mai compar r patrat,
compar r patrat ajustat, modelul 1 are 6 variabile,multe care nu sunt semnificative, modelul 2 are 4
variabile
# eliminam variabile din model1_
summary(model1_3)
summary(model1_4)
#Conform r patrat ajustat, modelul este mai slab explicativ decat modelul 3
#TESTE DE SPECIFICARE
#AIC SI BIC
AIC(model1_1)
AIC(model1_2)
AIC(model1_1,model1_2,model1_3,model1_4)
#DIAGNOSTICUL model1_ului
##DIAGNOSTICE
#Ce este necesar sa fie indeplinit pentru ca regresia liniara sa fie bine aplicata?
#* IPOTEZA 1: Variabila dependenta este in relatie liniara cu variabila independenta si modelul este
corect specificat.
#* IPOTEZA 3: Termenii eroare nu sunt corelati unii cu altii. Altfel spus, nu exista autocorelare seriala.
plot(model1_4)
par(mfrow=c(1,1))
plot(model1_4,1) #Cu cat linia cu rosu este mai apropriata de o dreapta, cu atat am incredere ca
modelul este linear
plot(model1_4,3)
plot(model1_4,2)
plot(model1_4,5)
BIC(model1_1)
BIC(model1_2)
BIC(model1_3)
BIC(model1_4)
#DIAGNOSTICE
#DEPENDENTA-INDEPENDENTA suunt in relatie liniara
plot(model2_1, 1)
plot(model2_1, 3)
plot(model2_1,2)
plot(model2_1,5)
#Formula pentru prag sub care trebuie sa gasim punctele 2*(p+1)/n, unde p =nr variabilelor in setul de
date, n=nr de observatii din setul de date
2*(6+1/27)
#DIAGNOSTICE IMPREUNA
par(mfrow=c(2,2))
plot(model2_1)
par(mfrow=c(1,1))
mlr05<- mlr05[-c(5),]
step(model2_1)
dwtest(model2_1)
bptest(model2_1)
# EXEMPLUL 1:
# Variabilele:
# X5 = % populatiei cu varsta cuprinsa intre 16 si 19 care nu sunt inscrisi la liceu si nici nu l-au finalizat
library(readxl)
str(mlr06)
# numele variabilelor
names(mlr06)
# redenumim variabilele
colnames(mlr06)[1] = "Infractionalitate"
colnames(mlr06)[2] = "Infractionalitate_cu_violenta"
colnames(mlr06)[3] = "Finantare_politie"
colnames(mlr06)[4] = "Populatie_peste_25ani"
colnames(mlr06)[5] = "Populatie_16_19ani"
colnames(mlr06)[6] = "Populatie_18_24ani"
colnames(mlr06)[7] = "Populatie_peste_24ani"
Populatie_16_19ani + Populatie_18_24ani +
summary(model1_2)
#r patrat ajustat, atunci cand am modele cu nr diferit de variabile explicative, nu mai compar r patrat,
compar r patrat ajustat, modelul 1 are 6 variabile,multe care nu sunt semnificative, modelul 2 are 4
variabile
summary(model1_3)
summary(model1_4)
#Conform r patrat ajustat, modelul este mai slab explicativ decat modelul 3
#TESTE DE SPECIFICARE
#AIC SI BIC
AIC(model1_1)
AIC(model1_2)
AIC(model1_1,model1_2,model1_3,model1_4)
summary(model)
dwtest(model) #p-value mai mare de 0.05, erorile nu au autocorelare, eroarea din momentul t nu
depinde de eroarea din momentul anterior.
bptest(model) #Ipoteza nula este ca dispersia erorilor este egala.Imprastierea erorilor este oarecum
constanta cu o probabilitate de 44.4%, nu se poate respinge ipoteza nula.
#DIAGNOSTICUL model1_ului
##DIAGNOSTICE
#Ce este necesar sa fie indeplinit pentru ca regresia liniara sa fie bine aplicata?
#* IPOTEZA 1: Variabila dependenta este in relatie liniara cu variabila independenta si modelul este
corect specificat.
#* IPOTEZA 3: Termenii eroare nu sunt corelati unii cu altii. Altfel spus, nu exista autocorelare seriala.
#Testul Durbin-Watson
#* IPOTEZA 4: Termenul eroare este normal distribuit.
plot(model1_4)
par(mfrow=c(1,1))
plot(model1_4,1) #Cu cat linia cu rosu este mai apropriata de o dreapta, cu atat am incredere ca
modelul este linear
plot(model1_4,5)
BIC(model1_1)
BIC(model1_2)
BIC(model1_3)
BIC(model1_4)
library(tseries)
summary(model1_1)
#Identific reziduurile(diferenta dintre valori inregistrate si cele calculate prin model) din ecuatia de
regresie
names(summary(model1_1))
rez
jarque.bera.test(rez)
#Interpretarea testului jb: Ipoteza nula: erorile sunt distribuite normal. p value< 0.05 deci erorile nu sunt
distribuite normal, adica nu acceptam ipoteza nula si acceptam ipoteza alternativa.
#Valoarea chi patrat pentru 2 grade de libertate si 0.05 prag de semnificatie este qchisq(0.95,2)
rez1
jarque.bera.test(rez1)
rez2
jarque.bera.test(rez2)
rez3
#Testez normalitatea distributiei erorilor
jarque.bera.test(rez3)
jarque.bera.test(summary(model1_2)$residuals)
jarque.bera.test(summary(model1_3)$residuals)
jarque.bera.test(summary(model1_4)$residuals)
#Pachetul mctest
omcdiag(model1_1) #Modelul prezinta multicolinearitate, dar nu este perfecta pentru ca det este diferit
de 0.
cor(mlr06) #Matricea de corelatie si pot sa vad care variabile sunt in relatie liniara cu celalalte.
#Ma uit care variabile au valori peste 0.7(pot indica o corelatie), exemplu Populatie_peste_25ani cu
Populatie_peste_24ani 0.68107226.
#Cu cat este mai mare, cu atat corelarea este mai mare.
omcdiag(model1_3)