Documente Academic
Documente Profesional
Documente Cultură
Daniela Viorică
Studenți: Bulgaru Andreea Georgiana
Filimon (Pașcău) Cristina Ioana
Voicu Magdalena
1
Cuprins
Diamonds........................................................................................................................................................2
1. Introducere..................................................................................................................................................2
Importanța temei.........................................................................................................................................2
Obiectivele studiului...................................................................................................................................3
2. Prezentarea bazei de date............................................................................................................................3
3. Analiza grafică și numerică a variabilelor analizate...................................................................................9
3.1. Analiza descriptivă a variabilelor numerice și nenumerice (tabele de frecvență).............................10
3.2. Analiza grafica a variabilelor numerice si nenumerice......................................................................14
4. Analiza statistica a variabilelor categoriale..............................................................................................21
4.1. Tabelarea datelor................................................................................................................................21
4.2. Analiza de asociere............................................................................................................................21
4.3. Analiza de concordanță......................................................................................................................22
5. Analiza de regresie si corelatie.................................................................................................................23
5.1. Analiza de corelatie............................................................................................................................23
5.2. Analiza de regresie.............................................................................................................................25
5.2.2. Regresia neliniara (model parabolic, logaritmic)...........................................................................27
5.2.3. Compararea a doua modele de regresie si alegerea celui mai bun model......................................28
6. Estimarea si testarea mediilor..................................................................................................................29
6.1. Estimarea mediei prin interval de incredere......................................................................................29
6.2. Testarea mediilor populației...............................................................................................................30
7. Concluzii...................................................................................................................................................33
Diamonds
1. Introducere
Importanța temei
Prin intermediul acestui studiu vom dori să aflăm dacă există legături între carate, culoare,
adancime, claritate, pret per carat, pe de alta parte am dori să evidențiem care tip de diamant predomină.
Pentru a putea cerceta ne va trebui o bază de date utilizând limbajul de programare R Studio.
Obiectivele studiului
*Sursa: R Studio
Operațiile preliminare constau în realizarea unei selecții pentru cele două variabile numerice
“Carat” și “PricePerCt”, astfel încât noua bază obținută să conțină valori mai mari decât 0,3 pentru
variabila “Carat” și valori mai mari decât media asociate variabilei “PricePerCt”.
#Cod utilizat
color_pret<-subset(Diamonds, Carat>0.3 & PricePerCt>6243)
În urma acestei selecții a rezultat o nouă bază de date, color_pret, conținând doar 139 de
observații din cele 351 din baza de date inițială.
*Sursa: R Studio
#Cod utilizat
write.csv(color_pret,"D:/Cristina/Datamining/R/Diamonds.csv")
În baza inițială, variabila “Color” avea categoriile denumite cu litere de la D la J. Pentru o mai
bună vizualizare asupra cercetării am decis redenumirea categoriilor celor două variabile nenumerice,
astfel:
#Cod utilizat
color_pret$Color<-as.factor(color_pret$Color)
levels(color_pret$Color)
levels(color_pret$Color)<-c("Cel mai ridicat grad de culoare", "Aproape incolor+","Aproape
incolor +","Aproape incolor","Alb","Incolor cu usoare tente de culoare","Incolor cu usoare tente
de culoare")
#Cod utilizat
color_pret$Clarity<-as.factor(color_pret$Clarity) #eticheta
levels(color_pret$Clarity)
levels(color_pret$Clarity)<-c("Fara incluziuni", "Incluziuni vizibile cu lupa","Incluziuni vizibile cu
lupa","Incluziuni vizibile cu lupa","Incuziuni invizibile","Incuziuni invizibile","Incluziuni foarte
greu de observat","Incluziuni foarte greu de observat")
*Sursa: R Studio
summary(color_pret)
color_pret<-write.table(color_pret,"color_pret.txt",sep="\t",row.names=TRUE,quote=FALSE)
View(color_pret)
În continuare vom descrie noua baza de date cu ajutorul funcțiilor specifice programului R Studio.
#Cod utilizat
dim(color_pret)
*Sursa:R Studio
#Cod utilizat
names(color_pret)
În urma aplicării funcției “names”, am obținut lista numelor variabilelor din setul de date.
#Cod utilizat
class(color_pret$Carat)
class(color_pret$Color)
class(color_pret$Clarity)
class(color_pret$Depth)
class(color_pret$PricePerCt)
class(color_pret$TotalPrice)
*Sursa:R Studio
Utilizând funcția class putem observa că baza de date conține 6 variabile dintre care 4 sunt
numerice (“Carat”, “Depth”, “PricePerCt”, “TotalPrice”, respectiv 2 categoriale (“Color” și “Clarity”).
În continuarea analizei, variabila “TotalPrice” va fi exclusă.
#Cod utilizat
str(color_pret)
*Sursa:R Studio
#Cod utilizat
levels(color_pret$Color)
levels(color_pret$Clarity)
*Sursa:R Studio
3. Analiza grafică și numerică a variabilelor analizate
Analiza descriptivă are rolul de a scoate în evidență asemănarile/deosebirile dintre variabilele
analizate, a vedea diferențele dintre județe pe baza variabilelor analizate. Pe baza graficului de tip Box-
plot se pot observa punctele extreme din baza de date sau punctele care au valori mult mai mari decât
media.Măsurătorile tendinței centrale includ media, mediana și modul, în timp ce măsurile de variabilitate
includ abaterea standar, variabilele minime/maxime, skewness și kurtosis.
#Cod utilizat
summary(color_pret$Carat)
summary(color_pret$Depth)
summary(color_pret$PricePerCt)
*Sursa:R Studio
#Variabila “Carat”
Interpretări:
Media= 1.428 carate.
Valoarea medie a variabilei Carat este egala cu 1.428 carate.
Mediana= 1.260 carate.
50% dintre diamante au valoarea caratului de până la 1.260 carate, iar restul de 50% au peste 1.260 carate.
Quartila 1 = 1.130 carate.
25 % din diamante au valoarea caratului până la 1.130 carate și 75 % au mai mult de 1.130 carate.
Quartila 3 = 1.565 carate.
75 % din diamante au valoarea caratului până la 1.565 carate și 25% au mai mult de 1.565 carate.
#Variabila “Depth”
Interpretări:
Media= 65.23 mm.
Valoarea medie a variabilei Depth este egala cu 65.23 mm.
Mediana= 62.00 mm.
50% dintre diamante au adâncimea de până la 62.00 mm, iar restul de 50% au peste 62.00 mm.
Quartila 1 =61.10 mm.
25 % din diamante au adâncimea până la 61.10 mm și 75 % au mai mult de 61.10 mm.
Quartila 3 = 71.45 mm.
75 % din diamante au adâncimea până la 71.45 mm și 25% au mai mult de 71.45 mm.
#Variabila “PricePerCt”
Interpretări:
Media= 9083 $.
Valoarea medie a variabilei PricePerCt este egala cu 9083 $.
Mediana= 8424 $.
50% dintre diamante au prețul de până la 8424 $, iar restul de 50% au peste 8424 $.
Quartila 1 =7316 $.
25 % din diamante au prețul până la 7316 $ și 75 % au mai mult de 7316 $.
Quartila 3 =9963 $.
75 % din diamante au prețul până la 9963 $ și 25% au mai mult de 9963 $.
#Cod utilizat
tapply(color_pret$PricePerCt,color_pret$Color, mean)
*Sursa: R Studio
În medie, pentru diamantele a căror culoare se încadrează în categoria “Aproape incolor+” prețul
acestora este de 8568,669$. La polul opus se află categoria “Incolor cu ușoare tente de culoare” cu prețul
de 7340,867$.
#Cod utilizat
tapply(color_pret$PricePerCt,color_pret$Clarity, mean)
Figura 11: Analiza descriptivă pe grupuri
*Sursa: R Studio
În medie, pentru diamantele a căror claritate se încadrează în categoria “Incluziuni foarte greu de
observat” prețul acestora fiind de 8536.562$. La polul opus se află categoria “Fara incluziuni” cu prețul de
7608.167$.
#Cod utilizat
table(color_pret$Color)
table(color_pret$Clarity)
*Sursa: R Studio
După cum putem observa din figura 10, variabila Color are cele mai multe observații în categoria
Aproape incolor, iar cele mai puține observații se regăsesc în categoria Incolor cu ușoare tente de
culoare.
Cea dea doua variabilă nenumerică, prezintă categoria Incluziuni vizibile cu lupa cu cel mai mare
număr de observații (69), fiind urmată în de aproape de categoria Incluziuni invizibile cu un număr de 52
de observații, iar categoria cu cel mai mic număr de observații este Fără incluziuni (7 observații).
3.2.1 Histograma
#Cod utilizat
hist(color_pret$Carat,breaks = 20)
hist(color_pret$Depth, breaks = 20)
hist(color_pret$PricePerCt, breaks = 20)
*Sursa: R Studio
După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=1.428 carate
Mediana=1.260 carate, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat
și mai sus este prezentă asimetria la dreapta.
*Sursa: R Studio
După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=65.23 mm
Mediana= 62.00 mm, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat
și mai sus este prezentă asimetria la dreapta.
*Sursa: R Studio
După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=9083 $.
Mediana= 8424 $, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat și
mai sus este prezentă asimetria la dreapta.
3.2.2 Boxplot
#Cod utilizat
boxplot(color_pret$Carat)
boxplot(color_pret$Depth)
boxplot(color_pret$PricePerCt)
*Sursa: R Studio
Variabila „Carat” prezintă puncte extreme, iar eliminarea acestora a fost efectuată după cum
urmează:
#Cod utilizat
boxplot(color_pret$Carat)$out
color_pret<-subset(color_pret,Carat<2)
color_pret<-subset(color_pret,Carat>0.8)
boxplot(color_pret$Carat)
*Sursa: R Studio
*Sursa: R Studio
*Sursa: R Studio
Variabila „PricePeCt” prezintă puncte extreme, iar eliminarea acestora a fost efectuată după cum
urmează:
#Cod utilizat
boxplot(color_pret$PricePerCt)$out
color_pret<-subset(color_pret,PricePerCt<12000)
boxplot(color_pret$PricePerCt)
3.2.3 Barplot
#Cod utilizat
barplot(table(color_pret$Color,color_pret$Clarity),legend.text=T)
*Sursa: R Studio
Pentru categoria „Incluziuni vizibile cu lupa” se poate observa că numărul cel mai ridicat al
observațiilor se află în categoria “Aproape incolor”.
3.2.4 Plot
#Cod utilizat
plot(color_pret$Carat,color_pret$PricePerCt)
plot(color_pret$Depth,color_pret$PricePerCt)
Figura 19: Plot între variabilele PricePerCt și Carat
*Sursa: R Studio
*Sursa: R Studio
Graficul ScaterPlot oferă informații cu privire la :
Corelația
Omogenitatea
Simetria
datelor analizate
4. Analiza statistica a variabilelor categoriale
#Cod utilizat
contingenta<-table(color_pret$Color,color_pret$Clarity)
View(contingenta)
*Sursa: R Studio
#Cod utilizat
summary(table(color_pret$PricePerCt,color_pret$Carat,color_pret$Depth))
Figura 21 : Analiza de asociere
*Sursa: R Studio
Ipoteze:
H0=nu există asociere între variabile
H1=există asociere între variabile
Deoarece Sig=1,35E-82 <0.05 rezulă că ipoteza nulă se respinge, astfel cu o probabilitate de 95%
putem afirma că există asociere între cele trei variabile.
#Cod utilizat
levels(color_pret$Color)
chisq.test(table(color_pret$Color),p=c(0.1,0.3,0.2,0.1,0.1,0.2))
Figura 22: Analiza de concordanță
*Sursa: R Studio
Ipoteze:
H0=există concordanță între variabile
H1=nu există concordanță între variabile
Deoarece Sig=2.2E-16 <0.05 rezulă că ipoteza nulă se respinge, astfel cu o probabilitate de 95%
putem afirma că nu există concordanță între cele trei variabile.
#Cod utilizat
cor(color_pret[-c(1,3,4,7)])
*Sursa: R Studio
De asemenea se poate observa că cele mai puternice corelații sunt între PricePerCt și Carat,
prezentând o corelație pozitivă. Corelația negativă cea mai puternică este cea dintre PricePerCt și Depth .
Coeficientul Pearson
#Cod utilizat
cor.test(color_pret$PricePerCt,color_pret$Carat,method = "pearson",use="pairwise")
cor.test(color_pret$PricePerCt,color_pret$Depth,method = "pearson",use="pairwise")
*Sursa: R Studio
Se poate garanta cu o probabilitate de 0,95 că între cele două variabile există o corelație medie
pozitivă (r=0,404 >0,4).
Figura 25: Coeficientul de corelație Pearson
*Sursa: R Studio
Se poate garanta cu o probabilitate de 0,95 că între cele două variabile există o corelație scăzută
negativă (r=-0,3383 <0).
#Cod utilizat
lm(PricePerCt~Carat, color_pret)
*Sursa: R Studio
Modelul de regresie liniară simplă analizat în decursul acestui proiect, este format dintr-o variabilă
dependent Y= PricePerCt și o variabilă independent X= Carat.
Interpretare:
β0 = 3835: atunci când valoare cartului este egală cu 0, variabila dependentă, prețul, are o valoare medie
de 3835$.
Faptul că ( β1= 3674) > 0 arată că între variabile există o legătură inversă, adică la o creștere a
caratului cu un dolar, prețul crește, în medie, cu 3674$.
Regresia multiplă
#Cod utilizat
lm(PricePerCt~Carat+Depth,color_pret)
*Sursa: R Studio
Ecuația modelului
PricePerCt=11623.3+4151.4*Carat-129.9*Depth
Atunci când toate variabilele independente sunt egale cu 0, variabila PricePerCt este, în medie, cu
11623.3$. La o creștere cu o unitate a caratului și a adâncimii, prețul pe carat crește cu 4151.4$, respectiv
scade cu 129.9 $.
5.2.2. Regresia neliniara (model parabolic, logaritmic)
Model parabolic
#Cod utilizat
lm(PricePerCt~Carat+I(Carat^2)+I(Carat^3),color_pret)
*Sursa: R Studio
Ecuația modelului
Model logaritmic
#Cod utilizat
test<-lm(log(PricePerCt)~Carat,color_pret)
Figura 29: Model logaritmic
*Sursa: R Studio
Ecuația modelului
Y= β0+ β1*lnX+ ε
PricePerCt=8.5918+0.3433*lnCarat
β0=este valoarea medie al lui PricePeCt este de 8,5918$ atunci când variabila Carat este egală cu 1.
β1=La o creștere a variabilei Carat cu o unitate, prețul crește în medie cu 0,3433$.
5.2.3. Compararea a doua modele de regresie si alegerea celui mai bun model
#Cod utilizat
simpla<-lm(PricePerCt~Carat, color_pret)
parabolic<-lm(PricePerCt~Carat+I(Carat^2)+I(Carat^3),color_pret)
anova(parabolic,simpla)
*Sursa: R Studio
Din rezultate se observă că valoarea Sig asociate testului F, p-value, este 0,03215 <0,05. Acest
lucru semnifică faptul că modelul simplu este un model semnificativ mai bun decât cel parabolic pentru a
explica variația volumului.
#Cod utilizat
t.test(color_pret$Carat)
*Sursa: R Studio
La baza procedeului de estimare prin interval de încredere, stau legile normale de repartiție ale
estimatrilor 0 și 1. Pentru un nivel de încredere egal cu (1-α), limitele intervalului de încredere pentru
parametrul β0 sunt:
0±tα/2* 0
#Cod utilizat
t.test(color_pret$PricePerCt,mu=0)
*Sursa: R Studio
Ipoteze:
H0=media este egală cu 0
H1=media este diferită de 0
Sig = 2,2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie media PricePerCt nu
este egală cu 0.
6.2.2. Testarea diferentei dintre doua medii (eșantioane pereche)
#Cod utilizat
t.test(color_pret$PricePerCt,color_pret$Carat)
*Sursa: R Studio
Ipoteze:
H0=µ1=µ2=0
H1=cel puțin o medie diferită de 0
Sig = 2.2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie cel puțin o medie este
diferită de 0.
6.2.3. Testarea diferenței dintre trei și mai multe medii
Cu ajutorul testului ANOVA am putut observa dacă sunt diferențe semnificative între mediile
variabilelor studiate. Pentru a verifica cele spuse am formulat următoarele ipoteze:
#Cod utilizat
aovobj<-aov(PricePerCt~Carat+Depth,color_pret)
anova(aovobj)
*Sursa: R Studio
H0: µ1=µ2=µ3
H1: cel puțin două medii sunt egale
După cum putem observa din tabelul ANOVA valoarea Sig pentru toate variabilele analizate este
mai mică decât α care este egală cu 0,05, ceea ce ne duce la respingerea ipotezei nule, respectiv a lui H 0 și
la acceptarea ipotezei alternative H1. Prin urmare putem afirma că între mediile variabilelor (PricePerCt,
Carat și Depth) există diferențe semnificative între medii.
7. Concluzii
Pentru o analiză corectă, am intenționat să verific dacă valorile variabilelor considerate conțin
valori extreme, și prin urmare am observat că variabilele “Carat” și “PretPerCt” au valori extreme și am
decis eliminarea lor.
În urma estimării prin interval de încredere a parametrului de regresie β0 am obținut rezultate care
ne indică faptul că valoarea adevărată a coeficientului de regresie β0 este acoperită în intervalul
(1,349595;1.507384);
Utilizând testarea mediei cu o valoare fixă am ajuns la următoarea concluzie că:
Sig = 2,2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie media PricePerCt nu
este egală cu 0.
Cu ajutorul testului ANOVA am putut observa dacă sunt diferențe semnificative între mediile
variabilelor studiate.