Sunteți pe pagina 1din 33

Profesor coordonator: Conf.univ.dr.

Daniela Viorică
Studenți: Bulgaru Andreea Georgiana
Filimon (Pașcău) Cristina Ioana
Voicu Magdalena

1
Cuprins
Diamonds........................................................................................................................................................2
1. Introducere..................................................................................................................................................2
Importanța temei.........................................................................................................................................2
Obiectivele studiului...................................................................................................................................3
2. Prezentarea bazei de date............................................................................................................................3
3. Analiza grafică și numerică a variabilelor analizate...................................................................................9
3.1. Analiza descriptivă a variabilelor numerice și nenumerice (tabele de frecvență).............................10
3.2. Analiza grafica a variabilelor numerice si nenumerice......................................................................14
4. Analiza statistica a variabilelor categoriale..............................................................................................21
4.1. Tabelarea datelor................................................................................................................................21
4.2. Analiza de asociere............................................................................................................................21
4.3. Analiza de concordanță......................................................................................................................22
5. Analiza de regresie si corelatie.................................................................................................................23
5.1. Analiza de corelatie............................................................................................................................23
5.2. Analiza de regresie.............................................................................................................................25
5.2.2. Regresia neliniara (model parabolic, logaritmic)...........................................................................27
5.2.3. Compararea a doua modele de regresie si alegerea celui mai bun model......................................28
6. Estimarea si testarea mediilor..................................................................................................................29
6.1. Estimarea mediei prin interval de incredere......................................................................................29
6.2. Testarea mediilor populației...............................................................................................................30
7. Concluzii...................................................................................................................................................33
Diamonds

1. Introducere

Importanța temei

Prin intermediul acestui studiu vom dori să aflăm dacă există legături între carate, culoare,
adancime, claritate, pret per carat, pe de alta parte am dori să evidențiem care tip de diamant predomină.
Pentru a putea cerceta ne va trebui o bază de date utilizând limbajul de programare R Studio.

Obiectivele studiului

Acest proiect are ca și obiective:


- Obținerea unor rezultate favorabile cercetării, adică să existe relație de dependență între cele trei
variabile cantitative si cele 2 calitative carate, culoare, adancime, claritate, pret per carat;
- Observarea modului de influență a unei/ unor variabile asupra celorlalte;
- Identificarea punctelor de extrem și eliminarea acestora;
- Existența corelațiilor, asocierilor, concordantelor dintre variabile;
- Identificarea existenței legăturilor dintre variabile;
- Testarea mediilor.
În realizarea proiectului vom folosi următoarele metode prin intermediul cărora vom avea in
vedere îndeplinirea obiectivelor mai sus menționate.
Pentru a putea începe cercetarea propriu zisă, a fost nevoie de operațiuni preliminare și de
transformare a variabilelor aflate din baza de date. În urma modificărilor asupra bazei de date, s-a utilizat
analiza grafică și numerică a variabilelor analizate. Aceasta fiind urmată de analiza statistică a variabilelor
categoriale. Ultimele metode au fost analiza de regresie și corelație, respectiv estimarea și testarea
mediilor.

2. Prezentarea bazei de date

Baza de date a fost identificată în limbajul de programare R Studio, denumită Diamonds.


Această bază este împărțită în 6 variabile: 4 numerice și 2 categoriale.

Figura 1: Baza de date inițială

*Sursa: R Studio

Operațiile preliminare constau în realizarea unei selecții pentru cele două variabile numerice
“Carat” și “PricePerCt”, astfel încât noua bază obținută să conțină valori mai mari decât 0,3 pentru
variabila “Carat” și valori mai mari decât media asociate variabilei “PricePerCt”.

#Cod utilizat
color_pret<-subset(Diamonds, Carat>0.3 & PricePerCt>6243)

În urma acestei selecții a rezultat o nouă bază de date, color_pret, conținând doar 139 de
observații din cele 351 din baza de date inițială.

Figura nr. 2: Bază transformată

*Sursa: R Studio

Baza a fost exportată pentru a putea fi utilizată în realizarea cercetării.

#Cod utilizat

write.csv(color_pret,"D:/Cristina/Datamining/R/Diamonds.csv")

În baza inițială, variabila “Color” avea categoriile denumite cu litere de la D la J. Pentru o mai
bună vizualizare asupra cercetării am decis redenumirea categoriilor celor două variabile nenumerice,
astfel:
#Cod utilizat

color_pret$Color<-as.factor(color_pret$Color)
levels(color_pret$Color)
levels(color_pret$Color)<-c("Cel mai ridicat grad de culoare", "Aproape incolor+","Aproape
incolor +","Aproape incolor","Alb","Incolor cu usoare tente de culoare","Incolor cu usoare tente
de culoare")

#Cod utilizat

color_pret$Clarity<-as.factor(color_pret$Clarity) #eticheta
levels(color_pret$Clarity)
levels(color_pret$Clarity)<-c("Fara incluziuni", "Incluziuni vizibile cu lupa","Incluziuni vizibile cu
lupa","Incluziuni vizibile cu lupa","Incuziuni invizibile","Incuziuni invizibile","Incluziuni foarte
greu de observat","Incluziuni foarte greu de observat")

Figura 3: Redenumirea categoriilor celor doua varaiabile categoriale

*Sursa: R Studio

Rezultatele obținute în urma operațiunilor preliminare au fost salvate intr-un tabel.


#Cod utilizat

summary(color_pret)
color_pret<-write.table(color_pret,"color_pret.txt",sep="\t",row.names=TRUE,quote=FALSE)
View(color_pret)

În continuare vom descrie noua baza de date cu ajutorul funcțiilor specifice programului R Studio.

#Cod utilizat

dim(color_pret)

Figura 4: Dimensiunea bazei de date

*Sursa:R Studio

Conform figurii 4, baza de date “color_pret” conține 139 de observații și 7 variabile.

#Cod utilizat

names(color_pret)

Figura 5: Afișarea listei numelor variabilelor din setul de date


*Sursa:R Studio

În urma aplicării funcției “names”, am obținut lista numelor variabilelor din setul de date.

#Cod utilizat

class(color_pret$Carat)
class(color_pret$Color)
class(color_pret$Clarity)
class(color_pret$Depth)
class(color_pret$PricePerCt)
class(color_pret$TotalPrice)

Figura6: Clasa variabilelor conținute în baza de date

*Sursa:R Studio

Utilizând funcția class putem observa că baza de date conține 6 variabile dintre care 4 sunt
numerice (“Carat”, “Depth”, “PricePerCt”, “TotalPrice”, respectiv 2 categoriale (“Color” și “Clarity”).
În continuarea analizei, variabila “TotalPrice” va fi exclusă.
#Cod utilizat
str(color_pret)

Figura 7: Accesarea structurii bazei de date

*Sursa:R Studio

#Cod utilizat
levels(color_pret$Color)
levels(color_pret$Clarity)

Figura 8: Denumirea categoriilor variabilelor nenumerice

*Sursa:R Studio
3. Analiza grafică și numerică a variabilelor analizate
Analiza descriptivă are rolul de a scoate în evidență asemănarile/deosebirile dintre variabilele
analizate, a vedea diferențele dintre județe pe baza variabilelor analizate. Pe baza graficului de tip Box-
plot se pot observa punctele extreme din baza de date sau punctele care au valori mult mai mari decât
media.Măsurătorile tendinței centrale includ media, mediana și modul, în timp ce măsurile de variabilitate
includ abaterea standar, variabilele minime/maxime, skewness și kurtosis.

3.1. Analiza descriptivă a variabilelor numerice și nenumerice (tabele de frecvență)

#Cod utilizat

summary(color_pret$Carat)
summary(color_pret$Depth)
summary(color_pret$PricePerCt)

Figura 9: Indicatori statistici descriptivi

*Sursa:R Studio
#Variabila “Carat”

Interpretări:
Media= 1.428 carate.
Valoarea medie a variabilei Carat este egala cu 1.428 carate.
Mediana= 1.260 carate.
50% dintre diamante au valoarea caratului de până la 1.260 carate, iar restul de 50% au peste 1.260 carate.
Quartila 1 = 1.130 carate.
25 % din diamante au valoarea caratului până la 1.130 carate și 75 % au mai mult de 1.130 carate.
Quartila 3 = 1.565 carate.
75 % din diamante au valoarea caratului până la 1.565 carate și 25% au mai mult de 1.565 carate.

#Variabila “Depth”

Interpretări:
Media= 65.23 mm.
Valoarea medie a variabilei Depth este egala cu 65.23 mm.
Mediana= 62.00 mm.
50% dintre diamante au adâncimea de până la 62.00 mm, iar restul de 50% au peste 62.00 mm.
Quartila 1 =61.10 mm.
25 % din diamante au adâncimea până la 61.10 mm și 75 % au mai mult de 61.10 mm.
Quartila 3 = 71.45 mm.
75 % din diamante au adâncimea până la 71.45 mm și 25% au mai mult de 71.45 mm.

#Variabila “PricePerCt”

Interpretări:
Media= 9083 $.
Valoarea medie a variabilei PricePerCt este egala cu 9083 $.
Mediana= 8424 $.
50% dintre diamante au prețul de până la 8424 $, iar restul de 50% au peste 8424 $.
Quartila 1 =7316 $.
25 % din diamante au prețul până la 7316 $ și 75 % au mai mult de 7316 $.
Quartila 3 =9963 $.
75 % din diamante au prețul până la 9963 $ și 25% au mai mult de 9963 $.

#Cod utilizat

tapply(color_pret$PricePerCt,color_pret$Color, mean)

Figura10: Analiza descriptivă pe grupuri

*Sursa: R Studio

În medie, pentru diamantele a căror culoare se încadrează în categoria “Aproape incolor+” prețul
acestora este de 8568,669$. La polul opus se află categoria “Incolor cu ușoare tente de culoare” cu prețul
de 7340,867$.

#Cod utilizat

tapply(color_pret$PricePerCt,color_pret$Clarity, mean)
Figura 11: Analiza descriptivă pe grupuri

*Sursa: R Studio

În medie, pentru diamantele a căror claritate se încadrează în categoria “Incluziuni foarte greu de
observat” prețul acestora fiind de 8536.562$. La polul opus se află categoria “Fara incluziuni” cu prețul de
7608.167$.

#Cod utilizat

table(color_pret$Color)
table(color_pret$Clarity)

Figura 12: Tabel de frecvență

*Sursa: R Studio
După cum putem observa din figura 10, variabila Color are cele mai multe observații în categoria
Aproape incolor, iar cele mai puține observații se regăsesc în categoria Incolor cu ușoare tente de
culoare.
Cea dea doua variabilă nenumerică, prezintă categoria Incluziuni vizibile cu lupa cu cel mai mare
număr de observații (69), fiind urmată în de aproape de categoria Incluziuni invizibile cu un număr de 52
de observații, iar categoria cu cel mai mic număr de observații este Fără incluziuni (7 observații).

3.2. Analiza grafica a variabilelor numerice si nenumerice

3.2.1 Histograma

#Cod utilizat
hist(color_pret$Carat,breaks = 20)
hist(color_pret$Depth, breaks = 20)
hist(color_pret$PricePerCt, breaks = 20)

Figura 13: Histograma pentru variabila “Carat”

*Sursa: R Studio

După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=1.428 carate
Mediana=1.260 carate, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat
și mai sus este prezentă asimetria la dreapta.

Figura 12: Histograma pentru variabila “Depth”

*Sursa: R Studio

După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=65.23 mm
Mediana= 62.00 mm, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat
și mai sus este prezentă asimetria la dreapta.

Figura 12: Histograma pentru variabila “PricePerCt”

*Sursa: R Studio
După cum observăm în histograma de mai sus avem distribuție asimetrică la dreapta deoarece:
Media=9083 $.
Mediana= 8424 $, de aici rezultă că media este mai mare decât mediana, prin urmare cum am precizat și
mai sus este prezentă asimetria la dreapta.

3.2.2 Boxplot

#Cod utilizat

boxplot(color_pret$Carat)
boxplot(color_pret$Depth)
boxplot(color_pret$PricePerCt)

Figura13:Box plot pentru variabila „Carat”

*Sursa: R Studio

Variabila „Carat” prezintă puncte extreme, iar eliminarea acestora a fost efectuată după cum
urmează:

#Cod utilizat
boxplot(color_pret$Carat)$out
color_pret<-subset(color_pret,Carat<2)
color_pret<-subset(color_pret,Carat>0.8)
boxplot(color_pret$Carat)

Figura14: BoxPlot pentru variabila “Carat” după eliminarea punctelor extreme

*Sursa: R Studio

Figura15: Boxplot pentru variabila “Depth”

*Sursa: R Studio

După cum se poate observa variabila “Depth” nu prezinta puncte extreme.


Figura16: Boxplot pentru variabila “PricePeCt”

*Sursa: R Studio

Variabila „PricePeCt” prezintă puncte extreme, iar eliminarea acestora a fost efectuată după cum
urmează:

#Cod utilizat

boxplot(color_pret$PricePerCt)$out
color_pret<-subset(color_pret,PricePerCt<12000)
boxplot(color_pret$PricePerCt)

Figura17: Boxplot pentru variabila “PricePerCt” după eliminarea punctelor extreme


*Sursa: R Studio

3.2.3 Barplot

#Cod utilizat

barplot(table(color_pret$Color,color_pret$Clarity),legend.text=T)

Figura18:Barplot pentru variabilele nenumerice

*Sursa: R Studio

Pentru categoria „Incluziuni vizibile cu lupa” se poate observa că numărul cel mai ridicat al
observațiilor se află în categoria “Aproape incolor”.

3.2.4 Plot
#Cod utilizat

plot(color_pret$Carat,color_pret$PricePerCt)
plot(color_pret$Depth,color_pret$PricePerCt)
Figura 19: Plot între variabilele PricePerCt și Carat

*Sursa: R Studio

Figura 20: Plot între variabilele PricePerCt și Depth

*Sursa: R Studio
Graficul ScaterPlot oferă informații cu privire la :
 Corelația
 Omogenitatea
 Simetria
datelor analizate
4. Analiza statistica a variabilelor categoriale

4.1. Tabelarea datelor

#Cod utilizat

contingenta<-table(color_pret$Color,color_pret$Clarity)
View(contingenta)

Figura20 : Crosstabs frecvențe pentru tabelul de contingență

*Sursa: R Studio

4.2. Analiza de asociere

#Cod utilizat
summary(table(color_pret$PricePerCt,color_pret$Carat,color_pret$Depth))
Figura 21 : Analiza de asociere

*Sursa: R Studio

Ipoteze:
H0=nu există asociere între variabile
H1=există asociere între variabile

Deoarece Sig=1,35E-82 <0.05 rezulă că ipoteza nulă se respinge, astfel cu o probabilitate de 95%
putem afirma că există asociere între cele trei variabile.

4.3. Analiza de concordanță

#Cod utilizat

levels(color_pret$Color)
chisq.test(table(color_pret$Color),p=c(0.1,0.3,0.2,0.1,0.1,0.2))
Figura 22: Analiza de concordanță

*Sursa: R Studio

Ipoteze:
H0=există concordanță între variabile
H1=nu există concordanță între variabile

Deoarece Sig=2.2E-16 <0.05 rezulă că ipoteza nulă se respinge, astfel cu o probabilitate de 95%
putem afirma că nu există concordanță între cele trei variabile.

5. Analiza de regresie si corelatie

5.1. Analiza de corelatie

#Cod utilizat
cor(color_pret[-c(1,3,4,7)])

Figura 23: Matricea de corelație

*Sursa: R Studio
De asemenea se poate observa că cele mai puternice corelații sunt între PricePerCt și Carat,
prezentând o corelație pozitivă. Corelația negativă cea mai puternică este cea dintre PricePerCt și Depth .

Coeficientul Pearson

#Cod utilizat
cor.test(color_pret$PricePerCt,color_pret$Carat,method = "pearson",use="pairwise")
cor.test(color_pret$PricePerCt,color_pret$Depth,method = "pearson",use="pairwise")

Figura 24 : Coeficientul de corelație Pearson

*Sursa: R Studio

Se poate garanta cu o probabilitate de 0,95 că între cele două variabile există o corelație medie
pozitivă (r=0,404 >0,4).
Figura 25: Coeficientul de corelație Pearson

*Sursa: R Studio
Se poate garanta cu o probabilitate de 0,95 că între cele două variabile există o corelație scăzută
negativă (r=-0,3383 <0).

5.2. Analiza de regresie

5.2.1. Regresie liniara simpla si mutipla

 Regresia liniară simplă

#Cod utilizat

lm(PricePerCt~Carat, color_pret)

Figura 26: Model liniar simplu

*Sursa: R Studio

Modelul de regresie liniară simplă analizat în decursul acestui proiect, este format dintr-o variabilă
dependent Y= PricePerCt și o variabilă independent X= Carat.

Ecuația modelului de regresie


Yi= β0+ βi*xi+ ε
PricePerCt = 3835+3674* Carat

Interpretare:
β0 = 3835: atunci când valoare cartului este egală cu 0, variabila dependentă, prețul, are o valoare medie
de 3835$.
Faptul că ( β1= 3674) > 0 arată că între variabile există o legătură inversă, adică la o creștere a
caratului cu un dolar, prețul crește, în medie, cu 3674$.

 Regresia multiplă

#Cod utilizat

lm(PricePerCt~Carat+Depth,color_pret)

Figura 27: Model liniar multiplu

*Sursa: R Studio

Ecuația modelului
PricePerCt=11623.3+4151.4*Carat-129.9*Depth
Atunci când toate variabilele independente sunt egale cu 0, variabila PricePerCt este, în medie, cu
11623.3$. La o creștere cu o unitate a caratului și a adâncimii, prețul pe carat crește cu 4151.4$, respectiv
scade cu 129.9 $.
5.2.2. Regresia neliniara (model parabolic, logaritmic)

 Model parabolic

#Cod utilizat
lm(PricePerCt~Carat+I(Carat^2)+I(Carat^3),color_pret)

Figura 28: Model neliniar parabolic

*Sursa: R Studio

Ecuația modelului

Y= β0+ β1*x+ β2* x2+ β3* x3+ ε


PricePerCt=10761.3-7347.2*Carat+5192.3*Carat2-724.3*Carat3
Deoarece β2>0 legătura de tip parabolic adite un punct de minim.

 Model logaritmic

#Cod utilizat
test<-lm(log(PricePerCt)~Carat,color_pret)
Figura 29: Model logaritmic

*Sursa: R Studio
Ecuația modelului

Y= β0+ β1*lnX+ ε
PricePerCt=8.5918+0.3433*lnCarat
β0=este valoarea medie al lui PricePeCt este de 8,5918$ atunci când variabila Carat este egală cu 1.
β1=La o creștere a variabilei Carat cu o unitate, prețul crește în medie cu 0,3433$.

5.2.3. Compararea a doua modele de regresie si alegerea celui mai bun model

#Cod utilizat

simpla<-lm(PricePerCt~Carat, color_pret)
parabolic<-lm(PricePerCt~Carat+I(Carat^2)+I(Carat^3),color_pret)
anova(parabolic,simpla)

Figura 30: Compararea modelului liniar simplu cu cel neliniar parabolic

*Sursa: R Studio
Din rezultate se observă că valoarea Sig asociate testului F, p-value, este 0,03215 <0,05. Acest
lucru semnifică faptul că modelul simplu este un model semnificativ mai bun decât cel parabolic pentru a
explica variația volumului.

6. Estimarea si testarea mediilor

6.1. Estimarea mediei prin interval de incredere

#Cod utilizat
t.test(color_pret$Carat)

Figura 31 : Interval de încredere

*Sursa: R Studio

La baza procedeului de estimare prin interval de încredere, stau legile normale de repartiție ale

estimatrilor 0 și 1. Pentru un nivel de încredere egal cu (1-α), limitele intervalului de încredere pentru

parametrul β0 sunt:

0±tα/2* 0

Analog, pentru β1: 1±tα/2* 1

Intervalul de înceredere pentru cei doi parametri au următoarele interpretări:


- Cu o probabilitate de 95%, putem afirma că parametrul β0 este acoperit de intervalul
(1,349595;1.507384);
- Cu o probabilitate de 0,95, putem afirma că parametrul β1 este acoperit de intervalul
( 1,349595;1.507384).

6.2. Testarea mediilor populației

6.2.1. Testarea unei medii cu o valoare fixa

#Cod utilizat
t.test(color_pret$PricePerCt,mu=0)

Figura 32: Testarea unei medii cu valore fixă

*Sursa: R Studio

Ipoteze:
H0=media este egală cu 0
H1=media este diferită de 0

Sig = 2,2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie media PricePerCt nu
este egală cu 0.
6.2.2. Testarea diferentei dintre doua medii (eșantioane pereche)

#Cod utilizat

t.test(color_pret$PricePerCt,color_pret$Carat)

Figura 33: Testarea diferentei dintre doua medii(eșantioane pereche)

*Sursa: R Studio

Ipoteze:
H0=µ1=µ2=0
H1=cel puțin o medie diferită de 0

Sig = 2.2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie cel puțin o medie este
diferită de 0.
6.2.3. Testarea diferenței dintre trei și mai multe medii

Cu ajutorul testului ANOVA am putut observa dacă sunt diferențe semnificative între mediile
variabilelor studiate. Pentru a verifica cele spuse am formulat următoarele ipoteze:

#Cod utilizat

aovobj<-aov(PricePerCt~Carat+Depth,color_pret)
anova(aovobj)

Figura 34: . Testarea diferentei dintre trei si mai multe medii

*Sursa: R Studio

H0: µ1=µ2=µ3
H1: cel puțin două medii sunt egale
După cum putem observa din tabelul ANOVA valoarea Sig pentru toate variabilele analizate este
mai mică decât α care este egală cu 0,05, ceea ce ne duce la respingerea ipotezei nule, respectiv a lui H 0 și
la acceptarea ipotezei alternative H1. Prin urmare putem afirma că între mediile variabilelor (PricePerCt,
Carat și Depth) există diferențe semnificative între medii.

7. Concluzii

În urma analizei efectuate putem preciza următoarele aspecte:

Pentru o analiză corectă, am intenționat să verific dacă valorile variabilelor considerate conțin
valori extreme, și prin urmare am observat că variabilele “Carat” și “PretPerCt” au valori extreme și am
decis eliminarea lor.
În urma estimării prin interval de încredere a parametrului de regresie β0 am obținut rezultate care
ne indică faptul că valoarea adevărată a coeficientului de regresie β0 este acoperită în intervalul
(1,349595;1.507384);
Utilizând testarea mediei cu o valoare fixă am ajuns la următoarea concluzie că:
Sig = 2,2E-16
α= 0,05 rezultă că Sig<α
Cu o probabilitate de 0.95 putem afirma că se respinge ipoteza nulă, în concluzie media PricePerCt nu
este egală cu 0.
Cu ajutorul testului ANOVA am putut observa dacă sunt diferențe semnificative între mediile
variabilelor studiate.

S-ar putea să vă placă și