Proiect Inteligenta Computationala

Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică

Specializarea: Cibernetica Economică
Inteligență computațională
Proiect
Student: Ana Alexandru-Teodor

Grupa: 1063
Seria: B
Cuprins
I. Obiectiv si sursa datelor ........................................................................................................................ 3

II. Statistici descriptive in R ...................................................................................................................... 4
III. Analizarea Componentelor Principale ............................................................................................ 10
IV. Analiza Cluster................................................................................................................................ 20
V. Clusterizarea Fuzzy ............................................................................................................................. 29
VI. Clasificare ....................................................................................................................................... 39
a) Metoda celor mai apropiati vecini(KNN) ....................................................................................... 39
b) Masina cu suport vectorial .............................................................................................................. 43
c) Arbori de decizie ............................................................................................................................. 46
VII. Regresia Logistica Binomiala ......................................................................................................... 48
VIII. Retele neuronale.............................................................................................................................. 51
Concluzii ..................................................................................................................................................... 53
2
I. Obiectiv si sursa datelor
Pentru acest proiect am ales domeniul IT, mai exact piata de laptopuri din Romania pentru a
urmari ce modele sunt optime pentru cumparatori prin analiza unui set de indicatori specifici. In
acest sens, am folosit Excel pentru prelucrarea datelor si programul R pentru analiza acestora.
Datele au fost gasite pe diferite site-uri de specialitate, precum pcgarage.ro, cel.ro, emag.ro,
dar si site-urile producatorilor HP si Dell. Astfel, printre indicatorii de performanta gasiti, se
numara:
Date cantitative:
 FP – Frecventa Procesorului, masurat in Ghz
 DCP – Dimensiunea Cache Procesor, masurata in MB
 PC – Putere Consumata, masurat in W
 HDD – Capacitatea de stocare, masurata in TB
 RAM – Capacitatea memoriei RAM, masurata in GB
 FM – Frecventa memoriei RAM, masurata in Mhz
 DiagLCD – Diagonala ecranului, masurata in Inch
 GL – Greutatea Laptopului, masurata in kg
 PV – Placa Video, masurata in GB
 Pret – Pretul laptopului la momentul actual, masurat in mii lei.
Date calitative
 Nivel – Nivel pretului. Ulterior, in analiza, se va adauga si o variabila calitativa ce va
exprima daca pretului laptopului este Mic, Mediu, Mare
Ulterior, cu ajutorul programului Excel, am ajuns la o prelucrare eficienta a datelor, dupa cum
se poate vedea si in imaginea de mai jos:
3
Fig1. Date in Excel
II. Statistici descriptive in R
Pentru aceasta, am incarcat datele fisierului Excel in R cu cele 38 modele de laptop:
4
Fig2. Summary
In urma analizei prin comanda summary, deducem cateva observatii:
 Pretul minim al unui laptop este 989 lei, pentru Dell Insprion 3552, care este unul din cele mai
ieftine modele de la Dell de pe piata, iar pretul maxim pentru un laptop este de 13709 lei, Dell
XPS 15.
 Media pretului pe piata din Romania pentru un laptop Dell sau HP este de 5670 lei. De asemenea,
observam ca 75 % din laptopurile de pe piata din Romania depasesc 2540 lei.
 Capacitatea memoriei de stocare (HDD) pentru 75% din laptopuri depaseste 256 GB.
 Greutatea medie a unui laptop este de aproximativ 2 kg.
Pentru a afla cu cat difera valoarea asteptata a unui indicator cu valoarea reala, am folosit
abaterea standard:
Fig3. Abaterea standard
Abaterea standard pentru pret este de 3.38% ceea ce indica faptul ca valoarea pretului se
abate cu 3.38% fata de media acestuia.
5
Pentru diagonala ecranului exista o abatere de doar 1.22% fata de valoare medie a acestui
indicator.
Cea mai mica abatere se inregistreaza la greutatea laptopului, de doar 0.57%.
Fig4. Skewness si kurtosis
Coeficientul de asimetrie( Skewness) se caracterizeaza prin gradul de asimetrie a unei

repartitii, si alaturi de coeficientul de aplatizare (Kurtosis), indica forma repartitiei (prezentata
sub forma unei histograme).
Din figura de mai sus, se poate deduce ca valoarea coeficientului de asimetrie este de 0.506,
care este mai mare ca 0, ceea ce inseamna o usoara inclinatie a distributiei spre stanga, avand mai
multe valori extreme spre dreapta. Coeficientul de aplatizare este de 2.24 < 3, distributia fiind
mezokurtica, astfel avand valori imprastiate pe un interval mai mare in jurul mediei.
Frecventa memoriei RAM, analizat prin prisma celor doi indici, arata o distributie usor
inclinata spre dreapta, cu valori extreme spre stanga ( gradul de asimetrie -0.522 < 0), totodata
fiind si platikurtica avand la randu-I mai multe valori in jurul mediei.
Memoria RAM prezinta o distributie inclinata spre stanga, avand valori extreme in partea
dreapta (skewness 1.57 > 0), leptokurtica (6.22 >0), ceea ce ar putea indica faptul ca exista
probabilitati ridicate pentru valori extreme.
Pentru a sustine ceea ce am mentionat si mai sus, vom folosi reprezentarea grafica a
distributiilor identificate cu ajutorul histogramelor. Cu alte cuvinte, o histograma este de fapt o
diagrama, care, impartite pe intervale de date si pe numarul de observatii, vor rezulta o multime
de arii proportionate.
Fig5.1 Histograma preturilor
6
Histograma preturilor arata ca distributia este inclinata spre stanga, cu valori extreme in
partea dreapta, fapt dovedit si prin valoarea coeficietului de asimetrie de 0.506%. De altfel,
distributia este mezokurtica, valorile fiind imprastiate in jurul mediei.
Fig5.2 Histograma frecventa procesor
Histograma frecventei procesorului indica o distributie aproape simetrica, cu un coeficient

de asimetrie de -0.06, foarte apropiata de 0. Distributia este mezokurtica, valori imprastiindu-se in
jurul mediei.
Fig5.3 Histograma memoriei RAM
Histograma aferenta memoriei RAM prezinta o distributie inclinata spre stanga, avand
valori extreme spre dreapta (skewness 1.57%), leptokurtica cu variatii mici, dar valori
extreme(kurtosis 6.29%).
7
Fig6. Matricea de corelatie
Pentru a observa o legatura intre indicii de performanta si variabile, voi folosi matricea de
corelatie, ilustrata mai sus.
Coeficientul de corelatie are valori in intervalul -1 si 1.
 Daca valorile sunt apropiate de 0, corelatia dintre doua variabile este slaba
 Daca valorile sunt apropiate de -1 sau 1, corelatia este mai puternica.
 Daca coeficientul este negative, legatura este inversa, iar daca coeficientul este pozitiv, legatura
este una directa.
Fig7. Matricea de corelatie forma grafica
8
Din urma matricei si a graficului de mai sus, putem obtine urmatoarele informatii:
 Intre valoarea pretului si memoria ram exista o legatura directa, destul de puternica, cu un
coeficientul de corelatie de 0.81.
 Intre memoria RAM si greutatea laptopului exista o legatura directa, destul de slaba, cu un
coeficient de 0.07 si nu se influenteaza reciproc.
 Intre frecventa procesorului si ceilalti indicatori, cu exceptia pretului, exista o legatura directa,
destul de slab, concluzionand faptul ca nu se influenteaza reciproc.
Diagrama Boxplot ofera informatii, la fel ca si Histograma, privind forma distributiei. De

asemenea, un Boxplot se rezuma la cinci aspecte: valoarea minima, valoarea maxima, prima
quartile, mediana si a 3a quartile. Totodata, exista si valori outside the box, denumite outlier.
Boxplot-urile de mai jos sustin rezultatele obtinute anterior despre coeficientul de aplatizare
pentru indicatorii de performanta analizati. Cu exceptia unui indice de performanta (greutatea
laptopului), toti ceilalti sunt lipsiti de outlieri, ceea ce inseamna ca nu influenteaza media sau
skewness si kurtosis.
Fig8. Boxplot
Pentru a observa daca media este reprezentativa sau nu, vom folosi coeficientul de
variatie. In unele situatii, cum ar fi in cazul puterii consumate de catre laptop, media nu este
reprezentativa (53.6% > 35%), dar in cazul Pretului pentru un laptop, media este reprezentativa (
29,1% < 35%).
9
Fig8. Coeficientul de variatie
III. Analizarea Componentelor Principale
Deoarece avem indicatori de performanta ce se masoara in unitati de masura diferite, vom

utiliza standardizarea datelor. Standardizarea datelor presupune substituirea valorilor cu o noua
valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a
respectivei variabile:
unde reprezinta media lui i variabile, iar Si reprezinta abaterea standard a variabilei Xi.
10
Fig9. Standardizarea datelor
O metoda de a ne asigura ca datele au fost corect standardizate este compararea matricei

de covarianta cu cea de corelatie. In cazul in care acestea sunt identice, rezulta ca standardizarea a
fost realizata corect.
11
Fig10. Covarianta
Fig11. Matricea de corelatie
12
Dupa cum se poate observa, datele din cele doua matrici sunt identice, astfel standardizarea
este realizata corect.
Alegerea numarului de componente principale – Criterii
A. Criteriul lui Kaiser
Fig12.
Numarul de componente principale este dat de numarul componentelor ce au varianta mai
mare ca 1. In figura de mai sus, componentele 1,2 si 3 au valori peste 1, acestea preluand cele mai
mari procente ale informatiei totale.
B. Criteriul pantei ScreePlot
13
Fig13.
In figura de mai sus:

 Valp – reprezinta valoarea varianței fiecarei componente
 ProcentA – reprezinta procentul de informatie din informatia totala
 ProcentC – reprezinta varianța cumulate
Fig14. ScreePlot
Conform criteriului pantei, componentele ce au varianța mai mare decat 1 sunt componente
principale. Astfel, conform figurei de mai sus, numarul de componente principale este egal cu 3.
C. Criteriul Procentului de variatie
77,23% reprezinta procentul din informatia totala a primelor 3 componente principale.

Analizand, observam ca 22,77% din informatia totala se pierde.
14
Fig15.
Din figura de mai sus, vom folosi primele 3 componente principale pentru a scrie forma
generala:
W1=0.314*Pret + 0.226*FP + 0.312*PC + 0.394*DCP + 0.277*HDD+ 0.306*RAM+ 0.346*FM

+ 0.256*DiagLCD + 0.286*GL + 0.401*PV
W2=0.427*Pret + 0.107*FP – 0.259*PC + 0.13*DCP – 0.21*HDD + 0.461*RAM +0.124*FM
-0.451*DiagLCD – 0.497*GL
W3=0.303*Pret + 0.612*FP + 0.262*PC -0.315*DCP -0.42*HDD – 0.399*FM
+0.122*DiagLCD+0.122*GL
Fig16. Matricea corelatiei factoriale
Calculul scorurilor principale; putem exemplicam pentru prima observatie si se

calculeaza pentru fiecare componenta principala:
15
EB(Comp1)=0.314*1.472 + 0.226*(-0.789) + 0.312*(-0.788) + 0.394*1.206 + 0.277*(-0.776)+

0.306*1.089+ 0.346*0.726 + 0.256*0.715 + 0.286*(-0.36) + 0.401*(-0.139)=0.7
EB(Comp2)=0.427*1.472 + 0.107*(-0.789) – 0.259*(-0.788) + 0.13*1.206 – 0.21*(-0.776) +

0.461*1.089 +0.124*0.726 -0.451*0.715 – 0.497*(-0.36)=0.55
EB(Comp3)=0.303*1.472 + 0.612*(0.789) + 0.262*(-0.788) -0.315*1.206 -0.42*(-0.776) –

0.399*0.726 +0.122*0.715+0.122*(-0.36)=0.3
Din figura 16., in care este reprezentata matricea corelatiei factoriale, putem deduce mai
multe observatii precum:
 W1 are o legatura directa puternica cu valoarea pentru Placa Video (0.89) si Dimensiunea Cache
Procesor (0.88)
 W2 are o legatura directa, dar destul de slaba cu valoarea pentru Placa Video (0.01) dar si o legatura
inversa directa cu Greutatea Laptopului (-0.64)
 W3 are o legatura directa destul de puternica cu valoarea pentru Frecventa Procesor (0.61) dar
foarte slaba, tinzand catre 0 cu Placa Video (0.007)
Fig16. Cercul corelatiilor pentru W1 si S2
16
Fig17. Cercul corelatiilor pentru W1 si W3
Fig18. Cercul corelatiilor pentru W2 si W3
17
 Grafice componente
Fig 19. Corelatia dintre prima componenta si a doua
Figura de mai sus descrie legatura dintre observatii si componentele principale(in cazul
nostru, prima componenta si a doua) in functie de nivelul de corelatie. Astfel, HP Elitebook 820
G4 este una din observatiile care ies din tipar, fiind corelata pozitiv de ambele componente, insa
mai puternic de a doua componenta. De asemenea, laptopul Dell Alienware 15 are o legatura
directa puternica cu prima componenta, insa o legatura inversa cu a doua componenta.
Urmatoarele grafice ilustreaza aceleasi corelatii bazandu-se pe a doua si a treia
componenta, respectiv prima si a treia componenta.
18
Fig 20. Graficul corelatiilor dintre component 2 si 3
Fig 21. Graficul corelatiilor dintre component 1 si 3
19
Fig22. Grafic Biplot
IV. Analiza Cluster
Analiza cluster poate fi privită ca un instrument care are ca scop reducerea unor mulțimi
de obiecte, sau chiar de variabile, la un număr mai restrâns de entități informaționale, care sunt
clasele sau clusterele. Totuși, deși analiza cluster, privită ca un ansamblu de metode și tehnici de
clasificare a obiectelor, se aplică în spațiul variabilelor, utilizările frecvente ale acestor tehnici de
analiză se remarcă pentru clasificarea obiectelor.
Vom utiliza scorurile principale pentru fiecare observație în cele 3 componente stabilite la
analiza componentelor principale.
Pentru început vom utiliza metoda ierarhică și vom începe cu calculul matricei de distanțe.
20
După calculul matricii distanțelor folosim dendograma clusterelor pentru a realiza o ierarhie.
In continuare, observam faptul ca prin agregare medie se realizeaza o clusterizare mai

eficienta fata de cea precedenta.
21
Ultima metoda de ierarhizare este metoda Ward.
In final, se poate observa ca cea mai eficienta metoda de ierarhizare este metoda Ward. Astfel,
putem imparti datele in 3 clustere.
22
a) Algoritm de clusterizare ierarhica

Pas 1: Taietura in dendograma
23
Pas 2 – Apartenenta obiectelor la cluster
Avem urmatoarea repartitie, astfel:

 Cluster 1 – 14 modele de laptop
Pas 3 – Calculam mediile in fiecare cluster
Pentru a observa ce componente sunt cel mai bine reprezentate de clustere de mai sus, se
alege valoarea cea mai mare din cadrul componentelor. Astfel:
 Pentru componenta 1, este reprezentata cel mai bine de modelele de laptop din cluster 3
 Pentru componenta 2, este reprezentata cel mai bine de modelele de laptop din cluster 1
 Pentru componenta 3, este reprezentata cel mai bine de modelele de laptop din cluster
2.
24
Pas 4 – Reprezentare grafica
Variabilitatea intercluster este foarte scazuta intrucat se observa ca suprafetele se suprapun.
Pas 5 – graphic silhouette
25
Avem valori negative, ceea ce inseamna ca exista posibilitatea ca unele observatii sa fie
incluse in clustere diferite.
 Algoritmul K-means
Urmam pasii algoritmului si alegem 3 observatii de baza, alocam obiectele in clustere si
calculam centroizii.
Prin alocarea obiectelor in cluster am obtinut:
Fiecare observatie a fost alocata unui cluster din cele 3.
26
Graficul silhouette arata ca nu avem valori negative, deci observatiile sunt clasate corect.
Pentru a vedea daca observatiile au fost descompuse efficient in clustere vom calcula
variabilitatea totala, variabilitatea intraclasa si variabilitatea interclasa.
Variabilitatea interclasa are o valoare mare, insa pentru variabilitatea intraclasa avem
valori mici.
Reluam algoritmul de la pasul 2

Din dendograma obtinuta prin metoda ward se poate observa ca putem alege 3 sau 5
clustere. Vom aplica metoda k-means pentru cele 5 clustere.
Obtinem alocarea pe cele 5 clustere a observatiilor:
27
Din calculul centrozilor obtinem:
Prin realizarea graficului silhouette de aceasta data
28
Graficul silhouette arata ca nu avem valori negative, deci clasate corect.

Atunci cand calculam variabilitatea totala, intraclasa si interclasa obtinem:
Asadar, avem:
1. O valoare mult mai mare a variabilitatii interclasa fata de situatia incare am impartit
observatiile in 3 clustere
2. Valori mult mai mici ale variabilitatii intraclasa.
Asadar, modelul este mult mai eficient cu 5 clustere.
V. Clusterizarea Fuzzy
Se observa ca avem un numar de 3 clustere cu gradul de fuzzyficare 2.
29
Daca interogam coordonatele centroizilor putem interpreta in functie de acestea

componenta clusterelor.
Se poate observa ca:

 Clusterul 1 este caracterizat in mod invers dependent de componenta 3
 Clusterul 2 are o dependenta invers de componenta 1
 Clusterul 3 inregitreaza cele mai representative valori pentru componenta 1
30
De asemenea, putem observa prin apelarea sectiunii de cluster unde este plasata fiecare
observatie.
Cu ajutorul functiei de apartenenta putem observa in ce masura fiecare observatie studiata

se regaseste in fiecare cluster, luandu-se gradul cel mai mare de pe linie. Suma acestora trebuie sa
fie mereu 1.
31
Putem da exemplu modelul de laptop HP Elitebook 850 G5, unde cel mai reprezentativ
cluster este clusterul 1, regasindu-se cel mai putin in clusterul 3.
Putem identifica pentru fiecare componenta observatiile representative si carui cluster ii

apartin acestea in graficul de mai jos.
32
Daca dorim sa obtinem clusterul de care apartine o observatie in functie de valoarea

componentei vom apela functia table intre componentele din datele initiale si cluster.
33
34
Spre exemplu, pentru primul model de laptop, componenta 1 este reprezentativa pentru
cluster 2, iar componenta 3 se regaseste in clusterul 3.
Folosim functia FKM pentru o noua impartire a datelor in clustere. Se aplica fuzzy-cmeans
pentru 3 clustere.
35
Cu ajutorul functiei cl.size observam ca primul cluster contine 12 observatii, clusterul 2

contine 15 observatii iar clusterul 3 11 observatii. Desi valorile sunt diferite fata de analiza cluster
simpla, proportiile s-au pastrat in principiu.
36
Pentru a vizualiza mai bine clusterele vom realiza diagrama VAT.
Fiecare celula din figura se refera la disimilaritatea dintre o pereche de obiecte.

Disimilaritatile mici sunt reprezentate prin umbre mai intunecate, iar disimilaritatile mai mari prin
umbre mai deschise.
Putem calcula apartenenta modelelor de laptop si vom obtine:
37
Gradul cel mai mare de apartenenta se gaseste la primul model de laptop(cluster 1),
modelul 17(cluster 3), modelul 4(cluster 2), avand cele mai representative valori ale
componentelor descries de cluster.
38
VI. Clasificare
Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe

(clusters) definite algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de
informatie, fiecare grupa reprezentând mai multe puncte având caracteristici similare. Clusterele
distincte sunt disjuncte. Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai
multe euristici bazate în principal pe experienta noastra „vizuala” în gruparea punctelor în regiuni
de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele
informatii:
distanta între punctele unui spatiu multidimensional;
strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de
puncte;
distanta între doua grupe de puncte.
Cei mai importanti algoritmi de clasificare sunt: metoda celor mai apropiati vecini(KNN),
metoda SVM si arbori decizionali.
a) Metoda celor mai apropiati vecini(KNN)

Setul de date se va imparti intr-un set de antrenare si un set de testare. Pe baza algoritmului
celor mai apropiati vecini aplicat in setul de antrenare se va efectua o predictie a variabilei
calitative pentru setul de testare.
In aceasta etapa, datele vor fi normalizate, iar statisticile descriptive ale acestora vor arata
ca in figura de mai jos
39
Rezultatele obtinute in urma normalizarii sunt adaugate intr-un nou data frame folosind
functia as.data.frame(), dupa ce functia lapply() intoarce o matrice de aceeasi lungime cu setul de
date initial. Fiecare element este rezultatul aplicarii normalizarii.
Pentru a putea aplica algoritmul, vom imparti setul de date in 2 parti: una de antrenare si
una de testare. Datele vor fi impartite in 2/3 = 67% din datele originale pentru setul de antrenare
si 1/3 = 33% pentru setul de testare.
Pentru a ne crea seturile, setam un “seed”, mai exact un numar in generatorul de numere
aleatoare in R.
Ne asiguram ca datele sunt amestecate si se pastreaza aceeasi proportie in modelele de
laptopuri in seturile de antrenare si testare. Folosim functia sample() pentru a crea un esantion egal
cu numarul de obiecte din baza de date care va lua valoarea 1 sau 2 in functie de cele 2 probaiblitati
stabilite anterior.
Definim seturile de antrenare si testare, fara a lua in calcul nivelul de pret al laptopului.
40
Adaugam eticheta “Nivel” la setul de antrenare si testare si cream etichetele.
41
 Predictie:
Folosin functia knn() care foloseste distanta Euclidiana pentru a gasi cei mai apropiati k
vecini. Setam k-3 vecini.
Rezultatul comenzii este vectorul factor cu toate clasele previzionate pentru fiecare rand
din setul de date.
Afisam proportia fiecarei linii
42
Din tabelul de mai sus, putem vedea numarul de predictii corecte si incorecte. In cazul de
fata, cele 2 modele de laptopuri cu un nivel de pret “Mare” au fost previzionate corecte, similar
pentru “Mediu” si “Mic” cu numar de 3 predictii corecte.
Gradul de previzionare corecta a setului de date.
Setul a fost previzionat corecte in proportie de 62,5%.
b) Masina cu suport vectorial
Este o tehnica pentru eficientizarea aproximarii functiilor multidimensionale. Se determina

un clasificator care minimizeaza eroare setului de date. Se bazeaza pe hiperplan de separare care
delimiteaza anumite clase. Obiectele sunt mapate folosind un set de functii matematice (nuclee).
43
44
45
Analizand datele din matricea de confuzie, observam ca toate datele au fost previzionate
corect, iar algoritmul are o precizie de 100%.
c) Arbori de decizie
Este cea mai intalnita tehnica de clasificare. Acestia sunt utilizati pentru a predictiona
apartenenta obiectelor la diverse clase si au avantajul vizualizarii sugestiv. Sunt usor de inteles si
interpretat si pot fi aplicati datelor nominale si categoriale. Sunt eficienti mai ales in cazul seturilor
mari de date.
Pentru aceasta, vom incarca biblioteca party si vom construe arborele cu functia ctree.
46
 Predictia:
Conform tabelului de mai sus, toate nivelurile de pret ale laptopurile au fost previzionate
corect.
47
VII. Regresia Logistica Binomiala
Variabila dependenta lua in cazul acesta este Pretul. Vom folosi o variabila binara pentru
a afla ce modele au valoarea peste media pietei (0) si ce modele nu (1).
Calculam noile seturi de antrenare si testare realizate pe baza variabilei binare.
48
Realizam modelul de regresie intre variabila binara si capacitatea de memorie(HDD) si pret.
In continuare determinam probabilitatile de raspuns pentru setul de testare si matricea de

confuzie.
Observam ca pentru 4 modele a fost previzionat corect iar 5 au fost previzionat incorect.
49
Obtinem curba ROC si calculam aria acesteia.
Avem o valoare a ariei de sub curba ROC de 1, deci modelul se accepta.
50
VIII. Retele neuronale
Retelele neuronale artificiale caracterizeaza ansambluri de elemente de procesare simple,

puternic interconectate si operand in parallel, care urmaresc sa interactioneze cu mediul
inconjurator intr-un mod asemanator creierelor biologice si care prezinta capacitatea de a invata.
Urmeaza sa contruim setul de testare si de antrenare, iar cu ajutorul functiei neuralnet vom
contrui in final reteaua neuronala.
51
In reteaua noastra, avem 10 neuroni de intrare, reprezentati de cei 10 indicatori alesi initial,
care preiau datele de intare si 3 date de iesire, ce reprezinta modelul de laptop in functie de nivelul
pretului. Liniile negre arata legaturile dintre variabile si ponderile lor pe fiecare conexiune.
52
Concluzii
Cu ajutorul statisticilor descriptive, al analizei componentelor principale, al arborilor de

decizie si al retelelor neuronale am putut sa ne facem o imagine mai clara asupra situatiei
economice a modelelor de laptop Asus si Dell din Romania. Pentru estimare a fost aleasa variabila
Pret, puterea consumata si capacitatea acestuia.
Din realizarea unor estimari si a unor predictii a mai multor modele si tipuri de functii,
schimband pe rand metodele, variabilele si numarul acestora, concluzionam ca majoritatea
modelelor luate in calcul sunt valide din punct de vedere statistic. Dintre acestea, s-a putut observa
faptul ca metoda arborelui decizional este una optima pentru datele noastre, dar si metoda masinii
cu suport vectorial.
53

Proiect Inteligenta Computationala

Încărcat de

Drepturi de autor:

Formate disponibile

S-ar putea să vă placă și

Proiect Inteligenta Computationala

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect Inteligenta Computationala

Încărcat de

Drepturi de autor:

Formate disponibile

Academia de Studii Economice, București

Facultatea de Cibernetică, Statistică și Informatică Economică

Student: Ana Alexandru-Teodor

I. Obiectiv si sursa datelor ........................................................................................................................ 3

I. Obiectiv si sursa datelor

Fig1. Date in Excel

II. Statistici descriptive in R

Pentru aceasta, am incarcat datele fisierului Excel in R cu cele 38 modele de laptop:

In urma analizei prin comanda summary, deducem cateva observatii:

Fig3. Abaterea standard

Fig4. Skewness si kurtosis

Coeficientul de asimetrie( Skewness) se caracterizeaza prin gradul de asimetrie a unei

Fig5.1 Histograma preturilor

Fig5.2 Histograma frecventa procesor

Histograma frecventei procesorului indica o distributie aproape simetrica, cu un coeficient

Fig5.3 Histograma memoriei RAM

Fig6. Matricea de corelatie

Fig7. Matricea de corelatie forma grafica

Diagrama Boxplot ofera informatii, la fel ca si Histograma, privind forma distributiei. De

Fig8. Coeficientul de variatie

III. Analizarea Componentelor Principale

Deoarece avem indicatori de performanta ce se masoara in unitati de masura diferite, vom

Fig9. Standardizarea datelor

O metoda de a ne asigura ca datele au fost corect standardizate este compararea matricei

Fig11. Matricea de corelatie

Alegerea numarului de componente principale – Criterii

A. Criteriul lui Kaiser

B. Criteriul pantei ScreePlot

In figura de mai sus:

C. Criteriul Procentului de variatie

77,23% reprezinta procentul din informatia totala a primelor 3 componente principale.

W1=0.314*Pret + 0.226*FP + 0.312*PC + 0.394*DCP + 0.277*HDD+ 0.306*RAM+ 0.346*FM

Fig16. Matricea corelatiei factoriale

Calculul scorurilor principale; putem exemplicam pentru prima observatie si se

EB(Comp1)=0.314*1.472 + 0.226*(-0.789) + 0.312*(-0.788) + 0.394*1.206 + 0.277*(-0.776)+

EB(Comp2)=0.427*1.472 + 0.107*(-0.789) – 0.259*(-0.788) + 0.13*1.206 – 0.21*(-0.776) +

EB(Comp3)=0.303*1.472 + 0.612*(0.789) + 0.262*(-0.788) -0.315*1.206 -0.42*(-0.776) –

Fig16. Cercul corelatiilor pentru W1 si S2

Fig17. Cercul corelatiilor pentru W1 si W3

Fig18. Cercul corelatiilor pentru W2 si W3

Fig 19. Corelatia dintre prima componenta si a doua

Fig 20. Graficul corelatiilor dintre component 2 si 3

Fig 21. Graficul corelatiilor dintre component 1 si 3

Fig22. Grafic Biplot

IV. Analiza Cluster

In continuare, observam faptul ca prin agregare medie se realizeaza o clusterizare mai

Ultima metoda de ierarhizare este metoda Ward.

a) Algoritm de clusterizare ierarhica

Pas 2 – Apartenenta obiectelor la cluster

Avem urmatoarea repartitie, astfel:

Pas 4 – Reprezentare grafica

Variabilitatea intercluster este foarte scazuta intrucat se observa ca suprafetele se suprapun.

Pas 5 – graphic silhouette

Fiecare observatie a fost alocata unui cluster din cele 3.

Reluam algoritmul de la pasul 2

Obtinem alocarea pe cele 5 clustere a observatiilor:

Din calculul centrozilor obtinem:

Prin realizarea graficului silhouette de aceasta data

Graficul silhouette arata ca nu avem valori negative, deci clasate corect.

W1=0.314Pret + 0.226FP + 0.312PC + 0.394DCP + 0.277HDD+ 0.306RAM+ 0.346*FM

EB(Comp1)=0.3141.472 + 0.226(-0.789) + 0.312(-0.788) + 0.3941.206 + 0.277*(-0.776)+

EB(Comp2)=0.4271.472 + 0.107(-0.789) – 0.259(-0.788) + 0.131.206 – 0.21*(-0.776) +

EB(Comp3)=0.3031.472 + 0.612(0.789) + 0.262(-0.788) -0.3151.206 -0.42*(-0.776) –