Inteligență computațională
Proiect
Cuprins
2
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Pentru acest proiect am ales domeniul IT, mai exact piata de laptopuri din Romania pentru a
urmari ce modele sunt optime pentru cumparatori prin analiza unui set de indicatori specifici. In
acest sens, am folosit Excel pentru prelucrarea datelor si programul R pentru analiza acestora.
Datele au fost gasite pe diferite site-uri de specialitate, precum pcgarage.ro, cel.ro, emag.ro,
dar si site-urile producatorilor HP si Dell. Astfel, printre indicatorii de performanta gasiti, se
numara:
Date cantitative:
FP – Frecventa Procesorului, masurat in Ghz
DCP – Dimensiunea Cache Procesor, masurata in MB
PC – Putere Consumata, masurat in W
HDD – Capacitatea de stocare, masurata in TB
RAM – Capacitatea memoriei RAM, masurata in GB
FM – Frecventa memoriei RAM, masurata in Mhz
DiagLCD – Diagonala ecranului, masurata in Inch
GL – Greutatea Laptopului, masurata in kg
PV – Placa Video, masurata in GB
Pret – Pretul laptopului la momentul actual, masurat in mii lei.
Date calitative
Nivel – Nivel pretului. Ulterior, in analiza, se va adauga si o variabila calitativa ce va
exprima daca pretului laptopului este Mic, Mediu, Mare
Ulterior, cu ajutorul programului Excel, am ajuns la o prelucrare eficienta a datelor, dupa cum
se poate vedea si in imaginea de mai jos:
3
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
4
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Fig2. Summary
Pretul minim al unui laptop este 989 lei, pentru Dell Insprion 3552, care este unul din cele mai
ieftine modele de la Dell de pe piata, iar pretul maxim pentru un laptop este de 13709 lei, Dell
XPS 15.
Media pretului pe piata din Romania pentru un laptop Dell sau HP este de 5670 lei. De asemenea,
observam ca 75 % din laptopurile de pe piata din Romania depasesc 2540 lei.
Capacitatea memoriei de stocare (HDD) pentru 75% din laptopuri depaseste 256 GB.
Greutatea medie a unui laptop este de aproximativ 2 kg.
Pentru a afla cu cat difera valoarea asteptata a unui indicator cu valoarea reala, am folosit
abaterea standard:
Abaterea standard pentru pret este de 3.38% ceea ce indica faptul ca valoarea pretului se
abate cu 3.38% fata de media acestuia.
5
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Pentru diagonala ecranului exista o abatere de doar 1.22% fata de valoare medie a acestui
indicator.
Cea mai mica abatere se inregistreaza la greutatea laptopului, de doar 0.57%.
6
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Histograma preturilor arata ca distributia este inclinata spre stanga, cu valori extreme in
partea dreapta, fapt dovedit si prin valoarea coeficietului de asimetrie de 0.506%. De altfel,
distributia este mezokurtica, valorile fiind imprastiate in jurul mediei.
Histograma aferenta memoriei RAM prezinta o distributie inclinata spre stanga, avand
valori extreme spre dreapta (skewness 1.57%), leptokurtica cu variatii mici, dar valori
extreme(kurtosis 6.29%).
7
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Pentru a observa o legatura intre indicii de performanta si variabile, voi folosi matricea de
corelatie, ilustrata mai sus.
Coeficientul de corelatie are valori in intervalul -1 si 1.
Daca valorile sunt apropiate de 0, corelatia dintre doua variabile este slaba
Daca valorile sunt apropiate de -1 sau 1, corelatia este mai puternica.
Daca coeficientul este negative, legatura este inversa, iar daca coeficientul este pozitiv, legatura
este una directa.
8
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Din urma matricei si a graficului de mai sus, putem obtine urmatoarele informatii:
Intre valoarea pretului si memoria ram exista o legatura directa, destul de puternica, cu un
coeficientul de corelatie de 0.81.
Intre memoria RAM si greutatea laptopului exista o legatura directa, destul de slaba, cu un
coeficient de 0.07 si nu se influenteaza reciproc.
Intre frecventa procesorului si ceilalti indicatori, cu exceptia pretului, exista o legatura directa,
destul de slab, concluzionand faptul ca nu se influenteaza reciproc.
Fig8. Boxplot
Pentru a observa daca media este reprezentativa sau nu, vom folosi coeficientul de
variatie. In unele situatii, cum ar fi in cazul puterii consumate de catre laptop, media nu este
reprezentativa (53.6% > 35%), dar in cazul Pretului pentru un laptop, media este reprezentativa (
29,1% < 35%).
9
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
unde reprezinta media lui i variabile, iar Si reprezinta abaterea standard a variabilei Xi.
10
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
11
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Fig10. Covarianta
12
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Dupa cum se poate observa, datele din cele doua matrici sunt identice, astfel standardizarea
este realizata corect.
Fig12.
Numarul de componente principale este dat de numarul componentelor ce au varianta mai
mare ca 1. In figura de mai sus, componentele 1,2 si 3 au valori peste 1, acestea preluand cele mai
mari procente ale informatiei totale.
13
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Fig13.
Fig14. ScreePlot
Conform criteriului pantei, componentele ce au varianța mai mare decat 1 sunt componente
principale. Astfel, conform figurei de mai sus, numarul de componente principale este egal cu 3.
14
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Fig15.
Din figura de mai sus, vom folosi primele 3 componente principale pentru a scrie forma
generala:
15
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Din figura 16., in care este reprezentata matricea corelatiei factoriale, putem deduce mai
multe observatii precum:
W1 are o legatura directa puternica cu valoarea pentru Placa Video (0.89) si Dimensiunea Cache
Procesor (0.88)
W2 are o legatura directa, dar destul de slaba cu valoarea pentru Placa Video (0.01) dar si o legatura
inversa directa cu Greutatea Laptopului (-0.64)
W3 are o legatura directa destul de puternica cu valoarea pentru Frecventa Procesor (0.61) dar
foarte slaba, tinzand catre 0 cu Placa Video (0.007)
16
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
17
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Grafice componente
Figura de mai sus descrie legatura dintre observatii si componentele principale(in cazul
nostru, prima componenta si a doua) in functie de nivelul de corelatie. Astfel, HP Elitebook 820
G4 este una din observatiile care ies din tipar, fiind corelata pozitiv de ambele componente, insa
mai puternic de a doua componenta. De asemenea, laptopul Dell Alienware 15 are o legatura
directa puternica cu prima componenta, insa o legatura inversa cu a doua componenta.
Urmatoarele grafice ilustreaza aceleasi corelatii bazandu-se pe a doua si a treia
componenta, respectiv prima si a treia componenta.
18
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
19
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Analiza cluster poate fi privită ca un instrument care are ca scop reducerea unor mulțimi
de obiecte, sau chiar de variabile, la un număr mai restrâns de entități informaționale, care sunt
clasele sau clusterele. Totuși, deși analiza cluster, privită ca un ansamblu de metode și tehnici de
clasificare a obiectelor, se aplică în spațiul variabilelor, utilizările frecvente ale acestor tehnici de
analiză se remarcă pentru clasificarea obiectelor.
Vom utiliza scorurile principale pentru fiecare observație în cele 3 componente stabilite la
analiza componentelor principale.
Pentru început vom utiliza metoda ierarhică și vom începe cu calculul matricei de distanțe.
20
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
După calculul matricii distanțelor folosim dendograma clusterelor pentru a realiza o ierarhie.
21
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
In final, se poate observa ca cea mai eficienta metoda de ierarhizare este metoda Ward. Astfel,
putem imparti datele in 3 clustere.
22
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
23
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Pentru a observa ce componente sunt cel mai bine reprezentate de clustere de mai sus, se
alege valoarea cea mai mare din cadrul componentelor. Astfel:
Pentru componenta 1, este reprezentata cel mai bine de modelele de laptop din cluster 3
Pentru componenta 2, este reprezentata cel mai bine de modelele de laptop din cluster 1
Pentru componenta 3, este reprezentata cel mai bine de modelele de laptop din cluster
2.
24
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
25
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Avem valori negative, ceea ce inseamna ca exista posibilitatea ca unele observatii sa fie
incluse in clustere diferite.
Algoritmul K-means
Urmam pasii algoritmului si alegem 3 observatii de baza, alocam obiectele in clustere si
calculam centroizii.
Prin alocarea obiectelor in cluster am obtinut:
26
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Graficul silhouette arata ca nu avem valori negative, deci observatiile sunt clasate corect.
Pentru a vedea daca observatiile au fost descompuse efficient in clustere vom calcula
variabilitatea totala, variabilitatea intraclasa si variabilitatea interclasa.
Variabilitatea interclasa are o valoare mare, insa pentru variabilitatea intraclasa avem
valori mici.
27
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
28
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Asadar, avem:
1. O valoare mult mai mare a variabilitatii interclasa fata de situatia incare am impartit
observatiile in 3 clustere
2. Valori mult mai mici ale variabilitatii intraclasa.
Asadar, modelul este mult mai eficient cu 5 clustere.
V. Clusterizarea Fuzzy
29
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
30
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
De asemenea, putem observa prin apelarea sectiunii de cluster unde este plasata fiecare
observatie.
31
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Putem da exemplu modelul de laptop HP Elitebook 850 G5, unde cel mai reprezentativ
cluster este clusterul 1, regasindu-se cel mai putin in clusterul 3.
32
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
33
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
34
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Spre exemplu, pentru primul model de laptop, componenta 1 este reprezentativa pentru
cluster 2, iar componenta 3 se regaseste in clusterul 3.
Folosim functia FKM pentru o noua impartire a datelor in clustere. Se aplica fuzzy-cmeans
pentru 3 clustere.
35
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
36
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
37
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Gradul cel mai mare de apartenenta se gaseste la primul model de laptop(cluster 1),
modelul 17(cluster 3), modelul 4(cluster 2), avand cele mai representative valori ale
componentelor descries de cluster.
38
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
VI. Clasificare
In aceasta etapa, datele vor fi normalizate, iar statisticile descriptive ale acestora vor arata
ca in figura de mai jos
39
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Rezultatele obtinute in urma normalizarii sunt adaugate intr-un nou data frame folosind
functia as.data.frame(), dupa ce functia lapply() intoarce o matrice de aceeasi lungime cu setul de
date initial. Fiecare element este rezultatul aplicarii normalizarii.
Pentru a putea aplica algoritmul, vom imparti setul de date in 2 parti: una de antrenare si
una de testare. Datele vor fi impartite in 2/3 = 67% din datele originale pentru setul de antrenare
si 1/3 = 33% pentru setul de testare.
Pentru a ne crea seturile, setam un “seed”, mai exact un numar in generatorul de numere
aleatoare in R.
Ne asiguram ca datele sunt amestecate si se pastreaza aceeasi proportie in modelele de
laptopuri in seturile de antrenare si testare. Folosim functia sample() pentru a crea un esantion egal
cu numarul de obiecte din baza de date care va lua valoarea 1 sau 2 in functie de cele 2 probaiblitati
stabilite anterior.
Definim seturile de antrenare si testare, fara a lua in calcul nivelul de pret al laptopului.
40
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
41
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Predictie:
Folosin functia knn() care foloseste distanta Euclidiana pentru a gasi cei mai apropiati k
vecini. Setam k-3 vecini.
Rezultatul comenzii este vectorul factor cu toate clasele previzionate pentru fiecare rand
din setul de date.
42
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Din tabelul de mai sus, putem vedea numarul de predictii corecte si incorecte. In cazul de
fata, cele 2 modele de laptopuri cu un nivel de pret “Mare” au fost previzionate corecte, similar
pentru “Mediu” si “Mic” cu numar de 3 predictii corecte.
43
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
44
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
45
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Analizand datele din matricea de confuzie, observam ca toate datele au fost previzionate
corect, iar algoritmul are o precizie de 100%.
c) Arbori de decizie
Este cea mai intalnita tehnica de clasificare. Acestia sunt utilizati pentru a predictiona
apartenenta obiectelor la diverse clase si au avantajul vizualizarii sugestiv. Sunt usor de inteles si
interpretat si pot fi aplicati datelor nominale si categoriale. Sunt eficienti mai ales in cazul seturilor
mari de date.
Pentru aceasta, vom incarca biblioteca party si vom construe arborele cu functia ctree.
46
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Predictia:
Conform tabelului de mai sus, toate nivelurile de pret ale laptopurile au fost previzionate
corect.
47
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Variabila dependenta lua in cazul acesta este Pretul. Vom folosi o variabila binara pentru
a afla ce modele au valoarea peste media pietei (0) si ce modele nu (1).
48
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Observam ca pentru 4 modele a fost previzionat corect iar 5 au fost previzionat incorect.
49
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
50
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Urmeaza sa contruim setul de testare si de antrenare, iar cu ajutorul functiei neuralnet vom
contrui in final reteaua neuronala.
51
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
In reteaua noastra, avem 10 neuroni de intrare, reprezentati de cei 10 indicatori alesi initial,
care preiau datele de intare si 3 date de iesire, ce reprezinta modelul de laptop in functie de nivelul
pretului. Liniile negre arata legaturile dintre variabile si ponderile lor pe fiecare conexiune.
52
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Concluzii
53