Proiect Inteligenta Computationala

S-ar putea să vă placă și

Descărcați ca docx, pdf sau txt
Descărcați ca docx, pdf sau txt
Sunteți pe pagina 1din 53

Academia de Studii Economice, București

Facultatea de Cibernetică, Statistică și Informatică Economică


Specializarea: Cibernetica Economică

Inteligență computațională
Proiect

Student: Ana Alexandru-Teodor


Grupa: 1063
Seria: B
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Cuprins

I. Obiectiv si sursa datelor ........................................................................................................................ 3


II. Statistici descriptive in R ...................................................................................................................... 4
III. Analizarea Componentelor Principale ............................................................................................ 10
IV. Analiza Cluster................................................................................................................................ 20
V. Clusterizarea Fuzzy ............................................................................................................................. 29
VI. Clasificare ....................................................................................................................................... 39
a) Metoda celor mai apropiati vecini(KNN) ....................................................................................... 39
b) Masina cu suport vectorial .............................................................................................................. 43
c) Arbori de decizie ............................................................................................................................. 46
VII. Regresia Logistica Binomiala ......................................................................................................... 48
VIII. Retele neuronale.............................................................................................................................. 51
Concluzii ..................................................................................................................................................... 53

2
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

I. Obiectiv si sursa datelor

Pentru acest proiect am ales domeniul IT, mai exact piata de laptopuri din Romania pentru a
urmari ce modele sunt optime pentru cumparatori prin analiza unui set de indicatori specifici. In
acest sens, am folosit Excel pentru prelucrarea datelor si programul R pentru analiza acestora.
Datele au fost gasite pe diferite site-uri de specialitate, precum pcgarage.ro, cel.ro, emag.ro,
dar si site-urile producatorilor HP si Dell. Astfel, printre indicatorii de performanta gasiti, se
numara:
Date cantitative:
 FP – Frecventa Procesorului, masurat in Ghz
 DCP – Dimensiunea Cache Procesor, masurata in MB
 PC – Putere Consumata, masurat in W
 HDD – Capacitatea de stocare, masurata in TB
 RAM – Capacitatea memoriei RAM, masurata in GB
 FM – Frecventa memoriei RAM, masurata in Mhz
 DiagLCD – Diagonala ecranului, masurata in Inch
 GL – Greutatea Laptopului, masurata in kg
 PV – Placa Video, masurata in GB
 Pret – Pretul laptopului la momentul actual, masurat in mii lei.
Date calitative
 Nivel – Nivel pretului. Ulterior, in analiza, se va adauga si o variabila calitativa ce va
exprima daca pretului laptopului este Mic, Mediu, Mare

Ulterior, cu ajutorul programului Excel, am ajuns la o prelucrare eficienta a datelor, dupa cum
se poate vedea si in imaginea de mai jos:

3
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig1. Date in Excel

II. Statistici descriptive in R

Pentru aceasta, am incarcat datele fisierului Excel in R cu cele 38 modele de laptop:

4
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig2. Summary

In urma analizei prin comanda summary, deducem cateva observatii:

 Pretul minim al unui laptop este 989 lei, pentru Dell Insprion 3552, care este unul din cele mai
ieftine modele de la Dell de pe piata, iar pretul maxim pentru un laptop este de 13709 lei, Dell
XPS 15.
 Media pretului pe piata din Romania pentru un laptop Dell sau HP este de 5670 lei. De asemenea,
observam ca 75 % din laptopurile de pe piata din Romania depasesc 2540 lei.
 Capacitatea memoriei de stocare (HDD) pentru 75% din laptopuri depaseste 256 GB.
 Greutatea medie a unui laptop este de aproximativ 2 kg.

Pentru a afla cu cat difera valoarea asteptata a unui indicator cu valoarea reala, am folosit
abaterea standard:

Fig3. Abaterea standard

Abaterea standard pentru pret este de 3.38% ceea ce indica faptul ca valoarea pretului se
abate cu 3.38% fata de media acestuia.

5
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Pentru diagonala ecranului exista o abatere de doar 1.22% fata de valoare medie a acestui
indicator.
Cea mai mica abatere se inregistreaza la greutatea laptopului, de doar 0.57%.

Fig4. Skewness si kurtosis

Coeficientul de asimetrie( Skewness) se caracterizeaza prin gradul de asimetrie a unei


repartitii, si alaturi de coeficientul de aplatizare (Kurtosis), indica forma repartitiei (prezentata
sub forma unei histograme).
Din figura de mai sus, se poate deduce ca valoarea coeficientului de asimetrie este de 0.506,
care este mai mare ca 0, ceea ce inseamna o usoara inclinatie a distributiei spre stanga, avand mai
multe valori extreme spre dreapta. Coeficientul de aplatizare este de 2.24 < 3, distributia fiind
mezokurtica, astfel avand valori imprastiate pe un interval mai mare in jurul mediei.
Frecventa memoriei RAM, analizat prin prisma celor doi indici, arata o distributie usor
inclinata spre dreapta, cu valori extreme spre stanga ( gradul de asimetrie -0.522 < 0), totodata
fiind si platikurtica avand la randu-I mai multe valori in jurul mediei.
Memoria RAM prezinta o distributie inclinata spre stanga, avand valori extreme in partea
dreapta (skewness 1.57 > 0), leptokurtica (6.22 >0), ceea ce ar putea indica faptul ca exista
probabilitati ridicate pentru valori extreme.
Pentru a sustine ceea ce am mentionat si mai sus, vom folosi reprezentarea grafica a
distributiilor identificate cu ajutorul histogramelor. Cu alte cuvinte, o histograma este de fapt o
diagrama, care, impartite pe intervale de date si pe numarul de observatii, vor rezulta o multime
de arii proportionate.

Fig5.1 Histograma preturilor

6
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Histograma preturilor arata ca distributia este inclinata spre stanga, cu valori extreme in
partea dreapta, fapt dovedit si prin valoarea coeficietului de asimetrie de 0.506%. De altfel,
distributia este mezokurtica, valorile fiind imprastiate in jurul mediei.

Fig5.2 Histograma frecventa procesor

Histograma frecventei procesorului indica o distributie aproape simetrica, cu un coeficient


de asimetrie de -0.06, foarte apropiata de 0. Distributia este mezokurtica, valori imprastiindu-se in
jurul mediei.

Fig5.3 Histograma memoriei RAM

Histograma aferenta memoriei RAM prezinta o distributie inclinata spre stanga, avand
valori extreme spre dreapta (skewness 1.57%), leptokurtica cu variatii mici, dar valori
extreme(kurtosis 6.29%).

7
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig6. Matricea de corelatie

Pentru a observa o legatura intre indicii de performanta si variabile, voi folosi matricea de
corelatie, ilustrata mai sus.
Coeficientul de corelatie are valori in intervalul -1 si 1.
 Daca valorile sunt apropiate de 0, corelatia dintre doua variabile este slaba
 Daca valorile sunt apropiate de -1 sau 1, corelatia este mai puternica.
 Daca coeficientul este negative, legatura este inversa, iar daca coeficientul este pozitiv, legatura
este una directa.

Fig7. Matricea de corelatie forma grafica

8
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Din urma matricei si a graficului de mai sus, putem obtine urmatoarele informatii:
 Intre valoarea pretului si memoria ram exista o legatura directa, destul de puternica, cu un
coeficientul de corelatie de 0.81.
 Intre memoria RAM si greutatea laptopului exista o legatura directa, destul de slaba, cu un
coeficient de 0.07 si nu se influenteaza reciproc.
 Intre frecventa procesorului si ceilalti indicatori, cu exceptia pretului, exista o legatura directa,
destul de slab, concluzionand faptul ca nu se influenteaza reciproc.

Diagrama Boxplot ofera informatii, la fel ca si Histograma, privind forma distributiei. De


asemenea, un Boxplot se rezuma la cinci aspecte: valoarea minima, valoarea maxima, prima
quartile, mediana si a 3a quartile. Totodata, exista si valori outside the box, denumite outlier.
Boxplot-urile de mai jos sustin rezultatele obtinute anterior despre coeficientul de aplatizare
pentru indicatorii de performanta analizati. Cu exceptia unui indice de performanta (greutatea
laptopului), toti ceilalti sunt lipsiti de outlieri, ceea ce inseamna ca nu influenteaza media sau
skewness si kurtosis.

Fig8. Boxplot

Pentru a observa daca media este reprezentativa sau nu, vom folosi coeficientul de
variatie. In unele situatii, cum ar fi in cazul puterii consumate de catre laptop, media nu este
reprezentativa (53.6% > 35%), dar in cazul Pretului pentru un laptop, media este reprezentativa (
29,1% < 35%).

9
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig8. Coeficientul de variatie

III. Analizarea Componentelor Principale

Deoarece avem indicatori de performanta ce se masoara in unitati de masura diferite, vom


utiliza standardizarea datelor. Standardizarea datelor presupune substituirea valorilor cu o noua
valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a
respectivei variabile:

unde reprezinta media lui i variabile, iar Si reprezinta abaterea standard a variabilei Xi.

10
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig9. Standardizarea datelor

O metoda de a ne asigura ca datele au fost corect standardizate este compararea matricei


de covarianta cu cea de corelatie. In cazul in care acestea sunt identice, rezulta ca standardizarea a
fost realizata corect.

11
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig10. Covarianta

Fig11. Matricea de corelatie

12
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Dupa cum se poate observa, datele din cele doua matrici sunt identice, astfel standardizarea
este realizata corect.

Alegerea numarului de componente principale – Criterii

A. Criteriul lui Kaiser

Fig12.
Numarul de componente principale este dat de numarul componentelor ce au varianta mai
mare ca 1. In figura de mai sus, componentele 1,2 si 3 au valori peste 1, acestea preluand cele mai
mari procente ale informatiei totale.

B. Criteriul pantei ScreePlot

13
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig13.

In figura de mai sus:


 Valp – reprezinta valoarea varianței fiecarei componente
 ProcentA – reprezinta procentul de informatie din informatia totala
 ProcentC – reprezinta varianța cumulate

Fig14. ScreePlot

Conform criteriului pantei, componentele ce au varianța mai mare decat 1 sunt componente
principale. Astfel, conform figurei de mai sus, numarul de componente principale este egal cu 3.

C. Criteriul Procentului de variatie

77,23% reprezinta procentul din informatia totala a primelor 3 componente principale.


Analizand, observam ca 22,77% din informatia totala se pierde.

14
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig15.

Din figura de mai sus, vom folosi primele 3 componente principale pentru a scrie forma
generala:

W1=0.314*Pret + 0.226*FP + 0.312*PC + 0.394*DCP + 0.277*HDD+ 0.306*RAM+ 0.346*FM


+ 0.256*DiagLCD + 0.286*GL + 0.401*PV
W2=0.427*Pret + 0.107*FP – 0.259*PC + 0.13*DCP – 0.21*HDD + 0.461*RAM +0.124*FM
-0.451*DiagLCD – 0.497*GL
W3=0.303*Pret + 0.612*FP + 0.262*PC -0.315*DCP -0.42*HDD – 0.399*FM
+0.122*DiagLCD+0.122*GL

Fig16. Matricea corelatiei factoriale

Calculul scorurilor principale; putem exemplicam pentru prima observatie si se


calculeaza pentru fiecare componenta principala:

15
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

EB(Comp1)=0.314*1.472 + 0.226*(-0.789) + 0.312*(-0.788) + 0.394*1.206 + 0.277*(-0.776)+


0.306*1.089+ 0.346*0.726 + 0.256*0.715 + 0.286*(-0.36) + 0.401*(-0.139)=0.7

EB(Comp2)=0.427*1.472 + 0.107*(-0.789) – 0.259*(-0.788) + 0.13*1.206 – 0.21*(-0.776) +


0.461*1.089 +0.124*0.726 -0.451*0.715 – 0.497*(-0.36)=0.55

EB(Comp3)=0.303*1.472 + 0.612*(0.789) + 0.262*(-0.788) -0.315*1.206 -0.42*(-0.776) –


0.399*0.726 +0.122*0.715+0.122*(-0.36)=0.3

Din figura 16., in care este reprezentata matricea corelatiei factoriale, putem deduce mai
multe observatii precum:
 W1 are o legatura directa puternica cu valoarea pentru Placa Video (0.89) si Dimensiunea Cache
Procesor (0.88)
 W2 are o legatura directa, dar destul de slaba cu valoarea pentru Placa Video (0.01) dar si o legatura
inversa directa cu Greutatea Laptopului (-0.64)
 W3 are o legatura directa destul de puternica cu valoarea pentru Frecventa Procesor (0.61) dar
foarte slaba, tinzand catre 0 cu Placa Video (0.007)

Fig16. Cercul corelatiilor pentru W1 si S2

16
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig17. Cercul corelatiilor pentru W1 si W3

Fig18. Cercul corelatiilor pentru W2 si W3

17
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

 Grafice componente

Fig 19. Corelatia dintre prima componenta si a doua

Figura de mai sus descrie legatura dintre observatii si componentele principale(in cazul
nostru, prima componenta si a doua) in functie de nivelul de corelatie. Astfel, HP Elitebook 820
G4 este una din observatiile care ies din tipar, fiind corelata pozitiv de ambele componente, insa
mai puternic de a doua componenta. De asemenea, laptopul Dell Alienware 15 are o legatura
directa puternica cu prima componenta, insa o legatura inversa cu a doua componenta.
Urmatoarele grafice ilustreaza aceleasi corelatii bazandu-se pe a doua si a treia
componenta, respectiv prima si a treia componenta.

18
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig 20. Graficul corelatiilor dintre component 2 si 3

Fig 21. Graficul corelatiilor dintre component 1 si 3

19
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Fig22. Grafic Biplot

IV. Analiza Cluster

Analiza cluster poate fi privită ca un instrument care are ca scop reducerea unor mulțimi
de obiecte, sau chiar de variabile, la un număr mai restrâns de entități informaționale, care sunt
clasele sau clusterele. Totuși, deși analiza cluster, privită ca un ansamblu de metode și tehnici de
clasificare a obiectelor, se aplică în spațiul variabilelor, utilizările frecvente ale acestor tehnici de
analiză se remarcă pentru clasificarea obiectelor.
Vom utiliza scorurile principale pentru fiecare observație în cele 3 componente stabilite la
analiza componentelor principale.
Pentru început vom utiliza metoda ierarhică și vom începe cu calculul matricei de distanțe.

20
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

După calculul matricii distanțelor folosim dendograma clusterelor pentru a realiza o ierarhie.

In continuare, observam faptul ca prin agregare medie se realizeaza o clusterizare mai


eficienta fata de cea precedenta.

21
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Ultima metoda de ierarhizare este metoda Ward.

In final, se poate observa ca cea mai eficienta metoda de ierarhizare este metoda Ward. Astfel,
putem imparti datele in 3 clustere.

22
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

a) Algoritm de clusterizare ierarhica


Pas 1: Taietura in dendograma

23
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Pas 2 – Apartenenta obiectelor la cluster

Avem urmatoarea repartitie, astfel:


 Cluster 1 – 14 modele de laptop
 Cluster 2 – 14 modele de laptop
 Cluster 3 – 10 modele de laptop
Pas 3 – Calculam mediile in fiecare cluster

Pentru a observa ce componente sunt cel mai bine reprezentate de clustere de mai sus, se
alege valoarea cea mai mare din cadrul componentelor. Astfel:
 Pentru componenta 1, este reprezentata cel mai bine de modelele de laptop din cluster 3
 Pentru componenta 2, este reprezentata cel mai bine de modelele de laptop din cluster 1
 Pentru componenta 3, este reprezentata cel mai bine de modelele de laptop din cluster
2.

24
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Pas 4 – Reprezentare grafica

Variabilitatea intercluster este foarte scazuta intrucat se observa ca suprafetele se suprapun.

Pas 5 – graphic silhouette

25
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Avem valori negative, ceea ce inseamna ca exista posibilitatea ca unele observatii sa fie
incluse in clustere diferite.
 Algoritmul K-means
Urmam pasii algoritmului si alegem 3 observatii de baza, alocam obiectele in clustere si
calculam centroizii.
Prin alocarea obiectelor in cluster am obtinut:

Fiecare observatie a fost alocata unui cluster din cele 3.

26
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Graficul silhouette arata ca nu avem valori negative, deci observatiile sunt clasate corect.

Pentru a vedea daca observatiile au fost descompuse efficient in clustere vom calcula
variabilitatea totala, variabilitatea intraclasa si variabilitatea interclasa.

Variabilitatea interclasa are o valoare mare, insa pentru variabilitatea intraclasa avem
valori mici.

Reluam algoritmul de la pasul 2


Din dendograma obtinuta prin metoda ward se poate observa ca putem alege 3 sau 5
clustere. Vom aplica metoda k-means pentru cele 5 clustere.

Obtinem alocarea pe cele 5 clustere a observatiilor:

27
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Din calculul centrozilor obtinem:

Prin realizarea graficului silhouette de aceasta data

28
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Graficul silhouette arata ca nu avem valori negative, deci clasate corect.


Atunci cand calculam variabilitatea totala, intraclasa si interclasa obtinem:

Asadar, avem:
1. O valoare mult mai mare a variabilitatii interclasa fata de situatia incare am impartit
observatiile in 3 clustere
2. Valori mult mai mici ale variabilitatii intraclasa.
Asadar, modelul este mult mai eficient cu 5 clustere.

V. Clusterizarea Fuzzy

Se observa ca avem un numar de 3 clustere cu gradul de fuzzyficare 2.

29
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Daca interogam coordonatele centroizilor putem interpreta in functie de acestea


componenta clusterelor.

Se poate observa ca:


 Clusterul 1 este caracterizat in mod invers dependent de componenta 3
 Clusterul 2 are o dependenta invers de componenta 1
 Clusterul 3 inregitreaza cele mai representative valori pentru componenta 1

30
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

De asemenea, putem observa prin apelarea sectiunii de cluster unde este plasata fiecare
observatie.

Cu ajutorul functiei de apartenenta putem observa in ce masura fiecare observatie studiata


se regaseste in fiecare cluster, luandu-se gradul cel mai mare de pe linie. Suma acestora trebuie sa
fie mereu 1.

31
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Putem da exemplu modelul de laptop HP Elitebook 850 G5, unde cel mai reprezentativ
cluster este clusterul 1, regasindu-se cel mai putin in clusterul 3.

Putem identifica pentru fiecare componenta observatiile representative si carui cluster ii


apartin acestea in graficul de mai jos.

32
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Daca dorim sa obtinem clusterul de care apartine o observatie in functie de valoarea


componentei vom apela functia table intre componentele din datele initiale si cluster.

33
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

34
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Spre exemplu, pentru primul model de laptop, componenta 1 este reprezentativa pentru
cluster 2, iar componenta 3 se regaseste in clusterul 3.

Folosim functia FKM pentru o noua impartire a datelor in clustere. Se aplica fuzzy-cmeans
pentru 3 clustere.

35
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Cu ajutorul functiei cl.size observam ca primul cluster contine 12 observatii, clusterul 2


contine 15 observatii iar clusterul 3 11 observatii. Desi valorile sunt diferite fata de analiza cluster
simpla, proportiile s-au pastrat in principiu.

36
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Pentru a vizualiza mai bine clusterele vom realiza diagrama VAT.

Fiecare celula din figura se refera la disimilaritatea dintre o pereche de obiecte.


Disimilaritatile mici sunt reprezentate prin umbre mai intunecate, iar disimilaritatile mai mari prin
umbre mai deschise.

Putem calcula apartenenta modelelor de laptop si vom obtine:

37
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Gradul cel mai mare de apartenenta se gaseste la primul model de laptop(cluster 1),
modelul 17(cluster 3), modelul 4(cluster 2), avand cele mai representative valori ale
componentelor descries de cluster.

38
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

VI. Clasificare

Algoritmi de clasificare sunt folositi pentru a grupa date multi-dimensionale în grupe


(clusters) definite algoritmic. Aceasta metoda este utila pentru cuantificarea unor cantitati mari de
informatie, fiecare grupa reprezentând mai multe puncte având caracteristici similare. Clusterele
distincte sunt disjuncte. Analiza clasificarii consta dintr-o serie de algoritmi ce exploateaza mai
multe euristici bazate în principal pe experienta noastra „vizuala” în gruparea punctelor în regiuni
de puncte.
În general, pentru a putea folosi un algoritm de clasificare, este nevoie de urmatoarele
informatii:
distanta între punctele unui spatiu multidimensional;
strategia de alegere a punctului reprezentativ (adica a „centrului”) pentru orice grupare de
puncte;
distanta între doua grupe de puncte.
Cei mai importanti algoritmi de clasificare sunt: metoda celor mai apropiati vecini(KNN),
metoda SVM si arbori decizionali.

a) Metoda celor mai apropiati vecini(KNN)


Setul de date se va imparti intr-un set de antrenare si un set de testare. Pe baza algoritmului
celor mai apropiati vecini aplicat in setul de antrenare se va efectua o predictie a variabilei
calitative pentru setul de testare.

In aceasta etapa, datele vor fi normalizate, iar statisticile descriptive ale acestora vor arata
ca in figura de mai jos

39
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Rezultatele obtinute in urma normalizarii sunt adaugate intr-un nou data frame folosind
functia as.data.frame(), dupa ce functia lapply() intoarce o matrice de aceeasi lungime cu setul de
date initial. Fiecare element este rezultatul aplicarii normalizarii.
Pentru a putea aplica algoritmul, vom imparti setul de date in 2 parti: una de antrenare si
una de testare. Datele vor fi impartite in 2/3 = 67% din datele originale pentru setul de antrenare
si 1/3 = 33% pentru setul de testare.
Pentru a ne crea seturile, setam un “seed”, mai exact un numar in generatorul de numere
aleatoare in R.
Ne asiguram ca datele sunt amestecate si se pastreaza aceeasi proportie in modelele de
laptopuri in seturile de antrenare si testare. Folosim functia sample() pentru a crea un esantion egal
cu numarul de obiecte din baza de date care va lua valoarea 1 sau 2 in functie de cele 2 probaiblitati
stabilite anterior.
Definim seturile de antrenare si testare, fara a lua in calcul nivelul de pret al laptopului.

40
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Adaugam eticheta “Nivel” la setul de antrenare si testare si cream etichetele.

41
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

 Predictie:
Folosin functia knn() care foloseste distanta Euclidiana pentru a gasi cei mai apropiati k
vecini. Setam k-3 vecini.

Rezultatul comenzii este vectorul factor cu toate clasele previzionate pentru fiecare rand
din setul de date.

Afisam proportia fiecarei linii

42
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Din tabelul de mai sus, putem vedea numarul de predictii corecte si incorecte. In cazul de
fata, cele 2 modele de laptopuri cu un nivel de pret “Mare” au fost previzionate corecte, similar
pentru “Mediu” si “Mic” cu numar de 3 predictii corecte.

Gradul de previzionare corecta a setului de date.

Setul a fost previzionat corecte in proportie de 62,5%.

b) Masina cu suport vectorial

Este o tehnica pentru eficientizarea aproximarii functiilor multidimensionale. Se determina


un clasificator care minimizeaza eroare setului de date. Se bazeaza pe hiperplan de separare care
delimiteaza anumite clase. Obiectele sunt mapate folosind un set de functii matematice (nuclee).

43
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

44
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

45
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Analizand datele din matricea de confuzie, observam ca toate datele au fost previzionate
corect, iar algoritmul are o precizie de 100%.

c) Arbori de decizie

Este cea mai intalnita tehnica de clasificare. Acestia sunt utilizati pentru a predictiona
apartenenta obiectelor la diverse clase si au avantajul vizualizarii sugestiv. Sunt usor de inteles si
interpretat si pot fi aplicati datelor nominale si categoriale. Sunt eficienti mai ales in cazul seturilor
mari de date.

Pentru aceasta, vom incarca biblioteca party si vom construe arborele cu functia ctree.

46
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

 Predictia:

Conform tabelului de mai sus, toate nivelurile de pret ale laptopurile au fost previzionate
corect.

47
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

VII. Regresia Logistica Binomiala

Variabila dependenta lua in cazul acesta este Pretul. Vom folosi o variabila binara pentru
a afla ce modele au valoarea peste media pietei (0) si ce modele nu (1).

Calculam noile seturi de antrenare si testare realizate pe baza variabilei binare.

48
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Realizam modelul de regresie intre variabila binara si capacitatea de memorie(HDD) si pret.

In continuare determinam probabilitatile de raspuns pentru setul de testare si matricea de


confuzie.

Observam ca pentru 4 modele a fost previzionat corect iar 5 au fost previzionat incorect.

49
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

Obtinem curba ROC si calculam aria acesteia.

Avem o valoare a ariei de sub curba ROC de 1, deci modelul se accepta.

50
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

VIII. Retele neuronale

Retelele neuronale artificiale caracterizeaza ansambluri de elemente de procesare simple,


puternic interconectate si operand in parallel, care urmaresc sa interactioneze cu mediul
inconjurator intr-un mod asemanator creierelor biologice si care prezinta capacitatea de a invata.

Urmeaza sa contruim setul de testare si de antrenare, iar cu ajutorul functiei neuralnet vom
contrui in final reteaua neuronala.

51
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică

In reteaua noastra, avem 10 neuroni de intrare, reprezentati de cei 10 indicatori alesi initial,
care preiau datele de intare si 3 date de iesire, ce reprezinta modelul de laptop in functie de nivelul
pretului. Liniile negre arata legaturile dintre variabile si ponderile lor pe fiecare conexiune.

52
Academia de Studii Economice, București
Facultatea de Cibernetică, Statistică și Informatică Economică
Specializarea: Cibernetica Economică
Concluzii

Cu ajutorul statisticilor descriptive, al analizei componentelor principale, al arborilor de


decizie si al retelelor neuronale am putut sa ne facem o imagine mai clara asupra situatiei
economice a modelelor de laptop Asus si Dell din Romania. Pentru estimare a fost aleasa variabila
Pret, puterea consumata si capacitatea acestuia.
Din realizarea unor estimari si a unor predictii a mai multor modele si tipuri de functii,
schimband pe rand metodele, variabilele si numarul acestora, concluzionam ca majoritatea
modelelor luate in calcul sunt valide din punct de vedere statistic. Dintre acestea, s-a putut observa
faptul ca metoda arborelui decizional este una optima pentru datele noastre, dar si metoda masinii
cu suport vectorial.

53

S-ar putea să vă placă și