Sunteți pe pagina 1din 24

Cuprins

Cuprins................................................................................................................................2
Introducere..........................................................................................................................3
I. Analiza componentelor principale...................................................................................4
1.1. Standardizarea datelor........................................................................................4
1.2. Matricea de corelatie..........................................................................................5
1.3. Vectorii si valorile proprii..................................................................................6
1.4. Reprezentarea grafica.........................................................................................7
II. Analiza factoriala...........................................................................................................9
2.1. Matricea de corelatie..........................................................................................9
2.2. Corelarea factorilor..........................................................................................10
2.3. Graficul corelarii..............................................................................................10
2.4. Descompunerea variabilitatii...........................................................................11
2.5. Scorurile factor................................................................................................11
III. Analiza cluster............................................................................................................12
3.1. Clasificarea variabilelor prin Metoda lui Ward..............................................12
3.2. Clasificarea variabilelor prin Metoda agregarii complete .............................13
3.3. Clasificarea indivizilor prin Metoda lui Ward................................................15
3.4. Clasificarea indivizilor prin Metoda agregarii complete ...............................16
IV. Analiza discriminanta.................................................................................................18
4.1. Clasificatorul lui Bayes...................................................................................18
4.2. Clasificatorul lui Fisher...................................................................................20
Concluzii..........................................................................................................................22
Bibliografie......................................................................................................................23
Introducere
In cele ce urmeaza am realizat o canaliza a ofertei de autoturisme a unui dealer. Scopul final este
acela de a stabili care sunt caracteristicile definitorii in alegerea unei masini personale.
Tabelul urmator contine caracteristicile a 26 de mărci de autoturisme oferite spre vânzare. Tabelul
are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte
caracteristici tehnice şi de confort ale autoturismelor:
1. Preţul ($);
2. Capacitatea cilindrică (cmc);
3. Viteza maximă (km/h);
4. Consumul de carburant (litri/100 km);
5. Capacitatea habitaclului(cmc);
6. Lungimea (cm);
7. Raportul greutate-putere. Tabelul 1. Datele initiale
consu
model pret cap cilindrica viteza max gr/p lungime cap habitaclu
m
Austin Metro Special 12000 998 140 6,2 23,2 340 955
CitroenAX 10RE 13275 954 145 5,6 19,4 350 1170
DaihatsuCharadeTS 14625 993 145 6,7 20,8 361 1151
FiatUno45Fire 13475 999 145 6,2 21,5 364 968
FiatUnoTurboTE 25005 1301 200 8,9 11 364 968
FiatUno70SL 17845 1302 165 7,7 16 364 968
FordFiestaJunior 13050 1117 137 7 22,7 364 900
FordFiestaXR-2 21743 1597 180 9,3 12 364 973
Nissan Micra 1.0 DX 12400 988 140 6,4 17 364 375
Opel Corsa Swing 13050 993 143 7,2 22,4 362 845
Peugeot20SXE 13260 954 134 6,8 23,8 370 1200
Peugeot20SGL 15780 1124 142 5,8 21,4 370 1200
Peugeot20SGT 18965 1360 170 9,2 13,9 370 1200
Peugeot20SGTI 25175 1580 190 8,7 11,2 370 1200
Renault4TL 12981 956 115 6,3 33,1 367 950
RenauIt4GTL 13806 1108 120 6,3 28,4 367 950
Renault5SL 14156 1108 143 5,8 20,6 359 915
Renault5GTS 17250 1397 167 7,9 13,8 359 915
Renault5GTTurbo 25319 1397 200 8,7 10,2 359 915
SEATIbizaGLX 19283 1461 175 8,8 14,7 364 1200
SEATMarbellaGL 10970 903 131 7,3 23,4 347 1088
SuzukiSwiftGA 12115 993 145 6,4 18,4 358 400
SuzukiSwiftGL 14655 1324 163 6,5 14 358 400
ToyotaStarlettL 14000 999 150 6,1 19,5 370 202
ToyotaStarlettXL 16850 1295 170 6,8 15 370 202
Volkswagen Polo 18045 1272 170 8 14 365 1040

2
I. Analiza componentelor principale

Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop
descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara
ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt
construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori
relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a autoturismelor.

Vom considera prima variabila, pretul, ca fiind un indicator general esential in alegerea unei masini.
Urmatoarele patru variabile sunt caracteristici tehnice care caracterizeaza puterea si rapiditatea unui
autoturism iar ultimile doua variabile indica gradul de confort ale acestuia.
Pe baza celor 7 caracteristici sunt variabile vom calcula cativa indicatori de centrare si imprastiere:
Figura 1. Indicatori

1.1. Standardizarea datelor


Deoarece ordinul de marime al datelor si unitatile de masura este foarte diferit, vom efectua Analiza
Componentelor Principale pe date standardizate.
Operatia de standardizare a valorilor unei variabile consta in substituirea valorilor fiecarei operatii cu
o noua valoare reprezentand raportul dintre valoarea centrata a respectivei operatii si abaterea standard a
respectivei variabile:

unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .


pentru cazul deplasat:

3

pentru cazul deplasat:

Figura 2. Standardizarea datelor

1.2. Matricea de corelatie


Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea
coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale
si determina componentele pricipale.
Figura 3. Matricea de corelatii

4
Identificam in matrice coeficientii de corelatie mari. De exemplu intre viteza maxima si pretul se
observa o corelatie de 0,913, intre capacitatea cilindrica si pret o corelatie de 0,849, intre viteza maxima si
capacitatea cilindrica corelatia este de 0,829 iar intre consum si pret o corelatie de 0,808.
1.3. Vectorii si valorile proprii
Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma
unui vector de forma: , unde , sunt variabilele originale

si ponderile din tabelul de mai jos.

Astfel componenta principala se scrie: .

Figura 4. Vectorii proprii

Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare componenta


principala:

 in spatiul indivizilor;

 in spatial variabilelor,

unde este componenta principala de ordin k si valoarea proprie corespunzatoare acesteia.

Figura 5. Valorile proprii

5
In figura 5 in prima coloana sunt valorile proprii ce exprima varianta explicata prin fiecare noua
componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta
diferentra dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din
inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulativ
al componente dinainte.
Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem
2 componente principale care sintetizeaza din punct de vedere informational toate cele 5 variabile originale.
Astfel prin intermediul primei componente principale se asigura conservarea a 62,20% din varianta
totala .
Varianta celei de-a doua componente principale este egala cu valoarea proprie 1,13342 si retine
16,19% din varianta totala iar cumulativ cu prima componenta retine 78,39% din varianta totala.

1.4. Reprezentarea grafica

Pe grafic am identificat diferentele semnificative existente intre valorile proprii si am trasat o paralela
la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate in partea superioara dreptei
reprezinta numarul de componente principale.
Dupa trasarea dreptei putem afirma pe baza graficului ca primele 2 valori proprii sunt si
componentele principale si explica o parte din multimea norului de puncte.

Figura 6. Grafice ale valorilor proprii Figura 7. Varinta cumulata a componentelor

6
Graficul din figura 7 exprima legatura dintre componentele principale si varianta cumulata pe care
acestea o conserva. Prima componenta principala retine 62,20% din varianta totala, a doua componenta
principala retine 78,39% din variata totala si asa mai departe.

7
Figura 8. Graficul componentei 1 cu 2

Analizand graficul 8 observam ca prima componenta este influentata direct si puternic de


„consum”, „pret”, „cap cilindrica”, „viteza max” si invers de catre variabila „raport”, iar asupra componentei
doi actioneaza direct variabila „cap habitaclu” si invers variabila „lungime”.
Aceste influente se pot observa in tabelul de mai jos:

Figura 9. Tabelul influentei factorilor


II. Analiza factoriala
Analiza factoriala este unul din cele mai eficiente si mai frecvent utilizate instrumente in modelarea
statistico-matematica. Analiza factoriala presupune ca valorile unui ansamblu de variabile aleatoare

se formeaza ca rezultat exclusiv al influentelor a 3 categorii de factori: factori comuni, factori


unici si factori reziduali. Ea are ca scop extragerea numarului de factori ascunzi responsabili de corelatiile
dintre variabilele originale. Daca aceste corelatii sunt semnificative, se poate presupune ca ar fi cauzate de
existenta unuia sau a mai multor factori ascunsi comuni tuturor variabilelor.
Analiza factoriala ne permite sa confirmam statistic un rezultat privind modul de grupare al
variabilelor originale.

2.1. Matricea de corelatie


Figura 10. Matricea de corelatie

Figura 11. Matricea ortogonala

Inmultind matricea ortogonala cu matricea Factor Pattern de la Analiza Componentelor Principale


obtinem matricea Rotated Factor Pattern.

9
2.2. Corelarea factorilor
Figura 12. Tabel Rotated Factor Patern

Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele „viteza maxima”,
„pret”, „cap cilindrica” si „consum” iar al doilea factor este este puternic corelat cu „cap habitaclu”.

2.3. Graficul corelarii dintre cei 2 factori

Figura 13. Grafic Rotated Factor Pattern

Din grafic deducem aceeasi corelare a factorilor cu variabilele ca in cazul de mai sus: observam ca
primul factor este puternic corelat cu variabilele „consum”, „pret”, „cap cilindrica”, „viteza max” si factorul
2 este puternic corelat cu variabila „cap habitaclu”.

10
2.4. Descompunerea variabilitatii
In analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si
rezidualitatea.
In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei
variabile:
Figura 14. Comunalitatea

Comunalitatea pentru fiecare variabila s-a calculat dupa formula: , unde

este comunalitatea uneia dintre cele 7 variabile iar este varianta factorului i din matricea Rotated
Factor Pattern.

Specificitatea se poate obtine din diferenta 1- .

2.5. Scorurile factor


Figura 15. Matricea scorurilor factor

O anumita observatie, corespunzatoar unui factor dat, este determinata sun forma unui scor
corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de
urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar
xi sunt variabilele din matricea Rotated Factor Pattern.

11
III. Analiza cluster
Metodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intr-
un numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt
studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat
indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele
constituite sa fie cat mai diferite.

3.1. Clasificarea variabilelor prin Metoda lui Ward de clasificare ierarhica


Metoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor abaterilor
la nivelul clusterului rezultat din comasare este cea mai mica, în comparaţie cu alte perechi de clustere
Figura 16. Dendograma orizontala a indicatorilor

Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a
doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap
cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in
vedere un cumparator de autoturism.

12
Figura 17. Tabelul Cluster History

Conform tabelului de mai sus:


 prima clasa (CL 6) este formata din „pret” si „viteza max” (frecventa 2);
 a doua clasa (CL 5) este formata din prima clasa si „cap cilindrica” (frecventa 3);
 a treia clasa (CL 4) este formata din clasa a doua si „consumul” (frecventa 4);
 a patra clasa (CL3) este formata din „raport” si „cap habitaclu” (frecventa 2);
 a cincea clasa (CL 2) este formata din clasa a patra si „lungimea” (frecventa 5)
 a sasea clasa (CL1) este formata din clasele a doua si a treia (frecventa 7).

3.2. Clasificarea variabilelor prin Metoda agregarii complete de clasificare ierarhica


Metoda agregarii complete comasează in fiecare etapa a clasificarii acele clustere pentru care
distanta dintre cele mai departate obiecte este cea mai mica, in comparatie cu alte perechi de clustere.

Figura 18. Dendograma orizontala a indicatorilor

13
Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a
doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap
cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in
vedere un cumparator de autoturism.
Figura 19. Tabelul Cluster History

Conform tabelului de mai sus:


 prima clasa (CL 6) este formata din „viteza max” (frecventa 2);
 a doua clasa (CL 5) este formata din „cap cilindrica” (frecventa 3);
 a treia clasa (CL 4) este formata din „consumul” (frecventa 4);
 a patra clasa (CL3) este formata din „lungime” (frecventa 5);
 a cincea clasa (CL 2) este formata din „cap habitaclu” (frecventa 2)
 a sasea clasa (CL1) este formata din clasa CL2 (frecventa 7).

14
3.3. Clasificarea indivizilor prin Metoda Ward de clasificare ierarhica

Figura 20. Dendograma orizontala pentru indivizi

Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua
grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi. Fiecare grupa reprezinta marcile
15
cocurente de autoturisme.

Conform tabelului de mai jos:


Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua
grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.
 clasa CL 21 este formata din „DaihatsuCharade 1.0 DX” si „Fiat Uno 45 Fire” (frecventa 2);
 clasa CL 17 este formata din clasa 21 si „Remault t5SL” (frecventa 3);
 clasa CL 13 este formata din „Austin Metro Special” si „Seat Marbella GL” (frecventa 2);
 clasa CL 10 este formata din clasa 13 si „Citroen AX 10RE” (frecventa 3);
 clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

Figura 21. Tabelul Cluster History

3.4. Clasificarea indivizilor prin Metoda agregarii complete de clasificare ierarhica


Figura 22. Dendograma orizontala pentru indivizi

16
Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din 3 indivizi, a doua
grupa este formata din 9 indivizi, a treia grupa e formata din 5 indivizi iar a patra e formata din 9 indivizi.
Fiecare grupa reprezinta marcile cocurente de autoturisme.

Figura 23. Tabelul Cluster History

17
Conform tabelului de mai sus:
Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua
grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.
 clasa CL 21 este formata din „DaihatsuCharade 1.0 DX” si „Fiat Uno 45 Fire” (frecventa 2);
 clasa CL 17 este formata din clasa 21 si „Remault t5SL” (frecventa 3);
 clasa CL 13 este formata din „Austin Metro Special” si „Seat Marbella GL” (frecventa 2);
 clasa CL 10 este formata din clasa 13 si „Citroen AX 10RE” (frecventa 3);
 clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)

IV. Analiza discriminanta


Principala problema care trebuie rezolvata in cadrul analizei discriminate este aceea a construirii
criteriilor sau regulilor de clasificare, pe baza carora se pot face predictii privind apartenenta unor forme
noi, cu apartenenta initiala necunoscuta. Criteriile de clasificare mai sunt cunoscute si sub numele de
clasificatori, iar deducerea acestor criterii se numeste formare a clasificatorului.
18
Clasificatorul este un algoritm cu ajutorul caruia se stabileste apartenenta cea mai probabila a unei forme
la o anumita clasa de predictie. Formarea clasificatorului se face pe baza informatiilor continute intr-un
esantion de forme a caror apartenenta este cunoscuta aprioric si care se numeste set de formare.

4.1. Discriminatorul Bayes


Figura 24. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase (Capitolul 3.3,
Figura 20 – incadram fiecare masina in cele 3 clase formate pentru nivelul 0,11). Prima clasa contine 12
obiecte (cu o proportie de 46,15 %), a doua clasa are in compozitie 5 obiecte (cu o proportie de 19,23%) iar
a treia clasa are 9 obiecte (cu proportie de 34,61%).

Figura 25. Clasele de obiecte

19
Din tabelul de mai sus interpretam probabilitatile:
 Daca probabilitatea sa apartina clasei 1 este mai mare decat probabilitatea de a apartine clasei 2
si 3 atunci această forma va apartine clasei 1
 Daca probabilitatea sa apartina clasei 2 este mai mare decat probabilitatea de a apartine clasei 1 si
3 atunci aceasta forma va fi în clasa 2.
 Daca probabilitatea sa apartina clasei 3 este mai mare decat probabilitatea de a apartine clasei 1 si
2 atunci aceasta forma va fi în clasa 3.

Ex: individul 19 are probabilitatea 1 ca sa apartina clasei 3 => apartine clasei 3

Figura 26. Resubstition Figura 27. Crossvalidation


20
Din tabelul de mai sus se observa ca obiectele au fost corect plasate in clase: am previzionat corect ca
din clasa 1 fac parte 12, din clasa 2 fac parte 5 obiecte si din clasa 3 fac parte 9 obiecte. Probabilitatea ca sa
gresim plasarea unui obiect intr-o clasa este 0.

4.2. Discriminatorul Bayes


Figura 28. Analiza discriminatorie

Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase. Probabilitatea
ca un obiect sa apartina unei clase din cele 3 e de 33,33%.

Figura 29. Clasele de obiecte

21
In tabelul de mai sus observam ca au fost plasate gresit 7 obiecte:
 Obiectul 6 a fost plasat in clasa 1 dar el apartine clasei 3;
 Obiectul 9 a fost plasat in clasa 3 dar el apartine clasei 2;
 Obiectul 20 a fost plasat in clasa 1 dar el apartine clasei 1;
 Obiectul 22 a fost plasat in clasa 3 dar el apartine clasei 2;
 Obiectul 23 a fost plasat in clasa 1 dar el apartine clasei 2;
 Obiectul 24 a fost plasat in clasa 1 dar el apartine clasei 2;
 Obiectul 25 a fost plasat in clasa 1 dar el apartine clasei 2;

Figura 30. Resubstition Figura 31. Crossvalidation

Din tabelul de mai sus se observa ca obiectele nu au fost corect plasate in clase: am previzionat
corect ca din clasa 1 fac parte 12 insa previziunea conform careia din clasa 2 fac parte 5 obiecte si din clasa
3 fac parte 9 obiecte a fost gresita.
Am previzionat ca 3 obiecte apartin clasei 1 si 2 obiecte apartin clasei 3 dar de fapt ele apartin clasei
2. De asemenea am previzonat ca 2 obiecte apartin clasei1 si 9 apartin clasei 3 insa ele apartin clasei 3.
Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este de 40,74%.

22
Concluzii

Analizele comparative prezinta o importanta deosebita deoarece, prin efectuarea si


publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra consumatorilor
cat si a producatorilor, facandu-i pe consumatori mai circumspecti si mai rationali privind
procesul de achizitionare a bunurilor.

Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui numar


de indivizi distincti ai unei populatii studiate. In legatura cu acesti indivizi (obiecte sau
cazuri) urmarim una sau mai multe marimi care, credem noi, îi caracterizeaza.

Cercetatorul în analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai
multa „informatie semnificativa” si s-o prezinte intr-o forma cat mai restransa. Odată acest
deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi
explicata prin argumente stiintifice.

Pe baza analizei efectuate asupra ofertei de autoturisme a unui dealer, am putut sa


concluzionam care sunt marcile concurente, care sunt cele mai preferate de cumparatori si ce
caracteristici primeaza la achizitionarea unui autoturism astfel incat dealer-ul auto sa-si
formeze un plan de achizitii si vanzari care sa-i aduca un profit cat mai mare.

23
Bibliografie

1. Ruxanda Gheorghe, „Analiza multidimensională a datelor- suport curs”, Editura ASE, Bucureşti,
2009
2. Spircu Liliana, „Analiza datelor. Aplicaţii economice”, Editura ASE, Bucureşti, 2005

24

S-ar putea să vă placă și