Documente Academic
Documente Profesional
Documente Cultură
Cuprins................................................................................................................................2
Introducere..........................................................................................................................3
I. Analiza componentelor principale...................................................................................4
1.1. Standardizarea datelor........................................................................................4
1.2. Matricea de corelatie..........................................................................................5
1.3. Vectorii si valorile proprii..................................................................................6
1.4. Reprezentarea grafica.........................................................................................7
II. Analiza factoriala...........................................................................................................9
2.1. Matricea de corelatie..........................................................................................9
2.2. Corelarea factorilor..........................................................................................10
2.3. Graficul corelarii..............................................................................................10
2.4. Descompunerea variabilitatii...........................................................................11
2.5. Scorurile factor................................................................................................11
III. Analiza cluster............................................................................................................12
3.1. Clasificarea variabilelor prin Metoda lui Ward..............................................12
3.2. Clasificarea variabilelor prin Metoda agregarii complete .............................13
3.3. Clasificarea indivizilor prin Metoda lui Ward................................................15
3.4. Clasificarea indivizilor prin Metoda agregarii complete ...............................16
IV. Analiza discriminanta.................................................................................................18
4.1. Clasificatorul lui Bayes...................................................................................18
4.2. Clasificatorul lui Fisher...................................................................................20
Concluzii..........................................................................................................................22
Bibliografie......................................................................................................................23
Introducere
In cele ce urmeaza am realizat o canaliza a ofertei de autoturisme a unui dealer. Scopul final este
acela de a stabili care sunt caracteristicile definitorii in alegerea unei masini personale.
Tabelul urmator contine caracteristicile a 26 de mărci de autoturisme oferite spre vânzare. Tabelul
are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte
caracteristici tehnice şi de confort ale autoturismelor:
1. Preţul ($);
2. Capacitatea cilindrică (cmc);
3. Viteza maximă (km/h);
4. Consumul de carburant (litri/100 km);
5. Capacitatea habitaclului(cmc);
6. Lungimea (cm);
7. Raportul greutate-putere. Tabelul 1. Datele initiale
consu
model pret cap cilindrica viteza max gr/p lungime cap habitaclu
m
Austin Metro Special 12000 998 140 6,2 23,2 340 955
CitroenAX 10RE 13275 954 145 5,6 19,4 350 1170
DaihatsuCharadeTS 14625 993 145 6,7 20,8 361 1151
FiatUno45Fire 13475 999 145 6,2 21,5 364 968
FiatUnoTurboTE 25005 1301 200 8,9 11 364 968
FiatUno70SL 17845 1302 165 7,7 16 364 968
FordFiestaJunior 13050 1117 137 7 22,7 364 900
FordFiestaXR-2 21743 1597 180 9,3 12 364 973
Nissan Micra 1.0 DX 12400 988 140 6,4 17 364 375
Opel Corsa Swing 13050 993 143 7,2 22,4 362 845
Peugeot20SXE 13260 954 134 6,8 23,8 370 1200
Peugeot20SGL 15780 1124 142 5,8 21,4 370 1200
Peugeot20SGT 18965 1360 170 9,2 13,9 370 1200
Peugeot20SGTI 25175 1580 190 8,7 11,2 370 1200
Renault4TL 12981 956 115 6,3 33,1 367 950
RenauIt4GTL 13806 1108 120 6,3 28,4 367 950
Renault5SL 14156 1108 143 5,8 20,6 359 915
Renault5GTS 17250 1397 167 7,9 13,8 359 915
Renault5GTTurbo 25319 1397 200 8,7 10,2 359 915
SEATIbizaGLX 19283 1461 175 8,8 14,7 364 1200
SEATMarbellaGL 10970 903 131 7,3 23,4 347 1088
SuzukiSwiftGA 12115 993 145 6,4 18,4 358 400
SuzukiSwiftGL 14655 1324 163 6,5 14 358 400
ToyotaStarlettL 14000 999 150 6,1 19,5 370 202
ToyotaStarlettXL 16850 1295 170 6,8 15 370 202
Volkswagen Polo 18045 1272 170 8 14 365 1040
2
I. Analiza componentelor principale
Analiza a Componentelor Principale este o tehnica de analiza a datelor care are drept scop
descompunerea variabilitati totale din spatiul cauzal initial sub forma unui numar redus de componente, fara
ca aceasta forma sa contina redundante informationale.Aceste componente exprima atribute noi si sunt
construite in asa fel incat sa fie necorelate intre ele, fiecare fiind o combinatie liniara de variabilele originale.
Scopul analizei datelor pe cazul particular prezentat mai sus este acela de a afla cativa indicatori
relevanti pe baza carora sa pot obtine o ierarhizare cat mai corecta a autoturismelor.
Vom considera prima variabila, pretul, ca fiind un indicator general esential in alegerea unei masini.
Urmatoarele patru variabile sunt caracteristici tehnice care caracterizeaza puterea si rapiditatea unui
autoturism iar ultimile doua variabile indica gradul de confort ale acestuia.
Pe baza celor 7 caracteristici sunt variabile vom calcula cativa indicatori de centrare si imprastiere:
Figura 1. Indicatori
unde reprezinta media celei de-a i-a variabile, iar reprezinta abaterea standard a variabilei .
pentru cazul deplasat:
3
pentru cazul deplasat:
4
Identificam in matrice coeficientii de corelatie mari. De exemplu intre viteza maxima si pretul se
observa o corelatie de 0,913, intre capacitatea cilindrica si pret o corelatie de 0,849, intre viteza maxima si
capacitatea cilindrica corelatia este de 0,829 iar intre consum si pret o corelatie de 0,808.
1.3. Vectorii si valorile proprii
Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma
unui vector de forma: , unde , sunt variabilele originale
in spatiul indivizilor;
in spatial variabilelor,
5
In figura 5 in prima coloana sunt valorile proprii ce exprima varianta explicata prin fiecare noua
componenta principala si corelatia dintre noua variabila si variabilele vechi. A doua coloana reprezinta
diferentra dintre 2 componente consecutive. In a treia coloana a doua a tabelului este exprimat procentul din
inertia totala a norului de puncte retinut pe fiecare axa. In a patra coloana este exprimat procentul cumulativ
al componente dinainte.
Deoarece primele 2 valori proprii sunt mai mari decat 1 (Criteriul lui Kaiser), putem spune ca avem
2 componente principale care sintetizeaza din punct de vedere informational toate cele 5 variabile originale.
Astfel prin intermediul primei componente principale se asigura conservarea a 62,20% din varianta
totala .
Varianta celei de-a doua componente principale este egala cu valoarea proprie 1,13342 si retine
16,19% din varianta totala iar cumulativ cu prima componenta retine 78,39% din varianta totala.
Pe grafic am identificat diferentele semnificative existente intre valorile proprii si am trasat o paralela
la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate in partea superioara dreptei
reprezinta numarul de componente principale.
Dupa trasarea dreptei putem afirma pe baza graficului ca primele 2 valori proprii sunt si
componentele principale si explica o parte din multimea norului de puncte.
6
Graficul din figura 7 exprima legatura dintre componentele principale si varianta cumulata pe care
acestea o conserva. Prima componenta principala retine 62,20% din varianta totala, a doua componenta
principala retine 78,39% din variata totala si asa mai departe.
7
Figura 8. Graficul componentei 1 cu 2
9
2.2. Corelarea factorilor
Figura 12. Tabel Rotated Factor Patern
Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele „viteza maxima”,
„pret”, „cap cilindrica” si „consum” iar al doilea factor este este puternic corelat cu „cap habitaclu”.
Din grafic deducem aceeasi corelare a factorilor cu variabilele ca in cazul de mai sus: observam ca
primul factor este puternic corelat cu variabilele „consum”, „pret”, „cap cilindrica”, „viteza max” si factorul
2 este puternic corelat cu variabila „cap habitaclu”.
10
2.4. Descompunerea variabilitatii
In analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si
rezidualitatea.
In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei
variabile:
Figura 14. Comunalitatea
este comunalitatea uneia dintre cele 7 variabile iar este varianta factorului i din matricea Rotated
Factor Pattern.
O anumita observatie, corespunzatoar unui factor dat, este determinata sun forma unui scor
corespunzator respectivului factor, format pe baza contributiei variabilelor originale. Scorurile sunt date de
urmatoarea relatie: , unde reprezita coeficientii din matricea scorurilor factor iar
xi sunt variabilele din matricea Rotated Factor Pattern.
11
III. Analiza cluster
Metodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intr-
un numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt
studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat
indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele
constituite sa fie cat mai diferite.
Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a
doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap
cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in
vedere un cumparator de autoturism.
12
Figura 17. Tabelul Cluster History
13
Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din „cap habitaclu”, a
doua grupa e formata din „raport”, a treia e formata din „lungime” si a patra formata din „consum”, „cap
cilindrica”, „viteza max” si „pret”. Prima grupa reprezinta criteriile cele mai importante pe care le are in
vedere un cumparator de autoturism.
Figura 19. Tabelul Cluster History
14
3.3. Clasificarea indivizilor prin Metoda Ward de clasificare ierarhica
Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua
grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi. Fiecare grupa reprezinta marcile
15
cocurente de autoturisme.
16
Pentru un prag de distanta de 0,11, se obtin 4 grupe: prima grupa este formata din 3 indivizi, a doua
grupa este formata din 9 indivizi, a treia grupa e formata din 5 indivizi iar a patra e formata din 9 indivizi.
Fiecare grupa reprezinta marcile cocurente de autoturisme.
17
Conform tabelului de mai sus:
Pentru un prag de distanta de 0,11, se obtin 3 grupe: prima grupa este formata din 12 indivizi, a doua
grupa este formata din 5 indivizi iar a treia grupa e formata din 9 indivizi.
clasa CL 21 este formata din „DaihatsuCharade 1.0 DX” si „Fiat Uno 45 Fire” (frecventa 2);
clasa CL 17 este formata din clasa 21 si „Remault t5SL” (frecventa 3);
clasa CL 13 este formata din „Austin Metro Special” si „Seat Marbella GL” (frecventa 2);
clasa CL 10 este formata din clasa 13 si „Citroen AX 10RE” (frecventa 3);
clasa CL 2 este formata din clasa 3 si clasa 6 (frecventa 17)
Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase (Capitolul 3.3,
Figura 20 – incadram fiecare masina in cele 3 clase formate pentru nivelul 0,11). Prima clasa contine 12
obiecte (cu o proportie de 46,15 %), a doua clasa are in compozitie 5 obiecte (cu o proportie de 19,23%) iar
a treia clasa are 9 obiecte (cu proportie de 34,61%).
19
Din tabelul de mai sus interpretam probabilitatile:
Daca probabilitatea sa apartina clasei 1 este mai mare decat probabilitatea de a apartine clasei 2
si 3 atunci această forma va apartine clasei 1
Daca probabilitatea sa apartina clasei 2 este mai mare decat probabilitatea de a apartine clasei 1 si
3 atunci aceasta forma va fi în clasa 2.
Daca probabilitatea sa apartina clasei 3 este mai mare decat probabilitatea de a apartine clasei 1 si
2 atunci aceasta forma va fi în clasa 3.
Din analiza discriminanta de mai sus s-au observat 26 de obiect, 7 variabile si 3 clase. Probabilitatea
ca un obiect sa apartina unei clase din cele 3 e de 33,33%.
21
In tabelul de mai sus observam ca au fost plasate gresit 7 obiecte:
Obiectul 6 a fost plasat in clasa 1 dar el apartine clasei 3;
Obiectul 9 a fost plasat in clasa 3 dar el apartine clasei 2;
Obiectul 20 a fost plasat in clasa 1 dar el apartine clasei 1;
Obiectul 22 a fost plasat in clasa 3 dar el apartine clasei 2;
Obiectul 23 a fost plasat in clasa 1 dar el apartine clasei 2;
Obiectul 24 a fost plasat in clasa 1 dar el apartine clasei 2;
Obiectul 25 a fost plasat in clasa 1 dar el apartine clasei 2;
Din tabelul de mai sus se observa ca obiectele nu au fost corect plasate in clase: am previzionat
corect ca din clasa 1 fac parte 12 insa previziunea conform careia din clasa 2 fac parte 5 obiecte si din clasa
3 fac parte 9 obiecte a fost gresita.
Am previzionat ca 3 obiecte apartin clasei 1 si 2 obiecte apartin clasei 3 dar de fapt ele apartin clasei
2. De asemenea am previzonat ca 2 obiecte apartin clasei1 si 9 apartin clasei 3 insa ele apartin clasei 3.
Probabilitatea ca sa gresim plasarea unui obiect intr-o clasa este de 40,74%.
22
Concluzii
Cercetatorul în analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai
multa „informatie semnificativa” si s-o prezinte intr-o forma cat mai restransa. Odată acest
deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi
explicata prin argumente stiintifice.
23
Bibliografie
1. Ruxanda Gheorghe, „Analiza multidimensională a datelor- suport curs”, Editura ASE, Bucureşti,
2009
2. Spircu Liliana, „Analiza datelor. Aplicaţii economice”, Editura ASE, Bucureşti, 2005
24