Sunteți pe pagina 1din 16

PROIECT DATA MINING

Student: Moales Ecaterina Maria


Master Cercetari de Marketing
Anul I



Obiectivele acestui studiu sunt:
compararea unui numr de 30 de firme ce activeaz pe piaa farmaceuticelor
dup anumite criterii/variabile;
evidenierea corelaiilor dintre variabile;
evidenierea asemnrilor, respectiv deosebirilor dintre companii;
explicarea asemnrilor, respectiv deosebirilor dintre companii din punct de
vedere al variabilelor considerate.
Pentru ndeplinirea obiectivelor se va folosi ca i metod analiza componentelor
principale si analiza factoriala n SAS.
Distribuia unor firme (un eantion de 30) ce activeaz pe piaa farmaceuticelor dup
cifra de afaceri, totalul datoriilor, tottalul veniturilor, totlul cheltuielilor, profitul brut, profitul net
si numarul de angajati din anul 2012 se prezint astfel:



























Pentru aflarea cifrelor reale se mai adauga inca 4 de zero la fiecare numar.

Descrierea bazei de date in SPSS
firme ca totdat totv totc pb pn nrsal
Mediapl 314668 261518 323533 316074 745867 62903 897
Farmexp 207612 131996 207612 197598 10014 8634 672
Farmexin 112200 90150 112617 111162 1455 1234 617
Polisano 131157 909082 132807 129423 3384 2813 693
Sanofi 95296 49574 95580 89927 5653 4215 194
Fildas 111526 101422 113303 110258 3045 2508 523
Hofigal 2624 570 2835 2459 375 319 245
Europh 46346 10196 52712 46650 6062 4933 254
Antibio 30473 15612 32282 29036 3245 2059 1465
Farmavet 11927 3196 12403 12280 123 940 573
Pfizer 48406 57263 49161 45748 3413 2593 200
Terapia 47149 7494 48387 37251 11135 9687 783
Romvac 4384 418 4641 4114 526 440 368
Arena 3184 5244 3377 2826 550 464 115
Biofarm 10497 3239 11139 8777 2361 1900 340
Actavis 35849 21456 42381 39305 3075 2528 221
Gemedica 6773 5339 6820 6542 277 227 37
A&A 5429 8722 5627 6595 1452 1300 118
Ropharma 41159 25041 42089 41170 918 789 817
Zentiva 24249 5220 26212 22180 4031 3889 531
Biotehn 8080 2289 9376 3901 5475 4617 138
Infomed 12066 7491 12518 11637 880 769 402
Servier 9171 499 9340 8740 600 490 264
GeneralC 10760 5937 10760 10640 119 103 120
Elli 4830 261 4868 4539 328 157 111
Krka 5141 2086 5280 4864 415 119 200
MedServ 18288 9617 18288 18038 250 216 138
B_Braun 8603 3892 8987 8379 607 507 89
Gedeon 12314 23246 16357 19282 12 9 550

Variabile:

Firme Numele companiei, variabil nominal
totdat Cifra de acaferi, variabil numeric
totv - totalul veniturilor, vaiabila numerica
totc totalul cheltuielilor, variabil numeric
pb profitul brut, variabil numeric
pn profitul net; variabil numeric
nrsal numarul salariatilor, variabil numeric

Analiza componentelor principale
Este o tehnica de reducere a dimensionalitatii datelor. Reducerea dimensionalitatii se
realizeaza prin obtinerea unor noi variabile plecand de la variabilele originale. Noile variabile
sunt combinatii liniare ale variabilelor initiale.
La baza analizei componentelor principale sta ideea ca reprezentarea unitatilor n
sistemul iniTial de coordonate, adica n sistemul pe ale carui axe sunt masurate caracteristicile
originale ale unitatilor, nu este totdeauna cea mai potrivita, considernduse ca poate exista o alta
modalitate de reprezentare mai relevanta, mai eficienta din punct de vedere informational.
Aceasta modalitate de reprezentare, mai avantajoasa din punct de vedere informational,
poate fi obtinuta considernd un nou spatiu de reprezentare, spatiu care defineste prin axele sale,
n mod implicit, noi caracteristici ale obiectelor. Coordonatele obiectelor n acest nou spatiu sunt
valorile nregistrate de obiecte la aceste noi caracteristici.
n contextul simbolizarii cu ajutorul variabilelor, noile caracteristici sunt numite
componente principale, iar valorile nregistrate de obiecte la aceste noi caracteristici sunt numite
scoruri.
Avnd n vedere logica pe care se bazeaza determinarea lor, se considera ca noile
caracteristici sunt mai relevante si mai adecvate pentru evaluarea informationala a obiectelor.
Analiza componentelor principale este folosita n probleme de analiza a datelor att n
faza iniTiala a acestora, ca tehnica de analiza preliminara, ct si n fazele ulterioare ale acestor
analize, n special n faza de interpretare a rezultatelor.

analiza preliminara a datelor;
construirea modelelor matematice;
solutionarea problemelor de analiza factoriala;
scalarea multidimensionala;
recunoasterea formelor;
analiza grafica;
prezentarea si interpretarea rezultatelor.






















Pearson Correlation Coefficients, N = 29
Prob > |r| under H0: Rho=0

ca totdat totv totc pb pn nrsal

ca 1.00000 0.97613 0.99964 0.99899 0.61693 0.61157 0.46325
ca <.0001 <.0001 <.0001 0.0004 0.0004 0.0114

totdat 0.97613 1.00000 0.97656 0.98144 0.48835 0.48313 0.42558
totdat <.0001 <.0001 <.0001 0.0072 0.0079 0.0214

totv 0.99964 0.97656 1.00000 0.99934 0.61885 0.61335 0.46490
totv <.0001 <.0001 <.0001 0.0003 0.0004 0.0111

totc 0.99899 0.98144 0.99934 1.00000 0.59049 0.58504 0.46067
totc <.0001 <.0001 <.0001 0.0007 0.0009 0.0119

pb 0.61693 0.48835 0.61885 0.59049 1.00000 0.99673 0.39390
pb 0.0004 0.0072 0.0003 0.0007 <.0001 0.0345

pn 0.61157 0.48313 0.61335 0.58504 0.99673 1.00000 0.37866
pn 0.0004 0.0079 0.0004 0.0009 <.0001 0.0428

nrsal 0.46325 0.42558 0.46490 0.46067 0.39390 0.37866 1.00000
nrsal 0.0114 0.0214 0.0111 0.0119 0.0345 0.0428


Procedura de PRINCOMP efectueaz analiza componentelor principale. Ca date de intrare,
se pot folosi datele brute, o matrice de corelaie, o matrice de covarian, sau un (SSCP) matrice
suma-de-patrate-i-crossproducts. Se pot crea seturi de date de ieire care conin valori proprii,
vectori proprii, i scorurile componente principale standardizate sau nestandardizate.


The PRINCOMP Procedure

Total Variance 1.829816E18


Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 1.81665E18 1.80448E18 0.9928 0.9928
2 1.21664E16 1.14208E16 0.0066 0.9995
3 7.45549E14 5.00707E14 0.0004 0.9999
4 2.44842E14 2.34153E14 0.0001 1.0000
5 1.06892E13 8.45179E12 0.0000 1.0000
6 2.23741E12 2.23741E12 0.0000 1.0000
7 0 0.0000 1.0000




Cum componentele principale sunt combinatii liniare de variabile originale, le putem
privi sub forma unui vector de forma: , unde ,
sunt variabilele originale si ponderile din tabelul de mai jos. Astfel componenta
principala se scrie: .


Eigenvectors

Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7

ca ca 0.524621 0.289947 0.143955 -.784339 0.067428 0.015703 -0.00000
totdat totdat 0.413263 -.882534 0.224136 -.009146 -.005233 -.000321 0.00000
totv totv 0.533047 0.284504 0.139703 0.429438 -.643983 -.127549 0.00001
totc totc 0.519172 0.110328 -.494824 0.349503 0.581988 0.112134 -0.00001
pb pb 0.013359 0.159293 0.617421 0.214043 0.218073 0.707014 -0.00003
pn pn 0.011333 0.136294 0.532413 0.179848 0.440959 -.686325 0.00003
nrsal nrsal 0.000000 0.000000 0.000000 0.000002 0.000006 0.000042 1.00000




Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare
componenta principala:
in spatiul indivizilor;
in spatial variabilelor,
unde este componenta principala de ordin k si valoarea proprie corespunzatoare acesteia.



Pe grafic am identificat diferentele semnificative existente intre valorile proprii si am
trasat o paralela la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate
in partea superioara dreptei reprezinta numarul de componente principale.











Scree Plot of Eigenvalues



6




1
5





E 4
i
g
e
n
v
a 3
l
u
e
s

2




2
1

3



0 4 5 6 7



0 1 2 3 4 5 6 7

Number










O matrice importanta utilizata n contextul analizei componentelor principale, ale carei
elemente ofera premize pentru interpretari interesante, este matricea factor.
Partitii sau clustere pe multimea variabilelor, partitii sau clustere care, asociate cu
anumite componente principale, pot conduce la stabilirea unor semnificatii intuitive pentru acele
componente. Aceasta nseamna ca analiza elementelor matricii factor poate permite identificarea
acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente
principale Si, pe aceasta baza, crearea posibilitatii de atribuire a unei semnificatii concrete pentru
fiecare componenta principala.
Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea
coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre
variabilele initiale si determina componentele pricipale.
Identificam in matrice coeficientii de corelatie mari.




Pearson Correlation Coefficients, N = 29
Prob > |r| under H0: Rho=0

ca totdat totv totc pb pn

Prin1 0.99881 0.98501 0.99899 0.99963 0.59043 0.58501
<.0001 <.0001 <.0001 <.0001 0.0007 0.0009

Prin2 0.04518 -0.17214 0.04363 0.01738 0.57616 0.57579
0.8160 0.3719 0.8222 0.9287 0.0011 0.0011

Prin3 0.00555 0.01082 0.00530 -0.01930 0.55283 0.55679
0.9772 0.9556 0.9782 0.9208 0.0019 0.0017


















Analiza factoriala este unul din cele mai eficiente si mai frecvent utilizate instrumente
in modelarea statistico-matematica. Analiza factoriala presupune ca valorile unui ansamblu de
variabile aleatoare se formeaza ca rezultat exclusiv al influentelor a 3 categorii de
factori: factori comuni, factori unici si factori reziduali. Ea are ca scop extragerea numarului de
factori ascunzi responsabili de corelatiile dintre variabilele originale. Daca aceste corelatii sunt
semnificative, se poate presupune ca ar fi cauzate de existenta unuia sau a mai multor factori
ascunsi comuni tuturor variabilelor.
Analiza factoriala ne permite sa confirmam statistic un rezultat privind modul de grupare
al variabilelor originale.


The FACTOR Procedure
Initial Factor Method: Principal Components

Factor Pattern

Factor1 Factor2

ca ca 0.97066 -0.22423
totdat totdat 0.92034 -0.36918
totv totv 0.97155 -0.22210
totc totc 0.96337 -0.25648
pb pb 0.77073 0.62433
pb pb 0.77073 0.62433
nrsal nrsal 0.56267 0.10291


Variance Explained by Each Factor

Factor1 Factor2

5.1658451 1.0918523



Final Communality Estimates: Total = 6.257697

ca totdat totv totc pb pb nrsal

0.99245111 0.98331920 0.99323741 0.99386627 0.98381823 0.98381823 0.32718691




Inmultind matricea ortogonala cu matricea Factor Pattern de la Analiza Componentelor
Principale obtinem matricea Rotated Factor Pattern.

Rotated Factor Pattern

Factor1 Factor2

ca ca 0.92800 0.36232
totdat totdat 0.96820 0.21425
totv totv 0.92753 0.36458
totc totc 0.94017 0.33158
pb pb 0.28429 0.95026
pn pn 0.28429 0.95026
nrsal nrsal 0.40658 0.40234

Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele ca,
totdat, totc, totv iar al doilea factor este este puternic corelat cu pb, pn.



Variance Explained by Each Factor

Factor1 Factor2

3.8697857 2.3879117


In analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea,
unicitatea si rezidualitatea.
In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a
fiecarei variabile:

Final Communality Estimates: Total = 6.257697

ca totdat totv totc pb pb nrsal

0.99245111 0.98331920 0.99323741 0.99386627 0.98381823 0.98381823 0.32718691


Comunalitatea pentru fiecare variabila s-a calculat dupa formula:
, unde este comunalitatea uneia dintre cele 7 variabile iar este
varianta factorului i din matricea Rotated Factor Pattern.
Specificitatea se poate obtine din diferenta 1- .
Analiza cluster
Metodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de
atribute, intr-un numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza
globala a indivizilor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime.
Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai
asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.


Cluster History
T
i
NCL --Clusters Joined--- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 e

28 OB18 OB24 2 0.0001 1.00 . . 738 .
27 OB14 OB28 2 0.0001 1.00 . . 661 .
26 OB7 OB26 2 0.0001 1.00 . . 623 .
25 CL27 OB25 3 0.0001 1.00 . . 566 1.5
24 CL26 OB23 3 0.0002 1.00 . . 474 2.2
23 CL25 OB17 4 0.0002 .999 . . 407 2.5
22 OB13 OB22 2 0.0002 .999 . . 369 .
21 CL28 OB27 3 0.0002 .999 . . 348 4.9
20 OB10 OB29 2 0.0004 .998 . . 312 .
19 CL23 CL21 7 0.0005 .998 . . 273 3.8
18 OB11 OB16 2 0.0012 .997 . . 200 .
17 OB4 OB6 2 0.0014 .995 . . 160 .
16 CL24 CL22 5 0.0015 .994 . . 141 9.3
15 OB3 CL17 3 0.0024 .992 . . 117 1.6
14 CL16 OB15 6 0.0029 .989 . . 99.7 6.1
13 OB8 OB21 2 0.0031 .985 . . 90.1 .
12 CL20 OB19 3 0.0044 .981 . . 79.9 11.8
11 CL13 OB20 3 0.0052 .976 . . 72.7 1.7
10 CL14 CL19 13 0.0074 .968 . . 64.8 13.4
9 OB5 CL18 3 0.0087 .960 . . 59.6 7.3
8 CL9 CL11 6 0.0123 .947 . . 54.0 2.7
7 CL10 CL12 16 0.0269 .920 . . 42.4 20.7
6 OB1 OB2 2 0.0382 .882 . . 34.5 .
5 OB9 OB12 2 0.0507 .832 .826 0.28 29.6 .


T
i
NCL --Clusters Joined--- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 e

4 CL8 CL5 8 0.0664 .765 .780 -.58 27.2 4.9
3 CL15 CL4 11 0.0751 .690 .711 -.55 29.0 4.5
2 CL3 CL7 27 0.1951 .495 .578 -1.3 26.5 18.0
1 CL6 CL2 29 0.4951 .000 .000 0.00 . 26.5




Metoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor
abaterilor la nivelul clusterului rezultat din comasare este cea mai mica, n comparaie cu alte
perechi de clustere

Class Level Information

Variable Prior
CLUSTER Name Frequency Weight Proportion Probability

1 _1 16 16.0000 0.551724 0.333333
2 _2 11 11.0000 0.379310 0.333333
3 _3 2 2.0000 0.068966 0.333333






Conform tabelului de mai sus:
prima clasa (CL 6) este formata din totv (frecventa 2);
a doua clasa (CL 5) este formata din totdat (frecventa 11);
a treia clasa (CL 4) este formata din ca (frecventa 16);




Linear Discriminant Function for CLUSTER

Variable Label 1 2 3

Constant -1.06367 -0.34048 -28.59335
ca ca 10.27668 -12.45334 -13.72008
totdat totdat 3.82706 -2.90418 -14.64345
totv totv -17.56560 17.03387 46.83854


Number of Observations and Percent Classified into CLUSTER

From CLUSTER 1 2 3 Total

1 15 1 0 16
93.75 6.25 0.00 100.00

2 2 9 0 11
18.18 81.82 0.00 100.00

3 0 0 2 2
0.00 0.00 100.00 100.00

Total 17 10 2 29
58.62 34.48 6.90 100.00

Priors 0.33333 0.33333 0.33333


Error Count Estimates for CLUSTER

1 2 3 Total

Rate 0.0625 0.1818 0.0000 0.0814
Priors 0.3333 0.3333 0.3333



























Concluzii

Analizele comparative prezinta o importanta deosebita deoarece, prin efectuarea si
publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra consumatorilor cat si
a producatorilor, facandu-i pe consumatori mai circumspecti si mai rationali privind procesul de
achizitionare a bunurilor.
Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui numar de
indivizi distincti ai unei populatii studiate. In legatura cu acesti indivizi (obiecte sau cazuri)
urmarim una sau mai multe marimi care, credem noi, i caracterizeaza.
Cercetatorul n analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai
multa informatie semnificativa si s-o prezinte intr-o forma cat mai restransa. Odat acest
deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi
explicata prin argumente stiintifice.

S-ar putea să vă placă și