Obiectivele acestui studiu sunt: compararea unui numr de 30 de firme ce activeaz pe piaa farmaceuticelor dup anumite criterii/variabile; evidenierea corelaiilor dintre variabile; evidenierea asemnrilor, respectiv deosebirilor dintre companii; explicarea asemnrilor, respectiv deosebirilor dintre companii din punct de vedere al variabilelor considerate. Pentru ndeplinirea obiectivelor se va folosi ca i metod analiza componentelor principale si analiza factoriala n SAS. Distribuia unor firme (un eantion de 30) ce activeaz pe piaa farmaceuticelor dup cifra de afaceri, totalul datoriilor, tottalul veniturilor, totlul cheltuielilor, profitul brut, profitul net si numarul de angajati din anul 2012 se prezint astfel:
Pentru aflarea cifrelor reale se mai adauga inca 4 de zero la fiecare numar.
Analiza componentelor principale Este o tehnica de reducere a dimensionalitatii datelor. Reducerea dimensionalitatii se realizeaza prin obtinerea unor noi variabile plecand de la variabilele originale. Noile variabile sunt combinatii liniare ale variabilelor initiale. La baza analizei componentelor principale sta ideea ca reprezentarea unitatilor n sistemul iniTial de coordonate, adica n sistemul pe ale carui axe sunt masurate caracteristicile originale ale unitatilor, nu este totdeauna cea mai potrivita, considernduse ca poate exista o alta modalitate de reprezentare mai relevanta, mai eficienta din punct de vedere informational. Aceasta modalitate de reprezentare, mai avantajoasa din punct de vedere informational, poate fi obtinuta considernd un nou spatiu de reprezentare, spatiu care defineste prin axele sale, n mod implicit, noi caracteristici ale obiectelor. Coordonatele obiectelor n acest nou spatiu sunt valorile nregistrate de obiecte la aceste noi caracteristici. n contextul simbolizarii cu ajutorul variabilelor, noile caracteristici sunt numite componente principale, iar valorile nregistrate de obiecte la aceste noi caracteristici sunt numite scoruri. Avnd n vedere logica pe care se bazeaza determinarea lor, se considera ca noile caracteristici sunt mai relevante si mai adecvate pentru evaluarea informationala a obiectelor. Analiza componentelor principale este folosita n probleme de analiza a datelor att n faza iniTiala a acestora, ca tehnica de analiza preliminara, ct si n fazele ulterioare ale acestor analize, n special n faza de interpretare a rezultatelor.
analiza preliminara a datelor; construirea modelelor matematice; solutionarea problemelor de analiza factoriala; scalarea multidimensionala; recunoasterea formelor; analiza grafica; prezentarea si interpretarea rezultatelor.
Pearson Correlation Coefficients, N = 29 Prob > |r| under H0: Rho=0
ca totdat totv totc pb pn nrsal
ca 1.00000 0.97613 0.99964 0.99899 0.61693 0.61157 0.46325 ca <.0001 <.0001 <.0001 0.0004 0.0004 0.0114
Procedura de PRINCOMP efectueaz analiza componentelor principale. Ca date de intrare, se pot folosi datele brute, o matrice de corelaie, o matrice de covarian, sau un (SSCP) matrice suma-de-patrate-i-crossproducts. Se pot crea seturi de date de ieire care conin valori proprii, vectori proprii, i scorurile componente principale standardizate sau nestandardizate.
Cum componentele principale sunt combinatii liniare de variabile originale, le putem privi sub forma unui vector de forma: , unde , sunt variabilele originale si ponderile din tabelul de mai jos. Astfel componenta principala se scrie: .
Calculam valorile propii ce ne arata cantitatea de informatie extrasa de fiecare componenta principala: in spatiul indivizilor; in spatial variabilelor, unde este componenta principala de ordin k si valoarea proprie corespunzatoare acesteia.
Pe grafic am identificat diferentele semnificative existente intre valorile proprii si am trasat o paralela la abscisa deasupra ultimei astfel de diferente iar numarul de valori proprii aflate in partea superioara dreptei reprezinta numarul de componente principale.
Scree Plot of Eigenvalues
6
1 5
E 4 i g e n v a 3 l u e s
2
2 1
3
0 4 5 6 7
0 1 2 3 4 5 6 7
Number
O matrice importanta utilizata n contextul analizei componentelor principale, ale carei elemente ofera premize pentru interpretari interesante, este matricea factor. Partitii sau clustere pe multimea variabilelor, partitii sau clustere care, asociate cu anumite componente principale, pot conduce la stabilirea unor semnificatii intuitive pentru acele componente. Aceasta nseamna ca analiza elementelor matricii factor poate permite identificarea acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale Si, pe aceasta baza, crearea posibilitatii de atribuire a unei semnificatii concrete pentru fiecare componenta principala. Pentru a vedea daca indicatorii calculati sunt independenti sau nu, vom analiza matricea coeficientilor de corelatie. Matricea de corelatii este simetrica si descrie legaturile dintre variabilele initiale si determina componentele pricipale. Identificam in matrice coeficientii de corelatie mari.
Pearson Correlation Coefficients, N = 29 Prob > |r| under H0: Rho=0
Analiza factoriala este unul din cele mai eficiente si mai frecvent utilizate instrumente in modelarea statistico-matematica. Analiza factoriala presupune ca valorile unui ansamblu de variabile aleatoare se formeaza ca rezultat exclusiv al influentelor a 3 categorii de factori: factori comuni, factori unici si factori reziduali. Ea are ca scop extragerea numarului de factori ascunzi responsabili de corelatiile dintre variabilele originale. Daca aceste corelatii sunt semnificative, se poate presupune ca ar fi cauzate de existenta unuia sau a mai multor factori ascunsi comuni tuturor variabilelor. Analiza factoriala ne permite sa confirmam statistic un rezultat privind modul de grupare al variabilelor originale.
The FACTOR Procedure Initial Factor Method: Principal Components
Din tabelul de mai sus se observa ca factorul 1 este puternic corelat cu variabilele ca, totdat, totc, totv iar al doilea factor este este puternic corelat cu pb, pn.
Variance Explained by Each Factor
Factor1 Factor2
3.8697857 2.3879117
In analiza factoriala variabilitatea se descompune in 3 componente: comunalitatea, unicitatea si rezidualitatea. In tabelul de mai jos este specificata comunalitatea totala si comunalitatea individuala a fiecarei variabile:
Comunalitatea pentru fiecare variabila s-a calculat dupa formula: , unde este comunalitatea uneia dintre cele 7 variabile iar este varianta factorului i din matricea Rotated Factor Pattern. Specificitatea se poate obtine din diferenta 1- . Analiza cluster Metodele de analiza cluster au ca scop gruparea indivizilor, identificati printr-o serie de atribute, intr-un numar cat mia restrans de clase omogene. Aceste metode realizeaza o analiza globala a indivizilor ce sunt studiati printr-un numar mare de variabile si ipoteze cerute minime. Astfel se realizeaza clase in asa fel incat indivizii apartinand aceleiasi clase sa fie cat mai asemanatori intre ei prin variabilele lor in timp ce clasele constituite sa fie cat mai diferite.
Cluster History T i NCL --Clusters Joined--- FREQ SPRSQ RSQ ERSQ CCC PSF PST2 e
Metoda lui Ward este o metoda care comaseaza acele clustere pentru care suma patratelor abaterilor la nivelul clusterului rezultat din comasare este cea mai mica, n comparaie cu alte perechi de clustere
Class Level Information
Variable Prior CLUSTER Name Frequency Weight Proportion Probability
Conform tabelului de mai sus: prima clasa (CL 6) este formata din totv (frecventa 2); a doua clasa (CL 5) este formata din totdat (frecventa 11); a treia clasa (CL 4) este formata din ca (frecventa 16);
Linear Discriminant Function for CLUSTER
Variable Label 1 2 3
Constant -1.06367 -0.34048 -28.59335 ca ca 10.27668 -12.45334 -13.72008 totdat totdat 3.82706 -2.90418 -14.64345 totv totv -17.56560 17.03387 46.83854
Number of Observations and Percent Classified into CLUSTER
Analizele comparative prezinta o importanta deosebita deoarece, prin efectuarea si publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra consumatorilor cat si a producatorilor, facandu-i pe consumatori mai circumspecti si mai rationali privind procesul de achizitionare a bunurilor. Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui numar de indivizi distincti ai unei populatii studiate. In legatura cu acesti indivizi (obiecte sau cazuri) urmarim una sau mai multe marimi care, credem noi, i caracterizeaza. Cercetatorul n analiza datelor are ca sarcina sa extraga din acest tabel de date cat mai multa informatie semnificativa si s-o prezinte intr-o forma cat mai restransa. Odat acest deziderat realizat, orice decizie viitoare privind comportamentul populatiei studiate poate fi explicata prin argumente stiintifice.