Sunteți pe pagina 1din 20
Algoritmul celor k medoiz.... Detectarea outlierior prin metoda c-means Algoritmul Fuzzy c-means.. (Clusterizare ierathict cn. Clasificatorul naiv Bayesian(=CNB)..... Metoda celor mai apropiati k vecini.. Axbori de decizie... Retele neuronale ... SOM.. BR ecect lene 61 | ANiALIZA FORTE! DE MUNCK i {fn prezentul proiect am realizat analiza forjei de munc& din exprimate in mii de — ‘oe Iuat in considerare gi2 variable cantitative gi anume numarul de emigrant si cAstigul salarial medio. de date pe care I-am folosit in analizele ce urmeaz& s8 le prezint a fost extras de pe situl INSSE. ‘Setul de date confine informafii cu referire la cele 41 de judefe din Romania, variabilele folosite ‘sunt: * Resurse de mune Populatia activa civil Populafia ocupata civilé Someri Numérul mediu al salariagilor Populafia Roméniei cu varste intre 16-65 de ani ‘Numérul mediu de emigrangi © Céstigul mediu al salariutui Oe ece'g Explicafii cu referire la date si vizualizarea setului de date extras din baza de data a INSSE £ giisesc in anexa proiectului STATISTICI DESCRIPTIVE E Acum voi prezenta comenzile din R ce au dus l comanda de import a datelor din Excel in R. Datele din Excel CSV a fisierelor pentru a putea importa datele. la realizarea analizelor propuse. Mai intAi apel Pentru a putea fi folosite trebuie folosit format #Importarea setului de date din documentul .csv > indicatori<-read.csv("C:/ indicatori.csv") > indicatori #AfiseazA numele atributelor din setul de date indicatori [1] "Judet" "RM" "PA" "PO" “S" "NMS" [7)"cs" "Pop 'NREM #Afiseaza toate informatiile atributelor > attributes(indicatori) Snames [I] "Judet""RM" "PA" "po" "NMS" > names(indicatori) (7)"CS" "POP" "NREM" Sclass (1) "data.frame" Srow.names {1} 12.3 4 5 67.8 910111213 1415 161718 [19] 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 (37) 37 38 3940.41 ‘#Affigeaza structura atributelor in furicfie de tipul lor > str(indicatori)# structura atributelor tip ne numar ‘dataframe’: 41 obs. of 9 variables: $ Judet: Factor w/ 41 levels "Alba","Arad”, $RM_ : num 208 271 378 371 359... SPA :num 172218 259219 275 ... SPO :num 160212 244 204 265 ... $S_: num 12.51 6.07 15.33 1481 10.03... $NMS : num 79 119.3 131.3 97.3 150. $CS_: Factor w/3 levels "mare", "mediu' SPOP : num 227 292 416 399 393 $ NREM : Factor w/3 levels "mare","mediu",..: 2221222213 ... 112345678910 323333323. Dupa cum se poate observa in rezultatul de mai sus datele sunt de tip numerice (RM,PA,PO,S, NMS, P OP) si de tip calitativ(CS,NREM), iar comenzile de mai jos sunt modalitafi de afigare a datelor > head(indicatori) #afiseaza primele 6 observat > tail(indicatori)#afiseaza ultimele 6 observatii > indicatori[1:10,]# afiseaza primele 10 observatii “a > indicatorif1:15,"PA"}#afiseaza din primele 10 observatii volorile atributul PA ma > indicatori$PA[1:15] # functia de mai sus scrisa su o alta forma ATRIBUTE CANTITATIVE Atributele cantitative sau numerice sunt variabilele ce sunt prezentate de cAtre urmatoarele comenzi: > summary(indicatori$RM) # afigeazd min,max me average si cuantilele > quantile(indicatori$RM) # afigeaza cuantile > varindicatori$RM) #Varianta atributului RM > hist(indicatoriSRM)#histograma atributului RM > plot(density(indicatori$RM))#densitatea de repartitie ‘Astfel, Min. - reprezinta preful cel mai mic numar 1 st Qu. — reprezint& quartila inferioara ce delimiteaza cele mai mici 25% din valorile observa Median ~ reprezinté mediana si delimiteaza 50% din valori Mean - media 3rd Qu. ~ reprezinta quartila superioard delimiteaza cele mai mari 25% din valorile observate. Max. - reprezinta preful cel mai mare al actiunii din fiecare variabila, Histograma este reprezentarea graficd a unei distribufii de frecvenfe aparfinand unui un set de date are 41 inregistrari a judefelor cu privire la forta de munca. intr-o histograma, pe axa timpului (axa orizontala) ety do valor, iar pe axe * COR repress Or do vale srrpere tntervalelO™ {olosiaa rm riod jabils.ca fiind un exemplu pentru a explica cum le fntrepretim toarea vatil rd Qu. metg.7" 957.5 ileCindicatori$RM) # afiseazacuantile > guetta Sm 129.6 195.6 256.4 357.5 515.9 : ‘ ‘ mn Prezenja extremelor face ca media si nu mai fie reprezentativa, dar in cazul de fafa media este sentv.Azeat ca seni fap eb 25% dine jude tn numa disease 195,6 ie reoul do 75% dlntrejudoje au un nuns de resurse-umane wal 355,8. ia (indicatori$RM) 2 oa Vasinpa=epresinns ‘suma patratelor abaterilor variabilei fata de medie Z 1189.95 Histogram of indicatorisRM ensity.detauttx = inaicatorisRM) g i i fe ae —— 5 "0 200 300 400 500 100 200 300 400 500 600 iscansisra N=41 Bandinath= 45:3 Figure | Histograma RM Figure 2 Densitatea de repartic RM Histograma este asimetricd la sténga . Cele mai multe dintre valori (cel mai mare numar de resurse d ‘munca se inregistreaza in intervalul 150-200 si 250-300, iar cele mai Pufine in intervalul 500-550, De asemene densitatea nu este normal, ci asimetrica la stanga. Ta 9 ' es “etPrettcle pentru celelalte tribute cantitative sunt similare cu cele mal sus dar ou aferd venuleacle ‘#populatia activa % He mimmary(indicatorisPA) # afiseaza min,max Me average si cuantilele 2773 TSE,Q4. Median wean 3rd qu. Max. . 138.8 175.2 190.4 244.2 353.6 > quantile(indicatori$PA) # afiseazacuanti OK 25K Sox 73x too, te +3 138.8 175.2 244.2°353.6 ai > var(indicatorisp, int i Tay aaieonSPA) #Variantia atibutului RM > hist(indicatoriSPA histo ibutului ee gama atributului RM > plot(density(indicatoriSPA))#densitatea de repartitie jester haunt : = gaan aes s 8/ 2 3 Po Ae f i | 3 od g SS ae pee its sao Aaah ts Figure 3 Histograma atribuauli PA #populatia ocupata > summary(indicatori$PO) # afiseaza min,max Me average si cuantilele Min. Ist Qu. Median Mean 3rd Qu. Max. 82.5 130.5 170.7 179.2 230.0 343.7 > quantile(indicatori$PO) # afiseazacuantile 0% 25% SO% 75% 100% 82.5 130.5 170.7 230.0 343.7 > var(indicatori$PO) #Variantia atributului RM [1] 4770.991 density.defautt(x = indicaton'$Po) 3 84 3 4 50 100 150 200 250 300 350 © 100 200 300 400 | sxicatonsPO N=41 Bandwan=29.58 Figur 6 tstograme PO Figure Denstatea de repartie pentru aribuul PO ‘#someri > summary(indicatori$S) # afiseaza min,max Me average si cuantilele min. 1st qu. Median Mean 3rd Qu. Max. 2.634 7.140 10.030 11.140 14.610 26.760 > quantile(indicatori$S) # afiseazacuantile 0% 25K SOK 75K 100% 2.634 7.140 10.030 14.612 26.755 > > var(indicatori$S) #Variantia atributului RM > [1] 24.93603 > hist(indicatori$S)#histograma atributului RM > plot(density(indicatori$S))#densitatea de repartitie RAHA BHERALTABREES SD 84 — ' \ r = oie : —y OES saa) fio a0i Yash) Ont 10 te sony bo Indicatoni$s N=41 Bandwidth = 2.136 — Plenre 7 Hisiograma s Figure & Densatea de epartie pentru S ‘#nivelul mediu al salariajilor ‘ > summary(indicatori$NMS) # afiseaza min,max Me average si cuantilele ' Min. Ist qu. Median Mean 3rd Qu. Max. 31.40 50.90 75.30 89.84 119.00 209.20 > quantile(indicatori$NMS) # afiseazacuantile density.defautt(x = indicatorisNMB) 25% S0% 75% 100K 31.4 50.9 75.3 119.0 209.2 > var(indicatoriSNMS) #Variantia atributului RM 8 > [1] 2091.124 a ‘MMegrmctinaeaorsims >hist(indicatoriSNMS)¥histograma a 8 tributului RM oa - >plot(density(indicatoriSNMS))#den 3 s sitatea de repartitie s ie g & é 2 © 50 100 150 20 250 N=41 Bandnan= 1958 Figure 9 Densiatea de repartie pentru S 2 0 mm Figure 10 Histrograma NMS jatorsPOP) #*8°°%Can aed Qu, MAX, median jo7.7 382-5 540.9 jet indi afiseazacuantile > quantlefindiatonsSPOP) E acoentll oox ao.28F 209.354 279.161 382.542 530.875 ‘> varfindicatoriSPOP) #Variantia atributului RM (a) 12379.82 > his(indieatoriSPOP}histograma atributului RM 3 plot(density(indicatoriSPOP) #densitatea de reparttie Histogram of indicatorisPOP_ density.defautt(x = indicatori$POP) Frequency 4 Density 0.0020 00010 0.0000 ELAS 400 200 300 40050 100 200 300 400 500 600 700 Indicaton$POP N=41 Bandwiath= 47.65 Figure 12 Histograma POP. Figure 11 Densiatea de repartve pentru PO HROHAHEZERBPDOSPEDIDD | 33 > Cindi catort cs: parplotctabie Cindi eater’ ses)) mediu é a ma i #Nr emigranti table(indicatorisNREM) mare mediu mic Bh Sa2u a2 Pie(table(indicatorisNREM)) barplot(table (indicatorisNREM)) Figure 16 Piechat NREM 3 2 20 15 10 =a CJ mare mediu Figure 14 Barplet Casstigsalarial 8 15 Boxplot NREM ‘6 spartic aibutuulealtan a Pez prin-un piecha i un barplot care pe pot observa ol frecvent Sees peflnchsn poloanele 2,34 : al a camels RM, indicatoriSNMS))#covarianta 2 Laer 4) covarianta diintre atributele RM PA PO > eowtindicatoi.2-4)acov ns | mea ee as BE Be a - ete ianta diintre atributele RM PA PO > cor(indicatori,2:4)Hcovar PO eM 9579561, 0000000 0.9635890 0. PA 0:3855890 1.000000 0.997873 Po 0.9579561 0.9977873 1.0000000 ‘#Reprezentarea setului de date > plot(RM~PO,xlab="Resursa de munca" ylab=" smain="Setul indicatori", col=c("red", "green > plot(RM~PO,xlab="Resursa de munca’ smain="Setul indicatori", col=c(2,3,4)[; “"Populatia ocupata” pch=c(16,17,15) pplue”)[as.numeric(NREM)] fang. sm “ylab="Populatia ocupata” bat 2-indicatori) : “Pch=C(16,17,15)[as.nummeri “SS aumeric({NREM)],data~indicatori 7 S.asumerio(NREN )[as.numeric( NREN ‘Setul Indicator! 8 Regresie liniara 400 = 3 ed ista vreo legiturd intre RM si PO lelului de regresie > ni sie<-lmndicatori$RM~indicatori$PO) 8 #coeficientul modelului > Tegresie > abline(reg resie) #eonstruirea mod Populats ocupata 100 150 200 250 300 350 Resursa de munca Figure 17 Representare grofica a setului de date RM-PO Este o Puternica ttre doua slemente conduce la Preciziei predietici unet veriabile pe ~*~ ot ta nea aoe ear ientul 2 oat $2 FR) oe arta ct eas ira pone aa ne a Populatia activa ‘reste cu o unitate, etna tinicatori$PA~indicatorisPO) Hcoeficientul tului >. Feeresie 8 = InCformia = Indicatorisea~ indicatori$eo) Coefficients: Gntercept) ‘indicatori spo 3 ~z 6-788 1.024 g* a § rieze imy > abline(regresie) 8 ~ ig g ¥ f ‘i = g (NREM)] _ 100 150 200 250 200 360 | Resursa de munca. Figure 18 Oreapta de regresie | ANALIZA COMPONENTELOR PRINCIPALE: sam —_ Trin ceashanalin so urmdceteredveeres numirula de variable ba un sums si mic do varibite tificiale numite componente principale, De obicei interconectirile intre parametri pos was nae se ‘componentelor principale are ca scop eliminarea acestora. Astfel, se va trece de ace ele a ve _ explicat ick mai putine. In determinarea componentelor principale se va gsi o legétur& prin analiza caracteristic iecte , in cazul nostru 41 de obiecte. ‘ cae Urvtalhate setului de date este exprimatA prin covarianfele asociate setului de date. he ie Gul in care sunt interconectate diversele perechi de caracteristici. Intr-un spatiu R dimensional , Een ei ectelor sunt date de valorile caracteristicilor. Variabilitatea unui set de date se reduce, in esenja la — i i at listis i bine. sunt acestea, Cu cét variabilitatea este mai mare, cu atat punctele se vor distinge mai bine. = Prin componentele principale se va exprima o noua structur& informationala, iar varibiltatea come entelor principale este dat de variante acestora. Cu cat variabilitatea unei componente este mai its a noastem mai bine datele pentru acea caracteristica(sunt mai vizibile). Tocmai de aceea varianfele tret ‘it mai mari. 3 ; De aici trebuie ca varianjele si fie ct mai mari » iar vectorii sa fie necorelati. Astfel, determinarea de Ponentelor principale se reduce la determinarea unei matrici de coeficienti care duce la maximizarea varianfe Valorile proprii ale Matrici de covarianga sunt chiar varianfele vectorilor. Reducerea dimensiionalitafii se aE ‘az pe baza principiului conform caruia 0 componentd principala este cu atat mai bund cu cat valoarea pi ste mai mare, ANALIZA IN COMPONENTE PRINCIPALE > indicatori<- read.csv("Cindicatori.csv") > performanta<- subset(indicatori, select = -c(1,5, 7,8,9) ) Comanda subset are rolul de a selecta mai putine informatii din tabela indicatori. > names(performanta)# afissare coloana performanta ta) "R A" "pot > performanta > RM PA 208.0 172.1 159, 270.6 218.2 212. 378.5 259.1 243., 204, 264. 128. 14s: 119. 240. 171. 95. 112. 343. 291. 83. 188. 257. é 16 326.3 204. 17 410:8 284. 18 33 B ee mannan 8 2 NboNaabaNaNNawo BUR ODN wm amnNa La & 19 170.9 93. 20 214.4 142. 21 195.6 138. 37 473-4 341.6 area 38 129.6 87:3 “2:5 rianjfel 1 i 3152/6 135: » reali 41 200.0 146.6 1378 > fmatricea de covarianta > covarianta<-cov(performanta) > covarianta RM PA Po ] RM 11189.948 727.434 6999.40 "A 7227434 5027551 4886.755 = PO 699.450 4886.755 4770.991 > #matricea de corelarea | > corelatia<-cor(performanta) > corelatia RM PA Po RM 1.000000 0.9635890 0.957956 PA 0.9635890 1.0000000 0.9977873 7 PO 0.9579561 0.9977873 1.0000000 =r) Prin aceasta matrice se misoard legitura dintre caracterisic, sensul legaturii si sensul. Spre exemplul Jegatura dintrecantiatle de mere si prune este una s (dupa diecti) d leoarece coeficientul de corelatie este 0,95. > #Abaterea standard > abatere<-apply(performanta,,sd) > abatere % 2 3 4 5 6 25.12509 32.15903 73.7509 92.32667 5162687 26,09604 7 8 9 1 SABSIZG 34.0052. 64.6936), 47.7503 47.36511. 35-69236 BE 5r 15 7 Sesse.. BP SHAS ‘ae, Margy 74ATASS: Rt wmaaE. RE AOTEY 19 20 2: 46.90696 45.17212 35.4336 42.75024~ seasod? 232.01106 25 26 27 28 68.08201 55.62562 30.02937 61.94234 47.18372 53.14433 31 32 33 34 35, 36 102.09296 17.48209 37.62397 39.59726 83.31202 30.29263 7.70084 1881 73 50.63603 33.65967 7.70054 25.9891 29.43473 5 Abterile standard au valori relative apropiate, deci in calcul se va uti a matricea de covarianta. > indice eigen Sunt vectorii si valoriile proprii > eigen(covarianta) E Svalues [1] 20574.425629 404.261085 9.803628 E Svectors C.2) C,2) ,3] i, J -0.7312721 0.6811754 0.03522936 -0.4893185 -0.4879209 -0.72284203 -0.4751931 -0.5458326 0.69011469 Bs: > peac-princomp(performanta,cor=F) > pea cal: princomp(x = performanta, cor = F) Standard deviations: Comp.1 Comp.2_comp.3 141.677840 19.859533 3.092655 3 variables and 41 observations. “scale” —“n.obs" > loadings(pca) Loadings: Comp.1 Comp.2 Comp.3 RM -0.731 0.681 PA ~0.489 -0.488 -0.723 3 PO ~0.475 -0.546 0.690 Comp.1 Comp. 2 comp.3 $$ loadings 1.000 1.000 1.000 Proportion var 0.333 0.333 0.333 Cumulative var 0.333 0.667 1.000 summary(pca) ‘Importance of components: Comp.1 __comp.2 Comp.3 Standard deviation 141. 6778401 19,85953319 3.0926549811 Proportion of variance 0.9802718 0.01926108 0.0004670954 Cumulative Proportion — 0.9802718 0.99953290 1.0000000000 § Primele trei componente principale explicd 100% din variata totald. Daca se urmire Sfe.cetinerea componentelor principale care explicd cat mai mut din varianta totala, atun €i se vor retine 2 componente principale. . acestea explicd 99,99% din varianta totala, Potrivit criteriului proportiei cumulative , din variatia explicate , retinem un nu mar de componente principale pentru a explica intre 90X din variatia totalae3. =y pee an es Gos as howe ay i Fy 8000 04 coms? a st y 2 8 j 02 Comp 1 come2 como 3 2 Figure 20 Evolutia Componentelor prnepule va 02 00 02 04 rianta totala Comp 1 sum((pca$sdev)*2) 20476.58 Figure 19 Biplor . ed - Lg plot(pca,type="lines") biplot(pca) ‘STUDIUL EFICIENTET > #incarcarea setului de date > performanta_eficientei RM PA PO S NMS POP 1 208.0 172.1 159.6 12.508 79.0 227.371 2 270.6 218.2 212-1 6.071 119.3 291.995~~ 3. 378.5 259.1 243.8 15.334 131.3 415.905 4 (371.0 219-0 204.2 14.809 97.3 398.556 3 358.8 274.8 264.8 10.030 150.3 392.596 6 176.7 134.8 128.8 6.042 57.6 189.511 7 8 9 237.6 152.7 145.1 7.614 48.9 258.043 190.1 129.2 119.7 9.519 61.2 207.747 357.5 251.4 240.5 10.850 157.2 382.542 262.2 190.2 171.8 18.348 77.9 287.512 104.4 95.8 8.599 40.7 195.477 117.4 112.1 5.277 50.9 195.780 353.6 343.7 9.938 196.2 492.723 303.6 291.6 11.978 169.1 477.652 88.7 83.0 5.746 45.4 140.227 204.6 188.4 16.228 72.9 349.625 17 410.8 284.1 257.3 26.755 116.3 439.795 18 335.5 202.7 183.4 19.253 103.0 360.907 19 170.9 93.1 86.6 6.510 31.4 181.197 20 214.4 142.0 131.4 10.581 68.9 232.113 21 195.6 138.8 130.5 8.256 59.7 209.311 22 256.4 189.4 176.9 12.467 106.9 279.161 23 162.3 104.3 95.8 8.481 40.6 175.379 24 515.9 294.9 280.3 14.612 138.0 530.875 25 289.9 173.3 170.7 2.634 108.3 294.888 26 299.1 206.5 199.4 7.140 91.6 325.105 27 160.0 114.7 103.2 11.464 40.9 173.296 28 343.8 244.2 230.2 14.039 119.0 365.223 29 272.5 197.5 185.4 12.114 73.9 297.130 30 259.2 175.2 160.8 14.435 62.4 281.432 31 470.2 301.8 286.0 15.791 162.3 509.413 32 133.2 106.5 100.3 6.235 43.7 143.952 33 217.7 156.2 149.4 6.816 75.3 235.942 34 255.2 191.5 182.6 8.852 119.7 275.688 35 381.8 246.4 230.0 16.440 91.7 412.483 36 209.4 169.0 150.1 18.888 52.1 229.097 37 473.4 341.6 336.2 5.433 209.2 501.983 38 129.6 87.3 82.5 4.775 42.0 141.256 39 216.2 170.7 161.1 9.604 71.2 240.262 40 230.3 152.6 135.2 17.369 50.0 248.800 41 200.0 146.6 137.8 8.841 50.1 217.090 > #matricea de covarianta > S<-cov(performanta_eficientei) >s RM 11189.9476 7227.454 o3 é - 7227.434 6999.4505 228.2 PA 7227.4338 5027.551 486.7547 40! 9940° FO 6999.4505 4886.755 4770.9913 116.01078 Sig 4az82807 140.995 116.0108 24.93603 NMS 4278-4458 3036.992 3000.9404 36.09654 POP: 12796-0153 7634. 401 7386.1948 24849815, PoP’ RM 4278.44576 11756.0153 PA 3036.99166 7634. 4012 % performanta_eficientei<- subset(indicatori, select = -c(1,7,9) ) PA Po s 9635890 0.957956] 0.4321569 x 0.997873 0.3982096 9579561 0.9977873 1.000000 0.3363414 4321569 0. 3982096 0.363414 1'0000000 0: 8844679 0.9366458-0.9500864 0.1580745 0.9986244 0.9676978 0.9610798 04472522 NMS P POF 0.8844679 0. 9988244 0.9366458 0. 9676978 9. 9500864 0.9610798 S _ 9.1580745 0.4472522 NMS 1.000000 0.8848090 POP 0.8848090 1.000000 > #abaterea standard > Sq-Perf<-apply (performanta_eficientei ,2,sd) = > sd-pert RM PA Po s 105.782549 70.905229 69.072362 4.993595 NMS Por = 45.728814 111.264593 |] > findice eigen sunt vectorii si valoriite proprii > eigencs) Svalues [1] 3.459134e+04 7.118677e102 1.517788e102 [4] 2-040615e+01 8:972273e400 1.97396rer on Svectors (,2) [,2] (,3] £1,] ~0.56570547 0.38860294 0.21268889 [2,] ~0.37563772 -0. 38342212 -0.51407787 [3,] -0.36464263 -0. 46102483 -0.32642523 [4,] -0.01101001 0.07760948 -0.18807194 [5,] -0.22576619 -0. 58525693 073926342 £6,] -0.59566583 0.37534309 0104530445 C4] C5] C6) als] _0.3278297 -0.61339726 -3.058381e-05 i £2,] -0.2625342 -0.21500940 -5_765886e-01 3, J _0.4351729 0.16358517 5. 760233e-01 1 -0.6935017 -0.37656065 $.794325e-01 1 ~0.2423136 -0.03573525 8.096168e-04 J -0.3075184 0.63849801 1.249398e-06 > pca_perf<-princomp(performanta_eficientei ,cor=FALSE) > pca_perf call: ibe Princomp(x = performanta_eficientei, cor = FALSE) Standard deviations: Comp.1 Comp.2 Comp. 3 comp. 4 183.7083192 26.3534642 12.1686824 4..4618875 ‘Comp. 5 Comp..6 2.9586208 0.013874 *n-obs" > loadings Cpca_perf) ete Comp.3 Comp.4 comp.5 comp.6 1. Comp -3 Comp. ) . So"S66 “Orbea “On2i3 “Orsz8 “Ove 376 -0.383 -0.514 -0.263 0.215 -0.577 365 -0.461 -0.326 0.435 -0.164 0.576 ~0.188 -0.694 0.377 0.579 NMS ~0.226 -0.585 0.739 -0.242 = PoP -0.596 0.375 -0.308 -0.638 e # # # Comp.2 comp.2 comp.3 Comp. 4 Bs # B B EB g $8 loadings 1.000 1.000 1.000 1.000 Proportion var 0.167 0.167 0.167 0.167 Cumulative var 0.167 0.333 0.500 0.667 comp.5 comp.6 Ss loadings 1.000 1.000 Proportion var 0.167 0.167 Cumulative var 0.833 1.000 > summary (pca_perf) Importance of components: ‘comp.2 comp.2 Standard deviation _183.7053192 26.35346420 Proportion of variance 0.9748333 0.02006145 Cumulative Proportion 0.9748333_ 0.99489473 comp. 3 comp. 4 Standard deviation 12. 168682411 4.4618875248, Proportion of Variance 0.004277342 0.0005750745 Cumulative Proportion 0.999172068 0.9997471430 Comp. 5 ‘Comp .6 Standard deviation _2.9586207631 1.387740e-02 Proportion of variance 0.0002528515 5.562924e-09 Cumulative Proportion 0.9999999944 1:000000e+00 > #variatia totala 5 Primele trei componente principale explicd 99,91% din variata totald. Daca se urma reste retinerea componentelor principale care explicd cat mai mut din arianta totala, aty nci se vor retine 4 componente principale. . Acestea explica 99,97X din varianta tora Potrivit criteriului proportiei cumulative , din variatia explicate , retinem un n umar de componente principale pentru a explica intre 90%-100% din variatia totalasé. E # > sum((pca_perf$sdev)A2) (1]_34618.89 > plot(pca_perf, typ Vines") E > Stgen(s)Svectorst.1:2}¢aftseaza vectorii 12 a +2] [1,] -0.56570547 0. 38860294 I {2,] -0.37563772 -0.38342212 -0.36464263 -0. 46102483 ~0.01101001 0.07760948 ~0.22576619 -0.58525693 J J -0.59566583 0.37534309 12,1. -0.9946265 -0. 9853139. -0. C3] £,6) £1,1 -0.9182524 -0.995702 1) i 11,3 o.ossosdad -0.1442775 -0, [.6) Gs 7 £2,7 -0.3414723 0. 09000592 2 Performanta_eFicientel .m<-a > performanta_eficientel.m kM PAPO. s 2 208.0 172.1 159.6 12.508 3 270.6 218°2 212'1 “6.073 1 259-1 243.8 15.334 1; 219.0 204:2 14.809 274.8 264.8 10.030 1: 134.8 128'8 6.042 152.7 1451 7 614 229.2 119-7 9/519 § 251.4 240.5 10/850 1: 20 262.2 190-2 171:8 18-348 32 181.8 104.4 95°3 “g'so9 32 176.4 117.4 13311 $1397 33 466-8 353.6 34317 9/956 9: 14 448-8 303.6 2916 11.978 1, 35 130.8 88.7 “83/0 “5/746 26 326.3 204°6 188.4 16.398 27 410.8 284°1 257°3 26.758 1, ; 38 335.5 202°7 183.4 19.953 1 39 170.9 93:1 86.6 6.510 30 214.4 142.0 131.4 10.581 31 195.6 138-8 130/5 81256 32 256.4 189.4 176.9 12/467 14 23 162.3 104°3 95.8 8.481 34 515.9 294°9 280.3 14/612 1. 35 289.9 1733 170.7 21634 1 26 299.1 206.5 199.4 7149 27 160.0 114.7 103.2 11464 28 343.8 244.2 230.2 14/039 1: 29 272.5 197-5 185.4 12.114 30 259.2 175:2 160.8 14.435 31 470.2 301.8 286.0 15/791 1 32 133.2 106.5 100.3 6.235 33 217.7 156.2 14914 6.816 34 255.2 191.5 182'6 8.852 1: 35 381.8 246.4 230.0 16.440 36 209.4 169.0 150.1 18.888 37 473.4 341.6 336.2 51433 2 38 129.6 87.3 82.5 4.775 39 216.2 170.7 161.1 9.604 40 230.3 152.6 135.2 17.369 41 200.0 146.6 137.8 8.841 > #scorurile primelor 2 compor > scores<-performanta_eficien: > scores C,1] (,2) 1 -393.9213 -18.6595233 2 -513.3169 -36.0417975 3 -677.8995 15. 7965833 4 -626.1377 59.8600350 5 -670.6568 -27.8405377 9818537 -0.4100697 > SareCeigencs)sva 1B gy Cotoen(s}fvectorsl 21)8-xsolveCsare(dtag(éiag(s)))) 2) 3] 3] . 1780818 0.4146682 'S matrix (performanta_eficientei) NMS pop 79.0 227.371, 19.3 291.995 31.3 415905 97.3 398.556 50.3 392.596 57.6 189.511 48.9 258.043, 61.2 207-747 57-2 382/542, 77.9 287.512 40.7 1957477 50.9 195:780 196.2 492,723 169-1 477.652 45.4 140.227 72.9 349.625 16.3 439.795 103.0 360.907 31.4 181.197 68-9 232/113 59.7 209.313, 106-9 279.161 40.6 1751379 38.0 530.875 108-3 294888 91.6 325.105 40.9 173/296 119-0 365.223 73.9 297130 62.4 281.432 162.3 509.413 43.7 143.952 75.3 235.942 19-7 275.688 91.7 412/483 52.1 229.097 09.2 501.983 42.0 141.256 71.2 240.262 50.0 248.800 50.1 217.090 nente principale tei .m&s*% (ei gen(s) Svectors[,1:2]) R B 4 15 16 5t 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35, 36 37 38 39 40 Heenan ~323.5180. - 409.5123 3 337.3902 647.8487 -1! 231.4202 ~555.0405 721.4551. 571.2573 278.3226 ~376.4754 348.6249 471.2563 -279.6525 852. 491, ~533 283 -614, ~489. 452. 823. 247. 393, 474, 658. -385.. -865.1 -229, 404. -396, 5 41-359. > plot(sco > biplor¢p 852 787 L 9595553 7483983 8092389 5.0631761 $1.3194388 31.1712482 44,7813677 40.9301042 15.9108600 6.8923465, 11. 3529051 21.6372212 77.8126482 15.0172704 14.0966316 12.6183530 2.370062 139097945 29.6513500 32.5941846 63737793, 10.8296876 res(,1],scores[,2] mains ca_perf PC score plot "PC score plot") 93 02 01 00

S-ar putea să vă placă și