Sunteți pe pagina 1din 18

ANALIZA DATELOR

Analiza componentelor principale (Principal Component Analysis PCA).


PCA are ca scop reducerea dimensionalitii matricei de date (matricea iniial pe baza creia efectum analiza), sau cu alte cuvinte reducerea controlat a numrului de coloane (caracteristici) la dou sau trei, determinate n aa fel nct s fie necorelate, fiecare din aceste noi variabile (numite componente) fiind de fapt combinaii liniare de variabilele iniiale.Astfel, prin PCA urmrim s e tra!em cel mai mic numr posibil de componente, care s recupereze ct mai mult din informaia total coninut n datele ori!inale. Pentru a realiza aceast analiz am ales ca subiect producia a!ricol, studiat pentru "# de ri europene i am considerat urmtoarele caractersitici$ output%ul provenit din a!ricultur, producia de cereale, producia de vin, producia de le!ume, producia de fructe, suprafaa i cantitatea de fertilizator folosit n a!riculutur. &atele sunt sintetizate n urmtorul tabel$

'ara 1el!ia 1ul!aria Ce.ia &anemarca 8ermania )stonia 9rlanda 8recia /pania :rana 9talia Cipru ;etonia ;ituania *n!aria <alta (landa Austria Polonia Portu!alia +omania /lovenia /lovacia

(utput (mil )*+) ##2-."342 4422.7#5, 4323.56#7 67-3.32## 45545.-", 235.4263 26,6."7-5 ,"-"7.37# 47277.,62 #4#,#.# 346-2.-" #",.#64# 62,."-33 ,#"2.624 #,,3.7#64 ,"4.2"52 "-657."4# 233"."42# ,2-2".37" #264.-, ,"524.-4, ,-#2."#23 ,#74.-524

Prod. cereale (,--- t) "5,6.2 25,5.7 6#27.5 7"54., 3275-." 6#-., ,733.6 3"4-.3 ,435#.4 #4766.5 "--7"., 6-." ,-27.2 "5,,., ,#"-4 ,526.4 3575.4 "#7"6.5 #6,.4 ,744,." 26#.4 4252.4

Prod. vin Prod. le!ume Prod. fructe (,--- .l) (,--- t) (,--- t) 3 ,24,.4 26,.6 ,7#, 36#.6 2#,.4 25"72.# 476." "34.5 6".# ,-,-6 4-,"." "3"2., #".6 ,#.5 "64.# ,5." 3"5" 4657.4 27-3.2 34,#5 ,4262.4 ,75,-.4 2645# 256" ,-3-#.3 24,42 ,33,7.6 "",,,.2 4"5.734 ,3-.6 "32.3 ,25.5 22 4--.3 ,",.7 2"6,.5 ,236.3 ,"-5., #5.7 27.5 6." 3",# 6-6.# "#52.5 2,-.6 ,-3,.# 33,7.2 "7",.2 635, ,#6-.2 ",27." #,##., 3#64.5 ","3." 733 56.# "#2.7 3-7.25 ,32 ,,5.,

/ (0m") 4-2,,,-7,655## 34-73 426-", 32""# 6-"5,4,732-365" #34235 4-,4"7"2#3257 #2"-74-44,# 3,2"# 54525 4,"#52 7"74, "4547, "-"24 35532

Cantitatea de fertilizator (t) 4--"7#.6, ,3654".,5 46"52,.7" "7#",6.-"3535,4.-337",.72 24#"32.446"-"7.-,5"3276.-424564#.,,"2644,.-,4267.-4 #275".37 ,737#-.-2 353"6#.7" ,773.-6 4352-5.#,5---6.6,#525-3.-,##6-2.-44,235.46 7-,75.53 ,"6723.-5

~1~

:inlanda /uedia <area 1ritanie

3456." 3457.33"5 "-7-,.63,

3-25.4 2-2-.# ",-57.6

,7

""2.# ""6." "#25.7

,#.5 4,.6 425.2

446-43377#3 "335"-

"#55"-.-"4"74#.-" ,2#2475.--

=n continuare vom studia separat fiecare variabil, prin indicatori specifici detaliai n tabelul de mai >os$
Descriptive Statistics
N Cantitatea de fertilizator (t) S (&m2) 'ut(ut (mil ")*) +rod. de cereale (1 +rod vin (1 +rod. fructe (1 +rod. le-ume (1 Valid N (li.t/i.e) ,l) t) t) t) Minimum Maximum "# #.$#%!#61 #16 12#.$2%$ . Mean "6 6.$1#2%62% !692"$ 64#$4% 6.#61!"4 6#9!!.% $!#%6 !.2 $9.% 22111.$ 14419.! 1.! "$ 1.26 !%2"4 1. 9#"4 !461.4! 2.%#4"# 2.4%4"# Std. Deviation %.!99 6!64! %69#"$ 1!#1#6.1#2 1.62!9$$2"4 1$221.%246 164!6.99 $% %.$ $% #%1!.!%26 Variance !.!42"11 2.99%"1 2.6$ "% 2.#1!"% 2.!1$"% #.#!4"! 1.4$%"!

26 1.994 ! 26 26 26 26 26 26 26

Am ordonat acest tabel dupa valorile descresctoare ale mediei, i dupa cum se poate observa cea mai mare medie i corespunde cantitii de fertilizator folosit n a!ricultur$ #2,4"5 t iar variana (dispersia) corespunztoare este de 663" ? ,- ,, .(bservm de asemenea c toate datele considerate (numarul de indivizi@ri) au fost valide. &ei analiza independent a variabilelor este o etap esenial n procesul de caracterizare datelor, ea nu ne ofer informaii privind le!turile stabilite ntre variabile, relaii care pot fi deduse n urma studiului matricei de corelaie. =ns nainte de a obine aceast matrice este necesar s standardizm datele coninute n matricea iniial, adic s le supunem unui proces de normare i centrare pentru a evita discrepanele dintre valori, datorate unitilor de msur diferite (s asi!urm comparabilitatea datelor). Corelaia liniar dintre dou variabile se msoar cu a>utorul coeficientului de corelaie Pearson. <atricea de corelaie se obine calculnd pe rnd pentru toate cele 6 variabile din matricea de date coeficienii de corelaie respectivi, aceast matrice fiind astfel simetric, pozitiv definit i avnd pe dia!onala principal numai elemente e!ale cu ,). Cu ct coeficienii de corelaie e tradia!onali sunt mai apropiai de , cu att ntre variabilele respective e ist dependene liniare mai puternice. <atricea de corelaie obinut considernd variabilele standardizate este urmtoarea$

~2~

Correlation Matrix
'ut(ut Correlation 'ut(ut +rod. de cereale +rod vin +rod. le-ume +rod. fructe Su(rafa0a Cantitatea de fertilizator a. Determinant 1 4.9#"2 6 1. .%#9 .%!$ .!!4 .!$2 .!!4 .912 +rod. cereale +rod vin .%#9 1. .626 .42# .#9$ .!4# .9#$ .%!$ .626 1. .%#1 .9 6 .6%9 .! 6 +rod. le-ume +rod. fructe Su(rafa0a .!!4 .42# .%#1 1. .9$$ .$%1 .$64 .!$2 .#9$ .9 6 .9$$ 1. .$% .$41 .!!4 .!4# .6%9 .$%1 .$% 1. .!99 Cantitatea de fertilizator .912 .9#$ .! 6 .$64 .$41 .!99 1.

(bservm c cea mai mare valoare a coeficientului de corelaie este de -.722 i se stabilete ntre variabila ce e prim producia de fructe i cea care e prim producia de le!ume, constituindu%se astfel o dependen liniar semnificativ ntre cele dou caracteristici. &e asemenea o le!tur puternic e ist i ntre cantitatea de fertilizator utilizat n a!ricultur i producia de cereale (-.742), ntre cantitatea de fertilizator utilizat i output%ul a!ricol (-.7,"), ntre producia de fructe i producia de vin (-.7-#). Aivelul cel mai sczut de corelaie se nre!istreaz ntre variabila ce e prim producia de fructe i cea care e prim producia de vin (-.472). &ac ar fi s oferim o interpretare acestor rezultate am putea spune c, de e emplu, cantitatea de fertilizator folosit influeneaz n special producia de cereale deoarece aceasta este tipul principal de producie a!ricol a arilor considerate n analiz i deci domeniul n care se folosete cea mai mare cantitate de fertilizator. Acelai raionament poate fi e tins i la nivelul output%ului a!ricol deoarece acesta provine cu precdere din producia de cereale i din cea de vin. 9nformaia total coninut n datele iniiale (variana !eneralizat) reprezint determinantul matricii de covarian care n acest caz (cnd datele sunt standardizate B au media - i variana ,) este de fapt determinantul matricii de corelaie$ 3.74)%--# (diferit de -, deci matricea sistem liniar independent). =n tabelul Communalities este e primat cantitatea de informaie recuperat din fiecare variabil n parte sau, altfel spus, procentul din variana variabilei care poate fi e plicat pe baza tuturor factorilor. Cu ct rezultatul din coloana ) traction este mai apropiat de , cu att variabila respectiv este mai bine e plicat prin model.

~3~

Communalities
3nitial 'ut(ut +rod. de cereale +rod vin +rod. le-ume +rod. fructe Su(rafa0a Cantitatea de fertilizator 1. 1. 1. 1. 1. 1. 1. "xtraction .9$ .9$ .911 .942 .9%! .!69 .9$6

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i..

Putem observa c ma>oritatea variabilelor iniiale contribuie esenial n a fi e plicate de ctre variabilele artificiale (componentele principale) care vor fi analizate ulterior, cantitatea de informaie recuperat din aceste caracteristici fiind foarte mare, o mic e cepie fcnd suprafaa total a crei valoare este de CdoarD -.6#7. Pentru a determina numrul de componente principale necesare n prelucrarea ulterioar a datelor vom studia urmtorul tabel$

~4~

Total Variance Explained


3nitial "i-envalue. Com(onent 9otal 1 $.#62 2 1.1 # # 4 $ 6 ! .2%! .14# . $4 . 42 . 9 : of Variance Cumulative : !6.$94 1$.!6 4.1 2. 4# .!69 .6 6 .12! 9otal : of Variance Cumulative : !6.$94 1$.!6 9otal : of Variance 4!.!64 44.$91 Cumulative : 4!.!64 92.#$4 !6.$94 $.#62 92.#$4 1.1 # 96.4$4 9%.49% 99.26! 99.%!# 1 . !6.$94 #.#4# 92.#$4 #.121 "xtraction Sum. of S7uared 8oadin-. *otation Sum. of S7uared 8oadin-.

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i..

=n acest tabel ne sunt prezentate valorile proprii n ordine descresctoare (n coloana Eotal), suma valorilor proprii reprezentnd e act ran!ul matricii corelaiilor, n cazul nostru ran!ul fiind 6. Falorile proprii sunt ec.ivalente cantitii de informaie recuperat din datele iniiale, iar n aceast situaie avem nevoie de dou componente principale pentru a recupera cea mai mare cantitate de informaie$ 7".423G. Componentele principale corespund valorilor proprii cele mai mari, iar aceste valori proprii sunt de fapt varianele corespunztoare celor dou componente considerate. Astfel am redus dimensiunea spaiului iniial al variabilelor de la 6 la ", pierznd n acest proces o cantitate minim de informaie. &ac ale!em s rotim a ele, procenta>ele vor fi distribuite mai omo!en, mai uniform dupa cum se observ n ultimele trei coloane ale tabelului. ( metod alternativ pentru determinarea numrului minim de componente principale o reprezint studierea /cree Plot%ului astfel$ identificm diferene de nivel semnificative ntre valorile proprii corespunztoare ducem o dreapt paralel cu abscisa deasupra ultimei diferene de nivel numrul de valori proprii rmase deasupra determin numrul de componente principale

~5~

Aplicnd al!oritmul enunat mai sus observm ca numrul de componente principale obinute este de dou. Pentru caracterizarea componentelor obinute se determin coeficientul de corelaie dintre variabilele iniiale i variabilele artificiale. <atricea ce conine aceti coeficieni este urmtoarea$

~6~

Component Matrix
Com(onent 1 'ut(ut +rod. de cereale +rod vin +rod. le-ume +rod. fructe Su(rafa0a Cantitatea de fertilizator .9! .%11 .922 .%#% .%#9 .%4# .%9# 2 . %9 .$4 2.246 2.49 2.$## .242 .#99

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i.. a. 2 com(onent. extracted.

&in acest tabel deducem c prima component poate fi interpretat n termenii variabilelor care e prim$ output%ul (coeficientul de corelaie este de -.76-), producia de vin (-.7"") i cantitatea de fertilizator (-.574). =n acelai timp variabilele ce e prim producia de cereale, producia de fructe i producia de le!ume sunt influenate de a doua component. +ezultatele astfel obinute nu sunt prea satisfctoare i astfel vom recur!e la rotaia a elor. Prin te.nica rotirii a elor (Farima ) n spaiul redus se realizeaz o redistribuire a informaiei, a variabilelor astfel nct sa fie oferit o interpretare mai facil noii structuri informaionale obinute. <atricea obinut este$

~7~

Rotated Component Matrix


Com(onent 1 'ut(ut +rod. de cereale +rod vin +rod. le-ume +rod. fructe Su(rafa0a Cantitatea de fertilizator .!6$ .96 .499 .2! .241 .!!% .922 2 .6 4 .16! .%14 .9#2 .964 .4 4 .#2$

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i.. *otation Met,od4 Varimax /it, ;ai.er Normalization. a. *otation conver-ed in # iteration..

(bservm c prin aceast metoda rezultatele obinute sunt mult mai concludente, oferind posibilitatea unei interpretri adecvate. Astfel prima component poate fi interpretat n termenii variabilelor ce e prim$ output%ul (-.6#2), producia de cereale (-.7#-), suprafaa (-.665) i cantitatea de fertilizator folosit (-.7""). 9ar variabilele ce e prim producia de vin (-.5,3), producia de le!ume (-.74") i producia de fructe (-.7#3) sunt corelate puternic cu a doua component principal. Putem conc.ide astfel c prima component evideniaz aportul mare adus de producia de cereale n cadrul produciei a!ricole totale precum i faptul c ea este influenat cel mai mult de suprafaa total a rilor considerate i de cantitatea de fertilizator. =n acelai timp producia complementar de vin, fructe i le!ume este comprimat n cea de%a doua component principal. <atricea de rotaie este dat de$

Component Transformation Matrix


Com(onent 1 2 1 .!2$ .6%% 2 .6%% 2.!2$

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i.. *otation Met,od4 Varimax /it, ;ai.er Normalization.

~8~

Aceast matrice ptratic, a crei dimensiune este e!al cu numrul componentelor principale, reprezint matricea cu care trebuie nmulit CComponent <atri D pentru a obine C+otated Component <atri D. Componentele principale reprezint combinaii liniare de variabilele ori!inale cu versorii noului spaiu redus. Aceti versori sunt dai de vectorii proprii corespunztori valorilor proprii mai mari dect , i sunt e primai drept coeficieni n e plicitarea scorurilor (componentelor principale).)i sunt prezentai n matricea urmtoare$
Component Score Coefficient Matrix
Com(onent 1 'ut(ut +rod. de cereale +rod vin +rod. le-ume +rod. fructe Su(rafa0a Cantitatea de fertilizator .1%! .44! 2. 29 2.19# 2.219 .26$ .#! 2 . 66 2.2$1 .2% .4# .4$% 2. $1 2.14%

"xtraction Met,od4 +rinci(al Com(onent 5nal6.i.. *otation Met,od4 Varimax /it, ;ai.er Normalization. Com(onent Score..

Analiza clasificrii (Analiza CClusterD).


<etodele de clasificare presupun !ruparea indivizilor, identificai printr%o serie de caracteristici (variabile) ntr%un numr ct mai mic de clase omo!ene. (biectul clasificrii poate fi reprezentat att de indivizi (liniile matricei de date) ct i de caracteristici (coloanele matricei iniiale). )ste de preferat ca !ruparea (clasificarea) s fie realizat astfel nct indivizii aparinnd aceleiai clase s fie ct mai similari iar n acelai timp clasele s fie ct mai diferite ntre ele. =n cazul de fa, pentru a realiza !ruparea rilor n funcie de producia a!ricol, utilizm metoda clasificrii ierar.ice simple bazat pe al!oritmul celor mai apropiai vecini i de asemenea folosim matricea de pro imitate sau matricea distanelor ntre indivizi pe baza distanei euclidiene. Aplicnd acest al!oritm obinem urmtoarele date$

~9~

Agglomeration Schedule
Clu.ter Com<ined Sta-e Clu.ter 1 Clu.ter 2 1 2 # 4 $ 6 ! % 9 1 11 12 1# 14 1$ 16 1! 1% 19 2 21 22 2# 24 2$ 12 6 12 14 6 6 2 2 2 2 2 1 1 24 1 19 1 1 1 1 9 1 1 1 1 16 1# 22 2# 12 14 1% # 6 4 ! 2 2 2$ 1$ 26 % 1! 21 24 11 19 $ 1 9 . !9 .12 .12# .14 .1!# .19% .2#4 .#$# .#!$ .#!$ .4$ .492 .$4! .6$! .!$! .92$ 1. 1! 1.12# 1.2%# 1.## 1.619 1.6$4 2.261 4.# 9 $. $ 2 22 2# 24 21 16 1$ 1! 1% 19 14 1# 12 ! % 9 1 11 6 2 $ # 4 1 Coefficient. Clu.ter 1 Clu.ter 2 # $ $ 6 6 9 % 9 1 11 12 1# 1$ 2 1! 22 1% 19 2 22 2$ 2# 24 2$ Sta-e Clu.ter =ir.t 5((ear. Next Sta-e

~ 10 ~

Acest tabel prezint iteraiile corespunzatoare !ruprii indivizilor ntre ei i coeficienii de a!re!are specifici. =ns pentru o mai bun vizualizare a modului de clasificare a indivizilor, pe diferite nivele de a!re!are, este necesar analiza dendro!ramei. &endro!rama corespunztoare variabilelor standardizate i al!oritmului celor mai apropiai vecini este e plicat n cele ce urmeaz$

Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E Label Num 12 1" 22 " 1% 1' 2% 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ ! # # $ # # (

! & & &

~ 11 ~

2 1* % ' + 1 20 15 * 1+ 21 2' 25 12" 5 10 11

) # ( & $ ! # & ( , ! # , ! ( & , ! ( & , ! ( & & ( , # ) ( ( ) (

! & , & (

! & , & (

! , & (

) (

! & & (

<ai nti observm c numrul nivelelor de a!re!are este unul destul de mare (,, mai e act). &ac ar fi s pornim analiza de la un nivel sczut de a!re!are, am obine un numr foarte mare de clase, iar cum scopul nostru este s !rupm indivizii n ct mai puine CclustereD, vom considera un nivel mai avansat de a!re!are, s spunem 5. Corespunztor acestui nivel, prin analiza dendro!ramei, constatm urmtoarea clasificare a rilor$ % % % % 8ermania (2) formeaz sin!ur o prim clas :rana (,-) formeaz de asemenea sin!ur o doua clas /pania (7) i 9talia (,,) formeaz mpreun o a treia clas 'rile rmase se constituie n a patra clas (sunt rile cu un nivel mai puin dezvoltat al produciei a!ricole)

Avem astfel patru clase n care se ncadreaz rile considerate i putem deduce c au fost clasificate mai nti statele cu o producie puternic, respectiv un cti! semnificativ obinut din activitatea a!ricol (putem observa c sunt c.iar rile cele mai dezvoltate ale )uropei), pentru ca apoi s fie adunate ntr%o clas !eneric restul statelor mai puin dezvoltate din acest punct de vedere. Pentru a verifica dac clasele obinute sunt corecte sau pentru a considera o imprire ntre 4 i 2 clase, studiem urmtoarea matrice$

~ 12 ~

Cluster Membership
Ca.e 1 2 # 4 $ 6 ! % 9 1 11 12 1# 14 1$ 16 1! 1% 19 2 21 22 2# 24 2$ 26 $ Clu.ter. 4 Clu.ter. # Clu.ter. 1 1 1 1 2 1 1 1 # 4 # 1 1 1 1 1 1 1 $ 1 1 1 1 1 1 $ 1 1 1 1 2 1 1 1 # 4 # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 # 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

~ 13 ~

/e poate observa c pentru 3 clase (CclustereD), avem e act aceeai clasificare cu cea obinut din analiza dendro!ramei pentru al 5%lea nivel de a!re!are. Clasificarea n 2 sau 4 clustere se poate deduce tot n urma unei studieri a dendro!ramei dar de data aceasta pentru al 6% lea respectiv al 7%lea nivel de a!re!are.

&ac n sc.imb utilizm al!oritmul centroidului, msurat pe baza ptratului distanei euclidiene vom obine urmtoarele date$

~ 14 ~

Agglomeration Schedule
Clu.ter Com<ined Sta-e Clu.ter 1 Clu.ter 2 1 2 # 4 $ 6 ! % 9 1 11 12 1# 14 1$ 16 1! 1% 19 2 21 22 2# 24 2$ 12 6 14 12 6 2 6 2 2 2 1 1 24 1 19 1 % 1 9 19 1 1 $ $ 1 16 1# 2# 22 14 1% 12 # 4 ! 2 6 2$ 2 26 1$ 1! % 11 21 24 19 1 9 $ . 6 Coefficient. Clu.ter 1 Clu.ter 2 4 $ $ 1 2 # ! ! % $ 6 % 9 1 11 ! 4 12 9 1 11 12 14 21 12 16 2 14 1% 1% 16 1! 21 24 1$ 1% 21 1# 2 22 22 2$ 24 2# 22 19 24 2$ Sta-e Clu.ter =ir.t 5((ear. Next Sta-e

. 14 . 2 . 22 . 42 . $$ . 94 .11# .2 4 .2#2 .222 .2!1 .4#1 .$#9 .%$6 1.12# 1.46% 1.!%4 2.62 2.646 #.!$9 4.%4# 1%.$!1 2#. 49 ##.2#9

~ 15 ~

( modificare notabil o reprezint coeficienii de clasificare (a!re!are) mai mari, deoarece distana la care se combin doi indivizi este constituit acum din ptratul distanei euclidiene. Eotodat, dendro!rama conine mai puine nivele de a!re!are$

Dendrogram using Centroid .et/od Rescaled Distance Cluster Combine C A S E Label Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

~ 16 ~

12 1" 22 " 1% 1' 2% 2 1* % ' + 1 20 15 * 1+ 2' 25 12" 21 11 5 10

! # # # # # # # # # # $ # # (

! & , ! & & ) ( , ( & ) ! & ( , ( ( ) ( ) (

! & , & # (

! , (

! & & & & & (

=n loc de ,, nivele de a!re!are avem acum 6, iar pentru al 3Blea nivel obinem o clasificare a rilor n trei clustere dup cum urmeaz$ % % % 8ermania i :rana formeaz acum o sin!ur clasH /pania i 9talia alctuiesc o a doua clasH +estul rilor sunt !rupate ntr%o ultim clas

Astfel pentru un nivel mai sczut de a!re!are obinem o clasificare mai bun a rilor, nemaie istnd clustere ce conin o sin!ur ar. ) plicaia acestei clasificri este n mare parte aceeai cu cea oferit n cazul anterior. 'rile cele mai productive au fost mprite n dou clase clase, preponderent din pricina produciei de cereale net superioare n cazul 8ermaniei i :ranei, ct i din cauza celorlalte producii (le!ume, fructe, vin) mai accentuate n cazul /paniei i 9taliei. Putem conc.ide astfel c datele considerate au condus la nite rezultate concludente i de asemenea concordante cu realitatea economic, consolidndu%le astfel caracterul aplicabil.

~ 17 ~

Procopovici Mihai 8rupa ,-37 /eria A

~ 18 ~

S-ar putea să vă placă și