Sunteți pe pagina 1din 12

Proiect Analiza Datelor

1. Descrierea datelor Am decis s analizez 10 indicatori a treizeci de ri din Europa, acestea fiind eantionul. Indicatorii sunt: V1=Populaia total V2=Populaia activ V3=Produs Intern Brut($) V4=PIB/Cap de locuitor($) V5=Consum de energie/cap de locuitor V6=Rata de fertilitate V7= Surse de ap potabil ce pot fi rennoite/cap de locuitor (m3) V8=Numr de zile calendaristice necesare pentru a porni o afacere V9=Numr km cale ferat V10=Numr afaceri noi nregistrate ntr-un an Dup cum se observ, acetia sunt eterogeni i prezint uniti de msur diferite. Datele au fost preluate de pe urmtoarele site-uri: http://www.google.com/publicdata/home
www.wikipedia.org http://data.worldbank.org

2. Statistici descriptive Am efectuat analiza statisticilor descriptive n Excel asupra celor 10 indicatori. Rezultatele complete sunt reinute n documentul descriptives.xls. Mai jos sunt prezentate dou exemple, precum i interpretrile lor.

Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count

21661413,93 5632717,764 9443624,5 #N/A 30851665,79 951825282174634,00 7,094863129 2,507390163 140387463 486184 140873647 649842418 30

Analiza a fost efectuat asupra indicatorului V1-Populaia activ. Media valorilor este de 21.661.413,93. Populaia cea mai redus este de 486.184, iar cea mai numeroas de
140.873.647, formnd o amplitudine apropriat de populaia cea mai mare: 140.387.463. Fiind foarte eterogene, datele nu prezint o valoare modal. Acest lips este prezent i la ali indicatori, cum ar fi Produsul Intern Brut sau Numrul de kilometri de cale ferat. 9.443.624,5 este valoarea aflat la jumtatea setului de date (mediana). Standard deviation, sau abaterea medie ptratic, reprezint valoarea cu care fiecare populaie variaz fa de medie. Msura mprtierii este Sample Variance: 951825282174634,00. Ca n majoritatea analizelor, aceasta nu este folosit pentru a formula o concluzie deoarece scala de msur o depete pe cea a datelor. Kurtosis reprezint gradul de aplatizare, distribuia fiind una leptokurtic. Exist o probabilitate mai mare de apariie a valorilor n jurul mediei. Gradul de asimetrie este dat de Skewness, fiind 2,51. Se observ astfel o asimetrie accentuat, majoritatea valorilor fiind ntlnite n stnga mediei, iar valorile extreme n dreapta.

Din histograma indicatorului V1, se observ c peste 75% din ri au o populaie n jurul a 15 milioane, 10% n jurul a 45, respectiv 75 de milioane i aproximativ 5% n jurul a 135 de milioane.

Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count

15,1 1,845995978 13,5 7 10,11093638 102,2310345 1,94907788 1,290878732 43 4 47 453 30

Rezultatele de mai sus se refer la V8-Numr de zile calendaristice necesare pentru a porni o afacere. Media este de 15,1 zile, cel mai des durnd 7 zile pentru a deschide o afacere. Mediana este 13,5, fiind ntlnit la jumtatea setului de date. Durata minim este de 4 zile, iar cea maxim de 47, rezultnd ntr-o amplitudine de 47 de zile. n medie, fiecare valoare variaz fa de medie cu 10,11 zile. Msura dispersiei este variana : 102,23 zile. Distribuia este una leptokurtic, dat de gradul de aplatizare de 1,94. Majoritatea valorilor se afl n stnga mediei, iar valorile extreme n dreapta.

Din histogram reiese c n 40% din ri, dureaz n jur de 5 zile pentru a deschide o afacere, n 33% din ri 15 zile, n 17% din ri 25 de zile, n 7% 35 de zile, iar n 3% din ri dureaz n jur de 45 de zile. 3. Analiza componentelor principale Din cauza faptului c datele se afl pe diverse uniti de msur, voi lucra pe matricea de covarian. La nceput, rulez procedura de analiz a componentelor principale pentru a determina numrul de componente principale ce voi ngloba n analiz. Conform criteriului lui Kaiser, aleg numrul de componente n funcie de numrul de variane supraunitare (>1). Astfel, n cazul meu, aleg s fac analiza pe trei componente principale. Dup rularea procedurii, se pot trage primele concluzii. Astfel, prima component (4,31) nglobeaz cea mai mare proporie de informaie (43,14%). A doua - 2,18 conine 21,86% din informaie, iar a treia (1,14) cuprinde cea mai mic cantitate de informaie: 11,42%.

Graficele Scree Plot i Variance Explained

Scree plot arat evoluia valorilor proprii. Atfel, se observ o descretere (de la sine neleas) a valorilor componentelor principale. n graficul Variance Explained, pe linia continu se evideniaz proporia de informaie pe care fiecare informaie o conine. Linia punctat, avnd acelai punct de plecare ca i cea comun, explic variana adunat. Astfel, primul punct arat ce proporie de informaie conine prima component, al doilea punct semnific proporia de informaie coninut de primele dou componente, iar al treilei punct de primele trei componente.

Component score matrix

Arat poziionarea fiecrei ri n funcie de componentele principale, dou cte dou. Astfel, al doilea grafic din primul rnd arat rile reprezentate n sistemul (W1,W2), iar al treilea este n sistemul (W1,W3). Primul grafic este n sistemul (W1,W1) i indic...

Component pattern profiles

Acest grafic arat corelaia din fiecare indicator i cele trei componente principale. Astfel, V1 este foarte corelat cu W1 nseamn c cea mai mare proporie de informaie din V1 se regsete n W1. Acelai lucru este valabil i pentru V2, care este puternic corelat cu W1. ntr-adevr, acest lucru este uor explicabil prin faptul c V1 i V2 reprezint populaia total, respectiv cea activ i au fost grupate datorit caracteristicilor comune. i V3 este puternic corelat cu W1. Situaia se schimb la V4, V5, V6 i V7, care vars cea mai mare cantitate de informaie n W2, ntr-o corelaie descresctoare de la V4 la V7. V8 este cel mai puternic corelat cu W3, n timp ce V9 i V10 revin sub umbrela componentei W1. Se confirm iari afirmaia c variana componentelor este descresctoare.

Component pattern
Se realizez n funcie de componentele principale, dou cte dou, i indicatorii analizai. 1-2

Fiecare indicator are drept coordonate corelaia dintre el nsui i cele dou componente. De exemplu, V3 are drept coordonate (cor(V3,W1),cor(V3,W2)). Se observ astfel ce cantitate de informaie preia fiecare component din acest indicator. ntr-adevr, privind Component Pattern Profiles, se observ o corelaie de aproximativ 0,2 ntre V3 i W2 i o corelaie apropriat de 0,8 ntre V3 i W1. Urmtoarele dou grafice pun n relaie W1 cu W3 i W2 cu W3.

1-3

2-3

Component scores
Ca i la component pattern, graficele sunt realizate n funcie de componentele principale, dou cte dou. 1-2

Se observ c majoritatea rilor sunt asemntoare din aceast privin. Spre exemplu, prima ar (Austria) este la fel de apropriat de W1 ct este de W2. ara 10 (Estonia) i 26 (Slovenia) sunt asemntoare din punct de vedere al acestor componente. Dac privim indicatorii pe care aceste componente le nglobeaz, vom observa c sunt relativ egali. Spre exemplu, Estonia are o populaie de 6267000 locuitori, iar Slovenia are 5405000 locuitori.

1-3

2-3

Ultimul grafic indic poziia rilor n funcie de cele trei componente principale. Linia colorat indic evoluia de la minim la maxim, de sus n jos. De exemplu, se observ cum ara 16 (Lituania) ntrunete cel mai mult caracteristicile celor trei componente.

Component scores- 95% Prediction Ellipse

95% reprezint probabilitatea cu care o nou ar ar intra n elips. Din cauza eterogenitii datelor, o asemenea elips nu poate fi creat.