Sunteți pe pagina 1din 21

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I

INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

PROIECT LA
ANALIZA DATELOR

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

n cadrul acestui proiect au fost supuse analizei 8 variabile, fiecare avnd un set de 41 de
observaii. Observaiile sunt reprezentate de cele 41 de judee ale Romniei. Sunt folosite
variabilele urmtoare: suprafaa arabil, suprafaa agricol, vii i pepiniere viticole, livezi i
pepiniere pomicole, vegetaie forestier, ape i bli, suprafa cu construcii, ci de comunicaii
i ci ferate.
n tabelul din Excel, ct i n programul SAS Studio, variabilele au fost notate n felul
urmtor pentru facilitarea programrii n SAS:
SuprafataArabila
SuprafataAgricola
ViiSiPepiniereViticole
LiveziSiPepinierePomicole
VegetatieForestiera
ApeSiBalti
SuprafataCuConstructii
CaiDeComunicatiiSiCaiFerate.
Variabilele sunt n numr de 8 i toate au ca unitate de msur hectarul(ha). n funcie de
natura lor, datele sunt cantitative, iar n funcie de natura valorilor pe care le iau, sunt de tip
discret. Toate valorile au fost preluate de pe site-ul Institutului Naional de Statistic:
www.INSSE.ro.

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Datele iniiale sunt:

Fig. 1. Matricea iniial a datelor


SURSA : 1998 - 2016 INSTITUTUL NATIONAL DE STATISTICA

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Matricea de corelaie a datelor

Corelaia este o metod statistic utilizat pentru a determina relaiile dintre variabile.
Coeficientul de corelaie e o valoare cantitativ ce descrie relaia dintre dou sau mai multe
variabile. El variaz ntre -1 i 1, unde valorile extreme presupun o relaie perfect ntre
variabile, n timp ce 0 nseamn o lips total de relaie liniar. Aceti coeficieni constituie
elementele matricii de corelaie.
Matricea de corelaie este simetric i descrie legturile dintre variabilele initiale.
Matricea de corelaie a datelor (realizat n Excel) este:

Fig. 2. Matricea de corelaie a datelor

Se poate observa o corelaie puternic pozitiv (coeficientul de corelaie este aproape de 1)


ntre variabilele CaiDeComunicatiiSiCaiFerate i SuprafataAgricola, precum i ntre
SuprafataAgricola i SuprafataArabila.
Exist i corelaii negative. O corelaie slab negativ se nregistreaz ntre variabilele
CaiDeComunicatiiSiCaiFerate i ViiSiPepiniereViticole, iar o corelaie puternic negativ se
nregistreaz ntre variabilele VegetatieForestiera i SuprafataArabila (o valoare mai apropiat de
-1).

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Analiza componentelor principale


Analiza componentelor principale este o tehnic de analiz multidimensional care are ca
scop determinarea unor noi variabile, numite componente principale i exprimate sub forma
combinaiilor liniare de variabilele originale, astfel nct aceste noi variabile s fie caracterizate
de o variabilitate maxim.
Analiza componentelor principale este recomandat n cazul ntmpinrii unor probleme
de simplificare a spaiului cauzal, de reducere a dimensionalitii, de eliminare a redundanelor
informaionale etc.
n cazul acestei analize, dimensionalitatea datelor este justificat pe baza matricei de
observaii: 41 de observaii cu 8 caracteristici, n total 328 de date. Redundana datelor este
justificat pe baza matricei de corelaie calculate mai sus din care reiese faptul c ntre variabile
exist corelaii puternice (conine valori apropiate de 1 sau -1), deci exist suprapuneri
informaionale pe care vom dori s le eliminm.

Vectorii si valorile proprii


nainte de a efectua analiza, trebuie s stabilim care sunt vectorii proprii. Acetia au un
rol important n determinarea componentelor principale.
Cum componentele principale sunt combinaii liniare de variabile originale, le putem
privi sub forma unui vector de forma: wi = a1(i) * x1 + a2(i) * x2 + + an(i) * xn ,
unde x1, x2, , xn sunt variabilele originale i aj (coordonatele vectorilor proprii corespunztori
matricii de covarian a variabilelor originale) ponderile din tabelul de mai jos:

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 3. Vectorii proprii

Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor
combinaii liniare de variabilele originale i care au urmtoarele proprieti fundamentale:
- sunt necorelate dou cte dou i suma ptratelor care definesc combinaia liniar ce
corespunde unei componente principale este egal cu unitatea;
- prima component principal este o combinaie liniar normalizat a crei varian este
maxim, cea de-a doua component principal este o combinaie liniar necorelat cu prima
component principal i care are o varian ct mai mare posibil, ns mai mic dect cea a
primei componente etc.
Din definiia componentelor principale ne dm seama c trebuie s alegem doar acele
componente principale care au cele mai mari valori proprii i care pot capta suficient informaie
din variabilele originale. Pentru aceasta, vom folosi mai jos anumite criterii de alegere a
componentelor principale.

Fig. 4. Valorile proprii

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

n prima coloan sunt valorile proprii ce exprim variana explicat prin fiecare nou
component principal i corelaia dintre noua variabil i variabilele vechi. A doua coloan
reprezint diferena dintre dou componente consecutive. n a treia coloan a tabelului este
exprimat procentul din ineria total a norului de puncte reinut pe fiecare ax. n a patra coloan
este exprimat procentul cumulativ al componentelor precedente.

Criterii de determinare a numrului


de componente principale

Dac aplicm criteriul lui Kaiser, avem 3 componente principale reinute n analiz
deoarece a patra valoare proprie devine subunitar, iar acest lucru ne spune s nu acceptm o a
patra component principal.
Primele 3 valori proprii sunt mai mari dect 1 (criteriul lui Kaiser) i putem spune c
avem 3 componente principale care sintetizeaz toate cele 8 variabile originale.
Prin prima component se asigur concesia a 40,67% din variana total.
Variana celei de-a doua componente este egal cu valoarea proprie 1,59436033 i re ine 19,93%
din variana total. Primele dou componente rein 60,6% din variana total.
Variana celei de-a treia componente este egal cu valoarea proprie 1,00020681 i reine 12,50%
din variana total. Primele 3 componente rein 73,10% din variana total.
n schimb, daca ne lum dup criteriul procentului de acoperire, ar trebui s admitem un
numr de componente principale n analiz astfel inct s avem un procent cumulativ de
informaie captat de peste 80%, iar n acest caz va trebui s considerm n analiz 4 componente
principale.
Descreterea cantitii de informaie coninute n fiecare component principal este
ilustrat n graficele de mai jos. n primul grafic putem vedea cantitatea procentual de
informaie coninut n fiecare component, iar n cel de-al doilea avem n plus i procentul
cumulat de informaie pe parcurs ce admitem n analiz mai multe componente.

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 5. Graficul valorilor proprii

Fig. 6. Variana cumulat a componentelor

Pe grafic am identificat diferenele semnificative existente ntre valorile proprii i am


trasat o paralel la abscis deasupra ultimei astfel de diferene, iar numrul de valori proprii
aflate n partea superioar dreptei reprezint numrul de componente principale. Dup trasarea
dreptei putem afirma pe baza graficului c primele trei valori proprii sunt i componentele
principale i explic o parte din mulimea norului de puncte.
Graficul din figura 8 exprim legtura dintre componentele principale i variana
cumulat pe care acestea o conserv. Prima component principal reine 40,67% din variana
total, a doua component principal reine 60,6% din variana total i aa mai departe.

n programul SAS, vom putea efectua analiza componentelor principale cu ajutorul


codului urmtor:
ODS GRAPHICS ON;
PROC PRINCOMP DATA=sem_sas.Firme COV OUT=Scoruri N=8 OUTSTAT=stats_ACP
plots=(all);
VAR SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
TITLE 'Rezultate Analiza Componentelor Principale';
RUN;
8

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Analiza se realizeaz pe matricea de corelaie. n OUTPUT-ul din SAS vor fi afiate


urmtoarele informaii:

Fig. 7. Rezultatele analizei componentelor principale

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Analiza cluster
Analiza cluster poate fi definit ca reprezentnd o mulime de principii, metode i
algoritmi de clasificare, avnd ca scop organizarea datelor sub forma unor structure
informaionale semnificative, relevante.
Cu ajutorul acestei analize, se clasific unitile n clase (grupuri) relativ omogene.
Unitile din interiorul unei clase trebuie s fie asemntoare ntre ele, n timp ce unitile
aparinnd unor clase diferite trebuie s fie ct mai diferite. n limbaj statistic, aceasta nseamn
minimizarea varianei reziduale, din interiorul segmentelor obinute i maximizarea varianei
explicat, dintre segmente.
Clusterizarea este o form de sintez informaional, dar vizeaz observaiile, nu
variabilele. Cu ajutorul analizei cluster ne propunem mprirea celor 41 de judee n clase ct
mai omogene n interior i ct mai eterogene ntre ele. Repartizarea obiectelor pe clase se poate
face cu ajutorul unor metode ierarhice sau cu ajutorul unor algoritmi de partiionare.
Metodele ierarhice se numesc astfel deoarece exist o ierarhie ntre clase, fiecare
clas mai mic fiind inclusa ntr-o clas mai mare, pn cnd se ajunge la o singur clas. Se
grupeaz mai nti obiectele aflate la distan minim, i odat grupate, dou obiecte devin o
clas, i se grupeaz cu alte clase pe baza distanei dintre clase. Exist mai multe metode de
calcul a distanei ntre clase, care genereaz diferite metode ierarhice de analiz cluster.

Fig. 8. Vectorii proprii ai matricei de corelaie


10

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig.9. Gruparea obiectelor pe clustere

n platforma SAS am stabilit s grupm unitile elementare n 20 de clase. Acestea sunt


niruite n prima coloan, n ordine descresctoare. Frecvena fiecreia este evideniat n
coloana a patra.
O mprire corect a datelor pe clustere este demonstrat de valori cuprinse ntre 2 i 4
pentru Cubic Clustering Criterion (CCC). Valorile 0-2 arat o mprire acceptabil. n mare
parte, datele sunt bine mprite.
Conform valorilor PSEUDO-F, numrul bun de clustere se afl n dreptul celei mai mari
valori din apropierea numrului dorit de clustere, i anume 20.
Valorile lui PSEUDO t-Squared ne indic faptul ca datele ar trebui s fie mprite n 3
clase. ntre clasele 3 i 4 se inregistreaz cea mai mare diferen (o cretere brusc).

11

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Pentru a stabili numrul optim de clase care trebuie pstrate, SAS pune la
dispoziie trei criterii:

Fig. 10. Criteriile de alegere a numrului de clustere


Conform figurii, numrul optim de clase care trebuie reinut este 4.

12

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 11. Analiza gruprii datelor (clusterelor)


Se traseaz o perpendicular pe cea mai mare distan. Numrul de clustere
este dat de numrul de drepte cu care se intersecteaz perpendiculara.

Pentru generarea dendogramei, s-a introdus n platforma SAS urmtorul cod:


PROC TREE DATA=WORK.wholesale_clus OUT=WORK.wholesale NCLUSTERS=3;
title ' Dendrograma ';
COPY SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole
LiveziSiPepinierePomicole VegetatieForestiera ApeSiBalti SuprafataCuConstructii
CaiDeComunicatiiSiCaiFerate;
RUN;

13

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 12. Dendograma

Reprezentarea grafic a logicii metodei de analiz cluster de tip ierarhic este


un obiect grafic numit arbore al clasificrii sau dendogram.
Aceasta este cea mai important form de analiz.
Numrul de clustere este dat de numrul de intersecii a unei tieturi dup o
dreapt paralel cu abscisa i ramurele arborelui. Componena fiecrui cluster este
dat de clusterele aflate pe fiecare ramur.
Dac tietura se efectueaz mai aproape de rdcin, se obine o soluie cu
mai puine clustere, iar dac tietura se efectueaz mai departe, se obin mai multe
clustere.

14

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Analiza discriminant
Analiza discriminant reprezint procesul de utilizare a unei game variate de metode,
tehnici i algoritmi n scopul de a determina care dintre caracteristicile unor anumite obiecte au
cea mai mare relevan din punct de vedere al recunoaterii apartenenei acestor obiecte la
anumite clase aprioric definite i de a stabili apartenena cea mai probabil a obiectelor la diferite
clase.
Stabilirea apartenenei obiectelor unei populaii la anumite clase are la baz proprietile
sau caracteristicile obiectelor respective, care sunt reprezentate la nivel formal prin intermediul
unor variabile, notate cu x1, x2, ., xn.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza
varianei.
Criteriul lui Fisher definete o modalitate de deducere a funciilor discriminant pe baza
analizei comparative dintre variabilitatea intragrupal i variabilitatea intergrupal, la nivelul
claselor sau grupelor populaiei analizate. Funciile discriminant deduse pe baza criteriului lui
Fisher se mai numesc i funcii scor i sunt funcii liniare.
O funcie discriminant de tip Fisher se determin ca o combinaie liniar de variabilele
discriminant, combinaie ai crei coeficieni sunt componente ale unui vector propriu al matricii.
Din aceast modalitate de definire rezult, n mod implicit, c pot fi identificate mai multe
funcii discriminant. Numrul maxim posibil de funcii discriminant care pot fi identificate pe
baza criteriului lui Fisher este egal cu numrul de valori proprii distincte i strict pozitive ale
matricii. Deoarece aceast matrice este de dimeniune nxn, n situaia n care ea este strict pozitiv
definit i are rangul maxim, rezult c numrul total de funcii discriminant care pot fi
determinate este egal cu n.
Notm cele n valori proprii ale matricii cu 1, 2, , n i vom presupune c ele sunt
ordonate din punct devedere al valorilor pe care le au:

Prin utilizarea procedurii DISCRIM din SAS datele de intrare vor fi privite ca un set de
date de antrenate , de nvare. Pe baza acestui set de antrenare poate fi determinat n continuare
apartentena formei la clas pentru o alt observaie. Functia discriminant sau criteriul de
clasificare este determinat ca o msur a distanelor ptrate generalizate.

15

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 12. Sumarul analizei

Primele dou tabele ne furnizeaz informaii de baz despre datele analizate, cum ar fi
numrul de observaii citite i numrul de observaii considerate n analiz.
n cel de-al doilea tabel observm mprirea pe clase a datelor, respectiv frecvenele i
proporiile fiecrei clase.

16

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 13. Matricea distanelor

Mai sus avem matricea distanelor ptrate generalizate i funcia distriminant ce se poate
citi de pe liniile matricii. Putem observa c distana ntre clusterul 1 i 2 este de 16,80, ntre
clusterul 1 i 3 distana este de 4157, ntre clusterul 2 i 3 distana este 4180.

17

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Fig. 14. Matricea corectitudinii clasificrii

Mai sus avem matricea corectitudinii clasificrii, unde pe linii avem clasele reale, iar pe
coloane avem clasele predictate.
n clasa 1, cele 26 observaii au fost ncadrate corect n clasa 1(100%).
n clasa 2, cele 14 observaii au fost ncadrate corect n clasa 2(100%), neavnd
nici o observaie ncadrat greit.
n clasa 3 avem o observaie ncadrat corect.
Din al doilea tabel reiese faptul c datele sunt corect ncadrate.

18

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

Bibliografie

ANALIZA DATELOR Gheorghe Ruxanda, Editura ASE Bucureti 2001

19

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

ANEX
proc import out=andreea datafile='/home/nandreeacorina0/AD.xlsx' dbms=xlsx;
guessingrows=111;
run;
proc princomp data=andreea out=scoruri standard outstat=statistici;
var SuprafataArabila--CaiDeComunicatiiSiCaiFerate;
run;
LIBNAME sem_sas 'CALE BIBLIOTECA';
PROC IMPORT DATAFILE="/home/nandreeacorina0/AD.xlsx"
DBMS=XLSX
OUT=WORK.wholesale;
GETNAMES=YES;
RUN;
PROC PRINT DATA=sem_sas.Firme;
ID Denumire;
RUN;
PROC SORT DATA=sem_sas.firme;
BY denumire;
run;
proc univariate data=WORK.wholesale;
title 'Analiza statistica a fiecarei variabile';
var SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
run;
ODS GRAPHICS ON;
PROC PRINCOMP DATA=sem_sas.Firme COV OUT=Scoruri N=8 OUTSTAT=stats_ACP
plots=(all);
20

ACADEMIA DE STUDII ECONOMICE; FACULTATEA DE CIBERNETIC, STATISTIC I


INFORMATIC ECONOMIC; SPECIALIZAREA CIBERNETIC ECONOMIC

VAR SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole


VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
TITLE 'Rezultate Analiza Componentelor Principale';
run;
proc corr data=Scoruri outp=rez_corr;
var SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
with prin1 prin2 prin3;
run;
PROC MEANS DATA=firme N STD MEAN MAXDEC=2;
VAR SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
ODS GRAPHICS OFF;
PROC CLUSTER DATA=WORK.wholesale MEthOD=WARD ccc STANDARD pseudo
OUTTREE=WORK.wholesale_clus p=20;
title 'Analiza claselor - Pregatirea datelor';
VAR SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
RUN;
PROC TREE DATA=WORK.wholesale_clus OUT=WORK.wholesale NCLUSTERS=3;
title ' Dendrograma ';
COPY SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
RUN;
PROC DISCRIM DATA=WORK.wholesale;
VAR SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
CLASS CLUSTER;
RUN;

21