Documente Academic
Documente Profesional
Documente Cultură
PROIECT LA
ANALIZA DATELOR
n cadrul acestui proiect au fost supuse analizei 8 variabile, fiecare avnd un set de 41 de
observaii. Observaiile sunt reprezentate de cele 41 de judee ale Romniei. Sunt folosite
variabilele urmtoare: suprafaa arabil, suprafaa agricol, vii i pepiniere viticole, livezi i
pepiniere pomicole, vegetaie forestier, ape i bli, suprafa cu construcii, ci de comunicaii
i ci ferate.
n tabelul din Excel, ct i n programul SAS Studio, variabilele au fost notate n felul
urmtor pentru facilitarea programrii n SAS:
SuprafataArabila
SuprafataAgricola
ViiSiPepiniereViticole
LiveziSiPepinierePomicole
VegetatieForestiera
ApeSiBalti
SuprafataCuConstructii
CaiDeComunicatiiSiCaiFerate.
Variabilele sunt n numr de 8 i toate au ca unitate de msur hectarul(ha). n funcie de
natura lor, datele sunt cantitative, iar n funcie de natura valorilor pe care le iau, sunt de tip
discret. Toate valorile au fost preluate de pe site-ul Institutului Naional de Statistic:
www.INSSE.ro.
Corelaia este o metod statistic utilizat pentru a determina relaiile dintre variabile.
Coeficientul de corelaie e o valoare cantitativ ce descrie relaia dintre dou sau mai multe
variabile. El variaz ntre -1 i 1, unde valorile extreme presupun o relaie perfect ntre
variabile, n timp ce 0 nseamn o lips total de relaie liniar. Aceti coeficieni constituie
elementele matricii de corelaie.
Matricea de corelaie este simetric i descrie legturile dintre variabilele initiale.
Matricea de corelaie a datelor (realizat n Excel) este:
Componentele principale sunt variabile vectoriale abstracte, definite sub forma unor
combinaii liniare de variabilele originale i care au urmtoarele proprieti fundamentale:
- sunt necorelate dou cte dou i suma ptratelor care definesc combinaia liniar ce
corespunde unei componente principale este egal cu unitatea;
- prima component principal este o combinaie liniar normalizat a crei varian este
maxim, cea de-a doua component principal este o combinaie liniar necorelat cu prima
component principal i care are o varian ct mai mare posibil, ns mai mic dect cea a
primei componente etc.
Din definiia componentelor principale ne dm seama c trebuie s alegem doar acele
componente principale care au cele mai mari valori proprii i care pot capta suficient informaie
din variabilele originale. Pentru aceasta, vom folosi mai jos anumite criterii de alegere a
componentelor principale.
n prima coloan sunt valorile proprii ce exprim variana explicat prin fiecare nou
component principal i corelaia dintre noua variabil i variabilele vechi. A doua coloan
reprezint diferena dintre dou componente consecutive. n a treia coloan a tabelului este
exprimat procentul din ineria total a norului de puncte reinut pe fiecare ax. n a patra coloan
este exprimat procentul cumulativ al componentelor precedente.
Dac aplicm criteriul lui Kaiser, avem 3 componente principale reinute n analiz
deoarece a patra valoare proprie devine subunitar, iar acest lucru ne spune s nu acceptm o a
patra component principal.
Primele 3 valori proprii sunt mai mari dect 1 (criteriul lui Kaiser) i putem spune c
avem 3 componente principale care sintetizeaz toate cele 8 variabile originale.
Prin prima component se asigur concesia a 40,67% din variana total.
Variana celei de-a doua componente este egal cu valoarea proprie 1,59436033 i re ine 19,93%
din variana total. Primele dou componente rein 60,6% din variana total.
Variana celei de-a treia componente este egal cu valoarea proprie 1,00020681 i reine 12,50%
din variana total. Primele 3 componente rein 73,10% din variana total.
n schimb, daca ne lum dup criteriul procentului de acoperire, ar trebui s admitem un
numr de componente principale n analiz astfel inct s avem un procent cumulativ de
informaie captat de peste 80%, iar n acest caz va trebui s considerm n analiz 4 componente
principale.
Descreterea cantitii de informaie coninute n fiecare component principal este
ilustrat n graficele de mai jos. n primul grafic putem vedea cantitatea procentual de
informaie coninut n fiecare component, iar n cel de-al doilea avem n plus i procentul
cumulat de informaie pe parcurs ce admitem n analiz mai multe componente.
Analiza cluster
Analiza cluster poate fi definit ca reprezentnd o mulime de principii, metode i
algoritmi de clasificare, avnd ca scop organizarea datelor sub forma unor structure
informaionale semnificative, relevante.
Cu ajutorul acestei analize, se clasific unitile n clase (grupuri) relativ omogene.
Unitile din interiorul unei clase trebuie s fie asemntoare ntre ele, n timp ce unitile
aparinnd unor clase diferite trebuie s fie ct mai diferite. n limbaj statistic, aceasta nseamn
minimizarea varianei reziduale, din interiorul segmentelor obinute i maximizarea varianei
explicat, dintre segmente.
Clusterizarea este o form de sintez informaional, dar vizeaz observaiile, nu
variabilele. Cu ajutorul analizei cluster ne propunem mprirea celor 41 de judee n clase ct
mai omogene n interior i ct mai eterogene ntre ele. Repartizarea obiectelor pe clase se poate
face cu ajutorul unor metode ierarhice sau cu ajutorul unor algoritmi de partiionare.
Metodele ierarhice se numesc astfel deoarece exist o ierarhie ntre clase, fiecare
clas mai mic fiind inclusa ntr-o clas mai mare, pn cnd se ajunge la o singur clas. Se
grupeaz mai nti obiectele aflate la distan minim, i odat grupate, dou obiecte devin o
clas, i se grupeaz cu alte clase pe baza distanei dintre clase. Exist mai multe metode de
calcul a distanei ntre clase, care genereaz diferite metode ierarhice de analiz cluster.
11
Pentru a stabili numrul optim de clase care trebuie pstrate, SAS pune la
dispoziie trei criterii:
12
13
14
Analiza discriminant
Analiza discriminant reprezint procesul de utilizare a unei game variate de metode,
tehnici i algoritmi n scopul de a determina care dintre caracteristicile unor anumite obiecte au
cea mai mare relevan din punct de vedere al recunoaterii apartenenei acestor obiecte la
anumite clase aprioric definite i de a stabili apartenena cea mai probabil a obiectelor la diferite
clase.
Stabilirea apartenenei obiectelor unei populaii la anumite clase are la baz proprietile
sau caracteristicile obiectelor respective, care sunt reprezentate la nivel formal prin intermediul
unor variabile, notate cu x1, x2, ., xn.
Fundamentul teoretic al analizei discriminante de tip Fisher este reprezentat de analiza
varianei.
Criteriul lui Fisher definete o modalitate de deducere a funciilor discriminant pe baza
analizei comparative dintre variabilitatea intragrupal i variabilitatea intergrupal, la nivelul
claselor sau grupelor populaiei analizate. Funciile discriminant deduse pe baza criteriului lui
Fisher se mai numesc i funcii scor i sunt funcii liniare.
O funcie discriminant de tip Fisher se determin ca o combinaie liniar de variabilele
discriminant, combinaie ai crei coeficieni sunt componente ale unui vector propriu al matricii.
Din aceast modalitate de definire rezult, n mod implicit, c pot fi identificate mai multe
funcii discriminant. Numrul maxim posibil de funcii discriminant care pot fi identificate pe
baza criteriului lui Fisher este egal cu numrul de valori proprii distincte i strict pozitive ale
matricii. Deoarece aceast matrice este de dimeniune nxn, n situaia n care ea este strict pozitiv
definit i are rangul maxim, rezult c numrul total de funcii discriminant care pot fi
determinate este egal cu n.
Notm cele n valori proprii ale matricii cu 1, 2, , n i vom presupune c ele sunt
ordonate din punct devedere al valorilor pe care le au:
Prin utilizarea procedurii DISCRIM din SAS datele de intrare vor fi privite ca un set de
date de antrenate , de nvare. Pe baza acestui set de antrenare poate fi determinat n continuare
apartentena formei la clas pentru o alt observaie. Functia discriminant sau criteriul de
clasificare este determinat ca o msur a distanelor ptrate generalizate.
15
Primele dou tabele ne furnizeaz informaii de baz despre datele analizate, cum ar fi
numrul de observaii citite i numrul de observaii considerate n analiz.
n cel de-al doilea tabel observm mprirea pe clase a datelor, respectiv frecvenele i
proporiile fiecrei clase.
16
Mai sus avem matricea distanelor ptrate generalizate i funcia distriminant ce se poate
citi de pe liniile matricii. Putem observa c distana ntre clusterul 1 i 2 este de 16,80, ntre
clusterul 1 i 3 distana este de 4157, ntre clusterul 2 i 3 distana este 4180.
17
Mai sus avem matricea corectitudinii clasificrii, unde pe linii avem clasele reale, iar pe
coloane avem clasele predictate.
n clasa 1, cele 26 observaii au fost ncadrate corect n clasa 1(100%).
n clasa 2, cele 14 observaii au fost ncadrate corect n clasa 2(100%), neavnd
nici o observaie ncadrat greit.
n clasa 3 avem o observaie ncadrat corect.
Din al doilea tabel reiese faptul c datele sunt corect ncadrate.
18
Bibliografie
19
ANEX
proc import out=andreea datafile='/home/nandreeacorina0/AD.xlsx' dbms=xlsx;
guessingrows=111;
run;
proc princomp data=andreea out=scoruri standard outstat=statistici;
var SuprafataArabila--CaiDeComunicatiiSiCaiFerate;
run;
LIBNAME sem_sas 'CALE BIBLIOTECA';
PROC IMPORT DATAFILE="/home/nandreeacorina0/AD.xlsx"
DBMS=XLSX
OUT=WORK.wholesale;
GETNAMES=YES;
RUN;
PROC PRINT DATA=sem_sas.Firme;
ID Denumire;
RUN;
PROC SORT DATA=sem_sas.firme;
BY denumire;
run;
proc univariate data=WORK.wholesale;
title 'Analiza statistica a fiecarei variabile';
var SuprafataArabila SuprafataAgricola ViiSiPepiniereViticole LiveziSiPepinierePomicole
VegetatieForestiera ApeSiBalti SuprafataCuConstructii CaiDeComunicatiiSiCaiFerate;
run;
ODS GRAPHICS ON;
PROC PRINCOMP DATA=sem_sas.Firme COV OUT=Scoruri N=8 OUTSTAT=stats_ACP
plots=(all);
20
21