Sunteți pe pagina 1din 8

Cap.

1 Culegerea datelor
Cazul tratat in proiect se refera la produsele agroalimentare vandute pe piata
taraneasca in anul 1996. Datele au fost puse la dispozitie de Comisia Judeteana de
Statistica Calarasi. In tabelul 1 se prezinta preturile medii de vanzare pe piata
taraneasca la grau, cartofi, ceapa, fasole, mere, carne, lapte si oua in 30 de orase
resedinta de judet.
Scopul acestui studiu il reprezinta studierea comparativa a ofertei de produse
agroalimentare pe piata taraneasca din orasele resedinta mentionate in tabelul 1.
Tabelul 1:
Nr.

Oras resedinta

Grau

Cartofi

Ceapa

Fasole

Mere

Carne

Lapte

Oua

Crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

Alba Iulia
Arad
Pitesti
Bacau
Oradea
Bistrita
Botosani
Brasov
Braila
Buzau
Resita
Calarasi
Cluj Napoca
Constanta
Sf. Gheorghe
Targoviste
Craiova
Galati
Giurgiu
Tg. Jiu
Miercurea

507
463
385
548
481
452
580
699
432
418
547
287
474
549
618
477
396
627
424
451
641

1105
1030
1027
971
1034
908
947
949
846
969
978
962
900
1102
859
999
1039
943
1016
1083
987

1008
726
1042
1123
703
782
1142
1058
822
876
1018
853
831
1050
1213
1155
1041
967
1077
1038
1228

2751
2981
2690
2357
2730
2568
2268
3237
2956
2669
3322
2843
2811
2955
3535
2861
3007
2931
3247
3257
3117

1331
1070
1137
1235
1311
1018
1196
1074
1106
936
957
1182
881
1470
1198
1157
1054
1180
1254
1146
1410

0
0
7105
6245
7063
0
6813
8100
5754
5136
0
0
8485
9421
8018
6000
0
6381
5923
6282
8441

1266
1076
1245
999
931
881
953
1277
1121
1076
1239
1134
1059
1381
0
1121
1220
1198
1203
1298
0

gaina
296
285
287
316
223
264
299
290
247
259
323
283
240
270
293
321
242
263
283
254
307

22
23
24
25
26

Ciuc
Deva
Slobozia
Iasi
Baia Mare
DR.
Tr.

521
368
470
466
584

1014
971
954
893
1064

1042
904
1094
846
979

3028
2667
2275
2925
3040

1071
1204
1148
838
1239

8022
7302
0
0
5419

1209
1067
907
873
1030

308
272
286
344
227

27

Severin
Tg. Mures

455

989

857

2800

993

857

258

de

28
29

Tulcea
Ramnicu

656
492

1082
995

1037
937

3035
3168

1520
832

8450
6857

1480
1336

301
283

30

Valcea
Bucuresti

607

947

1008

3085

1133

8011

1242

323

CAP. 2 Analiza descriptiva preliminara


Organizarea setului de date. Suportul setului de date este format din cele 30 de
orase resedinta pentru care se studiaza 8 caracteristici numerice reprezentate de
produsele agroalimentare ale caror preturi medii de vanzare sunt cele prezentate in
tabelul 1. Observam ca nu exista modele avand aceleasi valori pentru cele 8
caracteristici.
Regula semantica cere ca, pentru fiecare variabila construita, media aritmetica
ponderata de masura efectiv aleasa sa aibe un sens fizic. Fiecare din caracteristicile
setului de date permite natural verificarea axiomei mediei aritmetice din definitia
variabilei. Tabelul de date satisface proprietatea de omogenitate deoarece sau studiat
aceleasi caracteristici pentru toate orasele, exprimate in aceleasi unitati de masura, iar
cum alcatuirea tabelului de date se face prin alocarea unei coloane fiecarei variabile ea
va fi satisfacuta efectiv.
Notam cu K multimea variabilelor tabelului de date. Vom gandi fiecare coloana
a tabelului ca fiind coordonatele unui vector xj,k (kK). Liniile reprezinta coordonatele
unui punct Mj(xj,k) (jJ) din spatiul indivizilor, cu fiecare coordonata exprimata in
unitatile de masura alese pentru caracteristicile asociate. Abaterile de la individul
mediu le gandim ca vectori GM j iar baza in care sunt scrise coordonatele o notam
(k)kK. Am notat cu G(xk) baricentrul norului de puncte dat, punct gandit ca fiind
punctul asociat individului mediu (martorul).

Demersul nostru va cere compararea ofertei de preturi pentru produsele


agroindustriale din orasele de resedinta. Regulile de comparare a doua orase sunt date
de precizarea unei matrice Q nesingulara, simetrica si pozitiv definita, matrice ce va
defini produsul scalar in spatiul indivizilor. Oricare ar fi metrica introdusa, exceptie
facand de o transformare initiala, practic noi lucram cu metrica euclidiana pe datele
transformate. Astfel, daca Q=TTt atunci vom folosi in locul profilelor linie K, K
profilele liniei transformate KT, KT . In practica sunt utilizate urmatoarele doua
obtiuni:
Alegerea matricei unitate I=diag(1). Analiza ce va pleca de la prococolul
centrat (xoJ,k=xJ,k-xk1J) (date netransformate) va duce la privilegierea
variabilelor cele mai dispersate si la neglijarea diferentelor intre celelalte
variabile. Spunem, in acest caz, ca avem de a face cu o analiza nenormata.
Alegerea

matricei

diagonale

inverselor

variantelor

variabile

D=diag(1/VarxJ,K). Analiza ce va pleca de la prococolul centrat


(xoJ,k=1/Etyxj,k(xJ,k-xk1J))

(date transformate) va restabili echilibrul intre

variabile dand fiecareia varianta 1. Folosirea acestei matrici revine la


folosirea unei formule de tip Pitagora dupa ce in prealabil am impartit
fiecare variabila la abaterea ei medie patratica. Spunem ca avem de-a face cu
o analiza normata.
Alegerea tipului de analiza este a doua alegere majora de care depinde
interpretarea rezultatelor care urmeaza. Matricea GRAM (ce defineste produsul scalar
in spatiul variabilelor va fi F=diag(ni/n) unde n=jJnI este efectivul total.
Regula de consistenta a calculelor este ultima regula de care trebuie sa tinem seama in
interpretarea etapelor ce le vom parcurge.

Studiul descriptiv al variabilelor


Paginile

din anexe cuprind statisticile descriptive elementare pentru

variabilele continue studiate (media, abaterea medie patratica, minimele, maximele).


Varianta protocolului initial este:
Var xoJK = 8724.494 + 4327.798 + 18095.36 + 86535.4 + 27508.21 + 11525577
+ 103766.4 + 872.0209 = 11775407
Ea este datorata in special datelor din coloana Carne. Pentru a acorda aceeasi
importanta fiecarei variabile vom introduce in ACP protocolul centrat redus,
independent de unitatea de masura cu care au fost introduse datele.
Var xoJK = 1+1+1+1+1+1+1+1=8
Regula de consistenta a calculelor este verificata in cazul analizei normate iar
interpretarea rezultatelor este scapata de grija unitatilor de masura.
Studiul descriptiv al indivizilor
Incercam sa identificam indivizi mai speciali care au o contributie mai
ridicata decat 1/30 din varianta totala.
Studiul histogramelor
Observam din histogramele construite ca distributiile sunt multimodale. Din acest
motiv este necesara aplicarea unor tehnici de clasificare a indivizilor.

Studiul corelatiilor intre variabile


Observam din analiza corelatiilor ca nu exista corelatii foarte puternice intre
caracteristicile analizate, cele mai importante corelatii existand intre caracteristicile
mere cartofi, cartofi-lapte, grau-carne.
Folosind algoritmul de clasificare ierarhica ascendenta in care drept indice de
similaritate intre variabile luam valoarea absoluta a coralatiilor lor. Vom introduce
drept criteriu de alegere maximizarea indicelui de similaritate, iar ca formula de
recurenta corelatia intre un grup de variabile si grupul format din reuniunea a doua
clase de variabile este data de maximul corelatiei intre grupul de variabile cu fiecare
clasa de variabile participanta la reuniune. Corelatiile intre caracteristicile analizate se
pot ilustra, in mod sugestiv, priin intermediul dendogramei anexate.
Analiza factoriala
Analiza in componente principale consta in cautarea unui numar de variabile
noi, artificiiale, (ylJ)lL numite componente principale, necorelate intre ele, obtinute
prin cominatii liniare din variabilele protocolului de plecare si care sa-l inlocuiasca,
intr-un sens dependent de metoda. Daca retinem doar o parte dintre ele spunem ca
rezumam protocolul dintre ele. Criteriul inertiei cauta un numar de variabile centrate,
ce reprezinta coordonatele intr-o varietate liniara de dimensiune LG de dimensiune |L|
a punctelor de proiectie (prLGMj), varietate aleasa sa maximizeze criteriul max
InG(prLGMj),. Se poate demonstra ca valoarea maximului amintit este (1/2zlJ)-valorile
proprii ale matricei WF.Se stie ca aceleasi valori proprii le are si matricea VQ, iar
vectorii proprii corespunzatori definesc baza ortonormata (a l) din varietatea liniara
LG .

Coordonatele zlJ ce definesc componentele principale reduse, se pot citi in baza


ortogonala (bl) a varietatii liniare LG formata tot cu vectori proprii, unde:
bl = Cov (xJ,k, zlJ) k = (1/2zlJ) pentru fiecare l din L.
Determinarea numarului de componente principale extrase
ACP extrage dintr-un protocol, componente ce au o inertie din ce in ce mai mica pana
la epuizarea inmagazinate in protocolul supus prelucrarii:
VarxJK = VarylJ = l - unde l sunt valorile proprii ale matricei corelatiilor R.
Decizia pe care trebie sa o luam are un caracter contradictoriu: vrem putine
componente principale si vrem sa reconstituim (explicam) cat mai mult din varianta.
Vom folosi urmatoarele criterii:
Criteriul Kaiser care sugereaza retinerea acelor componente ce au o varianta
comparabila cu media variantelor variabilelor protocolului supus prelucrarii.
Criteriul Cattell sugereaza retinerea acelor componente care nu asunt reziduale.
Structura rezultatelor obtinute
Matricea T=D=diag(1/Etyxj,k) construieste transformarea ce asigura trecerea de la
tabelul de date asociat protocolului centrat Xo la tabelul de date asociat protocolului
centrat redus X=XoT. Pentru o analiza normata alegem Q=TTt=D. matricea GRAM.
Tabelul anexat COORDONNEES DES VARIABLES SUR LES AXES contine in
rubrica

COORDONEES matricea TtBt ;


CORRELATIONS VARIABLE-FACTEUR matricea D Bt ;
ANCIENS AXES UNITAIRES matricea TtAt .
Tabelul COORDONEES, CONTRIBUTIONS ET COSINUS CARRES DES
INDIVIDUS contine in:
COORDONEES matricea Y;
CONTRIBUTIONS matricea contributiilor relative ale indivizilor la varianta
componentelor principale;
COSINUS CARRES matricea contributiilor relative ale componentelor principale
la contributia absoluta a indivizilor la varianta protocolului.
Corelatii intre componente principale si variabile principale

In spatiul variabilelor oricarei componente principale ii corespunde un vector, iar


pentru oricare doua componente principale vectorii corespunzatori sunt ortogonali.
Astfel, vechilor variabile centrate le corespund coordonatele din rubrica ANCIENS
AXEX UNITARES in reperul ortonormat al componentelor principale si le
corespund coordonatele din rubrica Coordonees in reperul ortonormat al
componentelor principale reduse. Aceste coordonate sunt interpretate ca coeficienti de
regresie.
Pe baza corelatiei componentelor principale calculam coeficientul de corelare
multipla:

R2 (xJ,K, y1J, y2J) =Corr2(xJ,K, y1J) + Corr2(xJ,K, y2J)

S-ar putea să vă placă și