Sunteți pe pagina 1din 22

ACADEMIA DE STUDII ECONOMICE BUCUREȘTI

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect Analiză Multidimensională

Gălii Mihaela
Mihai Ana Maria

Grupa 1047, Seria Statistică


Introducere

Dacă întrebi un om care nu citește... de ce nu citește, o să aibă o întreagă listă de scuze.


Cele mai frecvente sunt că nu au bani sau că nu au timp. Un alt motiv care este pe larg
acceptat ar fi faptul că îi lipsește o educație. Așadar, în prezenta analiză ne-am hotărât să
vedem care este relația dintre aceste motive.

Prin urmare, datele pe care le-am folosit au fost:

 Numărul de cititori active de la bibliotecile din România care au împrumutat cel puțin
o carte în decursul anului în care au fost numărați
 Numărul de instituții de spectacol (filarmonici, orchestre, teatre, opere, etc.),
considerând faptul că numrăul lor influențează în mod direct participarea oamenilor la
astfel de evenimente
 Salariul mediu (deflaționat după IPC-urile aferente fiecărui an)
 Nr. Mediu de ore lucrate calculate ca medie ponderată între numărul de salariați și nr
de ore lucrate
 Gradul de cuprindere al tinerilor 19-25 ani în învățământ, calculate ca pondere a
tinerilor incluși în forme de învățământ raportat la numărul total de tineri din România
cu vârstele cuprinse între 19-25 ani.
Aplicația 1 – Analiza componentelor principale

Scopul acestei analize fiind ca pentru matricea noastră de date să identifice noi
variabile ce să exprime sintetic vechile variabile astfel încât cantitatea totală de informaţie să
nu se piardă decât în mod contralat.

Astfel, după încărcarea matricei de date în SPSS, vom începe analiza prin a remarca
faptul că toate caracteristicile urmărite, anume indicatorii numarului de cititori din Romania
sunt variabile continue, scara lor de măsură fiind uşor de identificat. Prin urmare pentru
fiecare variabilă în parte, pentru început, vom calcula indicatorii de centrare şi de împrăştiere
cum ar fi media, valoarea minimă, valoarea maximă, precum şi abaterea standard.

Pentru aceasta în SPSS, alegem Analyze → Descriptive Statistics → Descriptives,


după care alegem toţii indicatorii, iar la Options bifăm căsuţa pentru Mean, Std. Deviation,
Minimum, Maximum, apoi dăm Continue şi apoi OK.

Şi astfel obţinem următorul tabel:

Descriptive Statistics

N Minimum Maximum Mean Std. Deviation

Procent de cititori din populatie 17 .19567965 .29267126 .2423702400 .03061409917

Institutii de spectacol (opere, 17 142 236 157.12 21.598


teatre, filarmonici, orchestre)

Salariu net 17 231.38977 5349.76400 1627.1065206 1382.71453553

Nr ore de lucru 17 39.063120 40.344322 39.70585024 .430849478

Grad cuprindere in invatamant 17 24.00 78.30 48.5135 18.58240


19-25 ani

Valid N (listwise) 17

După cum putem observa elementele matricei de date iniţiale ar necesita şi o


standardizare, deoarece abaterile standar ale celor 5 indicatori sunt destul de diferite, fapt
pentru care am bifat în căsuţa de dialog Descriptives → Save standardized values as
variables, şi astfel la matricea de date iniţiale se vor adăuga şi cei 5 indicatori standardizaţi
(adică de medie 0 şi dispersie 1), prezentaţi în următorul tabel:
După ce am standardizat datele, prin acesta supunând faptul că ne-am detaşat de scara
de măsurare a variabilelor, matricea coeficienţilor de corelaţii va fi echivalentă cu matricea de
covarianţă şi astfel vom începe analiza compomentelor principale utilizând matricea de date
strandardizate, astfel:

Pas 1 – avem matricea de date standardizate în SPSS


Pas 2 – apelăm Analyze → Dimension Reduction → Factor
Pas 3 – Alegem variabilele după care să se facă analiza şi anume acele variabile standardizate
(cele care încep cu litera Z), după care în parte de jos a căsuţei de dialog avem mai multe
opţiuni ca: Descriptives, Extraction, Rotation, Scores, Options; care vor fi prezentate în
următoarele print screen-uri:

1) Factor Analysis: Descriptives: În această căsuţa de dialog vom alege să ne prezinte informaţii
legate de o variabilă (medie, dispersie etc) precum și afișarea coeficienților matricei de
corelaţie, după care dăm Continue.

2) Factor Analysis: Extraction: Aici vom alege metoda componentelor principale, care va fi
aplicată pe matricea corelaţiilor, dar la fel de bine puteam să folosim şi matricea de covariaţă
întrucât datele sunt standardizate, după câţi factori dorim să facem analiza (2) şi să ne afişeze
graficul ataşat valorilor proprii (Sree plot), după care Continue.
3) Factor Analysis – Rotation: Aici alegem tehnica de rotire Varimax, apoi Continue.

4) Factor Analysis: Factor Scores: Aici alegem ca scorurile firmelor pe fiecare dintre cele două
axe analizate să fie salvate ca variabile în tabelul SPSS imediat după variabilele standardizate,
şi totodată selectând şi a doua opţiune vom obţine versorii axelor „u”, apoi Continue.
După parcurgerea paşilor de mai sus, vom trece la interpretarea rezultatelor obţinute.
Astfel primul tabel din Anexa Nr.1, ne oferă informaţii cu privire la media şi abatarea
standard a fiecărui indicator şi având în vedere faptul că media este 0, iar dispersia este 1,
confirmă faptul că datele sunt standardizate, după cum puteţi observa în următorul tabel:

Apoi pentru a vedea dacă indicatorii calculaţi sunt independenţi sau nu, vom analiza
matricea coeficienţilor de corelaţie din tabelul următor:
La o primă vedere, putem afirma faptul că în matricea coeficienţilor de corelaţie,
există atât corelaţii în sens pozitiv, cât și în sens negativ, acestea găsindu-se în număr aproape
egal. Astfel identificăm în matricea de mai sus, cel mai mare coeficient de corelaţie cu
valoarea 0,540, şi anume între indicatorul Nr ore de lucru şi indicatorul Salariu net, existând
posibilitatea de a se renunţa la unul dintre indicatori, având în vederea că numărul de ore de
lucru intră în alcătuirea salariului. Totodată se mai identifică coeficienţi de corelaţie destul de
mari între indicatorul Numar ore de lucru şi indicatorul Grad de cuprindere în învățământ,
indicatorul Grad de cuprindere în învățământ şi indicatorul Instituții de spectacol, precum şi
între indicatorul Procent de cititori din populație şi indicatorul Salariu net. Ca urmare a
acestor constatării am putea totuși să eliminăm unii indicatori, dar problema este pe care să-i
eliminăm; pentru a elimina subiectivismul decizie, vom folosi tehnicile de analiză a
componentelor principale implementate în SPSS, şi ne propunem să identificăm doi indicatori
sintetici cu care ne-am mulţumi în atingerea scopului propus.

Mai departe vom trece la analiza calităţii norului de puncte, urmărind informaţiile din
tabelul următor:
Acest tabel ne prezintă în coloana „Eigenvalue” , toate valorile proprii asociate

spectrului matricei, în ordine descrescătoare, şi anume:


λ1 =2,346 , λ2 =1,634 etc. Dar
cum pe noi ne interesează explicitarea norului de puncte prin două axe şi cum rangul matricei
coeficienţilor de corelaţie este 5, atunci putem să explicăm uşor conţinutul coloanei „% of
Varinace”, astfel: ajustând norul de puncte printr-o axă factorială (adică acceptând doar un
singur indicator sintetic) se explică 46,911% din totalul variaţiei datelor; apoi ajustând norul
de puncte prin două axe factoriale (adică acceptând doi indicatori sintetici), recuperăm încă
32,679% din variaţia totală, adică un total de 79,59% din această varianţă, ceea ce reprezintă
un rezultat foate bun pentru analiza noastră. Iar dacă am fi solicitat trei axe factoriale am fi
explicitat aproximativ 93,378% din varianţa totală, dar în această analiză ne-am propus doar
ajustarea norului de puncte doar prin 2 axe factoriale.
Odată cu tabelul de mai sus, SPSS-ul asociază un grafic al nivelurilor valorilor
proprii, denumit Scree Plot-ul şi prezent în cele ce urmează:

În continuarea analizăm informaţiile despre axele principale care sunt prezente în


următorul tabel:
Acest tabel de mai sus, de fapt este matricea ce ne dă versorii axelor, iar coloana unui
factor ne oferă informaţii despre ponderile (coeficienţii) cu care participă fiecare indicator
(Procentul de cititori, Institutiile de spectacol, Salariul net, Numarul de ore de lucru, Gradul
de cuprindere în învățământ) la descrierea factorului respectiv, acest factor putând fi exprimat,
prin urmare, ca o combinaţie liniară de indicatori, avându-se în vedere coeficienţii cu care
participă fiecare indicator în parte.

Apoi vom avea în vedere informaţiile despre proiecţiile acestor indicatori (considerate
ca puncte în spaţiul indivizilor) pe cele două axe principale, ele fiind salvate în matricea de
date iniţială, imediat după valorile indicatorilor standardizaţi, fiind prezentate în următorul
tabel:

Astfel cel două coloane (Fact_1 şi Fact_2) conţin componentele principale sau noii
indicatori sintetici calculaţi pentru cei 17 ani. Aşadar apelăm Graphs → Scatter/Dot →
Alegem „Simple Scatter”.
După care alegem cordonatele axelor X – factorul 1 şi Y – factorul 2, iar la Label Case
by – alegem Anul, şi pentru a ne afişa anii pe grafic, din Options bifăm căsuţa
corespunzătoare „Display chart with case labels” , apoi Continue şi în final OK şi vom
obţine următorul grafic:
(FIGURA 2)

În acest grafic putem observa un grup destul de compact ce par a avea un


comportament asemănător în raport cu noii indicatori, dar şi patru ani, anume 2002, 2003,
2004, 2012 care se detaşează de grup.

Şi în finalul analizei componentelor principale vom analiza informaţiile privind


interpretarea componentelor principale care se obţin analizând coeficienţii de corelaţie
calculaţi între cele trei componente principale şi indicatori. Acest lucru se face analizând
„Component Matrix” – fiind matricea corelaţiilor Person între variabilele iniţiale ale
modelului şi noile variabile formate, şi „Rotated Component Matrix” – folosită pentru a
obţine o interpretare mai clară şi corectă, prin selectarea opţiuni de Rotation astfel încât să se
realizeze corelaţii mari cu una din componente şi mici cu celelalte componente rămase.
Întorcându-ne la aplicaţia noastra, se obţin aşa-numiţii „Factor Loadings” din
explicitarea tabelului SPSS – „Component Matrix” la care se adaugă şi valorile proprii şi
ponderile lor cu privire la cantitatea de informaţie recuperată, obţinându-se următorul tabel:

Aşadar, componenta principală 1 este cel mai puternic corelată (pozitiv) cu indicatorul
Grad de cuprindere în învățământ și mai slab corelată cu cealaltă componentă principală, fapt
pentru care putem afirma că indicatorul Grad de cuprindere în învățământ poate fi considerat
un indicator sinteză pentru aplicaţia noastră. A doua componentă principală are un coeficient
de corelaţie relativ mare (pozitiv) cu indicatorul Nr ore de lucru, și un coeficient de corelaţie
mai mic cu cealaltă componentă principală.

Fapt pentru care apelăm la folosirea unei opţiuni de „rotire a axelor”, cu scopul de a
obţine coeficienţi de corelaţie cât mai mici pe cealaltă componentă principală şi pentru o
analiză mai relevantă şi o interpretare mai apropriată de realitate. Astfel apelăm la una dintre
cele mai utilizate tehnici de rotire a axelor, şi anume, tehnica Varimax – în acest fel
interpretarea componentelor principale devine mai semnificativă.
Iar pentru aplicaţia noastră, apleând la opţiunea de rotire a axelor (Varimax), obţinem
informaţiile din tabelul următor:

Şi odată cu întocmirea de către SPSS a tabelului de mai sus, SPSS mai asociază şi o
reprezentare grafică a celor şase indicatori financiari-contabili în spaţiul rezultat ca urmare a
rotirii axelor, astfel:
Astfel acum componenta principală 1 poate fi interpretată în termenii indicatorul
Instituții de spectacol sau eventual Gradul de cuprindere în învățământ (corelaţie pozitivă),
dar cum matricea corelaţiilor ne arată că aceştia sunt puternic corelaţi între ei, coeficientul de
corelaţie alor având valoarea de 0,344.

Componenta principală 2 este cum a fost interpretată şi mai devreme, tot în termenii
indicatorului Nr ore de lucru (corelaţie pozitivă), adică este un indicator sintetic şi este unul
dintre cei mai reprezentativi indicatori.

În final după ce am dat o interpretare a acestor 2 componente principale, putem să


obţinem o clasificare, utilizând proiecţiile în planul axelor principale, şi astfel ne folosim de
scorurile acestor firme şi graficul din figura 2, dar mai înanite de acestea remarcăm faptul că
cele două componente principale au scorul cu atât mai bun cu cât acesta este mai mare, lucru
datorat corelaţiei pozitive prezente. Prin urmare, cei 17 ani în planul indicatorilor Gradul de
cuprindere în învățământ şi Nr ore de lucru se clasifică astfel:

Clasa 1. Conţine anii 2005, 2006, 2007, 2008

Clasa 2. Conţine anii 2002, 2003, 2004

Clasa 3. Conţine anii 2009, 2010, 2011, 2012

Clasa 4. Conţine firmele 1996, 1997, 1998, 1999, 2000, 2001


Aplicația II – Analiza canonică
Analiza Canonică a factorilor reprezintă explicitarea variabilelor dependente (mai mult
de două) prin mai multe variabile independente (mai multe de două). Așadar, pentru tema
Culturii din România am ales să explicăm variabilele Cititori la biblioteci și Numărul de
instituții de spectacol (Teatre, Filarmonici, Opere, etc.) prin variabilele independente:
Salariul mediu, Gradul de cuprindere în învățământ 19-24 ani și Numărul mediu de ore de
lucru. Am ales aceste variabile, deoarece sunt cele mai comune și bine cunoscute cauze
presupuse pentru care oamenii se feresc de cultură: nu au timp, bani, sau educație suficientă.

Așadar, primul pas în analiza canonică a fost de a standardiza datele (Z-uri) pentru a
putea compara între ele aceste variabile.

Practic, pentru a reuși să definim impactul variabilelor independente asupra celor


dependente trebuie să realizăm primul factor canonic, o combinație liniară de forma:
p q
U 1 = ∑ a1 j X j și V 1 = ∑ b1 j Y j , unde X sunt variabilele independente și Y cele
j=1 j=1

dependente. Analog pentru al doilea factor canonic.

În prezent, modelul meu arată cam așa:

Nr. de
cititori în
Salariul
Salariul biblioteci
mediu
mediu

Variabile
Variabile dependente
independente (Y)
(X)
Nr.
Nr. mediu
mediu Grad de
Grad de
de
de ore de
ore de acoperire
acoperire
lucru
lucru în
în educație
educație Instituții
Instituții
de
de
spectacol
spectacol

Așadar, îmi doresc întâi să descopăr legăturile dintre variabile independente, apoi dintre
cele dependente și apoi dintre ambele.
Ceea ce descoperim aici este faptul că există o legătură notabilă între cele două variabile
dependente, la un nivel de semnificație de 99%.

În cazul variabilelor independente observăm:

Așadar, există o legătură notabilă și semnificativă între numărul de ore de lucru ale
populației și salariul net (odată cu numărul de ore, crește și salariul), dar și între numărul de
ore de lucru al populației și gradul de cuprindere în învățământ (s-ar putea explica prin faptul
că, odată cu accesul mai multor tineri la învățământ este nevoie de mai multă muncă din
partea cadrelor didactice, care au o influență suficient de mare asupra modificării primei
variabile).
Observăm că există o corelație puternică și semnificativă între procentul de cititori și
gradul de cuprindere în învățământ. (analizând doar de la variabile independente către
variabile dependente).

Toate corelațiile anterioare se pot sintetiza odată cu rularea scriptului aferent acestei
metode. Așadar, acesta arată astfel:

Prin urmare, corelațiile canonice între primul set de date (independent) și cel de-al
doilea arată în felul următor:
Observăm că prima legătură este foarte puternică.

Următorul pas este testarea corelațiilor rămase, dacă acestea sunt 0. În cazul primei
corelații ipoteza aceasta se respinge.

În etapa următoare observăm că începem să descoperim coeficienții pentru fiecare set de


date. Așadar,

Bazându-ne pe coeficienții canonici anteriori, putem decide care dintre Canonical


Loadings putem lua pentru a determina modelul. Așadar, așa cum se observă în imaginea de
mai jos, cele mai puternice corelații se realizează cu factorul canonic 1.
Prin urmare, modelul nostru va arăta în felul următor:
-0.952
-0.464
Nr. de
Salariul
Salariul cititori în
mediu
mediu biblioteci

0.908
Variabile Variabile
independente dependente
(X)
Nr. mediu
Nr. mediu Grad
Grad de
de
de
de ore
ore de
de acoperire
acoperire
lucru
lucru în
în educație
educație
Instituții
Instituții
0.236 0.883 de
de
spectacol
spectacol
0.378
Concluzie
Cu ajutorul Analizei in compnente principale a datelor am identificat noi variabile care
sa exprime sintetic vechile variabile astfel incat cantitatea totala de informatie sa nu se piarda
decat in mod controlat. In concluzie, analiza componentelor principale ne-a permis să
realizăm o sintetizare informaţională şi să caracterizăm un şir de observaţii prin 2
caracteristici în loc de 5. Astfel, am putut realiza comparaţii între observaţii.

Cu ajutorul Analizei canonice a factorilor am explicat variabilele dependente prin mai


multe variabile independente. Astfel, am pornit de la graficul din figura 1 si am ajuns la
finalul analizei la graficul din figura 2.

Figura 1

Figura 2

S-ar putea să vă placă și