P. 1
Analize multivariate

Analize multivariate

|Views: 701|Likes:
Published by katy ktty

More info:

Published by: katy ktty on Nov 15, 2009
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

01/27/2013

pdf

text

original

Analize multivariate ANALIZA ÎN COMPONENTE PRINCIPALE

Analizele multivariate
După obiectivele analizate

Reducere, simplificare, sinteză

Explicare, identificare

Metode descriptive
Toate variabilele sunt analizate împreună. Natura variabilelor Nominale Ordinale Metrice

Metode explicative
Variabilele sunt separate în două grupe: variabile de explicat şi explicative. Natura variabilelor de explicat Nominale Ordinale Metrice

Analiza corespondenţelor

Analiza similarităţilor

Analiza în componente principale

Analiza discriminantă

Analiza mărimilor coreate-conjoint

Analiza de regresie multiplă

Metodele descriptive - metodele factoriale de analiză
• simplificarea unui tabel de date brute,trecând de la un număr mare de variabile, la un număr mai mic de noi variabile sintetice, obţinute prin gruparea variabilelor iniţiale; • structurarea şi interpretarea datelor, cu ajutorul noilor variabile - componente "ascunse" - care simplifică interpretarea datelor puţin lizibile, prima dată.

• Se trece de la un ansamblu de k variabile la un ansamblu de p noi variabile, cu următoarele trei caracteristici fundamentale: – p este mult mai mic decât k; – cele p noi variabile sunt combinări liniare a celor k variabile iniţiale şi contribuie fiecare cu o parte descrescătoare la explicarea varianţei datelor. Ele se numesc componente principale şi fiecare componentă Pi este de următoarea formă: Pi = a1V1 + a2V2 + a3V3 + ... + akVk , unde a1, a2, a3, ..., ak sunt coeficienţi de ponderare a variabilelor iniţiale; aceşti coeficienţi sunt calculaţi pentru a restitui maxim de varianţă conţinută în tabelul de date iniţiale, iar V1, V2, V3, ..., Vk sunt variabilele de plecare (în principiu centrate şi reduse) – cele p componente principale sunt independente între ele (necorelate).

Simplificarea variabilelor

Identificarea componentelor
• Se ţine seama de clasificările variabilelor:
– după natura lor:
– variabile cantitative – variabile calitative

– după funcţia lor în analiză:
– variabile active – variabile ilustrative (pasive).

• Variabilele active participă la determinarea spaţiului factorial. Variabilele active trebuie să fie de aceeaşi natură, ceea ce condiţionează metodele de analiză:
– analiza componentelor principale, pentru variabilele cantitative, – analiza corespondenţelor, pentru variabilele calitative.

Identificarea componentelor
• un ansamblu de variabile numerice sub forma unui tabel de n indivizi şi p variabile cantitative active, presupune că fiecare individ "i" se consideră ca un punct ei al unui spaţiu cu p dimensiuni de coordonate xi1, xi2, …, xip. Acest spaţiu al indivizilor se notează cu E. • Variabilele sunt exprimate în unităţi de măsură diferite şi nu se poate calcula în mod direct distanţa dintre indivizi. Inconvenientul unităţilor de măsură se elimină prin exprimarea variabilelor în abateri normale normate (standardizate), prin centrarea faţă de medie şi reducerea prin abaterile lor standard.

Identificarea componentelor
• Dacă sj este abaterea standard a variabilei j, pătratul distanţei dintre indivizii i şi i′ este: 1 2 3…j…p 1 2 … i … n

d 2 (i, i ′) = ∑
j =1

p

( xij − xi′j ) 2 sj

xij

Corelaţiile dintre variabile, exprimate în matricea simetrică a coeficienţilor de corelaţie R, vor determina proiecţiile pe axele factoriale. • Variabilele sunt vectori de câte n valori şi se pot considera ca vectori ai unui spaţiu n dimensional, notat F. Lungimea unui vector în acest spaţiu se defineşte n prin: ∑ xi2 X = i =1 n

 1 r12 r  21 1 R=  ... ...  rn1 rn2

... ... ... ...

r1p  r2p   ...  1

Identificarea componentelor
• Variabilele sunt centrate şi reduse, lungimile lor sunt egale cu 1; extremităţile lor sunt situate pe o sferă de rază 1 a spaţiului F. Cosinusul unghiului format de două variabile, în acest spaţiu, este egal cu r. • Observaţiile se prezintă sub forma a doi nori de puncte:
– norul celor "n" indivizi în spaţiul E – norul celor "p" variabile în spaţiul F.

• Studiul formei norului de indivizi permite diferenţierea acestora în grupe de indivizi, după răspunsurile lor la ansamblul de variabile active. • Forma norului de variabile descrie ansamblul corelaţiilor dintre ele. Utilizarea a mai mult de trei dimensiuni îngreunează înţelegerea spaţiilor. • Reprezentarea variabilelor este mai bogată în informaţie şi mai complexă.
– Pentru un individ se asociază un singur obiect matematic, un punct din E. – O variabilă este mai întâi o listă de n valori - un vector din F, dar este de asemenea o axă (direcţie) a spaţiului indivizilor, pe care aceştia se proiectează. – Coordonatele indivizilor pe această axă sunt valorile variabilei.

• Proiecţiile celor n indivizi ei, pe o axă oarecare ∆ a spaţiului E, constituie o nouă variabilă, care este o combinaţie liniară a celor p variabile iniţiale. Ansamblul celor p coeficienţi care descriu noua variabilă, se numeşte factorul asociat variabilei.

Analiza componentelor principale (ACP)
Trei moduri de prezentare, în funcţie de contribuţiile în timp la dezvoltarea ei: • K. Pearson (1901) a considerat inerţia ca fiind criteriul de identificare a componentelor principale. Inerţia totală este suma varianţelor celor p variabile. În cazul datelor centrate şi reduse, inerţia totală este egală cu p. Se proiectează norul de puncte al indivizilor pe un subspaţiu de dimensiune fixă, trecând prin origine (punctul mediu, centrul de greutate, ale cărui coordonate sunt mediile fiecărei variabile). Subspaţiile optimale verifică proprietatea imbricării: subspaţiul optimal de dimensiune k conţine subspaţiul optimal de dimensiune k-1 etc., ceea ce permite căutarea unei suite de axe ortogonale numite axe principale ale norului de puncte. • Căutarea variabilor care maximizează criteriile de dipersie sau de corelaţie. Harold Hoteling - căutarea combinaţiilor liniare de varianţă maximă a celor p variabile iniţiale. Suma pătratelor coeficienţilor acestor combinaţii liniare este 1. Vectorii care cuprind cei p coeficienţi ai combinaţiilor liniare, sunt factorii principali, sunt vectorii proprii ai matricei de corelaţie R, (descrescător după valorile lor proprii). Aceste combinaţii se numesc componente principale. Suma primelor k valori proprii este egală cu inerţia norului proiectat pe subspaţiul de dimensiune k. • De la p variabile cantitative, se caută noi variabile notate ck , necorelate între ele, cât mai corelate cu cele p variabile iniţiale în sensul că: rc2 ,xj . max k


j

ACP - etape
Indiferent de prezentarea utilizată, ACP este o metodă factorială prin care se construiesc noi variabile, ca fiind combinaţii liniare ale celor p variabile iniţiale, necorelate între ele şi de varianţă maximă. Etapele analizei sunt: 1. identificarea observaţiilor "aberante" (indivizi cu valori extreme, care afectează valoarea medie; nonrăspunsurile); 2. centrarea şi reducerea observaţiilor iniţiale - necesară datorită eterogenităţii unităţilor de măsură; 3. calculul unei matrici de corelaţii între variabilele iniţiale; 4. calculul combinaţiilor liniare - rezultatul este un tabel cu varianţele fiecărei componente principale şi gradul de determinaţie al fiecăreia; 5. alegerea componentelor principale - două criterii, curent utilizate: • se reţin acele componente care au valoarea proprie > 1, (criteriul lui Kaiser), pentru că aduc mai multe informaţii decât variabilele iniţiale (centrate şi reduse); • graficul-test, care reprezintă varianţele componentelor principale; se aleg acele componente ale căror puncte corespunzătoare nu se situează pe o dreaptă cu care se pot uni celelalte. Numărul componentelor de reţinut poate fi diferit faţă de cel ales prin criteriul anterior, dar acest ultim criteriu se consideră mai eficient.

ACP - structurarea şi interpretarea
6. interpretarea componentelor principale - este facilitată de graficul cercul corelaţiilor, care este proiecţia sferei unitate F, pe un plan delimitat de c1 şi c2 - două componente principale în spaţiul F, ale căror coordonate reprezintă coeficienţii de corelaţie ale variabilelor iniţiale cu componentele considerate două câte două, . rck ,x j vizualizarea indivizilor pe componentele principale, graficul indivizilor; se reprezintă coordonatele indivizilor; se vizualizează astfel poziţia fiecăruia faţă de componentele alese.
componenta 2 puternic ⋅ ⋅ ⋅ slab ⋅ ⋅ ⋅ ⋅ slab Vizualizarea indivizilor faţă de componentele principale ⋅ ⋅ ⋅

7.

⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅⋅ componenta 1 puternic

PRINCIPAL COMPONENTS ANALYSIS (APC) FOR COUNTRIES POSITIONS, IN 2002 • • • • • • • • • 32 European countries, total expenditure in tourism (millions of U.S. $), arrivals of tourists (thousands), the weight of services in GDP (%), GDP per capita (U.S. $/inhabitant), inflation rate (%), Gini coefficient, Human Development Index (HDI), the rate of unemployment.

APC - The Circle of Correlations for 2002
Component Plot in Rotated Space
1.0 arrivals tourism$

.5 services unemploy 0.0 inflatio gini hdi gdpcap

Component 2

-.5

-1.0 -1.0 -.5 0.0 .5 1.0

Component 1

PRINCIPAL COMPONENTS ANALYSIS (APC) FOR COUNTRIES POSITIONS, IN 2002

• • • • • • •

32 European countries, expenditure in tourism (millions of U.S. $), arrivals of tourists (thousands) the overnight stays of foreigners, the weight of services in GDP (%), GDP per capita (U.S. $/inhabitant) inflation rate (%).

The Circle of Correlations between New Variables and the Two Components in 2002
Component Plot in Rotated Space
1.0 gdp serv

.5 exp_t nights arrivals 0.0

Component 2

-.5 infl -1.0 -1.0 -.5 0.0 .5 1.0

Component 1

Countries' Position in 2002 face the Two Components

3

2 IS N 1 DK IL FL SL 0 NL SZ SW B

A D

UK

P GR

I F S

HU CH LV ES LT SK CR PL R UC BG

REGR factor score 2 for analysis
-1 RO -2 -3 -3 -2 -1

1

T

0

1

2

3

4

REGR factor score 1 for analysis

1

PRINCIPAL COMPONENTS ANALYSIS FOR COUNTRIES POSITIONS, IN 1990
Component Plot in Rotated Space
1.0 gdpcap serv

.5 exp$ arrivals nights 0.0

Component 2

-.5 inflatio -1.0 -1.0 -.5 0.0 .5 1.0

Component 1

Countries' Position in 1990, face the Two Components

3

L 2 IS DK SW B NL N FL ILGRP SL 0 CH CRHU SK ES -1 T LV R UK LT BG RO -2 PL SZ D A I UK S F

1

-3 -3 -2 -1 0 1 2 3 4

REGR factor score 1 for analysis

2

23 countries
Few Countries' Position in 1990, face to the Two Components

3

2 L

IS 1

DK NL N SW BG FL IL P GR SZ D A I UK S F

0

REGR factor score 2 for analysis 3

HU PL T

-1

-2

BG RO

-3 -3 -2 -1 0 1 2 3 4

REGR factor score 1 for analysis

3

CONCLUSIONS
• The Romania’s position changed very little (from more than two standard deviations face to the average of the two components, in 1990, to less than two standard deviations, in 2002). • Some countries changed their positions from one square to another or in the same square they changed the amplitude of the deviations from average. • In general, the positions remained the same for the majority, and Romania did not record any significant changing position in the period 19902002.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->