Sunteți pe pagina 1din 20

Capitolul 1

Analiza componentelor principale


Referinţe:
 J.Gareth, D.Witten, T.Hastie, and R. Tibshirani. An
introduction to statistical learning. New York: Springer,
2013
 Hardle, Simar (2007), Applied multivariate statistical
analysis,Springer.

Analiza datelor, 2018


Capitolul 1

 Exemplu:
 Scop
 Principiul construirii soluţiei
 Model matematic
 Alegerea numărului de componente principale
 Proprietăţi

Analiza datelor, 2018


Capitolul 1

Figura 1

Analiza datelor, 2018


Capitolul 1

- Noi direcţii (axe) de-a lungul cărora varianţa norului de


puncte este maximă
- Aceste direcţii (drepte sau în general subspaţii) sunt alese
astfel încât să fie cât mai aproape de toate observaţiile
(distanţa minimă)

Scop:
 reducerea dimensionalităţii,
 eliminarea redundanţelor
 facilitarea vizualizării obiectelor analizate

Analiza datelor, 2018


Capitolul 1

Principiul construirii soluţiei


Elemente

 Caracteristicile X1, X2...Xp variabile numerice


 Descriu un număr de obiecte, forme, entităţi, observaţii (n)
 Matrice X de dimensiune nxp cu elementele:

𝑥𝑖𝑗 = valoarea înregistrată de observaţia i pentru variabila j

Analiza datelor, 2018


Capitolul 1

??? Extragerea de concluzii – grafice de tip scatter plot


𝑝
( )=p(p-1)/2, fiecare grafic prezintă o cantitate mică din
2

informaţia totală conţinută în date

! Cum cuantificăm informaţia?

Analiza datelor, 2018


Capitolul 1

Scop:

 Realizarea unei reprezentări cu un număr redus de


dimensiuni dar care să preia cât mai mult din informaţia
conţinută în spaţiul p dimensional iniţial

Soluţia: Extragerea informaţiei prin construirea unui număr


k<<<p de combinaţii liniare ale variabilelor iniţiale =>
Componente principale

Combinaţia liniară cu cea mai mare varianţă (prima


componentă principală)

Analiza datelor, 2018


Capitolul 1

Combinatie liniară normalizaă a cărei varianţă este maximă:

Restricţia:

Vectorul definit de:

are norma 1.
𝜙1 - vectorul care defineşte coeficienţii combinaţiei liniare
(loadings)

Analiza datelor, 2018


Capitolul 1

Soluţia- model matematic


Ipoteză: Variabilele iniţiale au fost centrate
𝜙1 - se obţine ca soluţie a următoarei probleme de optim:
𝑝 2
𝑛
1
max ∑ (∑ 𝜙𝑗1 𝑥𝑖𝑗 )
𝜙11….𝜙𝑝1 𝑛
𝑖=1 𝑗=1

𝑛
1
max ∑ 𝑧𝑖1 2
{𝜙11….𝜙𝑝1 𝑛
𝑖=1

Analiza datelor, 2018


Capitolul 1

1 𝑻
max 𝒁𝟏 𝒁𝟏
{𝜙11….𝜙𝑝1 𝑛

Se maximizează varianţa calculată pe baza celor n observaţii

Noua caracteristică a entităţii i va înregistra următoarea


valoare:

= ∑ 𝜙𝑖1 𝑥𝑖𝑗
𝑗=1

Analiza datelor, 2018


Capitolul 1

Varianţa norului de puncte format din cele n observaţii


calculată pentru Z1 va fi:

! Variabila Z are medie zero!

Analiza datelor, 2018


Capitolul 1

Interpretare geometrică: Vectorul 𝜙1 defineşte acea direcţie


din spaţiul variabilelor de-a lungul căreia există cea mai mare
împrăştiere (vezi Figura 1).

Prin proiecţia celor n puncte pe această direcţie se obţin

scorurile

Analiza datelor, 2018


Capitolul 1

Scrierea matricială. Rezolvarea problemei de optim

Prima componentă Z1 se scrie:


𝑍1 = 𝑋𝜙1
Cu aceste notaţii introduse, funcţia obiectiv devine:
1 𝑇 1 𝑇 𝑇
𝑍1 𝑍1 = 𝜙1 𝑋 𝑋𝜙1
𝑛 𝑛

Funcţia Lagrange asociată problemei de optim se va scrie:


1 𝑇
L(𝜙1 , 𝜆) = 𝜙1 𝑋 𝑇 𝑋𝜙1 − 𝜆(𝜙1 𝑇 𝜙1 − 1)
𝑛

Analiza datelor, 2018


Capitolul 1

Condiţiile de optim
𝜕𝐿 1 𝑇
= 2 𝑋 𝑋𝜙1 − 2𝜆𝜙1 = 0
𝜕𝜙1 𝑛
𝜕𝐿 𝑇
{ = 𝜙1 𝜙1 − 1 = 0
𝜕𝜆

1 1 𝑇
Observăm că 𝑋 𝑋𝜙1 = 𝜆𝜙1  𝜙1 𝑋 𝑇 𝑋𝜙1 = 𝜆 (valoarea
𝑇
𝑛 𝑛
proprie este chiar valoarea funcţiei obiectiv)
1
 Obţinem că 𝜙1 este un vector propriu al matricii 𝑋 𝑇 𝑋,
𝑛
corespunzător valorii proprii 𝜆 (cea mai mare dintre cele p
valori proprii).
Analiza datelor, 2018
Capitolul 1

 Varianţa primei componente principale este prima valoare


proprie a matricii de covarianţă

A doua componentă principală este o combinaţie liniară


necorelată cu prima componentă principală şi care are
varianţa cea mai mare posibilă, însă mai mică decât cea a
primei componente

Analiza datelor, 2018


Capitolul 1

Proprietăţi:
Conservarea varianţei totale

suma varianţelor componentelor principale coincide cu suma


varianţelor variabilelor originale, astfel încât
componentele principale preiau în totalitate variabilitatea
conţinută în variabilele originale.

! Demonstraţi

Analiza datelor, 2018


Capitolul 1

Corelaţia dintre componentele principale şi variabilele


iniţiale (elementele matricii factor)
Dacă variabilele iniţiale sunt standardizate:
Coeficientul de corelaţie dintre variabila iniţială i şi o
componentă principală j este dat de relaţia:

𝑐𝑜𝑟𝑖,𝑗 = 𝑐𝑜𝑟(𝑋𝑖 , 𝑍𝑗 ) = √𝜆𝑗 𝜙𝑖𝑗


𝑝

∑ 𝑐𝑜𝑟𝑖,𝑗 2 = 𝜆𝑗
𝑖=1

Analiza datelor, 2018


Capitolul 1

Pătratul unui astfel de coeficient arată contribuţia pe care


variabila iniţială i o are la varianţa componentei principale j.

 Calitatea reprezentării

 Contribuţia la varianţa axelor

 Cercul corelaţiilor

Analiza datelor, 2018


Capitolul 1

SINTEZĂ
 Componentele principale sunt combinaţii liniare ale
variabilelor iniţiale
 Au varianţă maximă
 Componentele principale definesc un nou spaţiu
 Axele sunt ortogonale 2 câte 2
 Coordonatele obiectelor în noul spaţiu se numesc scoruri
 Numărul de componente principale este egal cu numărul
de variabile iniţiale

Analiza datelor, 2018


Capitolul 1

 Suma varianţelor componentelor principale este egala cu


suma varianţelor variabilelor iniţiale

Alegerea numărului de componente reţinute în analiză

 Procentul de variaţie explicat


 Grafice scree plot
 Criteriul lui Kaiser

Analiza datelor, 2018

S-ar putea să vă placă și