CH 10

Capitolul 1
Analiza componentelor principale

Referinţe:
 J.Gareth, D.Witten, T.Hastie, and R. Tibshirani. An
introduction to statistical learning. New York: Springer,
2013
 Hardle, Simar (2007), Applied multivariate statistical
analysis,Springer.
Analiza datelor, 2018

Capitolul 1
 Exemplu:
 Scop
 Principiul construirii soluţiei
 Model matematic
 Alegerea numărului de componente principale
 Proprietăţi

Capitolul 1
Figura 1

Capitolul 1
- Noi direcţii (axe) de-a lungul cărora varianţa norului de

puncte este maximă
- Aceste direcţii (drepte sau în general subspaţii) sunt alese
astfel încât să fie cât mai aproape de toate observaţiile
(distanţa minimă)
Scop:
 reducerea dimensionalităţii,
 eliminarea redundanţelor
 facilitarea vizualizării obiectelor analizate

Capitolul 1
Principiul construirii soluţiei

Elemente
 Caracteristicile X1, X2...Xp variabile numerice

 Descriu un număr de obiecte, forme, entităţi, observaţii (n)
 Matrice X de dimensiune nxp cu elementele:
𝑥𝑖𝑗 = valoarea înregistrată de observaţia i pentru variabila j

Capitolul 1
??? Extragerea de concluzii – grafice de tip scatter plot

𝑝
( )=p(p-1)/2, fiecare grafic prezintă o cantitate mică din
2
informaţia totală conţinută în date
! Cum cuantificăm informaţia?

Capitolul 1
Scop:
 Realizarea unei reprezentări cu un număr redus de

dimensiuni dar care să preia cât mai mult din informaţia
conţinută în spaţiul p dimensional iniţial
Soluţia: Extragerea informaţiei prin construirea unui număr

k<<<p de combinaţii liniare ale variabilelor iniţiale =>
Componente principale
Combinaţia liniară cu cea mai mare varianţă (prima

componentă principală)

Capitolul 1
Combinatie liniară normalizaă a cărei varianţă este maximă:
Restricţia:
Vectorul definit de:
are norma 1.
𝜙1 - vectorul care defineşte coeficienţii combinaţiei liniare
(loadings)

Capitolul 1
Soluţia- model matematic

Ipoteză: Variabilele iniţiale au fost centrate
𝜙1 - se obţine ca soluţie a următoarei probleme de optim:
𝑝 2
𝑛
1
max ∑ (∑ 𝜙𝑗1 𝑥𝑖𝑗 )
𝜙11….𝜙𝑝1 𝑛
𝑖=1 𝑗=1
𝑛
1
max ∑ 𝑧𝑖1 2
{𝜙11….𝜙𝑝1 𝑛
𝑖=1

Capitolul 1
1 𝑻
max 𝒁𝟏 𝒁𝟏
{𝜙11….𝜙𝑝1 𝑛
Se maximizează varianţa calculată pe baza celor n observaţii
Noua caracteristică a entităţii i va înregistra următoarea

valoare:
= ∑ 𝜙𝑖1 𝑥𝑖𝑗
𝑗=1

Capitolul 1
Varianţa norului de puncte format din cele n observaţii

calculată pentru Z1 va fi:
! Variabila Z are medie zero!

Capitolul 1
Interpretare geometrică: Vectorul 𝜙1 defineşte acea direcţie

din spaţiul variabilelor de-a lungul căreia există cea mai mare
împrăştiere (vezi Figura 1).
Prin proiecţia celor n puncte pe această direcţie se obţin
scorurile

Capitolul 1
Scrierea matricială. Rezolvarea problemei de optim
Prima componentă Z1 se scrie:

𝑍1 = 𝑋𝜙1
Cu aceste notaţii introduse, funcţia obiectiv devine:
1 𝑇 1 𝑇 𝑇
𝑍1 𝑍1 = 𝜙1 𝑋 𝑋𝜙1
𝑛 𝑛
Funcţia Lagrange asociată problemei de optim se va scrie:

1 𝑇
L(𝜙1 , 𝜆) = 𝜙1 𝑋 𝑇 𝑋𝜙1 − 𝜆(𝜙1 𝑇 𝜙1 − 1)
𝑛

Capitolul 1
Condiţiile de optim
𝜕𝐿 1 𝑇
= 2 𝑋 𝑋𝜙1 − 2𝜆𝜙1 = 0
𝜕𝜙1 𝑛
𝜕𝐿 𝑇
{ = 𝜙1 𝜙1 − 1 = 0
𝜕𝜆
1 1 𝑇
Observăm că 𝑋 𝑋𝜙1 = 𝜆𝜙1  𝜙1 𝑋 𝑇 𝑋𝜙1 = 𝜆 (valoarea
𝑇
𝑛 𝑛
proprie este chiar valoarea funcţiei obiectiv)
1
 Obţinem că 𝜙1 este un vector propriu al matricii 𝑋 𝑇 𝑋,
𝑛
corespunzător valorii proprii 𝜆 (cea mai mare dintre cele p
valori proprii).
Capitolul 1
 Varianţa primei componente principale este prima valoare

proprie a matricii de covarianţă
A doua componentă principală este o combinaţie liniară

necorelată cu prima componentă principală şi care are
varianţa cea mai mare posibilă, însă mai mică decât cea a
primei componente

Capitolul 1
Proprietăţi:
Conservarea varianţei totale
suma varianţelor componentelor principale coincide cu suma

varianţelor variabilelor originale, astfel încât
componentele principale preiau în totalitate variabilitatea
conţinută în variabilele originale.
! Demonstraţi

Capitolul 1
Corelaţia dintre componentele principale şi variabilele

iniţiale (elementele matricii factor)
Dacă variabilele iniţiale sunt standardizate:
Coeficientul de corelaţie dintre variabila iniţială i şi o
componentă principală j este dat de relaţia:
𝑐𝑜𝑟𝑖,𝑗 = 𝑐𝑜𝑟(𝑋𝑖 , 𝑍𝑗 ) = √𝜆𝑗 𝜙𝑖𝑗

𝑝
∑ 𝑐𝑜𝑟𝑖,𝑗 2 = 𝜆𝑗
𝑖=1

Capitolul 1
Pătratul unui astfel de coeficient arată contribuţia pe care

variabila iniţială i o are la varianţa componentei principale j.
 Calitatea reprezentării
 Contribuţia la varianţa axelor
 Cercul corelaţiilor

Capitolul 1
SINTEZĂ
 Componentele principale sunt combinaţii liniare ale
variabilelor iniţiale
 Au varianţă maximă
 Componentele principale definesc un nou spaţiu
 Axele sunt ortogonale 2 câte 2
 Coordonatele obiectelor în noul spaţiu se numesc scoruri
 Numărul de componente principale este egal cu numărul
de variabile iniţiale

Capitolul 1
 Suma varianţelor componentelor principale este egala cu

suma varianţelor variabilelor iniţiale
Alegerea numărului de componente reţinute în analiză
 Procentul de variaţie explicat

 Grafice scree plot
 Criteriul lui Kaiser

CH 10

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

CH 10

Încărcat de

Drepturi de autor:

Formate disponibile

Capitolul 1

Analiza componentelor principale

Analiza datelor, 2018

Analiza datelor, 2018

Analiza datelor, 2018

- Noi direcţii (axe) de-a lungul cărora varianţa norului de

Analiza datelor, 2018

Principiul construirii soluţiei

 Caracteristicile X1, X2...Xp variabile numerice

𝑥𝑖𝑗 = valoarea înregistrată de observaţia i pentru variabila j

Analiza datelor, 2018

??? Extragerea de concluzii – grafice de tip scatter plot

informaţia totală conţinută în date

! Cum cuantificăm informaţia?

Analiza datelor, 2018

 Realizarea unei reprezentări cu un număr redus de

Soluţia: Extragerea informaţiei prin construirea unui număr

Combinaţia liniară cu cea mai mare varianţă (prima

Analiza datelor, 2018

Combinatie liniară normalizaă a cărei varianţă este maximă:

Vectorul definit de:

Analiza datelor, 2018

Soluţia- model matematic

Analiza datelor, 2018

Se maximizează varianţa calculată pe baza celor n observaţii

Noua caracteristică a entităţii i va înregistra următoarea

Analiza datelor, 2018

Varianţa norului de puncte format din cele n observaţii

! Variabila Z are medie zero!

Analiza datelor, 2018

Interpretare geometrică: Vectorul 𝜙1 defineşte acea direcţie

Prin proiecţia celor n puncte pe această direcţie se obţin

Analiza datelor, 2018

Scrierea matricială. Rezolvarea problemei de optim

Prima componentă Z1 se scrie:

Funcţia Lagrange asociată problemei de optim se va scrie:

Analiza datelor, 2018

 Varianţa primei componente principale este prima valoare

A doua componentă principală este o combinaţie liniară

Analiza datelor, 2018

suma varianţelor componentelor principale coincide cu suma

Analiza datelor, 2018

Corelaţia dintre componentele principale şi variabilele

𝑐𝑜𝑟𝑖,𝑗 = 𝑐𝑜𝑟(𝑋𝑖 , 𝑍𝑗 ) = √𝜆𝑗 𝜙𝑖𝑗

Analiza datelor, 2018

Pătratul unui astfel de coeficient arată contribuţia pe care

 Contribuţia la varianţa axelor

Analiza datelor, 2018

Analiza datelor, 2018

 Suma varianţelor componentelor principale este egala cu

Alegerea numărului de componente reţinute în analiză

 Procentul de variaţie explicat

Analiza datelor, 2018

S-ar putea să vă placă și