Sunteți pe pagina 1din 9

Analiza statistică multidimensională

Curs 2, 14 Octombrie 2014


Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Noţiuni introductive

 prima referinţă la medotele de analiză factorială a făcut-o


în anul 1901 Karl Pearson
 în anul 1933 a fost integrată statisticii matematice de
către Harold Hotelling
 a început să fie utilizată efectiv după dezvoltarea
metodelor actuale de calcul cu ajutorul calculatoarelor
Noţiuni introductive

Configurarea norului
de punte în spaţiu

vizualizarea punctelor regruparea punctelor


în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clasificare)
1. Datele și caracteristicile lor:
Tabelul de date
Utilizatorii metodelor
factoriale pleacă de la un valoarea variabilei j
tablou de măsuri, pe coloane pentru individul i
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate Vectorul linie vector coloană
variabilele xj

𝑒𝑖′ = 𝑥𝑖 1 , … , 𝑥𝑖 𝑝

𝑥1 𝑗
𝑥𝑗 = ⋮
𝑥𝑛 𝑗
n puncte în Rp p puncte în Rn
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate

𝒀 = 𝑿 −1g’=(I-11’D)X
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
 Matricea dispersie-covarianță: 𝐧

𝐒 = 𝐗 ′ 𝐃𝐗 − 𝐠𝐠 ′ = 𝐘 ′ 𝐃𝐘 unde 𝐗 ′ 𝐃𝐗 = 𝐩𝐢 𝐞𝐢 𝐞𝐢 ′
𝐢=𝟏
 Notații:
 Matricea diagonală a inverselor abaterilor medii pătratice:
𝟏/𝐬𝟏 𝟎
𝐃𝟏/𝐬 = ⋱
𝟎 𝟏/𝐬𝐩
 Matricea diagonală a inverselor dispersiilor:
𝟏/𝐬𝟏 𝟐 𝟎
𝐃𝟏/𝒔𝟐 = ⋱
𝟎 𝟏/𝐬𝒑 𝟐

 Tabelul datelor centrate și reduse


j − xj
x i
𝐙 = 𝐘𝐃𝟏/𝐬 cu z j i =
sj
1. Datele si caracteristicile lor:
Matricea de corelatie

 R – matricea care grupează toți coeficienții de corelație liniară între p variabile luate
două :câte două se numește matricea de corelație:

1 𝑟12 … 𝑟1𝑝
R= ⋯ 1 ⋯ ⋯ = 𝐷1/𝑠 𝑆𝐷1/𝑠 =Z’DZ
𝑟𝑝1 ⋯ ⋯ 1

 Observatie: Matricea de corelatie R este matricea dispersie covarianta S pentru date


centrate si reduse
2. Spațiul indivizilor
 Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu
vectorial FRp denumit spaţiul indivizilor.

 Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de


greutate al norului

 Metrica folosită pentru definirea distanţei dintre doi indivizi este M = 𝐃𝟏/𝒔𝟐 unde 𝐃𝟏/𝒔𝟐
este matricea diagonală a inverselor dispersiilor

 Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor


punctelor față de centrul de greutate
𝑛

𝐼𝑔 = 𝑝𝑖 𝑒𝑖 − 𝑔 ′ 𝑀 𝑒𝑖 − 𝑔
𝑖=1
3. Spațiul variabilelor
 Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector
xj al unui spaţiu ERn numit spaţiul variabilelor.
 Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D
 
 pi  1
 i=1
 
0 pn 
 Produsul scalar a două variabile xj și xk este:
𝑛
care este covarianța sjk dintre cele două
𝑥′𝑗 𝐷𝑥 𝑘 = 𝑝𝑖 𝑥𝑖 𝑘 𝑥𝑖 𝑗 variabile, dacă acestea sunt centrate
𝑖=1

 Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie


pătratică
 Unghiul dintre două variabile centrate este:

< 𝑥 𝑗; 𝑥𝑘 >
𝑐𝑜𝑠𝜃𝑗𝑘 = fiind coeficientul de corelație liniară
𝑥 𝑗 𝑥𝑘
𝑠𝑗𝑘
=
𝑠𝑗 𝑠𝑘

S-ar putea să vă placă și