Documente Academic
Documente Profesional
Documente Cultură
Introducere
- p variabile numerice X1, …, Xp, ale caror valori masurate pe un individ arbitrar
le vom nota prin x1, …, xp; abuziv, vom numi chiar valorile masurate x1, …, xp variabile
(initiale), subintelegand ca ne intereseaza semnificatia variabilelor propriu-zise X1, …, Xp, ca
modele ale unor caracteristici variabile observate la indivizii unui esantion extras dintr-o
pupulatie.
- valorile xj(i)=Xj(i) ale acestor variabile masurate pe indivizii unui esantion de
volum n, aranjate intr-un tabel X cu n linii si p coloane; in acest fel, individual I este identificat
cu linia I a acestui tabel, mai exact cu vectorul-linie
-
e i =( x 1 ( i ) , … , x p ( i ) ) ∈ R p
Subspatiul lui Rp generat de acesti vectori, adica de liniile tabelului X, se zice spatiul
indivizilor, iar subspatiul Rn generat de coloanele tabelului X se zice spatiul variabilelor
- o p x p – matrice M, simetrica si pozitiv definita, folosita pentru a defini pe Rp o
distanta euclidiana dM prin formula
( x , y )D
- unghiul dintre doua variabile: cos < ( x , y )= , x , y ∈ Rn
||x||D∗|| y||D
- dependent (liniare) intre doua variabile xj, xl: este masurata prin covarianta
sjl=cov(xj,xl); dependent intre toate variabilele tabelului X este descrisa prin matricea de
(co)variant
V =¿
Covarianta s2j a unei variabile xj cu ea insasi se zice variant (sau dispersia) variabilei
respective, iar radicalul sau s j=+ √ s 2j se zice abaterea standard a variabilei xj.
Mai convenabila este insa masurarea dependentei prin coeficientul de corelatie
rjl=r(xj, xl), iar pentru intregul table prin matricea de corelatie
R=¿
Legatura intre matricele de variant si corelatie pate fi scrisa matriceal prin formula:
1
⋯ 0
s1
R=Dl/ s V Dl / s=ZT DZ unde D l/ s= ⋮
( )
0
⋱
⋯
⋮ , iar z j ( i ) =
1
sp
x j ( i )− x́ j
sj
x́ 1
()
x́= ⋮
x́ p
Y = X−1∗ x́ T , Z=Y D 1/ x
- inertia totala a tabelului initial X este inertia norului indivizilor prin raport cu
centrul sau masa g.
Amintim ca, din teorema lui Huygens, inertia relativ la centrul de masa al norului
indivizilor este minima printre inertiile acestui nor relativ la oricare alt punct; aceasta explica
denumirea de „totala” data inertiei fata de centrul de masa si notatia I l pentru inertia totala a
norului.
Aceasta inertie constituie principala masura a gradului de concentrare (dispersare) a
punctelor norului indivizilor; o inertie nula sau apropiata de zero arata ca toti indivizii sunt
identici, sau aproape identici si sunt confundati cu centrul lor de masa g.
Se poate considera de asemenea:
- inertia tabelului initial X relativ la o varietate L din spatiul Rp, trecand prin centrul
de masa, prin
n
I L ( X )=∑ pi∗d 2M (e i , L)
i=1
Metoda ACP
Valorile (xij )din acest tabel reprezinta numarul indivizilor din esantion care au
modalitatile i dupa prima variabila respectiv j dupa a doua variabila,adica frecventele absolute.
Putem estima probabilitatile ca un individ sa apartina perechii de modalitati(i,j) prin
nij
Frecvente relative : fij =
n
unde {i=1 ,… .. , 6
j=1 , ….,5
SID TB
CANCER HEPATITA PNEUMONIE
A C
314 0 0 0 0
0 141 0 0 0
0 0 80 0 0
0 0 0 343 0
0 0 0 0 334
Notam ca liniile (coloanele) acestor tabele pot fi private ca repartitiile conditionate ale
liniilor (coloanelor) tabelului N.
Odata calculate frecventele conditionate,pot fi intocmite tabele de profiluri,si anume:
Tabelul(matricea) de profile a liniilor tabelului N este tabelul,notat L si definit prin
TABEL PROFILE
LINII
0.19823 0.066079 0.03083 0.44052 0.2643171
79 3 7 9 81
0.45026 0.261780 0.20942 0.05235 0.0261780
18 1 41 6 1
0.01744 0.220930 0.11627 0.18023 0.4651162
19 2 91 3 79
0.05025 0.02010 0.42211 0.3869346
0.120603
13 05 1 73
0.31596 0.039087 0.02605 0.2899022
0.32899
09 9 86 8
0.62931 0.017241 0.00862 0.14655 0.1982758
03 4 07 2 62
Linia i a acestui tabel ,se mai zice profilul lui U 1 (i) relative la partitia U2 ; in acest tabel
frecventele relative conditionate sunt “in linii”,dar in calcule aceste linii vor fi considerate ca
vectori coloane.
Tabelul (matricea) de profile a coloanelor tabelului N este tabelul definit prin:
TABEL PROFILE COLOANE
0.19823 0.45026 0.01744 0.05025 0.3159609
8 2 2 1 12 0.62931
0.06607 0.12060 0.0390879 0.01724
9 0.26178 0.22093 3 48 1
0.03083 0.20942 0.11627 0.02010 0.0260586 0.00862
7 4 9 1 32 1
0.44052 0.05235 0.18023 0.42211 0.3289902 0.14655
9 6 3 1 28 2
0.26431 0.02617 0.46511 0.38693 0.2899022 0.19827
7 8 6 5 8 6
Coloana j a acestui table,se mai zice profilul lui U 2(j) relative la partitia U1 ; in
acest tabel ,frecventele relative conditionate sunt “in coloane”.
Observatie. In tabelul profilelor-coloanelor “indivizii” figureaza in varful colanelor ;
astfel,pentru a pastra conventia ca indivizii figureaza pe linii,tabelul C va fi considerat in
calcule prin transpusul sau.