Documente Academic
Documente Profesional
Documente Cultură
1.3
Analiza coresponden
telor simple (ACS)
Prezentat
a sub acest nume si dezvoltat
a n Franta de J.P. Benzecri [5],
metoda are ca precursori pe Guttman [31] si Hayashi [36].
Analiza coresponden
telor este o metod
a adaptat
a tabelelor de contingenta care permite studiul relatiilor ntre dou
a sau mai multe variabile
nominale (discrete).
Se distinge ntre:
Analiza coresponden
telor simple (ACS) n cazul studiului relatiilor
ntre dou
a variabile nominale;
Analiza coresponden
telor multiple (ACM) n cazul studiului relatiilor ntre mai multe variabile nominale;
Deni
tia 1.3.1 Se numeste tabel de contingenta (sau de dependenta sau ncruci
sat) un tabel ale c
arui linii, respectiv coloane desemneaz
a dou
a partitii
ale aceleiasi multimi, partitii date de modalit
atile a dou
a variabile nominale.
Fie X si Y dou
a variabile nominale cu n respectiv p modalit
ati descriind
o multime de k indivizi.
Fie K tabelul de contingenta cu n linii, p coloane si elementele kij ; unde
kij este num
arul de indivizi avnd simultan modalitatea i a variabilei X si
modalitatea j a variabilei Y.
Se noteaz
a cu
X
X
ki =
kij ; k j =
kij ;
j
k =
kij =
i;j
si cu
fij
fi
ki =
k j;
kij
frecventele relative, cu marjele:
k
X
X
X
=
fij ; f j =
fij ; f =
fij = 1:
i;j
y1
y2
x1
x2
..
.
xi
..
.
yj
..
.
..
.
..
.
yp
k1
k2
kij
ki
xn
k1
k2
kj
kp
kn
k
SIMPLE (ACS)
63
Dou
a lecturi sunt posibile, dup
a cum este privilegiat
a una sau alta dinn oi=1;n
fij
, respectiv pe coloane, cu
tre variabile: pe linii, cu frecventele fi
j=1;p
n o
f
frecventele fijj .
1.3.1
Schema general
a de ACS
Analiza corespondentelor simple revine la efectuarea unei analize generale a unui nor de puncte ponderate ntr-un spatiu cu o metric
a special
a.
1.3.1.1
Fie
GEOMETRIA NORILOR S
I ELEMENTELE DE BAZA
0
1
f11 f12 : : : f1p
B
.. C - matricea de dimensiune n p a frecventelor
F = @ ...
. A
fn1 fn2 : : : fnp
relative;
Dn = diag (fi ) - matricea n
jele liniilor;
n cu diagonala principal
a continnd mar-
S
I A METRICII
Este resc s
a ne gndim la distanta euclidian
a ntre prolurile-linie, respectiv prolurile-coloan
a:
d2 i; i0 =
X
j
fij
fi
fi0 j
fi0
si analoaga.
Aceast
a distanta favorizeaz
a coloanele care au o mas
a f j important
a,
adic
a modalit
atile j care sunt bine reprezentate n populatia studiat
a. Pentru
a remedia acest lucru ct si din alte considerente discutate n continuare, se
pondereaz
a ecare diferenta cu inversa masei coloanei, obtinndu-se distanta
2
X 1
i; i =
fj
0
fij
fi
fi0 j
fi0
fij
fj
fij 0
f j0
si analoaga
d2 j; j 0 =
X 1
fi
i
Propozi
tia 1.3.1
Distan
ta 2 este invariant
a la agregarea liniilor, respectiv a coloanelor, cu
acela
si prol.
Demonstra
tie.
SIMPLE (ACS)
65
j; j
iX
1 1
fij
fj
fij 0
f j0
fi2 j
fj
fi2 j 0
f j0
1
fi
i=1
1
+
fi2
fi1 j
fj
1
+
fi1
+
n
X
i=i2 +1
fi1 j 0
f j0
+
fij 0
f j0
fij
fj
1
fi
Distanta dup
a agregarea liniilor cu acelasi prol i1 si i2 este
d2r j; j 0
iX
1 1
i=1
1
fi
n
X
i=i2 +1
1
fi
fij 0
f j0
fij
fj
fij
fj
+
fij 0
f j0
1
fi0
fi0 j
fj
fi0 j 0
f j0
fi j
fi1 j + fi2 j = fi0 j ; (8) j
) 0 = rj
fi1 + fi2 = fi0
fi0
fi0 j
fi0
fi1 j +fi2 j
fi1 +fi2
ki1 j +ki2 j
ki1 +ki2
rj (ki1 +ki2
)
=
(ki1 +ki2 )
A (i2 )
1
fi1
fi1 j
fj
fi1
rj
fj
1
fi2
fi2 j
fj
fi1 j 0
f j0
rj 0
f j0
= fi1
fi1 j
fi1
1
fj
fi1 j 0
fi1
1
f j0
fi2 j
fi2
1
fj
fi2 j 0
fi2
1
f j0
1
f j0
= fi1 B
fi2 j 0
f j0
= fi2
rj 0 2
rj
= fi2 B
fj
f j0
) A (i1 ) + A (i2 ) = fi1 B+fi2 B= (fi1 +fi2 ) B=fi0 B:
A (i0 )
fi2
1
fi0
fi0 j
fj
fi0
rj
fj
fi0 j 0
f j0
rj 0
f j0
= fi0
fi0 j
fi0
1
fj
fi0 j 0
fi0
= fi0 B
SIMPLE (ACS)
67
Norul de n
puncte-linie n Rp
Norul de p
puncte-coloan
a n Rn
Matricea X (tabelul)
X = Dn 1 F =
n oj=1;p
f
= fiji
X = Dp 1 F0 =
n oi=1;n
f
= fijj
M = Dp 1
M = Dn 1
d2 (i; i0 ) =
d2 (j; j 0 ) =
i=1;n
Metrica si distanta
p
P
j=1
Ponderea (masa)
1
fj
fij
fi
fi0 j
fi0
j=1;p
n
P
i=1
1
fi
fij
fj
fij 0
f j0
N = Dn = diag (fi )
N = Dp = diag ( f j )
masa liniei i: fi
masa coloanei j: f j
Lema 1.3.1
1. Centrul de greutate al prolurilor-linie este xGl = (f 1 ; : : : ; f p )0 , centrul
de greutate al prolurilor-coloan
a este xGc = (f1 ; : : : ; fn )0 .
2. Iner
tia global
a a norului de puncte-linie, respectiv puncte-coloan
a m
asoar
a ecartul ntre legile empirice fij
si fi f j .
Demonstra
tie.
1. Din denitie g = X0 D 1 deci n acest caz xG = X0 N 1 cu ponderi
xGl = Dn 1 F
Dn
1
f1
Bf 2 C
B C
1n = B . C ; xGc = Dp 1 F
@ .. A
0
Dp
IGl =
fi d2 (i; Gl ) =
f1
B f2
B
1p = B .
@ ..
fn
fp
C
C
C:
A
pj d2 (j; Gc ), deci
XX
i
fi
1
fj
fij
fi
fj
X X (fij
fi f j )2
fi f j
X X (fij
fi f j )2
:
fi f j
respectiv
IGc =
f j d2 (j; Gc ) =
XX
j
fj
1
fi
fij
fj
fi
Reamintim c
a dou
a variabile aleatoare discrete, lund n, respectiv p valori, cu distributia de probabilitate comun
a fpij gj=1;p
si distributiile marginale
i=1;n
fpi g respectiv fp j g sunt independente dac
a si numai dac
a pij = pi p j ; ceea
ce se traduce n termeni de estimatii empirice ale acestor distributii n
fij = fi f j :
Statistica testului
H0 : pij = pi p j (8) i; j
HA : (9) i1 astfel nct pi1 j 6= pi1
este X 2 = k
P P (fij
i
2
(n 1)(p 1)
f i f j )2
fi f j
pj
dac
a volumul de selectie pe baza c
aruia au fost estimate fij ,
adic
a k, tinde la 1. Aceasta este motivatia pentru care distanta folosit
a n
ACS se numeste 2 si m
asoar
a ct de independente din punct de vedere
statistic sunt liniile fata de coloanele tabelului de contingenta K si reciproc.
1.3.1.3. CRITERIUL DE MAXIMIZAT S
I MATRICEA DE DIAGONALIZAT
Dorim s
a reprezent
am grac proximitatea ntre prole. Ne plas
am, pe
rnd, n cele dou
a spatii, n centrul de greutate al norului corespunz
ator. Este
o particularitate a ACS, n comparatie cu ACP, echivalenta dintre analiza
general
a realizat
a pe tabloul necentrat (adic
a cu originea n O) si cea realizat
a
SIMPLE (ACS)
69
fi d2 (i; 0)
u0 Dp 1 u = 1
2
3
u0 Mu = 1
0
) u este vector propriu al matricii S = F0 Dn 1 FDp 1 , asociat 4X NXMu = u5
= X0 Mu
celei mai mari valori proprii 6= 1.
Analog, n Rn
)
(
2
3
P
2
v0 Mv = 1
max
f j d (j; 0)
v
0
j
; 4X NXMv = v5
v0 Dn 1 v = 1
' = XMv
deoarece Dp 1 xGl
si c
a
S xGl
deoarece
iar
X
j0
= 1
(1)
2 3
1 "
6 .. 7
= 4.5 p
1 #
= xGl ;
2 3
1
p
X
0 6 .. 7
si xGl 4 . 5 =
f j = 1;
j=1
1
S = F0 Dn 1 FDp 1 ) sjj 0 =
0
sjj 0 xjGl
X X fij fij 0
j0
fi f j 0
f j0
(2)
X fij fij 0
fi f j 0
X fij X
=
fij 0 = f j = xjGl
fi 0
i
altfel spus, xGl este vector propriu M-normat al matricii S; asociat valorii
proprii 1 = 1. S
a l not
am cu u1 = xGl . Din constructia spatiului H
u01 Mu = 0;
= 2; p
u0 Mu = 1
:
Su =
u
= S
u1 u01 Mu = Su =
= Su
S u
u1 u01 M;
u1 u01 Mu1
S u1 = Su1
= u1
u ;
= 2; p
u1 = 0 = 0 u1 :
Asadar
+1
si
up = u1 si
= u
=
= 0 si
+1 ;
1
= 1; p
= 1:
fij
fi .
fij
fi
Observa
tia 1.3.2
a) n ACS punctele sunt continute n hiperplanul H de dimensiune p
P fij
(pentru Rp ) datorit
a faptului c
a
fi = 1; (8) i = 1; n.
fj
b)
i) Cum
P
j
xjGl =
P
j
f j = 1 ) Gl 2 H.
SIMPLE (ACS)
71
AXELE FACTORIALE
Presupunem c
ap
S = F0 Dn 1 FDp 1
Axele factoriale
Su =
Coordonatele factoriale
= Dn 1 FDp 1 u
i
P
j
T = FDp 1 F0 Dn 1
Tv =
' = Dp 1 F0 Dn 1 v
fij
fi f j u j
'
P
i
fij
fi f j v i
Lema 1.3.2
Coordonatele factoriale sunt variabile cu media empiric
a0
si dispersia empiric
a .
Demonstra
tie. Datorit
a echivalentei dintre ACS necentrat
a si ACS centrat
a,
media empiric
a este
X
fi
fi
fij
fi
fj
1
u
fj
X fij
X X
u j
fi
u
fi f j
i
j
i
j
!
X X
u j X
=
fij
u j = 0:
fj
=
fi
= u0 Dp 1 F0 Dn 1 FDp 1 u = u0 Dp 1 Su =
= u0 Dp 1
u =
u0 Dp 1 u =
| {z }
1
Analog pentru
P
j
1.3.1.4
f j '2 i =
SPATII
RELATIILE
Analiza general
a a ar
atat c
a matricile S si T au aceleasi valori proprii
nenule si c
a ntre vectorii proprii normati u ai lui S asociati lui
si vectorii
proprii normati v ai lui T asociati aceleiasi valori proprii exist
a relatiile:
'
1
p FDp 1 u ;
1
p F0 Dn 1 v :
=v ;
=u ;
'
1
p Dn 1 F' cu
1
p Dp 1 F
cu '
1
=p
p
X
fij
' j;
1
=p
fij
fj
i:
j=1
n
X
i=1
fi
natelor unui punct i pe baza tuturor punctelor j nu este alta dect matricea
prolurilor linie. Coordonata modalit
atii i a unei variabile reprezint
a media
modalit
atilor j ale celeilalte variabile, ponderate de frecventele conditionate
ale prolului i. Analog, coordonata modalit
atii j reprezint
a media multimii
modalit
atilor i ponderate de frecventele conditionate ale prolului j.
SIMPLE (ACS)
Lema 1.3.3
Valorile proprii
sunt subunitare (
Demonstra
tie. Din
min '
j
p
X
fij
p1
p
P
j=1
Analog
max
j
1; (8) ).
fij
fi ' j
fi
| {z }
j=1
max
Cum
fij
fi ' j
p
X
fij
fi
| {z }
j=1
max '
j=1
max '
'
73
max (
(1)
i) :
(2)
'
max '
j
1.
1.3.2
Iner
tia M
asurnd distanta de la independenta statistic
a, IG 0 si 1
2
semnic
a puncte grupate n jurul lui G ntr-o form
a aproximativ circular
a (nu
exist
a directie privilegiat
a) generat
a de prole independente statistic.
Dac
a
1
2
1;
2; : : : ;
! 1 ) o dihotomie a punctelor,
! 1 ) 3 subnori,
! 1 ) exist
a o corespondenta aproape
biunivoc
a ntre modalit
atile variabilelor.
Inertie slab
a
1. INDEPENDENT
A
IG 0
1
2. DEPENDENT
A
IG 0
1
Inertie mare
3. DEPENDENT
A
IG > 0
1
Form
a "sferic
a"
4. DEPENDENT
A
IG > 0
1
Form
a "nesferic
a"
S
a consider
am cteva forme clasice de nori de puncte pentru a ar
ata cum
poate reorganizat tabelul de date corespunz
ator, pornind de la proiectia
acestora.
n cazul norului de puncte mp
artit n doi subnori, tabelul de date poate
reorganizat prin ordonarea coordonatelor liniilor si coloanelor pe primul factor.
Se obtine schematic gura 1.3.7.:
SIMPLE (ACS)
75
Iner
tia (dispersia) explicat
a de un factor
P
i
fi
fi
; (8) i = 1; n n Rp reprezint
a contributia elementului i la axa
dispersia individului,
=dispersia ntregii axe).
i
Analog Cr (j) =
f j '2 j
) Cr (i) =
( fi
; (8) i = 1; p n Rn .
Calitatea reprezent
arii unui punct Din denitie d2 (i; G)P
= 2 i . Cum
n ACS punctele se aa n spatiul H de dimensiune p 1 )
d2 (i; G) =
d2 (i; G).
Un punct i din Rp poate mai aproape sau mai departe de axa . Proximitatea ntre dou
a puncte proiectate pe axa este cu att mai bine reectat
a
cu ct aceste puncte sunt mai apropiate de axa pe care sunt proiectate.
SIMPLE (ACS)
77
poate evaluat
a de:
d2 (i; G)
d2 (i; G)
Aceast
a cantitate, numit
a cosinusul patrat, reprezint
a contributia relativa
a factorului la pozitia punctului i. Cu ct cosinusul p
atrat este mai apropiat
de 1 cu att proiectia punctului este mai aproape de pozitia acestuia n spatiu.
Cosinusul p
atrat pentru un element ilustrativ este subunitar dac
a acesta
apartine lui Rp . n ACS elementele active apartin lui Rp 1 .
1.3.3
Exemplu
Descrierea datelor
Un exemplu de aplicare a metodei analizei corespondentelor simple l
constituie identicarea si descrierea unor anit
ati ntre diverse categorii socioprofesionale si diverse tipuri de media. Studiul a fost realizat pe 4433 de
persoane ce ilustreaz
a categoriile socioprofesionale mentionate mai jos si care