Sunteți pe pagina 1din 11

Multivariante Curso 06 - 07 1

Cálculo matricial

Introducción
La información de partida en el análisis multivariante es una tabla de datos correspondiente a
la medición de distintas variables sobre varios individuos. Por tanto su manejo se facilita con
el uso de vectores y matrices y sus propiedades.
También será importante visualizar los datos como puntos del espacio para comprender la
estructura de los mismos y ası́ poder buscar su rasgos comunes más importantes, ası́ como sus
peculiaridades.
La observación de una variable sobre n individuos dará lugar a x un punto de Rn o a su vector
asociado.
La observación simultanea de p variables sobre n individuos dará lugar a una matriz de datos
Xdonde las filas recogen el valor de las p variables en cada individuo y cada columnas recoge
los valores de una variable.

Vectores
En este apartado se recuerdan las operaciones con vectores y se relacionan con la descripción
estadı́stica de una variable. El conjunto de datos asociado al estudio de una variable sobre n
individuos generalmente se presentará en forma de vector columna de Rn .
Con los vectores ası́ obtenidos se podrán realizar las siguientes operaciones:

• Suma
(x: no hombres en ciertas empresas, y: no de mujeres en las mismas empresas,
x+y: no total de trabajadores )

• Producto por escalar


( cambio de unidades: x/100 cientos de trabajadores)

• Transposición
la transposición de un vector columna da lugar a un vector fila (que generalmente aso-
ciaremos a varias variables sobre un mismo individuo)

• Producto escalar
0 0 P
x ·y=y ·x= xi y i

• Norma o módulo del vector x



k x k= x0 · x
Multivariante Curso 06 - 07 2
0
El producto escalar entre dos vectores x e y también se define como x · y =k x k k y k cos θ
0
es decir la norma de un vector por la proyección del otro sobre él, ası́ si x es unitario x · y =
módulo de la proyección de y sobre x.
0
También se deduce de esta definición que | x · y |≤k x k k y k (conocida como la desigualdad
de Cauchy-Schwartz)

Relacionado con el producto escalar está el concepto de vectores ortogonales:


0
x,y vectores de Rn son ortogonales si x · y = 0 ⇔ cos θ = 0 ⇔ θ = 900

Veamos ahora la relación entre la media y la varianza con estas operaciones:

• La media de un conjunto de n datos es proporcional a la proyección del vector asociado


sobre el vector constante (todas sus componentes iguales)
Vector unitario constante en Rn es : √1
n

la proyección de x sobre este vector tiene por módulo: √1 x = nx
n

valor de la proyección √1n nx = 1x
es decir la media es el escalar que define la proyección del vector x sobre el vector 1

• La variabilidad de los datos que mide la desviación tı́pica es la distancia estandarizada


entre el vector de datos y el vector constante
qP
1 (xi −x)2
Sx = n k x − x1 k=

n

• La covarianza entre x e y es el producto escalar de los vectores asociados a la variabilidad


de cada uno de ellos:
0
cov(x, y) = √1 (x − x1) √1 (y − y1)
n n
Para variables estandarizadas la covarianza coincide con el coeficiente de correlación
por ello ortogonalidad de vectores está relacionada con la incorrelación.

Los vectores sirven para definir las traslaciones que son aplicaciones de Rn en Rn

Un conjunto de vectores x1 , . . . , xp se dice que es linealmente dependiente si existen escalares


c1 . . . cp no todos nulos tales que c1 x1 +· · ·+cp xp = 0 o, lo que es equivalente, uno de los vectores
se puede poner como combinación lineal de los otros.
Base de un subespacio
Espacio generado por los vectores x1 , . . . , xp
Dimensión de un subespacio
Subespacio ortogonal a uno dado (espacio nulo asociado a un vector es el subespacio ortogonal
al mismo
Multivariante Curso 06 - 07 3

Matrices
Las matrices juegan un papel importante en el estudio de variables p-dimensionales, tanto para
presentar los datos recogidos, como asociadas a las matrices de varianzas covarianzas, que serán
matrices cuadradas simétricas y semidefinidas positivas.
Entre matrices se tienen las siguientes operaciones:

1 Dadas matrices An,p = (aij )ij , Bn,p = (bij )ij


A+B = (aij + bij )ij
αA = (αaij )ij
Pp
Si Bp,m , (A*B)n,m = ( j=1 aij ∗ bjk )ik

2 Transpuesta de A=At = (aji )

• (At )t = A
• (A+B)t = At + Bt
• (A*B)t = Bt ∗ At
P
3 Traza de A=T r(A) = ni=1 aii

• es un operador lineal: T r(A+B) = T r(A)+T r(B), T r(αB) = αT r(B)


• Si An,p , Bp,n entonces T r(A*B) = T r(B*A).
P P
En consecuencia T r(A*At ) = i j a2ij
P →→
• Dados Ap,p , −→x i ∈ Rp , i = 1, . . . , n, T = ni=1 −
x i−
x ti entonces
Pn − →
T r(A*T) = i=1x t A→
i

x . i

La traza se puede considerar como una medida del tamaño de la matriz, ası́ en una matriz
de varianzas covarianzas la traza es la suma de todas las varianzas de las variables, sin
tener en cuenta sus posibles relaciones.
 
a11 B . . . a1p B
N  .. 
4 Producto de Kronecker: dadas las matrices An,p , Bk,p , A B ==  ... . 
an1 B . . . anp B
N N
• c A = A c = cA.
N t N
• (A B) = At Bt .
N N N
• (A B)(C D) = AC BD supuesto que los productos de matrices pueden
realizarse.

En estadı́stica este producto se utiliza para construir matrices cuyos elementos son ma-
trices repetidas, por ejemplo en bloques de variables que tengan la misma matriz de
varianzas covarianzas.
Multivariante Curso 06 - 07 4

5 Rango (A)es el número máximo de vectores fila o columna de la matriz linealmente inde-
pendientes

• Rango(A) = Rango(At )
• 0 ≤ Rango(A) ≤ min(n, p).
• Si M (A) = {y ∈ Rn /y = Ax} se verifica que dim(M(A))=Rango(A).
• Si N (A) = {x ∈ Rp /0 = Ax} = Ker(A) se verifica que dim(N(A))+dim(M(A))=p.
• Rango(A+B) ≤ Rango(A) + Rango(B).
• Rango(A*B) ≤ M in(Rango(A), Rango(B)).
• Rango(A*At ) = Rango(At ∗ A) = Rango(A).
• Si Bn,n y Cp,p son no singulares Rango(B*A*C) = Rango(A).
• Si An,m con rango(A)=m y Bm,p con Rango(B)=p entonces Rango(A*B) = p.

Determinantes
P
• Dada una matriz cuadrada Ap,p se define su determinante |A| = τ ∈Π (−1)|τ | a1τ (1) · · · apτ (p)
donde τ es una permutación de las p columnas y |τ | = +1 según el número de transposiciones
sea par o impar.

• Dada un elemento aij de una matriz cuadrada A se define su menor asociado, Mij , como
el determinante de la matriz resultante de eliminar la fila i y la columna j de A. Se define el
cofactor asociado a aij como Cij = (−1)i+j Mij .

En consecuencia:
P P
1 |A| = pj=1 aij Cij = pi=1 aij Cij .
Pp Pp
2 j=1 aij Ckj = 0 i=1 aij Cil = 0.
Q
3 Si A es una matriz triangular |A| = pi=1 aii .

4 |αA| = αp |A|

5 |At | = |A|

6 Si en una matriz se permutan dos filas o columnas el determinante cambia de signo

7 una fila (columna) es combinación lineal de otras el determinante vale cero


µ ¶
Ap,p B
8 Si M es una matriz cuadrada que se puede partir M = entonces |M| =
0 Cq,q
|A||C|.
Multivariante Curso 06 - 07 5
µ ¶
A Bp,p
9 Si M es una matriz cuadrada que se puede partir M = entonces |M| =
Cq,q 0
(−1)pq |B||C|.
µ ¶
A Bp,p
En consecuencia si M = entonces |M| = |B|.
−Ip 0
µ ¶
Ip 0
10 Las matrices del tipo M = verifican que |MC| = |C|.
A Iq

11 |AB| = |A||B| (con las dimensiones adecuadas)

En el caso de vectores de R2 el determinante de la matriz formada por dos vectores puede in-
terpretarse como el area del paralelogramo definido por los mismos. Sea A = (v1 , v2 ) entonces:
|At A| = v1t v1 v2t v2 − v1t v2 v2t v1 =k v1 k2 k v2 k2 (1 − cos2 θ); de donde |A| =k v1 kk v2 k sinθ , que
es el area del paralelogramo definido por (v1 , v2 ). Este resultado se generaliza para vectores de
Rn . Si las variables estuviesen centradas At A es la matriz de varianzas covarianzas por lo que
el determinante está relacionado con la independencia de las variables, a mayor determinante
mayor independencia, si una variable fuese combinación lineal de las otras |A| serı́a cero y el
de su matriz de covarianzas también es decir determinante cero indica dependencia lineal entre
las variables.

Matriz Inversa
• Dada una matriz cuadrada Ap,p se define su inversa A−1 como aquella que verifica

A A−1 = A−1 A = I

1 La inversa si existe es única.

2 A−1 existe si y sólo si |A| 6= 0.

3 (A−1 )−1 = A, (At )−1 = (A−1 )t .

4 (αA)−1 = α−1 A−1 , (AB)−1 = B−1 A−1

5 Dadas Ap,p , Bp,n , Cn,n , Dn,p , y si existen las inversa necesarias

(A+BCD)−1 = A−1 − A−1 B(C−1 + DA−1 B)−1 DA−1

en particular
(A+bdt )−1 = A−1 − A−1 b(1 + dt A−1 b)−1 dt A−1
(A+C)−1 = A−1 − A−1 (C−1 + A−1 )−1 A−1

Estas expresiones serán útiles para calcular el cambio de la matriz de covarianzas cuando
se elimina alguna observación.
Multivariante Curso 06 - 07 6
µ ¶ µ 11 ¶
A11 A12 −1 A A12
6 Dada una matriz A = los elementos de su inversa A =
A21 A22 A21 A22
vienen dados, si existen las inversas necesarias, por

A11 = (A11 − A12 A−1 −1


22 A21 ) .

A22 = (A22 − A21 A−1 −1


11 A12 ) .

A12 = −A−1
11 A12 A
22
= −A11 A12 A−1
22 .

A21 = −A−1
22 A21 A
11
= −A22 A21 A−1
11 .

El manejo de las inversas por cajas es importante en el caso de la matriz de covarianzas


porque la matriz Σ−1 va a recoger información sobre la varianza de las distribuciones
condicionadas
µ ¶
A11 A12
7 Dada una matriz A = se verifica que
A21 A22

|A| = |A11 ||A22 − A21 A−1 −1


11 A12 | = |A22 ||A11 − A12 A22 A21 |

8 Dadas Ap,p , inversible, Bp,n , Cn,p entonces |A+BC| = |A||Ip + A−1 BC| = |A||In + CA−1 B|
En particular si n=1 entonces |A+bdt | = |A|(1 + dt A−1 b)

Matriz Ortogonal
• Dada una matriz cuadrada Ap,p se dice que es ortogonal si: AAt = I

1 |A| = +1 At = A−1
½
t 1 i=j
2 ai aj =
0 i=
6 j

3 Si A y B son ortogonales C=AB es ortogonal.

4 Las transformaciones por matrices ortogonales conservan las distancias.

5 Caso particular las matrices de permutaciones

Las matrices ortogonales representan un giro o una simetrı́a respecto a un plano

Matriz Idempotentes
• Dada una matriz cuadrada Ap,p se dice que es idempotente si: AA = A

|A| = 1 ó |A| = 0
Multivariante Curso 06 - 07 7

Las matrices idempotentes representan proyecciones en un subespacio de dimensión igual al


rango de la matriz.

Matriz de centrado
• La matriz de centrado Hn es aquella que al aplicarla sobre un vector de datos lo transforma
en sus desviaciones respecto a la media de sus componentes.
1 1
Hn = In − Jn = In − 11t
n n

1 Hn x = (xi − x)i

2 Hn 1 = 0 Hn ∗ Jn = Jn ∗ Hn = 0n .

3 Hn es una matriz simétrica e idempotente.

4 rango(Hn )=n-1
Pn
5 xt Hn x = xt Hn Hn x = i=1 (xi − x)2

6 Si Xn,p es una matriz de datos Xt Hn X = nS

Autovalores y Autovectores de una Matriz


• Dada una matriz Ap,p se define su polinomio caracterı́stico como q(λ) = |A − λIp |.

• Se denomina autovalor de Ap,p a las soluciones de su polinomio caracterı́stico.

• Se denomina autovector de Ap,p asociado al autovalor λi a un vector xi que verifica A xi =


λi xi ( son vectores que al transformarlos por la matriz no cambian de dirección, aunque si
pueden cambiar de tamaño, también se pueden llamar las direcciones caracterı́sticas de la
matriz).
La interpretación geométrica de los valores y vectores propios de una matriz simétrica A =
(a1 , . . . , ap ) se considera el elipsoide que pasa por los puntos determinados por estos vectores y
con centro el origen de coordenadas, los vectores propios son los ejes principales del elipsoide y
los valores propios asociados a la dimensión del eje principal correspondiente.
Los vectores y valores propios asociados a la matriz de varianzas covarianzas van a ser im-
portantes en el manejo de la distribución normal multivariante, ası́ como en la búsqueda de
direcciones importantes en las nubes de puntos.

• Se denomina autoespacio asociado a un autovalor al espacio generado por sus autovectores.


Qp
1 q(λ) = |A − λIp | = i=1 (λi − λ).
Multivariante Curso 06 - 07 8
Q
2 q(0) = |A| = pi=1 λi .
P P
3 T r(A) = pi=1 aii = pi=1 λi .

4 Si C es no singular A y CAC−1 tienen los mismos autovalores. Además si xi es autovector


de A asociado a λi entonces Cxi lo es de CAC−1 asociado al mismo autovalor.

5 Si λi es autovalor de A entonces λi + α lo es de (A + αI), y además A y (A + αI) tienen los


mismos vectores propios.

6 La dimensión de un autoespacio asociado a un autovalor es a lo sumo la multiplicidad de


este.

7 Teorema: Dadas las matrices Ap,n , Bn,p Los autovalores no nulos de AB son los mismos
que los de BA y tienen la misma multiplicidad. Si xi es autovector de AB asociado a un
autovalor no nulo entonces Bxi lo es de BA asociado al mismo autovalor.

8 Corolario: Dadas An,p , Bq,n a, b, entonces Aabt B tiene rango a lo sumo 1, el autovalor no
nulo, si existe, vale bt BAa y su autovector asociado es Aa

9 Los autovalores de una matriz simétrica son números reales, y su rango coincide con el
número de autovalores no nulos.

10 (Descomposición de Jordan) Toda matriz simétrica A se puede descomponer de la


forma A =ΓΛΓt donde Γ es una matriz ortogonal cuyas columnas son los autovectores
normalizados de A, Λ es una matriz diagonal con los autovalores de A.
Como consecuencia de esta factorización A = ΓΛΓt = Σλi ui uti , es decir A se puede
descomponer como suma de matrices de rango 1 con los pesos λi por tanto si un autovalor
es muy pequeño A se puede reconstruir aproximadamente con los restantes autovalores y
autovectores.

11 Si A es simétrica An = ΓΛn Γt .

12 Si A es simétrica y definida positiva (A > 0) se puede descomponer como producto de una


matriz por su transpuesta (esta descomposición no es única ΓΛ1/2 o ΓΛ1/2 Γt ) .

13 Si A es simétrica y semidefinida positiva A se puede descomponer, de forma única, como


producto de una matriz triangular inferior T por su transpuesta (descomposición de
Cholesky), A = T Tt .

14 Dadas A y B matrices simétricas, A definida positiva, existe una matriz H que diagonaliza
a las dos anteriores HAHt = I HBHt = D.
(H= A−1/2 C, con C la matriz de vectores propios de A−1/2 BA−1/2 .

15 Dadas A ≥ 0 y B > 0 los autovalores de B−1 A son positivos o nulos y coinciden con los
de AB −1 y con los de B−1/2 A B−1/2 .
Multivariante Curso 06 - 07 9

Formas cuadráticas
Una forma cuadrática en Rp es una aplicación que se puede definir a través de una matriz
simétrica Ap,p de la forma Q(x)= xt A x.
Si Q(x) > 0 ∀x ∈ Rp , x > 0 se dice que Q es definida positiva y A también.
Si Q(x) ≥ 0 ∀x ∈ Rp se dice que Q es semidefinida positiva y A también .
P
• Toda forma cuadrática xt Ax puede expresarse de la forma pi=1 yi2 λi con y = Γt x (es
decir mediante un cambio de base ortogonal).

• Si A es definida positiva todos sus autovalores son positivos y también su determinante


(análogo para A semidefinida positiva).

• Si A es semidefinida positiva entonces también lo es Ct AC para cualquier Cpn .

• Si A es definida positiva y C es no singular entonces Ct AC es definida positiva.

• Si A es semidefinida positiva , B es definida positiva entonces los autovalores de B−1 A


son positivos o nulos.

Teorema: Descomposición en valores singulares

Toda matriz An,p de rango r puede descomponerse como producto de tres matrices A=UDVt ,
dos de ellas ortogonales Un,r , Vtr,p , y otra diagonal D con valores positivos, que son las raı́ces
de los autovalores positivos de AAt .
Los elementos de D se llaman valores singulares de la matriz A
U esta formado por los autovectores unitarios asociados a los autovalores no nulos de AAt
V esta formado por los autovectores unitarios asociadosP a los autovalores no nulos de At A
con esta descomposición A se puede escribir como A = ri=1 di ui vit

Inversa generalizada
Se denomina inversa generalizada, o g-inversa, de una matriz An,p a otra matriz A−
n,p que
verifica A A− A= A.
( Lo que implica que A− A debe ser idempotente y también A A− ) En general no es única
salvo que se le imponen las condiciones de que A− A, A A− , A− A A− sean matrices
simétricas, obteniéndose la inversa generalizada de Monroe-Penrose.

• Si A es no singular A− = A−1 .

• Si An,p ,con rango(A)=p A− = (At A)−1 At .

• Si An,p ,con rango(A)=n A− = At .(AAt )−1 .


Multivariante Curso 06 - 07 10

• En general utilizando la descomposición del valor singular A− = VD−1 Ut .

• Si A= Xt X y G=A− se cumple

– Gt es también inversa generalizada de A.


– GXt es g-inversa de X.
– XGXt es invariante frente a G (es decir no depende de la g-inversa considerada).
– XGXt es simétrica.
– XGt Xt X = X y Xt XGXt = Xt XGt Xt =Xt .
– XGXt es idempotente.

• Si y∈ Rn , Xn,p , con rango(X)=p y se considera el subespacio M(X). La proyección de y


sobre M(X) es X(Xt X)−1 Xt y

• Si y∈ Rn , Xn,p y se considera el subespacio M(X). La proyección de y sobre M(X) es


X(Xt X)− Xt y (que es única)

Derivadas Matriciales
Dada f una función de n variables que se pueden identificar con un vector x de Rn se define la
∂f ∂f
derivada de f respecto a x, ∂x , como un vector cuyas componentes son ( ∂x i
)i .
∂f
• Si f(x)=at x entonces ∂x
=a
∂f
• Si f(x)=xt x entonces ∂x
=2x
∂f
• Si f(x)=xt Ax con A una matriz simétrica entonces ∂x
=2Ax

Dada f una función de np variables que se pueden identificar con una matriz Xn,p de se define
∂f ∂f
la derivada de f respecto a X, ∂X , como una matriz cuyas componentes son ( ∂xij
)ij .

∂f
• Si f(X)=at Xb entonces ∂X
=bat
∂f
• Si f(X)=at Xt Xb entonces ∂X
=(bat +abt )Xt

Máximos y Mı́nimos

• Dados y∈ Rn y una matriz An,p la función φ(x) = (y − Ax)t (y − Ax) alcanza un mı́nimo
en x=(At A)− At y
Multivariante Curso 06 - 07 11

• Sean A y B dos matrices simétricas, con B>0 entonces el máximo (mı́nimo) de xt Ax bajo
la condición xt Bx=1 se alcanza en un autovector de B−1 A correspondiente al máximo
(mı́nimo) autovalor λ(p) , (λ(1) ), y el valor del máximo (mı́nimo) es λ(p) , (λ(1) )
1
• El máximo de f(x)=xt a bajo la condición xt Bx=1, B>0, es (at B−1 a) 2 . Además
t 2 t −1 B−1 a
max
t
(a x) = a B a y se alcanza en x= t −1
1
x Bx=1 (a B a) 2

Producto de Kronecker de matrices


Dadas dos matrices A = (aij ) y B se define el producto directo o producto de Kronecker de
A y B, A ⊗ B, como una nueva matriz formada por las cajas
µ ¶
a11 B . . . a1n B
am1 B . . . amn B

Este producto tiene las siguientes propiedades:

1. α(A ⊗ B) = αA ⊗ B = A ⊗ αB

2. A ⊗ (B ⊗ C) = (A ⊗ B) ⊗ C = A ⊗ B ⊗ C

3. (A ⊗ B)0 = A0 ⊗ B 0

4. (A ⊗ B)(F ⊗ G) = AF ⊗ BG, siempre que las dimensiones sean adecuadas

5. (A ⊗ B)−1 = A−1 ⊗ B −1

6. A ⊗ (B + C) = (A ⊗ B) + (A ⊗ C)

7. (A + B) ⊗ C) = (A ⊗ C) + B ⊗ C

8. (AXB)v = (B t ⊗ A)X v

Teorema.- Dadas las matrices Tm,m y Bn,n , con T matriz triangular superior, entonces | T ⊗
B |=| T |n | B |m .
Corolario.- Dadas Am,m y Bn,n entonces | A ⊗ B |=| A |n | B |m .
Teorema.- Dadas Am,m y Bn,n matrices reales, con autovalores αi y βj respectivamente entonces
los autovalores de A ⊗ B son λij = αi βj .

S-ar putea să vă placă și