Sunteți pe pagina 1din 106

Matemticas y algoritmos

numricos
Deniciones, notacin y proposiciones
esenciales para un curso avanzado

Jos Luis de la Fuente OConnor


www.jldelafuenteoconnor.es

0DWHPiWLFDV\$OJRULWPRV1XPpULFRV'HILQLFLRQHVQRWDFLyQ\SURSRVLFLRQHV
HVHQFLDOHVSDUDXQFXUVRDYDQ]DGR
3ULPHUDHGLFLyQDJRVWR

'HUHFKRVGHHGLFLyQUHVHUYDGRV
(GLWRULDO&tUFXOR5RMR
ZZZHGLWRULDOFLUFXORURMRFRP
LQIR#HGLWRULDOFLUFXORURMRFRP
&ROHFFLyQ,QYHVWLJDFLyQ
(GLFLyQ(GLWRULDO&tUFXOR5RMR
0DTXHWDFLyQ-/)2
)RWRJUDItDGHFXELHUWD)RWROLDFRP

'LVHxRGHSRUWDGD1LHYHV0ROLQD

3URGXFLGRSRU(GLWRULDO&tUFXOR5RMR
,6%1
'(36,72/(*$/$/
1LQJXQDSDUWHGHHVWDSXEOLFDFLyQLQFOXLGRHOGLVHxRGHFXELHUWDSXHGHVHUUHSURGXFLGD
DOPDFHQDGDRWUDQVPLWLGDHQPDQHUDDOJXQD\SRUQLQJ~QPHGLR\DVHDHOHFWUyQLFRTXtPLFR
PHFiQLFRySWLFRGHJUDEDFLyQHQ,QWHUQHWRGHIRWRFRSLDVLQSHUPLVRSUHYLRGHOHGLWRURGHO
DXWRU7RGRVORVGHUHFKRVUHVHUYDGRV(GLWRULDO&tUFXOR5RMRQRWLHQHSRUTXpHVWDUGHDFXHUGR
FRQODVRSLQLRQHVGHODXWRURFRQHOWH[WRGHODSXEOLFDFLyQUHFRUGDQGRVLHPSUHTXHODREUD
TXHWLHQHHQVXVPDQRVSXHGHVHUXQDQRYHODGHILFFLyQRXQHQVD\RHQHOTXHHODXWRUKDJD
YDORUDFLRQHVSHUVRQDOHV\VXEMHWLYDV
&XDOTXLHUIRUPDGHUHSURGXFFLyQGLVWULEXFLyQFRPXQLFDFLyQS~EOLFDRWUDQVIRUPDFLyQGH
HVWDREUDVyORSXHGHVHUUHDOL]DGDFRQODDXWRUL]DFLyQGHVXVWLWXODUHVVDOYRH[FHSFLyQSUHYLVWD
SRUODOH\'LUtMDVHD&('52 &HQWUR(VSDxROGH'HUHFKRV5HSURJUiILFRV VLQHFHVLWD
IRWRFRSLDURHVFDQHDUDOJ~QIUDJPHQWRGHHVWDREUD ZZZFRQOLFHQFLDFRP
 

,035(62(1(63$f$81,1(8523($

A mi familia

II

ndice
Prefacio

Conjuntos

Espacios vectoriales
2.1 Espacios normados, espacios mtricos . . . . . . . . . . . . . . .
2.2 Espacios con producto interior . . . . . . . . . . . . . . . . . . .
2.3 Aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . .

2
6
10
12

Topologa

13

Matrices
4.1 Normas de matrices . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Matrices ortogonales, unitarias, simtricas, Hessenberg, de permutacin y de proyeccin . . . . . . . . . . . . . . . . . . . . . . .
4.3 Valores propios, valores singulares y formas cuadrticas . . . . . .
4.3.1 Valores propios . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Valores singulares . . . . . . . . . . . . . . . . . . . . .
4.3.3 Formas cuadrticas . . . . . . . . . . . . . . . . . . . . .

15
18

Teorema de la proyeccin

33

Funciones
6.1 Condiciones necesarias y sucientes de punto mnimo . . . . . . .
6.2 Teorema de la funcin implcita . . . . . . . . . . . . . . . . . .

34
40
41

Optimizacin y Programacin Matemtica


7.1 Conjuntos convexos . . . . . . . . . . . . . . . .
7.2 Caracterizacin del problema de optimizacin y
punto ptimo . . . . . . . . . . . . . . . . . . .
7.3 Dualidad . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Dualidad Lagrangiana . . . . . . . . . .
7.3.2 Dualidad de Wolfe . . . . . . . . . . . .
7.3.3 Ejemplo . . . . . . . . . . . . . . . . . .

42
43

. . . . . . . . .
condiciones de
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .

Sobre el mtodo de los elementos nitos para resolver ecuaciones en


derivadas parciales
8.1 Solucin de una ecuacin en derivadas parciales . . . . . . . . . .
8.1.1 El problema en forma dbil o variacional . . . . . . . . .
III

21
24
24
28
31

54
58
63
64
64

65
69
70

8.1.2
8.1.3

Espacios de trabajo . . . . . . . . . . . . . . . . . . . . .
Discretizacin del problema en un subespacio de elementos nitos lineales . . . . . . . . . . . . . . . . . . . . . .
8.1.4 Reformulacin del problema como un sistema de ecuaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . .
Algo sobre funcionales y clculo de variaciones . . . . . . . . . .
8.2.1 Proposiciones esenciales . . . . . . . . . . . . . . . . . .

72

Anlisis de componentes principales


9.1 Algunos conceptos de estadstica . . . . . . . . . . . . . . . . . .
9.2 Planteamiento del problema matemtico . . . . . . . . . . . . . .

85
86
88

8.2

74
78
79
83

10 Nmeros complejos

93

11 Bibliografa

96

IV

Prefacio

l contenido de este libro es una introduccin de referencia y apoyo a todo


el contexto matemtico y algortmico de la asignatura Matemticas de la
EspecialidadIngeniera Elctrica que desde hace varios aos dicto en la Escuela Tcnica Superior de Ingenieros Industriales, de la Universidad Politcnica de
Madrid. Esta adscrita al Grado de Tecnologas Industriales de esa Escuela.
Dado que recopila de forma sencilla conceptos tiles para asuntos de inters
matemtico diverso sobre los que trabajan los alumnos y futuros ingenieros, han
sido muchos los compaeros y amigos que me han animado a formatearlo como un
libro y ponerlo en el dominio pblico para que, adems de en mi sitio web donde
ha estado desde hace bastantes aos, pueda ser ledo, consultado o estudiado con
una hechura tradicional.
En el contenido del libro el lector encontrar conceptos, referencias histricas, deniciones, relaciones y resultados bsicos de matemticas que yo considero
tiles tener a mano para poder seguir el desarrollo de la citada asignatura, as como similares, de manera provechosa, y poder recordarlos si ha lugar en el futuro
de forma rpida y en un mismo volumen. Su nfasis es en las matemticas que
respaldarn los procedimientos numricos prcticos que necesita comprender y
desarrollar la ingeniera y ciencias aplicadas con las que tendrn que lidiar ingenieros y graduados en su desempeo profesional. Prcticamente todo lo escrito lo
he estudiado y abordado en el curso de mi trayectoria profesional y en la asignatura
indicada, as como en otras dictadas a lo largo de mi carrera docente.
Con los conceptos y resultados vertidos puede ser mucho ms intuitivo comprender cmo funcionan las matemticas inherentes a muchos de los algoritmos
y mtodos que hoy en da estn presentes en bastantes de los desarrollos del Big
Data, optimizacin matemtica y otras cuestiones de la tan de moda economa digital, con la que convivimos todos los das. Con ellos como referencia se puede
imaginar cmo pueden ser mejorados o hacerlos evolucionar para desarrollar las
nuevas herramientas de optimizacin no lineal, integracin de ecuaciones diferenciales complicadas, etc. que se necesitan en estos desafos y otros que se pondrn
por delante.
Lo que se expone en las pocas pginas del libro es una sntesis o gua prctica
de muchos aos dedicado a investigar, primero y ensear lo practicado y seguir
investigando despus, sobre todo lo que tiene que ver con las tcnicas y algoritmos numricos que nos permiten, mediante el Clculo y Anlisis Matemtico, y la
Ingeniera de sus Mtodos Numricos, simular la realidad con la que nos enfrentamos a diario para identicarla y atacar los diversos problemas prcticos que nos
acucian y que la inteligencia humana decide abordar. En especial algunos ejemplos se reeren a la ingeniera elctrica, pero que son extensibles a otros muchos
V

campos del conocimiento y la ciencia.


Mediante el diseo e ingeniera de los procedimientos numricos podemos estudiar y resolver problemas prcticos tambin de las ciencias sociales, medicina y
otras reas de conocimiento importantes para la vida de las personas aquellos de
base cientca que se modelizan y simulan en trminos matemticos y analizar
la idoneidad de sus resultados para el inters general y para otras ramas que se
puedan beneciar de un trasvase de ideas y resultados. Todo ello ayudado con los
ordenadores a nuestro alcance y con programas muy probados y potentes que nos
permiten realizar pasos intermedios muy ecazmente y a mucha velocidad.
El libro en ningn caso recoge un exhaustivo recordatorio de las matemticas
que debe conocer un ingeniero, pues segn se adentra en nuevas parcelas del saber
y la investigacin el panorama se agranda enormemente. La notacin que se introduce, de forma sistemtica y sencilla, es para poderla usar en todas las lecciones
y presentaciones que explicamos y enseamos en las clases mencionadas, y como
medio para uniformizar todo el contexto de la exposicin y aprendizaje si ello es
posible.
Al nal del libro se lista un conjunto de referencias bsicas. No pretende sino
apuntar con qu libros o artculos se pueden estudiar y aprender los fundamentos
de casi todo lo expuesto en este libro, y algo ms.
El el sitio web que se cita ms abajo se pueden encontrar los guiones y apuntes
de lecciones tericas y prcticas que dicto en la universidad tomando como base
el contenido de este libro; tambin, software para dar signicacin prctica a esas
lecciones y apostillar mediante pequeos programas muchos de los resultados que
se presentan en este volumen.
Si algn amable lector tiene a bien aportarme cualquier sugerencia, lo agradecer innitamente.
Jos Luis de la Fuente OConnor
Alcobendas, 20 de julio de 2016
www.jldelafuenteoconnor.es

VI

1 Conjuntos

1 Conjuntos

AS matemticas modernas tienen mucho que ver con los conjuntos. Un conjunto es una coleccin de objetos: los nmeros naturales, las soluciones de
un problema determinado, los municipios de una provincia, etc. Se identica por
una letra mayscula: el conjunto S, el conjunto de los nmeros naturales N, el de
los enteros Z, el de los reales R, complejos C, racionales Q, etc.
Cada uno de los objetos en la coleccin es un elemento o miembro del conjunto.
Si un elemento a pertenece a un conjunto se indica a 2 S. Los conjuntos se
denen mediante la enumeracin entre llaves de sus elementos, S D fa; b; : : : g,
o especicando, tambin entre llaves, la propiedad que los caracteriza, S D fx W
x 2 R; x  2g: nmeros reales menores o iguales que dos.
El conjunto sin elementos se denomina vaco, designndose ;. Ejemplo: el
conjunto S de los nmeros reales x que son mayores que 1 y menores que 0: esto
es, S D fx 2 R W x > 1; x < 0g.
Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son de
S, se dice que S 0 es un subconjunto del conjunto S , o que est contenido en S 0 ,
expresndose S 0  S o S  S 0 .
La unin de dos conjuntos S y T , expresada S [ T , es el conjunto formado
por los elementos que pertenecen a S o a T .
La interseccin de S y T , expresada S \ T , es el conjunto formado por los
elementos que pertenecen a S y a T .
Si S 0 es un subconjunto de S, el complemento de S 0 en S es el conjunto formado por los elementos de S que no pertenecen a S 0 .
Si a y b son nmeros reales, y a  b, el conjunto de nmeros x de la recta real
tales que a  x  b se indica a; b. El formado por los x tales que a < x  b,
por .a; b. El de los x que verican que a < x < b, por .a; b/.
Si S es un conjunto no vaco de nmeros reales acotados superiormente
mayorados, existe un nmero real mnimo y tal que x  y para todo x 2 S. Al
nmero y se le denomina cota superior mnima o supremo de S; se expresa as:
sup .x/ o

sup fx W x 2 Sg :

x2S

De forma similar se dene la cota inferior mxima o nmo de un conjunto S


no vaco de nmeros reales acotados inferiormente o minorados:
Knf .x/

x2S

Knf fx W x 2 Sg :

Dados dos conjuntos S y T , una aplicacin, transformacin o mapeo f de


S en T , expresada como f W S ! T , es una asociacin o criterio que a cada
elemento de S hace corresponder uno de T .
1

2 Espacios vectoriales

La imagen de un elemento x 2 S con la aplicacin f W S ! T es el elemento


f .x/ 2 T . El conjunto imagen f .S / = ff .x/ 2 T; para todo x 2 Sg. La imagen
de un subconjunto S 0  S con la aplicacin f sera, por consiguiente, el subconjunto imagen f .S 0 /. El conjunto S se conoce como origen o dominio de denicin
y el T como dominio de valores. Una aplicacin f W S ! T se dice inyectiva si
para cualquier par de elementos x; y 2 S, x y, se cumple que f .x/ f .y/.
Ejemplo, la aplicacin f W R ! R, denida por f .x/ D x 2 , no es inyectiva, pues
f .1/ D f .1/ D 1.
Una funcin es un caso particular de aplicacin en donde los conjuntos origen
e imagen son conjuntos de nmeros: R, C, Z, N, etc.
Una aplicacin f W S ! T se dice suprayectiva sobreyectiva, epiyectiva,
suryectiva o exhaustiva si el conjunto imagen f .S / es igual a todo el conjunto
T ; es decir, para todo y 2 T existe un x 2 S tal que f .x/ D y.
Una aplicacin se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn
es el conjunto de los nmeros enteros de 1 a n, Jn D f1; : : : ; ng, y se dene una
aplicacin  W Jn ! Jn que modica el orden de disposicin de los elementos de Jn estas aplicaciones se denominan permutaciones, tal aplicacin es
biyectiva.
Un conjunto S se dice numerable si existe una biyeccin entre N y S: a cada
unos de los n elementos k, 1  k  n, se le asocia un elemento ak 2 S, esto es:
k 7! ak .
Una sucesin de elementos de un conjunto T es una aplicacin de N en T : a
cada elemento n  1 se le hace corresponder un x .n/ 2 T : n 7! x .n/ . Tal sucesin
se expresa como fx .1/ ; x .2/ ; : : : g o fx .n/ gn1 .
Los conjuntos dotados de ciertas leyes de composicin o asociacin interna
adicin, multiplicacin, divisin o cualquier otra, se dice que poseen una estructura. Las estructuras algebraicas fundamentales son grupo, anillo (Z por ejemplo),
cuerpo (R y C, por ejemplo) y espacio vectorial.

2 Espacios vectoriales

N espacio vectorial E es una estructura algebraica creada a partir de un


conjunto no vaco, una ley de composicin interna, adicin, denida para
los elementos del conjunto con las siguientes propiedades grupo conmutativo
xCy DyCx
.x C y/ C z D x C .y C z/
xCDx
x C .x/ D
y una ley de composicin externa, producto por un escalar, denida entre dicho
2

2 Espacios vectoriales

conjunto y otro conjunto, K, con estructura de cuerpo, con las siguientes propiedades,
1x Dx
.x/ D ./x
. C /x D x C x
.x C y/ D x C y;
vlidas cualesquiera que sean x; y; z en E y ; en K. A se le denomina elemento neutro y a x el opuesto de x. Es usual denominar vectores a los elementos
de E y escalares a los de K. En las aplicaciones que se estudian habitualmente
los casos ms importantes ocurren cuando K D R o K D C. Con la notacin K
designaremos a cualquiera de los cuerpos R o C y por x un vector cualquiera de
un espacio vectorial.
El paradigma de espacio vectorial lo constituye el formado por sucesiones ordenadas de n elementos cualesquiera de K, o n-uplas x D x1 ; : : : ; xn , deniendo
la suma de vectores mediante
x1 ; : : : ; xn  C y1 ; : : : ; yn  D x1 C y1 ; : : : ; xn C yn 
y el producto por un escalar mediante
x1 ; : : : ; xn  D x1 ; : : : ; xn  :
Si los elementos estn denidos en R, el espacio vectorial se denomina Rn , si lo
estn en C, el espacio vectorial es C n . Si   Rn es un conjunto abierto de Rn , el
3

2 Espacios vectoriales

conjunto de todas las funciones continuas en  forman un espacio vectorial lineal


C./ en Rn con las operaciones suma y producto por un escalar,
.f C g/.x/ D f .x/ C g.x/; x 2 
.f /.x/ D f .x/; x 2 :
Mediante C./ se designa el espacio vectorial lineal de las funciones continuas en
el conjunto cerrado . Este ltimo espacio, y C./, son una variedad de espacio
vectorial denominada espacio funcional pues sus elementos son funciones en vez
de vectores propiamente dichos. Cualquier funcin continua en C./ es claramente continua en C./. Igualmente, si f 2 C./ es continua en  y  est acotado,
la funcin f se puede suponer continua tambin en @, la frontera o borde de ,
y entenderse que es continua por tanto en C./ y pertenece a dicho conjunto. Recordemos tambin que f se supone continua (o uniformemente continua) en 
si para cualquier " > 0 existe un D .f; "/ > 0 tal que jf .x/  f .y/j < ",
cualesquiera sean x; y 2  con kx  yk < .
Otro espacio vectorial interesante es C m ./, el de funciones continuas con derivadas parciales continuas hasta orden m en , o C m ./ en . Tambin Cp .2/,
de funciones continuas peridicas-2, es decir, funciones f 2 C.1; 1/ tales que f .x C 2/ D f .x/, 1 < x < 1. O Cpk .2/ de funciones continuas peridicas-2 con derivadas continuas hasta orden k. Alguna vez se indica
Cp0 .2/ para referirse a Cp .2/.
Otros P
espacios vectoriales habituales son Pn , de polinomios de grado n,
pn .x/ D nkD0 ak x k , con coecientes ak reales o complejos.
El conjunto L1 a; b de todas las funciones del cuerpo de los nmeros reales
cuyo valor absoluto es integrable en el intervalo a; b es un espacio vectorial funcional. Tambin lo es L2 a; b, el conjunto de todas las funciones reales al cuadrado integrables en a; b. Es de destacar que en ambos casos estas funciones no
tienen por que ser continuas en ese intervalo.
Un subespacio vectorial M de un espacio vectorial E sobre un cuerpo K es
un subconjunto no vaco que es un espacio vectorial sobre K. Es decir, es cerrado
respecto de las operaciones de adicin y producto por un escalar: que cumple que
8x; y 2 M H) x C y 2 M;
8x 2 M y 8 2 K H) x 2 M:
La interseccin de una familia cualquiera de subespacios de E es tambin un
subespacio.
Si X es un subconjunto cualquiera de E el subespacio GenfXg, generado o
engendrado por X, es la interseccin se todos los subespacios que contienen a X.
Cuando GenfXg D E, se dice que X es una parte generadora de E.
4

2 Espacios vectoriales

Dados vectores x1 ; : : : ; xn y escalares 1 ; : : : ; n , el vector formado segn la


expresin
x D 1 x1 C    C n xn
se dice que es una combinacin lineal de los vectores x1 ; : : : ; xn de coecientes 1 ; : : : ; n . Un subconjunto X de E es un subespacio si y slo si contiene a
cualquier combinacin lineal de cualquier subconjunto nito de vectores de X.
Tambin se demuestra que el subespacio GenfXg es el conjunto de todas las combinaciones lineales de vectores de X.
Un conjunto de vectores x1 ; x2 ; : : : ; xk se dicen linealmente dependientes si
P
existen escalares i , no todos cero, tales que kiD1 i xi D 0 ; linealmente independientes, si
k
X
i xi D 0 H) i D 0; 0  i  k :
i D1

Una parte X de un espacio vectorial E se dice que es una familia libre si los
vectores de cualquier subconjunto nito de X son linealmente independientes.
La dimensin de un subespacio es el mximo nmero de vectores linealmente
independientes en el subespacio.
Una base de un espacio vectorial E es cualquier subconjunto B de E que sea,
simultneamente, una parte libre y generadora de E; dicho de otra forma, una
base de un espacio vectorial es un conjunto normalmente se supone ordenado
(numerado) de vectores linealmente independientes que generan (o engendran)
dicho espacio. Se demuestra que cualquier espacio vectorial tiene una base y que
todas las bases de un mismo espacio tienen la misma cardinalidad se pueden
poner en biyeccin. Cuando el cardinal de las bases es un nmero natural, n 2
N, se dice que el espacio es de dimensin nita n. En un espacio vectorial K n ,
2 3
2 3
2 3
1
0
0
607
617
607
7
7
6
6
6
;
e1 D 4 :: 5 ; e2 D 4 :: 5 ; : : : ; en D 4 :: 7
:
:
:5
0
0
1
forman una base en dicho espacio; ste, por tanto, tiene dimensin n. Esta base se
denomina base cannica o base estndar de K n . En esta base, cualquier vector
x T D x1 ; x2 ; : : : ; xn  se puede expresar de la siguiente forma:
2 3
2 3
2 3
2 3
1
0
0
x1
6 7
6 7
6 7
6 x2 7
6 : 7 D x1 60:7 C x2 61:7 C    C xn 60:7 :
4 :: 5
4 :: 5
4 :: 5
4 :: 5
xn
0
0
1
5

2 Espacios vectoriales

Es decir Rn D Genfe1 ; : : : ; en g. La base estndar de Pn es S D f1; t; t 2 ; : : : ; t n g.


Si A y B son subconjuntos de un espacio vectorial E, el conjunto A C B se
dene como:
A C B D fa C b W a 2 A; b 2 Bg :
Cuando A y B son subespacios, tambin lo es la suma A C B. Si adems A \ B D
;, la suma se denomina directa, escribindose A B. Si A B D E, cualquier
vector c 2 E se descompone de manera nica como c D a C b, con a 2 A y
b 2 B; tambin se dice que A y B son subespacios suplementarios.

2.1 Espacios normados, espacios mtricos


Si en un espacio vectorial E sobre K (R o C) se dene una norma vectorial
como una aplicacin k  k W E ! R que verica
kvk D 0 H) v D 0 y x 0 H) kxk > 0;
kvk D jjkvk

para 2 K y v 2 E;

ku C vk  kuk C kvk 8u; v 2 E;


se dice que E es un espacio vectorial normado.
v

uCv
u

Figura 2.1: Representacin grca de la regla del tringulo


La condicin ku C vk  kuk C kvk es la desigualdad de Minkowski por
Hermann Minkowski, Lituania 1864-1909; se conoce tambin como regla del
tringulo. Es una generalizacin del hecho de que un lado de un tringulo no puede
ser mayor que la suma de los otros dos: ver gura 2.1. Una variante de esta regla
es la siguiente: ku  vk  kuk  kvk.
En un espacio vectorial normado se dene la distancia entre dos elementos u
y v mediante
d.u; v/ D ku  vk :
Esta denicin convierte a cualquier espacio vectorial normado en un espacio mtrico. El espacio de los nmeros reales, por ejemplo, con la distancia .x; y/ D
jx  yj es el espacio mtrico R1 .
6

2 Espacios vectoriales

En el espacio vectorial Kn , para 1  p < 1, se tiene la familia de normas


p
p
kxkp D
jx1 jp C    C jxn jp
denominadas normas p de Hlder por Otto Hlder, Alemania 1859-1937.
Casos particulares lo constituyen las correspondientes a p D 1 y p D 2:
kxk1 D

n
X

jxi j

iD1

kxk2 D

jx1 j2 C    C jxn j2 :

Esta ltima se denomina en Rn norma eucldea, por Euclides de Alejandra, Grecia, 325-265 a.C. Tambin en Kn es una norma la dada por
kxk1 D mKax jxi j :
1in

Estas normas cumplen, cualquiera que sea x 2 Kn , que


kxk1  kxk2  kxk1  nkxk1 :
Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk  1g, su forma
en espacios vectoriales normados por la 1, 2, 1 y p son las que representa la
gura 2.2.
En el espacio C 0; 1 de funciones continuas del intervalo 0; 1 en C, son normas las dadas por
"Z
#1=p
1

jf .t/jp dt

kf kp D
0

donde, si f W C ! C, se dene la integral denida de esta funcin en el intervalo


a; b,
l b
I.f / D

f .x/ dx;
a

como el lmite de las sumas deP


Riemann, por Georg Friedrich Bernhard Riemann,
Alemania 1826-1866, Rn D niD1 .xi C1  xi /f .ti /; x1 D a; xnC1 D b; xi 
ti  xi C1 ; cuando la particin en subintervalos se hace muy na. Tambin en una
norma la dada por
kf k1 D mKax jf .t /j :
t20;1

2 Espacios vectoriales

x11 D
=
kxk

2
i
2

i=1

|xijx
| ij

D1

iD1

x22 D
=
kxk

q


2 2
|x11|j22+C|xjx
2 | 2=
jx
j

q
DxT xx T x

D1

kxk1
ax jx
D mK
i ij D 1
1i2
1i2

kxkp D jx1jp C jx2jp 1=p ;


D1

.1  p < 1/

Figura 2.2: Forma de la bola unidad para diferentes normas en R2


Los espacios de funciones Lp .0; 1/, p > 1, con la norma
Z

1=p

1
p

kxk D

jx.t/j dt

; donde x.t / 2 Lp .0; 1/;

en los que si y.t / 2 Lp .0; 1/ se cumple que


Z

1=p

jx.t/jp dt

<1

son tambin espacios1 normados.


En particular, el conjunto de todas las funciones tales que
Z
f 2 .x/ dx < 1
con la distancia entre dos de ellas f1 .x/ y f2 .x/ denida por
sZ
.f1 .x/  f2 .x//2 dx
1 Casos particulares son L .a; b/ de funciones cuyo valor absoluto es integrable en a; b y
1
L2 .a; b/ de funciones al cuadrado integrables en a; b.

2 Espacios vectoriales

es el espacio mtrico L2 .R/.


Sea E un espacio vectorial normado; se dice que una sucesin2 fx .n/ g en E
converge a un lmite v 2 E, si para todo " > 0, existe un N 2 N tal que a partir
de l, n  N , se cumple que kx .n/  vk < ".
Cuando una sucesin fx .n/ g admite un vector lmite v slo tiene ese vector como lmite.3 Se escribe lKmn!1 x .n/ D v. Es equivalente decir que lKmn!1 x .n/ D
v y que lKmn!1 kx .n/  vk D 0. En particular, x .n/ ! 0 si y slo si kx .n/ k ! 0.
Una sucesin fx .n/ g en un espacio vectorial normado por k  k se denomina
sucesin de Cauchy si para cada " > 0 existe un n 2 N tal que cualesquiera que
sean p; q  n, se cumple que kx .p/  x .q/ k < ". Toda sucesin convergente es
una sucesin de Cauchy pero pueden existir espacios normados con sucesiones de
Cauchy que no son convergentes. Un espacio vectorial normado se dice completo
si toda sucesin de Cauchy en l tiene lmite.
Un espacio de Banach por Stefan Banach, Polonia 1892-1945 es un espacio vectorial completo respecto de la norma a l asociada. Todo espacio vectorial
normado de dimensin nita es un espacio de Banach. En un espacio de dimensin
innita esto no es cierto; por ejemplo, es fcil ver que en C 0; 1 la sucesin de
funciones cuyas grcas son las de la gura 2.3 es una sucesin de Cauchy para
cualquier norma k  kp , pero no tiene lmite en C 0; 1.
1
n

fn .x/ 6
=





=

1
n

Figura 2.3: Grca de una de las funciones de una sucesin de Cauchy


2 Cuando as lo aconseja la dicultad de la notacin, una sucesin tambin se designa por fx g; sus
n
integrantes, x .k/ .
3 Si existe lmite es nico.

2 Espacios vectoriales

2.2 Espacios con producto interior


Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal
vez y media lineal sobre E es una aplicacin hji W E  E ! K que verica4 :
1) hu C vjwi D hujwi C hvjwi

2) hujv C wi D hujvi C hujwi;


cualesquiera que sean u, v, w en E y ; en K. Si adems se cumple que hujvi D
hvjui, la forma se denomina hermtica. Es claro que hujui es siempre un nmero
real. Cuando se cumple que
u 0 H) hujui > 0 ;
se dice que la forma es denida positiva, denominndosela tambin producto escalar. Una forma sesquilineal sobre R es siempre una forma bilineal.
Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una forma
hermtica denida positiva. Todo espacio prehilbertiano es un espacio normado
mediante
p
kvk D hvjvi :
En la demostracin de que esta denicin corresponde a la de una norma en
E juega un papel importante la desigualdad de Cauchy-Schwarz por Augustin Louis Cauchy, Francia 1789-1857 y Karl Hermann Amandus Schwarz, Prusia
1843-Alemania 1921 a saber,

hujvi  kuk  kvk :


Si  es un abierto de Rn , el espacio vectorial de las funciones al cuadrado
integrables en 5 es


Z
L2 ./ D f W  ! R;
jf .x/j2 dx < 1


que es un espacio prehilbertiano si se le dota del producto escalar


Z
f .x/g.x/dx:
hf; gi D


Un espacio de Hilbert por David Hilbert, Prusia Oriental 1862-1943 es un


espacio prehilbertiano completo respecto de la norma asociada al producto escalar
4 La

barra designa complejo conjugado.


se suelen designar L2 ./.

5 Tambin

10

2 Espacios vectoriales

p
k  k D h; i . Dicho de otra forma, un espacio prehilbertiano que con esta norma
da un espacio de Banach. Todo espacio de Hilbert es un espacio de Banach, pero
el recproco no es cierto.
R
El espacio vectorial L2 ./ dotado de la norma hf; gi D  f .x/g.x/dx es
un espacio de Hilbert.
El espacio eucldeo n-dimensional, expresado Rn o En , es un espacio de Hilbert de dimensin nita. Visto as, un espacio de Hilbert sera la generalizacin
de un espacio eucldeo, incluida la dimensin innita. El producto escalar en un
espacio eucldeo es una forma bilineal. En particular, dados dos vectores en R2
de la forma u D a; bT y v D c; d T , su producto escalar viene dado por
hu; vi D ac C bd . que se puede vericar que es una forma bilineal.
Dos vectores cuyo producto escalar es cero se denominan ortogonales; si sus
k  k2 son la unidad se denominan ortonormales. Para dos vectores ortogonales se
tiene la identidad
ku C vk2 D kuk2 C kvk2 ;
que es una generalizacin del teorema de Pitgoras. En un espacio prehilbertiano
el nico vector ortogonal a todos los vectores del espacio es el vector nulo; si este
espacio es de dimensin nita es posible construir una base ortonormalizada.
En un espacio eucldeo n-dimensional el ngulo entre dos vectores x e y es

 T
x y
;
 D arc cos
kxkkyk
donde
D

xT y
kxkkyk

cumple que 1    1, para cualesquiera x e y.


Dos vectores son ortogonales si x T y D 0 ( D =2;  D 0); alineados, si
T
x y D kxkkyk ( D 0;  D 1); opuestos, si x T y D kxkkyk ( D ;  D
1). Forman un ngulo agudo si x T y > 0 ( < =2;  > 0) y un ngulo obtuso
si x T y < 0 ( > =2;  < 0).
Una familia cualquiera de vectores distintos del nulo y ortogonales dos a dos
es una familia libre. Si M es un subespacio de un espacio prehilbertiano E de
dimensin nita, el subespacio ortogonal de M , M ? , es el subespacio formado
por todos los vectores ortogonales a los de M , siendo un subespacio suplementario
de M ; es decir M M ? D E. Cualquier x 2 E, por consiguiente, se puede
expresar como x D a C b, con a 2 M y b 2 M ? .

11

2 Espacios vectoriales

2.3 Aplicaciones lineales


Dados dos espacios vectoriales E y F sobre el mismo cuerpo K se dene una
aplicacin lineal, transformacin lineal, mapeo, operador lineal u homomorsmo,
f , de E en F , como una aplicacin f W E ! F que verica
f .x C y/ D f .x/ C f .y/ ;
cualesquiera que sean los vectores x, y de E y los escalares  y . Existen dos
casos particulares interesantes: el primero cuando E D F , en este caso se dice que
f es un operador lineal de E o endomorsmo de E; el segundo cuando F D K
el cuerpo base, en cuyo caso la aplicacin se denomina forma lineal sobre E.
El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el
espacio F se estructura como un espacio vectorial si se denen las siguientes operaciones:
adicin .f C g/ W

.f C g/.x/ D f .x/ C g.x/; 8x 2 EI

producto por un escalar f W .f /.x/ D f .x/; 8x 2 E y 8 2 K:


En particular, el conjunto L.E; K/ de formas lineales es un espacio vectorial denominado dual de E, representndose con E  .
Para una aplicacin lineal f W E ! F , el conjunto de vectores de F que son
la imagen de los de un subespacio de E forma un subespacio de F . En particular,
la imagen de todo E es un subespacio de F que se denomina subespacio imagen
de f , representndose mediante Im.f /. Anlogamente, el conjunto anti-imagen
de un subespacio de F forma un subespacio de E. En particular, la anti-imagen
del subespacio nulo de F forma lo que se denomina el ncleo de la aplicacin,
representndose por ker.f /. As pues
ker.f / D fx 2 E W f .x/ D 0g :
Si b 2 F , la ecuacin lineal f .x/ D b tiene solucin si y slo si b 2 Im.f /.
En ese caso el conjunto de todas las soluciones es la variedad lineal traslacin
de un subespacio dada por x0 C ker.f /, donde x0 es una solucin particular de
la ecuacin. En particular, la aplicacin es inyectiva si y slo si ker.f / D ;.
Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F es
una aplicacin lineal, la aplicacin traspuesta de f es la aplicacin f  W F ! E
que cumple
hxjf  .y/i D hf .x/jyi ;
cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importante
es el caso en que E D F : f  se dice entonces que es el operador adjunto de
12

3 Topologa

f . Cuando un operador f de E cumple que f  D f se denomina operador


autoadjunto. En el caso de que E sea un espacio vectorial real, tambin se dice
que f es un operador simtrico y cuando es un espacio vectorial complejo, que f
es un operador hermtico. Un operador simtrico cumple que
hxjf .y/i D hf .x/jyi;
mientras que uno hermtico, que
hxjf .y/i D hf .x/jyi:
Un operador f de E es unitario cuando es invertible y su inverso coincide con
su adjunto. Es decir, si f  D f 1 . Para un operador unitario se tiene que
hf .x/jf .y/i D hf  .f .x//jyi D hxjyi ;
de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios tambin
se les denomina operadores isomtricos.
Dada una transformacin lineal, aplicacin lineal, o mapeo, f W E ! E, se
dice que un subespacio W de E es un subespacio invariante frente a f (o f invariante) si para todo vector w 2 W se cumple que f .w/ 2 W . Dicho de otra
manera, W es un subespacio invariante si f .W /  W .

3 Topologa

N un espacio vectorial normado se dene una bola abierta, S.x0 ; r/, de centro x0 y radio r, como el conjunto de puntos x que verican kx  x0 k < r.
Es decir:
S.x0 ; r/ D fx 2 Rn W kx  x0 k < rg:
N 0 ; r/, se dene, por el contrario, como el conjunto de
Una bola cerrada, S.x
puntos x que verican kx  x0 k  r. Es decir:
N 0 ; r/ D fx 2 Rn W kx  x0 k  rg:
S.x
Consideraremos en lo que sigue de este apartado un subconjunto S del espacio
vectorial mtrico hasta ahora estudiado (puede ser, por ejemplo, Rn ).
Un punto y 2 S es un punto interior del conjunto S si existe un " tal que
kx  yk < " ) x 2 S :
En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenida
ntegramente en S.
13

4 Matrices

El conjunto de todos los puntos interiores del conjunto S se denomina interior de S. Este conjunto puede, evidentemente, ser vaco. Ejemplo: un plano del
espacio R3 .
Un subconjunto de S se dice abierto si coincide con su interior; es decir, si
alrededor de todo punto de S existe una bola abierta contenida ntegramente en S.
Dos ejemplos: la bola abierta unidad, S.x; 1/ D fx W kxk < 1g y el espacio Rn
en su totalidad. En general los subconjuntos o conjuntos abiertos se caracterizan
por no tener lmites denidos o ser disjuntos de su frontera (ver ms adelante la
denicin del concepto frontera).
Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. En
otras palabras, E.x/ es un entorno de x si contiene una bola abierta de centro x.
Se dice que un punto x es un punto de acumulacin del subconjunto S si en
todo entorno de x existen un nmero innito de puntos de S.
Un punto x se denomina punto de adherencia del subconjunto S cuando todo
entorno de dicho punto x contiene al menos un punto de S; es decir, para todo "
existe un y 2 S tal que kxyk < ". El conjunto de todos los puntos de adherencia
se denomina adherencia en la literatura anglosajona y latinoamericana, clausura
cl.S/. La adherencia de la bola abierta S.x; 1/ D fx W kxk < 1g es la cerrada
N
S.x;
1/ D fx W kxk  1g.
Se denomina frontera de un conjunto a la parte de la adherencia que no est en
el interior.
Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia.
La adherencia de cualquier conjunto S es el conjunto cerrado ms pequeo que
contiene a S. Se puede demostrar que un conjunto es cerrado si y slo si toda
sucesin convergente de elementos de S tiene un lmite en ese conjunto.
Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (contenido en una bola de radio r < 1). Un importante resultado, debido a Weierstrass, dice que si S es un conjunto compacto, de cada sucesin o sucesin innita
fx .n/ gn2N de elementos de dicho conjunto es posible extraer una subsucesin
n
o
x .`/
LN
`2L

que converge a un elemento del propio conjunto S.


Si fr .k/ g es una sucesin de nmeros reales y s .k/ D sup fr .i / W i  kg,
entonces fs .k/ g converge a un nmero real s0 ; a este nmero se le denomina lmite
superior de fr .k/ g y se expresa como




o lKm r .k/ :
lKm sup r .k/
k!1

El lmite superior de una sucesin de nmeros reales es el mayor punto de acumulacin de la sucesin. De forma similar se dene el lmite inferior.
14

4 Matrices

4 Matrices

NA matriz es una formacin rectangular de numeros reales o complejos


ordenados en m las y n columnas
2

a11 a12
6 a21 a22
6 :
::
4 ::
:
am1 am2

3
   a1n
   a2n 7
:
: : :: 7
: : 5
   amn

El conjunto de todas las matrices de nmeros reales o complejos se designa, respectivamente, Rmn y C mn . Si m D n la matriz es cuadrada y de orden n. Un
vector columna es tambin una matriz Rm1 , que se escribe Rm .
Las matrices de m las y n columnas con coecientes en el cuerpo R o C
forman un espacio vectorial, Rmn o C mn , sobre dichos cuerpos.
El primero en usar el trmino matriz en matemticas fue James Joseph Sylvester, Reino Unido 1814-1897. Arthur Cayley, Reino Unido, 1821-1895, contribuy
de forma decisiva a que A D .aij / se concibiese como una cantidad algebraica
nica.
Si en lgebra lineal E y F son dos espacios vectoriales de dimensiones nitas n y m sobre el mismo cuerpo K. Una aplicacin lineal g W E ! F ,
g 2 L.E; F /, est caracterizada o representada en dos bases fe1 ; e2 ; : : : ; en g de
E y ff1 ; f2 ; : : : ; fm g de F por una tabla de coecientes, matriz asociada, de m
las y n columnas:
3
2
a11    a1n
A D 4 ::: : : : ::: 5 2 K mn :
am1    amn
Los coecientes aij estn denidos por
g.ej / D

m
X

aij fi ;

1  j  n:

iD1

El vector columna j -simo

3
a1j
6 a2j 7
4 :: 5
:
amj
2

representa el vector g.ej / en la base .fi /. A partir de la matriz A se pueden calcular los coecientes y1 ; y2 ; : : : ; ym del vector y D g.x/ en la base .fi /, cono15

4 Matrices

ciendo los coeciente x1 ; x2 ; : : : ; xn en la base .ej /. En efecto:


3
2
3
2
3
2
2 3
a1n
a11
a12
y1
6 a2n 7
6 a21 7
6 a22 7
6 y2 7
4 :: 5 D x1 4 :: 5 C x2 4 :: 5 C    C xn 4 :: 5 :
:
:
:
:
ym
am1
am2
amn
Expresin que tambin se puede escribir de la siguiente forma:
yD

n
X

xi ai ;

i D1

donde ai es el vector columna i-simo de la matriz A. As pues, si se jan dos bases en E y F , cada aplicacin lineal, g W E ! F , queda unvocamente representada por una matriz. Recprocamente, toda matriz en K mn dene unvocamente
una aplicacin lineal entre dos espacios E y F de dimensiones n y m en los que
se han jado dos bases. En particular, se pueden identicar las matrices m  n con
las aplicaciones lineales de K n en K m .
Las matrices de m las y n columnas con coecientes en el cuerpo K forman
un espacio vectorial, K mn , sobre dicho cuerpo K.
Si E y F son dos espacios de dimensin nita dotados de un producto escalar y
la aplicacin 2 L.E; F / se representa en dos bases ortonormalizadas mediante
una matriz A, la aplicacin T 2 L.F; E/, traspuesta de , viene representada
por la matriz A T , traspuesta de A.
El ncleo y la imagen de una matriz A 2 K mn , ker.A/ y Im.A/, respectivamente, se denen como los subespacios de K n y K m que son el ncleo y la imagen
de la aplicacin lineal asociada:
7
7
ker.A/ D fx 2 K n W Ax D 0g
7
5
:
m
n
Im.A/ D fy 2 K W y D Ax; x 2 K g
mn
A2K

Dicho de otra forma, la imagen de una matriz es el subespacio generado por los
vectores columna de la matriz; los vectores la tambin generan un subespacio
que no es otro que la imagen de A T .
Para una matriz A 2 Rmn se cumple que:


ker A T D .Im.A//?


Im A T D .ker.A//?


?
ker.A/ D Im A T


?
Im.A/ D ker A T
:
16

4 Matrices

De acuerdo con esto, si A 2 Rmn , se cumple que


ker .A/ Im A T D Rn :
En la gura 4.4 se muestran estos subespacios.
A

Im

Ke

rA

Ke

rA

0
Im

Figura 4.4: Subespacios fundamentales determinados por A mn


El rango de una matriz es la dimensin6 de su subespacio imagen:
rango.A/ D dim.Im.A//:
Una matriz A 2 K mn se dice de rango completo si rango.A/ D mKn.m; n/. Una
matriz cuadrada A 2 K nn se denomina singular si rango.A/ < n; regular si
rango.A/ D n. Tambin se cumple que rango.A/ D rango.A T /.
La aplicacin asociada a una matriz A 2 Rmn es suprayectiva cuando
rango.A/ D m. Para una matriz A 2 K mn se cumple que
dim.ker.A// C rango.A/ D n ;
o, alternativamente, dim.ker.A// D n  rango.A/. La aplicacin lineal asociada a
A es, por tanto, inyectiva, si y slo si rango.A/ D n. Por otro lado dim.ker.A T //C
rango.A T / D m.
El producto exterior uvT de un vector columna n  1 por un vector la 1  n
es una matriz A nn de rango 1.
3
2
u1 v1 u1 v2    u1 vn
6u2 v1 u2 v2    u2:vn 7
A D uvT D 4 ::
:: 5
:
un v1 un v2    un vn
6 Recordemos:

mximo nmero de vectores linealmente independientes.

17

4 Matrices

4.1 Normas de matrices


Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la mayor parte de las deniciones y resultados son extensibles a matrices rectangulares;
tambin supondremos que las matrices son reales.
Las matrices cuadradas de orden n forman un espacio vectorial con un producto, esto es, un lgebra. Una norma matricial es una norma vectorial compatible con el producto. Se dene formalmente sobre Rmn como una aplicacin
k  k W Rmn ! R que cumple:
1) kAk D 0 H) A D 0:
2) kAk D jj  kAk:
3) kA C Bk  kAk C kBk:
4) kABk  kAk  kBk:
Existen normas sobre el espacio Rmn que no son normas matriciales pues no
cumplen la propiedad 4). As, si se dene
kAk D mKax jaij j ;
1i;j n

h i
se satisfacen 1), 2) y 3); sin embargo, tomando A D B D 11 11 , es fcil ver que
kABk D 2 > kAk  kBk D 1, por lo que no se cumple 4).
Un ejemplo importante de norma matricial es la norma de Frobenius, denida
como:
X
2
kAk2F D
aij
D traza.A T A/;
1i;j n

P
donde la traza de una matriz A de orden n es niD1 ai i . Es fcil ver que esta norma
deriva del producto escalar hAjBi D traza.A T B/, que congura al espacio de
las matrices cuadradas como un espacio prehilbertiano. La norma de Frobenius
cumple que
kABkF  kAkF  kBkF :
Una norma matricial k  k sobre Rmn se dice consistente con una norma vectorial k  k0 sobre Rn cuando para cada matriz A y cada vector x se cumple que
kAxk0  kAk  kxk0 :
Por ejemplo, la norma de Frobenius y la norma eucldea de Rn son consistentes
pues
kAxk2  kAkF  kxk2 :
18

4 Matrices

Se demuestra que para toda norma matricial es posible construir una norma vectorial consistente. Recprocamente, a toda norma vectorial sobre Rn se le puede
asociar una norma matricial consistente. Una norma matricial consistente con una
cierta norma vectorial k  k se construye mediante la denicin
kAk D

sup
0x2Rn

kAxk
:
kxk

Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la norma
matricial inducida por la norma eucldea de Rn es la norma espectral:
"
#1=2 q
x T A T Ax
D max .A T A/ D max .A/;
kAk2 D sup
Tx
x
n
0x2R
donde  designa un valor propio de A y  un valor singular. Si k  k es la norma
inducida por una cierta norma vectorial y k  k0 es una norma matricial cualquiera
consistente con esa norma vectorial, se cumple, para toda matriz A, que kAk 
kAk0 . En particular, para la norma espectral y la norma de Frobenius, se cumple
que
p
kAk2  kAkF  nkAk2 :
Tambin que kABkF  kAkF  kBk2 y kABkF  kAk2  kBkF . Como casos
particulares, kIk2 D 1 y para una matriz diagonal, kDk2 D mKaxi jdi j.
Las normas matriciales inducidas ms usadas son
kAk1 D mKax

1j n

kAk1 D mKax

1im

m
X
i D1
n
X

jaij j y
jaij j :

j D1

Ejemplo 4.1 El efecto que produce aplicar la transformacin lineal basada en la


matriz
" #
12
AD
02
sobre la bola unidad, explicado a partir de las normas k  k1 , k  k2 y k  k1 en R2 ,
se representa en la gura 4.5. La aplicacin transforma el vector e1 D 1; 0T en
s mismo y e2 D 0; 1T en 2; 2T . Con la norma 1, el vector unitario que ms
se amplica al aplicarle la transformacin es 0; 1T (o 0; 1T ), que pasa a ser
2; 2T . Su factor de amplicacin, en trminos de la norma 1, es 4.
19

4 Matrices

[2, 2]T
[0, 1]T
norma11
norma

A1 = 4

[1, 0]T

[1, 0]T

A2 2,9208
norma22
norma

A = 3

norma1

norma

Figura 4.5: Efecto de una aplicacin lineal sobre la bola unidad para diferentes
normas
Con la norma 2, el vector unitario que ms se amplica es el que se representa
en la gura con una recta discontinua. El factor de amplicacin es 2,9208.
Para la norma 1, igualmente, el vector unitario que ms se amplica es el que
se representa tambin con la recta discontinua: 1; 1T , que pasa a transformarse
en 3; 2T . El factor de amplicacin correspondiente es en este caso 3 ya que


1; 1T D 1
1


T
3; 2 D 3:
1

Adems de las normas vectoriales y matriciales ya presentadas, otra norma


vectorial muy utilizada es


p
p


kxkA D A 1=2 x D hAxjxi D x T Ax;
2

20

4 Matrices

denominada norma A o norma de energa7 del vector x, para una matriz A simtrica y denida positiva. A hxjyiA D hAxjyi se le denomina producto interior
de A o producto escalar de energa. La matriz A 1=2 es la nica matriz denida
positiva solucin de la ecuacin matricial X 2 D X  X D A.

4.2 Matrices ortogonales, unitarias, simtricas, Hessenberg, de


permutacin y de proyeccin
Una matriz Q 2 Rmn se dice ortogonal si verica que QT Q D I; es decir,
cuando sus vectores columna son ortogonales dos a dos y de norma eucldea unitaria (ortonormales). Si Q 2 Rnn es ortogonal, se cumple que QQT D QT Q D
I.
Las matrices ortogonales Q 2 Rmn verican:
9
9
>
kQk2 D 1
>
>
kQk2 D 1
>
>
>
>
=
kQkF D n1=2 =
kQkF D m1=2
si m  n y
si m  n:
kAQk2 D kAk2 >
kQAk2 D kAk2 >
>
>
>
>
>
;
;
kAQkF D kAkF
kQAkF D kAkF
Una matriz ortogonal no modica ni los ngulos ni las normas de los vectores a los
que se aplica la transformacin que representan: .Qx/T .Qy/ D x T QT Qy D
x T y. Si y D x, jjQxjj2 D jjxjj2 .
La extensin de las matrices ortogonales al campo complejo son las matrices unitarias. Son matrices, U 2 C nn , cuya inversa es su compleja conjugada:
U H U D U U H D I: Todos los valores propios de las matrices unitarias tienen mdulo unidad. Como las ortogonales, una matriz unitaria no modica ni
los ngulos ni las normas, .U x/H .U y/ D x H U H U y D x H y. Si y D x,
jjU xjj2 D jjxjj2 .
Una matriz de permutacin es una matriz cuadrada cuyas columnas estn formadas por las de la matriz unidad permutadas. Una matriz de permutacin es una
matriz ortogonal.
Una matriz se dice simtrica si se verica que A D A T . Para una matriz
cualquiera A 2 Rmn , la matriz A T A es simtrica. Si A 2 C nn es igual a su
traspuesta conjugada, A D B D A H , bij D aNj i , se dice hermtica.
Una matriz A se dice denida positiva si x T Ax > 0 para todo vector x 0.
De forma similar se denen matrices semidenida positiva, denida negativa y
semidenida negativa, si x T Ax  0, < 0 y  0, respectivamente, para todo
vector x 0. La matriz A se dice indenida si x T Ax es positivo para algn x
7 Pues

suele corresponder con la energa fsica de ciertos sistemas.


21

4 Matrices

y negativo para otros. Tambin A 2 C nn se dice denida positiva si para todo
x 2 C n ; x 0, se cumple que x H Ax > 0.
Si A 2 Rnn es simtrica y denida positiva se puede descomponer de la
formaA D QDQT donde Q es una matriz ortogonal y D, diagonal, tiene to1
1
dos sus coecientes positivos por lo que A 2 D QD 2 QT satisfacindose que
1
1
A 2 A 2 D A.
Se dice que una matriz A 2 C nn de coecientes aij es de diagonal dominante
por las cuando cumple que
n
X

jai i j 

jaij j;

i D 1; : : : ; n:

j D1;j i

Anlogamente, se dice diagonal dominante por columnas si


n
X

jai i j 

jaj i j;

i D 1; : : : ; n:

j D1;j i

Si las desigualdades se verican estrictamente la matriz A se denomina diagonal


estrictamente dominante.
Lema 4.1 Para que una matriz simtrica sea denida positiva es necesario que
todos los coecientes de la diagonal principal sean positivos.
Lema 4.2 Para que una matriz simtrica A sea denida positiva es necesario
que el coeciente de mayor valor absoluto est en la diagonal principal. Ms
concretamente,
mKax jaij j < mKax akk :
i j

Lema 4.3 Si en cada la de una matriz simtrica A el coeciente de la diagonal principal es mayor que la suma de los valores absolutos de todos los dems
coecientes de la la, es decir, si
akk >

n
X

jakj j

k D 1; : : : ; n;

j D1

j k

A es denida positiva.
Es importante destacar que este ltimo
i dene una condicin suciente,
h 3 criterio
22
no necesaria. En efecto, la matriz Q D 2 3 2 es denida positiva pues
223

x T Qx D x12 C x22 C x32 C 2.x1 C x2 C x3 /2 ;


22

4 Matrices

cualquiera que sea x 0, es siempre positiva. Esa matriz, sin embargo, no satisface el lema 4.3.
Una matriz de Vandermonde por Alexandre-Thophile Vandermonde, Francia 1735-1796 es una matriz que presenta una progresin geomtrica en cada
la; como esta:
3
2
1 1 12 : : : 1n1
6 1 2 22 : : : 2n1 7
7
6
2
n1 7
6
V D 6 1 3 3 : : : 3 7 :
6: : : :
: 7
4 :: :: :: : : :: 5
1 n n2 : : : nn1
Una matriz de Hankel por Hermann Hankel, Alemania 1839-1873 es una
matriz cuadrada con todas sus diagonales de derecha a izquierda paralelas numricamente. Es decir, tiene la forma
2
3
a b c d e
6b c d e f 7
6
7
H D 6c d e f g 7 :
4d e f g h 5
e f g h i
Una matriz de Hessenberg por Karl Adolf Hessenberg, Alemania 19041959 es una matriz triangular excepto por una subdiagonal adyacente a la diagonal principal.
Cualquier matriz se puede reducir a la forma de
Hessenberg mediante transformaciones ortogonales
de Householder o Givens. Si la matriz original es si@
@
mtrica, al reducirla a la forma de Hessenberg se ob@
tendr una tridiagonal.
@
Se denomina proyector o matriz de proyeccin a
@
@
una matriz P 2 Rnn que verica que P 2 D P. Si P
@
adems es simtrica, se denomina proyector ortogonal
@
o matriz de proyeccin ortogonal. Si, en este ltimo
@
caso, F es el subespacio imagen de la matriz P (el
mismo que el de la matriz P T ), Px dene la proyeccin ortogonal del vector x
sobre F .
Se denomina proyector suplementario de P al proyector S D I  P. Si F D
Im.P/ y G D ker.P/, entonces F D ker.S / y G D Im.S /.
En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que
Rn D F F ? , vericndose que kPxk2  kxk2 y que

kx  Pxk2 D

mKn

y2Im.P /DF
23

kx  yk2 :

4 Matrices

4.3 Valores propios, valores singulares y formas cuadrticas


4.3.1 Valores propios
Si A es una matriz cuadrada de orden n y coecientes en K (R o C), un vector
no nulo u 2 Kn se denomina vector propio de A si para algn  2 K se cumple
que
Au D u :
A este  se le denomina valor propio o autovalor de la matriz A. El conjunto de
los valores propios de una matriz A se denomina espectro de A, designndose por
.A/. El radio espectral, .A/, se dene de la siguiente manera:
.A/ D mKax ji j:
1i n

Para que un nmero  sea valor propio de A, el sistema lineal y homogneo de


ecuaciones dado por .I  A/x D 0 debe tener soluciones distintas de la trivial
x D 0. Esto equivale a que
det.A  I/ D 0 :
Esta es una ecuacin polinmica de grado n en  que se denomina ecuacin caracterstica, o polinomio caracterstico, de la matriz A. La ecuacin caracterstica
admite la raz  D 0 si y slo si det.A/ D 0. Una matriz es invertible, por tanto,
si y slo si no admite al cero como vector propio.
Para que exista una solucin distinta de la trivial x D 0, el valor propio 
deber ser raz del polinomio caracterstico de grado n asociado a A, esto es
det.A  I/ D 0. Lo que es igual a n C g1 n1 C g2 n2 C    C gn D 0:
El Teorema fundamental del lgebra establece que cada ecuacin polinmica
de grado n, con coecientes complejos, tiene n races en el cuerpo de los complejos.
La multiplicidad algebraica del valor propio  de A es la multiplicidad de la
raz correspondiente del polinomio caracterstico asociado a A. La multiplicidad
geomtrica de  es el nmero de vectores propios linealmente independientes que
se corresponden con . La multiplicidad geomtrica de un valor propio es menor
o igual que su multiplicidad algebraica.
Por ejemplo, si A D I,  D 1 es un valor propio con multiplicidad algebraica
y geomtrica n. El polinomio caracterstico de A es p.z/ D .z  1/n y ei 2 C n ,
i D 1; : : : ; n, sus vectores propios. Si el valor propio  tiene una multiplicidad
geomtrica menor que la algebraica, se dice defectuoso. Se dice que una matriz es
defectuosa si tiene al menos un valor propio defectuoso. La matriz
3
2
210
40 2 15
002
24

4 Matrices

tiene un valor propio, 2, de multiplicidad algebraica 3 y multiplicidad geomtrica


1; u D 100T . Si una matriz A 2 C nn no es defectuosa, dispone de un conjunto
de n vectores propios linealmente independientes.
Un resultado interesante debido a dos matemticos del siglo XIX, Arthur Cayley, britnico, 1821-2895, y William Rowan Hamilton, irlands, 1805-1865, dice
que cualquier matriz A 2 C nn satisface su propia ecuacin caracterstica. Es
decir,
A n C g1 A n1 C g2 A n2 C    C gn I D 0:
Si A es invertible, como consecuencia de ello,
A 1 D 

1 n1 g1 n2
gn1
A

A
  
I:
gn
gn
gn

A partir del teorema de Cayley-Hamilton tambin es fcil comprobar que exis1


te un polinomio
 de grado mximo n  1 tal que A 2D p.A/. Como ejem 1 p
2
plo, la matriz 3 4 tiene como polinomio caracterstico x  5x  2. El teorema
de Cayley-Hamilton dice que A 2  5A  2I D 0, lo cual se puede comprobar
inmediatamente. La inversa de A se puede obtener de esta ecuacin a partir de
A .A  5I/ D 2I. En efecto, A 1 D 12 .A  5I/.
Para A 2 C nn y 0 b 2 C n1 , al subespacio
Kj .A; b/ D Genfb; Ab; : : : ; A j 1 bg
se le denomina subespacio de Krylov.
Igual que cualquier matriz tiene asociado un polinomio caracterstico, cualquier polinomio tiene asociado una matriz compaera. La matriz compaera de un
polinomio mnico8 p.t/ D c0 C c1 t C    C cn1 t n1 C t n es
3
2
0 0 : : : 0 c0
61 0 : : : 0 c1 7
7
C .p/ D 6
40:: 1:: :: :: : 0:: c2::5
: : : :
:
0 0 : : : 1 cn1
Los valores propios de esta matriz C .p/ son las races del polinomio p.t /. El
polinomio mnimo q.t/ de una matriz A es el polinomio mnico nico de grado
mnimo tal que q.A/ D 0.
Una matriz real de orden n no tiene necesariamente valores propios reales pero,
como consecuencia del teorema fundamental del lgebra, cualquier matriz compleja tiene al menos un valor propio complejo. El nmero mximo de valores propios
es n.
8 Un

polinomio a0 C a1 x C a2 x 2 C : : : C an x n se dice que es mnico si an D 1.


25

4 Matrices

Al aplicrsele a cualquier vector la transformacin que representa A ese vector


tiende a orientarse en la direccin del vector propio dominante de A. Si aquel
vector est en la direccin de alguno de los vectores propios de A, se expande o
contrae
 un factor que determina el correspondiente valor propio. La matriz
por
A D 21 12 tiene como valores propios 3 y 1. Los vectores propios asociados son
1 1T y 1 1T . El efecto de aplicarla sobre distintos vectores se puede ver en la
gura 4.6: en magenta y azul los vectores propios; otros en rojo.

Figura 4.6: Efecto de


a diversos vectores la transformacin que repre
aplicrsele
senta la matriz A D 21 12
Siendo  un valor propio de una matriz A, el conjunto de soluciones del sistema de ecuaciones
.I  A/x D 0
es un subespacio de Kn que se denomina subespacio propio asociado al valor
propio , designndose con E . Si n es la multiplicidad de  como raz de la
ecuacin caracterstica de A, se cumple que
dim.E /  n :
La interseccin de subespacios propios correspondientes a valores propios distintos se reduce al subespacio nulo; esto es  H) E \ E D ;.
L De este modo, nla suma de subespacios propios es directa. Se cumple que
2.A/ E D K si y slo si para cada  2 .A/, dim.E / D n ; en ese
caso existe una base de Kn formada toda ella por vectores propios de A.
El teorema central en el estudio de los mtodos y algoritmos numricos para
el clculo y anlisis de valores y vectores propios es el de la descomposicin de
Schur por Issai Schur, Alemania 1875-1941.
26

4 Matrices

Teorema 4.4 Descomposicin o triangularizacin de Schur Para cualquier A 2


C nn existe una matriz unitaria U y una matriz triangular superior, T , tal que
AU D U T o U H AU D T .
Los valores propios de A son los coecientes de la diagonal principal de R.
Teorema 4.5 Para cualquier matriz hermtica A 2 C nn existe una matriz unitaria U tal que
U H AU D D,
donde D es una matriz diagonal.
1. Los valores propios de A son nmeros reales.
2. Se pueden obtener vectores propios de A que sean ortonormales.
En este caso se dice que la matriz A es semejante a una matriz diagonal: la matriz A es diagonalizable por semejanza. Dos matrices semejantes tienen el mismo
polinomio caracterstico y los mismos valores propios. Una matriz A 2 C nn es
normal, es decir AA H D A H A, si y slo si A D U U H , donde U es una
matriz unitaria y una diagonal cuyos coecientes son los valores propios de A.
Los vectores propios son los vectores columna de U .
Toda matriz real y simtrica tiene todos sus valores propios reales y es diagonalizable por semejanza. Se demuestra adems que los subespacios propios correspondientes a valores propios distintos son ortogonales. De aqu se sigue que
es siempre posible formar una base ortonormalizada de vectores propios para una
matriz real y simtrica A. Existe entonces una matriz ortogonal Q tal que verica
QT AQ D D, con QT D Q1 y, de aqu que, toda matriz real y simtrica es
congruente ortogonal con su reducida diagonal. Este resultado fundamental de la
teora de matrices es la versin para matrices simtricas del denominado Teorema
espectral. Da lugar a la Descomposicin espectral de A.
Teorema 4.6 Descomposicin de Jordan Para una matriz A 2 C nn existe una
1
matriz regular X 2 C nn tal que
2 X AX D3diag.J 1 ; : : : ; J k / donde
i 1
6  1 0 7
i
6
7
ni ni
Ji D 6
 7
6
72C
4 0
5
 1
i
y n1 C    nk D n. Las J i son las matrices o bloques de Jordan y los i los
valores propios de A.
Una matriz simtrica denida positiva tiene todos sus valores propios reales
y positivos; si es semidenida, alguno es cero. Si la matriz es negativa denida,
27

4 Matrices

todos sus valores propios son negativos.


Si A es hermtica, el producto x H Ax es un nmero real. Los valores propios
de una matriz hermtica, en consecuencia, son nmeros reales. En una matriz hermtica los vectores propios correspondientes a dos valores propios distintos son
ortogonales entre s.
Un resultado importante para averiguar el orden de magnitud de los valores
propios de una matriz es el que sigue.
Teorema 4.7 Gersgorin Los valores propios de una matriz A 2 C nn se encuentran en la unin de los n discos de Gershgorin, cada uno de los cuales est
centrado en akk , k D 1; : : : ; n, y tiene de radio
rk D

n
X

jakj j

j D1

j k

D EMOSTRACIN . Sea  un valor propio de A y x su vector propio asociado. De


Ax D x y .I  A/x D 0 se tiene que
.  akk /xk D

n
X

akj xj ;

k D 1; : : : ; n;

j D1

j k

donde xk es el componente k-simo del vector x.


Si xi es el coeciente de x ms grande en valor absoluto, como jxj j=jxi j  1
para j i, se tiene que
j  ai i j 

n
X

jxj j X

jaij j:
jxi j
n

jaij j

j D1

j D1

j i

j i

Luego  est contenido en el disco f W j  ai i j  ri g.


4.3.2 Valores singulares
La nocin de valor propio, o autovalor, no tiene signicado para matrices rectangulares. En stas, por el contrario, si lo tiene, como en las cuadradas, el concepto de valor singular. Si A es una matriz cualquiera m  n con coecientes en
R, se denen sus valores singulares i ; i D 1; : : : ; mKnfm; ng, como las races
cuadradas positivas de los valores propios de la matriz cuadrada A TA 2 Rnn .

28

4 Matrices

Teorema 4.8 Descomposicin en valores singulares Si A 2 Rmn es una matriz


de rango r existen matrices ortogonales U 2 Rmm y V 2 Rnn tales que
A D U V T ,
h
i
donde D r 0 , 2 Rmn y r D diag.1 , 2 ; : : : ; r /, con 1  2 
0 0
    r > 0. Si las matrices U y V se escriben como U D u1 ; : : : ; um  y
V D v1 ; : : : ; vn , los ui y vi son los vectores singulares izquierdos y derechos,
respectivamente, correspondientes a los valores singulares i , i D 1; : : : ; r.
D EMOSTRACIN . Sean x 2 Rn e y 2 Rm dos vectores tales que
kxk2 D kyk2 D 1 y Ax D  y;

con  D kAk2 :

La existencia de estos vectores x e y est garantizada por la denicin de kAk2 .


Sean las dos matrices ortogonales
V D x V 1  2 Rnn

U D y U 1  2 Rmm

(siempre es posible ampliar un conjunto de vectores ortogonales hasta formar una


base ortonormal de Rn ). Como U T1 Ax D  U T1 y D 0, la matriz U T AV tiene la
siguiente estructura:
"
"
#
#
 wT
yT
T
A x V 1  D
;
A1 D U AV D
U T1
0 B
.m1/.n1/
T
T
donde B D U T1 AV 1 2 R
h
i y w D y AV 1 .


2
T

w   2 C wT w, como
k2 D  Cw
Dado que kA1 w
Bw
2



k2  kA1 k2 k w
k2 D kA1 k2
kA1 w

2
 2 C wT w ;

se cumple que kA1 k2  . 2 C wT w/1=2 . Como las matrices U y V son ortogonales, kA1 k2 D kAk2 D  y por consiguiente w D 0. La argumentacin de la
demostracin se completa por induccin.
La matriz A mn D U V T , de rango r, se puede escribir como la suma de r
matrices de rango uno as
r
X
i ui viT ;
AD
i D1

donde los ui y vi son los vectores columna i-simos de U y V .


La mejor aproximacin de A de rango p  r, en el sentido de mnimos cuadrados, se obtiene de la suma de los primeros p trminos de esta ltima suma. Por
29

4 Matrices

ejemplo de Sauer [2013], el mejor subespacio de dimensin uno de los puntos


3; 2, 2; 4, 2; 1 y 3; 5 en el sentido de mnimos cuadrados se obtiene de


3
2
2
3
AD
D U V T
2 4 1 5
"
#
0;4085 0;5327 0;2398 0;7014
0;5886 0;8084  8;2809 0 0 0  0;6741
0;3985 0;5554 0;2798
D 0;8084 0;5886
0
1;8512 0 0
0;5743 0;1892 0;7924 0;0801 :
0;2212

0;7223

0;0780

0;6507

Como p D 1, la mejor aproximacin de A es u1 D 0;5886; 0;8084. Del sumatorio anterior, haciendo 2 D 0,


"
#
0;4085 0;5327 0;2398 0;7014
0;5886 0;8084  8;2809 0 0 0  0;6741
0;3985 0;5554 0;2798
A1 D 0;8084 0;5886
0;5743 0;1892 0;7924 0;0801
0
000
D

1;9912 2;5964 1;1689 3;4188 


2;7364 3;5657 1;6052 4;6951

0;2212

0;7223

0;0780

0;6507

El proceso se esquematiza en la gura 4.7.

Figura 4.7: Proyeccin de cuatro vectores en el subespacio de dimensin uno que


mejor los representa: recta de trazos
Dada la descomposicin en valores singulares de A, de rango r, los vectores
singulares a la izquierda fu1 ; : : : ; ur g conforman una base ortonormal de Im.A/ y
furC1 ; : : : ; um g otra base ortonormal de ker.A T /. Igualmente, fvrC1 ; : : : ; vn g es
una base ortonormal de ker.A/ y fv1 ; : : : ; vr g una base ortonormal de Im.A T /.
Los valores singulares de A son las longitudes de los semiejes del hiperelipsoide E denido, a partir de la esfera unidad y el operador A, por
E D fy W y D Ax; kxk2 D 1g :
30

4 Matrices

Ax
Ax

Figura 4.8: Representacin en dos dimensiones de una transformacin lineal de la


esfera unidad
En la gura 4.8 se describe grcamente el caso en que m D n D 2.
El nmero de condicin de una matriz es la relacin entre sus valores singulares
mayor y menor. Una matriz se dice mal condicionada si ese nmero es grande o
muy grande. Una matriz singular tiene un nmero de condicin innito.
Si A es una matriz n  n, j det.A/j D 1  2    n . Para una matriz A 2 Rmn
cuya descomposicin en valores singulares es A D U V T , se dene su matriz
pseudoinversa, A  , como
A D V U T ;
donde

 D diag.11 ; : : : ; r1 ; 0; : : : ; 0/ 2 Rnm :

1 T
Si A 2 Rmn es de rango completo y m > n, A  D A T A
A ; si m < n,



T
T 1
.
A D A AA
Para cualquier matriz A 2 Rmn , la matriz A  A es la matriz n  n de proyeccin ortogonal sobre el subespacio de los vectores la de A, AA  la m  m de
proyeccin ortogonal sobre la imagen de la matriz A (subespacio de sus vectores
columna) y .I  A  A/ la de proyeccin ortogonal sobre el ncleo de A, ker.A/.

4.3.3 Formas cuadrticas


Una forma cuadrtica en n variables es un polinomio de segundo grado en esas
variables. La expresin ms general de una forma cuadrtica es
q.x/ D x T Qx ;
31

4 Matrices

donde Q D QT es una matriz simtrica de orden n. Nos limitaremos al anlisis


de formas cuadrticas con coecientes reales.
Mediante una transformacin lineal de variables, x D T y, una forma cuadrtica se puede reducir a la forma cannica de suma de cuadrados siguiente:
q.x/ D

p
X

yi2 

pCq
X

yi2 :

i DpC1

iD1

El rango de la forma es p C q y la signatura p  q (p nmeros positivos y q


negativos).
Una forma cuadrtica real es denida positiva si para todo vector x 0,
q.x/ > 0. El rango y signatura de una forma cuadrtica denida positiva valen
n. Si Q la forman los coecientes qij y se introducen los nmeros menores como
3
2
q11 q12    q1i
6q21 q22    q2i 7
7

i D det 6
4 ::: ::: : : : ::: 5 ;
qi1 qi2    qi i
la forma cuadrtica asociada a Q es denida positiva si y slo si todos los menores

i son positivos.
Sean 1 ; : : : ; n los valores propios que sabemos son reales de la matriz
Q. Por el teorema espectral, existe una matriz ortogonal P tal que P T QP D
diag.1 ; : : : ; n /. Haciendo en la forma cuadrtica q.x/ D x T Qx el cambio de
variables x D Py, se tiene que
q.x/ D y T P T QPy D 1 y12 C    C n yn2 ;
por lo que el rango de la forma cuadrtica es el nmero total teniendo en cuenta
las multiplicidades de valores propios no nulos de Q, mientras que la signatura
coincide con la diferencia entre los nmeros de valores propios positivos y negativos. En particular, la forma cuadrtica asociada a Q es denida positiva si y slo
si todos los valores propios de Q son positivos.
En ciertos casos es importante acotar el cociente de una forma cuadrtica al
cuadrado de la norma eucldea, es decir, el cociente
r.x/ D

x T Qx
;
xT x

x 0:

Mediante una transformacin ortogonal x D Py, este cociente se escribe como


r.x/ D

1 y12 C    C n yn2
;
y12 C    C yn2
32

5 Teorema de la proyeccin

de manera que se deducen las acotaciones


mi n .Q/ 

x T Qx
 max .Q/ :
xT x

Estas acotaciones no se pueden mejorar ya que si Qv D v,

vT Qv
vT v

D .

5 Teorema de la proyeccin

RAN parte de las teoras de sistemas de ecuaciones y de optimizacin estn


basadas en unos pocos resultados simples e intuitivos. Entre estos, quizs el
ms sencillo y usado sea el teorema de la proyeccin. Su aplicacin en la teora de
mnimos cuadrados lineales es fundamental. En un espacio Eucldeo ordinario de
tres dimensiones determina que la distancia ms corta de un punto exterior a un
plano a ese plano la proporciona la perpendicular al plano desde dicho punto. La
expresin formal de este teorema en espacios de Hilbert es la que sigue.
Teorema 5.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H .
Para todo vector x 2 H existe un nico vector m0 2 M tal que kx  m0 k2 
kx  mk2 , para todo m 2 M . La condicin necesaria y suciente adems para
que m0 2 M sea el vector mnimo nico es que x  m0 sea ortogonal a M .

D EMOSTRACIN . Primero probaremos que si m0 es un vector que minimiza kx 


mk, x  m0 es ortogonal a M . Supongamos para ello, por el contrario, que existe
un m que no es ortogonal a x  m0 ; sin prdida de generalidad podemos suponer
que kmk D 1 y que hx  m0 jmi D 0. Denamos el vector m1 2 M como
m1 D m0 C m. Tendremos que
kx  m1 k22 D kx  m0  mk22
D kx  m0 k22  hx  m0 jmi  hmjx  m0 i C jj2
D kx  m0 k22  jj2 < kx  m0 k22 :
De esta manera, si x m0 no es ortogonal a M , m0 no es el mnimo que decamos.
Veamos ahora cmo, si x  m0 es ortogonal al subespacio M , m0 es el nico
vector de M que minimiza kx  mk2 . En efecto, para todo m 2 M , el teorema de
Pitgoras dice que
kx  mk22 D kx  m0 C m0  mk22 D kx  m0 k22 C km0  mk22 :
Por lo tanto kx  mk2 > kx  m0 k2 para m m0 .
33

6 Funciones

Demostraremos ahora la existencia de un m0 que minimiza kx  mk2 . Si x 2


M , entonces m0 D x y todo estara probado como es obvio. Si x M , denamos
un D Knfm2M kx  mk2 ; lo que queremos es obtener un m0 2 M tal que
kx  m0 k2 D .
A tal n, sea fm.i / g una sucesin de vectores en M tal que kx  m.i / k2 ! .
Por la ley del paralelogramo9 se tiene que



.j /
.m  x/ C .x  m.i / / 2 C .m.j /  x/  .x  m.i / / 2 D
2
2
2

2

2 m.j /  x 2 C 2 x  m.i / 2 :
Reordenando, se obtiene

2

2
2
2


m.i / C m.j /


.j /


.j /
.i/
.i /
:
m  m D2 m  x C2 x  m  4 x 


2
2
2
2
2

Para todo i; j , el vector .m.i / Cm.j / /=2 est en M pues ste es un espacio vectorial
(lineal). De la denicin de se deduce que kx  .m.i / C m.j / /=2k2  , por lo
que

2
2

2

.j /





m  m.i /  2 m.j /  x C 2 x  m.i /  4 2 :
2

Como km
! cuando i ! 1, km
! 0 cuando i; j ! 1.
Es decir, fm g es una sucesin de Cauchy; como M es un subespacio cerrado, la
sucesin fm.i/ g tiene un lmite m0 en M y, debido a la continuidad de la norma,
kx  m0 k2 ! .
.i/

 xk22
.i/

.j /

 m.i / k22

El teorema de la proyeccin pone en evidencia que la solucin del problema


minimizar kt x  yk
t

es el vector proyeccin ortogonal de y sobre x: t x en la gura 5.9.

6 Funciones

ECORDEMOS que una funcin es un caso particular de aplicacin donde


los conjuntos origen e imagen son conjuntos de nmeros.
Una funcin f W Rn ! R se dice continua en x si para toda sucesin fx .k/ g que
9 Para

u, w 2 M , ju C wj2 C ju  wj2 D 2juj2 C 2jwj2 .

34

6 Funciones

x
tx
y

0
Figura 5.9: Solucin de minimizar t kt x  yk
converge a x (expresado x .k/ ! x), se cumple que f .x .k/ / ! f .x/. De forma
equivalente, f se dice continua en x si dado un " > 0, existe un > 0 tal que
ky  xk < H) kf .y/  f .x/k < " :
Una funcin f W R ! R tiene como derivada la funcin
f 0 .x/ D

f .x C h/  f .x/
df .x/
D lKm
;
dx
h
h!0

supuesto ese lmite existe. Una funcin f que es derivable en un punto x D a es


continua en a.
Una funcin f W R ! R se dice satisface la condicin de Lipschitz con constante en un conjunto X, si para todo x e y pertenecientes a X se cumple que
jf .x/  f .y/j  jx  yj:
Una funcin que satisface la condicin de Lipschitz en un conjunto X se dice
continua -Lipschitz en ese X, designndose f 2 Lip .X /.
Dada una norma vectorial k  k en Rn y otra matricial k  k en Rmn , m; n > 0,
una funcin g W Rn ! Rmn se dice satisface la condicin de Lipschitz con
constante en un abierto D  Rn , si para todo x e y pertenecientes a D se
cumple que
kg.x/  g.y/k  kx  yk:
Una funcin g que satisface la condicin de Lipschitz en D se dice continua Lipschitz en ese D, designndose g 2 Lip .D/.
Un resultado muy interesante referido a funciones continuas es el teorema de
Weierstrass, que dice que una funcin continua denida en un conjunto compacto
S tiene un punto donde alcanza un mnimo en S. Es decir, existe un x  2 S tal
que para todo x 2 S, f .x/  f .x  /.
35

6 Funciones

Un conjunto de funciones f1 ; f2 ; : : : ; fm de Rn en R se puede considerar como


una funcin vectorial
f D f1 ; f2 ; : : : ; fm T :
Esta funcin asigna a todo vector x 2 Rn otro vector f .x/ D f1 .x/; f2 .x/; : : : ;
fm .x/T de Rm . Tal funcin vectorial se dice continua si lo es cada uno de sus
componentes f1 ; f2 ; : : : ; fm .
Si cada una de las funciones de f D f1 ; f2 ; : : : ; fm T es continua en algn
conjunto abierto de Rn , se dice f 2 C . Si adems cada funcin componente tiene
derivadas parciales de primer orden continuas en ese abierto, se dice que f 2 C 1 .
En general, si las funciones componentes tienen derivadas parciales de orden p
continuas, se indica f 2 C p .
Si f W Rn ! R y f 2 C 1 , se dene el vector gradiente de f como el vector


@f .x/ @f .x/
@f .x/
rf .x/ D
;
;:::;
@x1
@x2
@xn

T
:

Tambin se puede ver expresado alguna vez como fx .x/.


Si f 2 C 2 , se dene la matriz Hessiana de f en x por Ludwig Otto Hesse,
Alemania 1811-1874 como la matriz n  n
3
2 2
@ f .x/ @2 f .x/
@2 f .x/

6 @2 x
@x1 @x2
@x1 @xn 7
7
6
1
7
6 2
2
6 @ f .x/ @ f .x/
@2 f .x/ 7
7
6



2
r 2 f .x/ D 6
@x2 @xn 7
7:
6 @x2 @x1 @ x2
::
::
::
7
6
::
7
6
:
:
:
7
6 2 :
4 @ f .x/ @2 f .x/
@2 f .x/ 5

@xn @x1 @xn @x2
@2 xn
A esta matriz tambin se la puede ver designada como F .x/.
Para la funcin vectorial f D f1 ; f2 ; : : : ; fm T , f 2 C 1 , se dene la matriz
Jacobiana por Carl Gustav Jacob Jacobi, Alemania 1804-1851 como la matriz
mn
3
2
@f1 .x/ @f1 .x/
@f1 .x/



6 @x1
@x2
@xn 7
7
6
7
6 @f2 .x/ @f2 .x/
@f
2 .x/ 7
6

7
6
@x2
@xn 7 :
rf .x/ D J .x/ D 6 @x1
7
6
:
:
:
:
::
::
::
::
7
6
7
6
4 @fm .x/ @fm .x/
@fm .x/ 5

@x1
@x2
@xn
36

6 Funciones

Si f 2 C 2 , es posible denir m Hessianas F1 .x/; F2 .x/; : : : ; Fm .x/ para cada


una de las f1 ; : : : ; fm .
Una funcin f W Rn ! Rm es afn si es la suma de una funcin lineal y una
constante; es decir, tiene la forma f .x/ D Ax C b, donde A 2 Rmn y b 2 Rm .
Teorema 6.1 Teorema de Taylor Si f W Rn ! R y f 2 C 1 en una regin que
contiene el segmento x1 ; x2 , es decir puntos x1 C
.1/x2 ; 0   1, existe un  , 0    1, tal que f .x2 / D f .x1 / C r T f  x1 C .1   /x2 .x2  x1 /:
Adems, si f 2 C 2 , existe un ;
0    1, tal que
f .x2 / Df .x1 / C
r Tf .x1 /.x2  x1 / C 21 .x2  x1 /TF  x1 C .1   /x2 .x2  x1 /; donde F
denota la matriz Hessiana de f .
Si la funcin f W R ! R es continua y derivable k C 1 veces en un intervalo, o
segmento, x; x0 , existe un b entre x y x0 tal que
f 00 .x0 /

2 f 000 .x0 /

f .x/Df .x0 /Cf 0 .x0 / x  x0 C


x  x0 C
x  x0
2
3
k f .kC1/ .b/

kC1
f .k/ .x0 /

x  x0 C
x  x0
C C
:
k
.k C 1/
Las aproximaciones por este teorema para una funcin concreta, sen.x/, se
pueden ver en la gura 6.10.

Figura 6.10: Funcin sen.x/ y, en x D 0, las aproximaciones por Taylor de primer


orden, de orden 3, 5, 7, 9, 11 y 13
37

6 Funciones

Una funcin f W Rn ! R se dice convexa (gura 6.11) si cumple que f .x C


y/  f .x/ C f .y/ para todo x; y 2 Rn y todo ; 2 R, con C D 1,
 0,  0. Si S Rn es un conjunto convexo y f W Rn ! Rm es una funcin
afn, la imagen de f .S / D ff .x/ W x 2 Sg es un conjunto convexo. De forma
similar, si f W Rk ! Rn es una funcin afn, la imagen inversa f 1 .S / D fx W
f .x/ 2 Sg tambin es convexa.
y = f(x)

Figura 6.11: Funcin convexa


Teorema 6.2 Teorema del valor intermedio Si f W R ! R es una funcin
continua en el intervalo a; b, toma todos los valores entre f .a/ y f .b/. Ms
concretamente, si y es un nmero entre f .a/ y f .b/, existe un nmero c dentro
de a; b, es decir, tal que a  c  b, en el que f .c/ D y.

a c

Figura 6.12: Teorema del valor intermedio


Teorema 6.3 Teorema del valor medio Si f W R ! R es una funcin continua
0

y derivable en el intervalo a; b, existe un nmero c entre a y b tal que f .c/ D


f .b/  f .a/ =.b  a/.
38

6 Funciones

f (c)

Figura 6.13: Teorema del valor medio


Teorema 6.4 Teorema de Rolle Si f W R ! R es una funcin continua y
derivable en el intervalo a; b y suponemos que f .a/ D f .b/, existe un nmero
c, entre a y b, tal que f 0 .c/ D 0. G ENERALIZACIN Si f es continua y derivable
n  1 veces en a; b y la derivada de orden n existe en el abierto .a; b/, y existen
n intervalos a1 < b1  a2 < b2  : : :  an < bn en a; b, tales que
f .ak/ D f .bk/ para todo k D 1 : : : n, existe un nmero c en .a; b/ tal que la
derivada de orden n de f en c es cero.

Figura 6.14: Teorema de Rolle


Teorema 6.5 Primer teorema del valor medio de las integrales Si f W R ! R es
una funcin continua en el intervalo a; b, existe entonces al menos un nmero
c entre a y b tal que
Z b
f .x/ dx D f .c/.b  a/:
a

39

6 Funciones

f (c)

Figura 6.15: Teorema del valor medio de las integrales


Teorema 6.6 Segundo teorema del valor medio de las integrales Si f W R ! R
es una funcin continua en el intervalo a; b y g W R ! R una funcin integrable
que no cambia de signo en a; b, existe entonces un nmero c entre a y b tal que
Z

f .x/g.x/ dx D f .c/
a

g.x/ dx:
a

Teorema 6.7 Si f W R ! R es una funcin continua en el intervalo a; b y


a  c  b, entonces
Z x
d
f .t/ dt D f .x/
dx c
para todo x en a; b.
Teorema 6.8 Integracin por partes Sean u.x/ y v.x/ funciones reales continuas
con derivadas continuas. Entonces
Z
Z
0
u .x/v.x/ dx D u.x/v.x/  u.x/v 0 .x/ dx:

6.1 Condiciones necesarias y sucientes de punto mnimo


Se trata de denir condiciones necesarias y sucientes para determinar si dada
f W  ! R,  2 Rn , un punto x  hace mnima esa funcin.
Un punto x  2  se dice que es un mnimo local de la funcin f W  ! R
si existe un > 0 tal que f .x/  f .x  / para todo x 2  a una distancia menor
que de x  . Es decir, para todo x 2  tal que jx  x  j < . Si f .x/ > f .x  /
para todo x 2 , x x  , a una distancia menor que de x  , se dice que x  es
un mnimo local estricto de f en .

40

6 Funciones

Teorema 6.9 Condiciones necesarias de primer orden Sea  un subconjunto de


Rn y una funcin f W  ! R, f 2 C 1 . Si x  en un mnimo local de f en ,
se cumple que rf .x  / D 0.
Si en x  se cumple que rf .x  / D 0, x  se denomina punto estacionario.
Teorema 6.10 Condiciones necesarias de segundo orden Sea  un subconjunto
de Rn y una funcin f W  ! R, f 2 C 2 . Si x  en un mnimo local de f en
, se cumple que rf .x  / D 0 y r 2 f .x  / es semidenida positiva.
Teorema 6.11 Condiciones sucientes de segundo orden Sea  un subconjunto
de Rn y una funcin f W  ! R, f 2 C 2 . Si se cumple que rf .x  / D 0 y
r 2 f .x  / es denida positiva, x  en un mnimo local estricto de f en .
Teorema 6.12 Si f es convexa, cualquier mnimo local x  es un mnimo global
de f . Si adems f es derivable, cualquier mnimo local x  es un mnimo global.

6.2 Teorema de la funcin implcita


Teorema 6.13 Sea x0 D x01 ; x02 ; : : : ; x0n T un punto de Rn que satisface:
(a) Las m funciones fi 2 C p , i D 1; 2; : : : ; m, en algn entorno de x0 , para
alguna p  1.
(b) fi .x0 / D 0; i D 1; 2; : : : ; m:
(c) 2
La

matriz Jacobiana 3 de la funcin


@f1 .x0 /
@f1 .x0 /

6 @x1
@x: m 7
6
7
::
::
::
6
7, es regular.
:
:
4 @fm .x0 /
@fm .x0 / 5

@x1
@xm

vectorial,

rf .x0 /

Entonces existe un entorno de xO 0 D x0mC1 ; x0mC2 ; : : : ; x0n T 2 Rnm tal


O
que para xO D xmC1 ; xmC2 ; : : : ; xn T en ese entorno existen funciones i .x/,
i D 1; 2; : : : ; m tales que:
(i) i 2 C p .
(ii) x0i D i .xO 0 /; i D 1; 2; : : : ; m.
O 2 .x/;
O : : : ; m .x/;
O x/
O D 0; i D 1; 2; : : : ; m.
(iii) fi . 1 .x/;
Este teorema10 es muy til para respaldar la caracterizacin de puntos pti10 Sus

orgenes estn asociados a Newton, Leibnitz y Lagrange, aunque fue formulado por Cauchy
41

7 Optimizacin y Programacin Matemtica

mos en programacin matemtica con y sin condiciones, solucin de ecuaciones


lineales y no lineales y bastantes otras cuestiones.
Supngase que se tiene una funcin vectorial f W Rn ! Rm que cumple que
fi .x/ D 0, i D 1; 2; : : : ; m: El teorema de la funcin implcita estudia, si nm de
las variables son jas, si el problema se puede resolver en m incgnitas. Es decir,
si x1 , x2 ; : : : ; xm se pueden expresar en funcin de las restantes n  m de la forma
xi D i .xmC1 ; xmC2 ; : : : ; xn / ;

i D 1; 2; : : : ; m:

A las funciones i W Rnm ! R, si existen, se las denomina funciones implcitas.


Ejemplo 6.1 Consideremos la ecuacin x12 C x2 D 0. Una solucin de la misma
es x1 D, x2 D 0. En un entorno de esta solucin, sin embargo, no hay funcin
tal que x1 D .x2 /. En esta solucin no se cumple la condicin .c/ del teorema
u
de la funcin implcita. En cualquier otra solucin si existe dicha .
Ejemplo 6.2 Sea A una matriz m  n y considrese el sistema de ecuaciones
lineales Ax D b. Si A se estructura as, A D B; C , donde B es mm, entonces
se satisface la condicin .c/ del teorema de la funcin implcita si, y slo si, B
es regular. Esta condicin se corresponde con los requisitos y enunciados de la
teora de ecuaciones lineales. La funcin implcita se puede considerar como una
u
generalizacin no lineal de la teora lineal.

7 Optimizacin y Programacin Matemtica

A Optimizacin o Programacin Matemtica tiene por objeto el estudio del


problema
f .x/
minimizar
n
x2R

sujeta a

ci .x/ D 0;
cj .x/  0;

i 2 E;
j 2 I:

Las funcin objetivo f y las condiciones ci y cj son, en general, no lineales, continuas y tienen derivadas parciales continuas hasta al menos primer orden. Los
conjuntos E y I contienen los ndices de las condiciones que son de igualdad y
de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas las
condiciones se denomina regin factible.
Para caracterizar las soluciones de estos problemas y denir sus algoritmos y
procedimientos de resolucin la optimizacin presta una atencin fundamental a
los conjunto convexos.
42

7 Optimizacin y Programacin Matemtica

Figura 7.16: Conjuntos convexos izquierda; no convexos derecha

7.1 Conjuntos convexos


Un conjunto C Rn se dice convexo si y slo si para todo par de puntos
x1 ; x2 2 C todas las combinaciones de la forma x D x1 C .1  /x2 , con
0    1, estn en C . Es decir, cuando para cada par de puntos del conjunto
convexo todos los de la recta que los une estn en el conjunto.
La expresin x D x1 C .1  /x2 , 0    1, dene la combinacin convexa
de x1 y x2 . Si 0 <  < 1, es decir  2 .0; 1/, la combinacin se denomina
estrictamente convexa.
El concepto de combinacin convexa se puede generalizar a cualquier nmero
nito de puntos de la siguiente manera:
xD

p
X

i xi ;

iD1

donde

Pp
iD1

i D 1, i  0, i D 1; : : : ; p.
f(x,y) = - x - y
ptimo local

ptimo global

Figura 7.17: Optimizacin (minimizacin) de f .x; y/ D x  y en un conjunto


convexo y en otro que no lo es.
43

7 Optimizacin y Programacin Matemtica

El conjunto interseccin de todos los conjuntos convexos que contienen a un


subconjunto S Rn se llama envoltura convexa de S (gura 7.18) y se designa
por conv.S /.

Figura 7.18: Envoltura convexa de dos conjuntos de R2 . La de la izquierda de 15


puntos; la de la derecha de un conjunto no convexo
Un conjunto C Rn se dice que es afn (tambin se dice que C es una variedad afn o una variedad lineal) si para cualesquiera x; y 2 C y cualquier  2 R
se tiene que .1  /x C y 2 C . El conjunto vaco es afn. Una combinacin afn
de vectores v1 ; v2 ; : : : ; vn es una combinacin lineal c1 v1 C    C cn vn en la que
c1 C    C cn D 1.
Un conjunto C Rn es afn si y slo si es de la forma
C D fa C l W a 2 Rn ; l 2 Lg ;
donde L es un subespacio vectorial de Rn asociado a C . Es decir, un conjunto afn
es un subespacio desplazado del origen. La dimensin de un conjunto afn x C L
es la de su correspondiente subespacio L. Un plano afn en Rn es un traslado de un
subespacio de Rn . Una recta en Rn es un plano afn de dimensin 1. Es evidente
que cualquier conjunto afn es convexo aunque el recproco no es cierto en general.
Si S Rn , la envoltura afn de S, aff.S /, es la interseccin de todos los conjuntos anes que contienen a S. Como se puede comprobar, aff.S / D aff.conv.S //.
Un conjunto de puntos o vectores fv1 ; : : : ; vp g de Rn es afnmente dependiente
si existen nmeros reales c1 ; : : : ; cp no todos cero tales que c1 C    C cp D 0 y
c1 v1 C    C cp vp D 0. De lo contrario ser afnmente independiente.
Un simplex o simplejo es la envolvente convexa de un conjunto nito de vectores afnmente independientes. Para construir un simplex k-dimensional o ksimplex se procede como sigue (ver gura 7.19):
0-simplex S 0 W un solo punto fv1 g
1-simplex S 1 W conv.S 0 [ fv2 g/ con v2 no en aff.S 0 /
2-simplex S 2 W conv.S 1 [ fv3 g/ con v3 no en aff.S 1 /
44

7 Optimizacin y Programacin Matemtica

::
:
k-simplex S k W conv.S k1 [ fvkC1 g/ con vkC1 no en aff.S k1 /:

v1

v1

v1
S0

v2
S1

v1

v2

v3

v4

v2

S2

v3
S3

Figura 7.19: El simplex S 1 es un segmento de recta. El tringulo S 2 proviene de


seleccionar un punto v3 que no est en la recta que contiene a S 1 y despus formar
la envolvente convexa con S 1 . El tetraedro S 3 se produce al elegir un punto v4
que no est en el plano de S 2 y despus formar la envolvente convexa con S 2
Sea S D fv1 ; : : : ; vk g un conjunto afnmente independiente. Para cada punto p
en aff.S / los coecientes c1 ; : : : ; ck de la representacin11 p D c1 v1 C    C ck vk
son las coordenadas baricntricas de p. Estas coordenadas tienen interpretaciones
fsicas y geomtricas de inters. Fueron originalmente
denidas
en
por Au 
1827



gust F. Mbius, Alemania 1790-1868. Si a D 17 , b D 30 , c D 93 y p D 53 ,
el punto p en el centro de la gura 7.20 tiene por coordenadas baricntricas tres
nmeros no negativos ma , mb y mc tales que p es el centro de masa de un sistema
que consiste en le tringulo (sin masa) y las masas ma , mb y mc en los vrtices
correspondientes. Las masas estn unvocamente determinadas al requerir que su
suma sea 1.
Proposicin 7.1 El conjunto de soluciones de un sistema de ecuaciones lineales,
C D fx W Ax D b; A 2 Rmn ; b 2 Rm g, es un conjunto afn.
D EMOSTRACIN . En efecto, supongamos que x1 ; x2 2 C , es decir, Ax1 D b,
Ax2 D b. Entonces, para cualquier  ,
A . x1 C .1   / x2 / D  Ax1 C .1   / Ax2
D  b C .1   / b
D b;
11 nica.

45

7 Optimizacin y Programacin Matemtica

a
rea = srea(abc )

rea = t rea(abc )

rea = rrea(abc )

5
Figura 7.20: Punto p D ra C sb C t c. En este caso r D 14 , s D 13 y t D 12
:

lo que prueba que la combinacin afn  x1 C.1 /x2 est tambin en el conjunto
C . El subespacio asociado con el conjunto afn C en este caso es el espacio nulo
de A, ker.A/.
Un conjunto C Rn se dice un cono si para todo x 2 C , x 2 C , para

Figura 7.21: Tres conos: el primero y el segundo no son convexos; el tercero si


todo escalar  2 R tal que   0. Un cono que tambin es convexo se denomina
cono convexo (gura 7.21). En este caso, para todo x1 ; x2 2 C y 1 ; 2  0,
1 x1 C 2 x2 2 C .
El conjunto fx 2 Rm W x D A; A 2 Rmn ; 2 Rn ;  0g es un cono
convexo generado por los vectores columna de la matriz A.
El conjunto de todas las combinaciones cnicas de los puntos de un conjunto
C , 1 x1 C    C k xk , 1 ; : : : ; k  0, es la envoltura cnica de C , cone.C /.
Un punto x es un punto extremo o vrtice de un conjunto convexo C si y slo
si no es interior a un segmento de recta contenido en C . Es decir, si y slo si
x D .1  /y C z con 0 < < 1 y y; z 2 C ) x D y D z:
46

7 Optimizacin y Programacin Matemtica

Figura 7.22: Envoltura cnica de los dos conjuntos de la gura 7.18


Dos resultados importantes de Constantin Carathodory, Alemania, 1873-1950,
n
dicen que
Pn si X R y x 2 cone.X /, existen xi y i , i D 1; : : : ; n, tales que
x D
iD1 i xi . Es decir, cualquier elemento de la envoltura cnica de X es
combinacin cnica de, a lo sumo, n puntos de X. Igualmente, P
si X Rn y
x 2 conv.X /, existen xi y i , i D 1; : : : ; n C 1, tales que x D inC1
D1 i xi . Es
decir, cualquier elemento de la envoltura convexa de X es combinacin convexa
de, a lo sumo, n C 1 puntos de X. La gura 7.23 ilustra estos resultados.

Figura 7.23: El teorema de Carathodory


Llamaremos hiperplano H de vector caracterstico a 2 Rn ; a 0, al conjunto
H D fx 2 Rn W aT x D cg, con c 2 R. Un hiperplano es el conjunto de soluciones
de una ecuacin lineal en Rn .
Un hiperplano en Rn es un espacio afn o una variedad lineal .n  1/ dimensional.
Dado un hiperplano H , aT x D c, llamaremos semiespacios cerrados de borde
H a los conjuntos HC D fx 2 Rn W aT x  cg y H D fx 2 Rn W aT x 


cg. Semiespacios abiertos de borde H a HV C D x 2 Rn W aT x > c y HV  D


x 2 Rn W aT x < c . Los semiespacios de borde H son convexos; la unin de HC
y H es el espacio Rn . En la gura 7.24 se representa el hiperplano x1 C 4x2 D
47

7 Optimizacin y Programacin Matemtica

11, su vector caracterstico a D 1; 4T y los semiespacios HC y H .


a
H+
x
0
x
a

y
H

Figura 7.24: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide
R2
En un hiperplano aT x D c la constante c determina el desplazamiento del
hiperplano del origen. Un hiperplano se puede expresar de la forma fx W aT .x 
x0 / D 0g, donde x0 es cualquier punto del hiperplano (aT x0 D c). Esa ltima
expresin se puede trabajar un poco ms pues fx W aT .x  x0 / D 0g D x0 C a? ,
donde a? es el complemento ortogonal de a, es decir fv W aT v D 0g. Lo que
lleva a que un hiperplano consiste en un desplazamiento x0 ms todos los vectores
ortogonales al vector caracterstico a: el conjunto de soluciones de aT x D c:
x0 C ker.a/, recordemos.
Un politopo es un conjunto formado por la interseccin de un nmero nito de
semiespacios cerrados. Un politopo cnico es un conjunto formado por la interseccin de un nmero nito de semiespacios cerrados que pasan por un punto.
Un poliedro es un politopo acotado y no vaco: ver gura 7.25. Es fcil comprobar que la interseccin de conjuntos convexos es convexa y que, por lo tanto,
los politopos y los poliedros son conjuntos convexos. Si un politopo P es un poliedro, cualquier punto se puede expresar como combinacin convexa de sus puntos
extremos o vrtices.
Teorema 7.2 Sea C un conjunto convexo e y un punto exterior a la adherencia
de C . Existe un vector a tal que aT y < Knfx2C aT x.
D EMOSTRACIN . Sea
D Knf kx  yk2 > 0:
x2C

Existe un x0 en la frontera de C tal que kx0  yk2 D . Esto es as pues la


funcin continua f .x/ D kx  yk2 alcanza su mnimo en cualquier conjunto
48

7 Optimizacin y Programacin Matemtica

Figura 7.25: Diversos politopos; el del centro es un poliedro


cerrado y acotado por lo que slo es necesario considerar x en la interseccin de
la adherencia de C y la bola abierta de centro y y radio 2.
A continuacin probaremos que a D x0  y satisface las condiciones del
enunciado del teorema. En efecto, para cualquier , 0   1, al ser C un
conjunto convexo, el punto x0 C .x  x0 / 2 C , por lo que
kx0 C .x  x0 /  yk22  kx0  yk22 :
Desarrollando,
2.x0  y/T .x  x0 / C 2 kx  x0 k22  0:
Considerando esta expresin cuando ! 0C, se tiene que
.x0  y/T .x  x0 /  0
o que
.x0  y/T x  .x0  y/T x0 D .x0  y/T y C .x0  y/T .x0  y/
D .x0  y/T y C 2 :
Haciendo a D x0  y queda probado el teorema.
La interpretacin geomtrica de este teorema es que dado un conjunto convexo
C y un punto y exterior a la adherencia de C existe un hiperplano que contiene a
y, sin tocar a C , estando C en uno de sus semiespacios abiertos. Ese hiperplano,
de vector caracterstico a en el teorema, se denomina hiperplano separador de C
e y.
Si C y D son dos conjuntos convexos disjuntos, C \D D ;, existe entonces un
a 0 y un b tales que aT x  b, para todo x 2 C , y aT x  b, para todo x 2 D.
T
Dicho de otra manera,
la funcin
 a x  b es no positiva en C y no negativa en D.

T
El hiperplano x W a x D b es un hiperplano separador de los conjuntos C y D
como se ve en la gura 7.26.
49

7 Optimizacin y Programacin Matemtica

aT x b

aT x b

D
C
a

Figura 7.26: Hiperplano separador entre C y D


Existen bastantes principios de dualidad (en especial en la teora y tcnicas de
optimizacin) que relacionan un problema en trminos de vectores en un espacio
vectorial con otro en trminos de subespacios en ese espacio. En varios de esos
principios est presente la relacin que se ilustra en la gura 7.27 que indica que
la distancia ms corta de un punto a un conjunto convexo es igual al mximo de
las distancias desde el punto a los hiperplanos que separan el conjunto convexo del
punto. El problema original de minimizacin sobre vectores se convierte en otro
de maximizacin sobre hiperplanos.

Figura 7.27: Distancia ms corta de un punto a un conjunto convexo en trminos


de hiperplanos separadores
Teorema 7.3 Sea C un conjunto convexo e y un punto frontera de C . Existe un
hiperplano que contiene a y y a C en uno de sus semiespacios cerrados.
D EMOSTRACIN . Sea fy .k/ g una sucesin de puntos exteriores a la adherencia
de C . Sea fa.k/ g la sucesin de puntos normalizados, ka.k/ k2 D 1, obtenida de
50

7 Optimizacin y Programacin Matemtica

aplicar el teorema anterior a la sucesin anterior, tales que,




a.k/


T
y .k/ < Knf a.k/ x:
x2C

Como fa.k/ g es una sucesin acotada, una subsucesin fa.k/ g, k 2 H, converger


a un lmite a. Para este a se tiene que, para cualquier x 2 C ,

T

T
aT y D lKm a.k/ y .k/  lKm a.k/ x D aT x:
k2H

k2H

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios


cerrados y que contiene algn punto frontera de C se denomina hiperplano de
apoyo de C .
De acuerdo con esta denicin, el teorema anterior dice que dado un conjunto
convexo C y un punto frontera y de C existe un hiperplano de apoyo de C que
contiene y.


En la gura 7.28 x W aT x D aT x0 es el hiperplano de apoyo de C en el

a
x0
C

Figura 7.28: Hiperplano de apoyo de C en x0


punto x0 : el punto x0 y el conjunto C estn separados por el hiperplano fx W
aT x D aT x0 g. Geomtricamente quiere decir que el hiperplano fx W aT x D
aT x0 g es tangente al conjunto C en x0 y el semiespacio x W aT x  aT x0 contiene
a C.
Si S es un politopo de dimensin 3 en R3 un cubo y H un plano que se
traslada en R3 hasta que apenas se apoya en el cubo, pero no corta el interior de
ste, hay tres posibilidades para H \ S dependiendo de la orientacin de H . Se
ven en la gura 7.29.

51

7 Optimizacin y Programacin Matemtica

H
H

H
H S es bidimensional

H S es unidimensional

H S es de dimensin 0

Figura 7.29: H \ S es una cara cuadrada bidimensional del cubo, una arista unidimensional del cubo o un vrtice de dimensin 0 del cubo
Lema 7.4 (Farkas) El sistema de ecuaciones
.I /

Ax D b;

x  0;

no tiene solucin si y slo si la tiene el sistema


.II /

y T A  0T ;

bT y > 0;

donde A 2 Rmn .
D EMOSTRACIN . El lema por Farkas Bolyai, Hungra 1775-1856 se puede
reformular de la siguiente manera. Si existe un x  0 tal que Ax D b, no existe
ningn y tal que y T A  0T y bT y > 0. Recprocamente, si no existe ningn
x  0 tal que Ax D b, existe un y tal que y T A  0T y bT y > 0.
Supongamos que el sistema (I) tiene una solucin x tal que Ax D b y x  0.
Sea y un punto tal que y T A  0T . En este caso bT y D x T A T y  0 pues x  0
y y T A  0T . Esto demuestra que bT y no puede ser positivo y, por lo tanto, el
sistema (II) no tiene solucin.
Supongamos ahora que el sistema (I) no tiene solucin. Esto quiere decir que
b S D fv D Ax W x  0g; es decir que b no pertenece al politopo cnico S.
Observando la gura 7.30, est claro que si b S, existe un hiperplano separador
denido por un y, que separa S y b, y para el cual y T ai  0, i D 1; : : : ; n
y y T b > 0, es decir, y forma un ngulo de ms de 90 grados con cada uno de
los vectores columna de A y de menos de 90 grados con12 b. Esto verica que el
sistema (II) tiene solucin.
12 El hiperplano separador del politopo cnico S de la gura debera casi tocar a ste a lo largo de
a5 . El hiperplano de apoyo correspondiente, s tocara a a5 .

52

7 Optimizacin y Programacin Matemtica

Politopo c
onico S

a3

a2

a1

a4

a5

Hiperplano

b
/S
y

Figura 7.30: Demostracin del lema de Farkas


El lema de Farkas es un resultado importante para el estudio de sistemas lineales de inecuaciones. Su interpretacin geomtrica es la siguiente:
1. Si ai ; i D 1; : : : ; n, son los n vectores columna de la matriz
P A, que se cumpla
que b D Ax, x  0, quiere decir que el vector b D niD1 ai xi , xi  0; en
otras palabras, que b pertenece al politopo cnico generado por los vectores
columna de A. En la gura 7.31, a la izquierda, se muestra un ejemplo donde
el sistema (I) no tiene solucin: el vector b no pertenece al cono generado por
a1 , a2 , a3 y an . La interseccin del cono fy W y T A  0T g (conjunto formado
por los vectores y que forman un ngulo mayor o igual de 90 con los vectores
columna de la matriz A) y el semiespacio abierto fy W bT y > 0g, no es el
conjunto vaco: el sistema (II) tiene solucin, pues b y cualquier y en el cono
que dene la zona sombreada forma un ngulo menor de 90 y, por lo tanto,
bT y > 0.
2. El sistema (II) no tiene solucin si la interseccin del cono fy W y T A  0T g y
53

7 Optimizacin y Programacin Matemtica

Semiespacio abierto {y : bT y > 0}

a2

a2
a1

an
an

a3
b

a1

Semiespacio abierto {y : bT y > 0}

Cono {y : y T A 0T }

Cono {y : y T A 0 T }

Figura 7.31: Izquierda: El sistema (I) del lema de Farkas no tiene solucin; si (II).
Derecha: El sistema (II) no tiene solucin; la tiene (I)
el semiespacio abierto fy W bT y > 0g es el conjunto vaco. En la gura 7.31 a
la derecha se muestra un ejemplo donde el sistema (II) no tiene solucin. Todo
vector y en la zona que dene el cono indicado forma un ngulo mayor de 90
con b. La tiene sin embargo (I) pues b pertenece al cono generado por a1 , a2 y
an .

7.2 Caracterizacin del problema de optimizacin y condiciones


de punto ptimo
Volvamos al problema general de Optimizacin
minimizar
f .x/
n
x2R

sujeta a

ci .x/ D 0;
cj .x/  0;

i 2 E;
j 2 I;

donde las funcin objetivo f y las condiciones ci y cj son, en general, no lineales,


continuas y tienen derivadas parciales continuas hasta al menos primer orden. Los
conjuntos E y I contienen los ndices de las condiciones que son de igualdad y
de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas las
condiciones se denomina regin factible.
54

7 Optimizacin y Programacin Matemtica

Un punto x que satisfaga todas las condiciones se dice regular si los vectores
gradiente del conjunto de condiciones activas en ese punto son linealmente independientes.
Un caso particular del problema de programacin matemtica enunciado es
uno de Programacin Lineal:
min. c T x
s. a

Ax D b
x  0:

As expresado se denomina en forma estndar. La regin factible, o conjunto de


soluciones del programa lineal, P D fx 2 Rn W Ax D b; x  0g, es un politopo
convexo.
Teorema 7.5 Condiciones de ptimo de primer orden de Karush-Kuhn-Tucker
Supngase que x  es un punto regular y mnimo local del problema general
de programacin matemtica anterior. Existe un vector de multiplicadores de
Lagrange,  , con coecientes i , i 2 E [ I, tal que se cumple que
rx L.x  ;  / D rf .x  /  T c.x  / D 0;
ci .x  / D 0; para todo i 2 E;
ci .x  /  0; para todo i 2 I;
i  0; para todo i 2 I;
i ci .x  / D 0; para todo i 2 E [ I:
Teorema 7.6 Equivalencia entre puntos extremos y soluciones bsicas Sean A 2
Rmn una matriz de rango m, b 2 Rm y el politopo convexo
P D fx 2 Rn W Ax D b; x  0g :
Un x 2 P es un punto extremo de P si y slo si los vectores columna de A
asociados a los coecientes positivos de x son linealmente independientes.
D EMOSTRACIN . Supongamos sin prdida de generalidad que los p primeros
coecientes del vector x son positivos y los np ltimos cero. Si x D xN T ; 0T T ,
N las p primeras columnas de la matriz A, se tiene que
xN > 0, y designamos por A
N
Ax D A xN D b.
Probemos primero la necesidad de la condicin enunciada. Supongamos que
N no son linealmente independientes. En este caso existir un
las columnas de A
Nw
N xN "w/
N xN D b y, para
N D 0. De aqu que A.
N D A
N 0 tal que A
vector w
N wN 
N  0. Los puntos y 0 D xC"
y
un " sucientemente pequeo, que .xN "w/
0
55

7 Optimizacin y Programacin Matemtica

N wN 
estn, por consiguiente, en P . Adems, dado que x D .y 0 C y 00 /=2,
y 00 D x"
0
x no puede ser un punto extremo de P . Como consecuencia de esto, si x es un
N son linealmente dependientes.
punto extremo, las columnas de la matriz A
Probemos ahora la suciencia. Supongamos que x no es un punto extremo de
P . Esto quiere decir que x D y 0 C .1  /y 00 , donde y 0 ; y 00 2 P; y 0 y 00 y 0 <
 < 1. Como x e y 0 estn en P , A.x  y 0 / D Ax  Ay 0 D b  b D 0. Adems,
dado que  y 1 son estrictamente positivos, los ltimos np coecientes de y 0
y, por consiguiente, de x  y 0 , han de ser cero pues lo son los de x. Las columnas
N en consecuencia, son linealmente dependientes. De aqu que, si las
de la matriz A,
N son linealmente independientes, x es un punto extremo.
columnas de A
Una direccin del politopo P D fx 2 Rn W Ax D b; x  0g es un vector no
nulo, d 2 Rn , tal que para todo x0 2 P el rayo fx 2 Rn W x D x0 C d;   0g
pertenece a P .
Una direccin d de un politopo P se dice extrema si no puede ponerse como
combinacin lineal no negativa de dos direcciones diferentes de P . Es decir, no
existen dos direcciones d1 y d2 en P , d1 d2 , y unos 1 ; 2 > 0, tales que
d D 1 d1 C 2 d2 .
Cualquier direccin de un politopo se puede expresar como combinacin lineal no negativa de las direcciones extremas del politopo. Si P es un poliedro,
obviamente, no tiene direcciones.
Teorema 7.7 Teorema de la representacin Todo punto del politopo P D fx 2
Rn W Ax D b; x  0g se puede expresar de la forma
X
i vi C d;
xD
i 2I

donde fvi W i 2 I g es el conjunto de puntos extremos o vrtices de P ,


1, i  0, y d, o es una direccin de P , o d D 0.

P
i2I

i D

D EMOSTRACIN . La haremos por induccin en p, nmero de coecientes positivos de x. Si p D 0, el teorema es obvio, pues x D 0 es un punto extremo.
Supongamos que se cumple lo enunciado para puntos con menos de p coecientes
positivos y que x tiene p coecientes positivos.
Si x es un punto extremo, como x D vi para algn i 2 I , el teorema es
obvio. Supongamos por tanto que x no es un punto extremo. En este caso existe
un vector w 0, con wi D 0 si xi D 0, tal que Aw D 0. Se pueden dar los tres
casos siguientes:
(a) Que w tenga coecientes positivos y negativos. Consideremos los puntos
x. / D x C  w en la recta que pasa por x que determina w, y sean  0 y  00
56

7 Optimizacin y Programacin Matemtica

el menor valor positivo y mayor valor negativo, respectivamente, de  para


los que x. / tiene al menos un coeciente cero ms que los que tiene x. Los
puntos x 0 D x. 0 / y x 00 D x. 00 / pertenecen claramente a P por lo que,
por la hiptesis de induccin, al tener un coeciente nulo ms, se pueden
expresar segn lo enunciado en el teorema. En consecuencia, como x est
en la recta que une x 0 y x 00 , se puede expresar de la siguiente manera
x D x 0 C .1  /x 00
D

0i vi C d 0

donde D  00 =. 0   00 /
!
X
00i vi C d 00
C .1  /

i 2I

i2I


X
00
0i C .1  /i vi C d 0 C .1  /d 00 :
D
i2I

P
P
Como 0 < < 1, 0i  0 y 00i  0 para todo i 2 I , i2I 0i D i 2I 00i D
1 y Ad 0 D Ad 00 D 0, d 0  0 y d 00  0. Se deduce entonces que
X
00
i D 0i C .1  /i  0 para todo i 2 I;
i D 1;
i 2I

d D d 0 C .1  /d 00  0

y Ad D 0;

quedando probado que x se puede expresar de la forma enunciada.


(b) Que w  0. Denamos x 0 como en el caso (a). El punto x se puede expresar
como x D x 0 C  0 .w/, con  0 > 0. Como x 0 se puede expresar por
induccin en la forma deseada y .w/ es una direccin en P , x tambin se
puede expresar de la forma enunciada.
(c) Que w  0. Este caso se prueba igual que el caso (b) sin ms que sustituir
x 0 ,  0 y w por x 00 ,  00 y w, respectivamente.
Corolario 7.8 Si el politopo P D fx 2 Rn W Ax D b; x  0g es no vaco, tiene
al menos un punto extremo o vrtice.
Corolario 7.9 Si el politopo P D fx 2 Rn W Ax D b; x  0g es cerrado y
acotado (es un poliedro), todo punto x 2 P se puede expresar como combinacin
convexa de sus puntos extremos.
Teorema 7.10 Teorema fundamental de la Programacin Lineal Dado un politopo no vaco P D fx 2 Rn W Ax D b; x  0g de soluciones de un PL, el valor
mnimo de la funcin objetivo c T x, para x 2 P , se alcanza en un punto extremo
de P (solucin bsica factible ptima), o c T x no est acotada inferiormente en
P.
57

7 Optimizacin y Programacin Matemtica

x4
x3
x
x5

x2
y

x1

Figura 7.32: Representacin de un punto de un politopo (poliedro) como combinacin convexa de puntos extremos
D EMOSTRACIN . Sea V D fvi W i 2 I g el conjunto de puntos extremos de P .
Como P es no vaco, al menos tiene un punto extremo vi 2 V . De acuerdo con
el teorema de la representacin, o el politopo P posee una direccin d tal que
c T d < 0, o tal direccin no existe. Consideremos estos dos casos.
(a) El politopo P tiene una direccin d tal que c T d < 0. En este caso P no
est acotado y el valor de la funcin objetivo tiende a 1 en la direccin d.
(b) El politopo P no tiene una direccin d tal que c T d < 0. En este caso
cualquier x 2 P se puede expresar de una de las dos maneras siguientes:
X
X
xD
i v i
donde
i D 1; i  0 o
i 2I

i2I

xD

i vi C dN

donde

i D 1;

i  0 y

c T dN  0:

i 2I

i2I

En ambos casos, suponiendo que c T vmi n es el menor de los elementos del


conjunto fc T vi W i 2 I g, se tiene que
!
X

X

cT x 
i c T vi  c T vmi n
i D c T vmi n :
i 2I

i2I
T

Es decir, el mnimo de c x se alcanza en un punto extremo de P : vmi n .

7.3 Dualidad
La Dualidad juega un papel destacado en Programacin Lineal y no lineal.
Sirve para caracterizar y vericar la optimalidad de un proceso iterativo y las con58

7 Optimizacin y Programacin Matemtica

diciones en que se da el ptimo, para analizar la sensibilidad de una solucin a


la variacin de los parmetros del problema, para estudiar la velocidad de convergencia de determinados algoritmos de optimizacin que usan su formulacin y
contemplar diversos aspectos geomtricos que permiten interpretar mejor lo que
se est haciendo en la bsqueda de una solucin.
Las ideas y formulacin que exponemos a continuacin siguen enteramente lo
que expone al respecto el libro de Luenberger citado en el apartado de bibliografa. Se basa en una forma elegante y global de contemplar la dualidad en trminos
de conjuntos e hiperplanos que tocan esos conjuntos. Evidencia el papel de los
multiplicadores de Lagrange como denidores de hiperplanos que pueden ser considerados los duales de puntos en un espacio vectorial. Esta forma terica de enfrentarse a la dualidad proporciona una simetra entre los problemas primal y dual,
la cual pude considerarse perfecta si los problemas son convexos. Si no lo son, la
imperfeccin la plasma el denominado gap de dualidad o brecha dual, que tiene
una interpretacin geomtrica muy sencilla en este contexto y mucha importancia
en los algoritmos de programacin lineal y no lineal.
En el problema dual las incgnitas por resolver son los multiplicadores de Lagrange del problema primal, que miden las sensibilidades del primal a variaciones
en los coecientes que determinan las condiciones de este problema y determinan
como unas penalizaciones que se introducen en su funcin objetivo por no utilizar
adecuadamente los recursos que jan esas condiciones. La funcin de Lagrange
incorpora as toda la informacin disponible del problema.
La teora global que se expone en este apndice es la base general sobre la que
construir dualidades de tipo local de los diversos problemas lineales y no lineales, incluso sin la existencia de convexidad, o en algoritmos especializados para
problemas de Programacin Lineal como los de punto interior, dual del Smplex,
etc.
De momento vamos a referirnos a problemas de programacin matemtica como
f .x/
minimizar
n
x2R

sujeta a

g.x/  0
x 2 ;

(1)

donde  2 Rn es un conjunto convexo y las funciones, la escalar f W Rn ! R y la


vectorial g W Rp ! Rn , estn denidas en . Este problema no es necesariamente
convexo pero se asume que tiene al menos un punto factible. Esta notacin es perfectamente compatible con otras que se utilizan sin ms que adoptar la convencin
de signos adecuada.

59

7 Optimizacin y Programacin Matemtica

La funcin primal asociada a (1) se dene, para un z 2 Rp , como


!.z/ D Knf ff .x/ W g.x/  z; x 2 g:

(2)

Se llega a ella dejando que el trmino de la derecha de la inecuacin que denen


las condiciones pueda tomar valores arbitrarios. Se entiende que (2) est denida
en el conjunto D D fz W g.x/  z; para algunos x 2 g.
Si el problema (1) tiene una solucin x  con un valor de la funcin objetivo
igual a f  D f .x  /, entonces f  es el punto de eje vertical de RpC1 donde la
funcin primal se cruza con ese eje. Si (1) no tiene solucin ese punto de cruce es
f  D Knf ff .x/ W g.x/  0; x 2 g.
El principio de dualidad se deduce de la consideracin de todos los hiperplanos
que quedan por debajo de la funcin primal. Como ilustra la gura 7.33, todos los
hiperplanos que se indican se cruzan con el eje vertical por debajo de f  , o en f  .

w(z)

f*
Hiperplano
debajo de w(z)

Figura 7.33: Hiperplano por debajo de !.z/.


Para expresar esta propiedad se dene la funcin dual en el cono positivo de
Rp como


(3)
./ D Knf f .x/ C Tg.x/ W x 2  :
p
En general, puede que no sea nita dentro del ortante positivo, RC
, pero la
regin donde est denida es convexa.

Proposicin 7.11 La funcin dual es cncava en la regin donde es nita.

60

7 Optimizacin y Programacin Matemtica

D EMOSTRACIN . Supngase que 1 y 2 estn en la regin nita y sea 0  


1. Entonces
.1 C .1  2 // D Knf ff .x/ C .1 C .1  /2 /T g.x/ W x 2 g
 Knf ff .x1 / C T1 g.1 / W x1 2 g
C Knf f.1  /f .x2 / C .1  /T2 g.x2 / W x2 2 g
D .1 / C .1  / .2 /:
Se dene  D sup f ./ W   0g, suponindose que el supremo se extiende
a toda la regin donde es nita.
Proposicin 7.12 Forma dbil de dualidad.   f  .
D EMOSTRACIN . Para todo   0 se tiene que
./ D Knf ff .x/ C T g.x/ W x 2 g
 Knf ff .x/ C T g.x/ W g.x/  0; x 2 g
 Knf ff .x/ W g.x/  0; x 2 g D f  :
Adoptando e supremos de .x/ se tiene que   f  .
De acuerdo con este resultado la funcin dual proporciona cotas inferiores del
valor ptimo de f .
La funcin dual tiene una interpretacin geomtrica interesante. Si se considera
el vector 1 T T 2 RpC1 , con   0 y la constante c, el conjunto de vectores
r zT T 2 RpC1 tales que el producto interior 1 T r zT T r C T z D c
dene un hiperplano en RpC1 . Para diferentes valores de c se tiene diferentes
hiperplanos, todos paralelos entre si.
Para un vector dado 1 T T consideremos el hiperplano ms bajo posible de
esa forma que casi toca soporta la regin de encima de la funcin primal del
problema (1). Supongamos que x1 dene ese punto de contacto y que r D f .x1 /
y z D g.x1 /. Se tendr que c D f .x1 / C T b.x1 / D ./.
Ese hiperplano se cruzar con el eje vertical en un punto de la forma r0 0T .
Este punto tambin satisfar que 1 T T r0 0T D c D ./. Lo que lleva a
que c D r0 . Por lo que ese punto dar ./ directamente. La funcin dual en 
es igual al punto donde se cruzan el hiperplano denido por  que justo toca el
epigrafo el conjunto de puntos situados por encima del grco de una funcin
de la funcin primal.
Adems, como indica la gura 7.34, ese punto de cruce (y el valor de la funcin
dual) se maximiza con el multiplicador de Lagrange que corresponde al plano ms
61

7 Optimizacin y Programacin Matemtica

w (z)

gap de dualidad

hiperplano ms alto
z

Figura 7.34: Hiperplano ms alto.


alto posible que intercepta el eje vertical, siendo el punto de esa intercepcin menor
o igual que el valor ptimo f  . La diferencia constituye el gap de dualidad.
Si se incorporan suposiciones de convexidad el anlisis que estamos haciendo
se completa con el teorema de la dualidad fuerte cuando no hay gap de dualidad y
la interseccin de esos planos con el eje vertical es el propio f  . Se puede ver en
la gura 7.35.
El teorema de la dualidad fuerte lo referimos al problema general
f .x/
minimizar
n
x2R

sujeta a

h.x/ D 0
g.x/  0
x 2 ;

(4)

donde h W Rm ! Rn es afn, g W Rp ! Rn es convexa y  es convexo. La


funcin dual de este problema es
.; / D Knf ff .x/ C Th.x/ C Tg.x/ W x 2 g;

(5)

y  D sup f .; / W  2 Rm ;  2 Rp ;   0g.


Un punto x que satisfaga todas las condiciones que se cumplen se dice regular
si los vectores gradiente del conjunto de condiciones activas en ese punto son
linealmente independientes. Una funcin h.x/ es regular con respecto a  si el
conjunto C D fy W h.x/ D y para algn x 2 g de Rn contiene una bola abierta
en torno a 0; es decir, C contiene un conjunto de la forma fy W jyj < "g para algn
" > 0. Esto viene a decir que h.x/ puede hacerse 0 y variar arbitrariamente en
62

7 Optimizacin y Programacin Matemtica

w (z)

f * =

hiperplano ptimo

Figura 7.35: Expresin grca del teorema de la dualidad fuerte . No hay gap de
dualidad.
torno a 0 en cualquier direccin. Esta condicin es similar a la denicin de punto
regular en el contexto de las condiciones de ptimo de primer orden.
Teorema 7.13 Teorema de la dualidad fuerte Supongamos que en el problema
(4) h es regular con respecto a  y que existe un punto x 2  en el que h.x/ D 0
y g.x/  0.
Supongamos que el problema tiene como solucin x  con un valor de la funcin
objetivo f .x  / D f  . Entonces, para todo  y todo   0 se cumple que
  f :
Adems, existen unos  y   0 tales que .; / D f  y por lo tanto  D
f  . Los vectores  y  son los multiplicadores de Lagrange del problema.
7.3.1 Dualidad Lagrangiana
Es una forma de denominar lo que acabamos de exponer. La funcin de Lagrange del problema (4) escrito
minimizar
f .x/
n
x2R

sujeta a h.x/ D 0
g.x/  0
x 2 ;
63

(6)

7 Optimizacin y Programacin Matemtica

es L.x; ; / D f .x/  Th.x/  Tg.x/. La funcin de Lagrange dual es


q.; / D Knf L.x; ; /:
def

Si las funciones h.x/ y g.x/ son convexas, con   0, la funcin de Lagrange es


convexa y dene una cota inferior del valor ptimo de la funcin objetivo de (6).
El problema dual de ste es
maximizar q.; /
sujeta a
  0;
que es siempre convexo.
7.3.2 Dualidad de Wolfe
Es ligeramente distinta de las anteriores. Es la que sirve de referencia a los
mtodos de punto interior. El problema dual es
max. L.x; ; /
s. a rx L.x; ; / D 0
  0:
7.3.3 Ejemplo
En el caso de un problema de Programacin Lineal en forma estndar
cT x
minimizar
n
x2R

Ax D b
x  0;

sujeta a

la funcin de Lagrange es L.x; ; / D c T x  T .Ax  b/  T x, o

T
L.x; ; / D T b C c  A T    x:
Su problema dual
n

T o
max. q.; / D Knf fL.x; ; /g D T b C Knfx c  A T    x
(
T b si c  A T    D 0
D
1 si c  A T    0
s. a   0:
64

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Si c  A T    0 el nmo es claramente 1, por lo que hay que excluir


del problema aquellos  para los que se den esos casos. De acuerdo con ello, el
problema dual queda
maximizar T b
s. a

c  A T    D 0;

  0:

El dual de Wolfe sera exactamente el mismo. El gap de dualidad es


c T x  T b D c T x  T Ax D x T c  A T  D x T :

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

ESDE tiempos de C.F. Gauss, Alemania 1777-1855 y W. Thompson Irlanda,


1775-1833, la equivalencia entre los problemas de ecuaciones en derivadas
parciales con condiciones de contorno y los de clculo de variaciones ha ocupado un puesto destacado en el anlisis matemtico. En un principio el esfuerzo se
concentr en los aspectos tericos de los problemas; posteriormente, dos fsicos,
Lord Rayleigh John William Strutt, Reino Unido 1842-1919 y Walther Ritz,
Suiza 1878-1909, independientemente al parecer, concibieron la idea de utilizar
esa equivalencia para calcular numricamente soluciones de problemas habituales
de fsica mediante la sustitucin de los problemas de clculo de variaciones por
otros ms simples de obtencin de extremos con un nmero nito de parmetros
por determinar.
Sus mtodos atrajeron pronto a ingenieros y fsicos los principios fsicos de
la mecnica son ms sugestivos que las ecuaciones diferenciales y se empezaron a aplicar a muchos problemas cercanos. El resultado era lgica consecuencia
del esquema conceptual de cmo se tratan en anlisis matemtico y en muchos
aspectos de la vida cotidiana los problemas difciles: Un problema P con solucin S se reemplaza por otro ms o menos relacionado o prximo, Pn , ms simple
de resolver, cuya solucin es Sn . Luego se mejora la aproximacin Pn de P de
tal forma que la solucin Sn , paso a paso, tienda a la deseada S. Lo esencial es
escoger la sucesin de aproximaciones Pn de una manera adecuada.
Una de las cuestiones ms interesantes y con ms posibilidades de futuro que
contemplan las aplicaciones de las matemticas para simular y resolver muchos
problemas de la vida cotidiana es el de utilizar modelos matemticos expresados
en forma de ecuaciones diferenciales e integrales que reproducen procesos y fenmenos complejos de la fsica y otras ciencias naturales y sociales cuyos orgenes
65

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

y evolucin suelen estar distribuidos en el tiempo y en el espacio. Se modelan de


esta forma la propagacin del sonido o del calor, la electrosttica, la electrodinmica, la dinmica de uidos, la elasticidad, la mecnica cuntica, las emisiones de
contaminantes, los fenmenos meteorolgicos, la valoracin de opciones y derivados nancieros y muchos otros. El enfoque para resolverlos de forma prctica
sigue exactamente el principio enunciado ms arriba.
La idea esencial que seguiremos en estas notas es la de convertir el
problema con ecuaciones diferenciales, integrales o ecuaciones en derivadas parciales, suponiendo que tiene solucin con unas determinadas caractersticas, en uno formulado en trminos de clculo de variaciones de funciones continuas la minimizacin de un funcional
para as caracterizar en qu condiciones se da una solucin u ptimo
del mismo. Luego se discretiza ese problema continuo con un nmero
innito de grados de libertad mediante un problema discreto, o sistema de ecuaciones, con un nmero de variables nito y ms fcil de
resolver y se resuelve mediante alguna de las diversas tcnicas que
existen para ello.
Cuando se empieza a trabajar y aprender mtodos numricos para resolver problemas matemticos el de las diferencias nitas sigue ideas muy intuitivas: simplemente se aproxima una derivada de una curva en un punto de ella por una lnea
secante. Si se estudia el mtodo del volumen nito, tambin su idea es bastante
sencilla: cada elemento de volumen es simplemente un pequeo equilibrio del ujo o de fuerzas. El mtodo de los elementos nitos sigue esa senda ms o menos,
con alguna pequea modicacin.
La base matemtica para el mtodo de los elementos nitos se encuentra en el
entorno de los espacios de Hilbert. Un espacio de Hilbert es una manera de tratar
una funcin como un vector, por lo que podemos hacer algunos trucos de matemticas vectoriales con l. Recordemos que un vector es una serie de valores, o
escalares, multiplicados por un conjunto de vectores de una base ortogonal (como
los vectores unitarios que denen la direcciones x, y y z, o los i , j y k). Podemos
utilizar una tcnica paralela para denir una funcin. Primeramente seleccionamos
un conjunto de funciones de base en vez de aquellos vectores (esas funciones deben ser ortogonales entre s) y luego denimos la funcin original como una suma
de unos coecientes multiplicados por las funciones de la base: de esta forma
uD

1
X

k k ;

kD1

donde cada una de las k es una funcin de la base.


66

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

El siguiente paso es convertir nuestra ecuacin diferencial en algo llamado su


formulacin dbil. Esto se hace bsicamente multiplicando por una funcin de
prueba y luego integrando en el espacio. Sin entrar en los detalles de momento,
se trata de hacer lo mnimo necesario para convertir nuestra ecuacin diferencial
en algo en lo que podamos utilizar nuestras matemticas de espacios vectoriales.
Esencialmente, donde exista una forma de "producto interior", en nuestro caso
con funciones como la de prueba en vez de vectores, y la solucin. Este producto
interior ser una integral y podremos usar integracin por partes para convertirlo
en formatos ms manejables.
Despus nos desharemos de alguna manera de la abstraccin empleada y comprobaremos que realmente estamos tratando con un espacio vectorial de dimensin
nita: los vectores funcin no son innitos ni estamos sumando innitos trminos.
Este proceso es lo que se entiende por discretizacin en las tcnicas de los elementos nitos. La discretizacin que se utiliza est determinada por una malla
o retcula13 mesh como la de la gura 8.36 y normalmente se emplean dos
funciones de base a cada lado de un elemento de la malla.
Con esas funciones de base la solucin de nuestra ecuacin diferencial se representara
de esta manera
0

u D

MESH

n
X

k k :

kD1

La nica diferencia con la expresin anterior es el lmite superior


del sumatorio.
El siguiente paso es hacer
que nuestra funcin de prueba
Figura 8.36: Discretizacin de una pieza sen- sea una funcin de base. Tamcilla.
bin habr que asegurarse que
las funciones base no se superpongan, lo cual garantiza el que sean ortogonales
como pretendamos antes y nos permite aproximar ms fcilmente la solucin en
el dominio de inters. Las funciones de base que se suelen usar son polinomios
(especialmente polinomios lineales o cuadrticos).
Despus de lo que puede parecer que es complicar el problema original agregando toda esta abstraccin y matemticas para llegar a lo que hemos llegado, qu
hemos conseguido realmente? Pues convertir el problema en una ecuacin algebraica matricial sencilla para poderlo resolver por medio del lgebra que conoce13 Una

retcula de por ejemplo 20  20 dara como resultado 441 funciones base nicas.
67

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

mos. Si el problema fuese lineal, simplemente tendremos que resolver la ecuacin


Ax D b.
Para un problema simple com el de la ecuacin de Poisson Simon Denis
Poisson, Francia, 1781-1840

u.x; y/ D

@2 u
@2 u
C
D f .x; y/
@x 2
@y 2

la matriz A es muy fcil de calcular y se denomina la matriz de rigidez en homenaje a los principios de las tcnicas de elementos nitos en problemas de elasticidad.
Esta matriz muy dispersa (con pocos coecientes distintos de cero) y diagonal
dominante est formada por el producto interior de las funciones de base con
ellas mismas, multiplicadas si es el caso por la constante que aparezca en la ecuacin original. El vector solucin de ese sistema se multiplica por el de las funciones
de base y se obtiene la del problema original, o una que se aproxima mucho a la
misma.
Resumiendo, el procedimiento de resolucin del mtodo de los elementos nitos consta de las siguientes fases u operaciones:
Conversin del problema original de dimensin innita, mediante las propiedades de los espacios de Hilbert, en uno similar prximo en un espacio
vectorial de dimensin nita de cara a estudiar la existencia y unicidad de la
solucin.
Creacin de una formulacin dbil del problema original con la que podamos usar las herramientas de producto interior y medida.
Discretizacin del dominio de denicin del problema y eleccin de una
base de funciones que sean ortogonales entre si.
Conversin de los productos interiores entre funciones de base en sistemas
lineales de ecuaciones.
Resolucin de ese sistema lineal resultante mediante tcnicas de matrices
dispersas.
Las ventajas de este mtodo frente a otros son muchas en bastantes mbitos de
la ingeniera, la ciencia y la investigacin por lo que su extensin y precisin,
as como los algoritmos que emplea, cada vez son ms amplios, ambiciosos y
potentes.
Para concretar con cierto detalle los pasos del mtodo, vamos a desarrollar el
estudio de un problema preciso habitual. Seguiremos esencialmente el trabajo de
Francisco Javier Sayas, [2015], de la Universidad de Delaware, EE.UU.
68

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

8.1 Solucin de una ecuacin en derivadas parciales


Consideraremos en lo que sigue el siguiente problema de una ecuacin en derivadas parciales elptica de segundo orden con condiciones de contorno:

 
u.x; y/ C cu.x; y/ D f .x; y/
u.x; y/ D g0 .x; y/
@n u.x; y/ D g1 .x; y/

dentro de 
en la frontera D
en la frontera N :

Esta forma de formularlo se denomina forma fuerte.


La geometra del entorno fsico esquemtico en el que se desenvolver ser
tan simple como la de la gura 8.37, o una generalizacin de ella. En este

Figura 8.37: Dominio de denicin  y condiciones de contorno.


caso concreto es un subconjunto abierto  2 Rd representado por un polgono en el plano R2 , pegado o adherido en su frontera a la curva que
dene , dividida sta en dos partes: la que dene D , que materializan
unas condiciones de contorno de Dirichlet por Johann Peter Gustav Lejeune Dirichlet, Alemania 1805-1859 y la N , con condiciones de contorno de Neumann por Karl Gottfried Neumann, Alemania 1832-1925.
En trminos fsicos, las condiciones de Dirichlet determinan unos posibles
desplazamientos fsicos de esa frontera, mientras que las de Neumann unas
posibles tensiones mximas o mnimas.
La ecuacin en derivadas parciales propiamente dicha, la primera en la formulacin, se denomina habitualmente ecuacin difusin-reaccin. El trmino que representa la difusin es 
u y el de reaccin cu, cuando c > 0.
La constante c es no negativa; en principio puede adoptar los valores 0 1.
La funcin escalar u.x; y/ W R2 ! R, denida en el dominio , es la
incgnita de este problema.
69

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

La funcin f .x; y/ est denida en  y se puede considerar como una densidad supercial de fuerzas.
Las dos funciones que expresan las condiciones de contorno, g0 .x; y/ y
g1 .x; y/, estn denidas en dos partes diferentes de la frontera. La funcin
g0 deber ser continua; la g1 puede ser discontinua.
El smbolo @n designa la derivada normal hacia afuera, es decir
@n u D ru  n;
donde n es el vector unidad hacia afuera en puntos de la frontera  y ru es
el gradiente de u. Supondremos que existe.
8.1.1 El problema en forma dbil o variacional
Siguiendo cada uno de los pasos de la estrategia enunciada para resolver este
problema, vamos a formularlo de una forma diferente de la original denominada
forma dbil o forma variacional.
Para ello utilizaremos el teorema de Green por George Green, Reino Unido
1793-1841, a menudo denominado primera frmula o identidad de Green, derivada del teorema de la divergencia, que no es sino una forma de integracin por
partes. Aplicado a nuestro caso dice que
Z
Z
Z
.
u/ v C
.@n u/ v:
ru  rv D


La funcin v es una funcin de prueba, continua, en principio denida en  D


 [ . En esa expresin hay dos tipos de integrales: las dos del miembro de la
izquierda son integrales de supercie, en el dominio . La del derecho es una
integral lineal en el borde o frontera . Hemos prescindido de los diferenciales
correspondientes para compactar la notacin. El resultado sera aplicable tambin
a tres dimensiones: las dos integrales de la izquierda seran de volumen; la de la
derecha de supercie. El punto de la segunda integral del miembro de la izquierda
@v
@v
C @u
.
se reere al producto interior de dos vectores, es decir ru  rv D @u
@x @x
@y @y
La identidad expresada es una consecuencia del resultado del teorema de la
divergencia que dice que para un subconjunto V 2 Rn en el caso de tres dimensiones V representa un volumen como el de la gura 8.38, en principio
compacto, de supercie o borde S continua a trozos (expresada por @V D S ), si F
es un campo vectorial con derivadas parciales de primer orden continuas denido
en un entorno de V , se cumple que

.r  F/ d V D
.F  n/ dS:
V

S
70

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Figura 8.38: Regin o volumen V acotada por la supercie o frontera S D @V


con la normal a la supercie n.
Aplicado a una funcin escalar f W Rn ! R y un vector constante c distinto de
cero

c  rf dV C
V

f .r  c/ dV D
V

.cf /  d S;
S

donde d S expresa de forma compacta ndS.


Haciendo f D ru y c D v se tiene la expresin anterior de la primera identidad de Green.
Si sustituimos
u D f  cu en la expresin obtenida a partir de la identidad
de Green en donde se integra en  y que @n u D g1 en N , despus de reordenar
un poco se llega a
Z
Z
Z
Z
Z
.@n u/ v:
ru  rv C c
uv D
fv C
g1 v C


Como no sabemos el valor de @n u en D imponemos que la funcin v sea cero en


esa parte de la frontera o borde: v D 0 en D . A partir de ah,
Z
Z
Z
Z
ru  rv C c
uv D
fv C
g1 v; si v D 0 en D :


La expresin del miembro de la izquierda es lineal en las funciones u y v. Es una


forma bilineal de las variables u y v. La de la derecha es lineal en v. Todava no
hemos hecho uso de la condicin de Dirichlet en la frontera, u D g0 en D .
La formulacin dbil del problema queda: as: Determinar una funcin u tal
u
Z D g0 en D Z
R
R
ru  rv C c
uv D  f v C N g1 v;
que:

para todo v tal que v D 0 en la frontera D :


71

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

En esta formulacin la condicin de Dirichlet desplazamientos dados se impone como una condicin aparte que ha de cumplir la funcin de prueba v. Se
denomina condicin esencial de borde o frontera. La condicin de Neumann
fuerzas normales aparece como una condicin de frontera natural dentro de la
formulacin del problema.
Como indicbamos anteriormente, la funcin de prueba v chequea la ecuacin
que satisface u. Juega un papel de funcin de ponderacin para comprobar el comportamiento medio de la ecuacin. En alguna referencia interesante se la denomina
desplazamiento virtual para enfatizar que no es una incognita sino algo utilizado
para formular el problema de esta manera: mediante desplazamientos virtuales de
la realidad, si se llega a conocer.
8.1.2 Espacios de trabajo
Hasta ahora hemos dado por hecho que el contexto matemtico donde se desenvuelve este problema y las formulaciones que estamos utilizando cumplen una
serie de requisitos matemticos que permiten su existencia y solucin. Vamos a
formalizarlo un poco. El primer espacio que estamos utilizando14 es el espacio
vectorial de las funciones al cuadrado integrables en , es decir,
Z



L2 ./ D f W  ! R jf j2 < 1 :


Su estricta denicin requerira la introduccin de la integral de Lebesgue15 , la mtrica o medida de Lebesgue y el espacio de Lebesgue
por Henr Lon Lebesgue,
R
Francia 1875-1941. Simplicadamente, si  f .x/ dx es la integral de LebesR
gue de f .x/ y se dene la norma kf kLp ./ D .  f p dx/1=p , para 1  p < 1,
los espacios de Lebesgue son


Lp ./ D f .x/ W kf kLp ./ < 1 :
El segundo es el espacio de Sobolev por Sergi Lvvich Sobolv, Rusia
1908-1989. Es une espacio vectorial de funciones dotado de una norma que es
combinacin de normas Lp de la funcin y de sus derivadas hasta un orden dado.
Formalmente para dos dimensiones es



@u @u
1
2
2

H ./ D u 2 L ./
;
2 L ./ :
@x1 @x2
14 Ya

introducido antes en estos apuntes.

15 Que generaliza la nocin de la integral de Riemann extendiendo el concepto de rea bajo una curva

para incluir funciones discontinuas.

72

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Las derivadas de este espacio se entienden en un sentido dbil16 que hagan que
el espacio sea completo17 y por lo tanto sea un espacio de Banach. La norma
correspondiente de este espacio es
1=2 Z
Z
Z
@u
2
2

juj
D
kuk1;D
jruj C
@x


2 Z

@u

@x

!1=2
2 Z

C juj2
;

denominada en ingeniera norma de energa. Las funciones que usan esta forma
nita son funciones de energa nita. Intuitivamente, un espacio de Sobolev es un
espacio de funciones con derivadas de orden suciente para un dominio de aplicacin determinado y equipado con una norma que mida adecuadamente tamao y
regularidad en las funciones. Un subespacio de inters de ese espacio H 1 ./ es


H 1D ./ D v 2 H 1 ./ jv D 0 en D :
Establecido todo este aparato matemtico, la formulacin dbil del problema
original queda as:

Determinar una funcin u 2 H ./ tal que


1

u D g0 en D Z
Z
Z
Z
ru  rv C c
uv D
fv C


g1 v; para todo v 2 H 1D ./:

La condicin que se impone a la funcin de prueba, v 2 H 1D ./, es la misma que


v 2 H 1 ./ tal que v D 0 en D ;
lo que quiere decir que v est en el mismo espacio de la funcin que se busca u
pero satisface una versin homognea de la condicin esencial de borde o frontera.
Los datos del problema estn en los siguientes espacios f 2 L2 ./, g1 2
2
L .N / y g0 2 H 1=2 .D /. El segundo espacio restringe el dominio de las integrales en la lnea que marca N en vez de en . Que g0 2 H 1=2 .D / quiere
decir que existe al menos una funcin u0 2 H 1 ./ tal que u0 D g0 en D . De
hecho, todas las dems que cumplen esta condicin pertenecen a u0 C H 1D ./
o
n

D u0 C vjv 2 H 1D ./ D w 2 H 1 ./jw D g0 en D . Que g0 pertenezca a
H 1=2 .D / signica que no se busca la solucin en el conjunto vaco.
16 Una generalizacin del concepto de derivada a funciones no necesariamente derivables pero si
integrables localmente en el sentido de Lebesgue en un dominio dado  de Lp ./.
17 Si toda sucesin de Cauchy en l tiene lmite.

73

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

8.1.3 Discretizacin del problema en un subespacio de elementos nitos lineales


Como venimos anunciando, la resolucin del problema que estudiamos con
el concurso de elementos nitos est basada en la aproximacin del espacio
H 1 ./ mediante funciones polinomiales sencillas por tramos o trozos.
Para conseguirlo se utiliza una particin del dominio de clculo  en subdominios, a los que se denomina mallado. El ms sencillo es aquel en el que  es
un intervalo de la recta real, por ejemplo el abierto .0; 1/, en el que se tiene la
particin 0 D x0 < x1 <    < xn D 1 dividida en subintervalos Ij D .xj 1 ; xj /
de longitud hj D xj  xj 1 , j D 1; : : : ; n. Si h D mKax hj y Vh es el espacio
lineal de funciones v tal que v 2 C 0 .0; 1/, vjxi1 ;xi  es un polinomio lineal,
i D 1; : : : ; n, perteneciente por tanto a P1 , y v.0/ D 0.
Para cada i D 1; : : : ; n se dene la funcin i de tal forma que
(
1 si i D j
;
i .xj / D ij D
0 si i j
delta de Kronecker por Leopold Kronecker, Polonia 1823-Alemania 1891,
segn se indica en la gura 8.39. Se tiene que f i W 1  i  ng es una base de Vh .
i

xi

Figura 8.39: Funcin de base lineal por tramos.


El conjunto f i g es una base nodal de Vh y fv.xi /g son los valores nodales de una
funcin v. Los puntos .xi / se denominan nodos o nudos.
o funcin de interpolacin,
Dada una funcin v 2 C 0 .0; 1/, el interpolante,
Pn
v.x
/ i como se aprecia en la
vh 2 Vh de v se obtiene mediante vh D
i
i D1
gura 8.40. Si v 2 Vh ) v D vi .
Otra particin quizs la ms utilizada consiste en triangularizar un dominio de dos dimensiones, como , en pequeos tringulos que lo cubran enteramente. En la gura 8.41 se ve la correspondiente al dominio con el que venimos
experimentando en estas notas.
Para simplicar se supone que la frontera o borde, , del dominio  es una
curva poligonal. Si no lo es, primero se le aproxima a un polgono. La triangulari74

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Vh

xi

Figura 8.40: Aproximacin mediante vh de una funcin de base lineal por tramos.

Figura 8.41: Triangularizacin del dominio .


zacin consiste en dividir  en un conjunto de tringulos Th D K1 ; : : : ; Km que
no se solapen y que solo compartan lados completos, o lo que es lo mismo, que
ningn vrtice de ningn tringulo caiga en algn lado de otro. Se cumplir que
[
K D K1 [ K2    [ Km :
D
K2Th

El subespacio Vh de H 1 ./ es ahora


Vh D funciones v 2 C./vjK es lineal para todo K 2 Th ; v D 0 en  ;
donde vjK 2 P1 se reere a la funcin v restringida a K. Recordemos que P1 es el
espacio de polinomios lineales del tipo a0 C a1 x1 C a2 x2 , donde los coecientes
a0 , a1 y a2 seran los parmetros de cada tringulo.
Los parmetros que denirn la funcin v 2 Vh sern los valores v.Ni / de v en
los nodos Ni ; i D 1; : : : ; M de Th excluyendo aquellos en los bordes pues v D 0
en . Los valores de los nodos de la triangularizacin del dominio son los grados
75

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

de libertad que determinan un elemento de Vh . Una numeracin de esos nodos


para nuestro dominio de trabajo sera la de la gura 8.42. Los nodos se indican
mediante el vector xi , donde i D 1; : : : ; M , el nmero de nodos.
14

10
5

15

11

16

12

18

1
8

17

13
9

Figura 8.42: Numeracin de los nodos del dominio .


Si se ja un nodo del dominio y se le asocia el valor 1 y 0 a todos los dems,
existe una funcin nica i 2 Vh , funcin de base de nodo, tal que
(
1 si i D j
; i; j D 1; : : : ; M:
i .xj / D ij D
0 si i j
El aspecto de una de estas funciones es el de la gura 8.43. Si un tringulo K no
i

xi

Figura 8.43: Grca de la funciones de base de los nodos del dominio .


tiene a xi como uno de sus vrtices, i es cero en todo el tringulo pues el valor de
la funcin en todos sus vrtices es cero. El soporte por tanto de i la envoltura
del conjunto de puntos donde i no es cero es la misma que la unin de todos
los tringulos que comparten xi como vrtices. Ver gura 8.44.
76

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Figura 8.44: Soporte de dos funciones de base del dominio .


Una funcin cualquiera uh 2 Vh se representa entonces como
uh D

M
X

uh .xj / j .xi / D

j D1

M
X

uh .xj /j i D

j D1

M
X

uh .xj / j :

j D1

El conjunto f i ; i D 1; : : : ; M g es una base de Vh .


Hasta ahora no hemos tenido en cuenta si los nodos de la frontera estn en el
segmento de borde tipo Dirichlet o Neumann. Si tenamos hasta ahora el espacio

H 1D ./ D v 2 H 1 ./v D 0; en D ;
ahora nos interesa

Vh D D Vh \ H 1D ./ D vk 2 Vh vh D 0; en D :
La idea es llevar constancia de qu nodos son Dirichlet Dir y cules no, independientes, Ind. En el caso del ejemplo que tratamos,
Dir D f9; 13; 14; 15; 17; 18g
Ind D f1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 16g :
Entonces, un elemento de Vh se podra escribir como
X
X
uh D
uj D uh .xj /
uj j C
uj j ;
j 2Ind
j 2Dir
y uno de Vh D as
uh D

X
j 2Ind
77

uj j :

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

8.1.4 Reformulacin del problema como un sistema de ecuaciones lineales


Recapitulando, el mtodo nos ha hecho llegar a la siguiente formulacin para
determinar la funcin uh

Determinar una funcin u

h 2 Vh tal que
uh .xj / D g0 .xj / 8j 2 Dir
Z
Z
Z
Z
ruh  r i C c
uh i D
f i C


g1 i ; 8i 2 Ind:

Para ello:
Hemos convertido el espacio de Sobolev en el que buscamos la funcin solucin en uno de dimensin nita, Vh . Es decir, hemos reducido el problema
a calcular uh en los vrtices de una triangularizacin los nodos y a un
nmero nito de incgnitas.
Hemos sustituido las condiciones tipo Dirichlet jando condiciones a los
nodos Dirichlet, lo que reduce an ms el nmero de incgnitas: a los nodos
independientes.
Hemos reducido el espacio de prueba de H 1D ./ a un subespacio discreto
Vh D , lo que reduce un nmero innito de pruebas en la formulacin dbil a
un nmero nito de ecuaciones lineales.

Para obtener nalmente el sistema de ecuaciones lineales escribimos uh en


trminos de las funciones de base de los nodos:
X
X
uj j C
uj j :
uh D
j 2Ind
j 2Dir
Luego sustituimos en esta expresin las condiciones de Dirichlet discretizadas:
X
X
uj j C
g0 .xj / j :
uh D
j 2Ind
j 2Dir
Finalmente incorporamos esta expresin en la formulacin variacional discreta:
Z
Z
Z
Z
ruh  r i C c
uh i D
f i C
g1 i ;


linealizando, teniendo en cuenta que


X
X
ruh D
uj r j C
g0 .xj /r j
j 2Ind
j 2Dir
78

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

y reordenando llegamos a
i Z

Z
r j  r i C c


Z
Z
j j uj D
f i C

j 2Ind

i Z


j j g0 .xj /:

r j  r i C c


g1 i

j 2Dir

Este es un sistema de ecuaciones lineales con un nmero de ecuaciones igual al


nmero de incgnitas (# Ind D dim Vh D ), que son precisamente los valores de la
funcin uh en los nodos libres de la triangularizacin llevada a cabo.
Hay dos matrices importantes en este sistema de ecuaciones, la matriz de rigideces,
Z
r j  r i
W ij D


y la matriz de masas

Z
M ij D

j i :


Ambas son simtricas. La de masas


positiva. La de rigideces semideR es denida
R
nida positiva. Si hacemos bi D  f i C N g1 i , i 2 Ind, se llega a
i

W ij C cM ij uj D bi 
j 2Ind

W ij C cM ij g0 .xj /;

i 2 Ind:

j 2Dir

Estas matrices poseen patrones de dispersidad muy pronunciados pues slo interactan nodos que estn unidos entre si por lados de tringulos. Ello las hacen propicias para ordenaciones en torno a la diagonal principal. Su manipulacin es sencilla
y las operaciones necesarias para resolver los gigantescos sistemas de ecuaciones
lineales a que pueden dar lugar son perfectamente tratables por los ordenadores
disponibles actualmente.

8.2 Algo sobre funcionales y clculo de variaciones


Un funcional es una funcin que tiene funciones como argumento a las que
asigna un valor real. Es decir, una funcin cuyo dominio es un conjunto de funciones. En la gura 8.45 se esquematiza18 la diferencia entre una funcin ordinaria y
un funcional.
18 Fuente: http://www.colorado.edu/engineering/CAS/courses.d/AVMM.d/AVMM.Ch01.d/AVMM.Ch01.pdf.

79

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Input: argument x
(independent
variable)

Function
operator

Output: function
value y (dependent
variable)

y=y(x)=f(x)

(a)

FUNCIONES
Input 1: argument x
(independent
variable)

(b)

Functional
operator

Output: functional
value J (a scalar)

y=f(x)

J(y)=J(x,y)

Input 1: argument x
(independent
variable)

(c)

Input 2: function
y=y(x) (primary
dependent variable)

Input 2: function
y=y(x) (primary
dependent variable)

Functional
operator

y=f(x)

Input 3: derivative
of primary
dependent variable

y'=dy/dx

Output: functional
value J (a scalar)

J(y)=J(x,y,y')

FUNCIONALES

Figura 8.45: Diagrama de bloques que ilustra la diferencia formal en una dimensin entre una funcin ordinaria y un funcional. (a) Una funcin ordinaria y D
y.x/ D f .x/ de una variable independiente x; (b) Un funcional J.y/ D J.x; y/
de la funcin y.x/; Un funcional J.y/ D J.x; y; y 0 / de la funcin y.x/ y su
derivada y 0 D dy=dx.
El funcional bsico unidimensional lineal ms tpico tiene la forma
Z b


J.y/ D F x; y.x/; y 0 .x/ dx; x D a; b; a  b; y.a/ D yOa ; y.b/ D yOb :
a

En palabras, la funcin y D y.x/ est denida en el segmento x 2 a; b, a  b,


de la recta real. Dado un x, y.x/ se supone real y nico. Adems, y.x/ es continua
y derivable por lo que y 0 .x/ existe al igual que la integral enunciada. La funcin
debe satisfacer en x D a y en x D b unas determinadas condiciones de contorno:
concretamente, yOa D y.a/ y yOb D y.b/.
As era cmo la palabra funcional fue utilizada inicialmente en el clculo de
variaciones, donde el integrando a ser minimizado deba ser un funcional, aplicada
a una todava desconocida funcin que satisfaca solamente una cierta condicin
de contorno, y condiciones de derivabilidad.
Otro funcional lineal habitual es la funcin delta de Dirac por Paul Adrien

80

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Maurice Dirac, Reino Unido, 1902-1984


t f ./ D f .t/
Rb
que se puede escribir tambin como t f ./ D a f .x/.x  t / dt.
Un problema de clculo de variaciones o problema variacional tpico sera el
de encontrar la funcin y 2 a; b ! R que minimiza el funcional anterior, J.y/,
con las condiciones de contorno indicadas.
En varios campos de la ingeniera, la fsica matemtica, el reconocimiento de
imgenes y otros muchos, el clculo de variaciones es un interesante problema
matemtico consistente en buscar mximos y mnimos (o ms generalmente extremos relativos) de funcionales continuos denidos sobre algn espacio funcional.
Constituyen una generalizacin del clculo elemental de mximos y mnimos de
funciones reales de una variable. Muchos problemas de este tipo19 son fciles de
formular pero sus soluciones implican a menudo, a su vez, difciles procedimientos
de clculo diferencial, los cuales generalmente suponen usar ecuaciones diferenciales ordinarias Ordinary Differential Equations, as como las ecuaciones
(diferenciales) en derivadas parciales Partial Differential Equations.
En la gura 8.46 se pueden ver algunos problemas clsicos de funcionales en
una dimensin.
y

(a)
y=y(x)

A
y(a)=y^

(b)
Arclength L

A
B

Area A
x=a

A
B

Constant
gravity g
Straight line
Cycloid

y(b)=y^ b
x=b

(c)

Parabola

x=b

x=a

x=a

x=b

Figura 8.46: Ejemplos unidimensional clsicos de funcionales: (a) rea debajo de


Rbp
Rb
una curva, a y.x/ dx; (b) Longitud de un arco de curva, a 1 C .y 0 .x//2 dx;
q
Rb
0 .x//2
(c) Curva braquistcrona, a 1C.y
dx.
2gy
Por regla general, no todas las funciones pueden encajar en un funcional. La
gura 8.47 ilustra algunos tipos de funciones permitidas y otras no permitidas,
grosso modo.
Si se considera un funcional general
Z x2
F .x; y; y 0 / dx
I D
x1
19 Por

ejemplo el de encontrar la curva de longitud ms corta que una dos puntos.


81

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

(a)
y

(b)

1
2

1
2

y(b)=y^b

y(a)=y^a

x=b

x=a

y(a)=y^a

y(b)=y^b

4
5

x=b

x=a

Figura 8.47: Muestrario de funciones admisibles en un funcional: (a) Funciones


continuas, C 1 , con un slo valor para cada x y que cumplen las condiciones de
contorno; (b) Inadmisibles: La 1 y la 3 tienen derivadas discontinuas; la 2 es discontinua y admite varios valores para un x; la 4 admite varios valores para un x y
la 5 no cumple las condiciones de contorno.
donde F es una funcin conocida con derivadas continuas hasta segundo orden
respecto a x, y y y 0 . El valor de I depender de la trayectoria de la funcin entre
.x1 ; y1 / y .x2 ; y2 /; es decir, depender de la funcin y.x/ que se escoja.
Si se introduce como prueba la familia de trayectorias
y.x/
Q
D y.x/ C ".x/;
donde " es un parmetro y .x/ una funcin derivable a la que se le pide que
.x1 / D .x2 / D 0, resulta que se pueden generar una innidad de trayectorias para una .x/ dada sin ms que variar el parmetro ". Todas ellas pasan por
.x1 ; y1 / y .x2 ; y2 /. Consideremos
Z x2
Z x2
0
Q
F .x; y;
Q yQ / dx D
F .x; y C "; y 0 C "0 / dx
I D
x1

x1

Es evidente que los funcionales I y IQ alcanzarn el mismo valor extremo (valor


mximo o mnimo) cuando " D 0. Desarrollando, se tiene que
!
!
"2
d IQ
d 2 IQ
Q
Q
C 
"C
I D .I /"D0 C
d"
d "2
2
"D0

"D0

Para que IQ sea extremo cuando " D 0 es necesario que


!
d IQ
D 0:
d"
"D0
82

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

Es decir que

Z

x2
x1

@F d yQ 0
@F d yQ
C 0
@yQ d "
@yQ d "


D 0:

dx
"D0

Dado que d y=d


Q " D , que d yQ 0 =d " D 0 y que quitar las tildes de yQ y de yQ 0 en
las derivadas de F es lo mismo que hacer " D 0 segn se requera ms arriba, la
ecuacin anterior se puede reescribir as:

Z x2 
@F 0
@F
 C 0  dx D 0:
@y
@y
x1
Integrando por partes el segundo trmino,
x2 Z


Z x2
x2 
@F
d
@F 0
@F
 dx:

dx
D



0
@y 0
dx @y 0
x1 @y
x1
x1

Cuando  D 0 en los extremos la primera expresin del miembro de la derecha de


esta ecuacin se hace cero. Sustituyendo lo que queda en la anterior se tiene que


Z x2 
d
@F
@F

 dx D 0:
@y
dx @y 0
x1
Cualquiera que sea la funcin .x/ entre los puntos extremos, segn la frmula de
Euler-Lagrange se tiene que
@F
d @F
D0

0
dx @y
@y
que es la condicin que debe cumplir y.x/ para ser un mximo o un mnimo: un
extremo. Si en esta expresin se sustituye F por su expresin F .x; y; y 0 / resulta
una ecuacin diferencial de segundo orden en y.x/.
8.2.1 Proposiciones esenciales
Lema 8.1 Lema fundamental del Clculo de Variaciones Sea M.x/ una funcin
continua denida en el intervalo a  x  b. Supongamos que para cualquier
funcin continua .x/ se tiene que
Z

M.x/.x/ dx D 0:
a

Se cumple entonces que


M.x/ D 0 para todo x 2 a; b:
83

8 Sobre el mtodo de los elementos nitos para resolver ecuaciones en derivadas parciales

D EMOSTRACIN . Supongamos que M.x/ no es cero en algn punto x0 2 .a; b/.


Concretamente que M.x0 / > 0. Por la continuidad de M.x/, existe un > 0 tal
que


M.x0 /
M.x0 /
< M.x/  M.x0 / <
para jx  x0 j < con x 2 a; b:
2
2

En consecuencia, M.x/ > M.x0 /=2 en ese intervalo. Escojamos una funcin

M( x0 )
M( x0)
2

.x/

x 0 b

x0

x 0 +b

Figura 8.48: Lema fundamental del Clculo de Variaciones.


.x/ tal que, como se ve en la gura 8.48,

0

.x/ D

si a  x  a1 D mKax.x0  ; a/
> 0 si jx  x0 j < ; x 2 a; b
0
si mKn.x0 C ; b/ D b1  x  b:

Se tiene entonces que


Z

M.x/.x/ dx D

0D
a

b1

M.x/.x/ dx >
ai

1
M.x0 /
2

b1

.x/ dx > 0;
a1

lo cual es una contradiccin.


Si M.x0 / < 0 el argumento sera idntico sustituyendo M.x/ por M.x/. Si
x0 D a o x0 D b la demostracin sera casi igual con pequeas modicaciones en
la lnea argumental.
Corolario 8.2 El resultado del Lema 8.1 sigue siendo aplicable si
.a/ D .b/ D 0:
84

9 Anlisis de componentes principales

Corolario 8.3 Supngase que M.x/ es continua en el intervalo I D a; b y que


f'n .x/g1
nD1 es un conjunto de funciones base. Supngase adems que
Z

M.x/'n .x/ dx D 0 para n D 1; 2; : : :


a

Se cumple entonces que M.x/ D 0 para todo x 2 a; b.


Lema 8.4 Sea M.x/ una funcin continua en a  x  b. Supongamos que para
cualquier funcin continua .x/, de derivada continua, se tiene que
Z

M.x/ 0 .x/ dx D 0

para .a/ D .b/ D 0. Se cumple as que M.x/ D ct e para todo x 2 a; b:


Lema 8.5 Sea M.x/ una funcin continua denida en el intervalo a  x  b.
Supongamos que para cualquier funcin continua .x/, de derivadas continuas
al menos hasta segundo grado, se tiene que
Z

M.x/ 00 .x/ dx D 0

para .a/ D .b/ D 0 y  0 .a/ D  0 .b/ D 0. Se cumple entonces que M.x/ D


c0 C c1 x para todo x 2 a; b, donde c0 y c1 son constantes.

9 Anlisis de componentes principales

L anlisis de componentes principales ACP en espaol, PCA en ingls


tiene como objetivo representar la informacin de n observaciones de p variables con un nmero sustancialmente menor de unas nuevas variables construidas
como combinaciones lineales de las originales. Sirve para hallar las causas fundamentales de la variabilidad de un conjunto de datos y ordenarlas por importancia.
Es uno de los instrumentos bsicos del anlisis de datos y del Big_Data que tanto
inters despiertan en la actualidad para explicar multitud de tendencias y comportamientos de la vida cotidiana.
Tcnicamente, el ACP busca la proyeccin del espacio original de variables en
un subespacio en el cual los datos queden adecuadamente representados en trminos de mnimos cuadrados lineales de unos componentes principales variables
85

9 Anlisis de componentes principales

articiales independientes entre s, perdindose la menor cantidad de informacin original posible. Comporta el clculo de la descomposicin en valores propios de la matriz de covarianza de los datos, una vez centrados en la media de cada
atributo. La PCA Es una extensin inmediata de lo apuntado en la seccin 4.3.2
dedicada a valores singulares de este documento, en la pgina 28.
El anlisis de componentes principales fue formulado por Harold Hotelling,
EE.UU. 1895-1973. Sus orgenes se remontan al trabajo sobre ajustes ortogonales
por mnimos cuadrados de Karl Pearson, Reino Unido, 1857-1936. Permite transformar las variables originales de los datos de un problema, en general correladas,
en un nmero menor de nuevas variables incorreladas, facilitando as la interpretacin de esos datos.

9.1 Algunos conceptos de estadstica


Sea X 1    X n  una matriz p  n de n observaciones de p variables. La media
de esta muestra es
Pn
Xi
:
X D iD1
n
La desviacin tpica, o estndar,
s
2
Pn

i D1 X i  X
:
.X / D
n
La varianza, medida de la dispersidad de la muestra, es la desviacin tpica al
cuadrado, esto es,
2
Pn

iD1 X i  X
var.X / D
:
n
El grado de asociacin lineal ms simple de cada variable con las dems, dos a
dos, es lo que congura la matriz de covarianzas, de dimensin p  p,

2
Pn

Yi Y
i D1 X i  X
cov.X ; Y / D
D :
n
Si la covarianza entre dos variables es positiva, cuando una de ellas se incrementa
la otra hace lo mismo. Si es negativa, cuando una de ellas se incrementa, la otra
decrece. Si es cero, las dos variables son independientes entre si. Los coecientes
de la diagonal principal de la matriz de covarianzas son las varianzas de cada
variable individual. La matriz de covarianzas es simtrica. La varianza total de los
datos es la suma de cada varianza individual por lo que la traza de la matriz de
covarianzas es precisamente esa varianza total. En la gura 9.49 se ilustran unos
patrones de datos y las matrices de covarianzas correspondientes.
86

9 Anlisis de componentes principales

Figura 9.49: La matriz de covarianzas expresa la forma de los datos. La variabilidad en torno a la diagonal la determina la covarianza mientras que alrededor de
los ejes la dene la varianza
La matriz de covarianzas es semidenida positiva, es decir, x Tcov.X ; Y /x  0
para cualquier vector x 0.
La covarianza como medida de asociacin tiene el inconveniente de que depende de las unidades de medida de las variables. Si por ejemplo la covarianza entre la
estatura de una persona, medida en centmetros, y su peso, en gramos, es 200, si se
expresa el peso en kilogramos, la covarianza ser 0;002. Para construir una media
adimensional se divide la covarianza por un trmino con sus mismas dimensiones.
Se dene as el coeciente de correlacin y a partir de l la matriz de correlacin,
de dimensin tambin p  p, es
corr.X ; Y / D

cov.X ; Y /
D R:
.X / .Y /

Se utiliza para estandarizar los diversos datos. Es tambin semidenida positiva.


La matriz de covarianzas y la matriz de correlacin estn relacionadas mediante
la expresin
corr.X ; Y / D D 1 cov.X ; Y /D 1 ;
87

9 Anlisis de componentes principales

donde D es una matriz diagonal construida con las desviaciones tpicas de las
variables.
Una medida global escalar de la variabilidad conjunta de k variables es la varianza generalizada, que es el determinante de la matriz de covarianzas. Mide
aproximadamente el rea, volumen o hipervolumen ocupado por el conjunto de
datos.
La matriz de covarianzas o la matriz de correlacin determinar si existen
altas correlaciones entre las variables y por tanto existe informacin redundante entre ellas, es decir, una misma informacin vista desde varios perspectivas.
Cuanto mayor sea la variabilidad de los datos (varianza), ms rica la informacin
disponible.
Si
1
M D .X 1 C    C X n /
n
O k D X k  M , la matriz de covarianzas es
yX
2

OT
X
6 1T
O2
i6X
1hO O
On 6
cov.X ; Y / D
X 1X 2    X
6 :
6 ::
n
4
O Tn
X

3
7
7
1
7
7 D BB T :
7
n
5

9.2 Planteamiento del problema matemtico


Se trata de encontrar un subespacio de dimensin menor a p tal que al proyectar
sobre l los puntos de la muestra se conserve su estructura con la menor distorsin
posible. Para ello se construye una transformacin lineal que determina un nuevo
sistema ortogonal de coordenadas para el conjunto de datos original en el cual la
varianza de mayor tamao de los datos dene el primer eje primer Componente
Principal , la segunda varianza el segundo eje y as sucesivamente. Esto se lleva
a efecto mediante la descomposicin espectral de la matriz de covarianzas,
cov.X ; Y / D D U U T ;
donde U , U T U D U U T D I, es una matriz ortogonal p p formada por los vectores propios correspondientes a los valores propios 1 ;    p y D diag.1 ; : : : ;
p /.
Se cumple que 1      p y que los Componentes Principales son los p
vectores la de la matriz, p  n, U T B.

88

9 Anlisis de componentes principales

El subespacio generado por los k primeros vectores propios es, de todos los posibles del espacio de dimensin p, el que mejor representa en trminos de mnimos
cuadrados lineales los datos originales.
Si la matriz de covarianzas de los datos es diagonal las varianzas son iguales
a los valores propios de esa matriz y los vectores propios coinciden con los ejes
x e y las covarianzas son cero. Si la matriz de covarianzas no es diagonal,
la covarianzas no son cero pero los valores propios siguen indicando la magnitud
de la varianza en las direcciones ortogonales de los vectores propios, de mayor a
menor, que ya no coinciden con x e y. Esto se ilustra en la gura 9.5020 donde
un mismo conjunto de datos est rotado diversos ngulos para visualizar en qu
consiste la matriz de covarianzas.

Figura 9.50: Valores y vectores propios de un mismo conjunto de datos pero rotado ngulos distintos
La matriz de covarianzas, desde el punto de vista del lgebra lineal, representa
una transformacin lineal. El utilizarla en estos algoritmos es como tratar de des20 Fuente:

http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/.
89

9 Anlisis de componentes principales

correlar los datos originales para encontrar sus componentes subyacentes o principales llevar los datos a unos ejes donde se perciba el menor ruido posible.
Para proceder numricamente con este mtodo y obtener esta transformacin
primero se adaptan los datos originales para tratarlos segn convenga. Luego de
construye la matriz de covarianzas. A continuacin, como esquematiza21 el diagrama de bloques numricos de la gura 9.51, se puede proceder de dos maneras:
Se calculan los valores propios y los correspondientes vectores propios de
la matriz de covarianzas. Luego se proyectan en esos vectores propios los
datos. Una versin de esta forma de actuar en Matlab sera el programa
pca1 de la gura 9.52.
Se calcula la descomposicin en valores singulares de
varianzas. El programa pca2 materializa esta variante.

B
p
n

y se obtiene las

Como ejemplo de introduccin a este anlisis por componentes principales estudiamos los datos del cuadro 1.
$POTUSVDDJO

X1 =Duraci
on media
hipoteca (a
nos)

X2 =Precio medio
(millones euros)

1
2
3
4
5
6
7
8
9
10

8,7
14,3
18,9
19,0
20,5
14,7
18 8
37,3
12,6
25,7

0,3
0,9
1,8
0,8
0,9
1,1
2,5
2,7
1,3
3,4

X3 =Supercie media
(m2 ) de cocina

3,1
7,4
9,0
9,4
8,3
7,6
12,6
18,1
5,9
15,9

Cuadro 1: Datos sobre pisos que promocionan diversas constructoras en Espaa


En l se presenta informacin sobre pisos construidos por 10 constructoras
distintas en diversos lugares de Espaa. Se trata de considerar slo tres variables
X1 , X2 y X3 . La salida que proporciona una sesin de Matlab con los datos de la
tabla y los programas apuntados es la que se puede ver en la gura 9.53.
Como se puede observar en esa salida, la matriz de covarianzas de los datos
estudiados es
2
3
56;9685 5;1705 30;4775
D 4 5;1705 0;8941 3;64795 :
30;4775 3;6479 18;7641
Los valores propios son D diag.74;3739; 2;1580; 0;0948/.
21 Fuente:

http://mengnote.blogspot.com/2013/05/an-intuitive-explanation-of-pca.html.
90

9 Anlisis de componentes principales

Figura 9.51: Esquema de la transformacin del ACP mediante descomposicin en


valores propios y descomposicin en valores singulares
Los componentes principales de este ejemplo son
P C1 D 0;8714X1 C 0;0853X2 C 0;4832X3 ;
P C2 D 0;4798X1  0;3542X2  0;8027X3

P C3 D 0;1026X1 C 0;9313X2 C 0;3495X3 :


Los porcentajes de variabilidad que explican cada componente principal son
74;3739
76;6267

 100 D 97;06 %;

2;1580
76;6267

 100 D 2;82 % y

0;0948
76;6267

 100 D 0;12 %:

Con el primer componente, y por supuesto con los dos primeros, sera suciente
para representar casi perfectamente este conjunto de datos.

91

9 Anlisis de componentes principales

function [signals,PC,V] = pca1(data)


% Se analizan datos por Componentes Principales
% data-matriz MxN con los datos, M dimensiones y N datos
% signals-matrix MxN de datos proyectados;
% PC, cada componente en columna
% V-Mx1 matrix de variances
%
[~,N] = size(data);
% subtract off the mean for each dimension
mn = mean(data,2); data = data - repmat(mn,1,N);

function [signals,PC,V] = pca2(data)


% Se analizan datos por Componentes Principales
% data-matriz MxN con los datos, M dimensiones y N datos
% signals-matrix MxN de datos proyectados;
% PC, cada componente en columna
% V-Mx1 matrix de variances
%
[~,N] = size(data);
% subtract off the mean for each dimension
mn = mean(data,2); data = data - repmat(mn,1,N);

% calculate the covariance matrix


covariance = 1/N * (data * data')

% construct the matrix Y


Y = data'/sqrt(N);

% find the eigenvectors and eigenvalues


[PC, V] = eig(covariance);

% SVD does it all


[u,S,PC] = svd(Y);

% extract diagonal of matrix as vector


V = diag(V);

% calculate the variances


S = diag(S); V = S .* S;

% sort the variances in decreasing order


[~,rindi] = sort(-1*V); V = V(rindi); PC = PC(:,rindi);

% project the original data


signals = PC' * data;

% project the original data set


signals = PC'*data;

end

end

Figura 9.52: Dos programas de Matlab para llevar a cabo un anlisis PCA

>> datos=[1 2 3 4 5 6 7 8 9 10;


8.7 14.3 18.9 19.0 20.5 14.7 18.8 37.3 12.6 25.7;
0.3 0.9 1.8 0.8 0.9 1.1 2.5 2.7 1.3 3.4;3.1 7.4 9.0 9.4 8.3 7.6 12.6 18.1 5.9 15.9]
datos =
1.0000
8.7000
0.3000
3.1000

2.0000
14.3000
0.9000
7.4000

3.0000
18.9000
1.8000
9.0000

4.0000
19.0000
0.8000
9.4000

5.0000
20.5000
0.9000
8.3000

6.0000
14.7000
1.1000
7.6000

7.0000
18.8000
2.5000
12.6000

8.0000
37.3000
2.7000
18.1000

9.0000
12.6000
1.3000
5.9000

10.0000
25.7000
3.4000
15.9000

0.5154
2.0809
-0.0247

-4.8597
-0.2107
0.1397

1.2482
-2.7532
0.1627

20.0429
1.6367
-0.0000

-7.4938
0.0756
-0.4252

8.9318
-2.4105
-0.2302

0.5154
2.0809
-0.0247

-4.8597
-0.2107
0.1397

1.2482
-2.7532
0.1627

20.0429
1.6367
-0.0000

-7.4938
0.0756
-0.4252

8.9318
-2.4105
-0.2302

>> [signal PC V]=pca1(datos(2:4,1:10))


covariance =
56.9685
5.1705
30.4775
signal =
-12.3303
0.8063
-0.0723
PC =

V =

0.8714
0.0853
0.4832

5.1705
0.8941
3.6479

30.4775
3.6479
18.7641

-5.3219
-0.1713
0.2971

-0.4638
0.4326
-0.4540

0.4798
-0.3542
-0.8027

-0.1026
-0.9313
0.3495

-0.2687
0.5136
0.6069

74.3739
2.1580
0.0948

>> [signal PC V]=pca2(datos(2:4,1:10))


signal =
-12.3303
0.8063
-0.0723
PC =

V =

0.8714
0.0853
0.4832

-5.3219
-0.1713
0.2971

-0.4638
0.4326
-0.4540

0.4798
-0.3542
-0.8027

-0.1026
-0.9313
0.3495

-0.2687
0.5136
0.6069

74.3739
2.1580
0.0948

Figura 9.53: Sesin de Matlab para analizar los datos sobre pisos construidos

92

10 Nmeros complejos

10 Nmeros complejos
Los nmeros delpcuerpo C dep
lo complejos surgen para dar sentido a races de
nmeros negativos, a2 D a 1 pues as se usan para representar modelos y
problemas en muchas
p reas de la ciencia e ingeniera. Para ello se utiliza la unidad
imaginaria i D 1.
Cualquier nmero complejo z D x C yi , donde x es la parte real e y la imaginaria (ambas reales), se representa geomtricamente
p en el plano complejo como
se ve en la gura 10.54. El mdulo de z, jzj D r D x 2 C y 2 .

Figura 10.54: Un nmero en el plano complejo


Las operaciones elementales con nmeros complejos, si z D a C i b y w D
c C id , son la suma, z C w D .a C c/ C .b C d /i y la multiplicacin, zw D
.ac  bd / C i.ad C bc/. Como i  i D i 2 D 1, 1i D i y i.i / D 1.
El complejo conjugado de un nmero complejo z D x Ciy es zN D x iy. Slo
si z es real se cumple que z D z. Es decir, su imagen en el espejo que dene el eje
x. Adems, z C w D z C w, zw D z w y z D z. Estas frmulas se extienden a
sumas y productos de ms de don nmeros complejos y a integrales (recordemos
que son el lmite de una suma de innitos sumandos), as
Z

Z
f .t/g.t/ d t D

f .t / g.t/ dt:

El cociente z=w es
a C bi
z
D
w
c C di
a C bi c  d i
D
c C di c  di
.a C bi /.c  d i /
.ac C bd / C .bc  ad /i
D
D
:
2
2
c Cd
c2 C d 2
93

10 Nmeros complejos

En su forma polar un nmero complejo se escribe22 z D re i' D r cos ' C


p

i sen ' , donde r D x 2 C y 2 y ' D arctan.y=x/.
La circunferencia de radio unidad en el plano complejo es el lugar geomtrico
de los nmeros complejos con r D 1 gura 10.55. Si se multiplican dos
y
i

e2 = i

e4
e0= 1 + 0i

e i= 1 + 0i

Figura 10.55: Circunferencia de radio unidad en el plano complejo


nmeros e i
y e i de esa circunferencia,


e i
e i D cos  C i sen  cos C i sen


D cos  cos  sen  sen C i sen  cos C sen cos  :
Reordenando,23 e i.
C / D cos. C / C i sen. C /. Por tanto, el producto de
dos nmeros complejos en la circunferencia de radio unidad es otro nmero de la
misma circunferencia cuyo ngulo es la suma de los dos precedentes.
Los nmeros Moivre, z tales que z n  1 D 0, races n-simas de la unidad, por
Abraham de Moivre, Francia, 1667-1754 , tienen inters:
En la recta de nmeros reales slo hay dos: 1 y 1.
En el plano complejo hay muchos. Por ejemplo, i es una raz cuarta de 1:
p 4
i4 D
1 D .1/2 D 1.
Estn localizados en la circunferencia del plano complejo de radio la unidad: forman los vrtices de un polgono regular de n lados con un vrtice en 1 como se ve
en la gura 10.56 para n D 5.
22 A

e i' D cos ' C i sen ' se la conoce como identidad de Euler

23 Es

interesante saber que cos


D

e i Ce i
2

y sen
D i e
94

i e i

10 Nmeros complejos

+i

+1

Figura 10.56: Circunferencia de radio unidad en el plano complejo y nmeros de


Moivre para n D 5
Una raz n-sima de la unidad se denomina primitiva24 si no es una raz ksima para k < n. As, 1 es una raz segunda primitiva de la unidad y cuarta no
primitiva de ella.
Es fcil ver que, para una n cualquiera, el nmero complejo !n D e i 2 =n es
una raz n-sima primitiva de la unidad (tambin lo es !n D e i 2 =n ).
En la gura 10.57 se ve la raz cuarta primitiva de la unidad, !4 D e i 2 =4 , y
las otras tres. Tambin la gura anterior. Son, en general, las potencias !4k , k D
0; 1; 2; 3.
Las !nk se denominan tambin factores twiddle.
Se puede vericar que la raz n-sima de la unidad, ! D e i 2 =n , con n > 1,
cumple que
1 C ! C ! 2 C ! 3 C    C ! n1 D 0;
1 C ! 2 C ! 4 C ! 6 C    C ! 2.n1/ D 0;
1 C ! 3 C ! 6 C ! 9 C    C ! 3.n1/ D 0;
::
:
1 C ! n1 C ! .n1/2 C ! .n1/3 C    C ! .n1/.n1/ D 0:
24 De otra manera, la raz n-sima de la unidad es primitiva, si slo si sus k-simas potencias,
k D 0; 1; : : : ; n  1 son distintas. Las races cuartas de 1 son: 1, 1, i, i . En el caso de 1 sus
potencias de grado 0, 1, 2 y 3 son iguales; no es raz primitiva. Para i , se calcula que las potencias de
grado 0, 1, 2, 3 son, respectivamente, 1, i , 1, i, distintas, luego i es una raz cuarta primitiva de 1.

95

11 Bibliografa

i = 43 = 41
...

42 = 42 =

....
..
.............
... ...... 2/4
...
..
..
..
..................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
....
..
...
..
...
..
...
..

6
5

= 40 = 44

/4

i = 41 = 43

0 = 8 = 1
x

=e

i2
8

Figura 10.57: Raz cuarta primitiva de la unidad !4 D e i 2 =4 y las otras tres; los
nmeros de Moivre para n D 8
Tambin que
1 C ! n C ! 2n C ! 3n C    C ! n.n1/ D 1 C 1 C 1 C 1 C    C 1 D n:
Adems, si k es un nmero entero,
n1
X
j D0

jk

n si k=n es entero,
0 en otro caso.

11 Bibliografa
B ERTSEKAS , D.P. 2003. Convex Analysis and Optimization. Athena Scientic.
B OYD , S. Y VANDENBERGHE , L. 2004. Convex Optimization. Cambridge University Press.
DE LA F UENTE , J.L. 1998. Tcnicas de clculo para sistemas de ecuaciones,
programacin lineal y programacin entera. Segunda edicin. Revert.

D UOANDIKOETXEA , J. 2007. 200 aos de convergencia de las series de Fourier.


La Gaceta de la RSME, Vol. 10, No. 3.
F LETCHER , R. 1987. Practical methods of optimization. John Wiley & Sons,
Ltd.
G ANDER , M.J. Y WANNER , G. 2012. From Euler, Ritz, and Galerkin to Modern
Computing. SIAM Review, Vol. 54, No. 4. Society for Industrial and Applied
Mathematics.
96

11 Bibliografa

G RAN , A. Anlisis de Componentes Principales. Departamento de Estadstica,


Universidad Carlos III de Madrid.
H ALMOS , P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.
KOLMOGOROV, A.M. Y F OMIN , S.V. 1975. Introductory Real Analysis. Dover
Publications.
K UHN , H.W. Y T UCKER , A.W. 1951. Nonlinear Programming. Proceedings
of the Second Berkeley Symposium on Mathematical Statistics and Probability.
University of California Press. Verlag.
L AY, D.C. 2012. lgebra lineal y sus aplicaciones. Cuarta edicin. Pearson educacin.
L UENBERGER , D.G. 1969. Optimization by Vector Space Methods. John Wiley
and Sons.
L UENBERGER , D.G. Y Y E , Y. 2016. Linear and Nonlinear Programming. Fourth
Edition. Springer Verlag.
N OCEDAL , J. Y W RIGHT, S.J. 2006. Numerical Optimization. Springer Verlag.
P EA S NCHEZ DE R IVERA , D. 1986. Estadstica. Modelos y mtodos. 1. Fundamentos. Alianza Universidad Textos.
R IAZA , R. Y LVAREZ , M. 1996. Clculo innitesimal. Vol. I. Sociedad de Amigos de la Escuela Tcnica Superior de Ingenieros Industriales de Madrid.
R IAZA , R. Y LVAREZ , M. 1997. Clculo innitesimal. Vol. II. Sociedad de
Amigos de la Escuela Tcnica Superior de Ingenieros Industriales de Madrid.
ROCKAFELLAR , R.T. 1970. Convex Analysis. Princeton University Press.
S AUER , T. 2013. Anlisis numrico. Segunda edicin. Pearson educacin.
S AYAS , F.J. 2015. A gentle introduction to the Finite Element Method.
W OLFE , P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl.
Math. 19, N 3.

97

S-ar putea să vă placă și