Documente Academic
Documente Profesional
Documente Cultură
1
x
n
x
i
x
0 1
1
n
i
n
V
a
r
i
a
b
l
e
a
l
e
a
t
o
r
i
a
F(x) = Probabilidad de no excedencia
2
n
2
x
1 n
x
1 n
n
Figura A.I.1. Funcin distribucin emprica de la variable aleatoria X .
ANEJO I
- A.I.4 -
Sin embargo los dos extremos de la distribucin emprica 0 y 1, en el caso de muchas familias
de funciones de distribucin, se transforman en o respectivamente al dibujarlos en su
papel probabilstico correspondiente, este problema es el usualmente denominado problema
del punteo.
Una solucin de compromiso a este problema, propuesta por Hazen, consiste en usar la
aproximacin ( 1 2) i n en lugar de i n , debido a que la probabilidad salta desde ( 1) i n a
i n . Otras posibles aproximaciones clsicas ( ( ) F x ) se muestran en la tabla A.I.1 (recopilada
de Castillo (1993)):
Expresin Autor
( )
1
i
F x
n
=
+
-
3
8
1
4
( )
i
F x
n
=
+
Blom
1
2
( )
i
F x
n
= Hazen
0.44
( )
0.12
i
F x
n
=
+
Gringorten
( ) , ( )
( )
i i
x F x
i
F x
n
=
3 1
( )
3 1
i
F x
n
=
+
-
Tabla A.I.1. Diferentes frmulas de punteo
A.I.3 Funciones de distribucin y papeles probabilsticos.
La funcin distribucin de una variable aleatoria X es una funcin que asigna a cada valor de
x la probabilidad de que la variable aleatoria tome valores iguales o menores que x
( ( ) Pr( ) F x X x = ; 0 ( ) 1 F x < < ). Existen multitud de funciones de distribucin (Normal,
Lognormal, Exponencial, Weibull (Fisher Tippett III), Gumbel (Fisher Tippett I), Frechet
(Fisher Tippett II),) con diversas variaciones. As, cuando la variable aleatoria es un
parmetro de estado de mar, la funcin distribucin de dicha variable sirve para caracterizar
su rgimen medio. A continuacin se presentan las funciones de distribucin ms usuales para
definir el rgimen medio de oleaje, pero tambin se va a presentar una funcin de distribucin
generalmente usada para caracterizar el rgimen extremal, la GEV (Generalized Extreme
Value), que es la forma de Von Mises para mximos (Castillo, 1993).
Adems de definir distintas funciones de distribucin para ajustar el rgimen medio, as como
sus funciones de densidad asociadas ( ( ) ( ) / f x dF x dx = ), tambin se especifican las
DISTRIBUCIONES ESTADSTICAS DE RGIMEN MEDIO
- A.I.5 -
transformaciones necesarias de cada una de las distribuciones para representar sus papeles
probabilsticos.
El mtodo de los papeles probabilsticos se utiliza para estimar los parmetros de una funcin
de distribucin ( ( ; ) F x ). En general, se buscan transformaciones de los ejes ( ( ) g x y
( ) ( ( )) h y h F x = ) para que en los nuevos ejes (o variables reducidas) la funcin de distribucin
sea una recta, ver el esquema de la figura A.I.2. Finalmente ajustando los parmetros de la
recta ( { }
(A.I.1)
donde:
( ) z es la funcin de distribucin de la variable z Normal estndar (0,1) N
*
es la media de la distribucin Normal del logaritmo de la variable original (parmetro de
localizacin de la distribucin Lognormal)
*
es la desviacin tpica de la distribucin Normal del logaritmo de la variable original
(parmetro de escala de la distribucin Lognormal).
ANEJO I
- A.I.6 -
Siendo la funcin densidad Lognormal para una variable aleatoria X :
2
* * *
* *
* *
( ; , ) 1 1 log( )
( ; , ) exp ; 0
2 2
dF x x
f x x
dx x
= = < <
(A.I.2)
Para el papel probabilstico Lognormal las variables reducidas se definen a partir de las
transformaciones de la funcin de distribucin siguientes:
1
( ) log( )
( ) ( )
g x x
h y y
= =
= =
(A.I.3)
con lo que la familia de rectas ( { } , = ) queda:
*
*
;
= + = con
*
*
= y
*
1
=
(A.I.4)
A partir de
*
y
*
de la distribucin Normal original (ecuacin A.I.1) se pueden determinar
la media y la desviacin tpica de la distribucin Lognormal:
( ) ( )
2
*
*
2 2
2 * * * *
exp
2
exp 2 2 exp 2
= +
= + +
(A.I.5)
y despejando
*
y
*
de y de las expresiones A.I.5 se tiene:
2
*
2
2
2
*
2
1
log( ) log 1
2
log 1
= +
= +
(A.I.6)
Cabe sealar, que para el caso de la funcin de distribucin Lognormal, ajustando mediante
OLS, se suele utilizar la frmulas de punteo de Blom, ver tabla A.I.1.
DISTRIBUCIONES ESTADSTICAS DE RGIMEN MEDIO
- A.I.7 -
A.I.3.2 Distribucin Gumbel de mximos.
La funcin de distribucin Gumbel de mximos de una variable aleatoria X es:
( ; , ) exp exp ;
x
y F x x
= = < <
(A.I.7)
donde:
es el parmetro de localizacin (es la moda de la distribucin)
es el parmetro de escala (es proporcional a la desviacin tpica de la distribucin,
2 2 2
6 = ).
Y la funcin densidad de la distribucin Gumbel de mximos de una variable aleatoria X es:
( ; , ) 1
( ; , ) exp exp exp ;
dF x x x
f x x
dx
= = < <
(A.I.8)
En el papel probabilstico Gumbel de mximos las variables reducidas, definidas a partir de la
funcin de distribucin, son:
( )
( ) log[ log( )]
g x x
h y y
= =
= =
(A.I.9)
y la familia de rectas ( { } , = ) es:
;
= + = con
= y
1
=
(A.I.10)
Cabe sealar, que para el caso de la funcin de distribucin Gumbel de mximos, ajustando
mediante OLS, se suele utilizar la frmulas de punteo de Gringorten, ver tabla A.I.1.
ANEJO I
- A.I.8 -
A.I.3.3 Distribucin Weibull de mnimos.
La funcin de distribucin Weibull de mnimos de una variable aleatoria X es:
( ; , , ) 1 exp ;
C
x B
y F x A B C B x
A
= = <
(A.I.11)
donde:
A es el parmetro de escala (determina la anchura de la funcin de distribucin)
B es el parmetro de localizacin (es el mnimo valor posible de x ). Para 0 B = la funcin
de distribucin de Weibull se denomina biparamtrica.
C es el parmetro de forma. Para 1 C = , se reduce a una funcin de distribucin exponencial
y para 2 C = se obtiene la funcin de distribucin de Rayleigh
1
.
Y la funcin densidad de la distribucin Weibull de mnimos de una variable aleatoria X es:
1
( ; , , )
( ; , , ) exp ;
C C
dF x A B C C x B x B
f x A B C B x
dx A A A
= = <
(A.I.12)
Para el papel probabilstico Weibull de mnimos las variables reducidas se determinan con las
transformaciones definidas a partir de la funcin de distribucin:
[ ]
1
( )
( ) log(1 )
C
g x x
h y y
= =
= =
(A.I.13)
y la familia de rectas ( { } , = ) es:
;
B
A
= + = con
B
A
= y
1
A
=
(A.I.14)
Cabe sealar, por su utilizacin, que para el caso de la funcin de distribucin Weibull de
mnimos, ajustando mediante OLS, se suelen utilizar las frmulas de punteo que aparecen en
la tabla A.I.2, que dependen de los parmetros de la funcin de distribucin.
1
Funcin de distribucin de Rayleigh: utilizada tradicionalmente para representar la distribucin de las alturas
de ola dentro de un estado de mar en oleajes gausianos de banda estrecha (tipo swell).
DISTRIBUCIONES ESTADSTICAS DE RGIMEN MEDIO
- A.I.9 -
Relaccin Autor
1
2
0.30 0.18
0.21 0.32
C
C
= +
= +
Petruaskas y
Aagaard
1
2
( )
i
F x
n
=
+
1
2
0.20 0.27
0.20 0.23
C
C
= +
= +
Goda
Tabla A.I.2. Frmulas de punteo de la distribucin Weibull de mnimos.
A.I.3.4 Distribucin GEV.
La funcin distribucin GEV (Generalized Extreme value) ha sido definida dentro de la teora
de valores extremos (TVE), que describe el comportamiento de los valores extremos
(mximos o mnimos) mediante modelos basados en distribuciones de probabilidad. Dicha
teora busca la mejor definicin posible de la cola de la distribucin. Por ello, la funcin de
distribucin de mximos ( { }
1
max ,...
n n
Z X X = ) de una muestra de tamao n procedente de
una poblacin con funcin de distribucin ( ) G x es:
( ) Pr( ) [ ( )]
n
n n
H x Z x G x = =
(A.I.15)
La forma de Von Mises que engloban las tres nicas distribuciones lmites para mximos (si
( ) G x est en el mximo dominio de atraccin de ( ) H x ) es:
1
exp 1 0
( ; , , )
exp exp 0
x
H x
x
=
(A.I.16)
donde [ ] a
+
es el mximo de a y 0 ([ ] max( , 0) a a
+
= ), es el parmetro de localizacin,
es el parmetro de escala y es el parmetro de forma.
El parmetro de localizacin especifica la posicin de la probabilidad de no excedencia
exp( 1) , representando los valores medios. El parmetro de escala controla la dispersin de
la unidad de medida dentro del rango de la distribucin. Finalmente, el parmetro de forma
condiciona el tipo de distribucin, la expresiones para 0 engloba dos familias de
distribucin: Frechet para el caso de 0 > y Weibull para el caso 0 < , mientras que para el
caso 0 = se obtiene la familia de distribuciones tipo Gumbel a partir del limite de la
ecuacin definida para Frechet/Weibull cuando 0 .
ANEJO I
- A.I.10 -
En el transcurso de la presente tesis, que presenta un gran inters por los valores mximos, se
ha identificado con las siglas GEV a la forma de Von Mises de mximos, asumiendo que su
funcin de distribucin es la de la ecuacin A.I.16 ( ( ) ( ) F x H x ). Ntese como para 0 =
coincide con la expresin de Gumbel de mximos (ver ecuacin A.I.7). Dicha funcin de
distribucin presenta la siguiente funcin de densidad:
1 1
1
1
1 exp 1 0
( ; , , )
( ; , , )
1
exp exp exp 0
x x
dF x
f x
dx
x x
+ +
+ +
= =
=
(A.I.17)
Si se realiza el mismo cambio de variable en la ecuacin A.I.16 que el que se realiza para el
papel probabilstico Gumbel de mximos (ecuacin A.I.9), se obtiene para 0 = la familia de
rectas Gumbel de mximos (igual a la ecuacin A.I.10):
;
= + = con
= y
1
=
(A.I.18)
En cambio, para 0 y con el mismo cambio de variable, se obtiene una familia de curvas
logartmicas (no son rectas) que sern cncavas para 0 > (Frechet) y convexas para 0 <
(Weibull):
1
log 1
= +
(A.I.19)
DISTRIBUCIONES ESTADSTICAS DE RGIMEN MEDIO
- A.I.11 -
ANEJO I
- A.I.12 -
ANEJO II
FUNCIONES EMPRICAS ORTOGONALES
ANEJO II
- A.II.2 -
FUNCIONES EMPRICAS ORTOGONALES
- A.II.3 -
A.II.1. Introduccin.
En el presente Anejo se va a explicar una tcnica estadstica muy utilizada para estudiar y
caracterizar variables geofsicas. As, cuando se tienen variables de alta dimensionalidad
(como las que producen los modelos numricos en oceanografa), donde los datos pueden
estar muy correlacionados en sus distintas componentes, para eliminar la informacin
redundante se pueden utilizar el anlisis de componentes principales (PCA, Principal
Component Analysis). El PCA, tambin conocido en las ciencias meteorolgicas como la
descomposicin en funciones empricas ortogonales (EOF, Empirical Orthogonal Function)
es una tcnica estndar para reducir la informacin redundante con la mnima prdida de
variabilidad.
Dentro de las tcnicas EOFs bidimensionales se pueden aplicar, por ejemplo, a variables
espacio-temporales o tambin a variables direccionales (con modulo y argumento) tratndolas
como variables complejas. A continuacin se va a explicar la tcnica EOF aplicada
nicamente a una variable espacio-temporal, pero es igualmente aplicable a una variable
espacio-direccional o con otras dependencias de sus variables, sin perdida de generalidad
(evitando la utilizacin de la matemtica de los nmeros complejos).
A.II.2 EOF.
La tcnica EOF es un mtodo estadstico que descompone una determinada variable numrica
espacio-temporal en una combinacin lineal de modos o funciones ortogonales numricas.
Esto se logra proyectando el conjunto de datos en un nuevo espacio (de menor dimensin que
el original), donde las nuevas variables/dimensiones representan aquellas direcciones del
espacio donde los datos tienen mayor varianza.
As, con slo unos pocos modos se puede explicar la mayor parte de la variacin, tanto
espacial como temporal, de la variable ( , ) Z x . Siendo Z la variable numrica, que depende
de x , que es la variable espacio, y de , que es la variable tiempo. Por lo tanto al elegir los
modos que explican la mayor parte de la variabilidad de ( , ) Z x podemos representar sta,
considerando que el resto de la variabilidad no es significativa para la variacin espacio-
temporal de la variable Z .
La variable genrica ( , ) Z x , con { }
1 2
, ,..., ,...,
i n
x x x x x = y { } 1 2
, ,..., ,...,
j m
= , se ordena
en una matriz de n x mque se denota por ( , ) Z x ; siendo x un vector que contiene las n
posibles posiciones donde est definida la matriz ( , ) Z x y un vector que contiene los m
ANEJO II
- A.II.4 -
posibles tiempos donde est definida ( , ) Z x . La matriz Z (de n filas y m columnas) tiene
en cada elemento ( , ) i j Z el valor de la variable ( , ) Z x para la posicin
i
x y el tiempo
j
.
La descomposicin EOF de ( , ) i j Z se puede realizar de dos maneras: la primera es una
descomposicin espacial de la variabilidad y la segunda es una descomposicin temporal de
la variabilidad (Baldacci et al., 2001):
La descomposicin espacial consiste en analizar los datos de la matriz Z, restndoles
previamente la media espacial (
MS
Z , slo depende de ):
1
1
( , ) ( , ) ( ) ( , ) ( , )
n
k
i j i j j i j k j
n
=
= =
S MS
Z Z Z Z Z
(A.II.1)
La descomposicin temporal consiste en analizar los datos de la matriz Z, restndoles
previamente la media temporal (
MT
Z , slo depende de x ):
1
1
( , ) ( , ) ( ) ( , ) ( , )
m
k
i j i j i i j i k
m
=
= =
T MT
Z Z Z Z Z
(A.II.2)
La descomposicin espacial destaca los gradientes espaciales, mientras que la
descomposicin temporal revela las variaciones en el tiempo. Para esta tesis se utiliza la
descomposicin temporal EOF
1
, que se explica seguidamente.
Tras calcular
T
Z (ver ecuacin A.II.1), matriz de n x m, sta se pretende descomponer en
una base ortogonal de funciones de la forma:
T
T
Z = FG
(A.II.3)
Donde el superndice
T
significa traspuesta; F es la matriz de n x n de los modos
espaciales, que resulta ser la matriz de autovectores de la matriz espacial de correlacin, la
columna -sima i es el modo espacial
i
f (vector columna de n x 1):
1 2 i n
F = f f ... f ... f
(A.II.4)
1
La descomposicin temporal en EOF utilizada en esta tesis podr ser indistintamente temporal o direccional, en
funcin si la variable bidimensional Z es espacio-temporal o espacio-direccional, con lo que
MT
Z se denotar
de manera general como
M
Z .
FUNCIONES EMPRICAS ORTOGONALES
- A.II.5 -
G es la matriz de m x n de las amplitudes temporales, la columna -sima i es la amplitud
temporal
i
g (vector columna de m x 1):
1 2 i n
G = g g ... g ... g
(A.II.5)
A partir de la definicin de la matriz espacial de correlacin
S
R (matriz de n x n ):
T
S T T
R = Z Z
(A.II.6)
se puede relacionar con sus autovectores (
i
f ) y autovalores asociados (
i
), por medio de la
ecuacin resoluble:
S i i i
R f = f
(A.II.7)
Con la ecuacin A.II.7 se calcula F (definida en la ecuacin A.II.4); una vez calculados los
modos espaciales, las amplitudes temporales se despejarn de la ecuacin A.II.3:
T
T
G = Z F
(A.II.8)
De manera anloga a la descomposicin temporal se har la descomposicin espacial (ver
ecuacin A.II.2):
T
S
Z = LM
(A.II.9)
donde L es la matriz de n x m de amplitudes espaciales y M es la matriz de m x m de
modos temporales, que se obtiene como los autovectores de la matriz temporal de correlacin
(
T
R ):
T
T S S
R = Z Z
(A.II.10)
Las amplitudes espaciales se hallan despejando L de la ecuacin A.II.9:
S
L = Z M
(A.II.11)
ANEJO II
- A.II.6 -
Por lo tanto, y a modo de ejemplo, para reconstruir ( , ) Z x a partir de la descomposicin
temporal con un nmero reducido de modos, se har:
( , ) ( ) ( ) ( ) ( ) ( ) ... ( ) ( ) = + + + +
MT 1 1 2 2 p p
Z x Z x f x g f x g f x g
(A.II.12)
siendo p menor que n , que es nmero total de modos.
La manera de decidir cuantos modos tomar, es evaluando el porcentaje de varianza que
explican los p modos. Siendo la varianza que explica cada autovector su autovalor asociado
(Cieslikiewicz y Graff, 1996). Por lo tanto el porcentaje de varianza explicada por cada uno
(
i
) es:
i
n
k
k=1
(A.II.13)
Si ordenamos los modos de manera decreciente segn sus autovectores ( , ,..., ,...,
1 2 p n
f f f f con
sus autovectores ordenados de mayor a menor, ... ...
1 2 p n
), el tanto por ciento
(%) que explican los p primeros modos es:
100
p
i
i=1
n
k
k=1
(A.II.14)
FUNCIONES EMPRICAS ORTOGONALES
- A.II.7 -
ANEJO II
- A.II.8 -