Sunteți pe pagina 1din 2

Fórmula algebraica de la varianza

Ir a la navegaciónIr a la búsqueda
Véase también: Algoritmos para calcular la varianza
En teoría de la probabilidad y estadística, se dispone de varias fórmulas
algebraicas para calcular la varianza de una variable aleatoria. La utilidad de
estos procedimientos depende de lo que ya se sabe sobre la variable aleatoria; por
ejemplo, una variable aleatoria puede definirse en términos de su función de
densidad de probabilidad o por construcción a partir de otras variables aleatorias.

El propósito del presente artículo es mostrar expresiones algebraicas para


determinar la varianza teórica de una variable aleatoria, en contraste con la
cuestión de estimar la varianza de una población a partir de datos de una muestra,
problema para el que se deben efectuar consideraciones especiales a la hora de
idear los correspondientes algoritmos para calcular la varianza (especialmente
utilizando ordenadores).

Índice
1 En términos de momentos brutos
1.1 Demostración
1.2 Generalización a la covarianza
2 Véase también
3 Referencias
En términos de momentos brutos
Si se conocen los momentos E(X) y E(X2) de un variable aleatoria X (donde E(X) es
la esperanza matemática de X), entonces la Var(X) viene dada por:

{\displaystyle \operatorname {Var} (X)=\operatorname {E} (X^{2})-[\operatorname {E}


(X)]^{2}.}{\displaystyle \operatorname {Var} (X)=\operatorname {E} (X^{2})-
[\operatorname {E} (X)]^{2}.}
El resultado se denomina fórmula de König-Huygens en la literatura en lengua
francesa1 y se conoce como teorema de traslación de Steiner en Alemania.2

Existe una fórmula para determinar la estimación de la varianza a partir de los


datos de una muestra, que puede ser de utilidad en los cálculos manuales. Esta es
una identidad estrechamente relacionada, que está estructurada para crear una
estimación no sesgada de la varianza de la población:

{\displaystyle {\hat {\sigma }}^{2}={\frac {1}{N-1}}\sum _{i=1}^{N}(x_{i}-{\bar


{x}})^{2}={\frac {N}{N-1}}\left({\frac {1}{N}}\left(\sum
_{i=1}^{N}x_{i}^{2}\right)-{\bar {x}}^{2}\right)\equiv {\frac {1}{N-
1}}\left(\left(\sum _{i=1}^{N}x_{i}^{2}\right)-N\left({\bar
{x}}\right)^{2}\right).}{\displaystyle {\hat {\sigma }}^{2}={\frac {1}{N-1}}\sum
_{i=1}^{N}(x_{i}-{\bar {x}})^{2}={\frac {N}{N-1}}\left({\frac {1}{N}}\left(\sum
_{i=1}^{N}x_{i}^{2}\right)-{\bar {x}}^{2}\right)\equiv {\frac {1}{N-
1}}\left(\left(\sum _{i=1}^{N}x_{i}^{2}\right)-N\left({\bar
{x}}\right)^{2}\right).}
Sin embargo, el uso de estas fórmulas puede ofrecer resultados erróneos en la
práctica, cuando se usa aritmética de punto flotante con una precisión limitada:
restar dos valores que tengan una magnitud similar puede llevar a cancelaciones
catastróficas desde el punto de vista numérico,3 y por lo tanto, provocar una
pérdida incontrolada de precisión cuando {\displaystyle \operatorname {E}
(X)^{2}\gg \operatorname {Var} (X)}{\displaystyle \operatorname {E} (X)^{2}\gg
\operatorname {Var} (X)}.4Esto ha llevado al diseño de varios otros algoritmos para
calcular la varianza numéricamente estables para usar con números de punto
flotante.4

Demostración
La fórmula computacional para la varianza de la población se deduce de manera
directa a partir de la linealidad de los valores esperados y de la definición de la
varianza:

{\displaystyle {\begin{aligned}\operatorname {Var} (X)&=\operatorname {E}


\left[(X-\operatorname {E} (X))^{2}\right]\\&=\operatorname {E} \left[X^{2}-
2X\operatorname {E} (X)+[\operatorname {E} (X)]^{2}\right]\\&=\operatorname {E}
(X^{2})-\operatorname {E} [2X\operatorname {E} (X)]+[\operatorname {E}
(X)]^{2}\\&=\operatorname {E} (X^{2})-2\operatorname {E} (X)\operatorname {E} (X)+
[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-2[\operatorname {E}
(X)]^{2}+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-[\operatorname
{E} (X)]^{2}\end{aligned}}}{\displaystyle {\begin{aligned}\operatorname {Var}
(X)&=\operatorname {E} \left[(X-\operatorname {E} (X))^{2}\right]\\&=\operatorname
{E} \left[X^{2}-2X\operatorname {E} (X)+[\operatorname {E}
(X)]^{2}\right]\\&=\operatorname {E} (X^{2})-\operatorname {E} [2X\operatorname {E}
(X)]+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-2\operatorname {E}
(X)\operatorname {E} (X)+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-
2[\operatorname {E} (X)]^{2}+[\operatorname {E} (X)]^{2}\\&=\operatorname {E}
(X^{2})-[\operatorname {E} (X)]^{2}\end{aligned}}}
Generalización a la covarianza
Esta fórmula se puede generalizar para la covarianza, con dos variables aleatorias
Xi y Xj:

{\displaystyle \operatorname {Cov} (X_{i},X_{j})=\operatorname {E}


(X_{i}X_{j})-\operatorname {E} (X_{i})\operatorname {E} (X_{j})}{\displaystyle
\operatorname {Cov} (X_{i},X_{j})=\operatorname {E} (X_{i}X_{j})-\operatorname {E}
(X_{i})\operatorname {E} (X_{j})}
así como para la matriz de covarianza de orden n por n de un vector aleatorio de
longitud n:

{\displaystyle \operatorname {Var} (\mathbf {X} )=\operatorname {E} (\mathbf


{XX^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf {X} )
^{\top }}{\displaystyle \operatorname {Var} (\mathbf {X} )=\operatorname {E}
(\mathbf {XX^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf
{X} )^{\top }}
y para la matriz de covarianza cruzada de orden n por m entre dos vectores
aleatorios de longitudes n y m:

{\displaystyle \operatorname {Cov} ({\textbf {X}},{\textbf {Y}})=\operatorname {E}


(\mathbf {XY^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf
{Y} )^{\top }}{\displaystyle \operatorname {Cov} ({\textbf {X}},{\textbf
{Y}})=\operatorname {E} (\mathbf {XY^{\top }} )-\operatorname {E} (\mathbf
{X} )\operatorname {E} (\mathbf {Y} )^{\top }}
donde los valores esperados se toman en forma de elementos y {\displaystyle \mathbf
{X} =\{X_{1},X_{2},\ldots ,X_{n}\}}{\displaystyle \mathbf {X} =\{X_{1},X_{2},\ldots
,X_{n}\}} y {\displaystyle \mathbf {Y} =\{Y_{1},Y_{2},\ldots ,Y_{m}\}}
{\displaystyle \mathbf {Y} =\{Y_{1},Y_{2},\ldots ,Y_{m}\}} son vectores aleatorios
de longitudes respectivas n y m.

Téngase en cuenta que esta fórmula adolece del mismo problema de pérdida de
significancia que la fórmula para la varianza si se usa para calcular estimaciones
de la covarianza, y se deben usar algoritmos alternativos en su lugar.4

S-ar putea să vă placă și