Sunteți pe pagina 1din 3

Divulgacin

Media, varianza y desviacin estndar


Pedro Cervantes-Hernndez *
2

n i= 1 X= N

(1)

* Universidad del Mar, Instituto de Recursos, Ciudad Universitaria, campus Puerto ngel, Apdo. Postal 47, Puerto ngel, Oaxaca, 70902, Mxico. Correo electrnico: pch@angel.umar.mx

29

Ciencia y Mar

2008, XII (34): 29-36

La media ( X en adelante) y la varianza ( en adelante) son estadsticos que se estiman a partir de una o varias muestras obtenidas de una poblacin (Sharon 1999). La X es clasificada segn Prez (2002), como una 2 medida de posicin central y la como una medida de dispersin. La mayora de las funciones estadsticas (univariadas, multivariadas y bayesianas) que se utilizan para describir y modelar datos, frecuentemente consideran dentro de su 2 estructura matemtica a X y , resaltando la importancia de stas en el mbito estadstico. Sin embargo, lo anterior, en ocasiones, no es bien reconocido y comprendido a plenitud, debido a una falta de claridad e interpretacin que se tiene de sus conceptos. Una de las causas, que han propiciado lo anterior, se debe a que en la mayora de los libros estadsticos dichos conceptos, al igual que la desviacin estndar ( en adelante), son abordados nicamente a nivel de funcin, sin considerar una explicacin alterna que permita aclarar su importancia y aplicabilidad filosfica. En este trabajo se utilizaron los conceptos de X , 2 y descritos en Prez (2002), los cuales fueron complementados, aadiendo una breve explicacin concerniente a la importancia y aplicacin de las funciones respectivas. Para una poblacin de tamao N, X se define como la suma de todos los valores o datos (Xi) dividida por el nmero total de stos Ni, la funcin que cuantifica a X es:

Dentro de su estructura matemtica, la ecuacin 1 no proporciona informacin acerca del por qu X es una medida de posicin central. Para abordar lo anterior, se utiliz la Figura 1, que muestra una dispersin espacial de datos hipotticos y que en este caso, cada uno de stos con respecto al total, sern 2 descritos en trminos de X , y . Para realizar lo antes mencionado, inicialmente se plantea la siguiente pregunta: a partir de qu sitio en la Figura 1 se proceder con la descripcin de lo datos? La respuesta a la pregunta anterior, est en asociacin a la manera de cmo en 1607 los ingleses, desde la diminuta aldea de Jamestown, Virginia, Estados Unidos (un sitio econmico estratgico), comenzaron a explorar las tierras interiores de Amrica del Norte, para detectar y seleccionar las ms frtiles y prosperas, culminando en 1733, con el establecimiento de las 13 colonias a lo largo de la costa del Atlntico, desde New Hampshire hasta Georgia (Annimo 2008). La relacin entre el ejemplo anterior y la Figura 1, se halla a que para el primero caso, fue necesario establecer un sitio estratgico mediante el cual se organizaron y ejecutaron las exploraciones a las tierras interiores de Amrica del Norte. Este sitio estratgico se equipar a establecer un punto de referencia dentro de la dispersin espacial, en el segundo caso, con base en el cual y de manera ordenada, se proceder a realizar la descripcin de todos y cada uno de los datos con respecto al total. Este punto de referencia se estima con base en la funcin 1 y su posicin dentro de la dispersin espacial (Fig. 1), est confinado al

sitio en donde se concentra la mayor cantidad de datos; por tanto, debido a las caractersticas antes sealadas, a X se le clasifica como una medida de posicin central segn Prez (2002). La descripcin de los datos consiste en estimar el valor de la distancia que existe entre cada Xi con respecto a X (Fig. 2). La razn prctica de este clculo, radica en conocer cules y cuntos de los Xi estn cercanos y/o alejados de X . Sin embargo, debido a que algunos de estos pueden estar mucho ms cercanos y/o alejados que otros con respecto a X . Se presenta un problema de posicin, ocasionado por la relatividad de la distancia.

con respecto a X , la ecuacin que cuantifica a 2 es:


n 2 i= 1 s = N

(X X)
i

(2)

La Figura 2 muestra la explicacin alterna, que permite aclarar el concepto implcito en la ecuacin 2. El valor particular de una distancia o desviacin entre Xi con respecto a X , se X) , estima con base en el numerador ( X i (ecuacin 2), en este caso, representado por una lnea recta en la Figura 2. Meyer (1973) seal que una de las propiedades de 2 es ser positiva, razn por la que el residuo anterior X ) 2 . Dado es elevado al cuadrado, esto es: ( X i que se debe estimar el total de las distancias para obtener el promedio de dispersin, se aplica al numerador la sumatoria desde x= i a n y finalmente, ste se divide entre N datos (ecuacin 2).

Figura 1. Dispersin espacial de datos hipotticos. Crculos pequeos = datos Xi, crculo negro = X , crculo mayor (zona con mayor cantidad de datos).

Ciencia y Mar

Para solucionar el problema anterior, es preferible considerar un promedio de dispersin de todos los Xi con respecto a X ; de manera que, a partir de ste, se cuantifique un porcentaje de datos cercanos y/o alejados de X . A este promedio de dispersin se le conoce como 2 y de acuerdo con Meyer (1973), el proceso por el cual es estimado se le denomina anlisis de las desviaciones o anlisis de dispersin. Para una poblacion de tamao N, 2 es una medida de dispersin de los valores o datos Xi,
Cervantes-Hernndez

2008, XII (34): 29-31

Figura 2. Dispersin espacial de datos hipotticos. Lneas = distancias o desviaciones.


2

en la ecuacin 1 toma valores entre cero y uno, un valor cercano o igual a cero, indica que en promedio los datos se encuentran ms cercanos a X ; mientras que, un valor cercano o igual a uno, indica que en promedio stos se encuentran lejanos a X . Sin embargo, en la prctica, estos valores no ocurren

30

comnmente, predominando valores intermedios; razn por la cual, persiste la incertidumbre de cules y cuntos de estos datos estn ms cercanos y/o alejados de X . La solucin al problema anterior, tiene su fundamento en el concepto de la desviacin 2 estndar ( ) o la raz cuadrada de segn Mendenhall & Reinmuth (1981). La se utiliza para cuantificar un intervalo de confianza o lmite de dispersin, dentro del cual los Xi incluidos se consideran cercanos a X , mientras que fuera de ste se les considera alejados (Fig. 3). De acuerdo con esto, los 2 lmites de confianza se colocan sobre de , para describir lo antes sealado. Los lmites de confianza se cuantifican con

un intervalo de confianza se estima de la siguiente manera: X (k ), donde k es el nmero de veces que se aleja de X . Para un valor de k = 1.3, el intervalo de confianza es: X (1.3 ) y de acuerdo con Tchebysheff, ste incluye el 41% de los datos; esto es: 2 (1-1/1.3 )=0.408. Por acuerdo internacional, el intervalo de confianza se debe de cuantificar unificadamente o de manera estndar (de ah el trmino desviacin estndar), con un valor de k= 1.96, esto es: X (1.9 ), que genera un intervalo al 95%. Este acuerdo es considerado en todos los software de aplicacin estadstica, con opciones a modificar, segn las necesidades que se requieran en el anlisis y descripcin de los datos.

Agradecimientos Se agradecen los comentarios y sugerencias de Margarito lvarez Rubio (ICMyL, UNAM). (a) Referencias
Annimo. 2008. Trece Colonias. Consultado en junio de 2008: http://es.wikipedia.org/wiki/13_colonias Mendenhall, W. & J.E. Reinmuth. 1981. Estadstica para administracin y economa. Grupo Editorial Iberoamericana, Mxico, 707 pp. Meyer, P.L. 1973. Probabilidad y aplicaciones estadsticas. 2a ed., Addison Wesley Iberoamericana, Mxico, 480 pp. Prez, C. 2002. Estadstica aplicada a travs de Excel. Prentice Hall, Madrid, 616 pp. Sharon, L. 1999. Muestreo, diseo y anlisis. International Thomson Editores, Mxico, 480 pp. 2008, XII (34): 29-31 Media, varianza y desviacin estndar...

(b)
Intervalo de confianza

Promedio de dispersin

2
Figura 3. Dispersin espacial de datos hipotticos con proyeccin a un diagrama estadstico de caja (a), sealando al intervalo de confianza (b) y 2 el promedio de dispersin . Crculo negro =X

Ciencia y Mar 31

base en el teorema de Tchebysheff en Mendenhall & Reinmuth (1981). Esto es: dado un nmero k mayor o igual a 1 y un conjunto 2 de observaciones X1, X2, ... Xn, al menos (1-1/k ) de stas caen dentro de k desviaciones estndar de la media. La definicin anterior hace referencia a que

S-ar putea să vă placă și