Sunteți pe pagina 1din 40

Introduccin Al iniciar el anlisis estadstico de una serie de datos, y despus de la etapa de deteccin y correccin de errores, un primer paso consiste

en describir la distribucin de las variables estudiadas y, en particular, de los datos numricos. Adems de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse grficamente de un modo muy simple. Consideremos, como ejemplo, los datos de la Figura 1a, que muestra un histograma de la tensin arterial sistlica de una serie de pacientes isqumicos ingresados en una unidad de cuidados intensivos. Para construir este tipo de grfico, se divide el rango de valores de la variable en intervalos de igual longitud, representando sobre cada intervalo un rectngulo con rea proporcional al nmero de datos en ese rango1. Uniendo los puntos medios del extremo superior de las barras, se obtiene el llamado polgono de frecuencias. Si se observase una gran cantidad de valores de la variable de inters, se podra construir un histograma en el que las bases de los rectngulos fuesen cada vez ms pequeas, de modo que el polgono de frecuencias tendra una apariencia cada vez ms suavizada, tal y como se muestra en la Figura 1b. Esta curva suave "asinttica" representa de modo intuitivo la distribucin terica de la caracterstica observada. Es la llamada funcin de densidad. Una de las distribuciones tericas mejor estudiadas en los textos de bioestadstica y ms utilizada en la prctica es la distribucin normal, tambin llamada distribucin gaussiana2,3,4,5. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenmenos naturales y cotidianos siguen, aproximadamente, esta distribucin. Caracteres morfolgicos (como la talla o el peso), o psicolgicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribucin normal. No obstante, y aunque algunos autores6,7 han sealado que el comportamiento de muchos parmetros en el campo de la salud puede ser descrito mediante una distribucin normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento. El uso extendido de la distribucin normal en las aplicaciones estadsticas puede explicarse, adems, por otras razones. Muchos de los procedimientos estadsticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas tcnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hiptesis puede obviarse cuando se dispone de un nmero suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribucin normal. La simple exploracin visual de los datos puede sugerir la forma de su distribucin. No obstante, existen otras medidas, grficos de normalidad y contrastes de hiptesis que pueden ayudarnos a decidir, de un modo ms riguroso, si la muestra de la que se dispone procede o no de una distribucin normal. Cuando los datos no sean normales, podremos o bien transformarlos8 o emplear otros mtodos estadsticos que no exijan este tipo de restricciones (los llamados mtodos no paramtricos). A continuacin se describir la distribucin normal, su ecuacin matemtica y sus propiedades ms relevantes, proporcionando algn ejemplo sobre sus aplicaciones

a la inferencia estadstica. En la seccin 3 se describirn los mtodos habituales para contrastar la hiptesis de normalidad. La Distribucin Normal La distribucin normal fue reconocida por primera vez por el francs Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elabor desarrollos ms profundos y formul la ecuacin de la curva; de ah que tambin se la conozca, ms comnmente, como la "campana de Gauss". La distribucin de una variable normal est completamente determinada por dos parmetros, su media y su desviacin estndar, denotadas generalmente por y . Con esta notacin, la densidad de la normal viene dada por la ecuacin:

Ecuacin 1: que determina la curva en forma de campana que tan bien conocemos (Figura 2). As, se dice que una caracterstica sigue una distribucin normal de media y varianza , y se denota como , si su funcin de densidad viene dada por la Ecuacin 1. Al igual que ocurra con un histograma, en el que el rea de cada rectngulo es proporcional al nmero de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el rea bajo la curva delimitada por esas lneas indica la probabilidad de que la variable de inters, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintticamente hacia los ejes, cuando una variable siga una distribucin normal, ser mucho ms probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de ste. Propiedades de la distribucin normal: La distribucin normal posee ciertas propiedades importantes que conviene destacar: 1. Tiene una nica moda, que coincide con su media y su mediana. 2. La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre y es tericamente posible. El rea total bajo la curva es, por tanto, igual a 1. 3. Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. 4. La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es igual a una desviacin tpica ( ). Cuanto mayor sea , ms aplanada ser la curva de la densidad. 5. El rea bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estndar de la media es igual a

0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . 6. La forma de la campana de Gauss depende de los parmetros y (Figura 3). La media indica la posicin de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin. Como se deduce de este ltimo apartado, no existe una nica distribucin normal, sino una familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que corresponde a una distribucin de media 0 y varianza 1. As, la expresin que define su densidad se puede obtener de la Ecuacin 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribucin , se puede obtener otra caracterstica Z con una distribucin normal estndar, sin ms que efectuar la transformacin: Ecuacin 2: Esta propiedad resulta especialmente interesante en la prctica, ya que para una distribucin existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirn resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribucin aproximadamente normal. Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada poblacin sigue una distribucin aproximadamente normal, con una media de 80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg? Denotando por X a la variable que representa el peso de los individuos en esa poblacin, sta sigue una distribucin . Si su distribucin fuese la de una normal estndar podramos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como ste no es el caso, resultar entonces til transformar esta caracterstica segn la Ecuacin 2, y obtener la variable:

para poder utilizar dicha tabla. As, la probabilidad que se desea calcular ser:

Como el rea total bajo la curva es igual a 1, se puede deducir que:

Esta ltima probabilidad puede ser fcilmente obtenida a partir de la Tabla 1, resultando ser . Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa poblacin tenga un peso mayor de 100 Kg , es de 10.9772=0.0228, es decir, aproximadamente de un 2.3%. De modo anlogo, podemos obtener la probabilidad de que el peso de un sujeto est entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas estndar no proporcionan el valor de para valores negativos de la variable. Sin embargo, haciendo uso de la simetra de la distribucin normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendra la misma conclusin recurriendo a la propiedad (iii) de la distribucin normal. No obstante, es fcil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la prctica. Generalmente no se dispone de informacin acerca de la distribucin terica de la poblacin, sino que ms bien el problema se plantea a la inversa: a partir de una muestra extrada al azar de la poblacin que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la poblacin de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma poblacin, obtenindose una media muestral de Kg, y una desviacin estndar muestral Kg, querramos extraer alguna conclusin acerca del valor medio real de ese peso en la poblacin original. La solucin a este tipo de cuestiones se basa en un resultado elemental de la teora estadstica, el llamado

teorema central del lmite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribucin normal con igual media que la de la poblacin y desviacin estndar la de la poblacin dividida por . En nuestro caso, podremos entonces considerar la

media muestral , con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de caeran dentro del intervalo . Puesto que los valores de y son desconocidos, podramos pensar en aproximarlos por sus anlogos muestrales, resultando . Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la poblacin de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la teora estadstica subyacente es mucho ms compleja, en lneas generales ste es el modo de construir un intervalo de confianza para la media de una poblacin. Contrastes de Normalidad La verificacin de la hiptesis de normalidad resulta esencial para poder aplicar muchos de los procedimientos estadsticos que habitualmente se manejan. Tal y como ya se apuntaba antes, la simple exploracin visual de los datos observados mediante, por ejemplo, un histograma o un diagrama de cajas, podr ayudarnos a decidir si es razonable o no el considerar que proceden de una caracterstica de distribucin normal. Como ejemplo, consideremos los histogramas que se muestran en la Figura 4a, correspondientes a una muestra de 100 mujeres de las que se determin su peso y edad. Para el caso del peso, la distribucin se asemeja bastante a la de una normal. P ara la edad, sin embargo, es claramente asimtrica y diferente de la gaussiana. Resulta obvio que este tipo de estudio no puede llevarnos sino a obtener una opinin meramente subjetiva acerca de la posible distribucin de nuestros datos, y que es necesario disponer de otros mtodos ms rigurosos para contrastar este tipo de hiptesis. En primer lugar, deberemos plantearnos el saber si los datos se distribuyen de una forma simtrica con respecto a su media o presentan algn grado de asimetra, pues es sta una de las caractersticas fundamentales de la distribucin de Gauss. Aunque la simetra de la distribucin pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable en cuestin8 (comparando, por ejemplo, los valores de media, mediana y moda), resultar til disponer de algn ndice que nos permita cuantificar cualquier desviacin. Si se dispone de una muestra de tamao n, caracterstica X, se define el coeficiente de asimetra de Fisher como: de una

a partir del cual podemos considerar que una distribucin es simtrica ( =0), asimtrica hacia la izquierda ( <0) o hacia la derecha ( >0). En segundo lugar, podemos preguntarnos si la curva es ms o menos "aplastada", en relacin con el grado de apuntamiento de una distribucin gaussiana. El coeficiente de aplastamiento o curtosis de Fisher, dado por:

permite clasificar una distribucin de frecuencias en mesocrtica (tan aplanada como una normal, ), leptocrtica (ms apuntada que una normal, )o platicrtica (ms aplanada que una normal, ). Siguiendo con los ejemplos anteriores, y tal y como caba esperar, el coeficiente de asimetra toma un valor mayor para la distribucin de la edad ( ) que para el peso observado ( ). En cuanto a los niveles de curtosis, no hay apenas diferencias, siendo de 0.320 para el peso y de 0.366 para la edad. Los grficos de probabilidad normal constituyen otra importante herramienta grfica para comprobar si un conjunto de datos puede considerarse o no procedente de una distribucin normal. La idea bsica consiste en enfrentar, en un mismo grfico, los datos que han sido observados frente a los datos tericos que se obtendran de una distribucin gaussiana. Si la distribucin de la variable coincide con la normal, los puntos se concentrarn en torno a una lnea recta, aunque conviene tener en cuenta que siempre tender a observarse mayor variabilidad en los extremos (Figura 4a, datos del peso). En los grficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribucin normal. Los grficos Q-Q se obtienen de modo anlogo, esta vez representando los cuantiles respecto a los cuantiles de la distribucin normal. Adems de permitir valorar la desviacin de la normalidad, los grficos de probabilidad permiten conocer la causa de esa desviacin. Una curva en forma de "U" o con alguna curvatura, como en el caso de la edad en la Figura 4b, significa que la distribucin es asimtrica con respecto a la gaussiana, mientras que un grfico en forma de "S" significar que la distribucin tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribucin. Parece lgico que cada uno de estos mtodos se complemente con procedimientos de anlisis que cuantifiquen de un modo ms exacto las desviaciones de la distribucin normal. Existen distintos tests estadsticos que podemos utilizar para este propsito. El test de Kolmogorov-Smirnov es el ms extendido en la

prctica. Se basa en la idea de comparar la funcin de distribucin acumulada de los datos observados con la de una distribucin normal, midiendo la mxima distancia entre ambas curvas. Como en cualquier test de hiptesis, la hiptesis nula se rechaza cuando el valor del estadstico supera un cierto valor crtico que se obtiene de una tabla de probabilidad. Dado que en la mayora de los paquetes estadsticos, como el SPSS, aparece programado dicho procedimiento, y proporciona tanto el valor del test como el p-valor correspondiente, no nos detendremos ms en explicar su clculo. Existen modificaciones de este test, como el de Anderson-Darling que tambin pueden ser utilizados. Otro procedimiento muy extendido es tambin el test chi-cuadrado de bondad de ajuste. No obstante, este tipo de procedimientos deben ser utilizados con precaucin. Cuando se dispone de un nmero suficiente de datos, cualquier test ser capaz de detectar diferencias pequeas an cuando estas no sean relevantes para la mayor parte de los propsitos. El test de Kolmogorov-Smirnov, en este sentido, otorga un peso menor a las observaciones extremas y por la tanto es menos sensible a las desviaciones que normalmente se producen en estos tramos. Para acabar, observemos el resultado de aplicar el test de Kolmogorov-Smirnov a los datos de la Figura 4. Para el caso del peso, el valor del estadstico proporcionado por dicho test fue de 0.705, con un p-valor correspondiente de p=0.702 que, al no ser significativo, indica que podemos asumir una distribucin normal. Por otra parte, para el caso de la edad, en el que la distribucin muestral era mucho ms asimtrica, el mismo test proporcion un valor de 1.498, con p=0.022, lo que obligara a rechazar en este caso la hiptesis de una distribucin gaussiana. Recursos relacionados en Internet Normal Density Plotter (UCLA Department of Statistic) Pgina que permite obtener la representacin grfica de la densidad de una distribucin normal de media y desviacin estndar dados por el usuario. SurfStat Statistical Tables - Standard Normal Distribution (University of Newcastle) Pgina que permite calcular, a partir de una distribucin normal estndar, la probabilidad acumulada hasta un cierto valor, o la probabilidad de tomar un valor en un intervalo. As mismo, permite realizar los clculos inversos, es decir, obtener el p-cuantil de una distribucin normal estndar. Normal Density Calculator (UCLA Department of Statistic) Permite obtener, bajo una distribucin normal, la probabilidad de observar un valor mayor o igual que uno dado. La ventaja es que permite hacerlo no slo para la distribucin normal estndar, sino para valores de la media y desviacin estndar dados por el usuario. Matt's spiffy normal plot maker (UCLA Department of Statistic) Se introducen los datos de la variable de interes y produce el grfico Q-Q de probabilidad normal correspondiente, que puede ser fcilmente exportado a otros programas.

Calculation of 95% Confidence Interval on a Sample Mean (Arizona State University) A partir del valor de la media y la desviacin estndar muestral, calcula el 95% intervalo de confianza para la media poblacional. Figura 1. Histograma de los valores de tensin arterial sistlica para dos muestras de pacientes isqumicos ingresados en una unidad de cuidados intensivos. Figura 1a.- Valores de tensin arterial sistlica en una muestra de 1000 pacientes isqumicos ingresados en UCI.

Figura 1b.- Valores de tensin arterial sistlica de una muestra de 5000 pacientes ingresados en UCI.

Figura 2. Grfica de una distribucin normal y significado del rea bajo la curva.

Tabla 1. reas bajo la curva normal estndar. Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual a z. La cifra entera y el primer decimal de z se buscan en la primera columna, y el segundo decimal en la cabecera de la tabla.

Segunda cifra decimal del valor de z z 0.00 .01 .02 .03 .04 .05 .06 .07 .08 .09

0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359 0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141

0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879 0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 .7549

0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 0.7 .7580 .7611

.7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852

0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706 1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767

2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857 2.2 .9861 .9864 .9868 .9871 .9875 .4878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952 2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964 2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981 2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986 3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990 3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995 3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997 3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998 Figura 3. Ejemplos de distribuciones normales con diferentes parmetros.

Figura 4. Histogramas y grficos de probabilidad normal de los valores de peso y edad en dos muestras de pacientes. Figura 4a.- Histogramas

Figura 4b.- Grficos Q-Q de probabilidad.

"LA DISTRIBUCIN NORMAL COMO MODELO PROBABILISTICO"

HISTORIA:

La distribucin normal fue presentada por vez primera por Abraham de Moivre en un artculo del ao 1733, que fue reimpreso en la segunda edicin de su The Doctrine of Chances, de 1738, en el contexto de cierta aproximacin de la distribucin binominal para grandes valores de n. Su resultado fue ampliado por Laplace en su libro Teora analtica de las probabilidades (1812), y en la actualidad se llama Teorema de De Moivre Laplace. Laplace us la distribucin normal en el anlisis de errores de experimentos. El importante mtodo de mnimos cuadrados fue introducido por Legendre en 1805. Gauss , que afirmaba haber usado el mtodo desde 1794 , lo justific rigurosamente

en 1809 asumiendo una distribucin normal de los errores. El nombre de Gauss se ha asociado a esta distribucin porque la us con profusin cuando analizaba datos astronmicos y algunos autores le atribuyen un descubrimiento independiente del de De Moivre. Esta atribucin del nombre de la distribucin a una persona distinta de su primer descubridor es un claro ejemplo de la Ley de Stingler. El nombre de "campana" viene de Esprit Jouffret que us el trmino "bell surface" (superficie campana) por primera vez en 1872 para una distribucin normal bivariante de componentes independientes. El nombre de "distribucin normal" fue otorgado independientemente por Charles S. Pierce, Francis Galton y Wilhelm Lexis hacia 1875.

Abraham de Moivre, descubridor de la distribucin normal QU ES LA DISTRIBUCIN NORMAL? DISTRIBUCION NORMAL

Esta distribucin es frecuentemente utilizada en las aplicaciones estadsticas. Su propio nombre indica su extendida utilizacin, justificada por la frecuencia o normalidad con la que ciertos fenmenos tienden a parecerse en su comportamiento a esta distribucin. Muchas variables aleatorias continuas presentan una funcin de densidad cuya grfica tiene forma de campana. En resumen, la importancia de la distribucin normal se debe principalmente a que hay muchas variables asociadas a fenmenos naturales que siguen el modelo de la normal. Caracteres morfolgicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo. tallas, pesos, envergaduras, dimetros, permetros,... Caracteres fisiolgicos, por ejemplo: efecto de una misma dosis de un frmaco, o de una misma cantidad de abono. Caracteres sociolgicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen entre otros. Caracteres psicolgicos, por ejemplo: cociente intelectual, grado de adaptacin a un medio etc. Errores cometidos al medir ciertas magnitudes. Valores estadsticos muestrales, por ejemplo: la media. Otras distribuciones como la binomial o la de Poisson se pueden aproximar adecuadamente con la distribucin normal. FUNCIN DE DENSIDAD DE UNA DISTRIBUCIN NORMAL:

Si la variable aleatoria x tiene densidad

para menos infinito < x < mas infinito

Donde la media y la desviacin estndar son nmeros tales que menos infinito < la media < mas infinito y cero < la desviacin estndar < ms infinito, donde e y son las constantes; e = 2,7182 y = 3,141.

NOTACIN: Si la variable aleatoria x sigue una distribucin normal con media y varianza X~n(, )

Ahora, la media proporciona una medida de posicin central, mientras que la varianza da una medida de dispercin alrededor de la media.

El rea total debajo de la curva es igual a 1. El rea debajo de la curva comprendida entre - y + es aproximadamente igual a 0,68 del rea total; entre - 2 y + 2 es aproximadamente igual a 0,95 del rea total: Es importante ver que los nicos parmetros necesarios para dibujar el grfico de la distribucin normal son la media y desviacin stndard de la poblacin. Con estos dos parmetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su dispersin (Determinado por la desviacin standard). DEFINICIN 2

TEOREMA DE TIPIFICACIN O ESTANDARIZACIN

Si X ~ n(,

) entonces las variables aleatorias

~N(0,1). Esto se

hace con el fin de utilizar las tablas y poder calcular todas las probabilidades requeridas, ya que si no se hace este cambio de escala, se tendra que calcular la frmula de la distribucin de densidad que implica calcular integrales; y por tanto se volvera inmanejable para un gran nmero de personas que no tiene formacin para ello. Si no se cuenta con una tabla como la siguiente, debemos proceder a realizar la siguiente frmula para calcular la probabilidad:

p ( a *< z < b * ) = f z ( b*) - f z (a*) Cuando el valor de z da negativo, y en la tabla de distribucin normal estndar no se encuentra; buscamos la probabilidad absoluta y la restamos de uno. Sin embargo, a continuacin se coloca la tabla considerando tanto valores negativos como positivos de la nueva variable estndar z, por lo tanto, no se requiere hacer ningn cambio, slo busca la interseccin, por ejemplo s:

z= -2.43, la probabilidad es 0.007549 z= 1.28, la probabilidad es 0.899727

En otro OA, se mostrar el uso del Excel para calcular las diferentes probabilidades. PROPIEDADES Tiene una nica moda, que coincide con su media y su mediana (aproximadamente). La curva normal es asinttica al eje de las absisas. Por ello, cualquier valor entre menos infinito e infinito es teoricamente posible. El rea bajo la curva normal es igual a la unidad. La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre - y + es tericamente posible. El rea total bajo la curva es, por tanto, igual a 1.

El rea bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor

comprendido en el intervalo La forma de la campana de Gauss depende de los parmetros y desviacin estndar. La media indica la posicin de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de la desviacin estndar, ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin. El tiempo para realizar una intervencin quirurgica tiene un comportamiento aproximadamente normal, con media de 140 minutos y desviacion de 50 minutos . Calcule la probabilidad de que una intervencin quirrgica se demore: a- A lo sumo 100 minutos EJEMPLO 2 Para el caso en que se tiene la probabilidad y el inters es determinar el valor de x, el proceso es inverso, es decir, se busca el valor de z y se despeja el de x. Para el caso anterior:

P(x<=x0 )=0.5
P(z<(x0 - )/

)=P(z<(x0 -140)/50)=0.5

(x0 -140)/50)=0.00 probabilidad de la tabla normal. Al depejar x0 se tiene: x0= +p(z)* x0= 140+0.00*50=140

EJEMPLO 3 Los pesos de una poblacin de adultos mayores indigentes tienen un comportamiento que se asemeje a una campana normal con una media de 132 libras y una varianza de 225. Calcular la probabilidad de que una persona seleccionada al azar de entre esa poblacin, pese:

a. Ms de 155 P(x>155)=1-P(x<155) =1-P(z<(155-132)/15)= 1-P(z<1.53) =1-0.9370=0.063

b. 100 libras o menos P(x<=100)=P(z<=(100-132)/15)=P(z<=-2.13)=0.0166

c. Entre 105 y 143 libras P(105<x<143)= P(x<143)-P(x<=105). luego de tipificar, se tiene: P(z<0.73)-P8z<-1.8)=0.7673-0.0359=0.7324 ACTIVIDAD

Pregunta Verdadero-Falso Una de las propiedades de la distribucion normal es que tiene una moda que coincide con su mediana y su media. Verdadero Falso

Los parmetros que definen la distribucin normal son la media y la desviacin tpica o estndar Verdadero Falso

Pregunta de Seleccin Mltiple Cuando un valor negativo no se encuentra en la tabla de distribucion normal estandarizada:

Las probabilidades nunca pueden dar negativa. Se busca la probabilidad absoluta y se resta de uno. Las probabilidades nunca pueden dar negativa.

La distribucin normal tiene aplicacin en: Ergonoma Medicina Todas las anteriores 6.8.6 Distribucin normal o gaussiana La distribucin gaussiana, recibe tambin el nombre de distribucin normal, ya que una gran mayora de las v.a continuas6.3 de la naturaleza siguen esta distribucin. Se dice que una v.a. X sigue una distribucin normal de parmetros y de densidad es: , lo que representamos del modo
6.4

si su funcin

6.8.6.1 Observacin Estos dos parmetros y coinciden adems con la media (esperanza) y la varianza respectivamente de la distribucin como se demostrar ms adelante6.5:

La forma de la funcin de densidad es la llamada campana de Gauss.

Figura: Campana de Gauss o funcin de densidad de una v.a. de distribucin normal. El rea contenida entre la grfica y el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que sta alcanza un nico mximo (moda) en , que es simtrica con respecto al mismo, y por

tanto , con lo cual en coinciden la media, la mediana y la moda, y por ltimo,calcular sus puntos de inflexin. El soporte de la distribucin es todo , de modo que la mayor parte de la masa de probabilidad (rea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable). La forma de la campana de Gauss depende de los parmetros

indica la posicin de la campana (parmetro de centralizacin);

Figura: Distribuciones gaussianas con diferentes medias e igual dispersin.

(o equivalentemente, ) ser el parmetro de dispersin. Cuanto menor sea, mayor cantidad de masa de probabilidad habr concentrada alrededor de la media (grafo de f muy apuntado cerca de aplastado" ser. ) y cuanto mayor sea ``ms

Figura: Distribuciones varianza diferente.

gaussianas

con

igual

media

pero

La funcin caracterstica de la distribucin normal, se comprueba ms adelante que es

Como consecuencia, la distribucin normal es reproductiva con respecto a los parmetros ,y , ya que

6.8.6.2 Observacin Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayora de los fenmenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad: La funcin no posee primitiva6.6 conocida6.7.

Las consecuencias desde el punto de vista prctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la funcin de distribucin de la normal, y nos tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresin que la simplifique. Afortunadamente esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisin (decimales) como se quiera, pero para esto se necesita usar tcnicas de clculo numrico y ordenadores. Para la utilizacin en problemas prcticos de la funcin de distribucin F, existen ciertas tablas donde se ofrecen (con varios decimales de precisin) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribucin Z, normal de media 0 y varianza 1 que se denomina distribucin normal tipificada:

En el caso de que tengamos una distribucin diferente obtiene Z haciendo el siguiente cambio:

, se

De manera general se tiene6.8: 6.8.6.3 Proposicin (Cambio de origen y escala) Sean . Entonces

Este resultado puede ser utilizado del siguiente modo: Si interesa calcular 1. Hacemos el cambio 2. Usamos la tabla 3, relativa a la distribucin aproximado) 3. Como ; y calculamos ; ,

, y nos

para obtener (de modo

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada. 6.8.6.4 Ejemplo Supongamos que cierto fenmeno pueda ser representado mediante una v.a. , y queremos calcular la probabilidad de que Xtome un valor entre 39 y 48, es decir,

Comenzamos haciendo el cambio de variable

de modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente. 6.8.6.5 Proposicin

Sea

. Entonces

Demostracin Por ser la normal una ley de probabilidad se tiene que

es decir, esa integral es constante. Con lo cual, derivando la expresin anterior con respecto a se obtiene el valor 0:

luego

Para demostrar la igualdad entre la y , basta con aplicar la misma tcnica, pero esta vez derivando con respecto a :

Luego

Para demostrar el resultado relativo a la funcin caracterstica, consideramos en primer lugar la v.a. tipificada de X,

y calculamos

Como

, por la proposicin 5 deducimos que

6.8.6.6 Aproximacin a la normal de la ley binomial

Se puede demostrar (teorema central del lmite) que una v.a. discreta con distribucin binomial, se puede aproximar mediante una distribucin normal si n es suficientemente grande y p no est ni muy prximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente aproximacin consiste en decir que utilizar para poder realizar esta aproximacin es: y , la

. El convenio que se suele

aunque en realidad esta no da resultados muy precisos a menos que realmente nsea un valor muy grande figuras 6.10 y 6.11. o . Como ilustracin obsrvense las

Figura: Comparacin entre la funcin de densidad de una v.a. continua con distribucin diagrama de barras de una v.a. discreta y el de

distribucin para casos en que la aproximacin normal de la binomial es vlida. Es peor esta aproximacin cuando p est prximo a los bordes del intervalo [0,1].

Figura: La misma comparacin que en la figura anterior, pero realizada con parmetros con los que damos la aproximacin normal de la binomial es mejor.

6.8.6.7 Ejemplo

Durante cierta epidemia de gripe, enferma el de la poblacin. En un aula con 200 estudiantes de Medicina, cul es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe. Solucin: La v.a. que contabiliza el nmero de alumnos que padece la gripe es

cuya media es y su varianza es . Realizar los clculos con la ley binomial es muy engorroso, ya que intervienen nmeros combinatorios de gran tamao, y potencias muy elevadas. Por ello utilizamos la aproximacin normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

As aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos:

Tambin es necesario exactamente como:

calcular

Esta

probabilidad

se

calcula

Dada la dificultad numrica para calcular esa cantidad, y como la distribucin binomial no est habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximacin normal, XN. Pero hay que prestar atencin al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular,

lo que ha de ser interpretado como un error de aproximacin. Hay mtodos ms aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar por el valor de la funcin de densidad de XN en ese punto (es en el nico sentido en que se puede entender la funcin de densidad de la normal como una aproximacin de una probabilidad). As:

Por ltimo, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

6.8.6.8 Ejemplo Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye segn una ley gaussiana de valor esperado y desviacin tpica . Dar un intervalo para el que

tengamos asegurado que el en l. Solucin: Tenemos que

de los habitantes de la ciudad estn comprendidos

. Si buscamos un intervalo

donde estar seguros de que el de los habitantes tengan sus alturas comprendidas en l hay varias estrategias posibles: 1. Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definira como:

donde

El valor z0,5 lo podemos buscar en la tabla 3 (distribucin obtiene

) y se

Por tanto podemos decir que la mitad de la poblacin tiene una altura inferior a . Este resultado era de esperar, ya que en la distribucin es simtrica y habr una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 6.12). Esto puede escribirse como: El de la poblacin . tiene un peso comprendido en el

intervalo

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin tiene un peso comprendido en l. Como se observa, no es un tamao ptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda).

2.

Anlogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir: El de la poblacin . tiene un peso comprendido en el

intervalo 3.

Los anteriores intervalos, an dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetra de la distribucin normal para tomar un intervalo cuyo centro sea . Vamos a utilizar entonces otra tcnica que nos permita calcular el intervalo centrado en la media, y que adems ser el ms pequeo posible que contenga al de la poblacin.

Para ello observamos que la mayor parte de probabilidad est concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un ms prximo a la media, y un de probabilidad del lado izquierdo

del derecho (figura 6.13).

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin tiene un peso comprendido en l. En este caso el intervalo es ms pequeo que el anterior y est centrado en .

Esto se puede describir como el intervalo

donde x0,25 es el valor que deja por debajo de s al de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucin normal, tipificando en primera instancia para destipificar despus:

donde

En una tabla encontramos el valor z0,75, y se destipifica:

Anlogamente se calculara

donde

Por la simetra de la distribucin normal con respecto al origen, tenemos que z0,25= - z0,75.Luego

En conclusin: El de la poblacin intervalo [168,25,181,75]. tiene un peso comprendido en el

De entre los tres intervalos que se han calculado el que tiene ms inters es el ltimo, ya que es simtrico con respecto a la media, y es el ms pequeo de todos los posibles (ms preciso). Este ejemplo es en realidad una introduccin a unas tcnicas de inferencia estadstica que trataremos posteriormente, conocidas con el nombre de ``estimacin confidencial'' o ``clculo de intervalos de confianza''.

S-ar putea să vă placă și