Sunteți pe pagina 1din 32

Sucesos y Probabilidades

El espacio de los sucesos.

Un experimento, en estadística, es cualquier proceso que proporciona datos, numéricos o no numéricos.

Un conjunto cuyos elementos representan todos los posibles resultados de un experimento se


llama espacio muestral y se representa como S. El espacio muestral de un experimento siempre existe y
no es necesariamente único pues, dependiendo de nuestra valoración de los resultados, podemos construir
diferentes espacios muestrales.

Los elementos del espacio muestral se llaman puntos muestrales y son los distintos resultados del
experimento.

Si consideramos el conjunto de las partes de (P(S)) sus elementos son los sucesos. Un suceso, por tanto,
es un subconjunto del espacio muestral.

Existen dos tipos de sucesos:

 Sucesos simples, que son aquellos que comprenden un sólo punto muestral.

 Sucesos compuestos, que son los que engloban más de un punto del espacio muestral. Todo suceso
compuesto se puede considerar como unión de puntos del espacio muestral o unión de sucesos simples.

Azar, suceso aleatorio y probabilidad.

El azar, en el lenguaje normal, se considera como la característica de un suceso imprevisible.

En estadística esta definición se modifica añadiendo una propiedad adicional: El azar es la característica
de un experimento que produce resultados diversos, impredecibles en cada situación concreta, pero cuyas
frecuencias, a la larga, tienden a estabilizarse hacia un valor "límite" en el infinito.

Como consecuencia, se definen los sucesos aleatorios como los resultados de un experimento cuya
variación (la de los resultados) es debida al azar.

La probabilidad de un suceso sólo se define para el caso de sucesos aleatorios.

Hay varias formas de definir la probabilidad.

En primer lugar podemos considerar la definición intuitiva que nos dice que la probabilidad de un suceso
es la posibilidad de que éste ocurra. Esta primera definición no parece de gran utilidad por ser
difícilmente cuantificable.
También podemos considerar la definición clásica de probabilidad. En esta definición se empieza por
considerar todos los resultados posibles de un experimento; después se contabilizan los resultados
favorables a nuestro suceso, es decir, todos aquellos en que el experimento resulta en el suceso
considerado; por último, suponiendo que existe simetría recíproca de todos los resultados, es decir, que
todos los resultados posibles son igualmente posibles, se define la probabilidad como el número de casos
favorables dividido por el número de casos posibles.

Esta segunda definición presenta el inconveniente de que no siempre es posible saber cuantos son los
resultados posibles de un experimento y no siempre todos los resultados posibles son igualmente
probables.

Por tanto, consideraremos la probabilidad definida de otra forma. Supongamos que realizamos muchas
veces un experimento y vamos anotando el valor de la frecuencia relativa que, como sabemos, tiende a
estabilizarse. Suponiendo que pudiéramos realizar el experimento infinitas veces, el valor de
estabilización de las frecuencias en el infinito sería la probabilidad de los sucesos. Es decir, la
probabilidad es el valor de la frecuencia relativa en el infinito. Es importante señalar, que este valor de
estabilización no es un límite en el sentido matemático de la expresión pues, por ser un suceso aleatorio,
nadie puede garantizar una ecuación matemática para el valor de la frecuencia relativa.

Todo el cálculo de probabilidades y, con él, toda la estadística se basan en tres propiedades que se asignan
a las probabilidades, que se llaman axiomas de Kolmogorov

1. La probabilidad de un suceso es siempre mayor o igual que cero y menor o igual que uno

Si A es un suceso

2. La probabilidad del espacio muestral es igual a uno:

Si S es el espacio muestral

Es evidente, pues si realizamos un experimento siempre a de suceder alguna cosa. Esta propiedad se
expresa como que la probabilidad de un suceso cierto es igual a uno. Si S tiene un único elemento ése es
un suceso cierto. Como consecuencia, siguiendo el razonamiento anterior, la probabilidad de que no
ocurra nada, lo cual es imposible, o en notación de conjuntos la probabilidad del conjunto vacío (F) es
cero. P(F) = 0

Se llama suceso imposible a aquel cuya probabilidad vale cero.

3. Si A y B son sucesos mutuamente excluyentes, es decir, nunca ocurren simultáneamente (A Ç B


= F) la probabilidad de su unión, es decir, de que ocurra uno u otro es la suma de sus probabilidades.

P(A È B) = P(A) + P(B)

Otras propiedades de las probabilidades.

· Si A y B son dos sucesos cualesquiera:


· Se llama suceso contrario del suceso A al suceso A' que se define como

A’ = S – A. La probabilidad del suceso contrario es:

· Se llama probabilidad condicional del suceso B respecto del suceso A a la probabilidad de que, dado
que el resultado de un experimento haya sido A sea, simultáneamente, B. Este valor se representa como
P(B|A).

Por transposición de términos en la ecuación anterior y en la correspondiente a la probabilidad


condicional de A respecto de B llegamos a:

· Se dice que dos sucesos A y B son independientes si y sólo si la probabilidad de su intersección es


igual al producto de sus probabilidades

Sucesos dependientes Sucesos independientes

Variables aleatorias
Como dijimos, un experimento estadístico es cualquier proceso que proporciona datos. Para su utilización
en estadística, estos datos tienen que despojarse de detalles accesorios para convertirse en descripciones
numéricas del resultado; la utilización de clasificaciones cualitativas, restringe a la mera descripción las
posibilidades de manejo estadístico.

Estas descripciones numéricas son observaciones aleatorias. A las observaciones aleatorias se les
considera como la expresión en cada caso concreto de una variable aleatoria que toma valores en los
resultados del experimento.

Así pues, una variable aleatoria es una función cuyos valores son números reales determinados por los
elementos del espacio muestral, es decir, una variable aleatoria es una variable matemática cuyos valores
posibles son las descripciones numéricas de todos los resultados posibles de un experimento estadístico.

A los valores posibles de la variable aleatoria se les asigna una probabilidad que es la frecuencia del
resultado al que corresponden.

Se pueden distinguir distintos tipos de variables aleatorias según dos criterios de clasificación:

1. Variables cuantitativas que son las que resultan de experimentos cuyos resultados son
directamente numéricos.

2. Variables cualitativas que son las que proceden de experimentos cuyos resultados expresan una
cualidad no numérica que necesita ser cuantificada.

Otra clasificación más operativa de las variables aleatorias sería:

A. Variable discreta: Aquella que se define sobre un espacio muestral numerable, finito o infinito.
Espacio numerable es aquel cuyos elementos se pueden ordenar, asignándoles a cada uno un número de la
serie de los números naturales (del 1 al n ó del 1 al I). Todas las variables con un número finito de valores
y todas las que tomen valores en números enteros o racionales (fraccionarios), son variables discretas.

B. Variable continua: Es aquella que se define sobre un espacio asimilable al conjunto de los números
reales, es decir, un espacio no numerable (o un espacio infinito de tipo C o infinito dos)

En general, la regla de oro es que todas las variables que proceden de experimentos en los que se cuenta
son discretas y todas las variables que proceden de experimentos en los que se mide son continuas.

Variables aleatorias discretas

Función de probabilidad

Una variable aleatoria discreta toma cada uno de sus valores con una determinada probabilidad.

La relación entre valores y probabilidades en una variable X se puede expresar de forma tabular de la
siguiente manera:
Valores de X x1 x2 ... xi

P(X = x) P(x1) P(x2) P(xi)

Este método puede ser complicado, e incluso imposible, si los valores de la variable son muchos o
infinitos.

En algunos casos, existe una forma sistemática de aplicación de los valores de la probabilidad a los
valores de la variable, de modo tal que se puede establecer una ecuación que ligue ambos. A esta ecuación
se le llama función de probabilidad. Por tanto, la función de probabilidad de una variable aleatoria
discreta X es una función tal que, al sustituir x por un valor de la variable, el valor que toma la función es
la probabilidad de que la variable X asuma el valor x. Habitualmente, la función de probabilidad se
representa como f(x).

f(x) = P(X = x)

Las funciones de probabilidad sólo se definen para los valores de la variable aleatoria y deben cumplir
tres propiedades:

1. Como consecuencia del primer axioma.

2. Como consecuencia del segundo axioma.

3. P(X = x) = f(x) Por definición.

Función de distribución

La función de distribución F(x) de una variable aleatoria discreta X, con función de probabilidad f(x), es
una función de la variable en la que al sustituir x por un valor, el valor de la función es la probabilidad de
que la variable tome valores menores o iguales que dicho valor x.
La función de distribución se define para todos los números reales, no sólo para los valores de la variable.
Su máximo es siempre 1 pues cuando el valor que se sustituye es mayor o igual que el valor máximo de la
variable, la probabilidad de que ésta tome valores menores o iguales que el sustituido es la probabilidad
del espacio muestral. Normalmente, sus valores se dan de forma tabular. Supongamos, por ejemplo que
los valores de la variable X sean x1, x2, x3,... , xn

Variables aleatorias continuas

Función de densidad

Una variable aleatoria continua tiene la característica de tomar cada uno de sus valores con probabilidad
infinitesimal, a efectos prácticos, 0. Por tanto, no se pueden expresar en forma tabular. Sin embargo,
aunque no se pueden considerar probabilidades de valores concretos, puede calcularse la probabilidad de
que la variable tome valores en determinados intervalos (los intervalos en cuestión pueden ser abiertos o
cerrados, sin que se modifique la probabilidad total).

P(a ≤ X ≤ b) = P(X = a) + P(a < X < b) + P(X = b) = P(a < X < b)

Tal como ocurría en el caso de las variables discretas, cuando existe una asignación regular de
probabilidad se puede definir una función que nos permita calcular probabilidades para cualquier
intervalo de valores, a esta función se le llama función de densidad, f(x)

La función de densidad de una variable aleatoria continua X es una función continua tal que su integral
entre los extremos de un intervalo nos da el valor de la probabilidad de que X tome valores en ese
intervalo.
La representación gráfica de la función de densidad en un sistema de ejes cartesianos es la de una curva
continua, construida de forma tal que la altura de la curva, sobre el eje de las X, en cada punto es el
cociente entre el diferencial de la probabilidad en dicho punto y el diferencial de x. Esta construcción es
una extensión por diferenciación del concepto de histograma.

Como consecuencia, la integral de f(x) sobre todo el campo de variación de X es igual a 1.

Es evidente que f(x) es siempre positiva pues si no lo fuera cabría la posibilidad de encontrar intervalos
para los cuales la integral sería negativa y eso significaría probabilidad negativa, en abierta contradicción
con la definición de probabilidad.

La función de densidad siempre se define para todos los valores en el intervalo

(-∞,∞) Esto no ofrece problemas si el campo de variación de X se extiende por todo el intervalo; si no
fuera así, la función se define como igual a cero para todos los valores no incluidos en el campo de
variación de X.

La función de densidad debe cumplir tres condiciones análogas a las de la función de probabilidad:

como consecuencia del primer axioma

como consecuencia del segundo axioma

por definición

Función de distribución

Para variables continuas también se define la función de distribución, de la siguiente manera:

Las características de F(x) son iguales a las expuestas para el caso de las variables discretas, salvo que,
obviamente, nunca se expresan en forma tabular.
En general, cualquiera que sea el tipo de variable, las funciones de distribución nos pueden servir para
calcular probabilidades. Por ejemplo, en el caso de las variables continuas:

Dada su definición, resulta que, para variables continuas, la función de densidad es la derivada respecto a
X de la función de distribución. Las funciones de distribución de las variables continuas más interesantes
están tabuladas.

Distribución conjunta de dos variables

Cuando tenemos dos variables aleatorias X e Y, si queremos estudiarlas conjuntamente debemos


establecer una relación que ligue los valores de una con los de la otra. Esta relación podrá ser lógica o no,
útil o no, en cualquier caso, dadas dos variables cualesquiera y una relación que las ligue se puede pensar
en realizar un estudio estadístico conjunto, es decir, aun cuando en la práctica sólo se utilicen variables
unidas por nexos lógicos, desde un punto de vista puramente teórico, toda relación imaginable puede ser
estudiada.

Así pues, en una situación como esta, para variables discretas, se puede establecer una función de
probabilidad para las posibles parejas de valores de ambas variables; a esta función se le llama función de
probabilidad conjunta, f(x,y).

Una función de probabilidad conjunta de las variables X e Y es una función de las dos variables tal que, al
sustituir la x por un valor de la variable X y la y por un valor de la variable Y, el valor de la función nos
da la probabilidad de que X e Y tomen simultáneamente esa pareja de valores anteriormente citados.

Las propiedades que debe cumplir la función de probabilidad conjunta son:

1. Como consecuencia del primer axioma.

2. Como consecuencia del segundo axioma.


3. Por definición.

Donde X x Y es el producto cartesiano de X por Y, o sea, el conjunto de todos las parejas de valores x,y .

Si X e Y son variables continuas, la función que se define es una función de densidad conjunta y es una
función que al integrarla respecto de x e y sobre unos intervalos nos d la probabilidad de que la variable
tome valores en esos intervalos.

Que debe de cumplir unas condiciones similares a las anteriores:

1. Como consecuencia del primer axioma.

2. Como consecuencia del segundo axioma.

3. Por definición.

Variables aleatorias independientes

Dos variables aleatorias X e Y, discretas o continuas cuyas funciones de probabilidad o densidad son g(x)
y h(y), respectivamente, con función de probabilidad o densidad conjunta f(x , y), son estadísticamente
independientes si y sólo si
Variables independientes Variables dependientes

Valor esperado de una variable

Supongamos que hemos realizado n veces un experimento aleatorio que genera una variable X. El valor
medio del experimento en estas n repeticiones es la suma de los productos de los valores de la variable
por su frecuencia relativa. Cuando n sea igual a infinito, el valor medio del experimento se llama valor
esperado o esperanza matemática, E[X].

Si X es una variable discreta con función d probabilidad f(x), el valor esperado de X se calcula según
decíamos anteriormente sumando los productos de los valores de la variable por sus respectivas
probabilidades.

En el caso de una variable continua

Propiedades del valor esperado


· Al multiplicar todos los valores de una variable por una misma constante, el valor esperado de ésta
queda multiplicado por el valor de la constante.

· Al sumar a todos los valores de una variable una misma constante, el valor esperado de ésta queda
incrementado por el valor de la constante.
·Si tenemos dos variables X e Y, discretas o continuas, el valor esperado de su suma o diferencia es la

suma o diferencia de sus valores esperados

E[X ± Y] = E[X] ± E[Y]

· Si las variables anteriores, X e Y son variables aleatorias independientes ocurre que el valor
esperado de su producto es igual al producto de sus valores esperados.

E[X Y]
= E[X]
E[Y]

Es importante indicar que la independencia de las variables es condición suficiente pero no necesaria para
que el valor esperado del producto de dos variables sea igual al producto de sus valores esperados, es
decir, ésta es una propiedad de las variables independientes pero se cumple en variables que no son
independientes.

Momentos de una variable

Momentos respecto del origen

Dada una variable aleatoria X con función de probabilidad o densidad f(x) podemos definir una función
de X que sea igual a la variable elevada a un exponente entero no negativo.

El valor esperado de z(x) es el k-ésimo momento de la variable X respecto a su origen y se llama

· k=0

· k=1

a este primer momento respecto al origen que es igual al valor esperado se le llama también media
aritmética de la variable y se le denomina μX, simplemente μ.

En la mayoría de los casos, la media μ expresa la tendencia central de la variable o el orden de magnitud
de sus valores.

El resto de los momentos respecto al origen tienen escaso interés en la mayoría de los casos.

Momentos respecto a la media

Dada una variable aleatoria X con función de probabilidad o densidad f(x) podemos definir una función
de X que sea igual a la diferencia entre la variable y su media aritmética elevada a un exponente entero no
negativo.

El valor esperado de z(x) es el k-ésimo momento de la variable X respecto a la media y se llama μk.
Ø k=0

Ø k=1

es decir, en cualquier variable aleatoria su primer momento respecto de la media es igual a 0. Esta
propiedad se utilizar reiteradamente en las demostraciones estadísticas.

Ø k=2

este segundo momento respecto de la media se le llama también varianza.

La varianza de una variable mide la dispersión de sus valores respecto al valor central μ.

Para calcular la varianza por un método más sencillo se utiliza la expresión:

Es decir, la varianza de una variable es igual a la media de los cuadrados menos el cuadrado de la media.
El principal problema de la varianza es que se expresa en unidades cuadráticas que no siempre tienen una
interpretación clara. Para obviar este problema se define otra medida de la dispersión que es la desviación
típica, σX, o simplemente σ, que se calcula como la raíz cuadrada positiva de la varianza; evidentemente,
la desviación típica se mide en las mismas unidades que la variable

No obstante, la desviación típica no resuelve todos los problemas que se pueden plantear, como por
ejemplo la comparación de situaciones en las que la unidad de medida o el orden de magnitud de esta sea
diferente. Para resolver esta cuestión se define una medida adimensional de la variabilidad que es
el coeficiente de variación, C V, que se calcula como el cociente entre la desviación típica y la media (a
veces este cociente se expresa en tanto por ciento multiplicándolo por 100).

En este contexto de la medida de la variación se plantea el problema de medir la variación conjunta de


variables de variables asociadas.

Supongamos que tenemos dos variables aleatorias X e Y, discretas o continuas, con función de
probabilidad o densidad conjunta f(x,y) y definimos una función z(x,y) igual al producto de las
desviaciones de cada valor a su media respectiva (es decir, z(x,y) tiene la misma estructura que (X - μ)2 =
(X - μ) (X - μ) si sustituimos una vez a X por Y).

Al valor esperado de z(x,y) se le llama covarianza de las variables X e Y y se representa como σxy o
cov(x,y).

La covarianza es una medida de la variación común a dos variables y, por tanto, una medida del grado y
tipo de su relación.

· σxy es positiva si los valores altos de X están asociados a los valores altos de Y y viceversa.

· σxy es negativa si los valores altos de X están asociados a los valores bajos de Y y viceversa.

· Si X e Y son variables aleatorias independientes cov(x,y) = 0 .

· La independencia es condición suficiente pero no necesaria para que la cov(x,y) sea nula.
cov(x,y) = 0 cov(x,y) > 0 cov(x,y) < 0

Se puede deducir, algebraicamente, un medio más sencillo para calcular la covarianza de dos variables.

En el caso de la covarianza tenemos el mismo problema que se nos presentó con la varianza, es decir, la
covarianza se expresa en términos del producto de las unidades de medida de ambas variables, lo cual no
siempre es fácilmente interpretable. Por otra parte también es difícil comparar situaciones diferentes entre
sí. En este caso, ambos problemas se solucionan de una vez mediante la definición del coeficiente de
correlación, ρ, que se define como el cociente entre la covarianza y el producto de las desviaciones
típicas de las dos variables.

La correlación toma valores entre -1 y 1, siendo su signo igual al de la covarianza. Correlaciones con
valor absoluto 1 implican que existe una asociación matemática lineal perfecta, positiva o negativa, entre
las dos variables y correlaciones iguales a 0 implican ausencia de asociación. Obviamente, las variables
independientes tienen correlación 0, pero nuevamente, la independencia es condición suficiente pero no
necesaria.

Correlaciones con valores absolutos intermedios indican cierto grado de asociación entre los valores de
las variables.

Propiedades de la varianza

Si X es una variable aleatoria con función de probabilidad o densidad f(x), la varianza de una función de
la variable X , m(x) , se calcula según la expresión:

Casos concretos:

1. Cuando a todos los valores de una variable se les suma una constante, la varianza de la variable
conserva el mismo valor (ver imagen en las propiedades de la media)
2. Cuando a todos los valores de una variable se les multiplica por una constante, la varianza de la
variable queda multiplicada por el valor de la constante elevado al cuadrado (ver imagen en las
propiedades de la media)

3. Si X e Y son dos variables aleatorias con función de densidad o probabilidad conjunta f(x,y), la
varianza de la función m(x,y) = a X ± b Y, donde a y b son constantes reales se calcula como:

En el caso de que a = b = 1

Si además ocurre que X e Y sean independientes σxy = 0 , luego

Volviendo al tema de los momentos respecto al origen, veamos los dos siguientes que también son
interesantes,

Ø k=3

= asimetría

El tercer momento respecto de la media mide la asimetría de la distribución, es decir, si existen o no


observaciones muy extremas en algún sentido con frecuencias razonablemente altas. Si la asimetría es
negativa, la variable toma valores muy bajos con mayor frecuencia que valores muy altos y se dice que
tiene una cola izquierda pesada o que es asimétrica hacia la izquierda. Si la asimetría es positiva, la
variable toma valores muy altos con mayor frecuencia que valores muy bajos y se dice que tiene una cola
derecha pesada o que es asimétrica hacia la derecha. Si la asimetría es cero, los valores bajos y altos de la
variable tienen probabilidades iguales (el ejemplo más típico de variable simétrica es la variable normal)

La asimetría tiene el mismo problema que la varianza y la covarianza en cuanto a sus unidades de medida
y, por ello, normalmente se utiliza una medida adimensional de la asimetría que es el coeficiente de
asimetría, g1, que se calcula como el cociente entre el tercer momento y el cubo de la desviación típica.

Ø k=4 = curtosis

El cuarto momento respecto de la media mide la curtosis de la distribución, es decir, la forma de la


distribución de probabilidad. Al representar gráficamente variables con curtosis pequeña, platicúrticas, se
observan curvas o histogramas con colas cortas y aspecto aplanado o en meseta; si la variable tiene
curtosis grande, es decir, si es leptocúrtica, su gráfica ser alta y estilizada, con colas largas y pesadas.

La curtosis de una variable siempre es positiva y se mide en la unidades de la variable elevadas a potencia
4. Por tanto, nuevamente se nos plantean los problemas relacionados con las unidades de medida y las
escalas y necesitamos una medida adimensional de la curtosis. Esta medida adimensional de la curtosis es
el coeficiente de curtosis, g2, que se calcula como el cociente entre el cuarto momento y el cuadrado de la
varianza, al que se le resta 3 unidades. Esta corrección se debe a que, sin ella, las variables normales
tendrían coeficiente de curtosis igual a 3; al restar 3 conseguimos que el coeficiente de curtosis de la
variable normal sea 0 y que las variables platicúrticas tengan coeficiente de curtosis negativo y la
leptocúrticas positivo, lo cual es más mnemotécnico que la distinción entre curtosis pequeña y grande.

g2 = 0 g2 > 0 g2 < 0
La muestra aleatoria

Una población en estadística es el conjunto de todas las observaciones en las que estamos
interesados. Se llama tamaño de la población al número de individuos que la componen, siendo cada
posible observación un individuo; así pues, las poblaciones pueden ser finitas e infinitas.

Cada observación en una población es un valor de una variable aleatoria X con una función de
probabilidad o densidad determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de
la distribución de la variable; es decir, hablaremos de poblaciones normales, binomiales, etc.

Para estudiar una población existen dos posibilidades. Una de ellas consiste en estudiar todos sus
elementos y sacar conclusiones; la otra consiste en estudiar sólo una parte de ellos, una muestra, elegidos
de tal forma que nos digan algo sobre la totalidad de las observaciones de la población. El mejor método
ser el primero, cuando es posible, lo cual sólo ocurre en las poblaciones finitas y razonablemente
pequeñas; en el caso de poblaciones muy grandes o infinitas será muy difícil o imposible realizar un
estudio total. En este caso necesitaremos tomar una muestra y nos surgirá el problema de cómo hacer para
que la muestra nos diga algo sobre el conjunto de la población.

La condición más obvia que se le puede pedir a una muestra es que sea representativa de la población.
Está claro que si no conocemos la población no podemos saber si la muestra es representativa o no. La
única forma de tener cierta garantía de que esto ocurra es tomar nuestra muestra de forma que cada
individuo de la población y cada subgrupo posible de la población tengan igual probabilidad de ser
elegidos. A este tipo de muestras se les llama muestras aleatorias o muestras al azar.

Una muestra aleatoria de tamaño n es un conjunto de n individuos tomado de tal manera que cada
subconjunto de tamaño n de la población tenga la misma probabilidad de ser elegido como muestra; es
decir, si la población tiene tamaño N, cada una de las combinaciones posibles de n elementos debe ser
equiprobable.
Los sistemas de muestreo se basan normalmente en la asignación de un número a cada uno de los
individuos de la población y la posterior obtención de una muestra de n números aleatorios que se
obtendrá por sorteo utilizando bolas numeradas, ordenadores, etc

Otra variante del muestreo es cuando se divide la población en n grupos, que no correspondan con
ninguna clasificación relacionada con el problema en estudio, que se ordenan. Por sorteo se elige un
elemento del primer grupo y a continuación los elementos correspondientes de los demás grupos. Este
tipo de muestra se denomina muestra al azar sistemático.

Si la población está subdividida en grupos podemos tomar otro tipo de muestra en la que cada grupo de la
población está representado por un porcentaje de individuos igual al porcentaje de individuos de la
población integrados en ese grupo. Este tipo se llama muestra al azar estratificado.

Parámetros y estadísticos

Parámetros poblacionales

Se llama parámetros poblacionales a cantidades que se obtienen a partir de las observaciones de la


variable y sus probabilidades y que determinan perfectamente la distribución de esta, así como las
características de la población, por ejemplo: La media, μ, la varianza σ2, la proporción de determinados
sucesos, P.

Los Parámetros poblacionales son números reales, constantes y únicos.

Parámetros muestrales

Los Parámetros muestrales son resúmenes de la información de la muestra que nos "determinan" la
estructura de la muestra.

Los Parámetros muestrales no son constantes sino variables aleatorias pues sus valores dependen de la
estructura de la muestra que no es siempre la misma como consecuencia del muestreo aleatorio. A estas
variables se les suele llamar estadísticos.

Los estadísticos se transforman en dos tipos: estadísticos de centralidad y estadísticos de dispersión.


Estadísticos de centralidad:

Son medidas de la tendencia central de la variable. los más conocidos son:

1) La media aritmética

Es el valor esperado de las observaciones de la muestra calculado como si la muestra fuera una variable
completa, es decir, multiplicando observaciones por frecuencias y sumando.

Si x1, x2,.., xn representan una muestra de tamaño n de la población, la media aritmética se calcula como:

La media aritmética es la medida de la tendencia central que posee menor varianza. Engloba en ella toda
la información de la muestra; esto, con ser una ventaja, supone una cierta desventaja pues los valores muy
extremos, en muestras pequeñas afectan mucho a la media.

La media de la media aritmética es igual a la de las observaciones (μ) y su varianza es igual a la de las
observaciones partida por n. En poblaciones normales, la distribución de la media es normal,

Si la población no es normal, pero la muestra es grande (n ≥ 30), por el teorema central del límite la
distribución de la media será asintóticamente normal.

2) La mediana

En una variable se define como el punto para el cual la función de distribución alcance el valor 0.5; en
una muestra la mediana es el valor central.
Para calcularla se ordenan las observaciones de menor a mayor. Si n es impar, la mediana es la
observación central

Si n es par, la mediana se define como la media de las dos observaciones centrales

En resumen, podríamos decir que la mediana es el valor que es mayor o igual que el 50% de las
observaciones de la muestra y menor o igual que el otro 50%.

No tiene por qué ser igual a una de las observaciones de la muestra.

Es más fácil de calcular que la media aritmética y apenas se afecta por observaciones extremas; sin
embargo tiene mayor varianza que X y sólo toma en cuenta la información de los valores centrales de la
muestra.

3) La moda

Es el valor más frecuente.

Su cálculo es el más simple de los tres correspondientes a estadísticos de centralidad pero la moda es el
estadístico de mayor varianza.

La moda puede no existir y cuando existe no es necesariamente única. No tiene sentido en muestras
pequeñas en las que la aparición de coincidencias en los valores es con gran frecuencia más producto del
azar que de otra cosa.

La media es el estadístico de centralidad más usado cuando uno espera que la población tenga una
distribución más o menos simétrica, sin estar clasificada en grupos claramente diferenciados.

En el caso de distribuciones muy asimétricas, con una cola muy larga, la mediana es, normalmente, el
valor de elección dado que la media suele estar desplazada respecto al núcleo principal de observaciones
de la variable. En estos casos, la mediana es el valor que mejor expresa el punto donde se acumulan
mayoritariamente las observaciones de la variable.

En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la media y la mediana


carecen, normalmente, de sentido y los valores que más claramente reflejan el comportamiento de las
observaciones de la variable son las modas.
Otros estadísticos de centralidad son los cuantiles.

Los cuantiles o percentiles

Un percentil X, PX, es un valor de la distribución muestral o poblacional de la variable que es mayor o


igual que el X% de las observaciones de la variable P(Y ≤ PX) = X%.

Existe un tipo especial de cuantiles llamados cuartiles.

Los cuartiles son tres valores que dividen la distribución en cuatro partes equivalentes porcentualmente.

o El primer cuartil es el valor que es mayor o igual que el 25% de las observaciones de la muestra y
menor o igual que el 75%.

o El segundo cuartil es la mediana.

o El tercer cuartil es mayor o igual que el 75% de las observaciones de la muestra y menor o igual que
el 25%.

Estadísticos de dispersión

Los estadísticos de dispersión son parámetros muestrales que expresan la dispersión de los valores de la
variable respecto al punto central, es decir, su posición relativa. Los más importantes son:

El rango

Es la diferencia entre las dos observaciones extremas, la máxima menos la mínima. Expresa cuantas
unidades de diferencia podemos esperar, como máximo, entre dos valores de la variable.

El rango estima el campo de variación de la variable.

Se afecta mucho por observaciones extremas y utiliza únicamente una pequeña parte de la información.

La varianza

Es la desviación cuadrática media de las observaciones a la media muestral.


Su concepto es análogo al de la varianza poblacional. No obstante esta expresión de cálculo de la varianza
muestral no se utiliza mucho pues sus valores tienden a ser menores que el de la auténtica varianza de la
variable (debido a que la propia media muestral tiene una varianza que vale un enésimo de la de las
observaciones) Para compensar esta deficiencia y obtener valores que no subestimen la varianza
poblacional (cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una expresión,
esencialmente igual que la anterior salvo que el denominador está disminuido en una unidad.

Normalmente, estaremos interesados en saber cosas acerca de la varianza poblacional y no de la varianza


muestral. Por tanto, en adelante, cuando hablemos de varianza muestral, salvo indicación expresa, nos
referiremos a la segunda.

Es el estadístico de dispersión más usado por las propiedades de su distribución. Si la población de la que
procede la muestra es normal:

con n-1 grados de libertad.

Además, utiliza toda la información de la muestra.

Su mayor inconveniente consiste en que se expresa en unidades cuadráticas. Por ello, para muchos
propósitos se utiliza otro estadístico de dispersión que la desviación típica.

Si no disponemos de una calculadora, el cálculo de la varianza puede ser complicado porque,


habitualmente, los valores de las desviaciones de las observaciones a la media resultan ser números con
varias cifras decimales. Por ello, se suele utilizar una ecuación que deriva directamente de la anterior:

o, alternativamente, la equivalente a aquella de "la media de los cuadrados menos el cuadrado de la


media".
La desviación típica

Es la raíz cuadrada positiva de la varianza y, por tanto, se expresa en las unidades de medida de la
variable.

Su concepto es análogo al de la desviación típica poblacional.

Coeficiente de variación

Es el cociente entre la desviación típica y la media aritmética muestrales y expresa la variabilidad de la


variable en tanto por uno, sin dimensiones.

Permite comparar muestras de variables de distinta naturaleza o muestras de la misma variable en


poblaciones en las que el orden de magnitud de las observaciones sea muy diferente.

Pruebas chi-cuadrado de ajuste e independencia

Las pruebas chi-cuadrado son un grupo de contrastes de hipótesis que sirven para comprobar
afirmaciones acerca de las funciones de probabilidad (o densidad) de una o dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadística paramétrica pues no establecen suposiciones


restrictivas en cuanto al tipo de variables que admiten, ni en lo que refiere a su distribución de
probabilidad ni en los valores y/o el conocimiento de sus parámetros.

Se aplican en dos situaciones básicas:

a) Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene una
determinada función de probabilidad. La prueba correspondiente se llama chi-cuadrado de ajuste.

b) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son independientes
estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado de independencia o chi-
cuadrado de contingencia.

Chi-cuadrado de ajuste

En una prueba de ajuste la hipótesis nula establece que una variable X tiene una cierta distribución de
probabilidad con unos determinados valores de los parámetros. El tipo de distribución se determina,
según los casos, en función de: La propia definición de la variable, consideraciones teóricas al margen de
esta y/o evidencia aportada por datos anteriores al experimento actual.
A menudo, la propia definición del tipo de variable lleva implícitos los valores de sus parámetros o de
parte de ellos; si esto no fuera así dichos parámetros se estimarán a partir de la muestra de valores de la
variable que utilizaremos para realizar la prueba de ajuste.

Como en casos anteriores, empezaremos definiendo las hipótesis.

Hipótesis nula: X tiene distribución de probabilidad f(x) con parámetros y1,..., yp

Hipótesis alternativa: X tiene cualquier otra distribución de probabilidad.

Es importante destacar que el rechazo de la hipótesis nula no implica que sean falsos todos sus aspectos
sino únicamente el conjunto de ellos; por ejemplo, podría ocurrir que el tipo de distribución fuera correcto
pero que nos hubiésemos equivocado en los valores de los parámetros.

Obviamente, necesitaremos una muestra de valores de la variable X. Si la variable es discreta y tiene


pocos valores posible estimaremos las probabilidades de dichos valores mediante sus frecuencias
muestrales; si la variable es continua o si es una discreta con muchos o infinitos valores estimaremos
probabilidades de grupos de valores (intervalos).

Metodológicamente, la prueba se basa en la comparación entre la serie de frecuencias absolutas


observadas empíricamente para los valores de la variable (Oi) y las correspondientes frecuencias
absolutas teóricas obtenidas en base a la función de probabilidad supuesta en la hipótesis nula (Ei).

Así pues, una vez calculadas las frecuencias absolutas de cada valor o intervalo de valores, obtendremos
el número total de observaciones de la muestra (T) sumando las frecuencias observadas

Para calcular las frecuencias esperadas repartiremos este número total de observaciones (T) en partes
proporcionales a la probabilidad de cada suceso o grupo de sucesos. Para ello calcularemos dichas
probabilidades utilizando la función de probabilidad definida en la hipótesis nula f(x), de modo que, cada
valor Ei tendrá la siguiente expresión:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable x1 x2 x3 ... xi ... xk

Frecuencias observadas O1 O2 O3 ... Oi ... Ok

Frecuencias esperadas E1 E2 E3 ... Ei ... Ek


Si la hipótesis nula es cierta, las diferencias entre valores observados y esperados (que siempre existirán
por tratarse de una muestra aleatoria) son atribuibles, exclusivamente, al efecto del azar. En estas
condiciones, se puede calcular un parámetro que depende de ambos, cuya distribución se ajusta a una chi-
cuadrado.

Si, por el contrario, la hipótesis nula fuera falsa los Ei ya no serían, realmente, los valores esperados de
las frecuencias; por tanto, las diferencias entre los valores "esperados" y los observados reflejarían no sólo
el efecto del azar sino también las diferencias entre los Ei y la auténtica serie de valores esperados
(desconocida) Como consecuencia, las diferencias de los numeradores de la expresión anterior tienden a
ser más grandes y, por estar elevadas al cuadrado, la suma de cocientes ser positiva y mayor que lo que se
esperaría para los valores de una chi-cuadrado.

Por tanto, el parámetro anterior será el estadístico de contraste de la prueba de hipótesis y la región crítica
se encontrar siempre en la cola derecha de la distribución chi-cuadrado. Evidentemente, esta prueba será
siempre de una sola cola.

Estadístico de contraste

Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-cuadrado con grados


de libertad.

Cabe señalar que en las pruebas chi-cuadrado lo corriente es que pretendamos comprobar que una
variable tiene una cierta distribución y, por tanto, habitualmente, nos vemos obligados a colocar nuestra
propia hipótesis en la hipótesis nula. Únicamente podremos colocar nuestra hipótesis en la alternativa en
el caso excepcional de que pretendamos demostrar que cierto tratamiento produce una distorsión de la
distribución básica de la variable en estudio.

El número de grados de libertad de la variable chi-cuadrado se calcula de la siguiente forma:

Ø A priori, tendrá tantos grados de libertad como parejas frecuencia observada - frecuencia esperada.

Ø A esta cantidad se debe restar el número de restricciones lineales impuestas a las frecuencias
observadas, es decir, el número de parámetros que es necesario calcular directamente a partir de los
valores observados para establecer los valores esperados. Este número es, como mínimo, uno ya que
siempre tendremos que calcular el número total de observaciones de la muestra.

Una condición básica para que podamos llevar a cabo una prueba chi-cuadrado es que las frecuencias de
las distintas clases deben ser suficientemente altas como para garantizar que pequeñas desviaciones
aleatorias en la muestra no tengan importancia decisiva sobre el valor del estadístico de contraste.
Las reglas que determinan cuando es posible o no realizar el contraste varían mucho de unos autores a
otros. En un extremo de máxima rigidez se encuentran aquellos que opinan que no se puede realizar la
prueba cuando alguna de las frecuencias, observadas o esperadas, sea menor que 5. En el otro extremo se
encuentran quienes opinan que, para que la prueba sea viable ninguna de las frecuencias esperadas debe
ser menor que 1 y no más del 25% pueden ser menores que 5; en lo que refiere a las frecuencias
observadas no existirían límites. La autora de este texto simpatiza más con la segunda postura, no sólo por
razones prácticas, sino porque lo razonable es que la distribución esperada esté adecuadamente definida y,
por tanto, no debe incluir valores muy bajos; sin embargo, los valores extremos en la distribución
observada simplemente reflejan diferencias importantes entre la distribución supuesta por la hipótesis
nula y la real.

Sea cual sea el criterio que elijamos, si resultara que la prueba no es viable podríamos recurrir a englobar
los valores o clases de valores con sus vecinos más próximos y pasar así a engrosar sus frecuencias. Este
procedimiento no puede llevarse hasta el absurdo pero proporciona una salida digna a situaciones
complejas. En casos excepcionales se pueden englobar valores que no sean vecinos porque exista algún
nexo lógico de conexión entre ellos.

Cuando sea necesario agrupar valores, los grados de libertad no se deben calcular hasta que tengamos
establecidas definitivamente las parejas de frecuencias observadas y esperadas con las que calcularemos
el estadístico de contraste.

Chi-cuadrado de contingencia o independencia

La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias


entre dos variables aleatorias, X e Y.

Las hipótesis contrastadas en la prueba son:

Hipótesis nula: X e Y son independientes.

Hipótesis alternativa: X e Y no son independientes (No importa cual sea la relación que mantengan
ni el grado de esta.

La condición de independencia, tal como fue definida en la página anterior era: X e Y son independientes
si y sólo si para cualquier pareja de valores x e y la probabilidad de que X tome el valor x e Y el valor y,
simultáneamente, es igual al producto de las probabilidades de que cada una tome el valor
correspondiente.

Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de ambas variables
por separado (f(x) y f(y)) y de la función de probabilidad conjunta (f(x,y))

Empezaremos la prueba tomando una muestra de parejas de valores sobre la que contaremos la frecuencia
absoluta con la que aparece cada combinación de valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla
siguiente, en la que se recogen estos datos, es en realidad nuestra estimación de la función de probabilidad
conjunta multiplicada por el número total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por filas y por
columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son, en cada caso, el número de
veces que hemos obtenido un valor de X (xi) en cualquier combinación con distintos valores de Y, es
decir, son nuestra estima de la función de probabilidad de X multiplicada por el número total de
observaciones; análogamente, las sumas de columnas (Cj) son nuestra estima de la función de
probabilidad de Y multiplicada por el número total de observaciones.

El número total de observaciones lo podemos obtener como la suma de todas las frecuencias observadas
o, también, como la suma de las sumas de filas o de las sumas de columnas:

Así pues, si las variables fueran independientes debería cumplirse que

Naturalmente, nadie espera que esta condición se cumpla exactamente debido al efecto de los errores de
muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre las diferencias producidas por
efecto del muestreo y diferencias que revelen falta de independencia.

Podemos convertir la ecuación anterior a frecuencias absolutas multiplicando por T:

 Si X e Y son independientes, Oij debe ser igual a y, por tanto,

 bajo la hipótesis de independencia, es el valor esperado de Oij (Eij)

Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las frecuencias
Eij son realmente los valores esperados de las frecuencias Oij, se puede calcular un parámetro que depende
de ambas que tiene distribución chi-cuadrado,
Por otra parte, si las variables no son independientes, las diferencias entre las series de frecuencias
observadas y esperadas serán mayores que las atribuibles al efecto del azar y, al estar elevadas al cuadrado
en el numerador de la expresión anterior, ésta tenderá a ser mayor que lo que suele ser el valor de una
variable chi-cuadrado.

Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la región crítica se encontrar
siempre en la cola derecha de la distribución chi-cuadrado. Nuevamente, esta prueba será siempre de una
sola cola.

Estadístico de contraste

Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-cuadrado con grados


de libertad.

Tal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dos variables son
independientes, es decir, que, habitualmente, nos veremos obligados a colocar nuestra hipótesis en la
hipótesis nula.

El número de grados de libertad de la chi-cuadrado que sirve de contraste se calcula de la siguiente forma:

Ø A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj tengamos (I J)

Ø A este número tendremos que restarle I debido a que, para calcular las frecuencias esperadas,
necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las sumas de filas obtenemos el
número total de observaciones sin perder ningún grado de libertad.

Ø A continuación, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las sumas de


columnas; la restante podemos obtenerla restando la suma de las anteriores del total de observaciones (T).

En resumen, el número de grados de libertad de la prueba es el producto del número de filas menos uno
por el número de columnas menos uno.

En cuanto a la magnitud mínima necesaria de las frecuencias observadas y esperadas, rigen las mismas
normas que en el caso de la prueba de ajuste. En este caso, si nos viéramos obligados a juntar valores para
sumar frecuencias, debemos unir columnas o filas completas (y contiguas). Obviamente, los grados de
libertad no deben calcularse hasta que no se hayan realizado todas las agrupaciones necesarias y quede
claro cual es el número de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo de distribución de ninguna de
las variables implicadas y utiliza únicamente información de la muestra, es decir, información
contingente. Esta es la razón por la que, habitualmente, se le llama chi-cuadrado de contingencia.

Comparación múltiple de distintas proporciones o probabilidades

Una aplicación concreta de la chi-cuadrado de independencia es la comparación múltiple de las distintas


proporciones o probabilidades de un suceso en I poblaciones diferentes.

Supongamos que tenemos I poblaciones en las cuales las observaciones se pueden clasificar como A o no-
A. Llamemos Pi a la probabilidad del suceso A en cada población i y P a la frecuencia media de A en el
conjunto de las poblaciones; la probabilidad del suceso no-A en cada población i ser 1 - Pi y la media de
todas ellas valdrá 1 - P.

Las hipótesis de la prueba serán:

Hipótesis nula:

Hipótesis alternativa:

Si tomamos una muestra de tamaño ni en cada población y contamos en cada caso el número de sucesos A
aparecidos en la muestra obtendríamos la siguiente tabla:

Esta es una tabla típica a la que se puede aplicar la metodología de la prueba chi-cuadrado de
independencia. Veamos como corresponden las hipótesis de una y otra prueba. Si la clasificación de las
observaciones en sucesos A y no-A fuera independiente de la clasificación en muestras, la frecuencia
relativa de A (y la de no-A) serían iguales en todos los casos y los valores esperados de las frecuencias
absolutas se calcularían multiplicando la estima común de la frecuencia relativa global por el número de
observaciones en cada muestra.

La estima global de la frecuencia de A se hallara dividiendo el número total de sucesos A por el número
total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila uno (F1) y el total de observaciones (T)
Por tanto, el valor esperado de la frecuencia observada de A en la muestra i (EA,i) será:

La estima global de la frecuencia de no-A se hallara dividiendo el número total de sucesos no-A por el
número total de observaciones:

lo cual no es otra cosa que el cociente entre la suma de la fila dos (F2) y el total de observaciones (T)

Por tanto, el valor esperado de la frecuencia observada de no-A en la muestra i (Eno-A,i) será:

Es decir, los valores esperados se calcularían, en pura lógica, tal como indica el procedimiento estándar de
la prueba de contingencia. En definitiva:

Hipótesis nula: La clasificación en sucesos es independiente de la clasificación en


poblaciones.

Hipótesis alternativa: La clasificación en sucesos no es independiente de la


clasificación en poblaciones.

En resumen, la prueba de comparación múltiple de proporciones se realizar mediante una prueba de


contingencia que nos dirá si las probabilidades son todas iguales o si, al menos, existe una que sea
diferente de las demás.

Los grados de libertad serán siempre:

Prueba de homogeneidad de muestras

Otra de las aplicaciones interesantes de la prueba chi-cuadrado de independencia consiste en la


comprobación de la homogeneidad de distintas muestras de una variable.

Supongamos que hemos obtenido J muestras de tamaño nj de una misma variable aleatoria (X) y
queremos comprobar si son homogéneas, es decir, si la variable tiene la misma distribución de
probabilidad en todas ellas, bien para utilizarlas conjuntamente, bien porque se trate de identificar
diferencias entre las poblaciones de procedencia de las distintas muestras. Las frecuencias observadas
serán las de la tabla siguiente, en la que Fi es la frecuencia absoluta total del valor xi y T es el número total

de observaciones

El razonamiento en este caso es idéntico al anterior. Si las muestras son homogéneas, se puede obtener
una estima conjunta de la frecuencia de cada valor xi (Fi / T) y el valor esperado de la frecuencia absoluta
de xi en cada muestra se calcular como el producto de dicha frecuencia por el tamaño de la muestra
correspondiente

Así pues, las hipótesis de la prueba serán:

Hipótesis nula: Las muestras son homogéneas La clasificación de las observaciones según los
valores de la variable es independiente de la clasificación en muestras.

Hipótesis alternativa: Las muestras no son homogéneas. La clasificación de las observaciones


según los valores de la variable no es independiente de la clasificación en muestras.

Obviamente, la prueba se realizar según la metodología habitual.

En este caso, a la prueba chi-cuadrado de contingencia se le suele llamar chi-cuadrado de homogeneidad.

S-ar putea să vă placă și