Documente Academic
Documente Profesional
Documente Cultură
El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su
estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo
a los recursos que haya disponibles. Entre más grande la muestra mayor posibilidad de ser más
representativa de la población.
En la investigación experimental, por su naturaleza y por la necesidad de tener control sobre
las variables, se recomienda muestras pequeñas que suelen ser de por lo menos 30 sujetos.
En la investigación descriptiva se emplean muestras grandes y algunas veces se recomienda
seleccionar de un 10 a un 20 por ciento de la población accesible.
Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez
en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la
población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun
siendo esta finita.
Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se
hallan extraídos todos los elementos de la población que conforman la muestra.
EJERCICIOS
8 No hay muestra
0 No hay muestra
5 Es la “E”
7 No hay muestra
5 Es la “E” pero ya no se puede usar de nuevo
3 Es la “C”
63271 59986 71744 51102 Es la 80714
15141 “B” pero58683
ya está93108
la muestra,
13554y solo se
79945
2
88547 09896 95436 79115 08303
piden 201041 20030 63754 08459 28364
55957 57243 83865 09911 19761 66535 40102 26646 60147 15702
46276 87453 44790 67122 45573 84358 21625 16999 13385 22782
55363 07449 34835 15290 76616 67191 12777 21861 68689 03263
69393 92785 49902 58447 42048 30378 87618 26933 40640 16281
13186 29431 88190 04588 38733 81290 89541 70290 40113 08243
17726 28652 56836 78351 47327 18518 92222 55201 27340 10493
36520 64465 05550 30157 82242 29520 69753 72602 23756 54935
81628 36100 39254 56835 37636 02421 98063 89641 64953 99337
84649 48968 75215 75498 49539 74240 03466 49292 36401 45525
63291 11618 12613 75055 43915 26488 41116 64531 56827 30825
La muestra es:
70502 53225 03655 05915 37140 57051 48393 91322 25653 06543
EyC
06426 24771 59935 49801 11082 66762 94477 02494 88215 27191
20711 55609 29430 70165 45406 78484 31639 52009 18873 96927
41990 70538 77191 25860 55204 73417 83920 69468 74972 38712
72452 36618 76298 26678 89334 33938 95567 29380 75906 91807
37042 40318 57099 10528 09925 89773 41335 96244 29002 46453
53766 52875 15987 46962 67342 77592 57651 95508 80033 69828
90585 58955 53122 16025 84299 53310 67380 84249 25348 04332
32001 96293 37203 64516 51530 37069 40261 61374 05815 06714
62606 64324 46354 72157 67248 20135 49804 09226 64419 29457
10078 28073 85389 50324 14500 15562 64165 06125 71353 77669
91561 46145 24177 15294 10061 98124 75732 00815 83452 97355
13091 98112 53959 79607 52244 63303 10413 63839 74762 50289
TABLA 7.1.
EJERCICIOS
3. Fortune publicó datos sobre ventas, valor del activo, valor del mercado y
ganancias por acción de las 500 corporaciones industriales más grandes de
Estados Unidos (Fortune 500, 2003). Suponga que usted desea seleccionar una
muestra aleatoria simple de 10 corporaciones de la lista Fortune 500. Use los tres
últimos dígitos de la columna 9 de la tabla 7.1 empezando con 554. Leyendo
hacia abajo por esa columna, identifique los números de las 10 corporaciones
que se tomarán para la muestra.
13554 40640 36401 74972
08459 40113 56827 75906
60147 27340 25653 29002
13385 23756 88215 80033
68689 64953 18873 25348
Las muestras son:
459, 147, 385, 113, 340, 401, 215, 2, 33 y 348
(Las últimas dos muestras las tomé de la columna 9 en orden descendiente ya que no
eran suficientes las de la columna 8).
EJERCICIOS
Los métodos de muestreo probabilísticos son aquellos en donde todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser elegidas. Los métodos de muestreo probabilístico son:
MUESTREO ALEATORIO SIMPLE
Las muestras se seleccionan con reemplazo o sin reemplazo. El muestreo con reemplazo
se da cuando tras seleccionar una muestra, se devuelve a la población, donde tiene la
misma probabilidad de resultar seleccionado de nuevo. El muestreo sin reemplazo es
cuando una vez seleccionada una muestra esta no se podrá seleccionar de nuevo. Aunque
el muestreo con reemplazo es una forma válida de identificar una muestra aleatoria
simple, el muestreo sin reemplazo es el procedimiento más usado.
Procedimiento:
1) Definir la población de estudio.
2) Asignar un número a cada individuo de la población
3) Determinar el tamaño de muestra óptimo o para el estudio.
4) Seleccionar la(s) muestra(s) de manera sistemática por medio de algún medio
mecánico (Tablas de números aleatorios, bolas dentro de una bolsa, números
aleatorios generados con una calculadora, etc.)
5) Y se eligen tantos individuos como sea necesario para completar el tamaño de
muestra que necesitamos.
Ejemplo:
Para obtener una muestra de alumnos de una escuela para aplicarles una encuesta, lo
primero que se hace es enumerar a todo el alumnado. Se obtiene una lista de los alumnos
matriculados y se le asigna un número a cada uno en orden alfabético y ascendente.
Suponiendo que el total de alumnos es de 700 se utilizan los números 001, 002,
003,...,700. Se determina el tamaño de muestra, en este caso es de tamaño 75. Enseguida
se utiliza una tabla de números aleatorios formando números de tres dígitos aceptando
como unidad de análisis muestra a todos aquellos que estén comprendidos entre el 001 y
el 700.
MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.
Procedimiento:
Los pasos para seleccionar una muestra proporcionalmente estratificada son:
Ejemplo:
Si se tiene que seleccionar una muestra de 20 personas, de una comunidad de 500
habitantes, con el fin de hacerles una encuesta sobre los servicios de salud que reciben.
Los habitantes están repartidos en 5 colonias, en donde el tamaño de cada estrato es:
Los habitantes de cada colonia están registrados y se les asignará un número, por
ejemplo, en el estrato 1 hay 100 habitantes entonces se numerará de 001 a 100, en el
estrato 2 hay 150 y se numerará de 001 a 150 y así sucesivamente se hará con los demás
estratos. Y del tamaño de cada estrato se sacaran el número de muestras que se
obtuvieron, por medio del método de muestreo aleatorio simple con la tabla de números
aleatorios siguiente.
Procedimiento:
1) Definir la población de estudio.
2) Determinar el tamaño de muestra requerido.
3) Se calcula la muestra sistemática dividiendo la población entre el tamaño de la
muestra.
4) El valor de k es el intervalo de selección que indica cada k de veces que un
elemento de la población se integrará a la muestra (en el caso de no estar
enumerados los elementos). Y también es el intervalo de selección del cual se
escogerá un número aleatoriamente dentro de este intervalo (en caso de que los
elementos estén enumerados), y de ahí se parte para seleccionar las muestras en
los demás grupos o intervalos de selección.
Ejemplo:
Cuando los elementos no están enumerados. Si se va a probar una muestra de 50 de una
500
población de 500 pelotas, k = , k=10. Ya que ninguna pelota tiene un número
50
específico, este intervalo de selección indica que cada 10 decima pelota que contemos se
integrará a la muestra. La primera muestra es la décima pelota que
aleatorio entre 1 y 20, y se incluye cada vigésimo elemento tras la primera selección de la
muestra. Supongamos que el primer número seleccionado es 8, sus selecciones
subsiguientes son 28, 48, 68, 88, 108, 128, 148, 168, 188, 208, 228, 248, 268, 288, 308,
328, 348, 368, 388, 408, 428, 448, 468, 488, 508, 528, 548, 568, 588, 608, 628, 648, 668,
688, 708, 728, 748, 768 y 788.
Procedimiento:
1) Dividir la población en conglomerados.
2) Seleccionar al azar el número de conglomerados que desee.
3) Tomar una muestra aleatoria simple de uno de los elementos de cada
conglomerado.
Ejemplo:
Si se va a realizar una encuesta sobre las políticas y leyes del municipio, se podría dividir
el municipio en distritos, por ejemplo en 13 distritos, de esos tres se toma al azar el 4, 5, 9
y 11, y solo concentrándonos en estos distritos, tomamos una muestra aleatoria de
habitantes de cada uno de esos distritos, para entrevistarlos.
MÉTODOS DE MUESTREO Y SU PROCEDIMIENTO.
MUESTREO DE CONVENIENCIA.
Los elementos se incluyen en la muestra sin que haya una probabilidad previamente
especificada o conocida de que sean incluidos en la muestra.
Ejemplo:
Un profesor que realiza una investigación en una universidad puede usar estudiantes
voluntarios para que constituyan la muestra, ¿existe alguna razón? Sí, los tiene al
alcance y participarán como sujetos a un costo bajo o sin ningún costo. De manera
similar, un inspector puede muestrear un cargamento de naranjas seleccionando al azar
naranjas de varias de las cajas. Marcar una naranja y usar un método pro balístico de
muestreo puede no resultar práctico.
Tiene la ventaja de ser relativamente fáciles, pero es imposible evaluar la “bondad” de
la muestra en términos de su representatividad de la población. Y puede dar o no buenos
resultados. Pero no tiene un fundamento.
MUESTREO SUBJETIVO.
Este método suele ser una manera fácil de seleccionar una muestra. Sin embargo la
calidad de los resultados muéstrales depende de la persona que selecciona la muestra. Se
debe tener mucho cuidado al hacer inferencias acerca de las poblaciones a partir de
muestreos subjetivos.
Ejemplo:
Un reportero puede seleccionar dos o tres senadores considerando que estos senadores
reflejan la opinión general de todos los senadores.
Algunas distribuciones muestrales son de interés particular, como la de la Media. En este punto
se introduce las distribuciones muestrales de la Media, Varianza y proporción. Más adelante se
introducirá otras distribuciones.
a) Media
cuanto mayor es el denominador (n), más pequeño es el valor del término a la izquierda del
"igual".
Ejemplo
n=25
Varianza= 0.43
n=100
Varianza= 0.11
n= 1000
Varianza= 0.01
Ejemplo
La probabilidad de obtener valores iguales o inferiores a 0.5 en una distribución Normal es 0.69
(consultar tablas o funciones de probabilidad de la distribución Normal).
b) Varianza
c) Proporción
A recordar
N: Tamaño de la población.
n: Tamaño de la muestra.
Las distribuciones muestrales aparecen de forma completa (un número muy grande de muestras)
en los textos para mostrar con mayor claridad sus características, pero hay que tener en cuenta
que cuando se trabaja con datos reales, generalmente se dispone de UNA suela muestra.
2. TEORÍA DE ESTIMACIÓN
La estimación de parámetros tiene por finalidad asignar valores a los parámetros poblacionales a
partir de los estadísticos obtenidos en las muestras. Dicho de otra manera, la finalidad de la
estimación de parámetros es caracterizar las poblaciones a partir de la información de las
muestras (por ejemplo, inferir el valor de la Media de la población a partir de los datos de la
muestra).
Un estimator as un estadítico (esto es, una función de la muestra) usado para estimar
un parámetro desconocido de la población . La media de la muestra (x) puede ser un
estimador de la media de la población µ, y la proporción de la muestra se puede utilizar
como un estimador de la proporción de la población .
Una estimación es un valor específico observado de un estadístico (estimador).
Podemos hacer dos tipos de estimaciones concernientes a una población: una
estimación de in tervalo y una estimación puntual.
ESTIMACIÓN PUNTUAL.
Propiedades.
En esta notación les la letra griega theta y la notación 8se lee "theta sombrero". En
general llrepresenta cualquier parámetro poblacional como, por ejemplo, la media
poblacional, la desviación estándar poblacional, etc.; Brepresenta el correspondiente
estadístico muestra, por ejemplo la media muestra!, la desviación estándar muestra y
la proporción muestra.
Las propiedades son:
Eftciencia: Se dice que el estimador puntual con menor error estándar tiene mayor
eficiencia relativa que los otros.
La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable
se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muestrales.
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución
Normal, y resulta:
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral son
los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se pueden
obtener en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones
informáticas como Excel). Seguidamente generamos una muestra de la población y obtenemos
su Media, que es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el
parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón, la
distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que el
95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra
dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El
porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza es
del 95%, y es denominado nivel de confianza.
Ejemplo
donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7)
incluyen el valor del parámetro dentro sus límites.
La estadística inferencial es el proceso de uso de los resultados derivados de las muestras para
obtener conclusiones acerca de las características de una población. La estadística inferencial nos
permite estimar características desconocidas como la media de la población o la proporción de la
población. Existen dos tipos de estimaciones usadas para estimar los parámetros de la población:
la estimación puntual y la estimación de intervalo. Una estimación puntual es el valor de un solo
estadístico de muestra. Una estimación del intervalo de confianza es un rango de números,
llamado intervalo, construido alrededor de la estimación puntual. El intervalo de confianza se
construye de manera que la probabilidad del parámetro de la población se localice en algún lugar
dentro del intervalo conocido.
Sin embargo, la media de la muestra puede variar de una muestra a otra porque depende de los
elementos seleccionados en la muestra. Tomando en cuenta la variabilidad de muestra a muestra,
se aprenderá a desarrollar la estimación del intervalo para la media poblacional.
Se emplea la siguiente fórmula:
Donde:
Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para la
distribución. El 95% de confianza corresponde a un valor ( de 0,05. El valor crítico Z
correspondiente al área acumulativa de 0,975 es 1,96 porque hay 0,025 en la cola superior de la
distribución y el área acumulativa menor a Z = 1,96 es 0,975.
Ejemplo ilustrativo
Solución:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por
simetría se encuentra el otro valor Z = 1,96Remplazando valores y realizando lo cálculos se
obtiene:
llamado William S. Gosset deseaba hacer inferencias acerca de la media cuando la fuera
desconocida. Como a los empleados de Guinness no se les permitía publicar el trabajo de
investigación bajo sus propios nombres, Gosset adoptó el seudónimo de "Student". La
distribución que desarrolló se conoce como la distribución t de Student.
Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están
vacíos. Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y
así el número irá disminuyendo hasta que llegue el último alumno. En este punto no hay otra
elección (grado de libertad) y aquel último estudiante simplemente se sentará en la silla que
queda. De este modo, los 40 alumnos tienen 39 o n-1 grados de libertad.
Usted encontrará los valores críticos de t para los grados de libertad adecuados en la tabla para la
distribución t. Las columnas de la tabla representan el área de la cola superior de la distribución
t. Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo,
con 10 grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t
apropiado como se muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los
valores (un área de 0,05) se encuentran en cada extremo de la distribución. Buscando en la
columna para un área de la cola superior y en la fila correspondiente a 10 grados de libertad, se
obtiene un valor crítico para t de 1.812. Puesto que t es una distribución simétrica con una media
0, si el valor de la cola superior es +1.812, el valor para el área de la cola inferior (0,05 inferior)
sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea menor a -1.812, es
0,05, o 5% (vea la figura).
Ejemplos ilustrativos:
Solución:
Solución:
Los datos del problema son:
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra
es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza
valores en la siguiente fórmula:
Ejemplo ilustrativo
En un almacén se está haciendo una auditoria para las facturas defectuosas. De 500 facturas de
venta se escoge una muestra de 30, de las cuales 5 contienen errores. Construir una estimación
del intervalo de confianza del 95%.
Solución:
Los datos del problema son:
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra
es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza
valores en la siguiente fórmula:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96, y por
simetría Z =1,96
Si suponemos que un parámetro θ tiene una estimación máximo verosímil θ*, la distribución
asintótica del estimador, bajo condiciones generales de regularidad, es Normal, de media el
valor verdadero del parámetro θ y varianza igual a la cota de Cramér-Rao σ2(θ*).
Bajo las suposiciones anteriores, es posible construir un intervalo de confianza asintótico y con
nivel de confianza (1 − α) · 100 % a partir de
donde los valores de zα/2 se calculan a partir de la distribución N(0, 1) de forma que P(|Z| > zα/2)
= α.
Cuando tratamos con muestras pequeñas, no podemos invocar el teorema del límite central. Por
lo tanto, no podemos utilizar la fórmula para los intervalos de confianza a menos que sean
muestras desde una variable aleatoria normalmente distribuida.
Sin embargo, hay una cuestión más: Si conocemos la desviación estándar poblacional
σ, entonces todo está bien, y podemos seguir adelante y utilizar la fórmula anterior para el
intervalo de confianza para muestras pequeñas (suponiendo que estamos tomando muestras de
una variable distribuida normalmente). Pero si, como suele ser el caso, no sabemos
σ, entonces si seguimos adelante y utilizamos en su lugar la desviación estándar muestrales,
es probable que obtengamos intervalos de confianza que son demasiado pequeños. La razón es
que, mientras que la distribución muestral de (x¯−μ)/σ,es normal (siempre que xes normal) la
distribución muestral de (x¯−μ)/s no es normal (a menos que se trate de muestras grandes, en
cuyo caso es aproximadamente normal). P ¿Por qué hay que preocuparse de la distribución
muestral de (x¯−μ)/s?
La razón que nos debemos preocupar es que, cuando utilizamos s en lugar de σ,entonces el
cálculo del intervalo de confianza se basa en la probabilidad de que x¯ está dentro de un cierto
número de desviaciones estándar de la media μ. Este número de desviaciones estándar es
(x¯−μ)/σ. Entonces establecemos que equivale a valor−z deseado y resolverlo para x¯ para
obtener el intervalo de confianza (después de dividir la desviación estándar por n). Cuando
utilizamos s en vez de σ,no podemos utilizar un valor−z,ya que la distribución de (x¯−μ)/sno es
normal, pero se distribuye de acuerdo con la "distribución−t".
Resulta que, en lugar de utilizar zα/2 en la fórmula, tenemos que utilizar tα/2.
Además, obtenemos diferentes distribuciones t para diferentes tamaños muéstrales, y utilizamos
el valor de tα/2correspondiente a "n−1grados de libertad", que podemos obtener de una tabla.
2.3.1.3 INTERVALO PARA PROPORCIÓN
Dada una variable aleatoria con distribución Binomial B(n, p), el objetivo es la construcción de
un intervalo de confianza para el parámetro p, basada en una observación de la variable que ha
dado como valor x. El mismo caso se aplica si estudiamos una Binomial B(1, p) y consideramos
el número de veces que ocurre el suceso que define la variable al repetir el experimento n veces
en condiciones de independencia.
Aproximación asintótica
que sigue una distribución N(0, 1), y añadiendo una corrección por continuidad al pasar de una
variable discreta a una continua, se obtiene el intervalo de conf
anza asintótico:
donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha una probabilidad
de α/2 para un intervalo de confianza de (1 − α) · 100 %. Las condiciones generalmente
aceptadas para considerar válida la aproximación asintótica anterior son:
Intervalo exacto
Una justificación de los intervalos de confianza exactos para distribuciones discretas puede
encontrarse aquí.
Dada una variable aleatoria con distribución Normal N(μ; σ), el objetivo es la construcción de un
intervalo de confianza para el parámetro σ, basado en una muestra de tamaño n de la variable.
Tamaño de muestra: 10
3. ENSAYOS DE HIPÓTESIS
Una hipótesis nula es una suposición que se utiliza para negar o afirmar un suceso en relación a
algún o algunos parámetros de una población o muestra.
Siempre que se llega a una conclusión acerca un experimento, el investigador debe establecer
dos hipótesis, la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) se refiere a la
afirmación contraria a la que ha llegado el investigador. Es la hipótesis que el investigador
pretender rechazar. Si tiene la evidencia suficiente para ello, podrá probar que lo contrario es
cierto. Por lo tanto, la hipótesis alternativa (H1) es la conclusión a la que el investigador ha
llegado a través de su investigación.
La afirmación de la hipótesis nula no se puede rechazar a no ser que los datos de la muestra
parezcan demostrar que ésta es falsa. Por lo general la hipótesis nula incluye un no (o un desigual
a) en su enunciado.
Supongamos que un investigador ha realizado una investigación acerca del salario medio
mensual por habitante en un determinado barrio de una ciudad. Imaginemos que el investigador
ha encuestado a 1.000 personas, llegando a la conclusión de que el salario medio mensual por
habitante es de 1.500 u.m.
Por tanto el investigador quiere contrastar, si ese salario medio mensual por habitante es igual a
1.500 u.m. (conclusión del estudio y por ende hipótesis alternativa) o si por el contrario el salario
medio mensual por habitante es distinto a 1.500 u.m. (conclusión contraria a la del estudio que se
pretende negar y por ende hipótesis nula)
Supongamos que un investigador ha realizado una investigación acerca del salario medio
mensual en un determinado barrio de una ciudad. Imaginemos que de la población de ese barrio,
el investigador ha encuestado a 1.000 personas llegando a la conclusión de que el salario medio
mensual por habitante es de 1.500 u.m.
Por tanto el investigador quiere contrastar, si ese salario medio mensual es igual a 1.500 u.m.
(conclusión del estudio y por ende hipótesis alternativa) o si por el contrario el salario medio
mensual es distinto a 1.500 u.m. (conclusión contraria a la del estudio que se pretende negar y
por ende hipótesis nula)
Como vemos, la hipótesis alternativa (H1), es la conclusión alcanzada por el investigador. Para
demostrarla el investigador va a tratar de probar que lo contrario a su hipótesis alternativa
(hipótesis nula, H0), no es cierto. Como conclusión, podemos deducir que la formulación de la
hipótesis alternativa, es la que nos va a conducir a la formulación de la hipótesis nula.
En caso de haber rechazado la hipótesis se puede utilizar la siguiente afirmación, “a la luz de los
datos y tras el resultado obtenido a través del contraste de hipótesis realizado, se dispone de
evidencia suficiente para poder rechazar la hipótesis nula”. Por tanto, la conclusión sería que el
salario medio mensual es igual a 1.500 u.m. Por el contrario, si no hemos podido rechazar la
hipótesis del contraste realizado, se podría utilizar la siguiente afirmación, “a la luz de los datos y
tras el resultado obtenido a través del contraste de hipótesis realizado, no se dispone de evidencia
suficiente para poder rechazar hipótesis nula”. De ser así, la conclusión sería que el salario medio
mensual no es igual a 1.500 u.m
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es β, que depende de la potencia de la prueba. Puede
reducir el riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande
como para detectar una diferencia práctica cuando esta realmente exista.
La probabilidad de rechazar la hipótesis nula cuando es falsa es igual a 1–β. Este valor es la
potencia de la prueba.
Un investigador médico desea comparar la efectividad de dos medicamentos. Las hipótesis nula
y alternativa son:
Un error de tipo I se produce si el investigador rechaza la hipótesis nula y concluye que los dos
medicamentos son diferentes cuando, en realidad, no lo son. Si los medicamentos tienen la
misma eficacia, el investigador podría considerar que este error no es muy grave, porque de
todos modos los pacientes se beneficiarían con el mismo nivel de eficacia independientemente
del medicamento que tomen. Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el investigador concluye que los
medicamentos son iguales cuando en realidad son diferentes. Este error puede poner en riesgo la
vida de los pacientes si se pone en venta el medicamento menos efectivo en lugar del
medicamento más efectivo.
Cuando realice las pruebas de hipótesis, considere los riesgos de cometer errores de tipo I y tipo
II. Si las consecuencias de cometer un tipo de error son más graves o costosas que cometer el
otro tipo de error, entonces elija un nivel de significancia y una potencia para la prueba que
reflejen la gravedad relativa de esas consecuencias.
Tenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.
Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para
verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se
hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del
parámetro.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no
a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia.
Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos
rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales
proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula
siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una
afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la
hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El
planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al
valor especificado del parámetro.
Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la
Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada
cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los
errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así
se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de
reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser
posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la
diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil
encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente
parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente
sea pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado
exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos
dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribución normal
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo
ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se
incrementa el número de observaciones en la muestra, pues así se acortan los limites de
confianza respecto a la hipótesis planteada .La meta de las pruebas estadísticas es rechazar la
hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea,
incrementar lo que se llama poder de la prueba (1- β) La aceptación de la hipótesis planteada
debe interpretarse como que la información aleatoria de la muestra disponible no permite
detectar la falsedad de esta hipótesis.
Tipos de prueba
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200
En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)
poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba
es z y se determina a partir de:
En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional
desconocida se utiliza el valor estadístico t.
Paso 4: Formular la regla de decisión
SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones
en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los
valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la
suposición de que la hipótesis nula es verdadera, es muy remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la
región en la que no se rechaza la hipótesis nula.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con
el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en
una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la
hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula
cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la
hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
4.- Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis
Ejemplo
Datos:
Solución: Se trata de un problema con una media poblacional: muestra grande y desviación
estándar poblacional desconocida.
Ho: μ═350
Ha: μ≠ 350
Paso 02: Nivel de confianza o significancia 95%
α═0.05
De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras
es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es
desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en
la formula reemplazando a la desviación estándar de la población.
Columna1
Media 372.8
Mediana 381
Moda 405
Curtosis 0.36687081
Rango 234
Mínimo 276
Máximo 510
Suma 11184
Cuenta 30
La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la
mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las
dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.
Luego se debe rechazar H0 si el valor de z es menor a –1.645 o –2.33 dependiendo del nivel de
significancia
En este caso (n < 30) se asume que la población tiene una distribución normal
Para este estadígrafo se debe considerar los grados de libertad asociados al tamaño de la muestra
(n-1) para definir el valor crítico que llevará al rechazo de H0. Por las características de la tabla
resulta complicado calcular el valor de p por lo que se expresa en intervalos
Si deseamos estudiar la relación entre dos variables cuantitativas y además una de ellas puede
considerarse como variable dependiente o "respuesta" podemos considerar el uso de la regresión
lineal simple. Con la regresión, aparte de medir el grado de asociación entre las dos variables,
podremos realizar predicciones de la variable dependiente.
1 3,46 171
2 4,55 172
3 4,53 182
4 4,59 179
5 3,67 173
6 4,71 180
… … …
… … …
En nuestro ejemplo, si parece cumplirse una relación lineal entre FEV1 y la talla. Si
calculásemos el coeficiente de correlación de pearson nos daría un resultado de 0,86 (IC95%:
0,82; 0,90), indicando que la asociación es positiva y por tanto valores altos de FEV1 se
corresponden a su vez con valores altos de talla. Sin embargo sólo con la correlación no
tendríamos la suficiente información si quisiéramos hacer predicciones de los valores de
FEV1 en función de la talla.
El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste de entre todas las
posibles dentro de la nube de puntos de la Figura 2A. La mejor recta de ajuste será aquella que
minimice las distancias verticales entre cada punto y la recta, calculándose normalmente por el
método de "mínimos cuadrados" (Figura 2B) 1, 5. De este modo conseguiremos una ecuación
para la recta de regresión de Y (variable dependiente) en función de X (variable independiente)
de la forma Y=a+bX. En nuestro ejemplo, el problema radica en estimar a (constante de la recta)
y b (pendiente de la recta) de modo que podamos construir la ecuación o recta de regresión:
FEV1=a+bTalla que minimice esas distancias.
A
B
Cualquier programa estadístico nos debe dar al menos tres informaciones básicas:
Valor de "R cuadrado": En la regresión lineal simple, se trata del coeficiente de correlación de
Pearson elevado al cuadrado. Se le conoce por coeficiente de determinación y siempre será un
valor positivo entre 0 y 1. En nuestro ejemplo (Tabla I) la "R cuadrado" es de 0,75 lo cual
significa que nuestra variable independiente (talla en cm) es capaz de explicar hasta un 75% de la
variabilidad observada en nuestra variable dependiente (FEV1).
Después de realizar el análisis hay que asegurarse de que no se violan las hipótesis en las que se
sustenta la regresión lineal: normalidad de la variable dependiente para cada valor de la variable
explicativa, independencia de las observaciones muestrales, y la misma variabilidad de Y para
cada valor de nuestra variable independiente5.
Toda esta información se puede extraer estudiando el comportamiento de los residuos, es decir,
la diferencia entre los valores observados y los pronosticados por nuestra recta de regresión. La
Figura 3A es un histograma de frecuencias en el que se han normalizado o tipificado los residuos
de modo que su media es 0 y su varianza 1. Como podemos observar su distribución es similar a
una distribución normal. Otro gráfico muy interesante es el de la Figura 3B, en el que se han
colocado en el eje X los valores pronosticados por la regresión ya tipificados y en el eje Y, los
residuos también tipificados. Los puntos han de situarse de forma aleatoria sin ningún patrón de
comportamiento, porque en caso contrario, es muy posible que estemos violando alguno de los
supuestos de la regresión lineal simple 1, 5.
La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables
independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede
intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la
variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad,
frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.
La selección del método permite especificar cómo se introducen las variables independientes en
el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a
partir del mismo conjunto de variables.
Para introducir las variables del bloque en un sólo paso seleccione Introducir. Para eliminar las
variables del bloque en un solo paso, seleccione Eliminar. La selección de variables Hacia
adelante introduce las variables del bloque una a una basándose en los criterios de entrada . La
eliminación de variables Hacia atrás introduce todas las variables del bloque en un único paso y
después las elimina una a una basándose en los criterios de salida . La entrada y salida de
variables mediante Pasos sucesivos examina las variables del bloque en cada paso para
introducirlas o excluirlas . Se trata de un procedimiento hacia adelante por pasos.
Los valores de significación de los resultados se basan en el ajuste de un único modelo. Por ello,
estos valores no suele ser válidos cuando se emplea un método por pasos (Pasos sucesivos, Hacia
adelante o Hacia atrás).
Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la
ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por
defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya
presente en el modelo se sitúe por debajo del criterio de tolerancia.
Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin
embargo, puede especificar distintos métodos de introducción para diferentes subconjuntos de
variables. Por ejemplo, puede introducir en el modelo de regresión un bloque de variables que
utilice la selección por pasos sucesivos, y un segundo bloque que emplee la selección hacia
adelante
La dependencia entre dos (o más) variables puede ser tal que se base en una relación funcional
(matemática) exacta, como la existente entre la velocidad y la distancia recorrida por un móvil; o
puede ser estadística. La dependencia estadística es un tipo de relación entre variables tal que
conocidos los valores de la (las) variable (variables) independiente(s) no puede determinarse con
exactitud el valor de la variable dependiente, aunque si se puede llegar a determinar un cierto
comportamiento (global) de la misma. (Ej. la relación existente entre el peso y la estatura de los
individuos de una población es una relación estadística) .
El estudio del grado de dependencia existente entre las variables que queda recogido en la teoría
de la correlación.
Hemos enfatizado sobre la importancia de las representaciones gráficas y hemos visto la utilidad
de las versiones linealizadas de los gráficos (X, Y) junto a las distintas maneras de llevar a cabo
la linealización. A menudo nos confrontamos con situaciones en las que existe o suponemos que
existe una relación lineal entre las variables X e Y.
Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se ajusta a nuestros
datos? El método de cuadrados mínimos es un procedimiento general que nos permite responder
esta pregunta. Cuando la relación entre las variables X e Y es lineal, el método de ajuste por
cuadrados mínimos se denomina también método de regresión lineal.
Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cuál
es lamejor recta:
y(x) = a x + b
Que es una medida de la desviación total de los valores observados yi respecto de los predichos
por el modelo lineal a x + b. Los mejores valores de la pendiente a y la ordenada al origen b son
aquellos que minimizan esta desviación total, o sea, son los valores que remplazados en la Ec.(1)
minimizan la funciónc2. Ec.(2). Los parámetros a y b pueden obtenerse usando técnicas
matemáticas que hacen uso del cálculo diferencial. Aplicando estas técnicas, el problema de
minimización se reduce al de resolver el par de ecuaciones:
Actualmente, la mayoría de los programas de análisis de datos y planillas de cálculo, realizan el
proceso de minimización en forma automática y dan los resultados de los mejores valores
de a y b, o sea los valores indicados por las ecuaciones.
El criterio de mínimos cuadrados reemplaza el juicio personal de quien mire los gráficos y defina
cuál es la mejor recta. En los programas como Excel, se realiza usando la herramienta “regresión
lineal” o “ajuste lineal”. Los resultados se aplican en el caso lineal cuando todos los datos de la
variable dependiente tienen la misma incertidumbre absoluta y la incertidumbre de la variable
independiente se considera despreciable.
REGRESIÓN MÍNIMO-CUADRÁTICA
Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de
función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene
ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados
(M.C.O.).
Coeficientes de regresión.
Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos
originales y los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el
ajuste, más útil será la regresión a la pretensión de obtener los valores de la variable.
Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión
de un determinado tipo u otro.
Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no
puede ser el error medio) será el error cuadrático medio, o varianza del residuo, o varianza
residual :
Considerando la regresión Y/X:
Que será una cantidad mayor o igual que cero.De forma que cuanto más baja sea mejor será el
grado de ajuste.Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún
error ).
Del hecho de que yi=y*i+ei ,y de que las variables y* ý e están incorrelacionadas se tiene que:
Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresión( la varianza de la regresión) y
otra parte no explicada (la varianza residual).
Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo
como que la dispersión total inicial queda, en parte explicada por la regresión y en parte
no.Cuanto mayor sea la proporción de varianza explicada (y menor la no explicada) tanto mejor
será el ajuste y tanto más útil la regresión.
Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide
con el cuadrado del coeficiente de correlación:
R2 = r2
Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del
coeficiente de correlación:
El coeficiente de correlación sirve para medir la correlación entre 2 variables. La ventaja que
tiene este coeficiente sobre otras herramientas para medir la correlación, como puede ser la
covarianza, es que los resultados del coeficiente de correlación están acotados entre -1 y +1. Esta
característica nos permite comparar diferentes correlaciones de una manera más estandarizada.
El coeficiente de correlación se puede calcular con Excel mediante el comando
“COEF.DE.CORREL”. También se puede calcular mediante la fórmula:
Siendo Cov (X,Y) la covarianza entre las series temporales X e Y, y σX e σY las desviaciones
estándar de X e Y.
Los coeficientes son los números por los cuales se multiplican las variables de una ecuación. Por
ejemplo, en la ecuación y = -3.6 + 5.0X1 - 1.8X2, las variables X1 y X2 se multiplican por 5.0 y -
1.8, respectivamente, de modo que los coeficientes son 5.0 y -1.8.
El tamaño y el signo de un coeficiente en una ecuación afecta su gráfica. En una ecuación lineal
simple (contiene solamente una variable X), el coeficiente es la pendiente de la línea.
Al calcular una ecuación de regresión para modelar datos, Minitab estima los coeficientes para
cada variable predictora basándose en la muestra y presenta estas estimaciones en una tabla de
coeficientes. Por ejemplo, la siguiente tabla de coeficientes se muestra en la salida para una
ecuación de regresión:
Ecuación de regresión FlujoCalor = 325.4 + 2.55 Este + 3.80 Sur - 22.95 Norte
+ 0.0675 Insolación + 2.42 Hora del día