Manual Estadística Aplicada A La Gestion

Estadística Aplicada
a la Gestión
Carlos Berrocal Gutarra
Manual
Índice
UNIDAD 1 MUESTREO Y ESTIMACIÓN DE PARÁMETROS

Tema n° 1. Muestreo y diseños experimentales....................................................................... 11
1. Definiciones básicas ........................................................................................................... 12
1.1. Población y Muestra.___________________________________________________ 12
1.2. Marco muestral ________________________________________________________ 12
1.3. Métodos de muestreo _________________________________________________ 13
2. Diseño experimental .......................................................................................................... 15
2.1. Diseño Observacional __________________________________________________ 15
2.2. Diseño Experimental ___________________________________________________ 15
Tema n° 2. Estimación de la proporción poblacional y cálculo del tamaño de su muestra
17
1. Estimación de la proporción poblacional. .................................................................... 17
2. Tamaño de muestra para estimar la proporción. ........................................................ 19
Tema n° 3. Estimación de la media poblacional con desviación estándar conocida y
desconocida; y cálculo del tamaño de su muestra. ............................................................. 20
1. Estimación de la media poblacional con desviación estándar de la población 
conocida ..................................................................................................................................... 20
2. Estimación de la media poblacional con desviación estándar de la población 
desconocida .............................................................................................................................. 22
2.1. La distribución t-student: _______________________________________________ 23
2.2. Tamaño de muestra para estimar la media. _____________________________ 24
Tema n° 4. Estimación de la varianza poblacional y desviación estándar y cálculo del
tamaño de su muestra. ................................................................................................................. 26
1. Intervalo de confianza: ..................................................................................................... 26
2. Tamaño de muestra: .......................................................................................................... 27
Actividad N° 1: Auto evaluación - Estimación de parámetros (cuestionario en línea)
....................................................................................................................................................... 29
GLOSARIO DE LA UNIDAD 1 ..................................................................................................... 30
Bibliografía unidad 1 ...................................................................................................................... 31
UNIDAD 2: PRUEBA DE HIPÓTESIS E INFERENCIAS
2
Universidad Continental | Manual
Tema n° 1. Prueba de hipótesis para la proporción de una población y Prueba de
hipótesis para la media de una población. ............................................................................. 35
1. Prueba de Hipótesis:........................................................................................................... 35
1.1. Hipótesis ______________________________________________________________ 35
1.2. Prueba de Hipótesis ____________________________________________________ 35
2. Prueba de Hipótesis para la proporción poblacional. ............................................... 37
2.1. Procedimiento tradicional ______________________________________________ 38
2.1.1. Error Tipo I y Tipo II al realizar una prueba de Hipótesis. _________________ 39
2.1.2. Relaciones entre  y β: _______________________________________________ 39
2.2. Procedimiento usando el Valor P. _______________________________________ 40
3. Prueba de hipótesis para la media poblacional. ........................................................ 42
3.1. Prueba de hipótesis para la media poblacional con desviación estándar
desconocida ________________________________________________________________ 42
3.2. Prueba de hipótesis para la media poblacional con desviación estándar
desconocida. ________________________________________________________________ 44
Tema n° 2. Inferencias acerca de dos proporciones poblacionales. ................................ 46
1. Prueba de Hipótesis para dos proporciones poblacionales. .................................... 46
2. Intervalos para dos proporciones poblacionales. ....................................................... 48
Tema n° 3. Inferencias acerca de dos medias independientes. ......................................... 50
1. Muestras independientes y se conoce 1 y 2 .............................................................. 50
2. Muestras independientes, no se conoce 1 y 2 pero se asumen iguales ............. 52
3. Muestras independientes, no se conoce 1 y 2 pero no se asumen iguales ........ 54
3.1. Intervalo para la diferencia de medias con Muestras independientes, no se
conoce 1 y 2 _______________________________________________________________ 56
Tema n° 4. Inferencias de dos medias con muestras dependientes. ................................. 58
LECTURA N° 2: ............................................................................................................................. 61
Actividad N° 2: Auto evaluación - Pruebas de Hipótesis (cuestionario en línea) ......... 62
Foro 2: ........................................................................................................................................... 62
GLOSARIO DE LA UNIDAD II: ..................................................................................................... 63
Bibliografía de la Unidad 2 ........................................................................................................... 63
UNIDAD 3: ANÁLISIS DE VARIANZA, EXPERIMENTOS MULTINOMIALES Y TABLAS DE

CONTINGENCIA Y ESTADÍSTICA NO PARAMÉTRICA
Tema n° 1. Análisis de la Varianza. ............................................................................................. 68

1. ANOVA de un Factor, Vía o Tratamiento. ..................................................................... 69
1.1. Tabla ANOVA _________________________________________________________ 69
1.2. Cálculo de variaciones ________________________________________________ 69
2. ANOVA de dos Factores, Vías o Tratamientos. ............................................................ 71
2.1. Diseño totalmente aleatorio (aditivo). ___________________________________ 71
3
2.2. Pruebas Múltiples: ______________________________________________________ 75
2.3. Diseño A x B (con interacción). _________________________________________ 76
Tema n° 2. Experimentos mutinomiales y tablas de contingencia. .................................... 81
1. Experimentos multinomiales. ............................................................................................ 81
1.1. Bondad de ajuste ______________________________________________________ 81
1.2. Frecuencias uniformes. _________________________________________________ 82
1.3. Frecuencias no uniformes. ______________________________________________ 84
1.4. Pruebas de ajuste a una distribución probabilística. ______________________ 85
2. Tablas de contingencia: ................................................................................................... 89
2.1. Prueba de Homogeneidad _____________________________________________ 89
2.2. Prueba de Independencia _____________________________________________ 89
2.3. Procedimiento de solución: ____________________________________________ 90
Tema n° 3. Estadística no paramétrica: Prueba de rangos con signo de Wilcoxon para
datos apareados y Prueba de la suma de rangos de Wilcoxon para dos muestras
independientes. ............................................................................................................................. 93
1. Prueba de rangos con signo de Wilcoxon para datos apareados ......................... 93
2. Prueba de la suma de rangos de Wilcoxon para dos muestras independientes. 96
2.1. Estadístico de prueba: _________________________________________________ 96
Tema n° 4. Pruebas no paramétricas: Prueba de Kruskal –Wallis y Correlación de rangos
de Spearman. ................................................................................................................................. 99
1. Prueba de Kruskal –Wallis .................................................................................................. 99
1.1. El valor crítico: _________________________________________________________ 99
2. Correlación de rangos de Spearman. ......................................................................... 101
2.1. Coeficiente de correlación de Spearman _____________________________ 101
2.2. Estadístico de prueba: _______________________________________________ 102
Ejemplo: ___________________________________________________________________ 102
De la teoría a la práctica ....................................................................................................... 106
LECTURA N° 3: ........................................................................................................................... 106
Actividad N° 3: Auto evaluación - Pruebas no paramétricas (cuestionario en línea)
..................................................................................................................................................... 107
GLOSARIO DE LA UNIDAD 3 ................................................................................................... 108
Bibliografía Unidad 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
UNIDAD 4: CORRELACIÓN, REGRESIÓN Y SERIES DE TIEMPO
Tema n° 1. Correlación. .............................................................................................................. 113

1. Correlación ........................................................................................................................ 113
2. Análisis de correlación lineal simple.............................................................................. 114
2.1. Gráfico de dispersión ________________________________________________ 114
2.2. Coeficiente de correlación lineal _____________________________________ 115
4
2.3. Prueba de Hipótesis para la correlación _______________________________ 115
Tema n° 2. Regresión lineal simple ........................................................................................... 117
1. Ecuación de regresión:.................................................................................................... 117
1.1. Prueba de hipótesis para β1 __________________________________________ 118
2. Estimación puntual e Intervalo de predicción ........................................................... 120
2.1. Estimación puntual __________________________________________________ 120
2.2. Estimación por intervalo ______________________________________________ 120
2.3. Estimación por Intervalo o Intervalo de predicción _____________________ 121
Tema n° 3. Correlación Regresión Lineal Múltiple. ................................................................ 123
1. Correlación ........................................................................................................................ 123
1.1. Análisis de correlación _______________________________________________ 123
1.2. Coeficiente de determinación lineal Múltiple __________________________ 124
2. Regresión lineal multiple: ................................................................................................. 125
2.1. Ecuación de regresión _______________________________________________ 126
2.2. Prueba de Hipótesis para los coeficientes β1 y β2 _______________________ 126
Tema n° 4. Series de tiempo. ..................................................................................................... 128
1. Componentes de una serie temporal: ____________________________________ 128
3. Análisis de series temporales: _____________________________________________ 133
De la teoría a la práctica ....................................................................................................... 138
LECTURA N° 4: ........................................................................................................................... 138
Actividad N° 4: Auto evaluación – Correlación, Regresión y Series Temporales
(cuestionario en línea) ............................................................................................................ 139
GLOSARIO DE LA UNIDAD 4 ................................................................................................... 140
Bibliografía de la Unidad 4 ......................................................................................................... 140
3. APENDICES. ........................................................................................................................ 142
5
Índice de Tablas
Tabla 1: Elección entre z y t ......................................................................................................... 24
Tabla 2: Datos de Vida útil de viviendas ................................................................................... 42
Tabla 3: Puntuaciones de examen verbal de padres. ........................................................... 54
Tabla 4: Datos comparación de gastos en restaurants ......................................................... 58
Tabla 5: ¿Cuáles son los factores más importantes para conseguir más inclusión social?
........................................................................................................................................................... 61
Tabla 6. Tabla ANOVA de un factor. Formulas ........................................................................ 69
Tabla 7. Datos Cereales ................................................................................................................ 70
Tabla 8. ANOVA de dos factores diseño aditivo. Fórmulas ................................................... 72
Tabla 9. Tiempos de recorrido ..................................................................................................... 73
Tabla 10. Tabla ANOVA de dos factores diseño AxB - Fórmulas .......................................... 77
Tabla 11. Datos Efecto tamaño de anuncio ............................................................................ 78
Tabla 12. Datos Bubba's Fish and Pasta .................................................................................... 82
Tabla 13: Datos Producto financiero .......................................................................................... 84
Tabla 14: Datos Vehiculos Applewood. .................................................................................... 85
Tabla 15: Ejemplo - Tabla de contingencia .............................................................................. 89
Tabla 16. Datos Ford Motro Company....................................................................................... 90
Tabla 17: Datos valoración de salsa .......................................................................................... 94
Tabla 18. Datos Resistencia cables ............................................................................................ 96
Tabla 19: Datos System Hospital .................................................................................................. 99
Tabla 20: Datos ejemplo correlación lineal ............................................................................ 113
Tabla 21: Datos ejemplo Grava ................................................................................................ 116
Tabla 22: Datos ejercicio Correlación múltiple ...................................................................... 124
Tabla 23: Evolución Precios por m2 de departamentos en La Molina, Miraflores, San Borja,
San Isidro y Surco por trimestres ................................................................................................ 133
Tabla 24: Desarrollo del cálculo de los componentes estacionales. ................................ 136
Tabla 25: Componentes estacionales no estandarizados y sus promedios .................... 136
Tabla 26: Índices estacionales de Precios de departamentos por m2. ............................ 137
6
Índice de figuras
Figura 1. Marco muestra Invest. .................................................................................................. 12
Figura 2: Lotto sphere. ................................................................................................................... 13
Figura 3. Muestreo Sistemático. ................................................................................................... 13
Figura 4: Muestreo Estratificado. ................................................................................................. 13
Figura 5: Muestreo por conglomerados. ................................................................................... 13
Figura 6: Nivel de confianza. Tomado de Estadística, ............................................................ 17
Figura 7. Diagrama tallo – hoja. .................................................................................................. 22
Figura 8. Diagrama de caja y bigotes. ...................................................................................... 23
Figura 9: Distribución t-student a diferentes tamaños de muestra. ..................................... 24
Figura 10 Formas de plantear hipótesis, tomado de (Triola, Estadística, 2009) ................. 36
Figura 11: Formas de reglas de decisión, por Sergio Jurado (Jurado, 2017) .................... 36
Figura 12: Formas de plantear una conclusión. Tomado de Estadística por Mario Triola
(2009) ................................................................................................................................................ 37
Figura 13: Gráfico de prueba de normalidad Vida útil. ......................................................... 43
Figura 14: Gráficos P-P de normalidad para las muestras 1 y 2. Elaboración: propia ..... 55
Figura 15: Curva de la distribución F tomado de Sergio Jurado (Jurado, 2017)............... 69
Figura 16. Gráfica de medias: tiempos de recorrido. Tomado de Marchal Lind (2012) . 76
Figura 17: Curva Ji cuadrada por (Jurado, Estadística Inferencial, 2017) .......................... 81
Figura 18; Gráfica de dispersión ejemplo de correlación Fuente: Elaboración propia. 103
Figura 19: Gráfico de dispersión ejemplo ................................................................................ 113
Figura 20: Formas de gráficos de dispersión. .......................................................................... 114
Figura 21: Gráfico de dispersión ejemplo cálculo de coeficiente de correlación. ....... 116
Figura 22: Resultados probables para x = 28, tomado de Manual de Estadística Inferencial
por Sergio Jurado (2017)............................................................................................................. 121
Figura 23: Ejemplo de serie temporal tomado de Manual Estadística Inferencial por Sergio
Jurado (2017) ................................................................................................................................ 128
Figura 24: Formas de la componente Tendencia en la serie temporal, obtenido de
Manual de Estadística Inferencial por Sergio Jurado (2017). .............................................. 129
Figura 25: Componente estacional en una serie temporal, obtenido de Manual de
Estadística Inferencial por Sergio Jurado (2017) .................................................................... 129
Figura 26: Cálculo de promedios móviles 3 obtenido de Manual de Estadística Inferencial
Figura 27: Gráfica de promedio móvil 3 obtenido de Manual de Estadística Inferencial
Figura 28: Calculo de promedio móvil 4, obtenido de Manual de Estadística Inferencial
Figura 29: Grafica promedio móvil 4, obtenido de Manual de Estadística Inferencial por
Sergio Jurado (2017) .................................................................................................................... 131
Figura 30: Estacionalidad. Fuente: propia............................................................................... 132
Figura 31: Gráfica de componente cíclico (Universidad de Valladolid, 2012) ............... 132
Figura 32: Disposición de datos para el cálculo de la Serie Temporal. Fuente y
elaboración: Propia ..................................................................................................................... 134
Figura 33: Gráfica en Excel de una serie temporal, Elaboración: propia ........................ 134
Figura 34: Desarrollo del cálculo de promedios móviles 4, Elaboración: Propia. .......... 135
Figura 35: Cálculo de Promedios móviles centrados............................................................ 135
7
INTRODUCCION:
Estadística aplicada a la gestión es una asignatura teórico-práctica, diseñada para la

modalidad a distancia; tiene como propósito que el estudiante sea capaz de analizar
Información de carácter probabilístico para plantear pronósticos de naturaleza
empresarial.
En el presente manual, se exponen teorías y procedimientos de análisis estadísticos

diversos, explicando detalladamente técnicas estadísticas de inferencia.
Pretendemos que el manual apoye los procesos de aprendizaje de manera básica -

avanzada tomando como base el libro “Estadística” de Mario Triola (12ª y 15ª ed.), y en
concordancia con los conceptos estadísticos actuales.
Para una mejor comprensión del material se requiere que el estudiante tenga
conocimientos básicos de estadísticos de tendencia central, de variación y forma, así
de las distribuciones de probabilidades Binomial, Potencial, de Poisson y Normal
El manual está organizado en cuatro Unidades que corresponde a las unidades

didácticas que se desarrollan en la asignatura virtual:
En la Unidad 1, se desarrollan los temas de Muestreo y diseños experimentales,

estimación de parámetros y tamaño de muestra. En la Unidad 2 se tienen en cuenta los
temas de Pruebas de Hipótesis con una y dos muestras. En la Unidad 3 se hace la
exposición de; Análisis de la varianza (ANOVA), y pruebas no paramétricas.
En la Unidad 4 se explican los conceptos y procedimientos de las técnicas de predicción:

Correlación lineal, Regresión lineal, Modelamiento como Series temporales.
En cada unidad se plantean ejercicios desarrollados, como preguntas de auto

evaluación que se pueden realizar en línea en el aula virtual. Se han planteado lecturas
que ayuden a mirar lo desarrollado con relación a una realidad de gestión.
Organiza tu tiempo para que obtengas buenos resultados, la clave está en encontrar el
equilibrio entre tus actividades personales y las actividades que asumes como
estudiante. El estudio a distancia requiere constancia, por ello es necesario encontrar la
motivación que te impulse a hacer mejor cada día.
El autor.
8
Organización de la Asignatura
Resultado de aprendizaje de la asignatura
Al finalizar la asignatura, el estudiante será capaz de analizar Información de carácter

probabilístico para plantear pronósticos de naturaleza empresarial.
Unidades didácticas
UNIDAD 1 UNIDAD 2 UNIDAD 3 UNIDAD 4
Muestreo y diseños Prueba de hipótesis Análisis de Correlación,

experimentales, e inferencias. varianza, regresión y series de
estimados y experimentos tiempo.
tamaños de multinomiales y
muestra. tablas de
contingencia y
estadística no
paramétrica.
Resultado de Resultado de Resultado de Resultado de
aprendizaje aprendizaje aprendizaje aprendizaje
Al finalizar la Al finalizar la Al finalizar la

unidad, el unidad, el unidad, el
estudiante será estudiante será estudiante será
capaz de aplicar capaz de aplicar capaz de analizar Al finalizar la
los métodos de pruebas de pruebas de unidad, el
muestreo y de hipótesis para la hipótesis para el estudiante será
estimación de media, proporción, análisis de varianza, capaz de realizar
parámetros a partir varianza y experimentos pruebas de
de una muestra desviación multinomiales y hipótesis de
aleatoria estándar tablas de correlación y
proveniente de poblacional a partir contingencia, y regresión, y series
una población. de una muestra estadística no de tiempo.
aleatoria y dos paramétrica.
muestras
aleatorias.
Tiempo mínimo de estudio:
Unidad 1 Unidad 2 Unidad 3 Unidad 4

Semana 1 y 2 Semana 3 y 4 Semana 5 y 6 Semana 7 y 8
24 horas 24 horas 24 horas 24 horas
9
UNIDAD 1
MUESTREO Y ESTIMACIÓN DE PARÁMETROS
Diagrama de organización de la Unidad 1
Resultado de aprendizaje de la unidad: Al finalizar la unidad, el estudiante será capaz de aplicar

los métodos de muestreo y de estimación de parámetros a partir de una muestra aleatoria
proveniente de una población.
Conocimientos Habilidades Actitudes
Tema n° 1. Muestreo y diseños 1. Distingue los métodos de Valora la importancia del
experimentales. muestreo. Observa las muestreo y de
1. Definiciones básicas diapositivas animadas y
1.1. Población y Muestra elabora un organizador la estimación de
1.2. Marco muestral gráfico comparativo. parámetros e interpreta
1.3. Métodos de muestreo 2. Planifica muestreos correctamente los
2. Diseño experimental probabilísticos. Elabora resultados paran
2.1. Preexperimental. una ficha técnica de
2.2. Cuasiexperimental. muestreo. una buena toma de
2.3. Experimental (puro). 3. Selecciona una muestra decisiones.
Tema n° 2. Estimación de la válida para realizar
proporción poblacional y cálculo estimaciones de
del tamaño de su muestra. parámetros.
1.1. Estimación de la proporción 4. Identifica correctamente
1.2. Tamaño de muestra para la los valores críticos para el
proporción. cálculo de intervalos de
Tema n° 3. Estimación de la confianza.
media poblacional con 5. Calcula intervalos de
desviación estándar conocida y confianza para la media,
desconocida; y cálculo del proporción y varianza
tamaño de su muestra. para una y dos muestras.
2.1. Estimación de la media con
desviación estándar Actividad 1
poblacional conocida. Participa del foro de
2.2. Estimación de la media con discusión sobre criterios
desviación estándar
poblacional conocida. de muestreo.
2.3. Tamaño de muestra para la
media. Actividad 2
Tema n° 4. Estimación de la Evaluación del tema n.º 1 y el
varianza poblacional y tema n.º 2.
desviación estándar y cálculo del
tamaño de su muestra.
1. Intervalo de confianza.
2. Tamaño de muestra.
10
Tema n° 1. Muestreo y diseños experimentales.
La estadística que desarrolla cuestiones como el caso de desarrollar una descripción de

las características de un grupo de consumidores, detallando sus hábitos de consumo
mediante gráficas, tablas y medidas como la media, la desviación estándar, se
denomina Descriptiva.
Su alcance es limitado a solo entablar una descripción del grupo del que se tomaron las
mediciones, los datos, pero con normalidad eso es insuficiente. En muchos casos se
requiere información del todo.
En esta sección abordamos la explicación de técnicas estadísticas que permiten

desarrollar estimaciones de las características de la población utilizando datos y
mediciones de una muestra.
Al realizar estimación con una muestra, es comprensible que primero entablemos una
revisión de los métodos de muestreo de tal manera que garanticemos que los datos
cumplan con dos condiciones básicas para ser válidos: Aleatoriedad y
Representatividad.
El autor.
11
1. Definiciones básicas
Iniciamos nuestro manual haciendo un recorrido por conceptos básicos como:
1.1. Población y Muestra.

En el desarrollo de la estadística no se puede dejar de hablar de estos dos
conceptos, en ellos se centran todas las actividades que realiza. Si hablamos,
por ejemplo, de averiguar por el clima organizacional de las empresas, de
inmediato pensamos en los sujetos que tendremos que entrevistar para
recoger la información, y al tratar de definir quienes son, de inmediato se llega
a preguntarse; entrevistamos a todos (población) o escogemos un conjunto
pequeño (muestra).
Es entonces claro que no se puede indagar científicamente nada sin antes

tener en claro como es nuestra población y si de ella tomamos una parte,
como es nuestra muestra.
A continuación, les presento una definición:
A. Población:
Es el conjunto de todos los sujetos, las cosas o los eventos sobre los que se
quiere investigar con respecto a una particularidad dada. A la población
le correspondería la colección completa de datos –casi siempre imposible
de elaborar por su tamaño u otras condiciones– sobre los cuales se harán
inferencias.
Censo “es el conjunto de datos de todos los miembros de la población”

(Triola, 2018, p. 26)
B. Muestra:
“Una muestra es un subconjunto observado de valores poblacionales que

tiene un tamaño muestral que viene dado por n. Este subconjunto debe
ser representativo de su población, es decir debe presentar las mismas
características exhibidas por la población de la que se obtuvo, ya que
nuestro objetivo es obtener información de esta en base a la información
obtenida de la muestra. ¿Cómo podemos lograrlo? Uno de los principios
importantes que debemos seguir en el proceso de selección de la muestra
es la aleatoriedad” (Newbol, Carlson, & Thorne, 2008, p. 3).
1.2. Marco muestral

Un marco muestral lo constituye una relación,
una descripción de las condiciones que
hacen posible identificar a los elementos de
una población. Puede estar compuso de
documentos como listas, planos, mapas.
El objetivo de un marco muestral es el

desarrollo de la elección de los elementos de
una muestra. Sin un marco muestral es
Figura 1. Marco muestra Invest.
imposible aplicar cualquier método de Fuente: Elaboración propia
muestreo.
12
1.3. Métodos de muestreo
De hecho, se estila hablar de dos formas: Probabilístico) y No probabilístico:
A. Métodos Probabilísticos:
Son aquellos métodos en los que la muestra se elige de manera aleatoria
Aleatorio simple: “es un método que se

emplea para seleccionar una muestra de n
objetos de una población en el que cada
miembro de la población se elige
estrictamente al azar, cada miembro de la
población se elige con la misma probabilidad
y todas las muestras posibles de un tamaño
dado (n), tienen la misma probabilidad de ser
seleccionadas. Este método es tan frecuente
que generalmente se suprime el adjetivo
simple y la muestra resultante se denomina
muestra aleatoria” (Newbol, Carlson, & Figura 2: Lotto sphere.
Thorne, 2008, p. 3). Tomado de banco de
imágenes DLPNG.
Se realiza mediante un sorteo.
Sistemático: “Supongamos que la lista de la

población se ordena de una forma que no
tiene ninguna relación con el tema de interés.
El muestreo sistemático implica la selección de
todo j-ésimo sujeto de la población, donde j es
el cociente entre el tamaño de la población N
y el tamaño que se desea que tenga la
muestra, n; es decir, j = N/n. Se selecciona Figura 3. Muestreo
aleatoriamente un número del 1 al j para Sistemático, por Elgin
obtener el primer sujeto que va a incluirse en la Community Collage.
muestra sistemática” (Jurado, 2017, p. 10).
Por estratos: “Se desarrolla dividiendo la

población en grupos o estratos de acuerdo
con una o más variables de los que se saca
una muestra proporcional al tamaño de cada
estrato.
Se obtiene por tanto muestras grandes de los Figura 4: Muestreo

estratos grandes y pequeñas de los más Estratificado. Tomado de
pequeños” (Jurado, 2017, p. 10). Universo Fórmulas.com
2018
Por conglomerados: Los conglomerados son

grupos que se dan en una población. Cada
conglomerado tiene las mismas
características de la población, por ello se
hace un sorteo entre ellos y se elige uno o
más como muestra. Figura 5: Muestreo por
conglomerados por Elgin
Community Collage
13
B. Métodos No probabilísticos:
Los métodos no probabilísticos son aquellos que emplean solo el criterio del
que investiga, por ello acarrean muchas dudas sobre la representatividad
de la muestra obtenida.
C. Ficha Técnica
Es el resumen del diseño del proceso de muestreo, en ella se explican las

condiciones que hacen válida una muestra. Ejemplo:
Una ficha técnica es el documento que obligatoriamente se presenta al

presentar los resultados de una encuesta. En este documento se expone las
características del estudio realizado y que respaldan la coherencia de la
información obtenida en la muestra.
Ejemplo
Título del estudio: Encuesta de Opinión en Lima Metropolitana noviembre 2009
Objetivos del Estudio: Evaluación y opinión sobre la situación económica
Encuestadora: Pontificia Universidad Católica del Perú
Nº de registro: 0108 REE/JNE.
Universo o población objetivo: Hombres y mujeres mayores de 18 años,

habitantes de 31 distritos de Lima Metropolitana.
Marco muestral: La selección de manzanas se hizo utilizando como marco

muestral la cartografía digital del INEI del 2004 para los 31
distritos de Lima Metropolitana. Los distritos que no forman
parte del marco muestral son: Chaclacayo, Lurigancho,
Cieneguilla y los distritos balnearios del Sur y del Norte de la
Ciudad.
Representatividad: En los distritos que forman parte del universo y que están
incluidos en el marco muestral se encuentra el 95.88% de la
población electoral total de la provincia de Lima.
Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.
Error y nivel de confianza estimados: ±4.32% con un nivel de confianza del 95%,
asumiendo 50%-50% de heterogeneidad, bajo el supuesto de
muestreo aleatorio simple.
Distritos que resultaron seleccionados en la muestra: La selección aleatoria de

manzanas del marco muestral determinó que la encuesta se
aplicara en 28 distritos de Lima Metropolitana (Cercado de
Lima, Ate, Barranco, Breña, Carabayllo, Chorrillos, Comas, El
Agustino, Jesús María, La Molina, La Victoria, Lince, Los Olivos,
Magdalena del Mar, Pueblo Libre, Miraflores, Puente Piedra,
Rímac, San Borja, San Juan de Lurigancho, San Juan de
Miraflores, San Martín de Porres, San Miguel, Santa Anita,
14
Santiago de Surco, Surquillo, Villa El Salvador y Villa María del
Triunfo).
Procedimiento de muestreo: Se realizó una muestra probabilística polietápica.

Dentro de Lima se estratificó la muestra de acuerdo con
grandes zonas de la ciudad, cono norte, cono este, cono sur,
centro, cono oeste-suroeste, y en cada estrato se seleccionó
una muestra simple al azar de manzanas. Posteriormente se
realizó un muestreo sistemático de viviendas en cada
manzana seleccionada y se aplicaron cuotas de sexo y edad
para la selección de personas al interior de las viviendas.
Ponderación: En Lima Metropolitana los datos se ponderaron en función del

peso de los estratos en la población total.
Técnica de recolección de datos: Mediante entrevistas directas en las

viviendas seleccionadas.
Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.
Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009.
Financiamiento: Pontificia Universidad Católica del Perú.
Página web: http://www.pucp.edu.pe
Email: iop@pucp.edu.pe
Ficha Técnica obtenida de (Pontificia Universidad Catolica del Perú, 2009)
2. Diseño experimental
Las investigaciones pueden seguir dos tipos de diseños de manera general:
Observacional y Experimental.
2.1. Diseño Observacional

Se caracterizan por recolectar datos sin interferir o interferir en los sujetos
observados. Por ello de acuerdo con (Triola, 2018) puede ser:
A. Transversal: En un estudio transversal, los datos se observan, se miden y se

recolectan en un momento dado, no durante un período determinado.
B. Retrospectivo: En un estudio retrospectivo (o de control de caso), se

recolectan datos correspondientes a un periodo del pasado (a través del
análisis de registros, entrevistas, etcétera).
C. Prospectivo: En un estudio prospectivo (o longitudinal o de cohorte), los

datos se recolectan en el futuro a partir de grupos que comparten factores
comunes (estos grupos se denominan cohortes).
2.2. Diseño Experimental

En este tipo de diseños, se recogen datos después de haber aplicado algún
tipo de intervención con los sujetos investigados, midiendo las reacciones
frente al tratamiento o variable independiente. Se privilegia una muestra
aleatoria (probabilística) para evitar la confusión en los resultados.
A. Preexperimental.
15
En este diseño se aplica un estímulo o tratamiento a un grupo que es la
única muestra que se puede alcanzar (la elección no es aleatoria) y se
aplica una medición.
Se puede definir como un estudio de caso de aplicación de un estímulo y

solo se observan los resultados: G x O
En otros casos se puede efectuar dos mediciones; una medición antes de

aplicar el estímulo y otra después de aplicarlo: G O1 x O2
Su deficiencia radica en que como no se emplea la aleatoriedad para

elegir a los sujetos, no hay validez interna y no se puede validar la
causalidad.
B. Diseño Cuasiexperimental.
Se diseñan de tal manera que existen:
- Por lo menos un grupo de control y otro de experimentación.
- Se aplican dos mediciones; una antes de aplicación del estímulo y otra

después.
- Los elementos de cada grupo no se eligen aleatoriamente.
GE 01 x O2
GC 01 x O2
Igualmente, su deficiencia radica en que como no se emplea la

aleatoriedad para elegir a los sujetos, no hay validez interna y no se puede
validar la causalidad.
C. Diseño Experimental (puro).
Cumple con las tres condiciones de un experimento:
- Manipulación de una o más variables independientes.
- Se mide el efecto de la variable independiente en la variable

dependiente.
- Se tiene control de la situación experimental (validez interna) que se

puede lograr con la elección aleatoria de los sujetos, varios grupos de
comparación, equivalencia entre los grupos al inicio del experimento.
RGC O1 x O2
RGE O1 x O2
16
Tema n° 2. Estimación de la proporción poblacional y cálculo del
tamaño de su muestra
1. Estimación de la proporción poblacional.
Cuando iniciamos el proceso de inferencia estadística, es necesario atender al
desarrollo de las estimaciones.
En el desarrollo de las investigaciones, se requiere siempre determinar cuales son las

características de la población que responden a las preguntas o cuestiones que
investigamos. Los valores de estas características son en muchas ocasiones difíciles
de obtener y por ello se utilizan muestras. Con los datos de la muestra calculamos los
valores de las características de nuestro interés y esperamos que estos valores sean
iguales sino muy cercanos a los verdaderos valores en la población.
Trasladar la veracidad de nuestros cálculos empleando una muestra hacia

población es lo que denominamos Inferencias. Estas inferencias nos dan la
oportunidad de determinar cuáles son los valores de las características de una
población con cierta precisión basada en las probabilidades de un muestreo
aleatorio.
Estimación puntual
Como afirma (Triola, 2009, p. 321), Si . . . .”empleamos la proporción muestral

𝑝̂ , obtenida de una muestra aleatoria y 𝑝̂ es un valor único podemos asegurar
que es el valor que más se acerca al valor verdadera de la proporción
proporcional 𝑝”.
Ejemplo: “Hacemos referencia a una encuesta de Gallup aplicada a 1487

adultos, en ella, 639 de los encuestados dijeron que tienen una página de
Facebook. Con base en ese resultado, encuentre la mejor estimación puntual
de la proporción de todos los adultos que tienen una página de Facebook”
(Triola, 2018, p. 300).
SOLUCIÓN
“Debido a que la proporción muestral es la mejor estimación puntual de la

proporción poblacional, concluimos que la mejor estimación puntual de p es
639/1487 = 0.4297. (Si usa los resultados de la muestra para estimar el
porcentaje de todos los adultos que tienen una página de Facebook, la mejor
estimación puntual es 42.97%)” (Triola, 2018, p. 300).
Estimación por intervalo:
Según (Triola, 2018, p. 300) “un intervalo de confianza (o estimación de

intervalo) es un rango (o un intervalo) de valores utilizados para estimar el valor
real de un parámetro poblacional. En ocasiones, un intervalo de confianza se
abrevia como IC.
El nivel de confianza es la probabilidad 1 – 

(por ejemplo 0.95, o 95%) de que el intervalo
de confianza realmente contenga el
parámetro poblacional asumiendo que el
proceso de estimación se repite un gran
número de veces. (El nivel de confianza Figura 6: Nivel de confianza.
también se denomina grado de confianza o Tomado de Estadística, por
coeficiente de confianza)”. Mario Triola, 2012.
17
Requisitos
a. La muestra es aleatoria simple.
b. Se cumplen las condiciones de la binomial: n, número fijo de

ensayos independientes, 2 posibles resultados (éxito fracaso) y las
probabilidades constantes de ambos.
c. Existen por lo menos 5 éxitos y/o 5 fracasos para que la distribución

normal sea una buena aproximación a la distribución normal.
Fórmula:
𝑝̂∗(1−𝑝̂)
𝑝 = 𝑝̂ ± 𝑍𝛼/2 √
𝑛
Ejemplo: “En el problema del capítulo observamos que una encuesta de

Gallup aplicada a 1487 adultos demostró que 639 de los encuestados tiene
páginas de Facebook. Los resultados de la muestra son n = 1487 y x = 639”
(Triola, 2018, p. 300).
a Determine la estimación del intervalo de confianza del 95% para la

proporción poblacional p.
b. “Con base en los resultados, ¿podemos concluir con seguridad que menos
de 50% de los adultos tienen páginas en Facebook? Asumiendo que usted es
un periodista, escriba un breve artículo que describa con precisión los
resultados e incluya toda la información relevante” (Triola, 2018, p. 304).
Verificando:
Se cumple que la muestra es aleatoria ya que los procedimientos de Gallup así

lo hacen. Hay dos posibles resultados: tienen o no tienen una página de
Facebook. Número de ensayos fijo, probabilidad constante y hay más de 5
éxitos y fracasos.
Calculando:
Datos Procedimiento
n = 1487
𝑝̂∗(1−𝑝̂)
a. 𝑝 = 𝑝̂ ± 𝑍𝛼/2 √
x = 639 𝑛
𝑝̂ = 0,4297
0.4297∗(1−0.4297)
𝑝 = 0.43 ± 1,96 ∗ √
NC = 95% 1487
 = 0,05
/2 = 0,025 0,4048 < p < 0,4552

Z/2 = 1,96
Tabla A-2 40,48% < p < 45,52%
18
b. Con base en el intervalo de confianza obtenido en el
inciso (b), parece que menos del 50% de los adultos
tienen una página de Facebook porque el intervalo
de valores de 0,4048 a 0,4552 es un intervalo que está
completamente por debajo de 0,50.
2. Tamaño de muestra para estimar la proporción.

Si deseamos realizar una estimación sobre la proporción de la población, entonces
se pueden usar las siguientes fórmulas para calcular el tamaño (n) de la muestra:
Tamaño muestral para la estimación de la proporción p

2
𝑝𝑞𝑍𝛼/2
Cuando se conoce 𝑝̂ : n=
𝐸2
2
(0,25)𝑍𝛼/2
Cuando no se conoce 𝑝̂ : n=
𝐸2
Ejemplo: “Suponga que un sociólogo quiere determinar el porcentaje actual

de hogares en Estados Unidos que utilizan el correo electrónico. ¿Cuántos
hogares deben encuestarse para tener una confianza del 95% de que el
porcentaje muestral es erróneo por no más de 4 puntos porcentuales?
a. Utilice el siguiente resultado de un estudio pionero: en 1997, el 16,9% de los

hogares estadounidenses usaban correo electrónico (según datos de The
World Almanac and Book of Facts)” (Triola, 2018).
b. Suponga que no tenemos información previa que sugiera un posible valor
de 𝑝̂
SOLUCIÓN
a. “El estudio previo sugiere que 𝑝̂ = 0,169, entonces 𝑞̂ = 0,831 (calculado de 𝑞̂ =

1 – 0,169). Con un nivel de confianza del 95%, tenemos  = 0,05, entonces 𝑍𝛼/2
= 1,96. Además, el margen de error es E = 0,04 (el equivalente decimal de
“cuatro puntos porcentuales”). Puesto que tenemos un valor estimado de 𝑞̂,
usamos la fórmula como sigue” (Triola, 2018):
2
𝑝𝑞𝑍𝛼/2
n=
𝐸2
0,169(0,831)(1,962 )
n=
0.04 2
n = 337,194 = 338 (redondeado)
Debemos encuestar al menos 338 hogares seleccionados al azar.
b. Como en el inciso a), nuevamente utilizamos 𝑍𝛼/2 = 1,96 y E = 0,04, pero sin
conocimiento previo de 𝑝̂ , usamos la fórmula como sigue.
19
(0,25)𝑍𝛼2
2
n=
𝐸2
(0,25)(1,962 )
n=
0,04 2
n = 600,25 = 601 (redondeado)
INTERPRETACIÓN “Para tener una confianza del 95% de que nuestro porcentaje
muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero
para todos los hogares, debemos seleccionar al azar y encuestar 601 hogares.
Comparando este resultado con el tamaño muestral de 338 calculado en el
inciso a), podemos ver que, si no tenemos conocimiento de un estudio previo,
se requiere una muestra más grande para obtener los mismos resultados que
cuando se puede estimar el valor de . Pero ahora recurramos al sentido
común: sabemos que el uso del correo electrónico está creciendo tan
rápidamente que el estimado de 1997 es muy antiguo para ser de utilidad. En
la actualidad, mucho más del 16.9% de los hogares estadounidenses utilizan
correo electrónico. Siendo realistas, necesitamos una muestra mayor que 338
hogares. Suponiendo que en realidad no conocemos la tasa actual de uso de
correo electrónico, deberíamos seleccionar al azar 601 hogares. Con 601
hogares, tendremos una confianza del 95% de que estamos dentro de cuatro
puntos porcentuales del porcentaje verdadero de hogares que usan correo
electrónico” (Triola, 2018).
Tema n° 3. Estimación de la media poblacional con desviación estándar

conocida y desconocida; y cálculo del tamaño de su muestra.
En este acápite desarrollamos los procedimientos cuando se quiere estimar la media
(promedio) de una variable cuantitativa en una población. Antes se deben revisar
las siguientes condiciones:
a. La muestra es aleatoria simple
b. La muestra es n > 30 (ver teorema del límite central) ó
c. La muestra es n < 30 en este caso se debe tener una población normalidad
Se debe precisar que se pueden presentar dos condiciones: Se conoce la

desviación estándar de la población  o no se conoce.
1. Estimación de la media poblacional con desviación estándar de la

población  conocida
A. Estimación puntual
Cuando hacemos una estimación, nos referimos al hecho de calcular un valor

o valores que nos permitan acercarnos al valor verdadera del parámetro, es
decir tratamos de determinar un valor lo más cercano, por ejemplo, a la media
poblacional.
Lo primero que se puede usar en este cálculo es la media muestral 𝑥̅ . Si la

muestra de la que calculamos esta media muestral es “aleatoria”, entonces
20
tendremos altas probabilidades para asegurar que esta media es muy
cercana al valor de la media poblacional . Por ello afirmamos que la media
muestral tiene un valor tal que la hace el mejor estimador de la media
poblacional. Podemos decir esto en base a las siguientes razones:
1. “Para todas las poblaciones, la media muestral 𝑥̅ es un estimador sin sesgo

de la media poblacional , lo que significa que la distribución de medias
muestrales tiende a concentrarse alrededor del valor de la media poblacional
m. Es decir, las medias muestrales no tienden sistemáticamente a sobreestimar
el valor de , ni tienden sistemáticamente a subestimar el valor de , sino que
tienden a coincidir con este valor ” (Triola, 2018, p. 339).
2. Para muchas poblaciones “la distribución de las medi as muestrales 𝑥̅ tiende

a ser más consistente (con menos variación) que la distribución de otros
estadísticos muestrales” (Triola, 2018, p. 338 ).
EJEMPLO “Pulso cardiaco de mujeres El pulso cardiaco de las personas es

sumamente importante. Si suponemos un conjunto de datos que incluye pulsos
cardiacos (en latidos por minuto) de mujeres seleccionadas al azar; los
estadísticos son los siguientes: n = 40, 𝑥̅ = 76.3 y s = 12,5” (Triola, 2018, p. 146).
Utilice esta muestra para calcular el mejor estimado puntual de la media

poblacional  de los pulsos cardiacos de todas las mujeres.
SOLUCIÓN “Para los datos muestrales, 𝑥̅ = 76,3. Como la media muestral 𝑥̅ es el

mejor estimado puntual de la media poblacional , concluimos que el mejor
estimado puntual de los pulsos cardiacos de todas las mujeres es 76,3” (Triola,
2018, p.338).
B. Estimación por Intervalo
“Un intervalo de confianza nos ofrece información que nos permite

comprender mejor la exactitud del estimado. El intervalo de confianza se
asocia con un nivel de confianza, como 0,95 (o 95%). El nivel de confianza nos
da la tasa de éxitos del procedimiento que se utiliza para construir el intervalo
de confianza. Como se describió en la sección anterior,  es el complemento
del nivel de confianza. Para un nivel de confianza de 0.95 (o 95%),  = 0,05.
Para un nivel de confianza de 0,99 (o 99%),  = 0,01” (Triola, 2018, p. 339).
Un intervalo para la media poblacional con  conocida se calcula con:

𝜎
𝜇 = 𝑥̅ ± 𝑍𝛼/2 *
√𝑛
Ejemplo:
Para la muestra de pulsos cardiacos de mujeres, tenemos n = 40 y 𝑥̅ = 76,3, y la

muestra es aleatoria simple. Suponga que sabemos que  es 12,5. Utilice un
nivel de confianza del 95% y calcule el intervalo de confianza para  (Triola,
2018).
SOLUCIÓN
REQUISITOS Primero debemos verificar que se cumplan los requisitos. La muestra

es aleatoria simple. Se supone que conocemos el valor de  (12,5). Con n > 30,
se satisface el requisito de normalidad dado que se cumple el teorema del
21
límite central” (Triola, 2018). Por lo tanto, los requisitos se cumplen y podemos
continuar
Datos Procedimiento
n = 40 𝜎
𝜇 = 𝑥̅ ± 𝑍𝛼/2 *
√𝑛
𝑥̅ = 76.3
12,5
 = 12.5 𝜇 = 76,3 ± 1,96 *
√40
NC = 95%
 = 0.05 72,43 <  < 80,17

/2 = 0.025
Z/2 = 1.96
2. Estimación de la media poblacional con desviación estándar de la

población  desconocida
Cuando desconocemos el valor de  entonces un intervalo de confianza
puede resolverse usando la distribución t.
La distribución t es una distribución normal modificada que depende de los

grados de libertad:
gl = n – 1
En la tabla se tiene que buscar los valores críticos con el valor de los gl ubicado
en la primera columna a la derecha y el valor de  en la primera fila.
Un intervalo para la media poblacional con  no conocida se calcula con:

𝑠
𝜇 = 𝑥̅ ± 𝑡𝛼/2 *
√𝑛
Ejemplo:
Como indica (Triola, 2018), en el diagrama de tallo y hojas que aparece al

margen, se incluyen las edades de solicitantes que no lograron un ascenso
(según datos de “Debating the Use of Statistical Evidence in Allegations of Age
Discrimination”, de Barry y Boland, American Statistician, vol. 58, núm. 2). Existe
el tema más importante de si ciertos solicitantes fueron víctimas de
discriminación por edad, pero por ahora nos enfocaremos en el simple
aspecto de utilizar esos valores
como una muestra con el propósito 3 4 7 7 8
de estimar la media de una
4 1 2 3 4 4 5 5 5 6 8 8
población más grande. Suponga
que la muestra es aleatoria simple 5 3 3 4 4 5 6 7
y utilice los datos muestrales con un 6 0
nivel de confianza del 95% para
calcular el intervalo de confianza Figura 7. Diagrama tallo – hoja.
para  Fuente: Elaboración propia
SOLUCIÓN
22
REQUISITOS Primero debemos verificar que los dos requisitos para esta sección
se satisfacen. Estamos suponiendo que la muestra es aleatoria simple. Ahora
revisamos el requisito de que la población
se distribuya normalmente o n = 30”. Puesto
que n = 23, debemos verificar que la
distribución sea aproximadamente
normal. La forma de la gráfica de tallo y
hojas sugiere una distribución normal.
Además, una gráfica cuantilar normal
confirma que los datos muestrales
provienen de una población con una
distribución aproximadamente normal (no
se muestran datos atípicos). Por
Figura 8. Diagrama de caja y
consiguiente, los requisitos se satisfacen y bigotes.
procedemos con los métodos de esta Fuente: elaboración propia
sección (Triola, 2018).
Datos
n = 23
𝑠
𝜇 = 𝑥̅ ± 𝑡𝛼/2 *
𝑥̅ = 47.0 √𝑛
s = 7.2 7,2
𝜇 = 47,0 ± 2,074 *
√23
NC = 95%
 = 0.05
43,9 <  < 50,1
t/2=2.074
Tabla A - 3
INTERPRETACIÓN Este resultado también podría expresarse en la forma de

(43,9, 50,1). Con base en los resultados muestrales dados, tenemos una
confianza del 95% de que los límites de 43,9 años y 50,1 años realmente
contienen el valor de la media poblacional  (Jurado, 2017).
2.1. La distribución t-student:

De acuerdo con (Newbol, Carlson & Thorne, 2008): “ . . .dada una muestra
aleatoria de n observaciones, de media 𝑥̅ y desviación típica s, extraída de
una población que sigue una distribución normal de media , la variable
aleatoria t sigue la distribución t de Student con (n - 1) grados de libertad y
viene dada por:
𝑥̅ −𝜇
t= 𝑠
√𝑛
La distribución t-student es una distribución normal estándar “modificada” “. .

. Al igual que ella tiene una media igual a cero. La distribución “t” es una
distribución con diferentes formas de acuerdo a los grados de libertad de la
muestra (gl=n-1):
23
Figura 9: Distribución t-student a diferentes
tamaños de muestra.
Tomado de Wikimedia org., 2017
La distribución t-student al ser una modificación de la distribución normal

estándar para trabajar con la desviación estándar muestral s, puede producir
resultados semejantes a esta a medida que el tamaño de la muestra crece, es
decir la distribución t-student es más semejante a la distribución normal
estándar a medida que la muestra es más grande.
Tabla1:
Elección entre z y t
Fuente: Triola, 2009
2.2. Tamaño de muestra para estimar la media.

Cuando se quiere estimar la media, entonces debemos determinar el
número de individuos de quienes se obtendrán los datos. Esto se puede
lograr usando:
24
2
𝜎 2 ∗𝑍𝛼/2
n=
𝐸2
25
Tema n° 4. Estimación de la varianza poblacional y desviación estándar
y cálculo del tamaño de su muestra.
1. Intervalo de confianza:
Los requisitos para obtener un intervalo de confianza para la varianza o para la
desviación estándar son:
- La muestra es aleatoria.
- La muestra proviene de una población normal.
- La distribución de las varianzas muestrales se ajusta a una distribución Ji

cuadrada (2)
Nuestro intervalo para la varianza poblacional se puede calcular de:

(𝑛−1)∗𝑠2 (𝑛−1)∗𝑠2
< 𝜎2 <
2𝐷 2𝐼
Si se trata de la desviación estándar poblacional, se puede usar:
(𝑛−1)∗𝑠2 (𝑛−1)∗𝑠2
√ <𝜎<√
2𝐷 2𝐼
Donde :
n: Tamaño de la muestra.
s: Es la desviación estándar de la muestra.
2𝐷 = El valor crítico en la distribución Ji cuadrado ubicado al lado derecho (Triola,

2009).
2𝐼 = El valor crítico en la distribución Ji cuadrado ubicado al lado izquierdo (Triola,

2009).
Ejemplo:
En el desarrollo del control de calidad de lentes de contacto se verifican las medidas

de grosor de cierta línea. La desviación estándar es un indicador de calidad por lo
que se requiere controlarla. Una muestra de 51 lentes arroja un promedio de
0,034mm con una desviación estándar muestral de 0,0012mm. Determine un
intervalo de confianza al 95% para la desviación estándar poblacional.
Datos
n = 51 Con la fórmula:
s = 0,0012mm
NC = 95%
/2 = 0,025
26
En la tabla A-4 del
(𝑛−1)∗𝑠2 (𝑛−1)∗𝑠2
Apéndice B: √ 2𝐷
<𝜎<√
2𝐼
2 derecho:
gl = 51 – 1 = 50
Reemplazando:
/2 = 0,025
2 2
√(51−1)∗0,0012 < 𝜎 < √(51−1)∗0,0012
71,420 32,357
2 Izquierdo:
gl = 51 – 1 = 50 1.004𝑥10−3 < 𝜎 < 1.492𝑥10−3

1 – /2 = 0,975
2. Tamaño de muestra:
El tamaño muestral se puede calcular de despejar la fórmula de la distribución Ji

cuadrada para las varianzas:
(𝑛−1)𝑠2
2 =
𝜎2
Se puede despejar:
2 ∗𝜎2
𝑛= +1
𝑠2
El coeficiente s2/2 = error de muestral E de la varianza.
2
𝑛= 𝑠2
+1
𝜎2
2
𝑛= +1
𝐸
27
De la Teoría a la práctica:
Lectura 1:
Los ingresos per cápita de América Latina llevan 60 años estancados – El

País (Manetto, 2018):
“América Latina necesita incrementar con urgencia sus índices de productividad. La
brecha que la separa, en su conjunto, de las economías más avanzadas es aún
profunda y la fotografía del pasado reciente demuestra que la situación, en lo
sustancial, no ha mejorado en los últimos 60 años. Así lo indica CAF-Banco de Desarrollo
de América Latina, que este jueves ha presentado en Bogotá un informe que arroja un
diagnóstico sobre el panorama socioeconómico lleno de desafíos e insta a los
Gobiernos de la región a poner en marcha una agenda de reformas estructurales”
(Manetto, 2018).
"El habitante latinoamericano promedio tiene una cuarta parte del ingreso de un
estadounidense típico. Incluso dentro del grupo de países más avanzados de la región,
el nivel de ingreso per cápita actualmente fluctúa aproximadamente entre 20% y 40%
del de Estados Unidos", señala el informe. "En el año 1960 el habitante latinoamericano
promedio tenía un 20% del ingreso de un estadounidense típico. Hoy, la situación sigue
siendo prácticamente la misma. Otros países, por el contrario, han mostrado importantes
avances en el mismo periodo: Corea del Sur, por ejemplo, pasó de un ingreso per cápita
del 7% del de Estados Unidos a uno del 67% en ese período".
“A eso se añade que "la productividad laboral", según esta institución, "es de alrededor
del 30% con relación a la de Estados Unidos, en contraste con la del Reino Unido, del
75%, Australia, del 82%, o Alemania, del 90%". Con estas premisas, explica a EL PAÍS Pablo
Sanguinetti, vicepresidente de Conocimiento de CAF, América Latina afronta retos
enormes relacionados con el crecimiento y la productividad de las economías, cuyas
disfunciones están a la base de esta brecha. "La productividad es baja en todo, el
problema es transversal, de la infraestructura al sector financiero, y hay que trabajar
para mejorarla en cada sector", apunta. Al mismo tiempo, se debe hacer frente a la alta
informalidad” (Manetto, 2018).
“¿Qué pueden hacer las autoridades? En opinión de Sanguinetti, se trata de lograr

"mayor competencia, mejor acceso a insumos, un mejoramiento de las relaciones
laborales y finalmente el acceso a financiamiento". Eso no significa que hasta ahora los
Gobiernos no hayan hecho esfuerzos. El Banco de Desarrollo reconoce "que muchos
países de la región han llevado a cabo planes para impulsar la productividad". No
obstante, en líneas generales el insuficiente ritmo de crecimiento tiene que ver con
"bajos niveles de innovación, barreras a la financiación de empresas e individuos,
brechas en la adopción de nuevas tecnologías, marcos regulatorios que no suelen
propiciar la entrada y salida de empresas o los centros logísticos poco desarrollados
para comercializar exitosamente productos y servicios" (Manetto, 2018).
“El estudio de CAF apuesta por aplicar una agenda de reformas institucionales que se
han abordado durante dos días en un encuentro de alrededor de 500 líderes
latinoamericanos. Ayer recibieron la bienvenida del presidente de Colombia, Iván
Duque, quien prometió acabar con la informalidad para que los ingresos medios
superen los 20.000 dólares per cápita en tres décadas, y debatieron las fórmulas para
28
superar los obstáculos de la productividad urbana y mejorar la calidad del empleo
(Manetto, 2018).
Esas reformas deben, según el Banco, no solo promover la competencia, sino "fomentar
la cooperación entre empresas mediante el desarrollo de conglomerados productivos;
impulsar ecosistemas innovadores y la adopción tecnológica; mejorar el acceso al
financiamiento de empresas y reducir las barreras de oferta y demanda para el acceso
a recursos financieros formales por parte de empresas e individuos; o limitar los marcos
regulatorios y políticas hostiles que dificultan la entrada y salida de empresas y afectan
la eficiencia en la asignación de recursos productivos" (Manetto, 2018).
“Luis Carranza Ugarte, presidente ejecutivo de CAF, resumió esos desafíos con una
pregunta y un toque de ironía: "¿Cuánto es dos más dos?". La respuesta no es tan obvia,
en realidad, sobre todo en economía. "Normalmente, el economista se demora un
tiempo y dice… ¿Cuánto quieres que sea? En economía dos más dos no siempre es
cuatro. Dos más dos son ocho, esa es la historia de los países europeos. En Latinoamérica
dos más dos en promedio han sido cuatro, y eso no es suficiente para llegar a la
prosperidad", afirmó. La pelota está ahora en el tejado de los sectores productivos y de
los Gobiernos de la región” (Manetto, 2018).
Actividad N° 1: Auto evaluación - Estimación de parámetros (cuestionario

en línea)
- Ingrese al Aula Virtual >> Unidad 1 >> Semana 2 >> Autoevaluación:
- Lea con mucha atención las indicaciones.
- Desarrolle el cuestionario.
29
GLOSARIO DE LA UNIDAD 1
Aleatorio: “Que depende del azar o no sigue una pauta definida': «La grabación de las
conversaciones se realizó de forma aleatoria»” (Real Academia Española, 2019)
Nivel de confianza “Si se extraen repetidamente muestras aleatorias de la población, el

verdadero valor del parámetro  se encontrará en el 100(1 – a)% de los intervalos
calculados de esta forma” (Newbol, Carlson, & Thorne, 2008, p. 123).
Curva de densidad Gráfico que representa el área que se produce debajo de una curva
generada por una distribución de probabilidad (Triola, 2009).
Datos Información observada, obtenida de una característica o variable en una unidad

de observación (Triola, 2009).
Datos continuos resultan de un infinito de posibles valores que corresponden a alguna

escala continua que cubre un rango de valores sin huecos, interrupciones o saltos (Triola,
2009).
Datos cualitativos Información en una unidad de observación debido a una variable de

tipo cualitativa (Jurado, 2017).
Datos cuantitativos Información en una unidad de observación debido a una variable

de tipo cuantitativa (Jurado, 2017).
Datos de atributo Información en una unidad de observación debido a una variable de

tipo cualitativa (Jurado, 2017).
Datos discretos Información en una unidad de observación debido a una variable de

tipo discreta, que toma infinitos valores que pertenecen al conjunto de números enteros
(Triola, 2009).
Datos numéricos Datos que consisten en números que representan conteos o

mediciones (Jurado, 2017).
Desviación estándar Medida de variación igual a la raíz cuadrada de la varianza

(Jurado, 2017).
Distribución muestral Distribución de las medias o las proporciones muestrales y que por
el teorema del límite central se determina normal (Jurado, 2017).
Distribución normal Distribución de probabilidad con forma de campana, descrita

algebraicamente con la fórmula (Jurado, 2017):
(𝑥−𝜇)2
1 𝑏
𝑃(𝑎 < 𝑥 < 𝑏) = ∫ 𝑒 2𝜎2 .dx  x∈R
𝜎√2𝜋 𝑎
Se caracteriza por ser simétrica, con valores iguales para su media y mediana.
Distribución normal estándar Distribución normal con una media igual a cero y una
desviación estándar igual a 1 (Jurado, 2017).
Distribución t Distribución normal que suele estar asociada con datos muestrales de una
población con una desviación estándar desconocida (Jurado, 2017).
30
Distribución t de Student Véase Distribución t.
Estadístico Medida que se calcula o identifica con los datos de una muestra como, por
ejemplo; La proporción muestral (𝑝̂ ) la media muestral (𝑥̅ ), la desviación estándar
muestral (s), etc, (Jurado, 2017)
Estimación Calcular o determinar el valor de un parámetro a partir de los datos que se

tienen en una muestra .Jurado, 2017)
Margen de Error Es el error máximo (E) que se puede cometer al realizar una
estimación. Está supeditado al valor puntual de z o t según el nivel de confianza
utilizado en la estimación. (Jurado, 2017)
Parámetro Medida que se calcula o identifica con los datos de una población como,
por ejemplo; La proporción poblacional (p) la media poblacional (µ), la desviación
estándar (σ), etc. (Jurado, 2017)
Valor crítico Es una puntuación de alguna distribución como la normal estándar, t, Chi
cuadrada, F u otra, que separa el área de las puntuaciones más probables de aquellos
menos probables (Triola, 2018).
Bibliografía unidad 1
Alfaro, D., & Macera, D. (2011). Una mirada a los programas sociales [mensaje en un
blog]. Obtenido de https://www.grade.org.pe/novedades/una-mirada-a-los-
programas-sociales/
Anderson, D., Dennis, S., & Thomas, W. (2012). Estadística para negocios y economía.
México D. F.: CENGAGE Learning.
APTiTUS. (31 de julio de 2009). La Importancia de la Evaluación del Desempeño.

Obtenido de APTiTUS.pe: http://aptitus.com/blog/evaluacion-del-
desempeno/entrevista-a-la-sra-pilar-quinteros-marquina-gerente-de-recursos-
humanos-de-merck-sharp-dohme-peru-ii-parte/
Banco Central de Reserva del Perú. (2019). Banco Central de Reserva del Perú.
Recuperado el 21 de junio de 2019, de BCRP Data:
https://estadisticas.bcrp.gob.pe/estadisticas/series/trimestrales
Devore, J. (2008). Probabilidad y estadística para ingenieriía y ciencias. México D. F.:

CENGAGE Learning.
Díaz, A. (2013). Estadística aplicada a la administración y la economía. Mexico D. F.: Mc

Graw Hill Education.
Díaz, A. (2013). Estadística aplicada a la administración y la economía. México D. F.:

McGraw Hill.
DLPNG. (2018). Lotto sphere [figura]. Lottery. Obtenido de

https://dlpng.com/png/1145374
Elgin Community Collage. (2016). Muestreo sistemático [figura]. Recuperado el 3 de

febrero de 2018, de Elgin.edu:
https://faculty.elgin.edu/dkernler/statistics/ch01/1-4.html
31
Hernandez, R., Fernandez, C., & Baptista, P. (2014). Metodología de la investigación.
Mexico D. F.: Mc Graw Hill Education.
Jurado, S. (2017). Curv de la distribución F [figura]. Huancayo: Universidad Continental.
Jurado, S. (2017). Curvas y áreas. Regla de decisión [figura]. Huancayo: Universidad

Continental.
Jurado, S. (2017). Estadística Inferencial - Manual de Auto aprendizaje. Huancayo:

Universidad Continental.
León, M. (18 de junio de 2019). Las balanzas dle bienestar. Recuperado el 19 de junio de
2019, de El País:
https://elpais.com/elpais/2019/06/17/opinion/1560781691_381446.html
Levin, R., & Rubin, D. (2004). Administración para Administración y Economía. Mexico D.
F.: Pearson Education.
Lind, D., Marchal, W., & Wathe, S. (2012). Estadística aplicada a los negocios y la
economía (15a ed.). Mexico D. F.: Mc Graw Hill Education.
Manetto, F. (9 de Noviembre de 2018). Los ingresos per cápita de América Latina llevan
60 años estancados. El País, pág. 12. Recuperado el 24 de febrero de 2019, de
https://elpais.com/internacional/2018/11/08/colombia/1541659854_428801.html
Mendenhal, W. (2010). Introducción a la estadística y la probabilidad. México D. F.:

CENGAGE learning.
Newbol, P., Carlson, W., & Thorne, B. (2008). Estadística para Administración (6a ed.). (R.
Esther, Trad.) Madrid: Pearson Education.
Persekutuan, W. (28 de setiembre de 2008). Blogger Ng Ooi Pin @ Json. Recuperado el

21 de julio de 2016, de RAG 132 BUILT ENVIRONMENT & HUMAN SETTLEMENTS:
http://ngooipin.blogspot.pe/
Pontificia Universidad Catolica del Perú. (2009). Instituto de Opinión Pública - Data. (I. d.
Pública, Editor) Obtenido de https://docs.google.com/viewer?url=http://iop-
data.pucp.edu.pe/media/archivos/2009/11/1/IOP_1109_01_F.pdf&embedded=
true0
Real Academia Española. (2019). Diccionario de la Lengua española (pagina web). (R.
A. Española, Editor) Obtenido de
http://lema.rae.es/dpd/srv/search?key=aleatorio
Triola, M. (2009). Estadística (10a ed.). Mexico D. F.: Pearson Education.
Triola, M. (2018). Estadística (12a ed.). (J. Murrieta, Trad.) Mexico D. F.: Pearson Education.
Universidad de Valladolid. (13 de abril de 2012). Probabilidad y Estadística orientada a

la Economía y la Empresa. Recuperado el 11 de agosto de 2016, de Probablidad
y Distribuciones: http://www5.uva.es/estadmed/datos/series/series1.htm
Universo Fórmulas.com. (2018). Universo Fórmulas [figura]. Obtenido de

https://www.universoformulas.com/estadistica/inferencia/muestreo-
estratificado/
Vidal-Beneyto, J. (14 de febrero de 2004). Las cuentas secuestradas. El País.
Wikimedia org. (2017). Distribución t con diferentes tamaños de muestra [figura].

Obtenido de Wikilibros:
32
https://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_d
e_Student
33
UNIDAD 2:
PRUEBA DE HIPÓTESIS E INFERENCIAS

pruebas de hipótesis para la media, proporción, varianza y desviación estándar poblacional a
partir de una muestra aleatoria y dos muestras aleatorias.
Tema n° 1. Prueba de 1. Identifica las clases de Valora la importancia de las
hipótesis para la hipótesis. pruebas de hipótesis e
proporción de una 2. Plantea pruebas de interpreta correctamente los
población y Prueba de hipótesis. resultados para una buena
hipótesis para la media 3. Identifica correctamente toma de decisiones.
de una población. los valores críticos para la
1. Prueba de hipótesis para aplicación de las pruebas
la proporción de una de hipótesis.
población 4. Determina el
2. Prueba de hipótesis para procedimiento pertinente
la media de una de la prueba de hipótesis.
población. 5. Realiza la interpretación
A. Con  conocida del resultado de la prueba
B. Con  no conocida de hipótesis
Tema n° 2. Inferencias Actividad 1:

acerca de dos Parcita del foro de discusión
proporciones. Importancia de las pruebas
1. I de hipótesis.
Tema n° 3. Inferencias Actividad 2:
acerca de dos medias Evaluación del tema N° 1 y el
independientes. Tema N° 2
1. Se conocen 1 y 2
2. No se conocen 1 y 2,
y se asumen iguales.
3. No se conocen 1 y 2,
y no se asumen iguales.
Tema n° 4. Inferencias
de dos medias con
muestras dependientes.
34
Tema n° 1. Prueba de hipótesis para la proporción de una población y
Prueba de hipótesis para la media de una población.
En esta Unidad, exponemos los métodos iniciales que hacen posible probar una
afirmación realizada sobre alguna propiedad de una población, como por ejemplo
pudiera ser el caso de una publicación en una revista especializada que menciona que,
en América Latina, el promedio de inversión en Educación de las familias es el más bajo
de todas las regiones del mundo, a excepción de África. ¿Cuán importante puede ser
responder a la interrogante que se hace respecto de la veracidad de este tipo de
afirmaciones? Conocer la veracidad de estas afirmaciones resulta importante por
cuanto puede aportar un conocimiento clave para la toma de decisiones en el
mercadeo.
El desarrollo de las pruebas de Hipótesis en este acápite solo considerara los casos en
los que estén involucradas una o dos muestras y se quieran probar valores de medias,
proporciones y varianzas.
1. Prueba de Hipótesis:
1.1. Hipótesis
En estadística, una hipótesis es una aseveración o afirmación acerca de una
propiedad de una población. (Jurado, 2017)
Una prueba de hipótesis (o prueba de significancia) es un procedimiento

estándar para probar una aseveración acerca de una propiedad de una
población.
1.2. Prueba de Hipótesis

Es un procedimiento estándar para someter a prueba una hipótesis y puede
efectuarse en cinco pasos (Jurado, 2017).
A. Planteamiento de Hipótesis
Consiste en simbolizar dos hipótesis: H0 (nula) y H1 (alterna)
La hipótesis nula (denotada por H0) es la afirmación de que el valor de un

parámetro de población (como una proporción, media o desviación
estándar) es igual a un valor aseverado. Las siguientes son hipótesis nulas
típicas del tipo considerado en este capítulo:
H0: p = 0,5 H0:   3,56 H0:   0,35
La hipótesis nula expresa igualdad dentro de su planteamiento y se prueba

en forma directa, en el sentido de que suponemos que es verdadera, y
llegamos a una conclusión para rechazar H0 o no rechazar H0 (Triola,
Estadística, 2009).
La hipótesis alternativa (denotada por H1 o Ha o HA) es la afirmación de que

el parámetro tiene un valor que, de alguna manera, difiere de la hipótesis
nula. Para los métodos de este capítulo, la forma simbólica de la hipótesis
alternativa debe emplear alguno de estos símbolos: <, > o bien , A
35
continuación, se presentan nueve ejemplos diferentes de hipótesis
alternativas que incluyen proporciones, medias y desviaciones estándar:
Figura 10: Formas de plantear hipótesis. Tomado de Una hipótesis alterna

tiene un planteamiento complementario y opuestos al de la Hipótesis nula,
por Triola, 2009.
B. Planteamiento de una regla de decisión
La regla de decisión se compone de probabilidades: Aceptar H0 como

verdadera o de Rechazarla, por ello puede expresarse como:
/2 1– /2  1– 1– 
-Z +Z -Z Z
Valor crítico Valor crítico Valor crítico Valor crítico
H1 p  0.50 H1  < 50.23 H1 p > 0,23
Dos colas Una cola Una cola
Figura 11: Formas de reglas de decisión, Tomado de Estadística Inferencial.

Manual de Auto aprendizaje, por Sergio Jurado, 2017. (Jurado, 2017)
Donde las áreas sombreadas representan la probabilidad  de un valor muy

extremo del estadístico y por tanto sirven para rechazar H0 como verdadera.
Las áreas blancas 1 – , sirven para definir cuando aceptamos H0 como

verdadera.
Un valor crítico es cualquier valor que separa la región crítica (donde

rechazamos la hipótesis nula) de los valores del estadístico de prueba que no
conducen al rechazo de la hipótesis nula. Los valores críticos dependen de
la naturaleza de la hipótesis , de la alterna H1, de la distribución muestral que
se aplique (z, t, 2 o F) y del nivel de significancia .
La regla también se puede expresar como:
Rechazar H0 si |z|  valor crítico - prueba de dos colas.

Rechazar H0 si z  Valor crítico - prueba de una cola derecha.
Rechazar H0 si z  Valor crítico - prueba de una cola izquierda.
C. Cálculo de un estadístico de prueba
El estadístico de prueba es el valor calculado con los datos de la muestra.

Puede ser un valor z, t, 2 o F, de acuerdo con el parámetro sometido a
prueba.
36
Proporción Media Varianza Dos varianzas
𝑝̂−𝑝 2
𝑠𝑚𝑎𝑦𝑜𝑟
𝑥̅ −𝜇
z= t= (𝑛−1)𝑠2 F=
√
𝑝𝑞 𝑠 2 = 2
𝑆𝑚𝑒𝑛𝑜𝑟
𝑛 √𝑛 𝜎2
D. Decisión sobre H0
Si el Estadístico de prueba cae bajo la región crítica, se debe rechazar Ho

como verdadera, caso contrario se acepta.
E. Conclusión
La conclusión está sujeta a:
Figura 12: Formas de plantear una conclusión. Tomado de Estadística, por Mario Triola,
2009.
2. Prueba de Hipótesis para la proporción poblacional.

Requisitos:
- La muestra es aleatoria simple
- Se tiene un experimento que cumple con las condiciones de una

distribución binomial.
- Se tiene como mínimo 5 éxitos y 5 fracasos
Estadístico de prueba:
𝑝̂−𝑝
Z=
𝑝(1−𝑝)
√
𝑛
37
Donde:
# 𝑒𝑥𝑖𝑡𝑜𝑠
𝑝̂ = proporción muestral; 𝑝̂ =
𝑛
p = proporción poblacional hipotética (se toma de las hipótesis)
n = tamaño de la muestra
2.1. Procedimiento tradicional

Ejemplo:
Una encuesta de n = 703 empleados seleccionados al azar, reveló que 429 de

ellos consiguió trabajo por medio de una red de contactos. Calcule el valor
del estadístico de prueba para la aseveración de que la mayoría de los
empleados (más del 50%) consiguen trabajo por medio de una red de
contactos. (Para este ejemplo, suponga que se satisfacen los supuestos
requeridos y concéntrese en el cálculo del estadístico de prueba indicado).
Emplee un nivel de significancia de 0,05
Datos
n = 703 Paso1: Planteamiento de hipótesis
#exitos=429
H0: p  0,5
429
𝑝̂ =
703 H1: p > 0,5 (la mayoría de los empleados consigue trabajo
por medio de una red de contactos)
𝑝̂ = 0,6102
Es una prueba de cola derecha.
 = 0,05
Paso 2: Regla de decisión
Zcrit = 1,645
Tabla A - 2
1– 
1.645
Valor crítico
Rechazar H0 si z  1,645
Paso 3: Cálculo del estadístico de prueba
𝑝̂−𝑝 0.6102−0.5
z= = = 5,84
𝑝(1−𝑝) 0.5∗(1−0.5)
√ √
𝑛 703
Paso 4: Decisión respecto de H0
38
Como el estadístico de prueba es 5,84 > 1.645
Rechazamos H0 como verdadera, es decir H0 es falsa.
Paso 5: Conclusión:
Queríamos probar que la mayoría (más de 50%) de los

empleados consigue trabajo por medio de una red de
contactos (H1) que resultó verdadero dado que Ho se
rechazó como verdadera, entonces:
Existe evidencia muestral suficiente para probar que “la

mayoría de los empleados consigue trabajo por medio de
una red de contactos”
2.1.1. Error Tipo I y Tipo II al realizar una prueba de Hipótesis.

Cuando realizamos una prueba de hipótesis estamos expuesto a las
probabilidades. Apoyados en la información que nos da una muestra
elaboramos un proceso de prueba que nos permite obtener una conclusión,
más, sólo contamos con una muestra aleatoria que bien pudiera no ser
representativa y sus datos nos puedan llevar a concluir lago equivocado.
¿Cuál es la probabilidad de que esto suceda?
En el desarrollo de nuestra prueba de hipótesis usamos un nivel de confianza

(1 – ) que se entiende es la probabilidad de estar en lo correcto, por tanto, el
valor del Nivel de significancia  será la probabilidad de equivocarnos. Esto se
explica mejor en:
Error Tipo I:
Se estaría cometiendo un error de tipo I cuando rechazamos H0 como

verdadera, decimos que es falsa, cuando en verdad H0 es verdadera.
La probabilidad de que esto ocurra es el valor de .
Error Tipo II:
Se estaría cometiendo un error de tipo II cuando aceptamos H0 como

verdadera, cuando en verdad H0 es falsa.
La probabilidad de que esto suceda es el valor de β.
2.1.2. Relaciones entre  y β:

En primer lugar, se debe aclarar :
  y β no son complementarios, es decir si sumamos alfa más beta no

nos dará uno:
+β1
 Si el valor de  disminuye, el de β aumenta y viceversa
39
 Si queremos disminuir los valores de  y β, se debe aumentar el tamaño
de la muestra (n)
 Se denomina Potencia de la prueba al valor de 1 – β.
2.2. Procedimiento usando el Valor P.

Una regla de decisión basada en el Valor P se produce como consecuencia
de comparar dos probabilidades: una Hipotética y otra calculada con los
datos muestrales.
Ambas probabilidades se refieren a la posibilidad de cometer el Error de tipo I;

“Rechazar H0 como verdadera cuando en la población si lo es”
- El nivel de significancia  es la probabilidad hipotética (asumida) de

cometer el error de Tipo I.
- El valor P es la probabilidad calculada (real) con los datos de la muestra

de cometer el error Tipo I.
Cunado comparamos estás dos probabilidades podemos encontrar la

siguiente situación:
El valor P es menor que :
En este caso la probabilidad “real” de cometer el error tipo I es menor a la

prevista (), por tanto, podemos asumir el riesgo menor de equivocarnos, en
consecuencia, podemos rechazar H0 como verdadera.
De este razonamiento deriva la regla de decisión siguiente:
Si el Valor P  , rechazamos H0 como verdadera.

Caso contrario la aceptaremos como tal.
Ejemplo:
Una encuesta de n = 703 empleados seleccionados al azar, reveló que 429 de

ellos consiguió trabajo por medio de una red de contactos. Calcule el valor
del estadístico de prueba para la aseveración de que la mayoría de los
empleados (más del 50%) consiguen trabajo por medio de una red de
contactos. (Para este ejemplo, suponga que se satisfacen los supuestos
requeridos y concéntrese en el cálculo del estadístico de prueba indicado).
Emplee un nivel de significancia de 0.05
Datos
40
#exitos=429
H0: p  0,5
429
𝑝̂ =
703 H1: p > 0,5 (la mayoría de los empleados consigue trabajo
por medio de una red de contactos)
𝑝̂ = 0,6102
 = 0,05
Zcrit = 1,645
Rechazar H0 si Valor P  
𝑝̂−𝑝 0.6102−0.5
z= = = 5,84 con este valor buscamos en
𝑝(1−𝑝) 0.5∗(1−0.5)
√ √
𝑛 703
la tabla de la distribución z A-3. El valor P = 0,0001
Como el valor P = 0,0001 <  = 0,05
Rechazamos H0 como verdadera, entonces H0 es falsa y H1

verdadera
Queríamos probar que la mayoría (más de 50%) de los

empleados consigue trabajo por medio de una red de
contactos (H1) que resultó verdadero, entonces:
Existe evidencia muestral suficiente para probar que “la

mayoría de los empleados consigue trabajo por medio de
una red de contactos”
Debe tenerse en cuenta que para aplicar esta regla se deben observar:
 Dos colas: El valor encontrado en la tabla se multiplica por dos.
 Una cola: la prueba es de cola derecha y el estadístico de prueba es

positivo o la prueba es de una cola izquierda y el estadístico de prueba
es negativo: Proceda como en el ejemplo.
41
 Una cola: la prueba es de cola derecha y el estadístico de prueba es
negativo o la prueba es de una cola izquierda y el estadístico de
prueba es positivo: el valor P debe hallarse restando uno menos el valor
encontrado en la tabla.
3. Prueba de hipótesis para la media poblacional.

Los requisitos son:
- La muestra es aleatoria simple
- n  30 ó
- Si n < 30 la población es normal.
3.1. Prueba de hipótesis para la media poblacional con desviación

estándar desconocida
Cuando se conoce , la desviación estándar de la población, el estadístico de
prueba se calcula con:
𝑥̅ −𝜇
z= 𝜎
√𝑛
Donde:
n: es el tamaño de la muestra
𝑥̅ = media de la muestra.
 = media hipotética en la población (se toma de las hipótesis).
Ejemplo:
En su tesis de grado, Carlos Carhuapoma desarrolla la teoría de que el

promedio de vida útil de una vivienda unifamiliar es menos de 28 años,
considerando que todos los elementos constructivos e instalaciones funcionan
correctamente. Toma una muestra de 18 viviendas y obtiene los datos de la
tabla adjunta. Realice una prueba al 0.05 de significancia, considerando que
no existen datos atípicos (Jurado, 2017).
Tabla 2:
Datos de Vida útil de viviendas
25 24 29 30 26 36 34 26 14
22 20 24 28 21 23 17 25 35
Fuente: Elaboración propia
Si consideramos que un estudio previo ha permitido obtener la desviación

estándar poblacional de 4,76.
Solución:
42
Como se trata de un caso de muestra 1
pequeña n < 30, debemos probar que la
población es normal. Para ellos usamos 0.8
un gráfico p-p.
0.6
p(z)
Como se puede ver los puntos generados 0.4
en la gráfica resultan de comparar una
distribución normal con la distribución de 0.2
los datos. Si existe una tendencia a

0
alinearse como se observa en la gráfica, 10 15 20 25 30 35 40
se puede afirmar que los datos tienen una Vida util
distribución casi normal, lo que es Figura 13: Gráfico de prueba de
suficiente para continuar con los cálculos. normalidad Vida útil.
Fuente: Elaboración propia.
Datos
𝑥̅ = 25.5 H0: p  28
 = 4,76 H1: p < 28 (la vida útil de una vivienda unifamiliar es menos
de 28 años en promedio)
 = 0,05
Como se
conoce : Paso 2: Regla de decisión
Zcrit = 1,645 Rechazar H0 si Valor P  

𝑥̅ −𝜇 25.5−28
z= 𝜎 = 4.76 = -2,23 con este valor buscamos en
√𝑛 √18
la tabla de la distribución z. El valor P = 0,0129
Como el valor P = 0,0129 <  = 0,05
Rechazamos H0 como verdadera, entonces H0 es falsa y H1

verdadera
Queríamos probar que el tiempo de vida útil media es

menor a 28 años (H1) que resultó verdadero, entonces:
Existe evidencia muestral suficiente para probar que “el

promedio de vida útil de una vivienda unifamiliar es menos
de 28 años”
43
3.2. Prueba de hipótesis para la media poblacional con desviación
estándar desconocida.
Cuando no se conoce la desviación estándar de la población, se puede

trabajar con la desviación estándar de la muestra s. La distribución que
emplear sería la distribución t – student.
El estadístico de prueba será:
𝑥̅ −𝜇
t= 𝑠
√𝑛
Donde:
n: Tamaño de muestra.
𝑥̅ : Media muestral.
s: Desviación estándar de la muestra.
: Media hipotética de la población (se toma de las hipótesis)
Ejemplo: Una publicación en un diario local menciona que el gasto per cápita
en diversión en la región Junín es menor a S/.780 mensuales. Esta afirmación es
sometida a prueba al nivel de significancia del 1%. Se toma una muestra
aleatoria de 46 individuos y se logra una media en gastos de S/.768 con una
desviación estándar de S/.63. ¿Se puede asegurar que la afirmación del diario
es cierta? (Jurado, 2017)
Solución:
Se puede verificar que se cumplen los supuestos, de muestra aleatoria y n>30.
Datos
44
H0:  780
𝑥̅ = 768
H1:  < 780 (el gasto per cápita en diversión en la región
s = 63 Junín es menor a S/.780 mensuales)
Como no se Prueba de cola izquierda
conoce :
 = 0,01 Paso 2: Regla de decisión
gl = 45

tcrit = -2.412
-2,412
Valor crítico
Rechace H0 si t ≤ - 2,412

𝑥̅ −𝜇 768−780
t= 𝑠 = 63 = - 1,292
√𝑛 √46
El estadístico de prueba t = -1,292 > - 2,412 contrario a la

regla de decisión, por tanto: Aceptamos H0 como
verdadera, y en consecuencia H1 es falsa
Queríamos probar que el gasto per cápita en diversión en

la región Junín es menor a S/.780 mensuales (H1) que resultó
Falso, entonces:
No existe evidencia muestral suficiente para probar que “el

promedio de vida útil de una vivienda unifamiliar es menos
de 28 años”
45
Tema n° 2. Inferencias acerca de dos proporciones poblacionales.
En el desarrollo de las pruebas se tienen casos en los que la comparación entre grupos
es necesaria. En este acápite trabajaremos la comparación de dos grupos.
1. Prueba de Hipótesis para dos proporciones poblacionales.

Requisitos:
- Las muestras son independientes.
- Se tiene muestras grandes (n  30)
- Las muestras tienen por lo menos 5 éxitos o/y 5 fracasos
Estadístico de prueba:
(𝑝̂1 −𝑝̂2 )−(𝑝1 −𝑝2 )

Z=
1 1
√𝑝̅(1−𝑝̅ )(𝑛 +𝑛 )
1 2
Donde:
p1: proporción de éxitos en la p2: proporción de éxitos en la

población 1 población 2.
𝑝̂1 = Proporción de éxitos en la 𝑝̂2 = Proporción de éxitos en la

muestra 1 muestra 2
#𝑒𝑥𝑖𝑡𝑜𝑠1 #𝑒𝑥𝑖𝑡𝑜𝑠2
𝑝̂1 = 𝑝̂2 =
𝑛1 𝑛2
𝑛1 : Tamaño de la muestra 1 𝑛2 : Tamaño de la muestra 2.
#𝑒𝑥𝑖𝑠𝑡𝑜𝑠1 +#𝑒𝑥𝑖𝑡𝑜𝑠2
𝑝̅ =
𝑛1 +𝑛2
Ejemplo:
MacroSwift acaba de liberar al mercado un nuevo procesador de textos y la

compañía está interesada en determinar si las personas en el grupo de edad
30-39 califican al programa de manera distinta a las del grupo 40-49.
MacroSwift muestreó al azar a 175 personas del grupo 30-39 que compraron el
producto y encontró que 87 calificaron al programa como excelente. También
muestreó a 220 personas del grupo 40-49 y encontró que 94 calificaron al
software como excelente. ¿Hay una diferencia significativa en las
proporciones de personas en los dos grupos de edad que califican al
programa como excelente al nivel  = 0,05? (Levin & Rubin, 2004)
Solución:
46
Dado que se cumplen las condiciones para la prueba (n > 30, más de 5 éxitos
en ambas muestras (87 y 94) y en consecuencia más de 5 fracasos, se puede
ejecutar una prueba de hipótesis para dos muestras.
Datos
30 a 39 40 a 49 Paso1: Planteamiento de hipótesis

n1 = 175 n2 = 220 H0: p1 = p2
#e1= 87 #e2 = 94 H1: p1  p2 (Hay una diferencia significativa en
87 94 las proporciones de personas en los
𝑝̂1 = 𝑝̂2 = dos grupos de edad que califican
175 220
al programa)
Prueba de dos colas

𝑝̂1 = 0,4971 𝑝̂2 = 0,4273
87+94 Paso 2: Regla de decisión

𝑝̅ =
17+220
/2 1– /2

𝑝̅ = 0,4582
-1.96 1.96
Valor crítico Valor crítico
 = 0.05 dos colas

Rechace H0 si |z|  1,96
𝑧𝛼/2 = 1,96
(𝑝̂1 −𝑝̂2 )−(𝑝1 −𝑝2 )

Z=
1 1
√𝑝̅(1−𝑝̅ )(𝑛 +𝑛 )
1 2
(0.4971−0.4273)−0
Z=
1 1
√0.4582(1−0.4582)( + )
175 220
Z = 1,38
El estadístico de prueba |Z|=1,38 < 1,96

contrario a la regla de decisión, por tanto:
Aceptamos H0 como verdadera, y en
consecuencia H1 es falsa
Queríamos probar que existe diferencia entre

los grupos (H1) que resultó Falso, entonces:
47
No existe evidencia muestral suficiente para
probar que “Hay una diferencia significativa
en las proporciones de personas en los dos
grupos de edad que califican al programa”
2. Intervalos para dos proporciones poblacionales.

En el caso de un intervalo el cálculo requiere de la fórmula siguiente:
𝑝̂1 ∗𝑞̂1 𝑝̂2 ∗𝑞̂2

(𝑝1 − 𝑝2 ) = (𝑝̂1 − 𝑝̂2 ) ± 𝑍𝛼/2 *√ +
𝑛1 𝑛2
Donde:
p1: proporción de éxitos en la p2: proporción de éxitos en la

población 1 población 2.
𝑝̂1 = Proporción de éxitos en la 𝑝̂2 = Proporción de éxitos en la

muestra 1 muestra 2
#𝑒𝑥𝑖𝑡𝑜𝑠1 #𝑒𝑥𝑖𝑡𝑜𝑠2
𝑝̂1 = 𝑝̂2 =
𝑛1 𝑛2
𝑞̂1 = 1 - 𝑝̂1 𝑞̂2 = 1 - 𝑝̂2
Ejemplo:
Resolvemos el ejemplo anterior:
MacroSwift acaba de liberar al mercado un nuevo procesador de textos y la

compañía está interesada en determinar si las personas en el grupo de edad
30-39 califican al programa de manera distinta a las del grupo 40-49.
MacroSwift muestreó al azar a 175 personas del grupo 30-39 que compraron el
producto y encontró que 87 calificaron al programa como excelente. También
muestreó a 220 personas del grupo 40-49 y encontró que 94 calificaron al
software como excelente. Un intervalo al 5% de confianza puede brindar
evidencia para afirmar que hay una diferencia significativa en las proporciones
de personas en los dos grupos de edad que califican al programa como
excelente? (Levin & Rubin, 2004)
Solución:
Datos
30 a 39 40 a 49
48
n1 = 175 n2 = 220
#e1= 87 #e2 = 94
𝑃̂1 ∗ 𝑞̂1 𝑃̂2 ∗ 𝑞̂2
87 94
(𝑝1 − 𝑝2 ) = (𝑝̂1 − 𝑝̂2 ) ± 𝑧𝛼/2 *√ +
𝑝̂1 = 𝑝̂2 = 𝑛1 𝑛1
175 220
𝑝̂1 = 0,4971 𝑝̂2 = 0,4273 0.4971(0.5029) 0.4273(0.5727)

(𝑝1 − 𝑝2 ) = (0,4971 − 0,4273) ± 1.96*√ +
175 220
𝑞̂1 = 0,5029 𝑞̂2 = 0,5727
NC = 95% -0,0257 < (𝑝1 − 𝑝2 ) < 0,1653
 = 0,05
/2 = 0,025 Conclusión:

Z/2 = 1,96
El valor de la diferencia de las proporciones esta
entre un valor negativo y otro positivo, por tanto,
el valor más probable es:
/2 /2
1–
-1.96 1.96
(𝑝1 − 𝑝2 ) = 0
𝑝1 = 𝑝2
No podemos afirmar que exista “una diferencia

significativa en las proporciones de personas en
los dos grupos de edad que califican al
programa”
49
Tema n° 3. Inferencias acerca de dos medias independientes.
En este caso los supuestos de normalidad se aplican a los conjuntos de datos que
intervienen en las pruebas. Es necesario verificar entonces:
- Las muestras son grandes (n  30)
- Las muestras son pequeñas y las poblaciones de las que fueron sacadas
son normales.
1. Muestras independientes y se conoce 1 y 2

En este caso se debe usar la siguiente fórmula para calcular el estadístico de
prueba:
(𝜇1 −𝜇2 )−(𝑥̅ 1 −𝑥̅ 2 )

Z=
𝜎 2
𝜎 2
√ 1+ 2
𝑛1 𝑛2
Donde:
1: media en la población 1 2: media en la población 2.
𝑥̅1 = media en la muestra 1 𝑥̅2 = media en la muestra 2
𝜎1 = Desviación estándar en la 𝜎2 = Desviación estándar en la

población 1 población 2
Ejemplo:
Se esperaba que el Día de San Valentín el gasto promedio se igualara entre

hombres y mujeres (USA Today, 13 de febrero de 2006). ¿Hay diferencia en las
cantidades que desembolsan los hombres y las mujeres? El gasto promedio en
una muestra de 40 hombres fue de $135,67 y en una muestra de 30 mujeres fue
de $98,64. Por estudios anteriores se sabe que la desviación estándar
poblacional en el consumo de los hombres es $35 y en el de las mujeres es $20.
(Anderson, Dennis & Thomas, 2012)
Solución:
Datos
Hombres Mujeres
Paso1: Planteamiento de hipótesis
n1 = 40 n2 = 30
𝑥̅ = 135,67 𝑥̅2 = 98,64

H0: 1 = 2
1 = 35 2 = 20
50
H1: 1  2 (Hay diferencia en las cantidades
que desembolsan los hombres
Como se conocen 1 y 2 se
debe usar Z y las mujeres)
Prueba de dos colas
Rechace H0 si Valor P  
(𝑥̅ 1 −𝑥̅ 2 )−(𝜇1 −𝜇2 )

Z=
𝜎 2
𝜎 2
√ 1+ 2
𝑛1 𝑛2
(135,67−98,64)−0
Z=
2 2
√35 +20
40 30
Z = 5,59
En la tabla de valores z el Valor P = 0,0001
El valor P = 0.0001 <  = 0.05, según nuestra

regla de decisión Rechazamos H0 como
verdadera, entonces H1 es verdadera.
Queríamos probar que existe diferencia entre

los grupos (H1) que resultó Verdadero,
entonces:
51
Existe evidencia muestral suficiente para
probar que “Hay diferencia en las cantidades
que desembolsan los hombres y las mujeres”
2. Muestras independientes, no se conoce 1 y 2 pero se asumen iguales

prueba:
(𝜇1 −𝜇2 )−(𝑥̅ 1 −𝑥̅ 2 )
t=
1 1
√𝑆𝑝2 ∗(𝑛 +𝑛 )
1 2
Donde:
𝑠1 = Desviación estándar en la 𝑠2 = Desviación estándar en la

(𝑛1 −1)∗𝑠12 +(𝑛2 −1)∗𝑠22

𝑆𝑝2 = y gl = 𝑛1 + 𝑛2 − 2
𝑛1 +𝑛2 −2
Ejemplo:
En una muestra aleatoria de 61 empresarios británicos, el número medio de

cambios de empleo es 1,91 y la desviación estándar muestral es 1,32. En una
muestra aleatoria independiente de 121 directivos británicos, el número medio
de cambios de empleo es 1,21 y la desviación estándar muestral es 1,13.
Contraste . . . de que el número medio de cambios de empleo es mayor en
el caso de los empresarios británicos que en el de los directivos británicos al
0,01 de significancia. (Newbol, Carlson, & Thorne, 2008, pág. 405)
Solución:
Los supuestos necesarios se cumplen: se tienen muestras grandes (n1 y n2 > 30),
las desviaciones estándar son muestrales no se conocen 1 ni 2:
Datos
Empresarios Directivos
n1 = 61 n2 = 121
H0: 1 = 2
𝑥̅1 = 1,91 𝑥̅2 = 1,21
52
s1 = 1,32 s2 = 1,13 H1: 1 > 2 (el número medio de cambios de
empleo es mayor en el caso de
los empresarios británicos)
No se conoce 1 ni 2 por ello
hacemos una prueba de
igualdad de varianzas:
Prueba de una cola derecha
H0: 𝜎1 = 𝜎2
H1: 𝜎1  𝜎2
=0.01
1– gl = 180
Los grados de libertad son:
2.3488
gln = 61-1 =60 (s mayor)
Valor crítico
gld = 121 - 1 = 120
/2 = 0,025 Rechace H0 si t  2,3488
Se rechazará H0 si F  1.530 Paso 3: Cálculo del estadístico de prueb
(𝑥̅1 −𝑥̅2 )−(𝜇1 −𝜇2 )

2
t=
𝑠𝑚𝑎𝑦𝑜𝑟 1.322 1 1
F= 2 = = 1,365 √𝑆𝑝2 (𝑛 +𝑛 )
𝑠𝑚𝑒𝑛𝑜𝑟 1.132 1 2
(1,91−1,21)−0
t=
F < 1,530 no rechazamos H0 1 1
√1,4321( + )
como verdadera. 61 121
t = 3,725
Asumimos 𝜎1 = 𝜎2
gl = n1 + n2 – 2
gl = 61+121 – 2 = 180
El estadístico de prueba t =3,725 > 2,3488, por
tanto: Rechazamos H0 como verdadera y en
(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22 consecuencia H1 es verdadera
𝑆𝑝2 =
𝑛1 +𝑛2 −2
(61−1)1.322 +(121−1)1.132
𝑆𝑝2 =
61+121−2 Paso 5: Conclusión:
Queríamos probar que el cambio medio en

𝑆𝑝2 =1,4321 empresarios era superior al de los directivos
(H1) que resultó Verdadero, entonces:
Existe evidencia muestral suficiente para probar

que “el número medio de cambios de empleo
es mayor en el caso de los empresarios
británicos que en el de los directivos británicos”
Si se trata de un intervalo de confianza se puede usar:
1 1
(𝜇1 − 𝜇2 ) =(𝑥̅1 − 𝑥̅2 ) ± 𝑡𝛼/2 * √𝑆𝑝2 ( + )
𝑛1 𝑛2
53
3. Muestras independientes, no se conoce 1 y 2 pero no se asumen
iguales

prueba:
(𝜇1 −𝜇2 )−(𝑥̅1 −𝑥̅2 )

t=
𝑠 2𝑠 2
√( 1 + 2 )
𝑛1 𝑛2
Donde:
𝑠1 = Desviación estándar en la 𝑠2 = Desviación estándar en la

(𝐴+𝐵)2 𝑆12 𝑆22

gl = 𝐴2 𝐵2
; A= B=
+ 𝑛1 𝑛2
𝑛1 −1 𝑛2 −1
Ejemplo:
El Consejo Universitario compara las puntuaciones obtenidas en el examen de

aptitudes escolares (SAT, por sus siglas en inglés) con base en el nivel máximo
de estudios de los padres de los sustentantes. La hipótesis de investigación
indica que los estudiantes cuyos padres tienen un nivel educativo más alto
obtendrán mejores puntuaciones en el SAT. A continuación, se presentan las
puntuaciones obtenidas en el examen verbal en dos muestras independientes
de estudiantes. (Anderson, Dennis & Thomas, 2012)
Tabla 3:
Puntuaciones de examen verbal

de padres.
Padres de los estudiantes
Con licenciatura Con bachillerato
485 487 472 492
534 533 480 478
650 526 479 485
554 410 486 495
550 515 518 490
572 608 524 515
497 448
625 469
Fuente: Anderson201, 2)
54
Con  = 0,05, ¿cuál es su conclusión?
Solución:
Como las muestras son pequeñas (n1 y n2 < 30), las desviaciones estándar son
muestrales no se conocen 1 ni 2, debemos demostrar que las poblaciones
son normales. Un gráfico p-p para cada grupo:
Figura 14: Gráficos P-P de normalidad para las muestras 1 y 2.

En ambos casos se aprecia que los puntos se acercan bastante a una recta.
Por tanto, se asume que ambas poblaciones son casi normales, lo que es
suficiente para seguir con los cálculos.
Datos
Empresarios Directivos Paso1: Planteamiento de hipótesis

nL = 16 nB = 12
H0: L = B
𝑥̅𝐿 = 528,938 𝑥̅𝐵 = 492,833
H1: L > B (los estudiantes cuyos padres
SL = 64,449 SB = 17,130 tienen un nivel educativo más
alto obtendrán mejores
hacemos una prueba de puntuaciones en el SAT)
Prueba de una cola derecha

H0: 𝜎1 = 𝜎2
H1: 𝜎1  𝜎2

=0.05
gln = 16-1 =15 (s mayor) 1– gl = 17
gld = 12 - 1 = 11 1.740
Valor crítico
/2 = 0,025
Rechace H0 si t  1,740
55
Se rechazará H0 si F  3.3299

2
𝑠𝑚𝑎𝑦𝑜𝑟 64.4492
F= 2 = = 14,155 (𝑥̅𝐿 −𝑥̅ 𝐵 )−(𝜇𝐿 −𝜇𝐵 )
𝑠𝑚𝑒𝑛𝑜𝑟 17.1302 t=
𝑠2 𝑠 2
√ 1+ 2
𝑛1 𝑛2
F > 3.3299 rechazamos H0 como
verdadera.
(528,938−492,833)−0
t=
2 2
√64,449 +17,130
16 12
Asumimos 𝜎1  𝜎2
2
𝑠𝐵 64.4492
A= = = 259,605
𝑛𝐵 16
t = 2,142
𝑠𝐿2 17.1302
B= = = 24,453
𝑛𝐿 12
(𝐴+𝐵)2
gl = 𝐴2 𝐵2 Paso 4: Decisión respecto de H0
+
𝑛1 −1 𝑛2 −1
El estadístico de prueba t =2,142 > 1,740, por
(259.605+24.453)2 tanto: Rechazamos H0 como verdadera y en
gl = 259.6052 24.4532
+ consecuencia H1 es verdadera
16−1 12−1
gl = 17,744  17 Paso 5: Conclusión:
Queríamos probar que los hijos de padres con

licenciatura tendrán mejores notas en el
STA(H1) que resultó Verdadero, entonces:
Existe evidencia muestral suficiente para probar

que “los estudiantes cuyos padres tienen un
nivel educativo más alto obtendrán mejores
puntuaciones en el SAT”
Si se trata de un intervalo se puede calcular con:
𝑆12 𝑆2
(𝜇1 − 𝜇2 ) =(𝑥̅1 − 𝑥̅2 ) ± 𝑡𝛼/2 * √ + 𝑛2
𝑛1 2
3.1. Intervalo para la diferencia de medias con Muestras independientes,

no se conoce 1 y 2
Ejemplo
En una muestra aleatoria de 61 empresarios británicos, el número medio de

cambios de empleo es 1,91 y la desviación estándar muestral es 1,32. En una
muestra aleatoria independiente de 121 directivos británicos, el número medio
de cambios de empleo es 1,21 y la desviación estándar muestral es 1,13.
Realice un intervalo de confianza al 99% ¿El número medio de cambios de
empleo es mayor en el caso de los empresarios británicos que en el de los
directivos británicos?. (Newbol, Carlson, & Thorne, 2008, p. 405)
56
Solución:
Los supuestos necesarios se cumplen: se tienen muestras grandes (n1 y n2 > 30),
las desviaciones estándar son muestrales no se conocen 1 ni 2:
Datos
Empresarios Directivos
n1 = 61 n2 = 121
𝑥̅1 = 1,91 𝑥̅2 = 1,21
s1 = 1,32 s2 = 1,13
1 1
(𝜇1 − 𝜇2 ) =(𝑥̅1 − 𝑥̅2 ) ± 𝑡𝛼/2 * √𝑆𝑝2 ( + )
𝑛1 𝑛2
hacemos una prueba de
H0: 𝜎1 = 𝜎2 1 1
(𝜇1 − 𝜇2 ) =(1,91 − 1,21) ± 2,603 * √1,4321 ( + )
61 121
H1: 𝜎1  𝜎2
gln = 61-1 =60 (s mayor)

0,211 < (𝜇1 − 𝜇2 ) < 1,189
gld = 121 - 1 = 120
/2 = 0,025 El verdadero valor de la diferencia de medias

Se rechazará H0 si F  1.530 Tabla está entre 0,211 y 1,189.
A-4
Como los dos extremos del intervalo son
2
𝑠𝑚𝑎𝑦𝑜𝑟 1.322 positivos se puede afirmar que la diferencia
F= 2 = = 1,365
𝑠𝑚𝑒𝑛𝑜𝑟 1.132 tendrá siempre como resultado un valor
F < 1,530 no rechazamos H0
Positivo:
como verdadera.
Asumimos 𝜎1 = 𝜎2
(𝜇1 − 𝜇2 ) = +
gl = n1 + n2 – 2
𝜇1 > 𝜇2
gl = 61+121 – 2 = 180
/2 = 0.005
Entonces con un nivel de confianza de 99%
𝑡𝛼/2 = 2,603
podemos afirmar que el cambio medio de
empleo en los Empresarios es superior al de
(𝑛1 −1)𝑠12 +(𝑛2 −1)𝑠22
Directivos en Gran Bretaña.
𝑆𝑝2 =
𝑛1 +𝑛2 −2
(61−1)1.322 +(121−1)1.132
𝑆𝑝2 =
61+121−2
𝑆𝑝2 =1,4321
57
Tema n° 4. Inferencias de dos medias con muestras dependientes.
En este caso se debe usar la siguiente fórmula para calcular el estadístico de prueba:
𝑑̅ −𝜇𝑑
t= 𝑆𝑑
√𝑛
Donde:
𝑑̅ : Media de las diferencias obtenidas de los pares de datos en la muestra.
𝜇𝑑 : Media Hipotética de las diferencias en la población.
𝑆𝑑 : Desviación estándar muestral de las diferencias.
n : Número de pares de datos en la muestra.
Ejemplo:
El año pasado entró en vigor la nueva reglamentación de la declaratoria de

impuestos y sus deducciones. Una de las formas de deducción se considera los
gastos realizados en restaurantes. Un estudio realizado por IP Consultores sobre los
gastos cargados a tarjetas de débito antes de la norma y durante su aplicación
brindó los siguientes resultados:
Tabla 4:
Datos comparación de gastos en restaurants
Usuario 1 2 3 4 5 6 7 8 9 10 11 12
Gasto Antes 553 250 160 194 196 247 303 286 356 415 438 265
Gasto Actual 412 569 719 347 337 164 344 786 446 154 709 291
Fuente: Jurado, 2017.
Según esta información y considerando que las diferencias proceden de una

población poco sesgada, ¿los gastos en restaurantes se han incrementado desde
que se aplicó esta nueva norma? (Jurado, 2017)
Solución
Como sólo se tiene 12 usuarios de tarjetas de débito en la muestra, y por cada uno
de ellos se da dos datos (antes y después), se reconoce que se tiene datos
emparejados (relacionados).
Se deben encontrar las diferencias por cada par de datos:
Usuario 1 2 3 4 5 6 7 8 9 10 11 12
Gasto Antes 553 250 160 194 196 247 303 286 356 415 438 265
Gasto Actual 412 569 719 347 337 164 344 786 446 154 709 291
58
D 141 -319 -559 -153 -141 83 -41 -500 -90 261 -271 -26
Al tener una muestra de n = 12 se debería probar la normalidad de los datos por lo

menos con un gráfico de normalidad P-P, pero como nos dicen que la población
de las diferencias es poco sesgada, consideraremos que es casi normal, lo que es
suficiente para seguir con los cálculos:
En el caso de H1: El gasto se ha incrementado, significa que ahora el gasto es mayor:
antes < actual
Despejando: antes - actual < 0
Se puede escribir:
H1: 𝝁𝒅 < 0 La media de las diferencias en la población es cero
Datos

𝑑̅ = - 134,583
H0: d = 0
sd = 246,608
H1: d < 0 (los gastos en restaurantes se han
incrementado desde que se aplicó esta
gl =12 – 1 = 11 nueva norma)
 = 0,05 Prueba de una cola izquierda
t = -1.796
=0.05
gl = 11 1–
- 1.796
Valor crítico
Rechace H0 si t  -1,796
𝑑̅ −𝜇𝑑
t= 𝑆𝑑
√𝑛
−134,583−0
t= 246,608
√12
59
t = - 1,890
El estadístico de prueba t =-1,890 < 1,796, por tanto:

Rechazamos H0 como verdadera y en consecuencia
H1 es verdadera
Queríamos probar que los gastos se incrementaron (H1)

que resultó Verdadero, entonces:
Existe evidencia muestral suficiente para probar que “los

gastos en restaurantes se han incrementado desde que
se aplicó esta nueva norma”
Si desea obtener un intervalo se puede usar:

𝑆𝑑
𝜇𝑑 = 𝑑̅ ± 𝑡𝛼/2 *
√𝑛
60
De la teoría a la práctica:
LECTURA N° 2:
Una mirada a los programas sociales (tomado de Estadística inferencial
por Jurado, 2017
La inclusión social es parte fundamental del nuevo discurso político. Aquí se describen
los nuevos programas sociales a la luz de la experiencia de los anteriores gobiernos.
El Perú sigue escalando posiciones en el ranking de competitividad del Foro Económico

Mundial. Ello obedece a las recetas ya conocidas: macroeconomía estable, inflación
controlada y menores barreras para iniciar negocios. Sin embargo, todavía existe un
camino largo por recorrer. El mismo foro alerta sobre la necesidad de una mayor
institucionalidad, infraestructura básica, calidad de la educación, entre otros. Es decir,
el aumento sostenido de la competitividad estará ligado a la eficiencia de las políticas
públicas en la distribución de los beneficios del crecimiento económico.
“Por lo menos ésa es la percepción que los peruanos proporcionaron en una encuesta
realizada por Ipsos APOYO
Opinión y Mercado, en que la Tabla 5: ¿Cuáles son los factores más importantes
para conseguir más inclusión social?
inversión en educación y la
promoción del empleo figuran
como los dos factores más
importantes para conseguir la
inclusión social; se deja en tercer
lugar la implementación de
programas para los pobres. Así, la
percepción de la política social
dejó de ser asistencialista para
dar paso a un enfoque
productivo, en que la educación
y el empleo asegurarán que las poblaciones más excluidas cuenten con una mejor
posición competitiva para superar la pobreza” (Alfaro & Macera, 2011).
La encuesta menciona considera un porcentaje total de 39% cree que el factor más
importante para conseguir más inclusión social es la promoción de la creación de
empleos. ¿Esto nos podría dar la seguridad de que un 40% está de acuerdo con este
factor como el más importante?
¿Cuán significativa es la muestra tomada para este estudio?
61
Actividad N° 2: Auto evaluación - Pruebas de Hipótesis (cuestionario en
línea)
Ingrese al Aula Virtual >> Unidad 2 >> Autoevaluación
Foro 2:
“De forma breve plantee y describa un problema de investigación y su hipótesis
General de diseño experimental en el ámbito de su desempeño laboral. Detalle
la muestra, y explique el procedimiento necesario para probar la hipótesis”
 Ingrese al Aula Virtual, a la pestaña de la 2 Unidad >> Foro 2:
 Lea la consigna y las instrucciones.
 Escriba su respuesta a la pregunta tomando en cuenta las indicaciones
de la consigna.
62
GLOSARIO DE LA UNIDAD II:
Varianza poblacional: Promedio de la distancia total entre cada observación (en la
población) y la media (Newbol, Carlson, & Thorne, 2008, p. 57).
Desviación estándar poblacional: Desviación típica (estándar) poblacional, , es la raíz

cuadrada (positiva) de la varianza poblacional (Newbol, Carlson, & Thorne, 2008, p 57).
Desviación estándar muestral: Es un tipo de desviación o variación de los datos

promedio de los valores (muestrales) con respecto a la media (Triola, 2009, p. 94).
Hipótesis: “es una aseveración o afirmación acerca de una propiedad de una

población” (Triola, 2009, p. 386).
Prueba de Hipótesis: “es un procedimiento estándar para probar una aseveración

acerca de una propiedad de una población” (Triola, 2009, p. 386).
Distribución Chi (Ji) cuadrada: En una población distribuida normalmente con varianza
2, suponga que seleccionamos al azar muestras independientes de tamaño n y, para
cada muestra, calculamos la varianza muestral s2 (que es el cuadrado de la desviación
estándar muestral s). El estadístico muestral 2 = (n – 1)s2 / 2 tiene una distribución
llamada distribución chi cuadrada (Triola, 2009, p. 437).
Distribución F Distribución de las probabilidades continua de una variable aleatoria que

tiene un comportamiento muy cercano a la distribución muestral del cociente de las
varianzas (Triola, 2009).
Nivel de significancia Valor del área crítica o de rechazo de H0, es también el valor de
la probabilidad de cometer un error de tipo I (Triola, 2009, p. 392).
Potencia de una prueba: Es la medida de la probabilidad de no cometer el error de tipo

II. Es decir, es iguala 1- (Triola, 2009, p. 400).
Proporción Es la relación entre la cantidad de éxitos y el total muestreado. Se puede leer

como un porcentaje si se le multiplica por 100. Puede existir una proporción de “éxitos”
como complementariamente una proporción de “fracasos” (Triola, 2009, p. 270).
Bibliografía de la Unidad 2
programas-sociales/


CENGAGE Learning.
63

McGraw Hill.



Jurado, S. (2017). Curv de la distribución F [figura]. Huancayo: Universidad Continental.

Continental.

2019, de El Pa´s:

CENGAGE learning.

true0
64

estratificado/

e_Student
65
UNIDAD 3:
ANÁLISIS DE VARIANZA, EXPERIMENTOS MULTINOMIALES
Y TABLAS DE CONTINGENCIA Y ESTADÍSTICA NO
PARAMÉTRICA

pruebas de hipótesis para la media, proporción, varianza y desviación estándar poblacional a
partir de una muestra aleatoria y dos muestras aleatorias.
Tema n° 1. Análisis de la 1. Identifica las clases de Valora la importancia de
varianza. hipótesis. las pruebas de hipótesis e
1. ANOVA de un factor 2. Plantea pruebas de interpreta correctamente
2. ANOVA de dos factores. hipótesis. los resultados para una
A. Diseño completamente 3. Identifica correctamente buena toma de
aleatorio los valores críticos para la decisiones.
B. Diseño AxB aplicación de las pruebas
Tema n° 2. Experimentos de hipótesis.
multinomiales y tablas de 4. Determina el
contingencia procedimiento pertinente
1. Bondad de ajuste de la prueba de hipótesis.
2. Tablas de contingencias
5. Realiza la interpretación
A. Prueba de
del resultado de la prueba
independencia.
de hipótesis
B. Prueba de
homogeneidad.
Tema n° 3. Estadística no
paramétrica: Prueba de Actividad 1:
rangos con signo de
Parcita del foro de discusión
Wilcoxon para datos
Importancia de las pruebas
apareados y Prueba de la
de hipótesis.
suma de rangos de Wilcoxon
para dos muestras Actividad 2:
independientes.
1. Prueba de rangos con signo Evaluación del tema N° 1,
de Wilcoxon para datos Tema N° 2 y el Tema N° 3
apareados
2. Prueba de la suma de rangos
de Wilcoxon para dos
muestras independientes.
Tema n° 4. Estadística no
paramétrica: Prueba de
Kruskal –Wallis y
Correlación de rangos de
Spearman.
1. Prueba de Kruskal –Wallis
2. Correlación de rangos de
Spearman
66
Introducción
¿Cómo podemos probar que una campaña de incentivos puede brindarnos resultados
comprobados de eficiencia en un mercado con grupos diferenciados de clientes?
¿Cómo podemos asegurar que durante el desarrollo de las actividades de producción
existe una considerable mejora real en la producción y que método nos sería más útil?
Cuestiones como éstas tiene una respuesta en la primera parte de esta unidad. El análisis
de la varianza nos permite realizar pruebas de hipótesis con más de dos medias lo que
permite comparar por ejemplo el efecto de tres o más formas de incentivos de compra
y su impacto en las ventas, los niveles de compra entre grupos de clientes diferenciados
por sus estilos de vida.
En la segunda parte desarrollamos la exposición de procedimientos estadísticos que

permitirán probar hipótesis como por ejemplo el caso de compras de un artículo en
cinco presentaciones, estas tienen ventas iguales en frecuencia. También se incluyen
explicaciones de cómo determinar la independencia de dos variables cualitativas
como Grado de satisfacción y Cultura Organizacional. Se considera además dentro de
este acápite las explicaciones de cómo desarrollar una prueba de homogeneidad que
nos muestra como las categorías de una variable pueden llegar a tener una distribución
de frecuencias iguales en las categorías de otra.
Una tercera sección considera el inicio de la exposición de métodos no paramétricos

de pruebas de hipótesis. Estas pruebas consideran los casos en los que no se cumplen
las condiciones de normalidad de las pruebas desarrolladas en la Unidad 1 y 2, sobre
todo cuando no se tiene oportunidad de muestras grandes.
El autor
67
Tema n° 1. Análisis de la Varianza.
En el desarrollo de pruebas de hipótesis, este procedimiento se aplica cuando se tiene
3 o más grupos que comparar mediante una variable cuantitativa. Los grupos se
encuentran delimitados por las formas en que se aplica una variable.
En el caso de experimentación hablaríamos de una variable independiente y otra

dependiente.
La variable independiente (tratamiento) es la que manipulamos de tal manera que

debido a la forma en que se aplica en la población, genera una división. Esta
manipulación se encuentra en el nivel de más de dos grados, es decir existe tres o más
formas de aplicar la variable (tratamiento) en la población como, por ejemplo, como
explica (Hernandez, Fernandez, & Baptista, 2014 p. 235) ” Supongamos . . . . que
queremos analizar el posible efecto del contenido antisocial por televisión sobre la
conducta agresiva de ciertos niños. Podría hacerse que un grupo fuera expuesto a un
programa de televisión sumamente violento (con presencia de violencia física y verbal);
un segundo grupo se expusiera a un programa medianamente violento (sólo con
violencia verbal), y un tercer grupo se expusiera a un programa sin violencia. En este
ejemplo, se tendrían tres niveles o cantidades de la variable independiente, lo cual se
representa de la siguiente manera:
X1 (programa sumamente violento)
X2 (programa medianamente violento)
X3 (programa sin violencia, prosocial):
Entonces tenemos tres formas de aplicar el contenido violento.
La variable dependiente es en la que se realizan las mediciones, es decir sirve para

mostrar las reacciones de los sujetos al contenido violento. En el caso del ejemplo, se
mediría el nivel de sociabilidad.
Requisitos
El desarrollo de la prueba necesita de los siguientes requisitos:
A. Los sujetos son asignados a los grupos de manera aleatoria.

B. Las poblaciones son normales o n > 30.
C. Las varianzas de las poblaciones son semejantes o no muy diferentes.
Distribución F:
El estadístico de prueba es:

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑜𝑐𝑎𝑠𝑖𝑜𝑛𝑎𝑑𝑎 𝑝𝑜𝑟 𝑒𝑙 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 𝐶𝑀𝑇𝑟
F= =
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑜𝑐𝑎𝑠𝑖𝑜𝑛𝑎𝑑𝑎 𝑝𝑜𝑟 𝑒𝑙 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜 𝐶𝑀𝐸
Este estadístico se ajusta una distribución F, de la que podemos encontrar valores críticos
en la tabla VI.
Esta distribución no es simétrica, solo tiene valores positivos.
68
Figura 15: Curva de la distribución F. Tomado de Jurado, 2017 (Jurado, 2017)
En la tabla VI solo se presentan valores de áreas de cola derecha.
1. ANOVA de un Factor, Vía o Tratamiento.

Se trata de una prueba de hipótesis con solo una variable independiente (factor)
que divide a la población. Para dar solución a la prueba de hipótesis se estila
desarrollar el cálculo del estadístico de prueba usando una tabla en la que se
resumen los resultados previos de las varianzas. Por ello el nombre de ANOVA (Análisis
Of variance).
1.1. Tabla ANOVA

Tabla 6:
Tabla ANOVA de un factor. Formulas
Suma de Grados de Cuadrados

Origen F
cuadrados libertad medios
𝑆𝐶𝑇𝑟 𝐶𝑀𝑇𝑟
Tratamiento SCTr gln = K – 1 CMTr =
𝑔𝑙𝑛 𝐶𝑀𝐸
𝑆𝐶𝐸
Error SCE gld =N – K CME =
𝑔𝑙𝑑
Total SCT glT = N – 1
Fuente: Jurado, 2017
1.2. Cálculo de variaciones

Para el cálculo de las variaciones se empleará:
2
SCTr = ∑(𝑥̅𝑗 − 𝑥̿ ) 𝑛𝑗 SCE = ∑(𝑛𝑗 − 1) ∗ 𝑆𝑗2 SCT = SCTr + SCE
Donde:
69
nj: Tamaño de la muestra j.
𝑥̅𝑗 : Media de la muestra j.
𝑆𝑗 : Desviación estándar de la muestra j.
𝑥̿ : Media de todos los datos (uniendo todas las muestras).
k: Número de muestras.
Ejemplo:
Un fabricante de cereales tiene que elegir entre tres colores para las cajas de
cereales: rojo, amarillo y azul. Para averiguar si el color influye en las ventas, se
eligen 16 tiendas de tamaño parecido. Se envían cajas rojas a 6 de estas
tiendas, cajas amarillas a 5 y cajas azules a los 5 restantes. Después de unos
días, se comprueba el número de cajas vendidas en cada tienda. La tabla
adjunta muestra los resultados (en decenas de cajas) obtenidos. (Newbol,
Carlson & Thorne, 2008)
Tabla 7.
Datos Cereales
Rojo Amarillo Azul
43 52 61
52 37 29
59 38 38
76 64 53
61 74 79
81
Fuente: Newbol, 2008
a. Determine si existe una diferencia significativa en la preferencia de los

colores.
b. Si se prueba la diferencia, determine cuál de los colores es más preferido.
Solución:
H0: R = Am = Az

H1: Por lo menos un color tiene un nivel de preferencia diferente en promedio.
Paso2: Estadístico de prueba:
Desarrollamos el cálculo de las sumatorias:
Rojo Amarillo Azul
70
nj 6 5 5
𝑥̅𝑗2 62 53 52
sj 14.339 16.155 19.596
𝑥̿ = 56.0625 K=3 N = 16
SCTr = (62 − 56,0625)2 (6) + (53 − 56,0625)2 (5) + (52 − 56,0625)2 (5)= 340,9375
SCE = (6 − 1)14,3392 + (5 − 1)16,1552 + (5 − 1)19,5962 = 3608,00384
Origen SC gl CM F
Tratamiento 340,9375 2 170,4688 0,6142
Error 3608,00384 13 277,5388
Total 3948,94134 15
Paso3: Regla de decisión:
En la tabla VI  = 0,05 con gln = 2 y gld = 13
Valor Crítico = 3,8056
Rechazar H0 si F  3,8056
Paso4: Decisión respecto de H0:
Como F = 0,6142 < 3,8056
Aceptamos H0 como verdadera, por tanto, H1 es falsa.
Paso5: Conclusión:
Como queríamos probar que había diferencia entre las medias H1, y esta
resultó ser falsa:
No existe evidencia para probar que “existe una diferencia significativa en la

preferencia de los colores”
2. ANOVA de dos Factores, Vías o Tratamientos.

2.1. Diseño totalmente aleatorio (aditivo).
Cuando el análisis considera una segunda variable independiente de la que
se sospecha existe influencia en la variable dependiente.
2.1.1. Tabla ANOVA
71
Tabla 8:
ANOVA de dos factores diseño aditivo. Fórmulas
Origen SC Gl CM F
𝑆𝐶𝐹 𝐶𝑀𝐹
Filas SCF glf = L – 1 CMF =
𝑔𝑙𝑓 𝐶𝑀𝐸
𝑆𝐶𝐶 𝐶𝑀𝐶
Columnas SCC glc = K – 1 CMC =
𝑔𝑙𝑐 𝐶𝑀𝐸
𝑆𝐶𝐸
Error SCE gle CME =
𝑔𝑙𝑒
Total SCT N–1
2.1.2. Cálculo de variaciones

Para el cálculo de las variaciones se empleará:
2
SCF = ∑(𝑥̅𝑖 − 𝑥̿ )2 𝑛𝑖 SCC = ∑(𝑥̅𝑗 − 𝑥̿ ) 𝑛𝑗 SCT = N*𝜎𝑇𝑜𝑡𝑎𝑙
2
Donde:
Columnas
Filas
nj: Tamaño de la muestra en la
ni: Tamaño de la muestra en la fila i.
columna j.
𝑥̅𝑖 : Media de la muestra en la fila i.
𝑥̅𝑗 : Media de la muestra j.
𝑆𝑖 : Desviación estándar de la
𝑆𝑗 : Desviación estándar de la
muestra en la columna i.
muestra de la columna j.
L: N° de filas
K: Número de columnas.
𝑥̿ : Media de todos los datos (uniendo todas las muestras).
N: Total de datos (uniendo todas las muestras)

2
𝜎𝑇𝑜𝑡𝑎𝑙 : Desviación estándar poblacional de todos los datos.
Ejemplo:
El director de WARTA, Warren Area Transit Authority, considera ampliar el

servicio de autobuses del suburbio de Starbrick al distrito comercial central de
Warren. Se consideran cuatro rutas de Starbrick al centro de Warren: 1) por la
carretera 6, 2) por el West End, 3) por Hickory Street Bridge, y 4) por la ruta 59.
El director realizó varias pruebas para determinar si había una diferencia entre
los tiempos de recorrido medios por las cuatro rutas. Como habrá muchos
conductores distintos, la prueba se diseñó para que cada conductor manejara
a lo largo de todas ellas. A continuación, se presenta el tiempo del recorrido,
en minutos, de cada combinación conductor-ruta.
72
Tabla 9.
Tiempos de recorrido Tiempo de recorrido de Starbrick a
Warren (minutos)
Carretera West Hickory Ruta

Conductor
6 End St. 59
Deans 18 17 26 22
Snaverly 16 23 23 21
Ormson 17 21 26 27
Zollaco 19 22 29 25
Filbeck 18 23 28 28
Fuente: Lind, Marchal & Wathe, 2012.
A un nivel de significancia de 0.05, ¿hay alguna diferencia entre los tiempos de

recorrido medios a lo largo de las cuatro rutas? Si elimina el efecto de los
conductores, ¿hay alguna diferencia entre los tiempos de recorrido medios?
(Lind, Marchal & Wathe, 2012)
Solución
Si realizamos solo una prueba con las rutas es probable que esta variable no
sea la única que influye en los tiempos, por ello se considera una variable
interviniente como es el factor humano (conductor).
Desarrollamos los cálculos previos:
Carretera West Hickory Ruta

Conductor ni 𝑥̅𝑖 𝑆𝑖
6 End St. 59
Deans 18 17 26 22 4 20,75 4,1130
Snaverly 16 23 23 21 4 20,75 3,3040
Ormson 17 21 26 27 4 22,75 4,6458
Zollaco 19 22 29 25 4 23,75 4,2720
Filbeck 18 23 28 28 4 24,25 4,7871
nj 5 5 5 5 N= 20
𝑥̅𝑗 17,6 21,2 26,4 24,6 𝑥̿ = 22,45

2
𝑆𝑗 1,1402 2,49 2,3022 3,0496 𝜎𝑡𝑜𝑡𝑎𝑙 15,75
SCF = (20,75 − 22,45)2 (4) + (20,75 − 22,45)2 (4) + (22,75 − 22,45)2 (4) + (23,75 −
22,45)2 (4) + (24,25 − 22,45)2 (4)
SCF = 43.2
73
SCC = (17,6 − 22,45)2 (5) + (21,2 − 22,45)2 (5) + (26,4 − 22,45)2 (5) + (24,6 −
22,45)2 (5)
SCC = 226.55
SCT = 20(15,75)
SCT = 314.95
SCE = SCT – (SCF + SCC)
SCE = 314,95 – (43,2 + 226,55)
SCE = 45.2
Tabla ANOVA
Origen SC Gl CM F
Filas 43,20 4 10,800 2,867
Columnas 226,55 3 75,517 20,049
Error 45,20 12 3,767
Total 314,95 19
Filas = Conductores Columnas = Rutas
Paso1: Paso1:
H0: 1 = 2 = 3 = 4 = 5 H0: 1 = 2 = 3 = 4
H1: Por lo menos un chofer tiene un H1: Por lo menos una ruta tiene un
nivel tiempo diferente en promedio. nivel tiempo diferente en promedio.
Paso2: Regla de decisión: Paso2: Regla de decisión:
Con  = 0.05, gln = 4 gld = 12 el valor Con  = 0.05, gln = 3 gld = 12 el valor
crítico en la tabla VI es 3.2592 crítico en la tabla VI es 3.4903
Rechazar H0 si F  3.2592 Rechazar H0 si F  3.4903
Paso3: Estadístico de prueba Paso3: Estadístico de prueba
De la tabla ANOVA: De la tabla ANOVA:
F = 2.867 F = 20.049
74
Paso4: Decisión respecto de H0: Paso4: Decisión respecto de H0:
Como F < 3.2592 Como F > 3.2592
Aceptamos H0 como verdadera. Rechazamos H0 como verdadera.
Paso5: Conclusión:
Paso5: Conclusión:
No existe evidencia muestral

Existe evidencia muestral suficiente
suficiente para probar que exista
para probar que existen diferencias
diferencias en los tiempos de
en los tiempos de recorrido debido
recorrido debido a la variable
a la variable Ruta.
Conductor.
Se entiende entonces que en el caso de Columnas (Ruta) se debe realizar un

proceso de comparación de medias que denominamos:
2.2. Pruebas Múltiples:

Estás pruebas se realizan solo si se ha rechazado H0 y en consecuencia se
afirma que por los menos una de las medias es diferente.
Existen muchos métodos, pero el que usaremos aquí será el de LSD de Fisher:
Regla de decisión:
Se emplea la distribución “t” con gl = N – K
Rechazar H0 si |𝑥̅𝑖 − 𝑥̅𝑖 |  LSD
Donde:
1 1
LSD = 𝑡𝛼/2 √𝐶𝑀𝐸 ( + )
𝑛 𝑛
𝑖 𝑗
En el caso de los datos de WARTA, como en el caso de las Rutas se rechazó

H0, entonces aplicaremos este método:
Cálculo de LSD:
𝑡𝛼/2 = 2.120 ( = 0,05 y gl = 20 – 4 = 16), de la tabla ANOVA CME = 3,767
1 1
LSD = 𝑡𝛼/2 √𝐶𝑀𝐸 ( + )
𝑛 𝑛
𝑖 𝑗
1 1
LSD = 2,120 √3.767 ( + )
5 5
LSD = 2,602
75
Se calcula solo un valor ya que se tienen muestras del mismo tamaño (n j=5)
Pruebas Múltiples:
H0: 1 = 2; |𝑥̅1 − 𝑥̅2 | = 3,6 > LSD Rechazamos H0  1  2
H0: 1 = 4; |𝑥̅1 − 𝑥̅2 | = 7 > LSD Rechazamos H0  1  4
H0: 3 = 4; |𝑥̅1 − 𝑥̅2 | = 1,8 < LSD Rechazamos H0  3 = 4
Podemos afirmar que las medias diferentes son 1, 2 y 4 solo son iguales 3 y
4. Una gráfica con las medias de cada grupo podría orientarnos mejor:
30
26.4
24.6
25
21.2
20
17.6
15
CAR R E T E R A 6 WEST END HICKORY ST. RUTA 59
Figura 16. Gráfica de medias: tiempos de recorrido, Tomado de Estadística

aplicada a los negocios y la economía, por Daniel Lind, William Marchal &
Wathe Sans, 2012.
Podemos observar que el tiempo menor es el de la ruta de la Carretera 6.
2.3. Diseño A x B (con interacción).

En este tipo de diseño se analiza además de los efectos principales de las dos
variables independientes, el efecto de la Interacción de las dos variables
cuando se conjugan sobre las poblaciones.
2.3.1. Tabla ANOVA
76
Tabla 10:
Tabla ANOVA de dos factores diseño AxB - Fórmulas
Origen SC gl CM F
𝐶𝑀𝐹
Filas (A) SCF L–1 CMF
𝐶𝑀𝐸
𝐶𝑀𝐶
Columnas (B) SCC K–1 CMC
𝐶𝑀𝐸
𝐶𝑀𝐴𝑥𝐵
A x B (interacción SCAxB (L-1)(K-1) CMAxB
𝐶𝑀𝐸
Error SCE gle CME
Total SCT N–1
2.3.2. Cálculo de las varianzas
2 2
(∑𝐾 (∑𝐿
𝑗 𝑥𝑗 )
𝑖 𝑥𝑖 )
SCF = ∑𝐿𝑖 –C SCC = ∑𝐾
𝑗 –C SCAxB = SCM – (SCF + SCC)
𝑛𝑖 𝑛𝑗
2
(∑𝑘 𝐿
𝑗 ∑𝑖 𝑥𝑖𝑗 )
SCM = –C SCT = N*𝜎𝑇𝑜𝑡𝑎𝑙
2
SCE = SCT – (SCF + SCC + SCAxB)
𝑛𝑖𝑗
Donde:
N: Total de datos uniendo todas las muestras.
L: Número de muestras en las filas.
K: Número de muestras en las columnas.
C = (∑𝑁
𝑖 𝑥𝑖 ) /N
2
2
𝜎𝑇𝑜𝑡𝑎𝑙 : Desviación estándar poblacional de todos los datos.
Ejemplo:
Una empresa de ventas por catálogo realizó un experimento factorial para

probar el efecto del tamaño de un anuncio de revista y su diseño sobre el
número de solicitudes de catálogos recibido (datos en miles). Se pusieron a
consideración tres diseños publicitarios y dos tamaños. Los datos obtenidos se
presentan a continuación. Utilice el procedimiento A NOVA para un diseño
factorial a fin de probar si hay efectos significativos debido al tipo de diseño,
al tamaño del anuncio o a la interacción. Use  = 0.05. (Anderson, Dennis &
Thomas, 2012)
77
Tabla 11:
Datos Efecto tamaño de anuncio
Diseño Pequeño Grande
8 10 12 13
A
12 11 8 9
21 23 17 18
B
14 20 30 28
10 15 18 19
C
18 17 14 15
Fuente: Anderson, 2012
Solución:
Un programa estadístico puede brindarnos una solución como:
Origen SC Gl CM F Valor Crít.

Diseño 484,083333 2 242,041667 16,7245681 3,55455715
Tamaño 20,1666667 1 20,1666667 1,39347409 4,41387342
Diseño*Tamaño 12,5833333 2 6,29166667 0,43474088 3,55455715
Error 260,5 18 14,4722222
Total 777,333333 23
Abordamos entonces la solución por cada factor y por la interacción
Diseño*Tamaño:
Diseño del anuncio:
Paso1:
H0: 1 = 2 = 3 = 4 = 5
H1: Por lo menos un tipo de diseño produce un número de solicitudes promedio

diferente.
Con  = 0,05, gln = 1 gld = 18 el valor crítico en la tabla VI es 3,5546
Paso3: Estadístico de prueba
De la tabla ANOVA:
F = 16,7246
Como F > 3,2592
Rechazamos H0 como verdadera.
Paso5: Conclusión:
Existe evidencia muestral suficiente para probar que “por lo menos un tipo de
diseño produce un número de solicitudes promedio diferente”.
78
Tamaño de anuncio:
Paso1:
H0: 1 = 2
H1: Por lo menos un Tamaño de anuncio produce un número de solicitudes

promedio diferente.
De la tabla ANOVA:
F = 1,3935
Como F < 3,2592
Aceptamos H0 como verdadera.
Paso5: Conclusión:
No existe evidencia muestral suficiente para probar que “por lo menos un

Tamaño de anuncio produce un número de solicitudes promedio diferente”.
Interacción Diseño*Tamaño de anuncio:
Paso1:
H0: Las medias son iguales
H1: No existe interacción de Diseño y Tipo de anuncio.
De la tabla ANOVA:
F = 0,4347
Como F < 3,2592
Paso5: Conclusión:
No existe evidencia muestral suficiente para probar que “exista interacción de

Diseño y Tamaño de anuncio”.
79
80
Tema n° 2. Experimentos mutinomiales y tablas de contingencia.
1. Experimentos multinomiales.
1.1. Bondad de ajuste
En esta unidad iniciamos revisando las pruebas que tiene por objetivo
comparar las formas de las distribuciones en variables que no cumplen con los
requisitos de normalidad.
Se trabaja con las frecuencias de las variables y por ello se aplica

preferentemente a variables de tipo categórico.
Distribución Ji cuadrada (2):
El estadístico de prueba se ajusta a la distribución :

(𝑂−𝐸)2
2 = ∑
𝐸
Donde:
O: son las frecuencias observadas en la muestra.
E: son las frecuencias esperadas, las que se espera se presenten en la

población hipotéticamente.
Gl: k – 1
K: Número de categorías en la variable.
La curva de esta distribución no es simétrica y solo existe para valores desde 0

a infinito positivo.
Figura 17: Curva Ji cuadrada. Tomada

de Estadística Inferencial, por
SergioJurado, 2017.
En la Tabla IV se muestran los valores críticos para áreas de cola derecha con
gl = k - 1
Limitaciones:
La distribución 2 no se puede emplear con frecuencias esperadas menores a

5.
81
1.2. Frecuencias uniformes.
Bubba’s Fish and Pasta es una cadena de restaurantes ubicados a lo largo

de la costa del Golfo de Florida. Bubba, el propietario, desea añadir filete a
su menú. Antes de hacerlo, decide contratar a Magnolia Research, LLC, para
que lleve a cabo una encuesta entre personas adultas para saber cuál es su
platillo favorito cuando comen fuera de casa. Magnolia seleccionó una
muestra de 120 adultos y les pidió que indicaran su comida favorita cuando
salen a cenar. Los resultados se reportan en la siguiente tabla:
Tabla 12:
Datos Bubba's Fish and Pasta
Plato favorito Frecuencia
Pollo 32
Pescado 24
Carne 35
Pasta 29
Total 120
Fuente: Lind, Marchal & Wathe,

2012
¿Es razonable concluir que no hay preferencia entre los cuatro platillos?
Si no existe diferencia entre la popularidad de los cuatro platillos, se podría

esperar que las frecuencias observadas fueran iguales, o casi iguales. Para
decirlo de otro modo, se esperaría que el mismo número de adultos indicara
que prefiere pollo o pescado. Así, cualquier discrepancia entre las
frecuencias observadas y esperadas se atribuye al azar, o a un error de
muestreo. ¿Cuál es el nivel de medición en este problema? Observe que
cuando se selecciona a una persona, sólo se le puede clasificar en una de
las categorías de platillos preferidos. No se obtiene ningún tipo de lectura o
medición. La “medida” o “clasificación” se basa en el platillo seleccionado.
Además, no existe un orden natural entre los platillos. No se supone que
alguno de los platillos sea mejor que otro. Por lo pronto, la
escala nominal es apropiada. Si los platillos son igualmente populares, se
esperaría que 30 adultos eligieran cada uno de ellos. ¿Por qué es esto? Si hay
120 adultos en la muestra, y cuatro categorías, lo esperado sería que una
cuarta parte de los encuestados elegirían cada platillo. Por lo tanto, la
frecuencia esperada de cada categoría o celda sería 30, calculada
mediante 120/4, asumiendo que no existe preferencia por ninguno de los
platillos. Esta información se resume en la tabla siguiente. Un examen de los
datos indica que la carne es el platillo seleccionado con más frecuencia
(35 de 120), y que el pescado es el que cuenta con menos preferencia (24
de 120). ¿Se debe al azar esta diferencia entre los números de veces que
82
cada platillo es seleccionado, o se debe concluir que los platillos no tienen el
mismo grado de popularidad? (Lind, Marchal & Wathe, 2012)
Plato Frecuencia Frecuencia

favorito O E
Pollo 32 30
Pescado 24 30
Carne 35 30
Pasta 29 30
Total 120 120
Paso1: Formule las hipótesis nula y alternativa.

H0: O = E No hay diferencia entre las proporciones de adultos que eligen
cada platillo.
H1: O  E Existe diferencia entre las proporciones de adultos que eligen cada
platillo.
Selecione el nivel de significancia  = 0,05.

En la tabla IV con gl = K -1 como se tienen 04 platos k = 4
gl = 4 – 1 = 3
El valor crítico es: 7,8147
Si 2  7,8147 rechazar H0
Paso3: Cálculo del estadístico de prueba.
Plato Frecuencia Frecuencia (𝑶 − 𝑬)𝟐

favorito O E 𝑬
(32−30)2
Pollo 32 30 = 0,1333
30
(24−30)2
Pescado 24 30 = 1,2
30
(35−30)2
Carne 35 30 = 0,8333
30
(29−30)2
Pasta 29 30 = 0,0333
30
Total 120 120 2,2
2 = 2,2
Paso4: Decisión respecto de H0
Como 2 < 7,8147 aceptamos H0 como verdadera
83
Paso5: Conclusión
Como queríamos probar que no había diferencia en la preferencia (H0) lo

que resulto verdadero:
Existe evidencia muestral suficiente para probar que: “Es razonable concluir
que no hay preferencia entre los cuatro platillos”
1.3. Frecuencias no uniformes.

Ejemplo:
Supongamos que se tienen estadísticas de las preferencias por topos de

servicios financieros en una población que afirman que 15% de clientes optan
por créditos personales, 25% créditos hipotecarios, 30% por depósitos a plazo
fijo, y el resto por créditos de capital. En la actualidad se desea saber si estas
proporciones cambiaron, para ello se toma una muestra de 700 clientes y
encuentra (Jurado, 2017):
Tabla 13:
Datos Producto financiero
Producto Financiero Frecuencia
Cred. Personal 175
Cred. Hipotecario 126
Dep. L. Plazo 105
Cred. Capital 294
Total 120
Utilice un nivel de significancia de 0,05.
Solución:
Para este ejercicio contamos con las proporciones hipotéticas de cada

categoría (15%, 25% 30% y 30%) las que emplearemos para encontrar las
frecuencias esperadas (E):

H0: O = E Las preferencias se comportan de acuerdo con las proporciones
anteriores 15%, 25%, 30% y 30%.
H1: O  E Las preferencias no se comportan de acuerdo con las proporciones
esperadas.

gl = 4 – 1 = 3
El valor crítico es: 7,8147
Rechazar H0 si 2  7,8147
84
Frecuencia Frecuencia
(𝑶 − 𝑬)𝟐
Producto Financiero p
O E 𝑬
(175−105)2
Cred. Personal 175 0,15 700(0,15) = 105 = 46,667
105
(126−175)2
Cred. Hipotecario 126 0,25 700(0,25) = 175 = 13,72
175
(105−210)2
Dep. L. Plazo 105 0,30 700(0,30) = 210 = 52,50
210
(294−210)2
Cred. Capital 294 0,30 700(0,30) = 210 = 33,60
210
Total 700 1 146,487
2 = 146,487

Como 2 > 7,8147 Rechazamos H0 como verdadera.
Paso5: Conclusión
Como queríamos probar que las proporciones cambiaron (H1) lo que resulto
verdadero:
Existe evidencia muestral suficiente para probar que: “estas proporciones
cambiaron”
1.4. Pruebas de ajuste a una distribución probabilística.
Ejemplo:
Utilizamos una distribución de frecuencia para organizar las ganancias de la

venta de 180 vehículos en Applewood Auto Group. A continuación:
Tabla 14:
Datos Vehiculos Applewood
Ganancia Frecuencia
$200 a $600 8
600 a 1000 11
1000 a 1400 23
1400 a 1800 38
1800 a 2200 45
2200 a 2600 32
2600 a 3000 19
3000 a 3400 4
Total 180
85
Fuente:Lind, Marchal &
Wathe, 2012.
Utilizando un software estadístico determinamos, que la ganancia media

sobre un vehículo del Applewood Auto Group era de $1843.17, y que la
desviación estándar era de $643.63. ¿Es razonable concluir que los datos
sobre las ganancias son una muestra obtenida de una población normal? En
otras palabras, ¿los datos de ganancia siguen una distribución normal?
Utilizamos el nivel de significancia 0.05 (Lind, Marchal & Wathe, 2012)
Para probar una distribución normal, debemos encontrar las frecuencias

esperadas de cada clase de dicha distribución, asumiendo que la distribución
esperada sigue una distribución de probabilidad normal. Iniciamos con la
distribución normal calculando las probabilidades de cada clase. Después,
usamos estas probabilidades para calcular las frecuencias esperadas de cada
clase.
Para comenzar, es necesario encontrar el área, o probabilidad, de cada una

de las ocho clases en la tabla, asumiendo una población normal con una
media de $1 843.17 y una desviación estándar de $643.63. Para hallar esta
probabilidad, utilizamos la fórmula:
𝑥−𝜇
𝑧=
𝜎
Al aplicar esta fórmula, podemos convertir cualquier distribución de

probabilidad normal en una distribución normal estándar.
En este caso, z es el valor de la distribución normal estándar;  es $1843.17; y 

es $643.63. Para ilustrar estos cálculos, seleccionamos la clase $200 a $600 de
la tabla. La meta es determinar la frecuencia esperada de esta clase, bajo el
supuesto de que la distribución de ganancias sigue una distribución normal.
Primero, calculamos el valor z correspondiente a $200.
𝑥−𝜇 $200−$1843,17
𝑧= = = -2.55
𝜎 643,63
Este resultado indica que el límite inferior de esta clase está a 2.55 desviaciones
estándar por debajo de la media. Según la tabla III, la probabilidad de
encontrar un valor z menor a -2.55 es de 0.0054.
En el caso del límite superior de la clase $200 a $600:
𝑥−𝜇 $600−$1843,17
𝑧= = = -1,93
𝜎 643,63
En la Tabla III, el área a la izquierda de $600 es la probabilidad de un valor z

menor a -1.93, que es 0,0268.
Finalmente, para encontrar el área entre $200 y $600:
P($200 < x < $600) = P(-2,55 < z < 1,93) = 0,0268 – 0,0054 = 0,0214
86
Esto es, alrededor de 2,14% de los vehículos vendidos generará una ganancia
de entre $200 y $600.
Existe una probabilidad de que la ganancia obtenida sea menor a $200. Para
encontrarla:
P(x < $200) = P(z < -2,55) = 0,0054
Ingresamos estas dos probabilidades en la segunda y tercera filas de la

columna 3 de la tabla (Lind, Marchal & Wathe, 2012):
Valore Z Áreas en la Tabla Frecuencia
Ganancia Frecuencia Área
III E
menos de $200 0 Menor a -2.55 0,0054 0,0054 0,97
$200 a $600 8 -2,55 a -1,93 0,0054 – 0,0268 0,0214 3,85
600 a 1000 11 -1,93 a -1,31 0,0268 – 0,0951 0,0683 12,29
1000 a 1400 23 -1,31 a -0,69 0,0951 – 0,2451 0,1500 27,00
1400 a 1800 38 -0,69 a -0,07 0,2451 – 0,4721 0,2270 40,86
1800 a 2200 45 -0,07 a 0,55 0,4721 – 0,7088 0,2367 42,61
2200 a 2600 32 0,55 a 1,18 0,7088 – 0,8810 0,1722 31,00
2600 a 3000 19 1,18 a 1,80 0,8810 – 0,9641 0,0831 14,96
3000 a 3400 4 1,80 a 2,42 0,9641 – 0,9922 0,0281 5,06
3400 a más 0 2,42 o más 1 – 0,9922 0,0078 1,40
Total 180
Como las frecuencias esperadas al inicio final de la tabla son menores a 5 se

debe unir las filas primera, segunda y tercera como la penúltima y última. Así
tendremos:
Frecuencia Frecuencia
Ganancia
O E
menos a 1000 19 17,11
1000 a 1400 23 27,00
1400 a 1800 38 40,86
1800 a 2200 45 42,61
2200 a 2600 32 31,00
2600 a 3000 19 14,96
3000 a 3400 4 6,46
Total 180 180
2 = 3.1957
H0: O = E Las ganancias siguen una distribución normal con  = $1843,17 y  =

$643,63
H1: O  E Las ganancias no se ajustan una distribución normal.
87

gl = 7 – 1 = 6. El valor crítico es: 12,591
Rechazar H0 si 2  12.591
Frecuencia Frecuencia (𝑂 − 𝐸)2

Ganancia
O E 𝐸
(19−17.11)2
menos a 1000 19 17,11 = 0,2088
17.11
(23−27)2
1000 a 1400 23 27,00 = 0,5926
27
(38−40.86)2
1400 a 1800 38 40,86 = 0,2002
40.86
(45−42.61)2
1800 a 2200 45 42,61 = 0,1341
42.61
(32−31)2
2200 a 2600 32 31,00 = 0,0323
31
(19−14.96)2
2600 a 3000 19 14,96 = 1,0910
14.96
(4−6.46)2
3000 a 3400 4 6,46 = 0,9368
6.46
Total 180 180 3,1957
2 = 3,1957
Como 2 < 12,591 Aceptamos H0 como verdadera.
Paso5: Conclusión
Como queríamos probar que las ganancias se comportan como una

distribución normal (H0) lo que resulto verdadero:
Existe evidencia muestral suficiente para probar que “Las ganancias siguen
una distribución normal con  = $1843,17 y  = $643,63”
88
2. Tablas de contingencia:
Una tabla de contingencia es un arreglo matricial que incluye las frecuencias
que corresponde a las categorías de dos variables categóricas:
Tabla 15:
Ejemplo - Tabla de contingencia
Calificación del Nivel de satisfacción con su trabajo

clima
organizacional Nada Poco Regular Bastante Mucho
Pésimo 45 36 28 16 10
Malo 35 36 30 12 8
Regular 23 20 18 15 16
Bueno 18 22 21 33 25
Excelente 15 18 25 32 25
Fuente: elaboración propia
Donde:
Factor Filas: Clima Organizacional.
Factor Columnas : Nivel de Satisfacción en el trabajo.
De acuerdo con el tipo de análisis que se quiera realizar se pueden encontrar

dos casos: Pruebas de Homogeneidad y Pruebas de Independencia
2.1. Prueba de Homogeneidad

Las poblaciones de interés, correspondientes a cada fila de la tabla, y cada
población está dividida en las mismas J categorías de las columnas. Nos
interesa si la distribución de las poblaciones i son iguales en todas las columnas
j (Jurado, 2017). Como cuando se plantea (Levin & Rubin, 2004): Una compañía
empaca un producto particular en latas de tres tamaños diferentes. La mayor
parte de las latas se apegan a especificaciones, pero un ingeniero de control
de calidad ha identificado los siguientes errores: Defecto en lata, Grieta en
lata, Ubicación incorrecta de arillo y otros. ¿Sugiere la información que las
proporciones que caen en las diversas categorías de fuera de especificación
son iguales para las tres líneas?
2.2. Prueba de Independencia

Hay una sola población de interés, con cada individuo de la población
clasificado con respecto a dos factores(filas y columnas) diferentes. Nos
interesa saber si el factor (variable) en las filas i se relaciona de alguna manera
con el factor de columnas j (Jurado, 2017). Como (Lind & Marchal, 2012)
89
plantean en el caso de la Ford Motor Company que opera una planta de
ensamble en Dearborn, Michigan. La planta opera tres turnos. El gerente de
control de calidad quiere comparar el nivel de calidad en los tres turnos. Los
vehículos se clasifican por su nivel de calidad (aceptable, inaceptable) y por
turno (matutino, vespertino, nocturno). ¿Hay alguna diferencia en el nivel de
calidad en los tres turnos? Es decir, ¿está relacionada la calidad del producto
con el turno donde se fabricó?
2.3. Procedimiento de solución:

Se tiene un proceso asociado a la distribución 2, con un estadístico de
prueba:
(𝑂−𝐸)2
2 = ∑
𝐸
Donde:
O: son las frecuencias observadas en la muestra.
E: son las frecuencias esperadas, las que se espera se presenten en la

población hipotéticamente.
gl: grados de libertad = (#filas – 1)(#columnas – 1)
K: Número de categorías en la variable.
Las frecuencias esperadas (E) se calculan de:

(𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎)(𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑓𝑖𝑙𝑎)
E=
𝑇𝑜𝑡𝑎𝑙
Ejemplo:
La Ford Motor Company opera una planta de ensamble en Dearborn,

Michigan. La planta opera tres turnos. El gerente de control de calidad quiere
comparar el nivel de calidad en los tres turnos. Los vehículos se clasifican por
su nivel de calidad (aceptable, inaceptable) y por turno (matutino,
vespertino, nocturno). ¿Hay alguna diferencia en el nivel de calidad en los
tres turnos? Es decir, al nivel del 5% de significancia ¿está relacionada la
calidad del producto con el turno donde se fabricó? Los datos siguientes
pertenecen a una muestra de 87 (Lind, Marchal & Wathe, 2012)
Tabla 16:
Datos Ford Motro Company
Nivel de Calidad
Total, de
Turno Aceptable Inaceptable
Filas
1 12 14 26
2 18 23 41
3 6 14 20
Total 36 51 87
90
Fuente: Lind, Marchal & Wathe, 2012.
Solución:
H0: O = E Turno y Nivel de calidad son independientes.
H1: O  E Turno y Nivel de calidad no son independientes.
Seleccione el nivel de significancia  = 0,05.
En la tabla IV con gl = (#filas – 1)(#columnas – 1) = (3-1)(2-1) = 2
gl = 2. El valor crítico es: 5,991
Rechazar H0 si 2  5,991
Realizamos una tabla de valores esperados:
Realizando los cálculos completos y comparando las tablas:
O E
Total Total
Turno Aceptable Inaceptable de Turno Aceptable Inaceptable de
Filas Filas
1 12 14 26 1 10,759 15,241 26
2 18 23 41 2 16,966 24,034 41
3 6 14 20 3 8,276 11,724 20
Total 36 51 87 Total 36 51 87
Tomando los valores correspondientes de las dos tablas:
Total
Turno Aceptable Inaceptable
(12 − 10.759)2 (14 − 15.241)2
1
10.759 15.241
(18 − 16.966)2 (23 − 24.034)2
2
16.966 24.034
(6 − 8.276)2 (14 − 11.724)2
3
8.276 11.724
Total 1.419
2 = 1,419
91
Como 2 < 5,991 Aceptamos H0 como verdadera.
Por tanto, H1 es falsa
Paso5: Conclusión
Como queríamos probar que Turno y Nivel de calidad estaban relacionados

(H1) lo que resulto falso:
No existe evidencia muestral suficiente para probar que “está relacionada la

calidad del producto con el turno donde se fabricó”
En una prueba de homogeneidad el procedimiento se lleva a cabo de similar

manera.
92
Tema n° 3. Estadística no paramétrica: Prueba de rangos con signo de
Wilcoxon para datos apareados y Prueba de la suma de rangos de
Wilcoxon para dos muestras independientes.
1. Prueba de rangos con signo de Wilcoxon para datos apareados
Es una prueba aplicada cuando se tiene muestras pequeñas o de variables
categóricas con las que no se puede demostrar una distribución normal en los datos.
Se basa en la comparación de dos grupos de datos. Una muestra de sujetos que

aportan dos mediciones (antes-después o Antiguo-Nuevo). Las diferencias entre los
valores de las mediciones se ordenan de menor a mayor sin importar el signo, para
luego hallar la sumatoria de rangos. Una sumatoria menor es el estadístico de
prueba. Las diferencias “cero” se desechan.
El estadístico de prueba:
Así se tiene:
T : la suma menor de las dos sumas de rangos positivos o negativos.
n : número de diferencias diferentes de cero.
El valor crítico de halla en la tabla A-8
Según (Newbol, Carlson & Thorne, 2008), si la muestra es grande (n > 20) se
puede aproximar a la normal:
𝑛(𝑛+1)
𝜇𝑇 =
4
𝑛(𝑛+1)(2𝑛+1)
𝜎𝑇 = √
24
𝑇−𝜇𝑇
z=
𝜎𝑇
Ejemplo:
Un restaurante italiano cercano a un campus universitario está considerando

la posibilidad de utilizar una nueva receta para hacer la salsa que echa a las
pizzas. Se elige una muestra aleatoria de ocho estudiantes y se pide a cada
uno que valore en una escala de 1 a 10 su opinión sobre la salsa original y sobre
la salsa propuesta. La Tabla muestra las valoraciones obtenidas en la
comparación; los números más altos indican que gusta más el producto.
¿Indican los datos una tendencia general a preferir la nueva salsa a la original?
(Newbol, Carlson & Thorne, 2008).
93
Tabla 17:
Datos valoración de salsa
Valoración
Producto Producto
Estudiante
Original nuevo
A 6 8
B 4 9
C 5 4
D 8 7
E 3 9
F 6 9
G 7 7
H 5 9
Solución:
La solución pasa por calcular las diferencias, de ellas se toma la mediana(Me d)

de las diferencias, la que se compara con “cero”. Si decimos que Me d = 0 es
que existen resultados que negativos y positivos por igual y en consecuencia
los conjuntos de datos son iguales. Si se plantea Me d < 0, entonces se tendrán
una mayoría de resultados negativos, la mediana será negativa y menor a
“cero”. Esto implicará que los valores de la segunda muestra serían mayores a
los de la primera muestra. De manera contraria se explicaría un planteamiento
como Med > 0.
Para obtener el valor crítico se debe contabilizar “n” sólo con las parejas de
datos cuyas diferencias no sean “cero”.
Se debe tener cuidado al ingresar a la tabla A-8, ya que en esta los valores
críticos se dan para  a una cola como para dos.
Paso1: Hipótesis
H0: Med = 0
H1: Med < 0 Se prefiere la nueva salsa. (la mayoría de los puntajes en la
segunda muestra son mayores)
Es una prueba de una cola a la izquierda.
Paso2: Regla de decisión
T será la suma de rangos menor.
Con  = 0,05 y n = 7 (se descarta la diferencia del estudiante G)
Valor crítico (Tabla A-8) = 4
Rechazar H0 si T  4
94
Paso3: Calculo del estadístico de prueba
Se calculan las diferencias y se les asignan rangos de menor a mayor en valor

absoluto, estos rangos se separan de acuerdo con el signo y se suman:
Rango
Estud. original nuevo D Rango (-) (+)
inicial
A 6 8 -2 3 3 3
B 4 9 -5 6 6 6
C 5 4 1 1 1,5 1,5
D 8 7 1 2 1,5 1,5
E 3 9 -9 7 7 1
F 6 9 -3 4 4 4
G 7 7 0 - -
H 5 9 -4 5 5 5
25 3
Nótese que para la diferencia 1, se ha asignado el rango 1,5, esto sucede

porque la diferencia 1 se repite 2 veces e inicialmente se les asigno los rangos
1 y 2. En estos casos se suele decir que existe empate y se procede a asignar
el promedio de los rangos a los empates (1+2)/2 = 1,5.
El valor de T es la suma menor:
T=3
El Valor Crítico es 4 y T = 3
T < Valor Crítico
Rechazamos H0 como verdadera
Aceptamos H1 como verdadera
Paso5: Conclusión:
Como queríamos probar que la preferencia por el nuevo producto era mayor
(H1) lo que resultó verdadero:
Existe evidencia muestral suficiente para probar que: “existe una tendencia
general a preferir la nueva salsa a la original”
95
2. Prueba de la suma de rangos de Wilcoxon para dos muestras
independientes.
En este caso la prueba se aplica en muestras que no tienen relación. Se hace dos
mediciones en dos grupos diferentes.
Se asigna los rangos a todos los datos como se si se tratase de una sola muestra. La
prueba se basa en la idea de que la suma de rangos será casi la misma en ambas
muestras si no existiese diferencias significativas.
2.1. Estadístico de prueba:

Según(Lind, Marchal & Wathe, 2012).
𝑛 (𝑛 +𝑛 +1)
𝑇− 1 1 2
2
Z=
𝑛 𝑛 (𝑛 +𝑛 +1)
√ 1 1 1 2
12
Donde:
T: La suma de los rangos de la primera muestra
𝑛1 : Tamaño de la primera muestra
𝑛2 : Tamaño de la segunda muestra
Ejemplo
Se desea probar si la resistencia de cierto tipo de cable de cobre es la misma

para 2 tratamientos de acabado. Se seleccionan al azar 2 muestras de 10
tramos de cable de cada tipo y se obtienen las resistencias que se muestran
en la tabla siguiente. Probar la hipótesis de que no existe diferencia entre las
distribuciones de las resistencias en los 2 tipos de cable (A y B), con un nivel de
significación de 0,01. (Díaz, 2013).
Tabla 18;
Datos Resistencia cables
Acabado
A B
3,21 3,49
3,43 3,37
3,35 3,67
3,51 3,50
339 3,31
3,17 3,29
3,48 3,52
3,42 3,37
96
3,29 3,44
3,40 3,53
Fuente: Díaz, 2013
Solución:
Paso1: Planteamiento de hipótesis:
H0: MeA = MeB (no existe diferencia entre las distribuciones de las resistencias
entre los dos tipos de cable)
H1: MeA  MeB
Prueba a dos colas
 = 0.01
/2 = 0,005
En la tabla de valores z el valor crítico es 2,575
Rechazar H0 como verdadera si z -2,575 o z  2,575
Datos: Se asignan los rangos como si tratase de solo una

muestra:
n1 = 10
A B
n2 = 10
3,21 2 3,49 15
3,43 12 3,37 7.5
3,35 6 3,67 20
3,51 17 3,50 16
3,39 9 3,31 5
3,17 1 3,29 3.5
3,48 14 3,52 18
3,42 11 3,37 7.5
3,29 3.5 3,44 13
3,40 10 3,53 19
Como puede verse, algunos rangos se han

promediado ya que existe empates como en 3,29 y
3,37.
La suma de los rangos de la primera muestra es:
97
T = 2+12+6+17+9+1+14+11+3.5+10 = 85,5
𝑛 (𝑛 +𝑛 +1)
𝑇− 1 1 2
2
Z=
𝑛 𝑛 (𝑛 +𝑛 +1)
√ 1 1 1 2
12
10(10+10+1)
85.5−
2
Z= = -1.47
10(10)(10+10+1)
√
12
Z = -1,47 y el valor crítico es 2,575
Z > -2,575
Aceptamos H0 como verdadera
Paso5: Conclusión:
Deseábamos probar que no existía diferencias entre las resistencias de A y B

(H0) lo que resulto verdadera:
Existe evidencia muestral suficiente para probar que “no existe diferencia entre
las distribuciones de las resistencias en los 2 tipos de cable (A y B)”
98
Tema n° 4. Pruebas no paramétricas: Prueba de Kruskal –Wallis y
Correlación de rangos de Spearman.
1. Prueba de Kruskal –Wallis

Es una prueba no paramétrica que desarrolla comparaciones entre tres o más
grupos. Es un procedimiento alterno a ANOVA de un factor o vía.
1.1. El valor crítico:

La distribución que sigue el estadístico de prueba es 2, y se calcula con:
12 (∑ 𝑅1 )2 (∑ 𝑅2 )2 (∑ 𝑅3 )2
H= [ + + + . . . ] −3(𝑁 + 1)
𝑁(𝑁+1) 𝑛1 𝑛1 𝑛1
Donde:
N : Total de datos uniendo todas las muestras.
Ri : Suma de rangos de muestra i.
ni : Tamaño de la muestra i.
El valor crítico se extrae de la tabla A-4 con gl = K -1, donde K es el número de

muestras.
En esta prueba se exige que las muestras tengan un tamaño n  5
Ejemplo:
System Hospital en Carolina opera tres hospitales en el área de Great

Charlotte: St. Luke’s Memorial, en el lado poniente de la ciudad, Swedish
Medical Center, al Sur, y el Piedmont Hospital en el lado Este. El director de
administración está preocupado acerca del tiempo de espera de los
pacientes con lesiones de tipo deportivo, que no ponen en peligro la vida, y
que llegan durante las tardes entre semana a los tres hospitales.
Específicamente, ¿existe una diferencia en los tiempos de espera en los tres
hospitales?
Tabla 19:
Datos System Hospital
St. Center
Swedish
Luke’s Piedmont
Medical
Memorial Hospital
56 103 42
39 87 38
48 51 89
38 95 75
73 68 35
99
60 42 61
62 107
89
Solución:
Paso1: Planteamiento de Hipótesis:
H0: Las distribuciones de las poblaciones de los tiempos de espera son

iguales para los tres hospitales.
H1: No todas las distribuciones de las poblaciones son iguales. Existe una
diferencia en los tiempos de espera en los tres hospitales.
Con un valor de  = 0,05 y gl = 3 – 1 = 2
El valor crítico en la tabla A-4 es 5.991
Se debe rechazar H0 si H  5.991
Paso3: Calculo del estadístico de prueba:
Para este procedimiento asignamos los rangos a los datos como si se tratase
de una sola muestra:
Center
St. Luke’s Swedish
Rangos Rangos Piedmont Rangos
Memorial Medical
Hospital
56 9.0 103 20.0 42 5.5
39 4.0 87 16.0 38 2.5
48 7.0 51 8.0 89 17.5
38 2.5 95 19.0 75 15.0
73 14.0 68 13.0 35 1.0
60 10.0 42 5.5 61 11.0
62 12.0 107 21.0
89 17.5
∑ 𝑅1 = 58.5 ∑ 𝑅2 = 120 ∑ 𝑅3 = 52.5
n1 = 7 n1 = 8 n1 = 6
N = 21
12 (∑ 𝑅1 )2 (∑ 𝑅2 )2 (∑ 𝑅3 )2
H= [ + + + . . . ] −3(𝑁 + 1)
𝑁(𝑁+1) 𝑛1 𝑛1 𝑛1
12 (58.5)2 (120)2 (52.5)2

H= [ + + + . . . ] −3(21 + 1)
21(21+1) 7 8 6
H = 5.38
H = 5,38 y el valor crítico es 5.991
H < 5,991
100
Aceptamos H0 como verdadera, y H1 como falsa
Paso5: Conclusión:
Queríamos probar que había por lo menos un tiempo diferente (H1) lo que ha
resultados Falso:
No existe evidencia muestral suficiente para probar que “Existe una diferencia
en los tiempos de espera en los tres hospitales”
2. Correlación de rangos de Spearman.
En este acápite explicaremos el desarrollo de una prueba de hipótesis en el caso de

dos variables de quienes se tiene la idea de que se relacionan de alguna manera,
como puede ser el caso de las calificaciones obtenidas por una persona en un
examen y su desempeño posterior en una empresa.
2.1. Coeficiente de correlación de Spearman
Como afirma (Díaz, 2013, p. 542) “Este coeficiente de correlación por rangos
es el equivalente no paramétrico del coeficiente de correlación de Pearson y
que se calcula para variables que están cuando menos en escala de intervalo
y se utiliza, de igual manera, para medir la relación que existe entre 2 variables
cualitativas ordinales o cuantitativas que no tienen distribución normal en sus
residuos. Mide tanto la intensidad como el sentido de la relación. Este
coeficiente de correlación por rangos se calcula para variables que están en
escala ordinal y asume los mismos valores que su contraparte paramétrica; es
decir, asume valores entre −1 y 1, en donde un valor de −1 significa que existe
una correlación inversa perfecta entre las 2 variables, un valor de 1 señala que
existe una correlación positiva perfecta y valores de 0 o cercanos a 0 son señal
de que no existe o existe poca relación entre las 2 variables”.
“El procedimiento para calcular este coeficiente de correlación por rangos es

similar a las otras pruebas que ya se revisaron y que se basan en rangos: se
asignan rangos a las observaciones de las 2 variables por separado y los
empates se resuelven asignando el promedio de los rangos que les
corresponderían en caso de no haber empates. Después de que se obtienen
los rangos, se calculan las diferencias de éstos para cada par de
observaciones de las 2 variables. El estadístico de prueba, el coeficiente de
correlación de Spearman, es” (Díaz, 2013, p. 541).
101
6 ∑ 𝑑2
rs = 1-
𝑛(𝑛2 −1)
Él puede alcanzar las siguientes interpretaciones:
Interpretación
rs = -1 Correlación inversa perfecta
–1 < rs  –0,8 Correlación inversa fuerte
–0,8 < rs  –0,5 Correlación inversa moderada
–0,5 < rs < 0 Correlación inversa débil
rs = 0 Incorrelación
0 < rs  0,5 Correlación directa débil
0,5 < rs  0,8 Correlación directa moderada
0,8 < rs < 1 Correlación directa fuerte
rs = 1 Correlación directa perfecta
(Jurado, 2017).
2.2. Estadístico de prueba:
En este caso, es el coeficiente de correlación de Speraman (rs)
6 ∑ 𝑑2
rs = 1-
𝑛(𝑛2 −1)
Donde:
n: es el número de pares de datos en la muestra
d: diferencia de cada par de datos
Los valores críticos se encuentran en la tabla A-9
Ejemplo:
En una investigación desarrollada en las empresas molineras de la región se
desea averiguar si existe relación entre el aprovechamiento de la oportunidad
de mercado y el desarrollo de sistemas de calidad. La tabla siguiente muestras
las puntuaciones obtenidas en inspecciones a las plantas de producción y las
puntuaciones obtenidas del análisis del aprovechamiento de oportunidades
de mercado (Jurado, 2017, p. 157):
102
Tabla 20:
Datos Investigación Sistemas de calidad
Empresa A B C D E F G H I J
Oportunidad de
125 465 156 120 425 387 234 504 489 310
mercado
Sistema de calidad 36 145 39 39 97 98 48 233 215 72
Solución:
El análisis paso por el lado de determinar algunas características descriptivas

de la posible relación entre las variables. Por ello realizamos un gráfico:
600
Oportunidad de mercado
500
400
300
200
100
0
0 50 100 150 200 250
Desarrollo de sistema de calidad
Figura 18; Gráfica de dispersión ejemplo de correlación.

En el diagrama cada par de datos dibuja un punto. La forma que adquiere la

nube de puntos nos indica que existe una relación entre las variables en la
muestra.
Paso1: Planteamiento de Hipótesis
H0: 𝜌𝑠 = 0 No existe correlación entre Aprovechamiento de oportunidad

de mercado y Nivel de desarrollo de sistemas de calidad.
H1: 𝜌𝑠  0 Existe correlación entre Aprovechamiento de oportunidad de

mercado y Nivel de desarrollo de sistemas de calidad
En la tabla A-9 con  = 0,05 y n = 10
Valor crítico = 0,648
Rechazar H0 si |rs|  0,648
103
Paso3: Cálculo del estadístico de prueba:
Se debe cambiar el orden las variables dado que se entiende que, a mayor
desarrollo de sistema de calidad, mejor debe el aprovechamiento de las
oportunidades del mercado.
Asignamos rangos a los datos por separado según la variable y luego hallamos
las diferencias entre estos rangos:
Empresa A B C D E F G H I J
Sistema de
36 145 39 39 97 98 48 233 215 72
calidad
1 8 2.5 2.5 6 7 4 10 9 5
Oportunidad
125 465 156 120 425 387 234 504 489 310
de mercado
2 8 3 1 7 6 4 10 9 5
d -1 0 -0.5 1.5 -1 1 0 0 0 0
d2 1 0 0,25 2,25 1 1 0 0 0 0
La sumatoria de las d2 será:
d2 = 5.5
En la fórmula:
6 ∑ 𝑑2
rs = 1-
𝑛(𝑛2 −1)
6(5,5)
rs = 1-
10(102 −1)
rs = 0,6𝟑
̂
Paso4: Decisión con respecto a H0:
Estadístico de prueba rs = 0,6333
rs < 0,648
Aceptamos H0 como verdadera. En consecuencia, H1 es verdadera.
Paso5: Conclusión
Queríamos probar que existe relación entre las variables (H1) pero resultó falsa.
104
No existe evidencia muestral suficiente para probar que “existe relación entre
el aprovechamiento de la oportunidad de mercado y el desarrollo de sistemas
de calidad”
105
De la teoría a la práctica
LECTURA N° 3:
“La evaluación del desempeño es la piedra angular de los sistemas de
gestión de las personas que brinda tanto un beneficio para la
organización como para los colaboradores” (Jurado, 2017))
Entrevista a Pilar Quinteros Marquina, Gerente de Recursos Humanos de Merck Sharo &
Dohme Perú
¿Cuál es el objetivo que persiguen las empresas al realizar una evaluación de

desempeño, cuál es el beneficio para la organización y para los empleados?
El sistema de evaluación del desempeño tiene como objetivo medir, analizar y

desarrollar las habilidades, conocimientos y comportamientos estratégicamente
requeridos por la organización. Es la piedra angular de los sistemas de gestión de las
personas que brinda tanto un beneficio para la organización como para los
colaboradores.
Beneficios para la organización: es una herramienta de identificación, desarrollo y

retención de talento para la empresa representada por sus líderes gestores de personas.
Beneficios para el empleado: es un recurso de comunicación y entendimiento para el

empleado de los aspectos que son valorados por la organización, las expectativas sobre
su aporte de valor y la brecha que pudiera existir entre sus competencias actuales y las
deseadas.
Finalmente, el sistema de evaluación del desempeño es un proceso organizacional que

facilita e impulsa el logro de los objetivos de la empresa a través de las personas.
¿Cuál es la diferencia entre evaluación de desempeño y administración del

desempeño?
La administración del proceso comprende la gestión de las etapas y componentes del

sistema de desempeño. En general se inicia con la definición de los objetivos tanto de
negocio como personales alineados al plan estratégico, se realiza una revisión de medio
año en la que se monitorean los avances y se realizan los ajustes necesarios y finalmente
se cierra el ciclo con la evaluación de fin de año. Entre los componentes podemos
resaltar diversos tipos de feedback, modalidades de medición de indicadores, variantes
en la entrevista de retroalimentación etc. La administración del proceso incluye
también la relación con otros sistemas como el de selección, compensaciones,
capacitación, reconocimiento, talento, etc.
Dependiendo del desarrollo de la gestión de las personas en la empresa el proceso de

evaluación del desempeño puede ir acompañado de un proceso paralelo y
complementario que se denomina proceso de desarrollo personal, totalmente dirigido
al desarrollo de competencias personales en preparación para asumir retos de mayor
desafío. En definitiva, esto es un aporte al desarrollo del empleado como ser humano
que impacta positivamente en la organización, en la sociedad, en su entorno familiar,
amical etc.
La evaluación del desempeño hace énfasis específicamente en las variables que se van
a medir, cómo medirlas, cómo desarrollarlas y potenciarlas; cómo impulsarlas desde una
perspectiva organizacional.
106
En resumen, el sistema de evaluación del desempeño tiene como objetivo medir,
analizar y desarrollar las habilidades, conocimientos y comportamientos
estratégicamente requeridos por la organización (APTiTUS, 2009).
Los problemas surgen a raíz de una inadecuada medición y cuando estas mediciones
se empelan para promover incentivos, entonces estas mediciones pueden no tener
representatividad en su media, dado que las distribuciones de los puntajes no son
normales.
Actividad N° 3: Auto evaluación - Pruebas no paramétricas (cuestionario

en línea)
- Ingrese al aula virtual, en la unidad 3, al cuestionario de Autoevaluación y
desarrolle los ejercicios.
107
Experimento Aleatorio Actividad realizada con el propósito de obtener datos aleatorios

que permitan probar una teoría o hipótesis (Jurado, 2017).
Muestras emparejadas Revise muestras relacionadas.
Muestras Independientes Son dos o más muestras que tienen elementos que no tienen
ninguna relación con otros en otras muestras. De ninguna manera forman parejas o se
asocian a valores de otras muestras (Anderson, Dennis & Thomas, 2012).
Muestras Relacionadas Dos o más muestras que tienen elementos que forman pares o
asociaciones con los datos de otras muestras y que en general pertenecen a una misma
unidad de análisis (Díaz, 2013).
Multinomial Se refiere a una variable que tiene múltiples categorías como Puesto de
trabajo: Gerente, jefe de área, Secretaria (Levin & Rubin, 2004).
Prueba Paramétrica Procedimiento estándar para realizar una prueba de hipótesis con
una población que tiene una distribución normal o casi normal (Newbol, Carlson &
Thorne, 2008).
Prueba No Paramétrica Procedimiento para realizar una prueba de hipótesis cuando no

se conoce el tipo de distribución de las poblaciones (Newbol, Carlson & Thorne, 2008).
Rango: Un rango es un número asignado a un elemento muestral individual de acuerdo

con su lugar en la lista ordenada. Al primer elemento se le asigna un rango de 1, al
segundo elemento se le asigna un rango de 2 y así sucesivamente (Triola, 2009).
Correlación: Una correlación existe entre dos variables cuando una de ellas está
relacionada con la otra de alguna manera (Triola, 2009).
Racha: Secuencia de sucesos iguales como bueno, bueno, bueno . . . o malo, malo ,
malo . . . (Triola, 2009),
Bibliografía Unidad 3
programas-sociales/


CENGAGE Learning.
108

McGraw Hill.



Jurado, S. (2017). Curva de la distribución F [figura]. Huancayo: Universidad Continental.

Continental.

2019, de El Pa´s:

CENGAGE learning.

true0
109

estratificado/

e_Student
110
Unidad 4:
CORRELACIÓN, REGRESIÓN Y SERIES DE TIEMPO
Diagrama de organización de la Unidad IV
Resultado de aprendizaje de la Unidad 4:
Al finalizar la unidad, el estudiante será capaz de realizar pruebas de hipótesis de
correlación y regresión, y series de tiempo.
CONOCIMIENTOS HABILIDADES ACTITUDES
Tema n° 1. Correlación 1. Analiza y valida la • Valora reflexivamente la
1. Correlación correlación entre variables. importancia de la
Tema n° 2. Regresión 2. Calcula el intervalo de interpretación de los
lineal simple. predicción para la modelos de predicción y
Tema n° 3. Regresión estimación de valores de series de tiempo en la
múltiple pronosticados. toma de decisiones.
Tema n° 4. Series de 3. Identifica modelos de
tiempo.
regresión múltiple y los
1. Modelos de series de
interpreta.
tiempo.
2. Promedios móviles y 4. Realiza la suavización
suavizamiento exponencial.
exponencial. 5. Construye modelos de
3. Análisis de tendencia. series de tiempo y analiza
la tendencia y
estacionalidad.
6. Interpreta los modelos de
series de tiempo.
Actividad 1:
Participa del foro de discusión
sobre aplicación de la
correlación en el ámbito de
trabajo.
Actividad 2:
Evaluación del tema N° 1 y el
Tema N° 2
111
Introducción
En la estadística, se tienen métodos que permiten obtener estimaciones de pronósticos
en base a dos lo más variables cuantitativas. Los métodos aquí presentados tienen
condiciones de normalidad que retomamos de las unidades 1 y 2.
Así, si conocemos el desarrollo de los datos dos variables, se puede inferir que estas
variables tengan datos que de alguna manera se relacionen. Los métodos aquí
presentados nos van a permitir poner a prueba estas afirmaciones para luego mediante
el cálculo de la regresión, con los datos muestrales, obtener una función matemática
que permita realizar pronósticos sobre valores que no se encuentran en la muestra.
La unidad se desarrolla en cuatro partes a saber:
La primera desarrolla las pruebas de correlación entre dos variables, la segunda sobre
la regresión con dos variables, la tercera sobre la correlación y regresión de más de dos
variables, así como modelación no lineal y en la cuarta parte el desarrollo de técnicas
de predicción empleando series temporales.
El autor
112
Tema n° 1. Correlación.
En el capítulo presente se aborda nuevamente el análisis de la relación entre dos

variables. Pero en esta oportunidad las variables son cuantitativas y se aplicarán
métodos paramétricos.
1. Correlación
Cuando nos referimos a que existe correlación entre dos variables, como ejemplo
podemos mencionar dos variables muy conocidas el ámbito empresarial: Ingresos y
Ganancias, podemos intuir que estas dos variables se relacionan dado que de forma
empírica podemos afirmar que, a mayores Ingresos, mayores serán las ganancias en
una empresa, o viceversa.
En el desarrollo del análisis de los datos, no solo interesa si existe relación, sino que
además importa saber cómo es esa relación. Para esto un gráfico de dispersión nos
puede dar una respuesta más completa. Como ejemplo graficaremos los datos de
la siguiente tabla, en la que, cada pareja de datos se tomará como coordenadas
de puntos en el plano cartesiano:
Tabla 21:
Datos ejemplo correlación lineal
Empresa Ingresos Ganancias
Text SRL 26 11.6
COBA S. A. 18 5.3
Hilos S. A. 13 0.5
TRAP S. A. 17 2
DORIMAR 22 5.7
Hilandera 20 3.6
RICAB 15 0.81
Fuente: elaboración propia
Figura 19: Gráfico de dispersión ejemplo.

Los puntos en la gráfica confirman la idea inicial respecto a estas dos variables, a
medida que los ingresos aumentan  , las ganancias también los hacen .
La gráfica además nos muestra que el comportamiento de los puntos se acerca

bastante a una forma lineal, es decir se acercan bastante a una línea recta
ascendente. Por esta razón la correlación que pudiera existir entre las variables se
denomina “lineal”
Por ello es por lo que nuestro análisis girará en torno a la función lineal como modelo
del comportamiento de la relación entre las variables Independiente (x) y
dependiente (y)
113
2. Análisis de correlación lineal simple
Se desarrolla con la finalidad de determinar si en la población se tiene

correlación lineal entre dos variables cuantitativas. En este caso el
comportamiento de los datos se ajusta a una función lineal.
2.1. Gráfico de dispersión

Un gráfico de dispersión presenta los pares de datos representados como
puntos en un plano cartesiano. Su forma es un indicador de la forma y fuerza
de la relación. En general las formas en las que se puede presentar sen lo
siguiente:
Fuerte correlación lineal directa Moderada correlación lineal directa
No existe correlación lineal Fuerte correlación lineal inversa
Figura 20: Formas de gráficos de dispersión.

114
La correlación se define como lineal directa cuando los valores de “y”
aumentan si los de “X” lo hacen.
Una correlación lineal inversa es aquella en la que los valores de “Y” disminuyen
cuando “X” aumenta.
2.2. Coeficiente de correlación lineal

El coeficiente de correlación lineal (de Pearson)se calcula con:
𝑛 ∑ 𝑥𝑦−∑ 𝑥(∑ 𝑦)
r=
√𝑛 ∑ 𝑥 2 −(∑ 𝑥)2 √𝑛 ∑ 𝑦 2 −(∑ 𝑦)2
Mide la fuerza de la relación lineal entre las variables, por ello puede tener las
siguientes interpretaciones:
Interpretación
rs = -1 Correlación inversa perfecta
–1 < rs  –0,8 Correlación inversa fuerte
–0,8 < rs  –0,5 Correlación inversa moderada
–0,5 < rs < 0 Correlación inversa débil
rs = 0 Incorrelación
0 < rs  0,5 Correlación directa débil
0,5 < rs  0,8 Correlación directa moderada
0,8 < rs < 1 Correlación directa fuerte
rs = 1 Correlación directa perfecta

Fuente: Estadística Inferencial – Manual de Auto aprendizaje por Jurado
(2017)
2.3. Prueba de Hipótesis para la correlación

El análisis requiere de una prueba de hipótesis que pruebe;
H0:  = 0 No existe correlación lineal entre “x” e “y”
H1:   0 Existe correlación lineal entre “x” e “y”
Donde:  es el coeficiente de correlación lineal en la población
El estadístico de prueba es r y los valores críticos se obtienen de la tabla A-6.
115
Ejemplo:
En el cálculo de la resistencia de suelos tienen mucha importancia los

componentes del suelo estudiado. La siguiente tabla resumen las resistencias
encontradas en 9 terrenos con diferentes contenidos de arena o grava. ¿Al
nivel de 5% de significancia se puede decir que el contenido de arena en el
suelo influye en su resistencia? (Jurado, 2017)
50
Tabla 22:
Datos ejemplo Grava
40
Resist
%Grav.
Kg/cm2
8 10 30
22 25
10 15
20
3 7
12 16
10
15 18
30 42
18 21 0
0 10 20 30 40
25 37
Fuente: Elaboración
propia Figura 21: Gráfico de dispersión ejemplo cálculo de
coeficiente de correlación.
El análisis inicia con un gráfico de dispersión. Este nos indica que existe una
correlación lineal considerable entre las variables y que esta relación es
directa, a mayor % de Grava, mayor resistencia del suelo.
Si calculamos el coeficiente de correlación:

𝑛 ∑ 𝑥𝑦−∑ 𝑥(∑ 𝑦)
r=
√𝑛 ∑ 𝑥 2 −(∑ 𝑥)2 √𝑛 ∑ 𝑦 2 −(∑ 𝑦)2
9(3826)−143(191)
r=
√9(2875)−(143)2 √9(5153)−(191)2
r = 0.97178736
Fuerte correlación lineal directa en la muestra.
Prueba de Hipótesis:
Paso1: Planteamiento de hipótesis:
H0:  = 0 No existe correlación lineal entre % de Grava y Resistencia del

suelo.
H1:   0 Existe correlación lineal entre % de Grava y Resistencia del suelo.
Con n = 9 y  = 0,05 en la tabla A-6
116
Rechazar H0 si |r|  0,666
𝑛 ∑ 𝑥𝑦−∑ 𝑥(∑ 𝑦)
r=
√𝑛 ∑ 𝑥 2 −(∑ 𝑥)2 √𝑛 ∑ 𝑦 2 −(∑ 𝑦)2
9(3826)−143(191)
r=
√9(2875)−(143)2 √9(5153)−(191)2
r = 0,97178736
Paso4: Decidir sobre H0
r = 0,971787 y Valor crítico = 0,666
|r| > 0,666
Rechazamos H0 como verdadera, es decir H0 es falsa y H1 verdadera.
Paso5: Conclusión
Queríamos probar que existía correlación entre las variables (H1) lo que resultó
verdadero:
Existe evidencia muestral suficiente para probar que “Existe correlación lineal
directa entre % de Grava y Resistencia del suelo”
Tema n° 2. Regresión lineal simple
Cuando se ha comprobado que existe correlación entre dos variables, se puede

proceder al cálculo de una función lineal que se al que mejor se “ajuste” a los pares
de datos (puntos en el diagrama de dispersión). A este proceso se le conoce como
“Regresión”
1. Ecuación de regresión:
𝑦̂ = 𝑏0 + 𝑏1 𝑥
Donde:
𝑦̂: Es el valor de la variable dependiente.
𝑏0 : Constante de la ecuación, conocido como intercepto, porque es la

coordina en “Y” cuando x = 0.
𝑏1 : Coeficiente de la variable “x”, que es la pendiente de la recta.
117
𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
b1 = y b0 = 𝑦̅ − 𝑥̅ 𝑏1
𝑛 ∑ 𝑥 2 −(∑ 𝑥)2
1.1. Prueba de hipótesis para β1
La ecuación de regresión en la población:
𝑦̂ = 𝛽0 + 𝛽1 𝑥
Cuando se logra la ecuación de regresión se puede someter a prueba la

pendiente de la recta en la población β1 , porque este puede ser “cero” en la
población. Si la pendiente es “cero”, produce que 𝛽1 𝑥 = 0, por tanto, el valor
del estimado de Y será:
𝑦̂ = 𝛽0
La ecuación de regresión se reduce a ser igual a una constante 𝛽0
El estadístico de prueba será:
𝑏1 −𝛽1
𝑡= 𝑆𝑒
√𝑠𝑥 ∗(𝑛−1)
Donde:
𝑏1 : Pendiente de la recta en la muestra.
𝛽1 : Pendiente Hipotética de la recta en la población.
𝑠𝑥 : Desviación estándar de los datos de la variable independiente.
𝑛: Tamaño de muestra.
𝑆𝑒 : Error estándar de la correlación:
∑ 𝑦 2 −𝑏0 ∑ 𝑦−𝑏1 ∑ 𝑥𝑦
𝑆𝑒 = √
𝑛−2
Ejemplo:
Con los datos del ejemplo anterior, y ya que se ha probado que existe
correlación lineal directa, se procede a determinar la ecuación de regresión
Resist 9(3826)−(143)(191)
%Grav. n=9 𝑏1 =
Kg/cm2
9(2875)−1432
8 10
∑ 𝑥 = 143
22 25
10 15 ∑ 𝑦 = 191
𝑏1 = 1,3224
3 7
118
12 16 ∑ 𝑥 2 = 2875
15 18
∑ 𝑦 2 = 5153 𝑏0 = 21.2222 – 15,8889(1.¿,3224)
30 42
18 21 ∑ 𝑥𝑦 = 3826
25 37
𝑥̅ = 15.8889 𝑏0 = 0,3699
𝑦̅ = 21.2222
𝑦̂ = 0,3699 + 1,3224𝑥
Prueba de Hipótesis:
H0: 1 = 0 La pendiente es cero. La ecuación es constante.
H1: 1 ≠ 0 La pendiente no es cero. La ecuación no es constante.
Con  = 0,05, (dos colas), y gl = 9 – 2 = 7
Rechace H0 como verdadero si |t|  2,365
∑ 𝑦 2 −𝑏0 ∑ 𝑦−𝑏1 ∑ 𝑥𝑦
Se=√
𝑛−2
∑(𝑥𝑖 −𝑥̅ )2
Sx = √ = 8,6811
𝑛−1
5153−(0.3699)(191)−(1.3124)(3826)
Se=√
𝑛−2
n=9
Se= 8,7036
Reemplazando:
𝑏1 −𝛽1
t= 𝑆𝑒
√𝑠𝑥 ∗(𝑛−1)
1.3124−0
t= 8.7036
√8.6811∗8
t = 3,6999
t = 3,6999 y Valor crítico = 2,365
119
t > 2,365
Rechazamos H0 como verdadera, es decir H0 es falsa y en consecuencia H1

es verdadera.
Paso5: Conclusión:
El resultado de la prueba indica que H1 es verdadera:
Existe evidencia muestral suficiente para probar que “1 ≠ 0 La pendiente no es

cero. La ecuación no es constante”
2. Estimación puntual e Intervalo de predicción

Si empleamos la ecuación de regresión podremos obtener un estimado del
valor de la variable dependiente (y). Ahora estudiaremos las dos formas de
obtener este estimado:
2.1. Estimación puntual

Para realizar este cálculo solo hace falta tener un valor para la variable
independiente (x) y reemplazarlo en la ecuación de regresión:
En el caso del ejemplo supongamos que requerimos calcular el valor de la

Resistencia de suelo si se tiene un porcentaje de 28% de grava.
Si el mejor modelo de regresión es: 𝑦̂ = 0,3699 + 1,3124𝑥 obtenido

anteriormente,
x = 28
𝑦̂ = 0,3699 + 1,3124𝑥
𝑦̂ = 0,3699 + 1,3124(28)
𝑦̂ = 37,1171 kg/cm2
El mejor estimado puntual para el valor de la Resistencia del suelo cuando el

porcentaje de grava es de 28%, es de 31,12Kg/cm2
2.2. Estimación por intervalo

Como se puede apreciar, nuestro calculo anterior nos brinda un único valor de
la variable dependiente Resistencia de suelo.
En un modelo determinístico como en una función se espera un solo resultado,

a cada valor de “x” le corresponde un valor de ”y”. Nuestros datos han sido
comparados con este tipo de modelo.
Nuestros datos distan de comportarse de esta manera, nuestros datos se

comportan de manera aleatoria, es decir suceden al azar y por cada “x”
pueden existir infinitos valores como en nuestro ejemplo. Par un valor del
porcentaje de Grava como 28%, pueden existir otros niveles Resistencia de
suelo, que no solo depende del contenido de Grava, sino de otros
componentes y condiciones que alteran la resistencia.
120
Por ello cuando hablamos de un modelo regresión no referimos a un “modelo
probabilístico” con muchos posibles resultados para cada valor de la variable
independiente (Jurado, 2017):
Figura 22: Resultados probables para x = 28. Tomado

de Estadística Inferencial. Manual de Auto
aprendizaje, por Sergio Jurado, 2017.
Para el cálculo de una estimación, consideramos que estos posibles resultados

tienen una distribución normal con media en el valor de la estimación puntual
calculada con la ecuación de regresión (𝑦̂ = 37.1171).
2.3. Estimación por Intervalo o Intervalo de predicción

Como existen muchos posibles resultados por cada valor estimado 𝑦̂, un
intervalo sería la mejor estimación de la variable “y”:
𝑦̂ − 𝐸 < 𝑦 < 𝑦̂ + 𝐸
Donde:
E: Es el margen de error
1 𝑛(𝑥−𝑥̅ )2
𝐸 = 𝑡𝛼/2 ∗ 𝑠𝑒 ∗ √1 + +
𝑛 𝑛 ∑ 𝑥 2 +(∑ 𝑥)2
Ejemplo:
En el ejercicio que estamos resolviendo, se solicita hacer una estimación al 95%

de la Resistencia del suelo cuando la proporción de Grava sea de 28%
Solución:
Datos
121
1 𝑛(𝑥−𝑥̅ )2
𝐸 = 𝑡𝛼/2 ∗ 𝑠𝑒 ∗ √1 + +
𝑛 𝑛 ∑ 𝑥 2 +(∑ 𝑥)2
n=9
1 9(28−15.8889)2
∑ 𝑥 = 143 𝐸 = 2,306(8,7036) ∗ √1 + +
9 9(2875)+(143)2
∑ 𝑥 2 = 2875 𝐸 = 23,3543
𝑥̅ = 15,8889 𝑦̂ − 𝐸 < 𝑦 < 𝑦̂ + 𝐸
𝑆𝑒 = 8,7036
gl = 8 37,1171 − 23,3543 < 𝑦 < 37,1171 + 23,3543

 = 0,05
𝑡𝛼/2 = 2,306 13,763𝑘𝑔/𝑐𝑚2 < 𝑦 < 60,471𝑘𝑔/𝑐𝑚2
122
Tema n° 3. Correlación Regresión Lineal Múltiple.
Hablaremos ahora del análisis de correlación y regresión cuando se tiene más de una
variable independiente. El modelo general al que se ajustarán los datos será:
𝑦̂ = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + ⋯
1. Correlación
1.1. Análisis de correlación

En el análisis de correlación se emplea el cálculo de las variaciones que
comparadas nos darán el valor del estadístico de prueba que es:
𝐶𝑀𝑅
𝐹=
𝐶𝑀𝐸
Donde:
CMR: Suma de cuadrados medios de la Regresión:
𝑆𝐶𝑅 ∑(𝑦̂𝑖 −𝑦̅)2

𝐶𝑀𝑅 = =
𝑝 𝑝
p = Grados de libertad de la regresión
CME: Cuadrados medios del Error:
𝑆𝐶𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2

𝐶𝑀𝐸 = =
𝑛−𝑝−1 𝑛−𝑝−1
Estos cálculos en general se desarrollan con el apoyo de un software

especializado como SPSS, Minitab o Excel:
Tabla 23:
ANOVA de un Factor – Fórmulas
Suma de Cuadrados
Origen gl F
Cuadrados medios
Regresión 𝑆𝐶𝑅 = ∑(𝑦̂𝑖 − 𝑦̅)2 𝑝 𝐶𝑀𝑅 =

𝑆𝐶𝑅
𝐹=
𝐶𝑀𝑅
𝑝 𝐶𝑀𝐸
Error 𝑆𝐶𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑛−𝑝−1 𝐶𝑀𝐸 =

𝑆𝐶𝐸
𝑛−𝑝−1
Total 𝑆𝐶𝑇 = ∑(𝑦𝑖 − 𝑦̅)2 𝑛−1
123
1.2. Coeficiente de determinación lineal Múltiple

El cálculo del coeficiente se realiza por:
𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇
Pero este coeficiente tiende a “inflar” el valor de la correlación a medida que
se incluyen más variables independientes, por ello debe corregirse para
determinar el verdadero valor de la bondad de ajuste:
𝑛−1
2
𝑅𝑎𝑗𝑢𝑠𝑡 = 1 – (1 − 𝑅2 )*
𝑛−𝑝−1
Ejemplo:
“Butler Trucking Company, una empresa que se dedica al transporte de

objetos y mercancías en el sur de California. Para mejorar el horario de trabajo,
los gerentes deseaban estimar el tiempo total de recorrido diario necesario
para efectuar las entregas. Los gerentes creen que este tiempo está
relacionado con las Millas recorridas y el número de entregas. A partir de una
muestra aleatoria simple de 10 repartidores con asignación de recorrido se
obtuvieron los datos que se presentan en la tabla siguiente” (Anderson, Dennis
& Thomas, 2012, p. 324):
Tabla 24:
Datos ejercicio Correlación múltiple
Número de Tiempo de
Millas
Recorrido entregas viaje (hrs)
x1
x2 y
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
4 100 2 6.5
5 50 2 4.2
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
124
9 90 3 7.6
10 90 2 6.1
Fuente: Anderson, Dennis y Thomas, 2012
¿Existe correlación lineal múltiple?
Paso1: Planteamiento de Hipótesis:
H0:  = 0 No existe correlación lineal múltiple entre Tiempo de viaje y N°

de millas, N° de entregas.
H1:   0 Existe correlación lineal múltiple entre Tiempo de viaje y N° de

millas, N° de entregas.
En la tabla A-5 con gln = p = 2, gld = n – p – 1 = 7 y  = 0,05
Rechazar H0 como verdadera si F  4,7374
Usando Excel:
Tabla 25:
Tabla ANOVA de ejemplo de regresión múltiple
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 2 21,6005565 10,8002783 32,8783674 0,00027624
Residuos 7 2,29944349 0,32849193
Total 9 23,9
F = 32,8784
Paso4: Decisión sobre H0
F = 32,8784 y el valor Crítico = 4,7374
F > 4,7374
Rechazamos H0 como verdadera, H0 es falsa
Paso5: Conclusión
Como Ho es falsa, en consecuencia, H1 es verdadera
Existe evidencia muestral suficiente para probar que “Existe correlación lineal
múltiple entre Tiempo de viaje y N° de millas, N° de entregas”
2. Regresión lineal múltiple:
125
2.1. Ecuación de regresión
Tanto como en la regresión lineal simple, se debe obtener la ecuación de regresión.
Para este cálculo se emplea el método de los mínimos cuadrados. Un software
como Excel nos puede brindar:
Tabla 26:
Tabla de coeficientes ejemplo correlación múltiple
Estadístico
Coeficientes Error típico t Probabilidad
Intercepción -0,8687014 0,95154772 -0,9129352 0,3916343
Millas x1 0,0611346 0,00988849 6,18239696 0,00045296
N° entregas x2 0,92342537 0,22111346 4,17625125 0,00415662
𝑦̂ = −0,8687 + 0,06113𝑥1 + 0,9235𝑥2
Que requiere verificar si alguno de los coeficientes (β1 = 0,06113 y β2 = 0,9235)

es igual a 0, lo que nos permitiría decidir si la ecuación hallada es realmente el
mejor modelo o se requiere otro con menos variables independiente.
2.2. Prueba de Hipótesis para los coeficientes β1 y β2
Paso1: Planteamiento de Hipótesis
H0: 𝛽1 = 0 H0: 𝛽2 = 0
H1: 𝛽1  0 H1: 𝛽2  0
Paso2: Regla de decisión
Si el valor P   rechazamos H0 como verdadera
 = 0,05
Paso3: Calculo de los estadísticos de prueba:
De la Tabla obtenida de Excel:
Estadístico
Coeficientes Error típico t Probabilidad
Intercepción -0,8687014 0,95154772 -0,9129352 0,3916343
Millas x1 0,0611346 0,00988849 6,18239696 0,00045296
N° entregas x2 0,92342537 0,22111346 4,17625125 0,00415662
126
Para 𝛽1 : Para 𝛽2 :
Valor P = 0,00045296 Valor P = 0,00415662
El Valor P = 0,00045296 Valor P = 0,00415662
Valor P <  Valor P < 
Rechazamos H0 como Rechazamos H0 como

verdadera. H0 es falsa verdadera. H0 es falsa
Paso5: Conclusión
Como H0 es falas, H1 es verdadera:
𝛽1 no es cero, por tanto: 𝛽2 no es cero, por tanto:

conservamos la variable x1 en conservamos la variable x2 en
la ecuación de regresión. la ecuación de regresión.
127
Tema n° 4. Series de tiempo.
Una serie temporal es un modelo matemático denominado proceso estocástico. Un

proceso estocástico es el desarrollo de una variable aleatoria en el tiempo.
“Fenómenos como las ventas, los gastos, el PBI, la producción de una fábrica, los
clientes atendidos, el desarrollo de factores económicos son ejemplos de aplicación
del Análisis de Series Temporales. En todos ellos los datos suceden en el tiempo y
varían aleatoriamente” (Jurado, 2017, p. 67).
“Por esto, una serie temporal se conoce como un suceso estocástico de variable
discreta-discreta, discreta-continua. Se compone de los datos aleatorios tomados
sucesivamente en el tiempo lo que configura una gráfica como:” (Jurado, 2017, p.
162)
1.8
1.6
1.4
1.2
Mediciones
0.8
0.6
0.4
0.2
0
0 5 10 15 20 25
tiempo
Figura 23: Ejemplo de serie temporal. Tomado de Estadística Inferencial.

Manual de Auto aprendizaje, por Sergio Jurado, 2017.
Una serie temporal está compuesta de: Tendencia, Estacionalidad, variación

Cíclica, y la Aleatoria.
1. Componentes de una serie temporal:
1.1. Tendencia:
La tendencia es la componente que provoca que la serie se nueva de manera
ascendente, descendente o de forma constante. Se puede calcular usando
los métodos de regresión estudiados en anteriormente.
128
Figura 24: Formas de la componente Tendencia en la serie temporal,
Tomado de Estadística Inferencial. Manual de Auto aprendizaje, por
Sergio Jurado, 2017.
1.2. Estacional:
“La estacionalidad en una serie temporal provoca que a serie se mueva arriba
hacia debajo de manera periódica en periodos cortos, generalmente en
periodos de un año, por ello el nombre de Estacionalidad ya que las
variaciones suceden año a año en las mismas fechas, como las estaciones”
(Jurado, 2017, p. 75).
Repeticiones
estacionales
Figura 25: Componente estacional en una serie temporal.

Tomado de Estadística Inferencial. Manual de Auto
aprendizaje, por Sergio Jurado, 2017.
Se puede analizar por medio de métodos de suavizamiento como promedios

móviles.
Promedio Móviles:
El método de promedios móviles desarrolla calculo promedios de los datos

muestrales, tomándolos en agrupamientos que toman datos avanzando,
dejando un dato y tomado otro hacia adelante para reemplazarlo. Así los
129
promedios pueden tomar una cantidad par de datos como una cantidad
impar.
Promedios móviles Impares
El procedimiento más simple es el de un promedio impar. Los promedios

móviles se calculan en agrupaciones de 3, 5, 7 a más datos sucesivos
Ejemplo: Calcule los promedios móviles de amplitud 3:
= (345+342+338)/3
= (342+338+347)/3
Figura 26: Cálculo de promedios móviles 3, Tomado de

Estadística Inferencial. Manual de Auto aprendizaje,
por Sergio Jurado, 2017.
El cálculo de los promedios móviles produce un “suavizamiento” de la serie

temporal, que disminuye el valor de los datos más bajos o altos, como se puede
apreciar en la siguiente imagen:
Figura 27: Gráfica de promedio móvil 3, Tomado de

Promedios Móviles Pares
Los promedios móviles pares requieren de un procedimiento un poco más

extenso:
130
Ejemplo: Calcule los promedios móviles de amplitud 4:
Se realiza en dos etapas; ❶

Calcule el promedio móvil
tomando 4 datos y luego
calcule ❷ promedios móviles
de 2 de los promedios de 4:
Se hace un cálculo de
promedios móviles buscando un
valor que coincida con un valor
de la variable Y.
La gráfica resultante es:
Figura 28: Calculo de promedio móvil 4,

por Jurado, 2017
Figura 29: Grafica promedio móvil 4. Tomado de

Elegir un tipo de promedio Móvil:
131
En una serie temporal puede elegir una amplitud de promedio móvil de
acuerdo con comportamiento de los datos o en función de los periodos de
medición o toma de datos
Cuando se toman en cuenta los valores medidos y su variación se puede

actuar conforme lo indica (Jurado, 2017):
“Se puede apreciar en este gráfico

una secuencia repetida de 3 puntos
antes de un pico, por tanto, el
promedio móvil que debe aplicarse
debería ser de amplitud 3 (PM3)”
(Jurado, Estadística, 2017 p. 126).
En el segundo caso, se toma

simplemente el periodo que se uso
Figura 30: Estacionalidad. en la toma de datos, si los datos se
Fuente: Elaboración propia tomaron cada mes, entonces se
asumen un Promedio Móvil de 12, si
los datos fueron tomados cada trimestre se asumen un Promedio Móvil de 4.
El cálculo del Componente Estacional entonces se realiza con:

𝑌
∑
𝑃𝑀
Ei = *f
𝑘
1.3. Cíclico:
Se establece como aquella variación en la serie que produce cambios de
manera periódica, pero con periodos muy amplios, de más de un año.
Figura 31: Gráfica de componente cíclico por Universidad de

Valladolid, 2012.
Podemos citar como ejemplo de las causas de estas variaciones: los cambios
de gobiernos democráticos, el fenómeno del niño, . . .
132
1.4. Irregular
Los sucesos como los desastres naturales, terremotos, sunamis, huracanes y los
sucesos socio políticos como los golpes de estado en países poco
desarrollados, las guerras, los fenómenos económicos como las crisis
financieras . . . son causa de variaciones de este tipo. Son totalmente
aleatorias e impredecibles.
2. Modelos de series temporales:

Las series temporales pueden componerse por medio de:
Modelo Aditivo:
Desarrolla el cálculo de la proyección se hace mediante componentes que se

suman.
Modelo Multiplicativo:
Se desarrolla un pronóstico en función del producto de las componentes.
En nuestro desarrollo, emplearemos el modelo multiplicativo.
3. Análisis de series temporales:
Ejemplo: Supongamos que estamos interesados en el mercado inmobiliario y

deseamos proyectar nuestras expectativas sobre el Precio de los departamentos en
los distritos de La Molina, Miraflores, San Borja, San Isidro y Surco. Del Instituto Nacional
de Estadística e Informática (INEI) obtenemos los datos que se muestran en la tabla:
Tabla 27: Evolución Precios por m2 de departamentos en La Molina, Miraflores, San

Borja, San Isidro y Surco por trimestres
Trimestre 2013 2014 2015 2016 2017 2018
T1 4198,3 4733,5 4981,5 5249,7 4854,6 4717,5
T2 4553,2 5094,1 4926,0 4916,8 4786,0 4658,5
T3 4588,3 4762,4 4952,5 5009,7 4749,8 4872,3
T4 4436,5 4818,1 5049,7 5205,4 4691,3 4890,6
Fuente: Series Trimestrales, Gerencia de general de Estudios Económicos. por (Banco
Central de Reserva del Perú, 2019),
Elaboración: Propia
a. Calcule la ecuación regresión.
b. Determine los índices estacionales
c. Determine un pronóstico de las ventas trimestrales para el cuarto trimestre del

año 2019
133
Solución:
a. Análisis de Tendencia
Ordenando los datos de manera vertical como muestra la imagen:
Figura 32: Disposición de datos para el cálculo

de la Serie Temporal. Fuente: Elaboración propia
Con el apoyo de Excel podemos calcular la ecuación de regresión:
Figura 33: Gráfica en Excel de una serie temporal.

De acuerdo con este cálculo:
𝑦̂ = 4677,784 + 11,432𝑥
134
b. Índices Estacionales
Tomando en cuenta que los datos son trimestrales asumiremos u promedio

móvil de amplitud 4:
Para ello calculamos los promedios tomando 4 datos a la vez y avanzamos

dejando uno y tomando el siguiente en la tabla vertical como se puede ver en
la figura siguiente:
A. Cálculo de promedios móviles PM4
Datos Promedio
4198,3
4553,2 4444,075
4588,3
4436,5
4553,2
4588,3 4577,875
4436,5
4733,5
4588,3
4436,5 4713,10
4733,5
5094,1
Figura 34: Desarrollo del cálculo de promedios móviles 4,

Fuente: Elaboración Propia.
B. Promedios Móviles Centrados PMC4:
Dado que los promedios están ubicados al centro de cada grupo, para
que el resultado coincida con un valor de la serie original se vuelve a
calcular un promedio móvil de amplitud 2:
Figura 35: Cálculo de Promedios móviles centrados.
135
De la ecuación general:
𝑌 𝑌
𝑦̂ = T * E * C * I despejando E= =
𝑇∗𝐶∗𝐼 𝑃𝑀
Determinamos el valor de los coeficientes estacionales E 0 =Y/PM4
Tabla 28: Desarrollo del cálculo de los componentes estacionales.
Fuente: elaboración propia.
Los valores de la última columna son valores no estandarizados de E, por ello

se debe proceder estandarizarlos. Copiamos la última columna y la
ordenamos por trimestres y años en una tabla de doble entrada:
Tabla 29: Componentes estacionales no estandarizados y sus promedios
Los índices :
Los promedios se multiplican por

el factor de corrección fc:
fc = 4/3.99736
136
Los resultados obtenidos son los índices o componentes estacionales:
Tabla 30: Índices estacionales de Precios de

departamentos por m2.
c. La proyección para el 4to trimestre del 2019:
Al cuarto trimestre del 2019 le corresponde el periodo t = 28 ya que nuestros

datos son en total 24 hasta el cuarto trimestre del 2018.
X = 28
T = Y = 4677,784 + 11,432𝑥
T = Y = 4677.784 + 11,432(18)
T = 4997,88
𝐸𝑇4 = 0,9967
Proyección:
Trimestre 4: 𝑦̂ = T*E4= 4997.88*0.9967 = S/.4981,387
137
De la teoría a la práctica
LECTURA N° 4:
"Las balanzas del bienestar" Margarita León. El País, 18 de junio de 2019.
“Imaginemos un Gobierno que decide destinar un 2% de su producto interior bruto a
prevenir y erradicar la violencia contra las mujeres. Los recursos se distribuyen en
medidas preventivas, en mejorar los mecanismos de detección, atender a las víctimas
y procurarles un presente y un futuro dignos. En el transcurso de unos años, aumentan
las denuncias, el número de agresiones y homicidios disminuye, y mejoran las
expectativas de las víctimas. La sociedad termina por comprender la raíz y complejidad
del fenómeno y muestra mayoritariamente su repulsa. Imaginemos ahora otro Gobierno
que destina esa misma proporción de su PIB a combatir la violencia provocada por el
narcotráfico. En este caso, los recursos se destinan casi en su totalidad a incrementar el
gasto militar y de las fuerzas de seguridad del Estado. Aquí, en cambio, la violencia que
se pretendía combatir, lejos de disminuir, aumenta. En un contexto de corrupción
generalizada, los homicidios se disparan justamente en los territorios con mayor
presencia del ejército y la policía. La inseguridad ciudadana alcanza niveles sin
precedentes.
¿Tiene ese mismo esfuerzo presupuestario el mismo valor añadido? Depende de lo que
entendamos por valor añadido. Si lo que evaluamos es el aumento del gasto en sí, es
probable que en el segundo ejemplo el saldo sea superior al estimular a su vez otros
gastos paralelos, como la producción de armas, por ejemplo. Si, por el contrario, lo que
nos interesa es constatar mejoras de progreso social, concluiríamos que, bajo
parámetros objetivables de calidad de vida de las comunidades más afectadas, su
incidencia es positiva en el primero y negativa en el segundo. Sin embargo, el indicador
más utilizado, por ser el más disponible, para analizar los esfuerzos en política pública de
los Estados y compararlos entre sí es precisamente la evolución del gasto en relación
con el PIB. Sin duda, el camino más corto, pero no el mejor. En general, evaluar las
balanzas públicas en función de la productividad y el crecimiento puede llegar a
distorsionar sobremanera la realidad porque mide a medias lo que pretende medir, y,
además, otras cosas importantes, como si somos más libres, felices o solidarios, ni siquiera
las observa.
¿Cómo otorgar, entonces, valor a aquello que contribuye al bienestar de una

sociedad? Esta es precisamente la pregunta para la que Jacinda Arden, primera
ministra de Nueva Zelanda busca respuesta. Su presupuesto nacional del bienestar,
anunciado hace unos días, está orientado a lidiar con problemas y desafíos tan dispares
como la pobreza infantil, la discriminación de la comunidad maorí, la violencia
machista, el sinhogarismo y las emisiones de CO2. La idea no es nueva, pero se mueve
despacio. Ya en 2008, la Unión Europea, a instancias de la presidencia francesa, creó
una comisión para la medición de la economía y el progreso social. Ese esfuerzo
colectivo, recogido en Medir nuestras vidas, de los economistas Stiglitz, Sen y Fitoussi, no
era más que una fundada invitación a mejorar la métrica. Es un debate necesario al
que cada vez se unen más voces, desde el ecologismo hasta el feminismo, que, para
ser justos, especialmente esta última hace siglos que lo reclama, pero de momento no
parece que hayamos pasado de formular las preguntas. De hecho, algunos años más
tarde del trabajo de aquella comisión, la UE dio un paso en la dirección contraria al
incluir en la contabilidad económica los beneficios de la prostitución y el tráfico de
drogas. En el ejercicio de visibilizar la aportación de las actividades ilegales a la
138
economía resultaron unas nuevas sumas que consiguieron aumentar la riqueza europea
hasta en un 4%. Todo un contrasentido. A través de los desafíos impuestos por la crisis
ecológica, el aumento generalizado de la desigualdad y la automatización del empleo
es más fácil entender la perversidad de crecimientos que no asumen los límites sociales
o ecológicos.
Los 17 Objetivos de Desarrollo Sostenible de la ONU son un referente importante en esta

dirección, pero por ver está que logre efectivamente ir más allá de realizar esfuerzos
añadidos que funcionan más desde una lógica de promedios de cumplimiento que
desde un ejercicio reflexivo de cambio de paradigma. Mientras los países nombran
guardianes que velan por cada uno de los 17 indicadores, en la mayoría de los
escenarios no se vislumbran todavía las rupturas políticas necesarias. Si el futuro
deseable es un sistema económico más pequeño que opere dentro de los límites que
impone la naturaleza y esté socialmente cohesionado, tendríamos que empezar por
reconocer que los dilemas a los que nos enfrentamos raramente son un juego de suma
cero. Aún tenemos pendiente decidir colectivamente dónde termina el derecho de una
minoría a elegir lo que para la mayoría resulta inalcanzable. Todavía nos queda por
entender cómo resolver la relación prevalente entre percepción de bienestar y
capacidad de consumo material. Se trata de llegar al fondo de las cuestiones. No
vayamos a quedarnos nadando en la superficie por miedo a sumergirnos mar adentro”
(León, 2019).
Actividad N° 4: Auto evaluación – Correlación, Regresión y Series

Temporales (cuestionario en línea)
Ingrese al aula virtual >> Unidad 4 >> Cuestionario: Autoevaluación 4
- Ingrese al cuestionario.
- Lea las instrucciones con mucha atención.
- Realice los ejercicios.
139
Bondad de ajuste Medida de la capacidad de un modelo de regresión para explicar

las variaciones en la variable dependiente. Lo que también nos lleva decir que es la
medida de lo bien que se ajusta un modelo a los datos de dos variables correlacionadas
(Triola, 2009).
Correlación: Una correlación existe entre dos variables cuando una de ellas está
relacionada con la otra de alguna manera (Triola, 2009)
Regresión: . . . en los modelos probabilísticos, en los que una variable no está

determinada por completo por la otra variable. Por ejemplo, la estatura de un niño no
está completamente determinada por la estatura del padre . . . las estaturas de éstos
tienden a regresar o a revertirse a la estatura media más común de las personas del
mismo género (Triola, 2009).
Coeficiente de correlación lineal: Es el valor que mide la fuerza de la relación entre dos
variables . . . (Jurado, 2017).
Coeficiente de determinación: es una medida descriptiva de la proporción o porcentaje

de la variabilidad total que es explicada por el modelo de regresión (Newbol,
Carlson & Thorne, 2008).
Ecuación de regresión: Es la ecuación de la recta que representa mejor la relación . . .

entre dos variables. Esta recta se conoce como recta de regresión y su ecuación como
ecuación de regresión. A partir de datos muestrales apareados, calcularemos valores
estimados de b0, que es la intersección en “y”, y la pendiente b1, de manera que
podamos identificar una línea recta con la ecuación: 𝑦̂ = 𝑏0 + 𝑏1 𝑥 (Newbol, Carlson &
Thorne, 2008).
Margen de error: Es la diferencia máxima probable (con probabilidad 1 - a) entre el valor

muestral observado y el valor real de la poblacional (Triola, 2009)
Linealizar Método matemático que permite transformar una ecuación exponencial,

logarítmica, etcétera, en una ecuación lineal con la finalidad de aplicar el análisis de
correlación y regresión lineal (Devore, 2008).
Suavizamiento Proceso del método de Análisis de series temporales que permite quitar
la componente estacional de la serie (Anderson, Dennis & Thomas, 2012).
Variable Dependiente Es la variable con valores que cambian en alguna medida al

cambiar los valores de la variable independiente (Jurado, 2017).
Variable independiente Variable que tiene la cualidad de tener datos que cuando se
producen, provocan que la variable dependiente los produzca (Jurado, 2017).
Bibliografía de la Unidad 4

140
CENGAGE Learning.


León, M. (18 de junio de 2019). Las balanzas dle bienestar [versión digital]. El País.
Recuperado de

CENGAGE learning.
141
3. APENDICES.
APENDICE A.
Tabla 31.
Tabla de Números Aleatorios
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9
0 0 3 6 9 6 5 0 6 4 7 9 8 1 2 4 4 8 3 6
7 2 4 5 4 1 2 4 4 6 9 2 6 6 6 5 2 0 0 4
4 9 3 4 4 2 4 5 9 0 8 7 4 8 4 2 1 2 5 4
6 1 2 8 1 3 3 2 0 2 6 0 7 2 7 9 1 4 6 5
9 3 4 0 8 1 3 3 7 3 2 4 8 6 7 9 0 6 2 8
1 8 7 1 3 4 3 9 3 1 7 8 3 7 3 3 0 8 3 5
0 2 1 4 7 5 7 3 1 1 9 3 3 8 7 4 8 0 2 5
3 6 3 4 1 9 8 1 0 9 0 1 1 0 9 3 6 8 6 0
9 4 6 7 6 7 9 1 2 2 7 2 3 9 3 4 6 9 8 1
5 9 9 8 4 4 5 9 1 5 4 7 3 0 6 8 1 6 8 1
8 1 8 8 2 3 9 1 4 2 4 9 1 4 0 6 0 3 2 8
0 5 3 8 0 4 3 9 4 6 0 8 8 3 8 7 1 2 2 3
9 7 1 4 2 7 5 5 2 8 6 6 3 5 5 9 9 0 6 8
6 9 5 9 4 9 1 8 2 0 2 5 3 9 1 2 0 3 0 8
7 4 9 1 4 8 8 6 6 8 5 9 4 8 5 7 7 9 6 7
3 8 1 2 2 4 0 1 4 5 7 7 4 0 4 8 9 4 7 0
9 9 9 7 8 0 0 9 3 2 7 0 5 0 2 7 8 7 3 6
4 8 1 5 8 5 5 1 4 9 6 4 4 4 7 4 5 7 5 0
8 6 7 3 6 1 7 1 1 3 5 5 7 4 4 7 6 7 2 8
4 7 1 4 0 3 6 2 4 4 4 4 0 3 6 3 4 1 2 8
6 5 5 8 8 4 3 4 8 9 0 6 7 6 0 0 8 6 8 4
9 2 0 9 8 2 8 3 4 3 2 8 9 4 8 7 9 4 9 4
1 3 7 9 4 8 3 7 0 8 6 6 6 8 4 1 1 3 1 3
3 3 2 5 6 7 6 1 6 6 1 7 6 5 8 1 6 2 2 7
9 9 9 8 2 8 8 1 9 1 6 2 7 5 1 8 6 1 4 4
1 7 5 4 0 9 5 7 8 7 5 0 8 6 6 2 5 3 2 3
2 7 1 7 8 8 3 8 6 9 9 2 7 4 5 9 5 6 6 6
6 0 9 2 6 1 5 1 2 3 1 8 1 2 0 8 6 4 4 0
3 3 6 3 4 9 6 4 4 9 8 5 7 3 3 4 2 3 2 8
0 1 9 7 9 7 9 4 4 1 6 6 7 7 0 7 9 8 6 8
4 7 1 5 3 7 0 9 2 5 2 1 0 0 4 0 4 6 8 8
7 8 9 9 6 8 5 6 8 1 9 2 7 5 1 7 0 1 5 5
2 2 3 3 1 8 1 9 8 4 2 8 5 2 8 1 7 6 4 6
2 6 6 4 1 4 8 1 0 6 0 1 3 4 0 9 1 2 8 6
5 1 9 0 3 9 1 6 1 7 8 8 2 8 0 7 8 4 8 0
9 0 5 8 4 9 2 2 3 9 8 5 9 5 7 8 4 9 9 4
8 6 1 9 2 5 0 0 7 9 0 0 7 4 5 4 8 6 2 3
1 9 1 0 9 7 5 1 2 7 1 9 4 8 4 8 9 6 6 9
5 6 0 6 1 3 3 5 2 1 0 1 9 2 8 0 2 6 6 3
8 6 9 9 8 0 8 1 8 2 6 6 8 4 0 7 8 2 5 1
3 1 6 1 0 5 7 5 7 0 6 3 0 4 1 4 0 3 0 8
Fuente: Estadística inferencial, por Claudio Cerrón, 2012.
142
143
APENDICE B. Tablas de Valores Críticos:
Tabla 32: Tabla de la Distribución Normal Tabla 33: Tabla de la distribución T

DISTRIBUCIÓN NORMAL TABLA A3 DISTRIBUCION t : Valores críticos t
Valores de -Z 2 colas 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0.005 0.002 0.001 
1 cola 0.45 0.4 0.35 0.25 0.15 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 
TABLA A-2
Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 gl Valores t
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002 1 0.158 0.325 0.510 1.000 1.963 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619
2 0.142 0.289 0.445 0.816 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
3 0.137 0.277 0.424 0.765 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
4 0.134 0.271 0.414 0.741 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
5 0.132 0.267 0.408 0.727 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
-3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
6 0.131 0.265 0.404 0.718 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
7 0.130 0.263 0.402 0.711 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
8 0.130 0.262 0.399 0.706 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
9 0.129 0.261 0.398 0.703 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
10 0.129 0.260 0.397 0.700 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 * 0.0049 0.0048
11 0.129 0.260 0.396 0.697 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
12 0.128 0.259 0.395 0.695 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
13 0.128 0.259 0.394 0.694 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
14 0.128 0.258 0.393 0.692 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
15 0.128 0.258 0.393 0.691 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
-2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233 16 0.128 0.258 0.392 0.690 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 17 0.128 0.257 0.392 0.689 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.127 0.257 0.392 0.688 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
19 0.127 0.257 0.391 0.688 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 * 0.0495 0.0485 0.0475 0.0465 0.0455
20 0.127 0.257 0.391 0.687 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681 21 0.127 0.257 0.391 0.686 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 22 0.127 0.256 0.390 0.686 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.127 0.256 0.390 0.685 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
24 0.127 0.256 0.390 0.685 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
25 0.127 0.256 0.390 0.684 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
-1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
26 0.127 0.256 0.390 0.684 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
27 0.127 0.256 0.389 0.684 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
28 0.127 0.256 0.389 0.683 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 29 0.127 0.256 0.389 0.683 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776 30 0.127 0.256 0.389 0.683 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
31 0.127 0.256 0.389 0.682 1.054 1.309 1.696 2.040 2.453 2.744 3.022 3.375 3.633
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
32 0.127 0.255 0.389 0.682 1.054 1.309 1.694 2.037 2.449 2.738 3.015 3.365 3.622
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
34 0.127 0.255 0.389 0.682 1.052 1.307 1.691 2.032 2.441 2.728 3.002 3.348 3.601
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
36 0.127 0.255 0.388 0.681 1.052 1.306 1.688 2.028 2.434 2.719 2.990 3.333 3.582
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
38 0.127 0.255 0.388 0.681 1.051 1.304 1.686 2.024 2.429 2.712 2.980 3.319 3.566
0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
40 0.126 0.255 0.388 0.681 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
Nota: Para valores de z menores que -3.49 utilice 0.0001 como área
*Utilice valores comunes que resultan por 45 0.126 0.255 0.388 0.680 1.049 1.301 1.679 2.014 2.412 2.690 2.952 3.281 3.520
interpolación 50 0.126 0.255 0.388 0.679 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
z = -1.645 Área = 0.0500 60 0.126 0.254 0.387 0.679 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
z = -2.575 Área = 0.0050 65 0.126 0.254 0.387 0.678 1.045 1.295 1.669 1.997 2.385 2.654 2.906 3.220 3.447
Fuente: Estadística por Mario Triola (2012) Valores comunes
70 0.126 0.254 0.387 0.678 1.044 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435
75 0.126 0.254 0.387 0.678 1.044 1.293 1.665 1.992 2.377 2.643 2.892 3.202 3.425
críticos 80 0.126 0.254 0.387 0.678 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
Nivel de Valor 90 0.126 0.254 0.387 0.677 1.042 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402
confianza crítico 100 0.126 0.254 0.386 0.677 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
0.90 1.645 200 0.126 0.254 0.386 0.676 1.039 1.286 1.653 1.972 2.345 2.601 2.839 3.131 3.340
0.95 1.96 500 0.126 0.253 0.386 0.675 1.038 1.283 1.648 1.965 2.334 2.586 2.820 3.107 3.310
0.99 2.575
144
750 0.126 0.253 0.385 0.675 1.037 1.283 1.647 1.963 2.331 2.582 2.815 3.101 3.304 90 59.196 61.754 65.647 69.126 73.291 107.565 109.969 113.145 118.136 124.116 128.299 137.208
1000 0.126 0.253 0.385 0.675 1.037 1.282 1.646 1.962 2.330 2.581 2.813 3.098 3.300 100 67.328 70.065 74.222 77.929 82.358 118.498 121.017 124.342 129.561 135.807 140.169 149.449
2000 0.126 0.253 0.385 0.675 1.037 1.282 1.646 1.961 2.328 2.578 2.810 3.094 3.295 Fuente: Estadística por Mario Triola (2013)
Grande 0.126 0.253 0.385 0.675 1.036 1.282 1.645 1.960 2.327 2.576 2.808 3.091 3.291
Fuente: Estadística aplicada a la economía y los negocios por Allen Webster (2002)
Tabla 34: Tabal de la distribución Ji cuadrada Tabla 35: Tablas de pruebas de Signo, Wilcoxon, Correlación lineal
TABLA A4 Distribución Ji cuadrada (𝑥 2 ) simple y Correlación de Spearman

gl 0.995 0.990 0.975 0.950 0.900 0.100 0.075 0.050 0.025 0.010 0.005 0.001
1 0.000 0.000 0.001 0.004 0.016 2.706 3.170 3.841 5.024 6.635 7.879 10.828
=0.01
Valores críticos para la prueba
0.929
0.881
0.833
0.794
0.755
0.727
0.703
0.679
0.654
0.635
0.615
0.600
0.584
0.570
0.556
0.544
0.532
0.521
0.511
0.501
0.491
0.483
0.475
0.467
donde z corresponde a
2 0.010 0.020 0.051 0.103 0.211 4.605 5.181 5.991 7.378 9.210 10.597 13.816
----
----
de correlación de rangos de
3 0.072 0.115 0.216 0.352 0.584 6.251 6.905 7.815 9.348 11.345 12.838 16.266
=0.02
0.943
0.893
0.833
0.783
0.745
0.709
0.678
0.648
0.626
0.604
0.582
0.566
0.550
0.535
0.520
0.508
0.496
0.486
0.476
0.466
0.457
0.448
0.440
0.433
0.425
4 0.207 0.297 0.484 0.711 1.064 7.779 8.496 9.488 11.143 13.277 14.860 18.467
Por ejemplo, si  = 0.05, entonces z = 1.96

----
5 0.412 0.554 0.831 1.145 1.610 9.236 10.008 11.070 12.833 15.086 16.750 20.515
Spearman
=0.05
𝑛−1
0.886
0.786
0.738
0.700
0.648
0.618
0.587
0.538
0.521
0.503
0.485
0.472
0.460
0.447
0.435
0.425
0.415
0.406
0.398
0.390
0.382
0.375
0.680
0.362
0.56
----
6 0.676 0.872 1.237 1.635 2.204 10.645 11.466 12.592 14.449 16.812 18.548 22.458
Para n > 30 utilice rs =

nivel de significancia .
7 0.989 1.239 1.690 2.167 2.833 12.017 12.883 14.067 16.013 18.475 20.278 24.322
=0.10
0.829
0.714
0.643
0.600
0.564
0.536
0.503
0.484
0.464
0.446
0.429
0.414
0.401
0.391
0.380
0.370
0.361
0.353
0.344
0.337
0.331
0.324
0.317
0.312
0.306
0.9
Tabla A-9
8 1.344 1.646 2.180 2.733 3.490 13.362 14.270 15.507 17.535 20.090 21.955 26.124
9 1.735 2.088 2.700 3.325 4.168 14.684 15.631 16.919 19.023 21.666 23.589 27.877
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
NOTA:
n
5
6
7
8
9
10 2.156 2.558 3.247 3.940 4.865 15.987 16.971 18.307 20.483 23.209 25.188 29.588
2 colas
11 2.603 3.053 3.816 4.575 5.578 17.275 18.294 19.675 21.920 24.725 26.757 31.264
1 cola
3. Para valores de n > 30, se utiliza una aproximación normal

2. Rechace la hipótesis nula si el estadístico de prueba (T) es
1. * indica que no es posible obtener un valor en la región
12 3.074 3.571 4.404 5.226 6.304 18.549 19.602 21.026 23.337 26.217 28.300 32.909
prueba de rangos con signo
0.05
101
110
120
130
141
152
13 3.565 4.107 5.009 5.892 7.042 19.812 20.897 22.362 24.736 27.688 29.819 34.528
0.1
11
14
17
21
26
30
36
41
47
54
60
68
75
83
92
1
2
4
6
8
Valores críticos para la
14 4.075 4.660 5.629 6.571 7.790 21.064 22.180 23.685 26.119 29.141 31.319 36.123
menor o igual que el valor crítico en la tabla
𝑛(𝑛+1)(2𝑛+1)
0.025
0.05
107
117
127
137
15 4.601 5.229 6.262 7.261 8.547 22.307 23.452 24.996 27.488 30.578 32.801 37.697
11
14
17
21
25
30
35
40
46
52
59
66
73
81
90
98
𝑛(𝑛+1)
1
2
4
6
8
*
de Wilcoxon
24

𝑇−
0.01
0.02
102
111
120
10
13
16
20
24
28
33
38
43
49
56
62
69
77
85
93
16 5.142 5.812 6.908 7.962 9.312 23.542 24.716 26.296 28.845 32.000 34.267 39.252
0
2
3
5
7
*
*
z=
17 5.697 6.408 7.564 8.672 10.085 24.769 25.970 27.587 30.191 33.409 35.718 40.790
crítica. No rechace Ho.

0.005
0.01
100
109
Tabla A-8
10
13
16
19
20
28
32
37
43
49
55
61
68
76
84
92
0
2
3
5
7
*
*
*
18 6.265 7.015 8.231 9.390 10.865 25.989 27.218 28.869 31.526 34.805 37.156 42.312
19 6.844 7.633 8.907 10.117 11.651 27.204 28.458 30.144 32.852 36.191 38.582 43.820
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
n
5
6
7
8
9
20 7.434 8.260 9.591 10.851 12.443 28.412 29.692 31.410 34.170 37.566 39.997 45.315
con:
2 colas
1 Cola
21 8.034 8.897 10.283 11.591 13.240 29.615 30.920 32.671 35.479 38.932 41.401 46.797
22 8.643 9.542 10.982 12.338 14.041 30.813 32.142 33.924 36.781 40.289 42.796 48.268
3. Para valores de n > 25, se utiliza una aproximación normal

1. * inidica que no es posible obtener un valor en la región
0.05
0.1
2. Rechace la hpótesis nula si el número del signo menos

23 9.260 10.196 11.689 13.091 14.848 32.007 33.360 35.172 38.076 41.638 44.181 49.728
frecuente (x) es menor o igual al valor crítico de la tabla.

0
0
0
1
1
1
2
2
3
3
3
4
4
5
5
5
6
6
7
7
7
*
*
*
*
Valores críticos para la
24 9.886 10.856 12.401 13.848 15.659 33.196 34.572 36.415 39.364 42.980 45.559 51.179
prueba del signo
0.025
0.05
25 10.520 11.524 13.120 14.611 16.473 34.382 35.780 37.652 40.646 44.314 46.928 52.620
0
0
0
1
1
1
2
2
2
3
3
4
4
4
5
5
5
6
6
7
*
*
*
*
*
𝑛
2

𝑥 +0.5 −
0.01
0.02
𝑛
2
0
0
0
0
1
1
1
2
2
2
3
3
4
4
4
5
5
5
6
*
*
*
*
*
*
26 11.160 12.198 13.844 15.379 17.292 35.563 36.984 38.885 41.923 45.642 48.290 54.052
27 11.808 12.879 14.573 16.151 18.114 36.741 38.184 40.113 43.195 46.963 49.645 55.476
𝑧=
0.005
0.01
Tabla A-7
0
0
0
0
1
1
1
2
2
2
3
3
3
4
4
4
5
5
*
*
*
*
*
*
*
28 12.461 13.565 15.308 16.928 18.939 37.916 39.380 41.337 44.461 48.278 50.993 56.892
crítica. No rechace Ho.

29 13.121 14.256 16.047 17.708 19.768 39.087 40.573 42.557 45.722 49.588 52.336 58.301
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
n
1
2
3
4
5
6
7
8
9
30 13.787 14.953 16.791 18.493 20.599 40.256 41.762 43.773 46.979 50.892 53.672 59.703
con:
31 14.458 15.655 17.539 19.281 21.434 41.422 42.948 44.985 48.232 52.191 55.003 61.098
coeficiente de correlación de
33 15.815 17.074 19.047 20.867 23.110 43.745 45.311 47.400 50.725 54.776 57.648 63.870
Para una prueba Ho: ρ = 0 contra H1: ρ≠

Valores críticos para el
α=0.01
0.999
0.959
0.917
0.875
0.834
0.798
0.765
0.735
0.708
0.684
0.661
0.641
0.623
0.606
0.575
0.561
0.505
0.463
0.402
0.378
0.361
0.305
0.286
0.269
0.256
rechace Ho si el valor absoluto de r es

mayor que el valor crítico en la tabla
0.59
0.43
0.33
35 17.192 18.509 20.569 22.465 24.797 46.059 47.663 49.802 53.203 57.342 60.275 66.619
37 18.586 19.960 22.106 24.075 26.492 48.363 50.005 52.192 55.668 59.893 62.883 69.346
Pearson r
40 20.707 22.164 24.433 26.509 29.051 51.805 53.501 55.758 59.342 63.691 66.766 73.402
α=0.05
0.878
0.811
0.754
0.707
0.666
0.632
0.602
0.576
0.553
0.532
0.514
0.497
0.482
0.468
0.456
0.444
0.396
0.361
0.335
0.312
0.294
0.279
0.254
0.236
0.207
0.196
0.95
0.22
50 27.991 29.707 32.357 34.764 37.689 63.167 65.030 67.505 71.420 76.154 79.490 86.661
Tabla A-6
60 35.534 37.485 40.482 43.188 46.459 74.397 76.411 79.082 83.298 88.379 91.952 99.607
100
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
60
70
80
90
NOTA:
n
4
5
6
7
8
9
70 43.275 45.442 48.758 51.739 55.329 85.527 87.680 90.531 95.023 100.425 104.215 112.317
0,
80 51.172 53.540 57.153 60.391 64.278 96.578 98.861 101.879 106.629 112.329 116.321 124.839
145
Fuente: Estadística por Mario Triola (2013)
146
Tabla 36: Tabla de la distribución F
TABLA A5 Distribución F  = 0,025

Grados de libertad del numerador (gl1)
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 30000
1 647.79 799.50 864.16 899.58 921.85 937.11 948.22 956.66 963.28 968.63 976.71 984.87 993.10 997.25 1001.41 1005.60 1009.80 1014.02 1018.24
2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.387 39.398 39.415 39.431 39.448 39.456 39.465 39.473 39.481 39.490 39.498
3 17.4434 16.0441 15.4392 15.1010 14.8848 14.7347 14.6244 14.5399 14.4731 14.4189 14.3366 14.2527 14.1674 14.1241 14.0805 14.0365 13.9921 13.9473 13.9022
4 12.2179 10.6491 9.9792 9.6045 9.3645 9.1973 9.0741 8.9796 8.9047 8.8439 8.7512 8.6565 8.5599 8.5109 8.4613 8.4111 8.3604 8.3092 8.2575
5 10.0070 8.4336 7.7636 7.3879 7.1464 6.9777 6.8531 6.7572 6.6811 6.6192 6.5245 6.4277 6.3286 6.2780 6.2269 6.1750 6.1225 6.0693 6.0155
6 8.8131 7.2599 6.5988 6.2272 5.9876 5.8198 5.6955 5.5996 5.5234 5.4613 5.3662 5.2687 5.1684 5.1172 5.0652 5.0125 4.9589 4.9044 4.8493
7 8.0727 6.5415 5.8898 5.5226 5.2852 5.1186 4.9949 4.8993 4.8232 4.7611 4.6658 4.5678 4.4667 4.4150 4.3624 4.3089 4.2544 4.1989 4.1426
8 7.5709 6.0595 5.4160 5.0526 4.8173 4.6517 4.5286 4.4333 4.3572 4.2951 4.1997 4.1012 3.9995 3.9472 3.8940 3.8398 3.7844 3.7279 3.6704
9 7.2093 5.7147 5.0781 4.7181 4.4844 4.3197 4.1970 4.1020 4.0260 3.9639 3.8682 3.7694 3.6669 3.6142 3.5604 3.5055 3.4493 3.3918 3.3331
10 6.9367 5.4564 4.8256 4.4683 4.2361 4.0721 3.9498 3.8549 3.7790 3.7168 3.6209 3.5217 3.4185 3.3654 3.3110 3.2554 3.1984 3.1399 3.0800
11 6.7241 5.2559 4.6300 4.2751 4.0440 3.8807 3.7586 3.6638 3.5879 3.5257 3.4296 3.3299 3.2261 3.1725 3.1176 3.0613 3.0035 2.9441 2.8830
Grados de libertad del denominador (gl2)
12 6.5538 5.0959 4.4742 4.1212 3.8911 3.7283 3.6065 3.5118 3.4358 3.3736 3.2773 3.1772 3.0728 3.0187 2.9633 2.9063 2.8478 2.7874 2.7252
13 6.4143 4.9653 4.3472 3.9959 3.7667 3.6043 3.4827 3.3880 3.3120 3.2497 3.1532 3.0527 2.9477 2.8932 2.8372 2.7797 2.7204 2.6590 2.5957
14 6.2979 4.8567 4.2417 3.8919 3.6634 3.5014 3.3799 3.2853 3.2093 3.1469 3.0502 2.9493 2.8437 2.7888 2.7324 2.6742 2.6142 2.5519 2.4875
15 6.1995 4.7650 4.1528 3.8043 3.5764 3.4147 3.2934 3.1987 3.1227 3.0602 2.9633 2.8621 2.7559 2.7006 2.6437 2.5850 2.5242 2.4611 2.3956
16 6.1151 4.6867 4.0768 3.7294 3.5021 3.3406 3.2194 3.1248 3.0488 2.9862 2.8890 2.7875 2.6808 2.6252 2.5678 2.5085 2.4471 2.3831 2.3165
17 6.0420 4.6189 4.0112 3.6648 3.4379 3.2767 3.1556 3.0610 2.9849 2.9222 2.8249 2.7230 2.6158 2.5598 2.5020 2.4422 2.3801 2.3153 2.2477
18 5.9781 4.5597 3.9539 3.6083 3.3820 3.2209 3.0999 3.0053 2.9291 2.8664 2.7689 2.6667 2.5590 2.5027 2.4445 2.3842 2.3214 2.2558 2.1872
19 5.9216 4.5075 3.9034 3.5587 3.3327 3.1718 3.0509 2.9563 2.8801 2.8172 2.7196 2.6171 2.5089 2.4523 2.3937 2.3329 2.2696 2.2032 2.1336
20 5.8715 4.4613 3.8587 3.5147 3.2891 3.1283 3.0074 2.9128 2.8365 2.7737 2.6758 2.5731 2.4645 2.4076 2.3486 2.2873 2.2234 2.1562 2.0856
21 5.8266 4.4199 3.8188 3.4754 3.2501 3.0895 2.9686 2.8740 2.7977 2.7348 2.6368 2.5338 2.4247 2.3675 2.3082 2.2465 2.1819 2.1141 2.0425
22 5.7863 4.3828 3.7829 3.4401 3.2151 3.0546 2.9338 2.8392 2.7628 2.6998 2.6017 2.4984 2.3890 2.3315 2.2718 2.2097 2.1446 2.0760 2.0035
23 5.7498 4.3492 3.7505 3.4083 3.1835 3.0232 2.9023 2.8077 2.7313 2.6682 2.5699 2.4665 2.3567 2.2989 2.2389 2.1763 2.1107 2.0415 1.9680
24 5.7166 4.3187 3.7211 3.3794 3.1548 2.9946 2.8738 2.7791 2.7027 2.6396 2.5411 2.4374 2.3273 2.2693 2.2090 2.1460 2.0799 2.0099 1.9356
25 5.6864 4.2909 3.6943 3.3530 3.1287 2.9685 2.8478 2.7531 2.6766 2.6135 2.5149 2.4110 2.3005 2.2422 2.1816 2.1183 2.0516 1.9811 1.9058
26 5.6586 4.2655 3.6697 3.3289 3.1048 2.9447 2.8240 2.7293 2.6528 2.5896 2.4908 2.3867 2.2759 2.2174 2.1565 2.0928 2.0257 1.9545 1.8784
27 5.6331 4.2421 3.6472 3.3067 3.0828 2.9228 2.8021 2.7074 2.6309 2.5676 2.4688 2.3644 2.2533 2.1946 2.1334 2.0693 2.0018 1.9299 1.8530
28 5.6096 4.2205 3.6264 3.2863 3.0626 2.9027 2.7820 2.6872 2.6106 2.5473 2.4484 2.3438 2.2324 2.1735 2.1121 2.0477 1.9797 1.9072 1.8295
29 5.5878 4.2006 3.6072 3.2674 3.0438 2.8840 2.7633 2.6686 2.5919 2.5286 2.4295 2.3248 2.2131 2.1540 2.0923 2.0276 1.9591 1.8861 1.8075
30 5.5675 4.1821 3.5894 3.2499 3.0265 2.8667 2.7460 2.6513 2.5746 2.5112 2.4120 2.3072 2.1952 2.1359 2.0739 2.0089 1.9400 1.8664 1.7870
40 5.4239 4.0510 3.4633 3.1261 2.9037 2.7444 2.6238 2.5289 2.4519 2.3882 2.2882 2.1819 2.0677 2.0069 1.9429 1.8752 1.8028 1.7242 1.6375
60 5.2856 3.9253 3.3425 3.0077 2.7863 2.6274 2.5068 2.4117 2.3344 2.2702 2.1692 2.0613 1.9445 1.8817 1.8152 1.7440 1.6668 1.5810 1.4826
120 5.1523 3.8046 3.2269 2.8943 2.6740 2.5154 2.3948 2.2994 2.2217 2.1570 2.0548 1.9450 1.8249 1.7597 1.6899 1.6141 1.5299 1.4327 1.3110
##### 5.0240 3.6889 3.1162 2.7859 2.5666 2.4083 2.2876 2.1919 2.1137 2.0484 1.9448 1.8326 1.7085 1.6402 1.5660 1.4836 1.3884 1.2685 1.0173
147
Tabla 37: Tabla de la distribución F
TABLA A5 Distribución F  = 0,05
Grados de libertad del numerador (gl1)
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 30000
1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 243.91 245.95 248.01 249.05 250.10 251.14 252.20 253.25 254.31
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.487 19.496
3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602 8.6385 8.6166 8.5944 8.5720 8.5494 8.5265
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025 5.7744 5.7459 5.7170 5.6877 5.6581 5.6282
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581 4.5272 4.4957 4.4638 4.4314 4.3985 4.3651
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742 3.8415 3.8082 3.7743 3.7398 3.7047 3.6690
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 3.5747 3.5107 3.4445 3.4105 3.3758 3.3404 3.3043 3.2674 3.2299
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 3.2839 3.2184 3.1503 3.1152 3.0794 3.0428 3.0053 2.9669 2.9277
Grados de libertad del denominador (gl2)
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365 2.9005 2.8637 2.8259 2.7872 2.7475 2.7068
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740 2.7372 2.6996 2.6609 2.6211 2.5801 2.5381
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464 2.6090 2.5705 2.5309 2.4901 2.4480 2.4046
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436 2.5055 2.4663 2.4259 2.3842 2.3410 2.2964
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589 2.4202 2.3803 2.3392 2.2966 2.2524 2.2066
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 2.5342 2.4630 2.3879 2.3487 2.3082 2.2664 2.2229 2.1778 2.1309
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 2.4753 2.4034 2.3275 2.2878 2.2468 2.2043 2.1601 2.1141 2.0660
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756 2.2354 2.1938 2.1507 2.1058 2.0589 2.0098
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304 2.1898 2.1477 2.1040 2.0584 2.0107 1.9606
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906 2.1497 2.1071 2.0629 2.0166 1.9681 1.9171
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555 2.1141 2.0712 2.0264 1.9795 1.9302 1.8782
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242 2.0825 2.0391 1.9938 1.9464 1.8963 1.8434
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960 2.0540 2.0102 1.9645 1.9165 1.8657 1.8119
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707 2.0283 1.9842 1.9380 1.8894 1.8380 1.7833
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476 2.0050 1.9605 1.9139 1.8648 1.8128 1.7572
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267 1.9838 1.9390 1.8920 1.8424 1.7896 1.7333
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075 1.9643 1.9192 1.8718 1.8217 1.7684 1.7112
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898 1.9464 1.9010 1.8533 1.8027 1.7488 1.6908
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736 1.9299 1.8842 1.8361 1.7851 1.7306 1.6719
148
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586 1.9147 1.8687 1.8203 1.7689 1.7138 1.6543
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446 1.9005 1.8543 1.8055 1.7537 1.6981 1.6379
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317 1.8874 1.8409 1.7918 1.7396 1.6835 1.6225
40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389 1.7929 1.7444 1.6928 1.6373 1.5766 1.5092
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480 1.7001 1.6491 1.5943 1.5343 1.4673 1.3896
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587 1.6084 1.5543 1.4952 1.4290 1.3519 1.2543
##### 3.8415 2.9958 2.6050 2.3720 2.2141 2.0986 2.0096 1.9385 1.8799 1.8308 1.7522 1.6664 1.5706 1.5173 1.4592 1.3940 1.3181 1.2215 1.0145
149
Tabla 38: Valores críticos para la prueba de rachas Tabla 39: Constantes para gráficos de control
Tabla 14-2 Constantes de una gráfica de control.
n: Número de 𝑋̅ s R
observaciones
A2 A3 B3 B4 D3 D4
en subgrupo
2 1.880 2.659 0.000 3.267 0.000 3.267
3 1.023 1.954 0.000 2.568 0.000 2.574
4 0.729 1.628 0.000 2.266 0.000 2.282
5 0.577 1.427 0.000 2.089 0.000 2.114
6 0.483 1.287 0.030 1.970 0.000 2.004
7 0.419 1.182 0.118 1.882 0.076 1.924
8 0.373 1.099 0.185 1.815 0.136 1.864
9 0.337 1.032 0.239 1.761 0.184 1.816
10 0.308 0.975 0.284 1.716 0.223 1.777
11 0.285 0.927 0.321 1.679 0.256 1.744
12 0.266 0.886 0.354 1.646 0.283 1.717
13 0.249 0.850 0.382 1.618 0.307 1.693
14 0.235 0.817 0.406 1.594 0.328 1.672
15 0.223 0.789 0.428 1.572 0.347 1.653
16 0.212 0.763 0.448 1.552 0.363 1.637
17 0.203 0.739 0.466 1.534 0.378 1.622
18 0.194 0.718 0.482 1.518 0.391 1.608
19 0.187 0.698 0.497 1.503 0.403 1.597
20 0.180 0.680 0.510 1.490 0.415 1.585
21 0.173 0.663 0.523 1.477 0.425 1.575
22 0.167 0.647 0.534 1.466 0.434 1.566
23 0.162 0.633 0.545 1.455 0.443 1.557
24 0.157 0.619 0.555 1.445 0.451 1.548
25 0.153 0.606 0.565 1.435 0.459 1.541
Fuente: Adaptado del ASTM Manual on the Presentation of Data and Control Chart
Analysis, ©1976 ASTM, pp. 134-136. Reproducido bajo permiso de American
Society of Testing and Materials.
Fuente: Estadística por Mario Triola (2012) Fuente: Estadística por Mario Triola (2012)
150
151

Manual Estadística Aplicada A La Gestion

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual Estadística Aplicada A La Gestion

Încărcat de

Drepturi de autor:

Formate disponibile

Estadística Aplicada

UNIDAD 1 MUESTREO Y ESTIMACIÓN DE PARÁMETROS

UNIDAD 2: PRUEBA DE HIPÓTESIS E INFERENCIAS

UNIDAD 3: ANÁLISIS DE VARIANZA, EXPERIMENTOS MULTINOMIALES Y TABLAS DE

Tema n° 1. Análisis de la Varianza. ............................................................................................. 68

UNIDAD 4: CORRELACIÓN, REGRESIÓN Y SERIES DE TIEMPO

Tema n° 1. Correlación. .............................................................................................................. 113

Estadística aplicada a la gestión es una asignatura teórico-práctica, diseñada para la

En el presente manual, se exponen teorías y procedimientos de análisis estadísticos

Pretendemos que el manual apoye los procesos de aprendizaje de manera básica -

El manual está organizado en cuatro Unidades que corresponde a las unidades

En la Unidad 1, se desarrollan los temas de Muestreo y diseños experimentales,

En la Unidad 4 se explican los conceptos y procedimientos de las técnicas de predicción:

En cada unidad se plantean ejercicios desarrollados, como preguntas de auto

Al finalizar la asignatura, el estudiante será capaz de analizar Información de carácter

Muestreo y diseños Prueba de hipótesis Análisis de Correlación,

Al finalizar la Al finalizar la Al finalizar la

Tiempo mínimo de estudio:

Unidad 1 Unidad 2 Unidad 3 Unidad 4

24 horas 24 horas 24 horas 24 horas

Resultado de aprendizaje de la unidad: Al finalizar la unidad, el estudiante será capaz de aplicar

La estadística que desarrolla cuestiones como el caso de desarrollar una descripción de

En esta sección abordamos la explicación de técnicas estadísticas que permiten

1.1. Población y Muestra.

Es entonces claro que no se puede indagar científicamente nada sin antes

A continuación, les presento una definición:

Censo “es el conjunto de datos de todos los miembros de la población”

“Una muestra es un subconjunto observado de valores poblacionales que

1.2. Marco muestral

El objetivo de un marco muestral es el

Son aquellos métodos en los que la muestra se elige de manera aleatoria

Aleatorio simple: “es un método que se

Sistemático: “Supongamos que la lista de la

Por estratos: “Se desarrolla dividiendo la

Se obtiene por tanto muestras grandes de los Figura 4: Muestreo

Por conglomerados: Los conglomerados son

Es el resumen del diseño del proceso de muestreo, en ella se explican las

Una ficha técnica es el documento que obligatoriamente se presenta al

Objetivos del Estudio: Evaluación y opinión sobre la situación económica

Encuestadora: Pontificia Universidad Católica del Perú

Nº de registro: 0108 REE/JNE.

Universo o población objetivo: Hombres y mujeres mayores de 18 años,

Marco muestral: La selección de manzanas se hizo utilizando como marco

Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.

Distritos que resultaron seleccionados en la muestra: La selección aleatoria de

Procedimiento de muestreo: Se realizó una muestra probabilística polietápica.

Ponderación: En Lima Metropolitana los datos se ponderaron en función del

Técnica de recolección de datos: Mediante entrevistas directas en las

Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.

Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de 2009.

Financiamiento: Pontificia Universidad Católica del Perú.

Página web: http://www.pucp.edu.pe

Ficha Técnica obtenida de (Pontificia Universidad Catolica del Perú, 2009)

2.1. Diseño Observacional

A. Transversal: En un estudio transversal, los datos se observan, se miden y se

B. Retrospectivo: En un estudio retrospectivo (o de control de caso), se

C. Prospectivo: En un estudio prospectivo (o longitudinal o de cohorte), los

2.2. Diseño Experimental

Se puede definir como un estudio de caso de aplicación de un estímulo y

En otros casos se puede efectuar dos mediciones; una medición antes de

Su deficiencia radica en que como no se emplea la aleatoriedad para

Se diseñan de tal manera que existen:

- Por lo menos un grupo de control y otro de experimentación.