Sunteți pe pagina 1din 233

UNIVERSIDAD CONTINENTAL VIRTUAL

MANUAL AUTOFORMATIVO

ASIGNATURA
ESTADÍSTICA APLICADA

Autores
DORIS PILAR TOYKIN URBINA
CESAR FERNANDO SOLIS LAVADO
ÍNDICE

ÍNDICE
INTRODUCCIÓN
ORGANIZACIÓN DE LA ASIGNATURA
Resultado de aprendizaje de la asignatura
Unidades didácticas
Tiempo mínimo de estudio
UNIDAD I: ESTIMACIÓN DE PARÁMETROS
Diagrama de organización de la unidad
Organización de los aprendizajes
Tema N° 1: MUESTREOS
1.1. Definiciones básicas
1.2. Muestreo
1.3. Tipos de muestreo
1.3.1. Muestreos probabilísticos
1.3.2. Muestreos no probabilísticos
1.4. Errores de muestreo
Actividad Auto formativa N° 1
Auto Evaluación 1
Tema N° 2: DISTRIBUCIONES MUESTRALES
2.1. Distribuciones muestrales de proporciones
2.2. Distribuciones de medias - teorema de límite
2.3. Distribución chi cuadrada
2.4. Distribución t studen
Lectura N° 1 ¿Cómo identificamos límites de seguridad para los pasajeros?
Actividad N° 1
Actividad Auto formativa N° 2
Auto Evaluación N° 2
Tema N° 3: ESTIMADORES
3.1 Estimador puntual
3.2 Propiedades de los estimadores
3.2.1. Estimadores insesgados
3.2.2. Varianza de errores cuadráticos medios de un estimador puntual
3.3. Método de máxima verosimilitud
Tema N°4: Intervalo de confianza para un parámetro
4.1. Intervalo de confianza
4.2. Intervalo de confianza para una porción de una población
4.3. Intervalo de confianza para una media de población
4.3.1. Intervalo de confianza para una media de población con varianza co-
nocida.
4.3.2. Intervalo de confianza para una media de población con varianza des-
conocida. – t student
4.3.3. Intervalo de confianza para varianza conocida poblacional - chi cua-
drada
Actividad Auto formativa N° 4
Auto Evaluación N° 4
Tema N° 5: Intervalo de confianza para dos parámetros
5.1. Intervalo de confianza para una porción de una población
5.2. Intervalo de confianza para una media de población

LECTURA SELECCIONADA N° 2 ¿Funciona la terapia de contacto?

Actividad N° 2

Actividad Auto formativa N° 5

Auto Evaluación 5
PRUEBA DE DESARROLLO UNIDAD I
Glosario de la Unidad I
Bibliografía de la Unidad I

UNIDAD II: PRUEBA DE HIPÓTESIS Y PRUEBAS NO PARAMÉTRICAS


Tema N° 1: HIPOTESIS Y TIPOS DE PRUEBAS DE HIPOTESIS
1.1. Hipótesis
1.2. Prueba de hipótesis
1.3. Componente de una prueba de hipótesis
1.3.1. Hipótesis nula
1.3.2. Hipótesis alternan
1.4. Estadística de prueba
1.5. Región crítica, nivel de significancia, valor crítico y valor P
1.6. Tipos de errores
1.7. Potencia de una prueba de hipótesis
1.8. Tipos de hipótesis
Actividad Auto formativa N° 1
Auto Evaluación 1
Tema N° 2: MÉTODOS PARA REALIZAR PRUEBAS DE HIPOTESIS
2.1. Pruebas de hipótesis sobre proporción
2.2. Pruebas de hipótesis sobre medias
2.3. Pruebas de hipótesis sobre varianza
2.4. Pruebas de
Lectura N° 3 ¿La Estadística aplicada en el trabajo?
Actividad N° 3
Actividad Auto formativa N° 2
Auto Evaluación 2
Tema N° 3: PRUEBA DE HIPOTESIS PARA UNA MUESTRA
3.1 Prueba de hipótesis sobre una proporción
3.2 Prueba de hipótesis sobres la media, varianza conocida.
3.3 Prueba de hipótesis sobres la media de una distribución normal, varianza
desconocida.
3.4 Prueba de hipótesis sobre la varianza
Lectura N° 3 ¿La Estadística en el trabajo?
Actividad N° 3
Actividad Auto formativa N° 3
Auto Evaluación N° 3
Tema N° 4: PRUEBA DE HIPOTESIS PARA DOS MUESTRAS
4.1. Prueba de hipótesis sobre dos proporciones.
4.2. Prueba de hipótesis sobre la igualdad de dos medias, varianzas conocidas
4.3. Prueba de hipótesis sobres las medias de dos distribuciones normales,
varianzas desconocidas
4.4. Prueba de hipótesis para la igualdad de dos varianzas
Lectura N° 4 ¿La Estadística en el trabajo?
Actividad N° 4
Actividad Auto formativa N° 4
Auto Evaluación N° 4
Tema N° 5: PRUEBAS DE BONDAD, TABLAS DE CONTINGENCIAS
5.1 Prueba de bondad Chi cuadrada
5.2 pruebas de tablas de contingencia

Tema N° 6: PRUEBAS DE IDEPENDENCIA Y HOMOGENEIDAD


2.1. Distribuciones muestrales de proporciones
2.2. Distribuciones de medias - teorema de límite
2.3. Distribución chi cuadrada
2.4. Distribución t - studen
Actividad Auto formativa N° 6
Auto Evaluación 6
PRUEBA DE DESARROLLO UNIDAD II
Glosario de la Unidad II
Bibliografía de la Unidad II
INTRODUCCIÓN

Cuando nos preguntamos qué significa “inferir”, de acuerdo con el diccionario de la


Real Academia Española, significa “sacar una consecuencia o deducir algo de otra
cosa”. El principal objetivo de la Estadística consiste en poder decir algo con respecto
a un gran conjunto de personas, mediciones u otros entes (población) con base a las
observaciones hechas sobre sólo un parte (muestra) de dicho gran conjunto.

La capacidad para “decir algo” sobre poblaciones con base en muestras, está basada
en el supuesto con respecto a algún modelo de probabilidad que permite explicar las
características del fenómeno bajo observación. Al conjunto de procedimientos esta-
dísticos en los que interviene la aplicación de modelos de probabilidades y mediante
los cuales se realiza alguna afirmación sobre poblaciones con base en la información
producida por muestras se le llama Inferencia Estadística o Estadística Inferencial.

El presente Manual Autoformativo de ESTADISTICA APLICADA está diseñado para


que el estudiante pueda adquirir los fundamentos necesarios para poder realizar los
procesos relacionados a la inferencia y análisis de poblaciones con base de la infor-
mación proporcionada por las muestras respectivas. Proporcionando las definiciones,
características y ejemplos que nos permita resolver dos tipos de situaciones que se
generan en una investigación: La estimación y el contraste de hipótesis, que serán
desarrollados en la Unidad I y II, mostrando los diversos métodos estadísticos más
útiles y viables aplicados a situaciones del campo profesional. Además, en la Unidad
III se mostrará dos técnicas estadísticas de gran importancia- análisis de regresión
y de correlación enfocados en algunos campos de aplicación. Y concluimos en la Uni-
dad IV con Diseños Experimentales y control estadísticos de procesos que la aplica-
ción de la estadística para analizar datos y estudiar y vigilar la habilidad y desempeño
en un proceso. Esto organizado a través de un diagrama que muestra la frecuencia
con que ocurren distintos valores o medicines de resultados de los procesos.

La estadística se estudia como una materia en muchos planes de estudio en las di-
versas profesiones y forma parte de especializaciones y posgrado en las más diversas
disciplinas. Es, de hecho, casi imposible que un profesional no haya recibido en for-
mación al menos un curso de estadísticas, esto implica que pongamos más la aten-
ción e importancia a esta signatura porque nos provee de los métodos y técnicas en
las aplicaciones de nuestro quehacer profesional.

El autor
ORGANIZACIÓN DE LA ASIGNATURA

RESULTADO DE APRENDIZAJE DE LA ASIGNATURA

Al término de la asignatura el estudiante será capaz de, interpretar data aplicando


métodos y técnicas de la estadística inferencial y de pronóstico, para la toma de de-
cisiones.

UNIDADES DIDÁCTICAS

UNIDAD I UNIDAD II UNIDAD III UNIDAD IV


ESTIMACIÓN DE ESTIMACIÓN ANÁLISIS DE CO- DISEÑOS EXPERI-
PARÁMETROS DE PARÁME- RRELACIÓN Y RE- MENTALES Y CON-
TROS GRESIÓN LINEAL Y TROL ESTADÍSTICO
SERIES DE TIEMPO DE PROCESOS

Resultado de Resultado de Resultado de Resultado de


aprendizaje aprendizaje aprendizaje aprendizaje
Al finalizar la uni- Al finalizar la uni- Al finalizar la uni- Al finalizar la unidad
dad el estudiante dad el estudiante dad el estudiante el estudiante será
será capaz de, es- será capaz de, será capaz de, in- capaz de, interpre-
timar los paráme- realizar pruebas terpretar pronósti- tar los resultados
tros poblacionales de hipótesis y cos utilizando el del diseño experi-
con datos prove- pruebas no para- análisis de correla- mental y de control
nientes de una o métricas para ción, regresión y estadístico de pro-
dos poblaciones. una y dos pobla- modelos de series cesos, mediante
ciones a partir de de tiempo. pruebas de compa-
situaciones esta- ración y de dos fac-
dísticas. tores.

TIEMPO MÍNIMO DE ESTUDIO

UNIDAD I: UNIDAD II: UNIDAD III: UNIDAD IV:


Semana 1 y 2 Semana 3 y 4 Semana 5 y 6 Semana 7 y 8

24 horas 24 horas 24 horas 24 horas


UNIDAD I: ESTIMACIÓN DE PARÁMETROS

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD I

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad I:
Al finalizar la unidad el estudiante será capaz de, estimar los parámetros poblacionales
con datos provenientes de una o dos poblaciones.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema N° 1: MUESTREOS
1.1. Definiciones básicas
 Identifica las caracte-  Valora la im-
1.2. Muestreo
rísticas del muestreo portancia de
1.3. Tipos de muestreo
muestreo y de la
1.3.1. Muestreos probabi-  Distingue los métodos
estimación de
lísticos de muestreo.
parámetros e in-
1.3.2. Muestreos no proba-
 Identifica las distribu- terpreta correc-
bilísticos
ciones muéstrales. tamente los re-
1.4. Errores de muestreo
sultados para
 Identifica valores críti-
Tema N° 2: DISTRIBUCIONES una buena toma
cos.
MUESTRALES de decisiones.
 Identifica y discrimina
2.1. Distribuciones muestrales de
los diversos casos de
proporciones
intervalos de confianza
2.2. Distribuciones de medias - para un parámetro
teorema de límite
 Calcula intervalos de
2.3. Distribución chi cuadrada confianza para un pa-
rámetro
2.4 Distribución t studen
 Identifica y discrimina
Lectura N° 1. ¿Cómo identifica-
los diversos casos de
mos límites de seguridad para los
intervalos de confianza
pasajeros?
para dos parámetros
Tema N° 3: ESTIMADORES
 Calcula intervalos de
3.1 Estimador puntual
confianza para dos pa-
3.2 Propiedades de los estimado-
rámetros
res
3.2.1. Estimadores insesgados
3.2.2. Varianza de errores cuadrá- Actividad Auto forma-
ticos medios de un estimador tiva N° 1
puntual
Auto evaluación N° 1
Actividad N° 1
3.3. Método de máxima verosimili- Los estudiantes participan
zad en el foro de discusión so-
bre la lectura ¿Cómo iden-
Tema N°4: Intervalo de con-
tificamos límites de seguri-
fianza para un parámetro
dad para los pasajeros?
4.1. Intervalo de confianza
Actividad Auto forma-
4.2. Intervalo de confianza para tiva N° 2
una porción de una población
Auto evaluación N° 2
4.3. Intervalo de confianza para
Actividad Auto forma-
una media de población
tiva N° 4
4.2.1. Intervalo de confianza para
una media de población con va- Auto evaluación N° 4
rianza conocida.
Actividad N° 2
4.2.2. Intervalo de confianza para
una media de población con va- Los estudiantes participan
rianza desconocida. – t student en el foro de siscusión so-
4.2.3. Intervalo de confianza para bre la lectura ¿Funciona la
varianza conocida poblacional - chi terapia de contacto?
cuadrada
Actividad Auto forma-
Tema N° 5: Intervalo de con- tiva N° 5
fianza para dos parámetros
Auto evaluación N° 5
5.1. Intervalo de confianza para
una porción de una población
5.2. Intervalo de confianza para
una media de población
LECTURA N° 2 ¿Funciona la tera-
pia de contacto?

PRUEBA DE DESARROLLO UNI-


DAD I

Glosario de la Unidad I
TEMA N° 1: MUESTREO

El muestreo es el proceso de seleccionar un conjunto de individuos de una población


con el fin de estudiarlos y poder caracterizar el total dela población. Imaginemos que
queremos saber algo de un universo o población, por ejemplo, que porcentaje de los
habitantes de Perú fuman habitualmente. Una de las formas de obtener ese dato
sería contactarnos con todos los habitantes de Perú (31 151 643 habitantes) y pre-
guntarle si fuman o no. La otra forma sería seleccionar un subconjunto de personas
(por ejemplo 1 500 personas), preguntarles si fuma, y usar esta información como
una información como una aproximación de la información que se busca. Bueno, este
grupo de 1 500 personas que me permiten conocer mejor cómo se comporta el total
de peruanos frente al consumo de cigarros, es una muestra, y la forma en que se
selecciono es el muestreo.

Para poder entender y desarrollar la técnica del muestreo, debemos conocer algunas
definiciones básicas que nos permita comprender la magnitud del tema a desarrollar.

1.1. DEFINICIONES BÁSICAS

1.1.1. DATOS:

Son las observaciones recolectadas (como mediciones, géneros, respuestas de en-


cuestas).

1.1.2. UNIDAD DE ANÁLISIS

También llamado elemento de la población, es aquella unidad indivisible de la que se


obtiene el dato estadístico.

1.1.3. ESTADÍSTICA:

Es un conjunto de métodos para plantear estudios y experimentos, obtener datos y


luego organizar, resumir, presentar, analizar interpretar y llegar a conclusiones ba-
sadas en los datos.

1.1.4. POBLACIÓN:

Es el conjunto completo de todos los elementos (puntuaciones, personas, animales,


medidas, etcétera) que se va estudiar. El conjunto es completo porque incluye a
todos los sujetos que se estudiarán. Cuando el número de elementos que conforman
la población es ilimitado, se dice que la población es finita, en cambio, cuando el
número de elementos de una población es ilimitado o bien muy grande para consi-
derarlo como tal, se tiene una población infinita.
1.1.5. MUESTRA:

Es un subconjunto de miembros seleccionados de una población. Para que una mues-


tra sea representativa, y por lo tanto útil, debe reflejar las similitudes y diferencias
encontradas en la población, ejemplificar las características de la misma.

1.1.6. PARÁMETRO:

Es una medición numérica que describe algunas características de una población.


También se le denomina estadísticos muéstrales. Se denota con las letras mayúsculas
griegas como por ejemplo: Media poblacional:  ; Desviación estándar:  ; Varianza:
2
1.1.7. ESTADÍSTICO:

Es una medición numérica que describe algunas características de una muestra. Se

denota con las letras minúsculas latinas como por ejemplo: Media aritmética: X ; Des-

viación estándar: S ; Varianza: S2 .


1.1.8. TIPOS DE DATOS:

 DATOS CUALITATIVOS:

Datos categóricos o de atributos; se divide en diferentes categorías que se


distingue por algunas características no numéricas.

 DATOS CUANTITATIVOS:

Consiste en números que representan conteos o mediciones. Los datos cuantitativos


se describen con mayor detalle distinguiendo entre dos tipos: discretos (resultan
cuando el número de los valores posibles es un número finito o un número que “puede
contarse”, es decir se representan con valores posibles: 0, 1, 2, 3, …) y continuos
(resulta de un infinito de posibles valores que corresponden a alguna escala continua
que cubre un rango de valores sin huecos, interrupciones o saltos).

1.1.9. DISEÑO DE EXPERIMENTOS:

De todas las definiciones, el concepto de una muestra aleatoria simple es esencial-


mente importante, por el papel que tiene este manual y la estadística en general. Es
así, que los métodos estadísticos se rigen por los datos. Por lo regular obtenemos
datos de dos fuentes distintas: los estudios observacionales y experimentales.
DEFINICIONES:

En un espacio observacional, vemos y medimos características específicas, pero


no intentamos modificar a los sujetos que estamos estudiando.

En un experimento aplicamos algunos tratamientos y luego procedemos a ob-


servar sus efectos sobre los sujetos (en los experimentos, a los sujetos se les deno-
mina unidades experimentales).

Figura Nº 01 –Tipos de estudios estadísticos. Tomado de Mario F. Triola, 2009, p 22

DEFINICIONES:

En un estudio transversal, los datos se observan, miden y reúnen en un solo mo-


mento.

En un estudio retrospectivo (o de control de casos), los datos se toman del


pasado (mediante el examen de registros, entrevistas y otros).
En un estudio prospectivo (o longitudinal o de cohorte), los datos se reunirán
el en futuro y se toman de grupos (llamados cohortes) que comparten factores co-
munes. (Triola, 2009, página 22)

1.2 MUESTREO

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos


los elementos con la finalidad de hacer inferencias sobre la población de una pobla-
ción), se selecciona a una muestra entendiendo por tal como una parte representa-
tiva de la población.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya fun-


ción básica es determinar que parte de la una población debe examinarse, con la
finalidad de hacer inferencias sobre la dicha población. La muestra debe lograr una
representación adecuada de la población en la que se reproduzca de mejor manera
los rasgos esenciales de dicha población que son importantes para la investigación.

Los errores más comunes que se pueden cometer son:

 Hacer conclusiones muy generales a partir de la observación de sólo una parte


de la población, se denomina error de muestreo.

 Hacer conclusiones hacia una población mucho más grande de la que origi-
nalmente se tomó la muestra, se denomina error de inferencia.

1.3 TIPOS DE MUESTREOS

Existen diferentes criterios de clasificación de los tipos de muestreo, aunque en ge-


neral se divide en dos grandes grupos: Método de muestreo probabilístico y no pro-
babilístico.

1.3.1. MUESTREO PROBABÍLISTICO:

Los métodos de muestreo probabilísticos son aquellos que se basan en el princi-


pio de la equiprobabilidad. Es decir, en los que todos los individuos tienen la
misma probabilidad de ser seleccionados para formar parte de una muestra
(muestra aleatoria), y por consiguiente todas las posibles muestras de tamaño
n tiene la misma probabilidad de ser seleccionadas (muestra aleatoria simple).
Esto implica seleccionar miembros de una población de forma que cada miembro
tenga una posibilidad conocida de ser elegido (muestra probabilística). Sólo estos
métodos de muestreos probabilísticos nos aseguran la representatividad de la
muestra extraída y son por lo tanto más recomendables. Los métodos probabi-
lísticos más importantes son:
1.3.1.1. MUESTREO ALEATORIO SIMPLE:

Las características que define el muestreo aleatorio simple son dos:

 Cada miembro de la población tiene la misma probabilidad de ser seleccionado.

 En la selección de los miembros de la muestra, cada uno de los elementos de la


población son independientes de los otros.

1.3.1.2. MUESTREO SISTEMÁTICO:

En este método se elige un punto de partida y luego seleccionamos cada k-


énesimo elemento de la población.

1.3.1.3. MUESTREO POR CONGLOMERADOS O RACIMOS:

Este tipo de muestreo primero se divide el área de la población en secciones


(o conglomerados), y luego elegimos al azar algunos de estos conglomerados,
y después elegimos a todos los miembros de los conglomerados seleccionados.

1.3.1.4. MUESTREO ESTRATIFICADOS:

En este método se subdivide a la población en al menos dos subgrupos (o es-


tratos) diferentes, de manera que los sujetos que pertenecen al mismo sub-
grupo compartan las mismas características (como género o edad) y luego lo
obtenemos una muestra de cada subgrupo (o estrato).

1.3.1.5. MUESTREO DE ACEPTACIÓN:

Este muestreo es una aplicación del muestreo aleatorio en el control de calidad


en la industria. Este muestreo se da en cualquier relación cliente -proveedor,
ya que en diferentes empresas o en el interior de ellas, se requiere este tipo de
medidas

1.3.2. MUESTREO NO PROBABÍLISTICO:

La manera mucho más fácil de obtener una muestra, es simplemente elegirla, sin
ningún mecanismo aleatorio. Su utilización se justifica por la comodidad y economía,
pero tiene el inconveniente de que no hay una teoría que le permita tener intervalos
de confianza. Los casos más comunes son:

1.3.2.1. MUESTREO POR CUOTAS:

En este método se divide la población en dos grupos o cuotas de acuerdo con


ciertas características o variables. Después se determinan las proporciones en
cada grupo de acuerdo con la representación que tiene en la población. Puede
hacerse combinaciones de las cuotas (sexo y estado civil; profesión e ingreso,
etc.). En la selección de los casos interviene el criterio o juicio del investigador.

1.3.2.2. MUESTREO AUTOSELECTIVO:

Cuando la gente participa en una exploración y responde voluntariamente una


forma impresa en un periódico o en una revista o hace una llamada telefónica
a un medio de comunicación, como el radio, la televisión o internet, conforman
lo que se llama muestra auto selectiva. La gente que toma el cuidado de res-
ponder puede no ser representativa de la población.

1.3.2.3. MUESTREO DE JUICIO O SELECCIÓN INTENCIONAL:

Cuando se tiene una población pequeña pero heterogénea, el investigador ins-


pecciona la totalidad de ésta y selecciona una muestra que considera represen-
tativa, es decir, unidades que a su parecer se acercan al promedio de la pobla-
ción.

Figura Nº02. Tipos de muestreo. Tomado de Mario F. Triola, 2009, p 28


Ejemplo N° 1: En la Universidad Nacional de San Marcos 120 alumnos obtendrán el
bachiller. Se quiere extraer una muestra de 30 alumnos. Explique cómo se obtiene
el muestreo aleatorio simple y muestreo aleatorio sistemático.

Solución para el muestreo aleatorio simple:

1° Se numeran los alumnos del 1 al 120


2° Se sortean 30 números de entre los 120
3° La muestra estará formada por los 30 alumnos a los que les correspondan los
números obtenidos.

Solución para el muestreo aleatorio sistemático:

1° Se numeran los alumnos del 1 al 120


2° Se calcula el intervalo constante entre cada individuo

N  población 120
  4
n (muetra) 30
3° Seleccionas un número del 1 al 4. Suponiendo que sale 3. El primer alumno se-
leccionado para la muestra será el número 3, luego los siguientes alumnos se
obtendrían sumando 3, hasta llegar a los tener los 30 alumnos.
4° Finalmente los alumnos seleccionados para la muestra serian a los que les
corresponden los números 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45,
48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90.

Ejemplo N° 2: Los alumnos del 8vo semestre de psicología quieren estudiar el % de


la población que fuma en Perú y deciden que la edad puede ser un buen criterio para
estratificar (es decir, piensan que existen diferencias importantes en el hábito de
fumar dependiendo de la edad). Por lo tanto, definen 3 estratos: menores de 20 años,
de 20 a 44 años y mayores de 44 años. Teniendo en cuenta datos oficiales de la
organización mundial de la salud, determine el tamaño de cada estrato para una
muestra de unas 1 000 personas teniendo en cuenta un muestreo estratificado
proporcionado y un muestreo estratificado uniforme.

Datos oficiales de la organización mundial de la salud

a) Estrato 1: Población Peruana menor de 19 años: 42,4 millones (41,0%)


b) Estrato 2: Población Peruana de 20 a 44 años: 37,6 millones (36,3%)
c) Estrato 3: Población Peruana mayor de 44 años: 23,5 millones (22,7%)

Solución utilizando el muestreo estratificado proporcionado.


En este caso, la muestra deberá tener estratos que guarden las mismas proporciones
observadas en la población. Para una muestra de 1 000 personas, los estratos deben
de tener un tamaño como se indica en el cuadro.

Estratos Población Proporción Muestra

1 (Menos de 19 años) 42,4 M 41,0% 410

2 (de 20 a 44 años) 37,6 M 36,3% 363

3 (mayores de 44 años) 23,5 M 22,7% 227

Solución utilizando el muestreo estratificado uniforme.

En este caso, la muestra deberá tener estratos del mismo tamaño, sin importar el
peso que tienen estos estratos en la población. Para una muestra de 1 000 personas,
los estratos deben de tener un tamaño como se indica en el cuadro.

Estratos Población Proporción Muestra

1 (Menos de 19 años) 42,4 M 41,0% 334

2 (de 20 a 44 años) 37,6 M 36,3% 333

3 (mayores de 44 años) 23,5 M 22,7% 333

1.4. ERRORES DE MUESTREO:

No importa lo bien que usted planee y ejecute el proceso de recolección de muestras,


es probable que ocurra un error en los resultados.

Un error de muestreo es la diferencia entre el resultado de una muestra y el ver-


dadero resultado de la población, este error es en consecuencia de las fluctuaciones
por el azar.

Un error que no es de muestreo, sucede cuando los datos muestrales se obtienen,


registran o analizan de forma incorrecta (como se selecciona una muestra sesgada,
cuando se usa un instrumento de medición defectuoso o cuando se copian los datos
de forma incorrecta).
Ejemplo N° 3: Una empresa constructora adquiere cierta cantidad de bolsas de ce-
mento Portland Blanco para terminar los acabados de una importante obra civil, del
cual se tomaron una muestra de 200 bolsas y se encontró que 9 de ellos no cumplían
con las especificaciones técnicas. Con una confianza del 95% calcule el error de la
muestra.

Solución: Del enunciado se tiene que n = 200 y (1 - ) = 0,95  Z = 1,96


 9 
Luego calculamos: P  0, 045  q  1  0, 45  0,955
200
 
pq
Para hallar el error muestral aplicamos: E  z
n

0, 045  0,955
E  1,96 
 200
E  0, 0287
 El error muestral es del 2,87%
ACTIVIDAD AUTOFORMATIVA N° 1
Instrucción: De las siguientes preguntas contesten y fundamente su respuesta.

1.- ¿Cuál es la diferencia entre una muestra aleatoria y una muestra aleatoria simple?
2.- ¿Cuál es la diferencia entre un estudio observacional y un experimento?
3.- Determine si las siguientes descripciones corresponde a un estudio observable o
experimental?
a) Ha surgido una gran controversia en torno a estudios de pacientes con sífilis
que no ha recibido un tratamiento que los habría curado. Su salud fue vigilada
por años después de que se descubrió que padecían esa enfermedad.
b) A los pasajeros de un Barco de crucero se les dan brazaletes magnéticos, que
aceptan usar en un intento por disminuir o eliminar los efectos del mareo.
4.- Identifique el tipo de muestreo, corresponde las siguientes situaciones.
a) Un investigador de la Universidad Johns Hopkins obtiene datos sobre los efec-
tos del alcohol al conducir, examinando informes de accidentes automovilísti-
cos de los cinco años.
b) Un economista reúne datos de ingreso al seleccionar y entrevistar actualmente
a un grupo de sujetos, después se remonta al pasado para ver si tuvieron la
sabiduría de tomar un curso de estadísticas entre 1980 y 2005.
c) En épocas de elecciones presidenciales, los medios noticiosos organizan una
encuesta de salida, en la que se eligen estaciones de sondeo al azar y se
encuesta y se encuesta a todos los votantes conforme abandonen el lugar.)
d) Un experto en marketing de MTV está planeando una encuesta en la que se
elegirá a 500 personas al azar de cada uno de los siguientes grupos de edad:
10-19,20 -29 y así sucesivamente.
e) El autor encuesto a todos sus estudiantes para obtener datos muéstrales que
consistían en el número de tarjetas de crédito que posee cada uno.
g) La Universidad de Newport, motivada por un estudiante que murió en estado
de ebriedad, realizo una investigación de estudiantes que beben seleccionado
al azar 10 diferentes salones de clase y entrevistando a todos los estudiantes
en cada uno de esos grupos.
TEMA N° 2: DISTRIBUCIONES MUESTRALES

La inferencia estadística trata básicamente con generalizaciones y predicciones. Por


ejemplo podemos afirmar con base a opiniones de varias personas entrevistadas en
el simulacro de votación GFK _ Segunda vuelta realizada el 25 de mayo, en las pró-
ximas pasadas elecciones presidenciales en Perú el 45,4% de electores votaran por
la candidata Keyko Fujimori y por PPK el 41,5%, blanco/viciado 13% (*), En este
caso tratamos con una muestra aleatoria de opiniones de una población finita muy
grande.

Podemos afirmar que el costo promedio para construir una piscina está entre 4 a 4,5
millones de soles, con base en las estimaciones de tres contratistas seleccionados al
azar de 30 que construyen piscinas residenciales actualmente. La población que
será muestreada aquí es finita pero muy pequeña.

Por otro lado, un empresario de cierta compañía calcula la media de 40 bebidas y


obtiene 236 c.c., y con base en este valor decide que la maquina aún sirve bebidas
con un contenido promedio de  = 240 c.c. Las 40 bebidas representan una muestra

de la población infinita de posibles bebidas que esta máquina servirá. En cada uno
de estos ejemplos calculamos una estadística a partir de una muestra seleccionada
de la población, y de estas estadísticas hacemos varias afirmaciones con respecto a
los valores de los parámetros de la población que pueden ciertos o no.

El funcionario de la compañía toma decisión de que la máquina despachadora sirve


bebidas con un contenido promedio de 240 c.c. aunque la media de la muestra fue
236 c.c., porque sabe de la teoría de muestreo que es probable que ocurra tal valor
de la muestra. De hecho, si realizamos pruebas similares, digamos cada hora, espe-
raría de los valores del promedio estén por arriba y por debajo de  = 240 c.c.

Solamente cuando el promedio es considerablemente distinto de 240 c.c., el funcio-


nario de la compañía iniciaría una acción para ajustar la máquina. Todo lo citado
permite abordar un tema de mucha importancia para la toma de decisiones sobre
una población en estudio, con base en la información contenida en una muestra alea-
toria de ésta. Esto implica que se tiene que desarrollar el estudio de una distribución
de probabilidades, es el tema a desarrollar en las siguientes secciones.

DISTRIBUCIONES MUESTRALES
La media muestral es una estadística; esto es, una variable aleatoria que depende
de los resultados obtenidos de cada muestra particular. Dado que una estadística es
una variable aleatoria, entonces tiene una distribución de probabilidades. La distri-
bución de probabilidades de una estadística recibe el nombre de distribución mues-
tral.

Una distribución muestral de una estadística, es la distribución de todos los va-


lores de esta estadística cuando se obtienen todas las muestras posibles del mismo
tamaño de una misma población. En específico, analizaremos la distribución muestral
de la proporción y la distribución muestral de la media.

La distribución muestral de una estadística (como una porción muestral o una


media muestral), es la distribución de todos los valores del estadístico cuando se
obtienen todas las muestras posibles del mismo tamaño n de la misma población.
(La distribución muestral de una estadística se representa como la distribución de
probabilidades en el formato de tabla, histograma de probabilidad o fórmula)

2.1. DISTRIBUCIONES MUESTRALES DE PROPORCIONES

La distribución muestral de la proporción es la distribución de probabilidades de por-


ciones muestrales, donde todas las muestras tienen el mismo tamaño muestral n y
provienen de la misma población.

Ejemplo N° 1: Distribución muestral de la proporción de niñas en dos nacimientos.

Solución:

Se tiene el siguiente espacio muestral:  = {hh, hm, mh, mm}.

De donde las probabilidades son:

hh La probabilidad de 0 niñas es de 0,25 (es decir ¼ es igual a 0,25)


hm ; mh La probabilidad de 1 niña es de 0,50 (es decir 2/4 es igual a 0,50)
mm La probabilidad de 2 niñas es de 0,25 (es decir ¼ es igual a 0,25)
Número de
niñas en 2 Probabilidad
nacimientos

X P(x)
0 0.25
1 0.50
2 0.25

Distribución muestral de la proporción


de niñas en 2 nacimientos
Histograma de
Tabla proporcionalidad

Proporción de
niñas en 2 Probabilidad
nacimientos

X P(x)
0 0,25
0,5 0,50
1 0,25

0 0,5 1

0 1,5 10 Y 0,5 1

Figura N° 3: Ejemplo de una distribución muestral de proporciones

Ejemplo N° 2: En una fábrica de pasteles, en su producción habitual se detectó, un


3% de los pasteles defectuosos. Un cliente recibe un pedido de 500 pasteles de la
fábrica. Calcula la probabilidad de que encuentre más del 5% de pasteles defectuo-
sos.
Solución: Como estamos tomando una muestra de tamaño n = 500, de una pobla-
ción donde la proporción de pasteles defectuosos es de p = 0,03. Podemos usar las

 p(1  p) 
Distribución Muestral de Proporciones, que se ajusta a una normal N  p, 
 n 

 0,03(1  0,03) 
N 0,03, 
Remplazando valores se tiene que:  500 
N  0,03,0,0076 
 0, 05  0, 03 
P( p  0,5)  P  Z 
 0, 0076 
P( p  0, 05)  P  Z  2, 63
Resolviendo: P( p  0, 05)  1  P  Z  2, 63
P( p  0, 05)  1  0,9957
P( p  0, 05)  0, 0043
Recuerda que para obtener P  Z  2, 63 , hemos tipificado la variable y se ha hecho

uso de la tabla de la N (0,1)

Figura N° 4: Ejemplo de ubicación en la tabla

La probabilidad de que encuentre más del 5% de pasteles defectuosos es de 0,43%.

Propiedades de la distribución de proporciones muéstrales:

 Las proporciones muéstrales tienen a coincidir con el valor de la proporción po-


blacional, es decir, todas las proporciones muéstrales posibles tienen una media
igual a la proporción poblacional.

 En ciertas condiciones, la distribución de la proporción muestral puede aproxi-


marse por medio de una distribución normal.

2.2. DISTRIBUCIONES MUESTRALES DE LAS MEDIAS


Considérese la determinación de la distribución de muestreo de la media muestral X

Supóngase que se selecciona una muestra aleatoria de tamaño n de una población

simple de una población con una media  y varianza 2 .


X1  X2  ...  Xn
Sea la media muestral: X , tiene una distribución normal con
n

2 2  2  ...  2 2
media x 
    ...  
  Y varianza   
n
x
n2 n

Si se muestra una población que tiene una distribución de probabilidad desconocida,


la distribución de muestreo de la media muestral seguirá siendo aproximadamente

normal con una media  y varianza 2 / n , si el tamaño de la muestra n es

grande. Éste es uno de los teoremas más útil en estadística, se le conoce como el
teorema del límite central.

El Teorema del Límite Central


Si X1 ,X2 ,...,Xn es una muestra aleatoria de tamaño n tomada de una población

(finita o infinita) con media  y varianza finita 2 , y si X es la media muestral,

x
entonces la forma límite de la distribución de: z
/ n
Cuando n   , es la distribución normal estándar.
Aplicación del Teorema de Límite Central en una población

Ejemplo N° 3: Según el MINSA en el último año, el peso de los recién nacidos en el


Hospital Materno Infantil de Huancayo se ha distribuido según la ley de media μ = 3
100 g y desviación típica σ = 150 g. ¿Cuál será la probabilidad de que la media de
una muestra de 100 recién nacidos en dicho hospital sea superior a 3 130 g?

Solución: Del enunciado se tiene los siguientes datos:

μ = 3100 g σ = 150 g n =100


Para determinar la probabilidad pedida se tiene que calcular la media, la desviación
típica de la media muestral y la probabilidad pedida.
1° Cálculo de la media y la desviación típica de la media muestral:
Población: N (μ, σ)  N (3 100, 150)
Muestra: Nx,  x 

 La media muestral será: x    3100


 150
La desviación típica:  x    15
n 100
 N  3 100,15 


2° Cálculo de la probabilidad pedida: P x  3 130 
Como la distribución muestral es una normal N (3 100, 150)

x  3100
Tipificando: Z
15
Resolviendo:

3130  3100 
  
P x  3130  P  Z 
 15


P  x  3130   P ( Z  2)

P  x  3130   1  P ( Z  2)

P  x  3130   1  0, 9772

P  x  3130   0, 0228

La probabilidad de que la media de una muestra de 100 recién nacidos en el Hospital


Materno Infantil de Huancayo sea superior a 3 130 gr, es de 2,28%.

Ejemplo N° 4: Sea la variable aleatoria X tiene la distribución uniforme continua.

1 / 2, 4  x  6
f x  
 0, en cualquier otro caso
Encuentre la distribución de la media muestral de una muestra aleatoria de tamaño
n = 40.

6  4 
2
Solución: La media y la varianza de X son: 1
5 y  2
 
12 3
El Teorema del límite central indica que la distribución de X es aproximadamente

  5 2   
2
normal con media 1 1 . La siguiente figura presenta

x
n 3  40   120

las distribuciones de XyX

4 5 6 X
5

1
2 
x
120

Figura 5. Distribución de X y X

Definición de Error Estándar:


Error estándar de una estadística es la desviación estándar de su distribución de
muestras. Si el error estándar involucra parámetros desconocidos cuyos valores pue-
den estimarse, la sustitución de estas estimaciones en el error estándar de como
resultado un error estándar estimado.
Éste error estándar da alguna idea sobre la precisión de la estimación. Si la media

muestral X se utiliza como estimador puntual de la media de la población  , el error


estándar de X mide cuan precisamente estima a .
Consideré una distribución normal con una media  y varianza 2 . Ahora la dis-
tribución de X es normal con media  y varianza 2 / n , de modo que el error

estándar de X es X  .
n
Si no se sabe qué valor tienen  pero sustituye la desviación estándar muestral S

S
en la ecuación anterior, entonces el error estándar estimado de X es X 
n
Ejemplo N° 5: El Jefe de Recursos Humanos de la empresa minera VOLCAN elaboró
la siguiente tabla en la que se muestra la antigüedad en años en el trabajo de tres
Ingenieros de minas.

INGENIEROS DE ANTIGÜEDAD
MINAS (AÑOS)
Carlos 6
Pedro 4
Manuel 2
Suponga, además, que se seleccionan muestras aleatorias de tamaño 2 sin reem-
plazo. Calcule el error estándar o la desviación estándar de la distribución muestral.

Solución: Como las muestras son aleatorias de tamaño 2, entonces se puede cons-
truir la siguiente tabla con todas las muestras posibles y sus respectivas medias
muéstrales:
ANTIGÜEDAD
MUESTRA MEDIA MUESTRAL
(AÑOS)
CARLOS, PEDRO 6, 4 5
CARLOS, MANUEL 6, 2 4
MANUEL, PEDRO 2, 4 3

De la tabla adjunta se obtiene los siguientes datos:


246
La media poblacional:   4
3
543
La media de la distribución muestral: x  4
3
(6  4)2  (4  4) 2  (2  4) 2
La desviación estándar de la población:   1, 63
3

El error estándar o la desviación estándar de la distribución muestral:


(5  4)2  (4  4)2  (3  4)2
x   0,816
3
Definición de la aplicación del Teorema de Límite Central en dos poblaciones
independientes:

Si se tiene dos poblaciones independientes con medias 1 y  2 y varianzas 12 y 22

y si X1 y X2 son las medidas muestrales de dos muestras aleatorias independientes

de tamaño n1 y n2 de estas poblaciones, entonces la distribución de muestreo de

Z
X1  X2  1  2   es aproximadamente normal estándar, si se aplican las
 
2 2
 1 2
n1 n2
condiciones del Teorema del Límite Central. Si las dos poblaciones, entonces la dis-

tribución de muestreo de Z es, de manera exacta, normal estándar.

Ejemplo N° 6: La vida de un componente utilizado en la turbina de una aeronave es


una variable aleatoria con media 5 000 horas y desviación estándar de 40 horas. La
distribución de la vida eficaz es muy próxima a una distribución normal. El fabricante
de la turbina introduce una mejora en el proceso de fabricación de este componente,
que aumenta el tiempo de vida útil promedio a 5 050 horas y disminuye las desviación
estándar a 30 horas. Supóngase que se toma del proceso “antiguo” una muestra
aleatoria de n1  16 componentes, y una muestra aleatoria del proceso “mejorado”

de n2  25 componentes. ¿Cuál es la probabilidad de que la diferencia entre las dos

medias muestrales X1  X2 , sea menos que 25 horas? Supóngase que los procesos
antiguos y mejorados pueden considerarse como poblaciones independientes.

Solución: Del problema se extrae lo siguiente:

1  5 000 horas 2  5 050 horas


y S2  30 horas
S1  40 horas
n1  16 componentes n2  25 componentes


P X2  X1  25  ? 
Luego:

La distribución de X1 es normal con una media y desviación estándar siguiente

1  5000 horas ; 1  S1  40  10 horas


n1 16

La distribución de X2 es normal con una media y desviación estándar siguiente:

2  5000 horas ;   S2  30  6 horas


2
n2 25

Donde la distribución de X2  X1 es normal con:

Medias 2  1  5050  5000  50 horas

Varianzas:  2  1  6 2  10 2  136 horas2


2 2

n2 n1

En la siguiente figura contiene una gráfica de esta distribución de muestreo.

Entonces la probabilidad de que X2  X1  25 corresponde a la parte sombreada de la

distribución normal de esta figura.


Figura 6. Distribución de muestreo de X2  X1

2 2
De donde se tiene: X2  X1 25 , 2  1  50 horas y 2  1 136 horas2
n2 n1

Reemplazando en:
Z

X1  X2  1  2 
 2
 2

1 2
n1 n2

25  50
Se tiene: Z  2,14
136
Donde la probabilidad es:

 
P X2  X1  25  P  Z  2,14   0,9838

Observación 1: Cuando se selecciona una muestra aleatoria simple de una población


con media  y desviación estándar  , es esencial conocer los siguientes principios:
 Si n > 30; entonces las medias muéstrales tienen una distribución que se puede
aproximar por medio de una distribución normal, con una media  y una des-

viación estándar  / n . (Éste es el lineamiento que suele utilizarse, indepen-


dientemente de la distribución de la población original).

 Si n  30 y la población original tiene una distribución normal, entonces las me-


dias muéstrales tienen una distribución normal con una media  y una desvia-

ción estándar  / n.

 Si n  30 , pero la población original no tienen una distribución normal, entonces


no se aplican los métodos probabilísticos
Observación 2: Considere el siguiente procedimiento para la aplicación del
Teorema de Límite Central:

 Cuando trabaje con un valor individual de una población distribuida normal-

x
mente, utilice los métodos de distribuciones normales. Use: z

 Cuando trabaje con una media del alguna muestra (o grupo), asegúrese de uti-
lizar el valor de  / n para que las desviación estándar de las medias mués-

x
trales : Use: z
/ n

2.3. DISTRIBUCIÓN CHI-CUADRADA


La distribución Chi cuadrada es una de las distribuciones de muestreo con mayor
utilidad. Está definida en términos de variables aleatorias normales.

TEOREMA DE LA DISTRIBUCIÓN DE LA CHI-CUADRADA

Sean z1 ,z2 ,...zK variables aleatorias distribuidas normal e independiente-

mente, con la media   0 y varianza 2  1 .Entonces, la variable aleatoria

x  z12  z22  ...  zK2 tiene la función de densidad de probabilidad

1
f x  x
k /21
.e  x/2 , para x0 y se dice que sigue
k
2k /2   
 2
una distribución ji-cuadrada con K grados de libertad, lo que se abrevia como

xk2 .
La media y la varianza de la distribución xk2 son   K y 2  2k .
Figura 7. Funciones de densidad de probabilidad

de varias distribuciones x2
La figura 7 presenta varias distribuciones chi cuadrada. Estas distribuciones se di-
bujaron utilizando el procedimiento de graficación del paquete Statgraphics. Nótese
que la variable aleatoria chi cuadrada es no negativa, y que la distribución de la
probabilidad tiene un sesgo hacia la derecha. Sin embargo, a medida que K aumenta,
la distribución se vuelve más simétrica. Conforme k   , la forma límite de la dis-
tribución ji-cuadrada es la distribución normal.

Los puntos críticos de la distribución xk2 .están en la tabla A – 4 del anexo. Se define
x 2 ,k como un valor crítico de la variable aleatoria ji-cuadrada con k grados de liber-

tad talque la probabilidad de que x sea a mayor que este valor es . Esto es,

 

P X  x2,k   2 f  u  du  
x ,k
0 x 2 ,k X

Figura 8. Punto crítico x 2 ,k de la distribución x2


Esta probabilidad aparece como el área sombreada en la figura 8. Para ilustrar el
empleo de la Tabla III, nótese que las áreas  son los encabezados de las colum-
nas, y que los grados de libertad K aparecen en la columna izquierda. Por tanto, el

valor de x2 con 10 grados de libertad que tiene un área (probabilidad) de 0,05 a la

derecha es x2
0.05,10  18,13
. A menudo este valor recibe el nombre de punto crítico

superior de 5% de la distribución ji-cuadrada con 10 grados de libertad. Todo esto


puede escribirse como una proposición de probabilidad, de la siguiente manera:

 
P X  x20.05,10  P  X  18,31  0,05 .

TEOREMA DE ADITIVIDAD DE LA DISTRIBUCIÓN DE LA CHI-CUADRADA

Sean Y1 , Y2 ,..., YP variables aleatorias chi cuadrada independientes con

k1 ,k 2 ,...,kP grados de libertad, respectivamente. Entonces, la cantidad

Y  Y1  Y2  ...  YP sigue una distribución ji-cuadrada con grados de libertad

p
igual a k   ki .
i1

Ejemplo N° 7: La dirección de transportes de la municipalidad de Lima, está reali-


zando un estudio de los tiempos requeridos por un bus del Metropolitano para alcan-
zar uno de sus destinos; obteniendo los siguientes datos: forman una distribución
normal con una desviación estándar σ =1 minuto. Si se elige al azar una muestra de
17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.
Solución: Del enunciado se tiene los siguientes datos:

n  17 s2  2  1 r : Grado de libertad  r  n  1  16

1°) Se encontrará el valor de Chi cuadrada correspondiente a s2 = 2 como sigue:


(n  1)s2 (17  1)  2
X2    32
2 12
2°) El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad
y se encuentra que a este valor le corresponde un valor de (1   )  0,99 , con el cual
se obtiene un área a la derecha de 0.01. En consecuencia, el valor de la probabilidad
2
es P(s  2)

Valor de (1 - )

Figura 9. Ejemplo del uso de la tabla para hallar Valor de (1-α)

2.4. DISTRIBUCIÓN t
Supóngase que se toma una muestra de una población normal con media  y

varianza 2 . Si X es el promedio de las n observaciones que contiene la

muestra aleatoria, entonces la distribución de X   es una distribución


Z
/ n

normal estándar. Supóngase que la varianza de la población 2 es desconocida.


¿Qué sucede con la distribución de esta estadística si se remplaza  por S ?

La distribución t proporciona la respuesta a esta pregunta.

TEOREMA DE LA DISTRIBUCIÓN t
Sea Z una variable aleatoria con distribución N  0,1 y V una variable alea-

toria chi cuadrada con K grados de libertad. Si Z y V son independientes,


Z
entonces la variable aleatoria T tiene la función de densidad de pro-
V/k
T  k  1 / 2 1
babilidad
f x   ,    x   y se dice
k  k / 2  
 x2 / k  1
 k 1 /2
 
que sigue la distribución t con k grados de libertad, lo que se abrevia como t k .
La media y la varianza de la distribución t son 0 y 2  k /  k  2 para
k2 , respectivamente.

Figura 10. Funciones de densidad de probabilidades

de varias distribuciones t

La figura 10, presenta la gráfica de varias distribuciones t. La apariencia general de

la distribución t es similar a la distribución normal estándar: ambas son simétricas


y unimodales, y el valor máximo de la ordenada se alcanza en la media   0 . Sin
embargo, la distribución t tiene colas más amplias que la normal; esto es, la proba-
bilidad de las colas es mayor que en la distribución normal. A medida que el número

de grados de libertadk   , la forma límite de la distribución t es la distribución


normal estándar. Al visualizar la distribución t , a veces es útil que la ordenada de
la densidad en la media 0 es aproximadamente entre cuatro o cinco veces

mayor que la ordenada de los percentiles 5 y 95. Por ejemplo, con 10 grados de

libertad para t , esta relación es 4,8; con 20 grados de libertad es de 4,3, y con 30
grados de libertad es 4,1. Por comparación, este factor es 3,9 para la distribución
normal.
t1,k  t ,k t  ,k

Figura 11. Puntos críticos de la distribución t

La tabla A - 3 del anexo proporciona los puntos críticos de la distribución t . Sea t ,k
, el valor de la variable aleatoria con k grados de libertad para el que se tiene un

área (o probabilidad). Por tanto t ,k es un punto crítico en la cola superior de la

distribución t con k grados de libertad. Este punto crítico aparece en la figura 2,4 –
2. En la tabla A - 3 del anexo, los valores de  son encabezados de las columnas,
mientras que los grados de libertad aparecen en la columna de la parte izquierda.

Para ilustrar el uso de la tabla, nótese que el valor t con 10 grados de libertad que

tiene un área de 0,05 a la derecha es t 0.05,10 =1,812. Esto es

   
P T10  t 0.05,10  P T10  1,812  0, 05

Puesto que la distribución t es simétrica con respecto a cero, se tiene que

t1  t  esto es, el valor t que corresponde a un área de 1   a la derecha (y,

por tanto, un área  a la izquierda) es igual al negativo del valor t que tiene el
área  en la cola derecha de la distribución. En consecuencia

t 0.95,10  t 0.05,10  1,812

Ejemplo N° 8: Un ingeniero químico afirma que el rendimiento medio de la población


de cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para veri-
ficar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor de t calcu-

lado cae entre  t0.05 y t 0.05 , queda satisfecho con su afirmación. ¿Qué conclusión

extraería de una muestra que tiene una media de 518 gramos por milímetro y una
desviación estándar de 40 gramos? Suponga que la distribución de rendimientos es
aproximadamente normal.
Solución: Del enunciado se tiene los siguientes datos:
x : Media de la muestra  x  518
 : Media de la población    500
n : Tamaño de la muestra  n  25
s : Desviación estándar  s  40
r : Grado de libertad  r  n  1  24
1°) Necesitamos calcular el valor t usando nuestra fórmula:
x 518  500 18
t  t   2, 25
s 40 8
n 25

2° ) Si: t 0.05    0,05 . El área (1   )  1  0,05  0,95


De la tabla encontramos que t 0.05 con 24 grados de libertad es de 1,711.

Como el valor de t calculado


es 2.25,

Figura 12. Ejemplo del uso de la tabla para hallas el valor de t

siendo este un valor muy por arriba del valor de t 0,05 de la tabla de T de Student
que es 1,711. El ingeniero químico podría afirmar que el proceso produce un mejor
producto del que piensa.

La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo


de W. S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que
desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta
prohibición, publicó su trabajo en secreto bajo el nombre de "Student". En conse-
cuencia, la distribución t normalmente se llama distribución t de Student, o simple-
mente distribución t. Para derivar la ecuación de esta distribución, Gosset supone
que las muestras se seleccionan de una población normal. Aunque esto parecería una
suposición muy restrictiva, se puede mostrar que las poblaciones no normales que
poseen distribuciones en forma casi de campana aún proporcionan valores de t que
se aproximan muy de cerca a la distribución t.
LECTURA SELECCIONADA N° 1

¿Cómo identificamos límites de se-


guridad para los pasajeros?
"Tenemos una emergencia en el vuelo Los ejemplos de los accidentes del avión
54-80 de Midwest Air", dijo la piloto Ka- y el taxi acuático ilustran aspectos suma-
tie Leslie un momento antes de que su mente importantes que nos afectan a to-
avión chocara en Charlotte, Carolina del dos. Uno de ellos es el cambio en el peso
Norte. El accidente del avión Beech 1900 de la gente a través del tiempo. En el ca-
cobró la vida de las 21 personas que iban pítulo 2 señalamos que, además de las
a bordo. Posteriores investigaciones des- características centrales, de variación,
pertaron la sospecha de que el peso de de distribución y los valores extremos de
los pasajeros había contribuido al acci- una población, otro aspecto relevante
dente. Esto provocó que la Federal Avia- son los cambios que pueden ocurrir con
tion Administration pidiera a las aerolí- el paso del tiempo. Resultados de la Na-
neas que reunieran información refe- tional Health and Nutrition Examination
rente al peso en vuelos elegidos al azar, Survey revelan que los estadounidenses
con el fin de actualizar los antiguos su- adultos pesan alrededor de 25 libras más
puestos sobre los pesos de los pasajeros. que en 1960. Por esa razón, el uso con-
Recientemente se hundió un taxi acuá- tinuado de los pesos calculados hace
tico en el Inner Harbor de Baltimore. De muchos años puede dar por resultado
las 25 personas a bordo, 5 murieron y 16 cálculos incorrectos y circunstancias de
resultaron lesionadas. Una investigación inseguridad.
reveló que la carga segura de pasajeros Los problemas que surgen al determinar
del taxi acuático era de 3500 libras. Su- cargas seguras en aviones y barcos son
poniendo un peso medio de 140 libras ejemplos del tipo de problemas que se
por pasajero, el barco tenía permitido estudian en una disciplina relativamente
llevar 25 pasajeros, pero la media de 140 nueva llamada ergonomía, que es el es-
libras fue determinada hace 44 años, tudio del ajuste de las personas en su
cuando la gente no pesaba tanto como entorno. Un buen diseño ergonómico da
ahora. (Se descubrió que el peso medio como resultado un entorno seguro, fun-
de los 25 pasajeros que viajaban en el cional, eficiente y cómodo.
barco que se hundió era de 168 libras). La ergonomía tiene una gran cantidad de
El National Transportation and Safety aplicaciones, incluyendo el diseño de ta-
Board sugirió que la antigua media esti- bleros de automóvil, ataúdes, kayacs,
mada de 140 libras se actualizara a 174 cascos para ciclismo, tapas para bote-
libras, de manera que la carga segura de llas, manijas para puertas, tapas para al-
3500 libras ahora sólo permitiría 20 pa- cantarillas, teclados, centros de control
sajeros en vez de 25. En este capítulo in- de tráfico aéreo y líneas de ensamblado
vestigaremos pesos de pasajeros y el pa- de computadoras. El trabajo con el tema
pel que desempeñan esos pesos en el es- de cargas seguras de pasajeros ilustrará
tablecimiento de límites de carga segu- una experiencia real en relación con el
ros para los medios de transporte. papel que desempeña la estadística en la
ergonomía.
ACTIVIDAD N° 1

Foro de discusión sobre la lectura ¿Cómo identificamos límites de seguridad


para los pasajeros?

Instrucciones
Ingrese al foro y participe con comentarios críticos y analíticos del tema ¿Cómo
identificamos límites de seguridad para los pasajeros?

 Lea y analice el tema N° 1 y 2 del manual


 Responda en el foro a las preguntas acerca de la lectura
¿Cuál es Propósito de lectura?
¿Cuál es la relación entre la lectura propuesta y la estadística?
¿Cuál es el papel que desempeña la estadística en la ergonomía, en el
Perú?
En la lectura encontramos que algunos pasajeros murieron cuando un taxi
acuático se incendió en el Inner Harbor de Baltimore. Los hombres sue-
len ser más pesados que las mujeres y los niños, supongamos que
al carga un taxi acuáticola situación extrema es aquella que en todos
los pasajeros son hombres. En concordancia con los datos de la National
Transportation and Safety Board, suponga que los pesos de los hombres
están distribuidos normalmente, con una media de 172 lb y una desviación
estándar de 29 lb.
 Si seleccionamos al azar a un hombre, calcule la probabilidad de que
pese menos de 174 lb. E interprete su resultado.
 Si seleccionamos al azar a un hombre, calcule la probabilidad de que
pese más de 175 lb. E interprete su resultado.
 Calcule la probabilidad de que 20 hombres elegidos al azar tengan
una media mayor de 175 lb (de manera que el peso total no exceda
la capacidad segura de 3 500 lb). E interprete su resultado.
ACTIVIDAD AUTOFORMATIVA N° 2
Instrucción: Resuelve los siguientes ejercicios:

1. La SUTRAN ha implantado un sistema de control de velocidad mediante


un radar colocado en cuatro puntos de la ciudad de Lima: Callao, La
Molina, Comas y Miraflores. Cada día, estos aparatos están activos en los
sitios indicados, 16 horas, 10 horas, 12 horas y 15 horas respectivamente
en horarios al azar. Una persona maneja a su trabajo diariamente y lo hace
con exceso de velocidad y la probabilidad de que pase por alguno de
estos sitios es respectivamente 0,3; 0,1; 0,4 y 0,2

a) Calcule la probabilidad que en algún día reciba una multa por exceso de
velocidad.
b) Cierto día, la persona recibió una multa por exceso de velocidad. Deter-
mine el sitio en que hay la mayor probabilidad de haber sido multado

2. Para ensamblar una máquina se usan dos componentes mecánicos.


Suponga que la probabilidad que el primer componente cumpla las
especificaciones es 0,95, y para el segundo es 0,98. Además, los compo-
nentes funcionan independientemente. Usando función de distribución de
probabilidad de la variable aleatoria X que representa al número de
componentes que cumplen las especificaciones, x = 0; 1; 2; obtenida
en la unidad anterior.
a) Encuentre la media y la varianza de la variable aleatoria X
b) Suponga que el costo asociado con los componentes instalados que no
cumplen las especificaciones es G(X)=$5000X2. Encuentre el valor espe-
rado de este costo.
3. La producción diaria de una fábrica es una variable aleatoria discreta con me-
dia 120 artículos, y desviación estándar de 10 artículos. Calcule la probabili-
dad que en cualquier día la producción esté entre 95 y 145 artículos.
4. Suponer que la probabilidad de éxito de un experimento es 0,2 y se realizan
cinco ensayos independientes. Calcule la probabilidad que el primero y el úl-
timo ensayo sean éxitos, y los tres ensayos intermedios sean fracasos
5. Una caja contiene 9 baterías de las cuales 4 están en buen estado y las res-
tantes defectuosas. Se toma una muestra eligiendo al azar tres baterías. Cal-
cule la probabilidad que en la muestra se obtengan:
a) Ninguna batería en buen estado.
b) Al menos una batería en buen estado.
c) No más de dos baterías en buen estado.
d) Calcule la media y la varianza.

6. Encuentre la probabilidad de que una muestra aleatoria de 25 observacio-


2
nes, de una población normal con varianza   6 , tenga una varianza
muestral:
a) Mayor que 9,1
b) Entre 3,462 y 10,745
7. Suponga que los tiempos requeridos por un cierto autobús para alcanzar un
de sus destinos en una ciudad grande forman una distribución normal con una
desviación estándar   1 minuto. Si se elige al azar una muestra de 17 tiem-
pos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.
Encuentre la probabilidad de –t0,025 < t < t0,05.
8. Un ingeniero químico afirma que el rendimiento medio de la población de
cierto proceso en lotes es 500 gramos por milímetro de materia prima. Para
verificar esta afirmación toma una muestra de 25 lotes cada mes. Si el valor
de t calculado cae entre –t0,05 y t0,05, queda satisfecho con su afirmación. ¿Qué
conclusión extraería de una muestra que tiene una media de 518 gramos por
milímetro y una desviación estándar de 40 gramos? Suponga que la distribu-
ción de rendimientos es aproximadamente normal.
9. Suponga que el tiempo de atención de cada cliente en una estación de servicio
es una variable aleatoria continua con la siguiente función de densidad de
probabilidad:

2
 ( x  2) ; 0  x  1
f ( x )  5

0 ; otro " x "

X: variable aleatoria continua (duración en horas). Calcule la probabilidad


que el tiempo de atención esté entre 15 y 30 minutos

10. La densidad de probabilidad de una variable aleatoria X está dada por:

630 x 4 (1  x ) 4 ; 0  x  1
f (x)  
 0 ; otro " x "

a) Verifique que satisface las propiedades de una función de densidad


b) Calcule la probabilidad que X tenga un valor mayor a 0.75.
c) Determine la probabilidad que X tome un valor dentro del intervalo
de dos desviaciones estándar alrededor de la media y compare con el
valor proporcionado por el Teorema de Chebyshev.
TEMA N° 3: ESTIMADORES

Las dos aplicaciones de la estadística inferencial implica el uso de datos muestrales,


para primero estimar el valor de los parámetros de una población (es decir, estima-
ción de parámetros), y segundo probar alguna aseveración acerca de una población
(es decir, prueba de hipótesis).

Supongamos que los ingenieros civiles están analizando la resistencia a comprensión


del hormigón en una obra. Existe una variabilidad natural en la resistencia de cada
muestra individual del hormigón. En consecuencia, los ingenieros están interesados
en estimar la resistencia media para la población consistente en este tipo de hormi-
gón. También pueden estar interesados en estimar la variabilidad de esta población.

Frente a esta situación surge en cuestión ¿Qué es una estimación?. Cuando queremos
realizar un estudio de una población cualquiera de la que desconocemos sus pará-
metros, por ejemplo su media poblacional o la probabilidad de éxito, si la población
sigue una distribución binomial, debemos tomar una muestra aleatoria de dicha po-
blación a través de la cual calcular una aproximación a dichos parámetros que des-
conocemos y queremos estimar. Bien, pues esa aproximación se llama estimación.
Además, junto a esa estimación, y dado que muy probablemente no coincida con el
valor real del parámetro, acompañaremos el error aproximado que se comete al rea-
lizarla.

En este tema se presenta los métodos para estimar los valores de los principales
parámetros de la población: proporciones, medias y varianzas.

3.1. ESTIMACIÓN PUNTUAL

DEFINICIÓN DE ESTIMACIÓN PUNTUAL


Una estimación puntual de algún parámetro  de la población es un valor  de

la estadística .

Notación:

X  X1 ,X2 ,...,Xn  Variable aleatoria con distribución de probabilidad f x

 Parámetro no conocido


  h X1 ,X2 ,...,Xn   Estimador puntual de 

De lo expuesto se concluye, que una estimación puntual del valor de un parámetro


poblacional desconocido (como puede ser la media μ, o la desviación estándar σ), es
un número que se utiliza para aproximar el verdadero valor de dicho parámetro po-
blacional. A fin de realizar tal estimación, tomaremos una muestra de la población y
calcularemos el parámetro muestral asociado ( X para la media, s para la desviación
estándar, etc.). El valor de este parámetro muestral será la estimación puntual del
parámetro poblacional.

Ejemplo N° 1: Sea una variable aleatoria X tiene una distribución normal con media
no conocida  . La media muestral es un estimador puntual de la media no conocida

 de la población. Esto es   X . Después de tomar la muestra, el valor numérico

X es la estimación puntual de . Por tanto, si:

x1  25, x2  28, x3  33 y x4  32 , entonces la estimación puntual es


 
25  28  33  32
X  29,50    X    29,50
4


 25  29,5   28  29,5   33  29,5  32  29,5
2 2 2 2 

 10, 25    S    10,25
2 2 2
2
S 
4

Los problemas de estimación se presentan con gran frecuencia en ingeniería, a me-


nudo es necesario estimar:
Descripción Pará- Estimadores Descripción
metro puntuales
Media poblacional   Media muestral
X
Varianza poblacio- 2
 Varianza muestral
nal 2  S 2

Proporción de ob- p  Porción muestral


jetos de una pobla- p x/n Donde x es el número de
ción que pertene- objetos de una muestra
cen a cierta clase aleatoria de tamaño n que
de interés. pertenecen a la clase de
interés.
Diferencia entre 1  2   Diferencia entre las me-
medias de dos po- 1  2  X1  X2 dias muestrales de dos
blaciones muestras independientes.
Diferencia entre p1  p2   Diferencia entre las pro-
proporciones de p1  p2  x1 / n  x2 / n porciones de las dos
dos poblaciones muestras, calculadas a
partir de dos muestras
aleatorias independien-
tes.

Puede tener varias opciones para el estimador puntual de un parámetro. Si desea


estimar la media de una población puede considerar como estimador la media mues-
tral, la mediana muestral o quizás el promedio de las observaciones más grande y
más pequeña, es por ello que es necesario conocer las propiedades de este para
poder comparar con criterios adecuados.

3.2 PROPIEDADES DE LOS ESTIMADORES


3.2.1. ESTIMADORES INSESGADO:

DEFINICIÓN DE ESTIMADOR INSESGADO

 
El estimador puntual  es un estimador insesgado para el parámetro  , si E     


, si el estimador no es insesgado, entonces la diferencia E     es conocida como


sesgo del estimador .


Cuando el estimador es insesgado, E      0 , esto es el sesgo es cero. Un estima-

dor es insesgado cuando la media de su distribución muestral asociada coincide con


la media de la población. Esto ocurre, por ejemplo, con el estimador X , ya que

 x   y con estimador P ya que P  p

3.2.2. VARIANZA Y ERROR CUADRÁTICO MEDIO DE UN ESTI-


MADOR PUNTUAL

DEFINICIÓN

Si se considera todos los estimadores insesgados de  , el nombre que tiene la menor


varianza recibe el nombre de estimador insesgado de varianza mínima (EIVM).

A EIVM también se le conoce como EIUVM, donde la letra U representa “uniforme” lo


que significa ”para todo  ”.
DEFINICIÓN


El error cuadrático medio de un estimador  del parámetro  está definido por
 2
 
ECM     E     .
 

El error cuadrático medio puede rescribirse de la siguiente manera:


2 2

 
  
 
ECM     E   E         E      V     sesgo 
2

   

El error cuadrático medio es un criterio importante para comparar dos estimadores.

   
Sean 1 y 2 dos estimadores del parámetro  , y E 1   
y E 2 los errores

  
cuadráticos medios de 1 y  2 . Entonces la eficiencia relativa de  2 , con respecto

 

a 1 se define como ECM 1  



ECM    2


Si la eficiencia relativa es menor que uno, entonces puede ocurrir que 1 es un


estimador más eficiente de  que 2 en el sentido de que tiene un error cuadrático
medio más pequeño.

Por ejemplo, se conoce que la variabilidad de un estimador viene determinada por el


cuadrado de su desviación estándar. En el caso del estimador X , su desviación

estándar es X  , también llamada error estándar de μ. Mientras que en el caso
n
P1  P 
del error estándar de P es: p  . Observar que cuanto mayor sea el ta-
n
maño de la muestra n, menor será la variabilidad del estimador X y de P, por tanto,
mejor serán nuestras estimaciones.
3.3. MÉTODO DE MÁXIMA VEROSIMILITUD

Uno de los mejores métodos para obtener un estimador puntual de un parámetro es


el método de máxima verosimilitud. Este estimador será el valor del parámetro que
maximiza la función de verosimilitud.

DEFINICIÓN

Supongamos que X es una variable aleatoria con distribución de población f  x,  

, donde  es un parámetro desconocido. Sean x1 ,x2,...,xn los valores observados

en una muestra aleatoria de tamaño n. La función de verosimilitud de la muestra

es    
L     f X1 ,  f X2 ,  ... f Xn ,   .
Nótese que la función de verosimilitud es ahora una función del parametro descono-

cido  . El estimador de máxima verosimilitud de  es el valor de  que maxi-

miza la función de verosimilitud L   .

En el caso de las variables aleatorias discreta, la interpretación de la función de ve-

rosimilitud es clara. La función de verosimilitud de la muestra L    es precisamente

la probabilidad

P X1  x1 ,X2  x2 ,...,Xn  xn , 
Esto es, L    es la probabilidad de obtener los valores muestrales x1 ,x2,...,xn . Por
lo tanto en el caso discreto, el estimador de máxima verosimilitud es un estimador
que maximiza la probabilidad de ocurrencia de los valores muestrales.
ESTIMADOR
DESCIP- FUNCIÓN DE MÁXIMA
CIÓN VEROSIMILITUD
Variable Función de probabilidad: 
1 n
aleatoria de p  1  p  , si : x  0,1
 x 1x p  Xi
n i1
Bernoulli fx  x,p   
0 , en cuarquier otro caso

Variable alea- Función de verosimilitud de una 


1 n
toria con dis- muestra de tamaño n    Xi  X
tribución bi- n
1  xi   /  22 
2
n i1
nomial, con L     e
i1  2
desconocida y
 varianza
2 conocida
Variable alea- Función de verosimilitud de una 
1 n
toria con dis-
tribución nor-
muestra de tamaño n
 xi   /  22 
  Xi  X
n i1
n
1
2

mal, media   
L , 2   e 
1 n
 2
 
2
y  varianza
2 i1
   Xi  X
2

desconocidas
n i1

En general para muestras grandes, los estimadores de máxima verosimilitud tienen


propiedades asintóticas. De esta manera específica, el estimador de máxima vero-

similitud  de cualquier parámetro  es insesgado para n grande, y que tiene una
varianza casa tan pequeña como la que puede obtener con otro estimador. Esto im-

plica que el estimador de máxima verosimilitud  es, de manera aproximada, el

estimador insesgado de varianza mínima de  para n grande.

Los estimadores de máxima verosimilitud también tienen una propiedad de inva-


rianza. Como por ejemplo, en el caso de la distribución normal, los estimadores de

máxima verosimilitud de  y S 2 eran 
  X y 2  1  X  X 2 . Para obtener la
n

 i n i1

función de máxima verosimilitud de la función h ,S2    2  S se sustituyen los

  1/2

 y 2 en la función h como se tiene   2   1  Xi  X  . Es


 
 n 2
estimadores
 n i1 
así como el estimador de máxima verosimilitud de la desviación estándar  no es

la desviación estándar muestral S.


TEMA N° 4: INTERVALOS DE CONFIANZA PARA UN PARÁME-
TRO

En muchas situaciones una estimación puntual no proporciona información suficiente


sobre el parámetro, debido a que un parámetro que se desea estimar tiene como un
conjunto de posibles valores aun conjunto completo de números. Por ejemplo si se
desea estimar el promedio del peso neto  de bolsas de cemento que tengan peso

nominal de 42,5 kg entonces  podría ser por ejemplo cualquier número entre

41 y 44. También podemos mencionar en variables discretas, como por ejemplo en

el caso de X es el número de películas rentables por un cliente seleccionado al

azar que sale de cierta tienda de video, el verdadero número promedio de películas
por cliente  podría ser entre 0,5 y 4,0, por ejemplo la verdadera proporción p de

clientes que rentan por lo menos una película podría ser cualquier número entre 0 y
1. Esto significa que sustituir la estimación puntual, un solo número, por un intervalo
de posibles valores y esto es lo que exactamente es una estimación por intervalo o
intervalo de confianza, es decir, un intervalo de valores posibles para el parámetro
que se estima. El grado de posibilidades se especifica por un nivel de confianza, de
modo que hablaremos de un intervalo de confianza de 95% (nivel de confianza de
95%) o intervalo al 99%.

4.1. INTERVALO DE CONFIANZA


DEFINICIÓN DE INTERVALO DE CONFIANZA

Dada una muestra aleatoria X1 ,X2,...,Xn con función de densidad f  xi ,   , un in-

tervalo de confianza de 1     100% para un parámetro  es un intervalo alea-


torio  T , T  con P  T
1 2 1 
   T2  1   .

4.2. INTERVALO DE CONFIANZA PARA UNA PORCIÓN DE UNA POBLACIÓN


Se considera la utilización de la distribución normal para aproximar la distribución
muestral de proporciones de muestra. Para aplicar se re requiere los siguientes re-
quisitos:
 La muestra es aleatoria simple
 Las condiciones para la distribución binomial se satisfacen. Hay un número fijo
de ensayos, los ensayos son independientes, hay dos categorías de resultado y
las probabilidades permanezcan constantes para cada ensayo.
 Existan al menos 5 éxitos y al menos 5 fracasos. (Cuando se desconocen p y q

, estimamos sus valores utilizando la porción muestral, de manera que este re-
quisito es una forma de verificar que np  5 nq  5 se cumpla para la distribución
normal sea una aproximación adecuada para la distribución binomial.

Recuerda la notación para proporciones:


p  Proporción de la población

x
p  Proporción de la muestra de x éxitos en una muestra de tamaño n
n
 
q 1  p  Proporción de la muestra de fracasos en una muestra de tamaño n
Proporción, probabilidad y porcentaje: Se enfoca en proporción poblacional p ,

aunque también podemos trabajar con probabilidades o porcentajes. Cuando trabaje


con un porcentaje exprese en forma decimal. (Por ejemplo, exprese el 57% por 0,57,

de manera que p  0,57 ). Si desea estimar una porción poblacional con un solo
 
valor, el mejor estimado es p . Puesto que p consiste es un solo valor, se denomina
estimado puntual.
Sabemos que un estimado puntual es un valor individual que se usa para
aproximar un parámetro de población.

La proporción muestral p es el mejor estimador puntual en la proporción
poblacional p .

Usamos p como el estimador puntual de p , ya que no está sesgado y es el más
consistente de los estimadores que se puede usar. No está sesgado en el sentido que
la distribución de proporciones muestrales tiende a concentrarse alrededor del valor

de p ; esto es, las proporciones muestrales p no tiene sistemáticamente a subesti-

mar no a sobreestimar a p . La proporción muestral p es el estimador más consis-
tente en el sentido de que la desviación estándar de las porciones muestrales tiende
a ser menor que las desviaciones estándar de cualquier otro estimador sin sesgo.
Este estimador puntual, siendo uno de los mejores estimadores no es confiable por
que no reflejar el valor real del parámetro poblacional, es así que se requiere otro
estimador, el intervalo de confianza.
Es decir, un intervalo de confianza, es un rango de valores que se usa para estimar
el valor real de un parámetro poblacional. Un intervalo de confianza se asocia con el
nivel de confianza, como 0,95 (o 95%). El nivel de confianza nos da la tasa de
éxitos del procedimiento que se utiliza para construir intervalo de confianza. El nivel

de confianza suele expresarse como la probabilidad o área de  1    . El valor de


 es el complemento del nivel de confianza. Para un nivel de confianza de 0,90 (o
90%),   0,10 ; para 0,95 (o 95%),   0,05 y para 0,99 (o 99%),   0,01 . El

nivel de confianza también se llama grado de confianza o coeficiente de con-


fianza.
Ejemplo N° 1: Sea los datos muestrales de 280 ensayos de terapeutas de contacto,
donde el 44% de ensayos se identifica correctamente la mano elegida. El intervalo
de confianza estimado de 0,95 (o 95%) de la proporción poblacional p es de

0,381  p  0, 497 . Luego, la interpretación correcta es: “Tenemos una confianza de


95% de que el intervalo de 0,381 a 0,497 realmente contiene el valor de p ”. Esto
significa que si seleccionamos muchas muestras diferentes de tamaño 280 y cons-
truimos los intervalos de confianza correspondientes al 95%de ellos incluirían real-
mente el valor de la proporción poblacional p. Sin embargo, solemos interpretar

erróneamente como: “Existe un 95% de probabilidad de que el valor real de p este

entre 0,381 y 0,497”.

VALORES CRITICOS

Un valor crítico es el número en la línea limítrofe que separa estadísticos muestrales


que tiene mayor probabilidad de ocurrir de aquellos que no tienen probabilidad de
ocurrir. El número Z /2 es un valor crítico, una puntuación Z con la propiedad de

separar una área de  / 2 en la cola derecha de la distribución normal estándar.

Cola derecha
Cola izquierda

Figura 13. Valor critico de una distribución normal estándar


Z /2  Re gión de la cola derecha

 Z /2  Re gión de la cola izquierda


Calculo de un valor crítico: Calcule el valor crítico Z /2 que corresponde a un nivel

de confianza del 95%.


No es necesario buscar en la tabla A – 2, si no que el nivel de confianza del 95%
corresponde a   0,05   / 2  0,05 / 2  0,025
Calculando: Z /2  1,96 , señalando que toda el área a su izquierda debe ser 1  0,025
o 0,975. Ahora podemos remitirnos a la Tabla A – 2 y encontramos que el área de
0,9750 corresponde exactamente a un puntuación Z de 1,96. Para un nivel de con-
fianza del 95%, el valor crítico por consiguiente es Z /2  1,96 .Por lo tanto, para cal-

cular la puntuación Z crítica para un nivel de confianza del 95%, solo busque el valor
de 0,9750 en el cuerpo de la tabla A-2, y no en el valor de 0,95.

Nivel de confianza 95%

= 0,025 = 0,025

= - 1,96 Z=0 = 1,96

El área total a la izquierda


de esta frontera es 0,975

Figura 14. Calculo de Z /2 para un nivel de confianza del 95%

Valores críticos más comunes:


Nivel de confianza  Valor crítico, Z /2

90% 0,10 1,645


95% 0,05 1,96
99% 0,01 2,275
EJEMPLO N° 2: Calcule el valor crítico z  que corresponde a un nivel de confianza
2
del 95%.

Solución: Como el nivel de confianza es 95%, entonces: 1    0,95 de donde



  0,05 , con el cual se calcula el área de cada cola  0, 025 como se muestra
2
en la figura.

Figura 15. Valor crítico.


Como se conoce se procede a calcular el área total a la izquierda de la si-
2
guiente manera ( 1  0,025  0,975 ), este resultado se busca en la tabla A-2 y en-
contrar que el área de 0,9750 (que se encuentra en el cuerpo de la tabla) corres-
ponde exactamente a una puntuación z de 1,96, por consiguiente, z  1, 96 . Para
2
un nivel de confianza del 95%,

Área total a la izquierda


hallada.

Figur 16. Uso de la Tabla A-2


El ejemplo anterior mostró que un nivel de confianza del 95% da por resultado un
valor crítico de z  1, 96 . Éste es el valor crítico más común y se lista junto con
2
otros dos valores comunes en la siguiente tabla.

MARGEN DE ERROR

Cuando se utiliza los datos de una muestra aleatoria simple para estimar un porción
p , el margen de error, denotado por E , es la diferencia máxima probable (con

probabilidad 1   ) entre la porción muestral p observada y el valor real de la porción

poblacional p . El margen de error E se llama error máximo del estimado y se

calcula multiplicando el valor crítico por la desviación estándar de las proporciones


 
p.q
E  Z /2
muestrales. n
Intervalos de confianza para la proporción poblacional p

 
 
Sea: p  E  p  p  E donde E  Z p.q el intervalo de confianza se expresa por
 /2
n

p  E o  p E,p E 
 

 

Reglas de redondee para estimados de intervalos de confianza p

Redondee los límites del intervalo de confianza para p a tres dígitos significativos.

Procedimiento para construir un intervalo de confianza para p

1° Verifique que los supuestos requeridos cumplan:


 La muestra es aleatoria simple
 Las condiciones para la distribución binomial se satisfacen (Hay un número fijo
de ensayos, los ensayos son independientes, hay dos categorías de resultado y
las probabilidades permanezcan constantes para cada ensayo).
 Existan al menos 5 éxitos y al menos 5 fracasos.
2° Remítase a la tabla A – 2 y encuentre el valor Z /2 que corresponde al nivel de

confianza deseado.
 

3° Evalúe el margen de error: p.q


E  Z /2
n
 
4°Calcule los intervalos de confianza: p  E  p  p  E

5°Redondee los límites del intervalo de confianza resultantes a tres dígitos significa-
tivos.
Tamaño de muestra para la estimación de la proporción p

2  
Z  p q

 Cuando se conoce un estimado p  n    /2 
E2
2
Z  0,25

 Cuando se desconoce un estimado p  n    /2 
E2

EJEMPLO N° 3: Un sociólogo quiere determinar el porcentaje actual de hogares en


Estados Unidos que utilizan el correo electrónico. ¿Cuántos hogares deben encues-
tarse para tener una confianza del 95% de que el porcentaje muestral es erróneo
por no más de 4 puntos porcentuales?

a) Utilice el siguiente resultado de un estudio pionero: en 1997, el 16,9% de los


hogares estadounidenses usaban correo electrónico (según datos de The World
Almanac and Book of Facts).

b) Suponga que no tenemos información previa que sugiera un posible valor de p

Solución:
  
1°) El estudio previo sugiere que p  0,169 , entonces q  1  p  0.831 . Con un

nivel de confianza del 95%, tenemos  = 0.05, entonces z  1,96 . Además, el


2

margen de error es E = 0,04 (el equivalente decimal de "cuatro puntos porcentua-

z 
2 

pq
  /2
les"). Puesto que tenemos un valor estimado de p , usamos: n 
E2
1, 962  0,169  0,831
n  337,194  Redondeando se tiene que: n = 338
0, 042
Debemos encuestar al menos 338 hogares seleccionados al azar.
2°) El estudio previo sugiere que z  1, 96 , el margen de error es E = 0.04 (el
2
equivalente decimal de "cuatro puntos porcentuales, pero sin conocimiento previo

 z 
2

 0,25
  /2 1, 962  0, 25
de p (o q ), usamos: n  n  600, 25
E2 0, 042

Redondeando se tiene que: n = 601

Debemos encuestar al menos 601 hogares seleccionados al azar.

INTERPRETACIÓN: Para tener una confianza del 95% de que nuestro porcentaje
muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero para
todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Compa-
rando este resultado con el tamaño muestral de 338 calculado en el inciso a), pode-
mos ver que si no tenemos conocimiento de un estudio previo, se requiere una mues-
tra más grande para obtener los mismos resultados que cuando se puede estimar el

valor de p .

Calculo del estimado puntual y el E desde un intervalo de confianza



Si ya conocemos los límites de intervalo de confianza, la proporción muestral p y el

margen de error E , se calcula como sigue:


Estimado puntual de p :


p
límite de confianza sup erior   límite de confianza inf erior 
2
Margen de error:

E
límite de confianza sup erior   límite de confianza inf erior 
2

EJEMPLO N° 4: El artículo "High-Dose Nicotine Patch Therapy" de Dale, Hurtet al.


(Journal of the American Medical Association, vol. 274, núm. 17) incluye esta afir-
mación: "De los 71 sujetos, el 70% se abstuvo de fumar durante 8 semanas (inter-
valo de confianza l IC1 del 95%, del 58% al 81%)". Utilice esta afirmación para
calcular el estimado puntual fi y el margen de error E.

Solución: Del enunciado vemos que el intervalo de confianza del 95% es 0,58 < p

< 0,81. El estimado puntual p es el valor medio entre los límites superior e inferior

del intervalo de confianza, de manera que obtenemos:


 (límite de confianza sup erior )  (límite de confianza inf erior )
p
2
 0,81  0, 58
p  0, 695
2

El margen de error se calcula como sigue:

(límite de confianza sup erior )  (límite de confianza inf erior )


E
2
0,81  0, 58
E  0,115
2

4.3. INTERVALO DE CONFIANZA PARA UNA MEDIA DE POBLACIÓN

4.3.1. INTERVALO DE CONFIANZA PARA UNA MEDIA DE POBLA CIÓN CON


VARIANZA CONOCIDA.
Definición: INTERVALO DE CONFIANZA PARA UNA MEDIA DE POBLACIÓN
CON VARIANZA CONOCIDA.

Si X es la media muestral de una muestra aleatoria de tamaño n de una población


con varianza conocida  2 , un intervalo de confianza para  del 100  1    por ciento

  , donde Z es el puto de la distribu-


está dado por: X  Z /2    X  Z /2  /2
n n
ción normal estándar que corresponde al porcentaje  / 2.
ESTIMACIÓN DEL INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONAL

 , CON VARIANZA CONOCIDA  2


Conociendo la media poblacional  y el margen de error E , podemos identificar el
intervalo de confianza. Tenemos sus tres formas de representación:

Si: X E    X E donde E  Z /2 
 o XE
n
o X  E,X  E 
Los dos valores X  E y X  E se llaman límites del intervalo de confianza.
PROCEDIMIENTOS PARA CONSTRUIR UN INTERVALO DE CONFIANZA PARA

 CON VARIANZA CONOCIDA 2 .


1° Verifique que los supuestos requeridos cumplan
 Debe ser una muestra aleatoria simple.

 La varianza 2 es conocida
 La población pueda estar distribuida normalmente o n > 30.
2° Remítase a la tabla A – 2 y calcule el valor crítico Z /2 que corresponde al nivel de

confianza deseado.

3° Estime el margen de error: 


E  Z /2 
n
4°Calcule los intervalos de confianza: X E    X  E, haciendo uso de la media

muestral X y margen de error E


5°Redondee los límites del intervalo de confianza resultantes, teniendo en cuenta la
regla siguiente:
 Cuando utilice el conjunto de datos original para construir un intervalo de con-
fianza, redondéelos límites de intervalo de confianza a un decimal más que se
usa para un conjunto de datos original.
 Cuando el conjunto de datos original se desconoce y solo se utiliza el resumen

de estadísticas (n,X,S) , redondee los límites de intervalo de confianza al mismo

número de espacios decimales utilizando para la media muestral.

Existe una proporcionali-


dad de de que
una media muestral sea
errónea por más de E

Existe una probabilidad


de de que una me-
dia muestral sea errónea
por más de E (es una de
las colas claras)

E E

Figura 17. Distribución de medias muestrales con  conocida

Dado la expresión para el margen de error E (fig. 4.2. – 2) despejamos el tamaño


muestral n, obtenemos lo siguiente.
2
Tamaño de muestra para estimar la media : Z   
n    /2 
 E 
Dónde: Z /2  puntuación Z crítica basada en el Nivel de Confianza deseada
E  Margen de error deseado
  Desviación estándar poblacional
2   
n
Regla de redondeo para el tamaño muestral n
Cuando se calcula el tamaño muestral n, si el uso de la fórmula no produce un número
entero, siempre incremente el valor de n al siguiente número entero mayor.
Ejemplo N° 5: Se encuentra que la concentración promedio de zinc que se saca del
agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2,6
gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la
concentración media de zinc en el río. Suponga que la desviación estándar de la
población es 0,3.

Solución:

1°) La estimación puntual de  es X  2,6 . El valor de z para un nivel de confianza


del 95% es 1,96, por lo tanto:

Z
   2,6 
1,96  0,3   2,30 y   2,70
 X min máx
n 36

Figura 18. Estimación puntual al 0,95

2°) Para un nivel de confianza de 99% el valor de z es de 2,575 por lo que el intervalo
será más amplio:

Z
   2,6 
 2,575 0,3   2,47 y   2,73
 X min máx
n 36
Figura 19. Estimación puntual al 0,99

4.3.2. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA DISTRIBUCIÓN


CON VARIANZA DESCONOCIDA.
Definición: INTERVALO DE CONFIANZA PARA UNA MEDIA DE UNA DISTRI-
BUCIÓN NORMAL CON VARIANZA DESCONOCIDA.

Si X y S son la media y la desviación estándar de una muestra aleatoria tomada


de una distribución normal con varianza  2 desconocida, entonces un intervalo de
confianza 100  1    por ciento para  está dado por:

S S , donde t es el punto crítico superior que co-


X  t  /2,n1    X  t  /2,n1  /2
n n
rresponde al porcentaje /2 de la distribución t con n  1 grados de libertad.

De la definición se extrae que para realizar la estimación de intervalos de confianza


para una media de distribución normal con varianza desconocida, se tiene en cuenta
los siguientes requisitos:
 La muestra es aleatoria simple
La muestra proviene de una población distribuida normalmente o n > 30.

LA MEDIA MUESTRAL X ES EL MEJOR ESTIMADO PUNTUAL DE LA MEDIA DE


LA POBACIÓN 
Si  no se conoce pero los requisitos anteriores satisfacen, utilizaremos la distribu-
ción t de Student. Dado que no se conoce el valor de  , lo estimado con la desviación
estándar muestral S , pero esto introduce otra fuente de falta de confiabilidad, en
especial con muestra pequeñas. Para mantener un intervalo de confianza es a un
nivel deseado, como el 95%, compensando esta falta de confiabilidad haciendo más

ancho el intervalo de confianza: utilizamos valores críticos t  /2 (de una distribución

t de Student), los cuales son más grandes que los valores críticos Z /2 de la distri-
bución muestral.
PROCEDIMIENTOS PARA CONSTRUIR UN INTERVALO DE CONFIANZA PARA

 CON VARIANZA DESCONOCIDA 2 .


1° Verifique que los supuestos requeridos cumplan
 Debe ser una muestra aleatoria simple.
 La población pueda estar distribuida normalmente o n > 30.
2° Utilizando n -1 grados de libertad. Remítase a la tabla A – 3 y calcule el valor
crítico t  /2 que corresponde al nivel de confianza deseado. (Para el nivel de confianza,

remitirse al “área de dos colas”)

3° Estime el margen de error: S


E  t  /2 
n
4°Calcule los intervalos de confianza: X E    X  E, haciendo uso de la media

muestral X y margen de error E


5°Redondee los límites del intervalo de confianza resultantes- Si utiliza el conjunto
de datos original, redondee a un decimal más del que se usa del conjunto original de

datos. Si utiliza un resumen de estadísticas (n,X,S) , redondee los límites del intervalo

de confianza al mismo número de lugares decimales utilizados para la media mues-


tral.
Ejemplo N° 6: El contenido de siete contenedores similares de ácido sulfúrico son
9.8, 10.2, 10.4, 9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del
95% para la media de todos los contenedores si se supone una distribución aproxi-
madamente normal.
Solución:
1°) La media muestral y la desviación estándar para los datos dados son:

X  10 y S  0,283 .
2°) En la tabla se encuentra que t0,025=2,447 con 6 grados de libertad, de aquí, el

intervalo de confianza de 95% para  es: X E    X E


 0,283   0,283 
10  2, 477      10  2, 477  
 7   7 
9,74    10,26
3°) Representación gráfica:

Figura 20. Representación gráfica, con un nivel de confianza al 95%


Con un nivel de confianza del 95% se sabe que el promedio del contenido de los
contenedores está entre 9,47 y 10,26 litros.

PROPIEDADES DE LA DISTRIBUCIÓN DE t DE STUDENT


1° La distribución t de Student es diferente para distintos tamaños de muestras.
2° La distribución t de Student tiene la misma forma simétrica que la distribución
normal, pero refleja una mayor variabilidad de lo que se espera con muestra peque-
ñas.

Distribución
Normal Distribución
Estándar T de Student

Figura 21. Distribución t de Student y Distribución Normal Estándar.

3° La distribución t de Student tienen una media t = 0 (así como la distribución


normal estándar tiene una media de Z  0 )
4° La desviación estándar de la distribución t de Student varía con el tamaño mues-
tral, pero es mayor que 1 (a diferencia de la distribución normal estándar que tiene

  1)
5° Conforme el tamaño muestral n se hace más grande, la distribución t de Student
se acerca más a la distribución normal estándar.
Cálculo del estimado puntual y el E a partir un intervalo de confianza

Si ya conocemos los límites de intervalo de confianza, la media muestral X es el


valor intermedio de estos límites, el margen de error E es la unidad de la diferencia

entre estos límites (ya que el límite superior es XE y el límite inferior es X E ,
y la distancia que los separa es 2E ).
Estimado puntual de :

X
límite de confianza sup erior   límite de confianza inf erior 
2
Margen de error:

E
límite de confianza sup erior   límite de confianza inf erior 
2
4.3.3. INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL
REQUISITOS
De la definición se extrae que para realizar la estimación de intervalos de confianza
para la varianza poblacional, se tiene en cuenta los siguientes requisitos:
 La muestra es aleatoria simple
 La población debe estar distribuidos normalmente (aun si la muestra es muy
grande)

ESTIMADORES DE 2
La varianza muestral S2 es el mejor estimado puntual de la varianza poblacional 2

. Puesto que S 2 es un estimador sin sesgo de  , esperaríamos que S fuera un esti-


mador sin sesgo de  , pero no es así. Sin embargo, si el tamaño muestral es grande,

el sesgo es tan pequeño que podemos utilizar S como un estimado de  -razonable-


mente bueno. Aunque s es un estimado sesgado, se usa con frecuencia como un
estimado puntual de .
La desviación estándar muestral S suele utilizarse como un estimado puntual de 
(aunque es un estimado sesgado).

Intervalo de confianza (o estimado de intervalo) para la varianza poblacio-

nal 2
(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
<  <
𝟐

𝑿𝟐𝑫 𝑿𝟐𝒍

Esta expresión se utiliza para calcular un intervalo de confianza para la varianza 2


, pero un intervalo de confianza (o un estimado de intervalo) para la desviación es-
tándar  se calcula tomando la raíz cuadrada de cada componente:

(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
√ <  𝟐 <√
𝑿𝟐𝑫 𝑿𝟐𝒍

Procedimiento para construir un intervalo de confianza para 2


 Verifique que los requisitos se satisfagan. (La muestra es aleatoria simple y un
histograma o gráfica cuantilar normal sugiere que la población tiene una distribu-
ción que es muy cercana a la distribución normal).
 Utilizando (n — 1) grados de libertad, remítase a la tabla A-4 y encuentre los

valores críticos 𝑿𝟐𝑫 y 𝑿𝟐𝒍 correspondientes al nivel de confianza deseado.

 Evalúe los límites del intervalo de confianza superior e inferior utilizando el si-
guiente formato para el intervalo de confianza:
(𝒏−𝟏)𝑺𝟐 (𝒏−𝟏)𝑺𝟐
<  <
𝟐

𝑿𝟐𝑫 𝑿𝟐𝒍

 Si se desea un estimado del intervalo de confianza de  calcule la raíz cuadrada

de los límites del intervalo de confianza superior e inferior y cambie 𝟐 por 


 Redondee los límites del intervalo de confianza resultantes. Si se utiliza el con-
junto original de datos, redondee a un decimal más del que se usa para el con-
junto original de datos. Si se utiliza la desviación estándar o varianza muestrales,
redondee los límites del intervalo de confianza al mismo número de espacios
decimales.

EJEMPLO N° 4: Intervalo de confianza para pesos de monedas de 1 centavo En la


actualidad las monedas de 1 centavo de dólar se acuñan con una desviación estándar
de 0,0165 g (de acuerdo con el conjunto de datos 14 del apéndice B). Se prueba un
nuevo equipo con la intención de mejorar la calidad al reducir la variación. Se obtiene
una muestra aleatoria simple de 10 monedas de 1 centavo acuñadas con el equipo
nuevo. Una gráfica cuantilar normal y un histograma indican que los pesos provienen
de una población distribuida normalmente, y la muestra tiene una desviación están-
dar de 0,0125 g. Utilice los resultados muestrales para construir un estimado de un
intervalo de confianza del 95% de  , la desviación estándar de los pesos de mone-
das de 1 centavo fabricadas con el equipo nuevo. Con base en los resultados, ¿parece
que el equipo nuevo sirve para reducir la variación de los pesos?
Solución:
1°) Se indicó que se trata de una muestra aleatoria simple. Con base en las descrip-
ciones del histograma y de la gráfica cuantilar normal, también se satisface el requi-
sito de una distribución normal.

2°) Utilizando n — 1 grados de libertad, ahora calculamos los valores críticos de X2


. El tamaño muestral es n = 10  gl = 9 . Nos remitimos a la tabla A-4, se tiene
que las áreas de 0,975 y 0,025. (Para un nivel de confianza del 95%, dividimos a =
0.05 entre las dos colas de la distribución chi cuadrada y nos remitimos a los valores
de 0,975 y 0,025 a lo largo del renglón superior de la tabla A-4). Los valores críticos

de X2 son: 𝑿𝟐𝑫 = 𝟐, 𝟕𝟎𝟎 y 𝑿𝟐𝒍 = 𝟏𝟗, 𝟎𝟐𝟑

3°) Usando los valores críticos de 2,700 y 19,023, la desviación estándar muestral

de S = 0,0125 y el tamaño muestral de 10, construimos el intervalo de confianza


del 95% al evaluar lo siguiente:
𝟐 (𝟏𝟎−𝟏)(𝟎,𝟎𝟏𝟐𝟓)𝟐
(𝟏𝟎−𝟏)(𝟎,𝟎𝟏𝟐𝟓)
𝟏𝟗,𝟎𝟐𝟑
<  <
𝟐

𝟐,𝟕𝟎𝟎
4°) La evaluación de la expresión anterior produce

0,0000739237 <  𝟐 <0,000520833


Se le extrae la raíz cuadrada y se obtiene y se redondea a 4 cifras decimales

0,0086 g <  𝟐 < 0,0228 g.


INTERPRETACIÓN: Con base en este resultado, tenemos una confianza del 95%
de que los límites de 0,0086 g y 0,0228 g contienen el valor real de  . Observe que
este intervalo incluye la desviación estándar de 0,0165 g para los pesos de las mo-
nedas que se fabrican actualmente. No parece que el nuevo equipo reduzca signifi-
cativamente la variación. Aun cuando la desviación estándar de la muestra (0,0125
g) es menor que la desviación estándar actual de 0,0165 g, no es lo suficientemente
baja para ser significativa. Con base en los datos disponibles, parece que el equipo
nuevo no es efectivo. El intervalo de confianza 0,0086 <  < 0,0228 también se

expresa como (0,0086; 0,0228), pero la forma de S ± E no puede utilizarse porque


el intervalo de confianza no tiene S en su parte central.

ACTIVIDAD AUTOFORMATIVA N° 4
1. Los contenidos de 5 latas de café instantáneo de un productor han dado los si-
guientes pesos netos en gramos: 280; 290; 285; 275; 284.
a). Encuentre un intervalo de confianza del95% para la media de todos los
contenidos de latas de café del productor.
b).¿Con qué grado de confianza se estima que el contenido promedio de café
tenga los límites de confianza 277,432 y 288,168?. Suponga una distribución
normal.

2. Se tiene que diez objetos de forma cilíndrica elegidos al azar entre los productos
en la planta industrial los cerditos han mostrado los siguientes diámetros:
10,1cm; 9,7cm; 10,3 cm; 10,4 cm; 9,9 cm; 9,8 cm; 9,9 cm; 10,1 cm;
10,3 cm; 9,9 cm. Encuentre un intervalo de confianza del 95% para la varianza
de los diámetros de todos los objetos producidos por esta planta. Suponga que
los diámetros de tales objetos se distribuyen según la normal.
3. En una empresa electrónica para estimar la vida media de un transistor BJT3456
se selecciona una muestra aleatoria de 10 unidades, se les somete a prueba y
se encuentra que 6 de ellos siguen funcionando después de 3000 horas. Supo-
niendo que la vida útil de los transistores BJT es una variable aleatoria T con
distribución exponencial de parámetro “”, estimar la vida media de tales tran-
sistores producidos.
4. La Defensoría del pueblo pretende implantar un programa de ayuda a familias
con familiares dependientes. Dado que la mayor parte de los Servicios Sociales
son competencia de los municipios, la Junta proporcionará los medios económi-
cos, pero serán éstos los encargados de ejecutar el programa.
Los Servicios Sociales de cualquier municipio asumen que, por errores inevita-
bles, no todas las familias a las que subvencionan reúnen los requisitos exigidos,
pero la Defensoría del pueblo les responsabiliza de que esto no ocurra en más
del 4% de ellas. Si se supera este porcentaje, penalizará al municipio. En un
municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cum-
plen las condiciones exigidas. ¿Debe la Junta sancionar al municipio?
5. Un analista de investigación de mercado quiere estimar el promedio del ingreso
familiar mensual de una determinada población. Determine el intervalo de con-
fianza del 95%, si en una muestra aleatoria de tamaño 100 de esa población se
encontró que el promedio del ingreso familiar era de $500. Suponga que el in-
greso familiar mensual se distribuye normalmente con desviación estándar igual
a $100
6. Un inspector de alimentos seleccionó aleatoriamente 30 paquetes de carne de
res 95% magra. La muestra dio como resultado una media de 96,2% con una
desviación estándar muestral de 0,8%. Calcule un intervalo de predicción del
99% para la condición baja en grasa de un paquete nuevo. Suponga normalidad.
7. Una máquina produce piezas de metal que tienen forma cilíndrica. Se toma una
muestra de tales piezas y se encuentra que los diámetros son 1,01; 0,97; 1,03;
1,04; 0,99; 0,98; 0,99; 1,01 y 1,03 centímetros. Utilice estos datos para calcular
tres tipos de intervalos y hacer interpretaciones que ilustren las diferencias entre
ellos en el contexto del sistema. Para todos los cálculos suponga una distribución
aproximadamente normal. La media muestral y la desviación estándar para los
datos dados son x¯ = 1.0056 y s = 0.0246.
a) Calcule un intervalo de confianza del 99% sobre la media del diámetro.
b) Calcule un intervalo de predicción del 99% sobre el diámetro medido de
una sola pieza de metal tomada de la máquina.
c) Calcule los límites de tolerancia del 99% que contengan 95% de las piezas
de metal producidas por esta máquina.
8. Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra
de las piezas y los diámetros son 1,01; 0,97; 1,03; 1,04; 0,99; 0,98; 0,99; 1,01
y 1,03 centímetros. Calcule un intervalo de confianza del 99% para la media del
diámetro de las piezas que se manufacturan con esta máquina. Suponga una dis-
tribución aproximadamente normal.
9. Se registran las siguientes mediciones del tiempo de secado, en horas, de cierta
marca de pintura vinílica: 2,8 3,3 5,6 3,7 2,8 4,4 4,0 5,2 3,0 4,8 3,4 2,5 4,8 2,9
3,6. Suponga que las mediciones representan una muestra aleatoria de una po-
blación normal y con base en esto calcule el intervalo de predicción del 95% para
el tiempo de secado de la siguiente prueba de pintura.
10. Se están estudiando las propiedades de resistencia a la tensión de un determi-
nado tipo de hilo. Con ese fin se prueban 50 piezas en condiciones similares y
los resultados que se obtienen revelan una resistencia a la tensión promedio de
78.3 kilogramos y una desviación estándar de 5.6 kilogramos. Suponga que la
resistencia a la tensión tiene una distribución normal y con base en esto calcule
un límite de predicción inferior al 95% de un solo valor observado de resistencia
a la tensión. Además, determine un límite inferior de tolerancia del 95% que sea
excedido por el 99% de los valores de resistencia a la tensión.
TEMA N° 5: INTERVALOS DE CONFIANZA PARA DOS
PARÁMETROS

5.1. INTERVALOS DE CONFIANZA PARA DOS PROPORCIONES


REQUISITOS:
 Se tienen dos proporciones de dos muestras aleatorias simples que son inde-
pendientes.
 Para ambas muestras el número de éxitos es de al menos 5 y el número de fra-
caso es de al menos 5.
NOTACIÓN:
𝑝1  Proporción de la población

𝑛1  tamaño muestral

𝑋1  números de éxitos en la muestra


𝑋1
𝑝
̂1 =  La porción muestral
𝑛1

𝑞1 = 1 − 𝑝
̂ ̂1
Se adjunta los significados correspondientes a

𝑝2 ;𝑛2 ;𝑋2 ;𝑝
̂2 ; 𝑞
̂2 que provienen de la población 2

(𝑝
̂−𝑝
1 ̂)−(𝑝
2 1 − 𝑝2 )
ESTIMADOR 𝑧= 𝑝̂ ̂
𝑞 𝑝̂ ̂
𝑞
√ 1𝑛 1 + 2𝑛 2
1 2

ESTIMADO DEL INTERVALO DE CONFIANZA DE 𝑝1 − 𝑝2


El estimado de intervalo de confianza de 𝑝1 − 𝑝2 es:

̂1 − 𝑝
(𝑝 ̂) ̂ ̂)
2 − 𝐸 < (𝑝1 − 𝑝2 ) < (𝑝1 − 𝑝2 +𝐸
Donde el margen de error 𝐸 está dado por:

𝑝1 ̂
̂ 𝑞1 𝑝̂2 ̂
𝑞2
𝐸 = 𝑍𝛼/2 . √ +
𝑛1 𝑛2
EJEMPLO N° 2: Un sociólogo quiere determinar el porcentaje actual de hogares en
Estados Unidos que utilizan el correo electrónico. ¿Cuántos hogares deben encues-
tarse para tener una confianza del 95% de que el porcentaje muestral es erróneo por
no más de 4 puntos porcentuales?
a. Utilice el siguiente resultado de un estudio pionero: en 1997, el 16,9% de los
hogares estadounidenses usaban correo electrónico (según datos de The World
Almanac and Book of Facts).

b. Suponga que no tenemos información previa que sugiera un posible valor de p.
SOLUCIÓN:
  
1°) El estudio previo sugiere que p  0,169 , entonces q  1  p  0,831 . Con un ni-
vel de confianza del 95%, tenemos  = 0,05, entonces z  1, 96 . Además, el mar-
2

gen de error es E = 0,04 (el equivalente decimal de "cuatro puntos porcentuales").



Puesto que tenemos un valor estimado de p , usamos:

 z /2 
2 
pq 1, 962  0,169  0,831
n  n  337,194
E2 0, 042

Redondeando se tiene que: n = 338. Debemos encuestar al menos 338 hogares se-
leccionados al azar.
2°) El estudio previo sugiere que z  1, 96 , el margen de error es E = 0,04 (el
2

equivalente decimal de "cuatro puntos porcentuales, pero sin conocimiento previo

 z /2   0,25
2
 
1, 962  0, 25
de p (o q ), usamos: n   n  600, 25
E2 0, 042
Redondeando se tiene que: n = 601. Debemos encuestar al menos 601 hogares se-
leccionados al azar.
INTERPRETACIÓN: Para tener una confianza del 95% de que nuestro porcentaje
muestral está dentro de cuatro puntos porcentuales del porcentaje verdadero para
todos los hogares, debemos seleccionar al azar y encuestar 601 hogares. Compa-
rando este resultado con el tamaño muestral de 338 calculado en el inciso a), pode-
mos ver que si no tenemos conocimiento de un estudio previo, se requiere una mues-
tra más grande para obtener los mismos resultados que cuando se puede estimar el

valor de p.

CÁLCULO DEL ESTIMADO PUNTUAL Y DE “E” DESDE UN INTERVALO DE CON-


FIANZA

Algunas veces queremos comprender mejor un intervalo de confianza que podría


haberse obtenido de un artículo de una revista, o que podría haberse generado por
medio de programas de cómputo o una calculadora. Si ya conocemos los límites del

intervalo de confianza, la proporción muestral p y el margen de error E se calculan
como sigue:

(límite de confianza sup erior)  (límite de confianza inf erior)
p
2

(límite de confianza sup erior)  (límite de confianza inf erior)


E
2
EJEMPLO N° 2: El artículo "High-Dose Nicotine Patch Therapy" de Dale, Hurtet al.
(Journal of the American Medical Association, vol. 274, núm. 17) incluye esta afir-
mación: "De los 71 sujetos, el 70% se abstuvo de fumar durante 8 semanas (inter-
valo de confianza l IC1 del 95%, del 58% al 81%)". Utilice esta afirmación para
calcular el estimado puntual fi y el margen de error E.
Solución: Del enunciado vemos que el intervalo de confianza del 95% es 0,58 < p

< 0,81. El estimado puntual p es el valor medio entre los límites superior e inferior
del intervalo de confianza, de manera que obtenemos:

 (límite de confianza sup erior )  (límite de confianza inf erior )


p
2
 0,81  0, 58
p  0, 695
2

El margen de error se calcula como sigue:

(límite de confianza sup erior )  (límite de confianza inf erior )


E
2
0,81  0, 58
E  0,115
2

5.2. INTERVALOS DE CONFIANZA PARA DOS MEDIAS


REQUISITOS:

 𝜎1 y 𝜎2 Se desconoce y no se hace la suposición sobre la igualdad


𝜎1y 𝜎2
 Las dos muestras son independientes.
 Ambas muestras son aleatorias
 Cualquiera o ambas de estas condiciones satisface: Los tamaños mués-
trale son grandes (con 𝑛1 > 30 y 𝑛2 > 30) o ambas muestras pro-
vienen de poblaciones que tiene distribuciones normales.
NOTACIÓN: Que provienen de la población 1
µ1  Media población

𝑋̅1  Media muestral

𝑛1  tamaño muestral

Se adjunta los significados correspondientes a

µ2 ;𝑛2 ; 𝑋̅2 que provienen de la población 2


(𝑋̅1 − 𝑋̅2 )−(µ1 − µ2 )
ESTIMADOR 𝑡=
𝑆 𝑆2 2
√ 1+ 2
𝑛1 𝑛2

GRADOS DE LIBERTAD
𝑆12 𝑆22 2
( + )
𝑛1 𝑛2
𝑔𝑙 = 2 2
𝑆12 𝑆12
( ) ( )
𝑛1 𝑛1
+
𝑛1 − 1 𝑛1 − 1

ESTIMADO DEL INTERVALO DE CONFIANZA DE µ1 − µ2


El estimado de intervalo de confianza de µ1 − µ2 es:

(𝑋̅1 − 𝑋̅2 ) − 𝐸 < (µ1 − µ2 ) < (𝑋̅1 − 𝑋̅2 ) + 𝐸

𝑆12 𝑆22
Donde el margen de error 𝐸 está dado por: 𝐸 = 𝑡𝛼/2 . √ 𝑛 +
1 𝑛2

EJEMPLO N° 2 : Un agente de compras de una compañía está tratando de decidir si


comparar la marca A o la maraca B de cierto tipo de focos ahorradores de energía.
Para estimar la diferencia entre las dos marcas se lleva a cabo un experimento con
dos muestras aleatorias independientes de 10 focos de cada marca resultando las
medias de vida útil respectivas de 1,230 horas y 1,190 horas Estimar la verdadera
diferencia de las dos medias de vida útil, mediante un intervalo de confianza del 95%.
¿Es acertada la decisión del agente si adquiere cualquiera de las dos marcas? Su-
ponga que las dos poblaciones tienen distribución normal con desviaciones estánda-
res respectivas de 120 y 60 horas.
SOLUCION: La estimación puntual de 1   2 es la diferencia de las medias mués-

trales X1  X2  1230  1190  40

 12  22 1202 602
El error estándar es:       42, 43
X1  X 2
n1 n2 10 10

Para el grado de confianza del 95% se encuentra: Z0  Z   Z 0,975  1,96


1
2

Los límites de confianza inferior y superior respectivamente de 1   2 son:


𝑆12 𝑆22
Aplicando. 𝐸 = 𝑡𝛼/2 . √ 𝑛 +
1 𝑛2

X 1 
 X 2  E  40  1, 96  42, 43  40  83,1628

Luego, el intervalo de confianza aproximado del 95% para 1   2 es:

43,16  1  2  123,16

Dado que 1  2  0   43,16;123,16 , se concluye que 1  2 y que no hay dife-


rencias significativas entre las medias de las vidas útiles de los objetos de marcas A
y B. Por tanto, el agente de compras puede adquirir cualquiera de las dos.
LECTURA SELECCIONADA N° 2

¿Funciona la terapia de contacto?


Muchos pacientes pagan de $25 a $50 tas de contacto identificaron la mano co-
por una sesión de terapia de contacto en rrecta 123 veces, es decir, tuvieron una
la que el terapeuta coloca sus manos a tasa de éxito del 44%. Emily, con la
unos centímetros del cuerpo del pa- ayuda de su madre, un especialista en
ciente, sin tener realmente contacto fí- estadística y un médico, envió sus ha-
sico. El objetivo es curar una amplia va- llazgos para publicarlos en el prestigioso
riedad de problemas médicos, inclu- Journal of the American Medical Associa-
yendo cáncer, SIDA, asma, enfermeda- tion. Después de una cuidadosa y deta-
des cardiacas, dolores de cabeza, que- llada revisión del diseño experimental y
maduras y fracturas óseas. La teoría bá- de los resultados, se publicó el artículo
sica plantea que un terapeuta de con- "A Close Look at a Therapeutic Touch"
tacto capacitado profesionalmente (Journal of the American Medical Asso-
puede detectar un mal alineamiento en ciation, vol. 279, núm. 13). Emily se
el campo de energía del paciente y ge- convirtió en la investigadora más joven
nerar un equilibrio energético que incre- en publicar un artículo en esa revista.
menta el proceso de curación. Además, ganó el primer premio de la fe-
Cuando Emily Rosa, una niña de nueve ria de ciencias por su proyecto.
años, estaba en cuarto grado, eligió el Consideremos los principales resultados
tema de la terapia de contacto para el del proyecto de Emily. En los 280 ensa-
proyecto de una feria de ciencias y con- yos, los terapeutas de contacto acerta-
venció a 21 terapeutas de contacto ex- ron 123 veces. Tenemos una proporción
perimentados para que participaran en muestral con n = 280 y x = 123. Los
una prueba sencilla de su capacidad para argumentos en contra de la validez del
detectar el campo de energía humana. estudio podrían incluir la aseveración de
Emily utilizó un cartón con dos agujeros que el número de ensayos es demasiado
para introducir las manos. Cada tera- pequeño para ser significativo, o que los
peuta de contacto pasaba sus dos manos terapeutas de contacto tuvieron un mal
a través de los agujeros, y Emily colo- día y que, debido al azar, no tuvieron
caba su mano por arriba de una de las tanto éxito como la población de todos
manos del terapeuta; luego, se le pedía los terapeutas de contacto. En este ca-
al terapeuta que identificara la mano pítulo analizaremos estos temas. Tam-
que Emily había elegido. bién es importante señalar que el pro-
La niña lanzaba una moneda para selec- yecto de Emily Rosa fue relativamente
cionar al azar la mano sobre la que colo- sencillo. Recuerde que ella realizó el es-
caba la suya. Esta prueba se repitió 280 tudio cuando cursaba el cuarto grado de
veces. Si los terapeutas de contacto primaria.
realmente tenían la habilidad de percibir Su proyecto es el tipo de actividad que
un campo energético humano, debían cualquier estudiante de un curso de in-
identificar la mano correcta mucho más troducción a la estadística podría llevar
del 50% de las veces. Si no tenían tal a cabo. Después de comprender los con-
capacidad y sólo hacían conjeturas, de- ceptos que se enseñan en el curso de in-
bían acertar alrededor del 50% de las troducción a la estadística típico, los es-
veces. Emily obtuvo los siguientes resul- tudiantes tienen la habilidad para reali-
tados: de los 280 ensayos, los terapeu- zar trabajos significativos e importantes.
ACTIVIDAD N° 2

Foro de discusión sobre la lectura ¿Funciona la terapia de contacto?


Instrucciones
Ingrese al foro y participe con comentarios críticos y analíticos del tema ¿Funciona
la terapia de contacto?

 Lea y analice el tema N° 4 y 5 del manual


 Responda en el foro a las preguntas acerca de la lectura
¿Cuál es Propósito de lectura?
¿Cuál es la relación entre la lectura propuesta y la estadística?
En la lectura se señala que los terapeutas de contacto participaron en 280 pruebas
de su capacitación. En cada ensayo se pido a un terapeuta que identifique la mano
que está debajo de Emily Rosa. De los 280 ensayos, los terapeutas acertaron en 123

ocasiones. Los resultados muestrales son n=280 y p = 123/280 = 0,439286 (En
vez de utilizar 0,44 para la proporción muestral empleamos decimales adicionales
para que los cálculos posteriores no se vean afectados por un error de redondeo)
 Calcule el margen de error E que corresponde a un nivel de confianza del 95%.
 Calcule el estimado del intervalo de confianza del 95% de proporción poblacional
p
 Con base a los resultados, ¿qué podemos concluir acerca de la eficacia de la
terapia de contacto?
ACTIVIDAD AUTOFORMATIVA N°5
Instrucción: Desarrolle los siguientes ejerciciso con su fundanentación respectiva.

1. Una noticia en el periódico dice que, de 1000 personas encuestadas sobre una
cuestión, 556 se muestran a favor y 444 en contra, y concluye afirmando que el
55.6 % de la población se muestra a favor con un margen de error de ±3 %.
¿Cuál es el nivel de confianza de esta afirmación?
2. Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases
de largueros de aluminio utilizados en la fabricación de aviones comerciales pe-
queños. De la experiencia pasada con el proceso de fabricación de largueros y
del procedimiento de prueba, se supone que la desviación estándar de las resis-
tencias a la tensión son conocidas. Los datos obtenidos aparecen en la siguiente
tabla:

Clase Tamaño Media muestral de la Desviación


de de la resistencia a la estándar
larguero muestra tensión de la población
( kg/mm2) ( kg/mm2)
1 10 87,6 1,0
2 12 74,5 1,5

a) En base a esta información entregada previamente, encuentre un intervalo de


confianza para la diferencia entre los promedios poblacionales de la resisten-
cia a la tensión con un nivel de confianza del 90%.
b) ¿De acuerdo al resultado obtenido en a) qué puede concluir respecto a la
diferencia entre los promedios poblacionales con relación a la resistencia?

3. Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o


de la B para su flotilla de taxis. Para estimar la diferencia entre los promedios de
desgaste a través de kilómetros recorridos, de las dos marcas, se lleva a cabo
un experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta
que se desgastan, dando como resultado promedio para la marca A 36,300 kiló-
metros, con una desviación estándar de 5000 kilómetros y para la marca B
38,100 kilómetros con una desviación estándar de 6100 kilómetros. Calcule un
intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si
se sabe que las poblaciones se distribuyen de forma aproximadamente normal
para la marca A y para la marca B. Asuma que las dos varianzas poblacionales
son distintas.
4. Se realizó un experimento para comparar el tiempo promedio requerido por el
cuerpo humano para absorber dos medicamentos, A y B. Suponga que el tiempo
necesario para que cada medicamento alcance un nivel específico en el torrente
sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas para
ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar
un nivel específico en la sangre. Calcule un intervalo de confianza del 95% para
la diferencia del tiempo promedio. Suponga varianzas iguales.

Medicamento A Medicamento B

nA = 12 nB = 12

SA2= 15,57 SB2 = 17,54

5. La siguiente tabla presenta los resultados de dos muestras aleatorias para com-
parar el contenido de nicotina de dos marcas de cigarrillos. Suponiendo que los
conjuntos de datos provienen de muestras tomadas al azar de poblaciones nor-
males con varianzas desconocidas e iguales, construya un intervalo de confianza
del 95% para la diferencia real de nicotina de las dos marcas.
6. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desa-
rrolla un nuevo proceso en el que se añade una aleación a la producción del
metal. Los fabricantes se encuentran interesados en estimar la verdadera dife-
rencia entre las tensiones de ruptura de los metales producidos por los dos pro-
cesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se
somete a una tensión hasta que se rompe. La siguiente tabla muestra las ten-
siones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:

Proceso
449 401 476 421 459 438 481 411 456 427 459 445
Estándar

Proceso
462 448 435 465 429 472 453 459 427 468 452 447
Nuevo

Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales


e independientes, obtener los intervalos de confianza estimados del 95 y 99%
para la diferencia entre los dos procesos. Interprete los resultados.
7. Un artículo publicado dio a conocer los resultados de un análisis del porcentaje
de calcio en cemento estándar y en cemento contaminado con plomo. Los niveles
bajos de calcio indican que el mecanismo de hidratación del cemento queda blo-
queado y esto permite que el agua ataque varias partes de una estructura de
cemento. Al tomar diez muestras de cemento estándar, se encontró que el por-
centaje promedio de calcio es de 90 con una desviación estándar de 5; los resul-
tados obtenidos con 15 muestras de cemento contaminado con plomo fueron de
87 en promedio con una desviación estándar de 4. Supóngase que el porcentaje
de calcio está distribuido de manera normal.
Encuéntrese un intervalo de confianza del 95% para la diferencia entre medias
de los dos tipos de cementos. Supóngase que las dos poblaciones normales tie-
nen la misma varianza.
GLOSARIO DE LA UNIDAD I

1. POBLACIÓN: Es el conjunto completo de todos los elementos (puntuaciones, per-


sonas, animales, medidas, etcétera) que se va estudiar. El conjunto es completo
porque incluye a todos los sujetos que se estudiarán. Cuando el número de ele-
mentos que conforman la población es ilimitado, se dice que la población es finita,
en cambio, cuando el número de elementos de una población es ilimitado o bien
muy grande para considerarlo como tal, se tiene una población infinita.
2. MUESTRA: En un subconjunto de miembros seleccionados de una población. Para
que una muestra sea representativa, y por lo tanto útil, debe reflejar las similitu-
des y diferencias encontradas en la población, ejemplificar las características de
la misma.
3. PARÁMETRO: Es una medición numérica que describe algunas características de
una población. También se le denomina estadísticos muéstrales. Se denota con
las letras mayúsculas griegas como por ejemplo: Media poblacional:  ; Desvia-

ción estándar:  ; Varianza: 2

4. ESTADÍSTICO: Es una medición numérica que describe algunas características


de una muestra. Se denota con las letras minúsculas latinas como por ejemplo:
Media aritmética: X ;
5. ERROR ESTÁNDAR DE UNA ESTADÍSTICA: Es la desviación estándar de su
distribución de muestras. Si el error estándar involucra parámetros desconocidos
cuyos valores pueden estimarse, la sustitución de estas estimaciones en el error
estándar de como resultado un error estándar estimado.
6. ESTIMADOR: Las dos aplicaciones de la estadística inferencial implica el uso de
datos muestrales, para primero estimar el valor de los parámetros de una pobla-
ción (es decir, estimación de parámetros), y segundo probar alguna aseveración
acerca de una población (es decir, prueba de hipótesis).
7. VALORES CRÍTICO: Es el número en la línea limítrofe que separa estadísticos
muestrales que tiene mayor probabilidad de ocurrir de aquellos que no tienen
probabilidad de ocurrir. El número Z /2 es un valor crítico, una puntuación Z con
la propiedad de separar un área de  / 2 en la cola derecha de la distribución
normal estándar.
8. INTERVALO DE CONFIANZA: Un intervalo de confianza (o estimado del inter-
valo) es un rango (o un intervalo) de valores que se usa para estimar el valor real
de un parámetro de población. El intervalo de confianza suele abreviarse como IC.
9. NIVEL DE CONFIANZA: El nivel de confianza es la probabilidad 1 —  (a menudo
expresada como el valor de porcentaje equivalente), que es la proporción de ve-
ces que el intervalo de confianza realmente contiene el parámetro de población,
suponiendo que el proceso de estimación se repite un gran número de veces. El
nivel de confianza también se llama grado de confianza o coeficiente de confianza.

BIBLIOGRAFÍA DE LA UNIDAD I

Montgomery, D. (2013). Applied Statistics and Probability for engineers. (6°ed.).


EEUU: Willey.
Triola, M.F. (2009). Estadística. (10° ed.). México: Editorial: Pearson Educación
Devore, J.L. (1998). Probabilidades y estadística para ingeniería y ciencias.
(4° ed.). México: Editorial: International Thomson
Autoevaluación N°1
Instrucciones:
 El examen tiene una duración de 70 minutos.
 El procedimiento y respuesta (fundamentación) se tomará en cuenta para la cali-
ficación.
 Utilice calculadora

1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:


a) El estudio prospectivo es cuando los datos se reunirán de hechos pasa-
( )
dos.
b) En una muestra aleatoria simple los miembros de la población tienen la
( )
misma posibilidad de ser elegidos.
c) En el muestreo estratificado se divide a la población en al menos dos sub-
( )
grupos y se obtiene una muestra de cada subgrupo.
d) Un estudio a ciegas es cuando el sujeto sabe que está recibiendo un tra-
( )
tamiento o placebo.

2. La tabla adjunta muestra las utilidades (en dólares) obtenidas en todos los con-
tratos ejecutados por una empresa de Huancayo, en el año 2016:
Nº Monto Nº Monto Nº Monto Nº Monto
1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20

a) Determine una muestra de tamaño 18 mediante el muestreo sistemático, des-


cribiendo los procedimientos correspondientes. El contrato No 4 es el elemento
de arranque.
b) A partir de los datos de la muestra obtenida proporcione un intervalo de con-
fianza del 99% para la media poblacional de las utilidades de la empresa. In-
terprete y grafique.

3. Determine el intervalo de confianza del 95% para la varianza poblacional de las


utilidades obtenidas por la empresa, suponiendo que los datos provienen de una
distribución normal. Grafique e interprete.
4. Cuatro de cada diez familias de San Carlos poseen un celular de última generación.
a) Halle e interprete el intervalo de confianza para la proporción poblacional de
familias con cuentan con ese nuevo celular, en muestras de 25 familias, corres-
pondiente al 94% de confianza.
b) Halle el estimado puntual.

5. Antony registró la antigüedad (en años) de taxis y automóviles elegidos al azar en


la ciudad de Huancayo, como se muestra.
Taxis: 8; 6; 11; 7; 9; 10; 8; 10
Automóviles: 5; 3; 4; 6; 6; 8; 10; 7
Construya el intervalo de confianza del 95% para la diferencia entre las dos medias
poblacionales.
UNIDAD II: PRUEBA DE HIPOTESIS Y PRUEBAS NO PARAMÉTRICAS

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD I

ORGANIZACIÓN DE LOS APRENDIZAJES

Resultado de aprendizaje de la Unidad I:


Al finalizar la unidad el estudiante será capaz de, realizar pruebas de hipótesis y prue-
bas no paramétricas para una y dos poblaciones a partir de situaciones estadísticas
reales.

CONOCIMIENTOS HABILIDADES ACTITUDES


Tema N° 1: Hipótesis y tipos
de pruebas de hipótesis
 Identifica las clases de  Valora la im-
1.1. Hipótesis
hipótesis portancia de las
1.2. Prueba de hipótesis
pruebas de hipó-
1.3. Componente de una prueba  Plantea pruebas de hi-
tesisi, es veraz y
de hipótesis pótesis.
pertinentes al
1.4. Estadístico de prueba
 Identifica correcta- brindar conclu-
1.5. Región crítica, nivel de signifi-
mente los valores para siones en base a
cancia, valor crítico y valor
la aplicación de las los resultados
P
pruebas de hipótesis. para una buena
1.6. Tipos de errores
toma de decisio-
1.7. Potencia de una prueba de hi-  Realiza la prueba de hi-
nes.
pótesis pótesis.
1.8. Tipos de prueba de hipótesis
 Interpreta el resultado
Tema N° 2: Métodos para rea- de la prueba de hipóte-
lizar pruebas de hipótesis sis.
1.1. Método del valor P Actividad Auto forma-
1.2. Método tradicional tiva N° 1
1.3. Método de intervalos de con-
Auto evaluación N° 1
fianza
Actividad N°3
Tema N° 3: PRUEBAS DE HI-
PÓTESIS PARA UNA MUESTRA Los estudiantes Participan
3.1 Prueba de hipótesis sobre una en el Foro de discusión so-
proporción poblacional P bre la lectura ¿La Estadís-
3.2 Prueba de hipótesis respecto a tica en el trabajo?
la media, conocida Actividad Auto forma-
3.3 Prueba de hipótesis respecto a tiva N° 3
la media, desconocida
Auto evaluación N° 3
3.4 Prueba de hipótesis respecto
Actividad N°4
de una varianza
Los estudiantes Participan
Lectura N° 3: ¿La Estadística
en el Foro de discusión so-
en el trabajo?
bre la lectura ¿La Estadís-
Tema N°4: PRUEBA DE HIPÓ- tica en el trabajo?
TESIS PARA DOS MUESTRAS
Actividad Auto forma-
4.1. Prueba de hipótesis sobre dos tiva N° 4
proporciones poblacionales P
Auto evaluación N° 4
4.2. Prueba de hipótesis sobre dos
Actividad Auto forma-
medias independientes,  1 y 2 tiva N° 6
conocidas Auto evaluación N° 6
4.3. Prueba de hipótesis sobre dos
medias independientes,  1 y 2
desconocidas
4.4. Prueba de hipótesis respecto
a dos varianzas
Lectura N° 4: ¿La Estadística
en el trabajo?
Tema N° 5: PRUEBAS DE BON-
DAD, TABLAS DE CONTINE-
GENCIA
2.5. Prueba de bondad
2.6. Tabla de contingencia
Tema N° 6: PRUEBAS DE IN-
DEPENDENCIA Y HOMOGENEI-
DAD
6.1. Prueba de independencia
6.2. Prueba de homogeneidad
Actividad Auto formativa N° 6
PRUEBA DE DESARROLLO UNI-
DAD II
Glosario de la Unidad I
UNIDAD II: PRUEBA DE HIPÓTESIS Y PRUEBAS NO PARAMÉTRICAS

En la unidad I he mostrado como estimar un parámetro a partir de los datos conte-


nidos en una muestra representativa. Este puede ser un número (estimador puntual)
o un intervalo de valores (intervalos de confianza). Sin embargo muchos problemas
de la ciencia, ingeniería y administración, requieren tomar decisiones entre aceptar
o rechaza una proposición respecto a un parámetro de una población. Estas proposi-
ciones reciben el nombre de Hipótesis, siendo uno de los aspectos más útiles de la
estadística inferencial puesto que todos los problemas naturales y sociales del mundo
requieren de una toma de decisiones, pruebas o experimentos que son formuladas a
través de una prueba de hipótesis.
Es así, que en esta unidad se desarrollará los tipos de hipótesis, métodos y pruebas
de hipótesis con sus respectivas características con respecto a una y dos población
en estudio, finalizando con la con el ajuste de pruebas y homogeneidad.

Tema N° 1: HIPOTESIS Y TIPOS DE PRUEBAS DE HIPOTESIS


1.1. HIPOTESIS
Definición: En estadística, una hipótesis es una aseveración o afirmación
acerca de una propiedad de una población.(Triola, Estadística, 2009, Pág.
386)
Definición: Una hipótesis estadística es una proposición sobre parámetros
de una o más poblaciones. (Montgomery, D. y Runger, G. Probabilidad y
estadística aplicadas a la Ingeniería., 1 996, Pág. 371)
1.2. PRUEBA DE HIPÓTESIS (o prueba de significancia): Es un procedimiento
estándar para probar una aseveración de acerca de una propiedad de una
población.
1.3. COMPONENTE DE UNA PRUEBA DE HIPOTESIS
1.3.1. HIPOTESIS NULA: Es la afirmación de que el valor de un parámetro de po-
blación (como una proporción, media o desviación estándar) es igual a un valor ase-
verado.

Notación:
H0
Ejemplo N° 1: Hipótesis nulas que incluyen proporciones, medias y desviaciones
estándar:

Parámetro Proporciones Medias Desviación


estándar
Hipótesis
H0 : p  0, 5
Nulas H0 :   98,6 H0 :   15
Típicas
La hipótesis nula se prueba en forma directa, en el sentido de que suponemos que
es verdadera, y llegarnos a una conclusión para rechazar H0 o no rechazar H0 .
1.3.2. HIPÓTESIS ALTERNATIVA: Es la afirmación de que el parámetro tiene un
valor que, de alguna manera, difiere de la hipótesis nula.
Notación: H o H o H . La forma simbólica de la hipótesis alternativa debe em-
1  A

plear alguno de estos símbolos: <, >


Ejemplo N° 1: Hipótesis alternativas que incluyen proporciones, medias y desvia-
ciones estándar:

Parámetros Hipótesis Alternas


H1 : p  0, 5 H1 : p  0, 5 H1 : p  0, 5
Proporciones
H1 :   98, 6 H1 :   98, 6 H1 :   98, 6
Medias
H1 :   15 H1 :   15 H1 :   15
Desviación
Estándar
Pasos para identificar una hipótesis nula y/o alternativa, se muestra
en el siguiente esquema.

INICIO

Identifique la aseveración o hipótesis específica a pro-


barse y exprésela de forma simbólica

De la forma simbólica de que debe ser verdadera cuando


la aseveración original es falsa.

De las dos expresiones simbólicas obtenidas hasta hora


permiten que la hipótesis alternativa sea la que no con-
tenga igualdad, de manera que use los símbolos < o > o
: Permite que la hipótesis nula sea la expresión sim-
bólica de que el parámetro iguala el valor fijo que se so-
mete a consideración.

Figura 22. Identificación de H


1
y Ho tomado de Triola, 2009, p 390

1.4. ESTADISTICO DE PRUEBA: Es un valor que se utiliza para tomar la decisión


sobre la hipótesis nula, y se calcula convirtiendo al estadístico muestral (como la

proporción muestral p , la media muestral X o la desviación estándar muestral S ) en
una puntuación (como Z , t
o X ), bajo el supuesto de que la hipótesis nula es
2

verdadera.
En esta unidad emplearemos los siguientes estadísticos de prueba:

ESTADISTICOS DE PRUEBA
Proporciones Medias Desviación estándar

X  X  n  1 S2
p p Z ,o t X2 
Z / n S/ n 2
pq / n
El estadístico de prueba para una media usa la distribución normal o la de
t
distribución de Student, dependiendo de los requisitos que se satisfagan.
1.5. REGIÓN CRÍTICA, NIVEL DE SIGNIFICANCIA, VALOR CRÍTICO Y
VALOR P

Valor crítico

Zona de no
Rechazo Región crítica
o zona de rechazo

Z=0 Z = 1,96 Nivel de significancia

Fig. 23. Región crítica, valor crítico y estadístico de prueba crítico

Región crítica (o región de rechazo): Es el conjunto de todos los valores del es-
tadístico de prueba que pueden provocar que rechacemos la hipótesis nula.
Nivel de significancia (denotado por  ): Es la probabilidad de que el estadístico
de prueba caiga en la región crítica, cuando la hipótesis nula es verdadera. Si el
estadístico de prueba cae en la región crítica, rechazamos la hipótesis nula, de ma-
nera que  es la probabilidad de cometer el error de rechazar la hipótesis nula
cuando es verdadera. Se trata de la misma  presentada en la unidad I, donde defi-
nimos el nivel de confianza para un intervalo de confianza como la probabilidad
 1    . Las opciones comunes para  son 0.05, 0.01 y 0.10, aunque la más común
es 0.05.

Valor crítico: Es cualquier valor que separa la región crítica (donde rechazamos la
hipótesis nula) de los valores del estadístico de prueba que no conducen al rechazo
de la hipótesis nula. Los valores críticos dependen de la naturaleza de la hipótesis
nula, de la distribución muestral que se aplique y del nivel de significancia  . Observe
la 24, donde el valor crítico de z = 1.645 corresponde a un nivel de significancia de
  0, 05 (Valores mencionados en la unidad I)
Cálculo de los valores críticos:
Para el cálculo de los valores críticos debemos tener en cuenta la distribución que se
nos presenta a través de las colas.
Las colas en una distribución son las regiones extremas limitadas por los valores
críticos. Algunas pruebas de hipótesis incluyen dos colas, otras la cola derecha y otras
la cola izquierda.
Zona crítica

/2 /2

 ZL ZL
Valores críticos
Signo usado H1   Pr uebas de dos colas

Figura 24. Calculo de valores críticos – Prueba de dos colas

Prueba de dos colas: La región crítica se encuentra en las dos regiones extremas
(colas) bajo la curva. En la prueba de dos colas, el nivel de significancia a está divi-
dido equitativamente entre las dos colas que constituyen la región crítica. Por ejem-
plo, en una prueba de dos colas con un nivel de significancia de = 0.05, existe
una área de 0.025 en cada una de las dos colas.

Figura 25. Cálculo de valores críticos – Prueba de cola izquierda

Prueba de cola izquierda: La región crítica se encuentra en la región extrema iz-


quierda (cola) bajo la curva

Figura 26. Cálculo de valores críticos – Prueba de cola derecha

Prueba de cola derecha: La región crítica se encuentra en la región extrema dere-


cha (cola) bajo la curva
En las pruebas de cola derecha o cola izquierda, el área de la región crítica en una
cola es  (véase las figuras 25 y 26).
EL VALOR P (o valor p o valor de probabilidad): Es la probabilidad de obtener
un valor del estadístico de prueba que sea al menos tan extremo como el que repre-
senta a los datos muestrales, suponiendo que la hipótesis nula es verdadera. La hi-
pótesis nula se rechaza si el valor P es muy pequeño, tanto como 0.05 o menos.
1.6. TIPOS DE ERRORES: Cuando probamos una hipótesis nula, llegamos a la
conclusión de rechazarla o no rechazarla. Tales conclusiones pueden ser correctas o
incorrectas.
La siguiente tabla muestra los dos distintos tipos de errores que pueden cometerse,
junto con los dos tipos de decisiones correctas.

ERRORES DE TIPOS I Y II
Verdadero estado de las cosas

H0  Es verda- H0  Es falsa
dera
Decimos Error de tipo I Decisión
(Rechazo H
rechazar la H 0 Correcta
0

Decisión verdadera) 
Decimos no Decisión Error de tipo II
rechazar la H (Rechazo H falsa)
0 Correcta 0

Error tipo I: El error de rechazar la hipótesis nula cuando en realidad es verdadera.


También s ele conoce como el nivel de significancia.
Notación:  (alfa)  Probabilidad de un error tipo I (la probabilidad de rechazar H
0

verdadera)


  P  error tipo I   P rechazar H0 |H0 es verdadera 
Error tipo II: El error de no rechazar la hipótesis nula cuando en realidad es falsa.
Notación:  (beta)  Probabilidad de un error tipo II (la probabilidad de rechazar
H0 falsa)


  P  error tipo II  P aceptar H0 |H0 es falsa 
1.7. POTENCIA DE UNA PRUEBA DE HIPOTESIS: Es la probabilidad de rechazar
la hipótesis nula H , cuando la hipótesis nula es verdadera.
0

El valor de la potencia es  1    , la potencia puede interpretarse como la probabi-


lidad de rechazar de manera correcta una hipótesis nula falsa. A menudo las pruebas
estadísticas se comprueban mediante las comparaciones de sus propiedades de po-
tencia. Es una medida muy descriptiva y concisa de la sensibilidad de una prueba, es
decir es la capacidad de una prueba para detectar diferencias.

1.8. TIPOS DE PRUEBA DE HIPOTESIS


De las definiciones que se presentan en esta sección, poder determinar que se ge-
nera solo dos tipos de pruebas de hipótesis:
1.8.1. Pruebas de hipótesis bilaterales: Esta prueba se determina cuando la hi-
pótesis alterna es diferente, donde la región crítica se separa en dos partes (dos
colas) con la misma probabilidad en cada una (en cada cola:  / 2 ). Como se mues-
tra en la figura A

H0 : Parametro  X
H1 :Parametro  x

Ejm.: H0 :   0 ; H0 : p  p0
H1 :   0 H1 : p  p0
Figura 27. Prueba de hipótesis bilaterales

1.8.2. Pruebas de hipótesis unilaterales: Esta prueba se determina cuando la


hipótesis alterna genera una desigualdad:
 Cuando la hipótesis alterna es menor genera que la región crítica se ubica a la
izquierda (cola a la izquierda) con una probabilidad de 
. Como se muestra en
la figura B

H0 : Parametro  X
H1 :Parametro  x

Ejm.: H0 :   0 ; H0 : p  p0
H1 :   0 H1 : p  p0
Figura 28. Prueba de hipótesis unilateral izquierda

 Cuando la hipótesis alterna es mayor genera que la región crítica se ubica a la


derecha (cola a la derecha) con una probabilidad de 
. Como se muestra en
la figura C

H0 : Parametro  X
H1 :Parametro  x
Ejm.: H0 :   0 ; H0 : p  p0
H1 :   0 H1 : p  p0
Figura 29. Prueba de hipótesis unilateral derecha

Ejemplo N° 1: Un fabricante de fibras textiles está investigando una nueva fibra


para tapicería, la cual tiene una elongación media por hilo de 12 kg con una desvia-
ción estándar de 0,5 kg. La compañía desea probar la hipótesis
H0 :   12 contra H1 :  12 utilizando para ello una muestra aleatoria de cuatro
especímenes.
a) ¿Cuál es la probabilidad del error tipo I, si la región crítica está definida como
X  11,5 kg
b) Encuentre  para el caso donde la verdadera elongación promedio es de 11,25
kg

Solución:
X  11,5 kg
H0 :   12   12 kg
Sea: Además:
H1 :   12   0,5 kg
n4
a) Para calcular la probabilidad del error tipo I, se tiene los siguientes pasos:
1° Dada que la desviación estándar de la elongación del hilo es   0,5 , como la
elongación de hilo presenta tiene una distribución, para que se aplique las condicio-
nes del teorema de límite central, de modo que la distribución de la media muestral
es aproximadamente normal con media   12 kg y desviación estándar de

 / n  0,5 / 4  0,25
X
2° Como se presenta una distribución normal, es estadístico es: Z
/ n
3° Representación de la región crítica para X  11,5 kg . La zona sombreada corres-
ponde a la región crítica.(cola a la izquierda)

Figura 30. Zona de rechazo unilateral izquierda


4° Cálculo del valor de Z que corresponde al valor crítico 11,50

X   11,5  12
Z   2
/ n 0,25
Buscando en la Tabla A – 2, se tiene:

Z  2  Z  0,0228
5° Cálculo de la probabilidad de cometer del error tipo I, se tiene:

  P  error tipo I   P rechazar H0 |H0 es verdadera 

  P X  11,5|   12 
  P  Z  2
  0,0228
Esto implica que el 2,28% de todas las muestras aleatorias conduci-
rán a un rechazo de la hipótesis H0 :   12 kg cuando la verdadera elon-
gación del hilo es en realidad 12 kg.

b) Encuentre  para el caso donde la verdadera elongación promedio es de 11,25


kg
Para el cálculo de probabilidad de error tipo II
X  11,25 kg
H0 :   12   12 kg
Sea: Además:
H1 :   12   0,5 kg
n4
Para calcular la probabilidad del error tipo II, se tiene los siguientes pasos:
1° Dada que la desviación estándar de la elongación del hilo es   0,5 , como la
elongación de hilo presenta tiene una distribución, para que se aplique las condicio-
nes del teorema de límite central, de modo que la distribución de la media muestral
es aproximadamente normal con media   12 kg y desviación estándar de

 / n  0,5 / 4  0,25
X
2° Como se presenta una distribución normal, es estadístico es: Z
/ n
3° Representación de la región crítica para X  11,25 kg . La zona sombreada corres-
ponde a la región crítica.(cola a la izquierda)

Figura 31. Región críitica, cola a la izquierda


4° Cálculo del valor de Z que corresponde al valor crítico 11,25

X   11,25  12
Z   1
/ n 0,25
Buscando en la Tabla A – 2, se tiene:

Z  1  Z  0,1587
5° Cálculo de la probabilidad de cometer del error tipo II, se tiene:

  P  error tipo II  P aceptar H0 |H0 es falsa 
  P  X  11,25|   12

  P  Z  1
  0,1587
Esto implica que el 15,87% de todas las muestras aleatorias conduci-
rán a una aceptación de la hipótesis H0 :   12 kg cuando la verdadera
elongación del hilo es en realidad 11,25 kg.
ACTIVIDAD AUTOFORMATIVA N° 1

Instrucción: Desarrolle los siguientes ejercicios con su fundanentación respectiva.

1. En los siguentes ejercicios exprese la hpotesis nula y la alterna mediante la


simbologia (  ,  y p 
a) La mayoria de hogares del Distrito de Huancayo tiene telefóno.
b) La altura media de la rodilla de hombre sentado es de 20,7 cm.
c) El porcentaje de empleados que consigue trabajo por medio de la universidad
no es maypor del 2%.
d) El peso medio de mujeres que han ganado el título de Miss America es iagual
a 54 kg.
2. En los siguentes ejercicios calcule los valores Z criticos, considerando que tienen
una distribución normal.
a) Prueba de dos colas,   0,05
b)   0,10;H1 es p  0,18
c)   0,02; H1 es p  0,19
3. En los siguientes ejercicios calcule el valor de P. Sugerencia consulte figura 1.6 –
D
a) El estadistico de prueba, en una prueba de cola derecha, es Z  1,00
b) Si H1 : p  1 / 4 , el estadístico de prueba es Z  1,75
4. Calula en los siguientes ejercicios los tipos de errores I y II correspondiente ala
hipótesisi dada.
a) La proporción de telefonos privados en Nevada es de 0,524
b) La proporción de demandas por negligencia médica resueltas es de 0,25.
5. Se sabe que la duración, en horas, de un foco de 75watts tiene una distribución
aproximadamente normal, con una desviación estándar de 25 horas. Se toma
una muestra aleatoria de 20 focos, la cual resulta tener una duración promedio
de 1014 horas.
a) ¿Existe evidencia que apoye la afirmación de que la duración promedio del
foco es mayor que 1000 horas? Utilice un 
= 0.05.
b) ¿Cuál es el valor P para la prueba?
c) ¿Cuál es el valor de  para la prueba del inciso a) si la verdadera duración
promedio del foco es de 1 050 horas?
6. En un invierno con epidemia de gripe, una compañía farmacéutica bien conocida
estudió 2000 bebes para determinar si la nueva medicina de la compañía era efec-
tiva después de dos días. Entre 120 bebes que tenían gripe y se les administró la
medicina, 29 se curaron dentro de dos días. Entre 280 bebés que tenían gripe pero
que no recibieron la medicina, 56 se curaron dentro de dos días. ¿Hay alguna
indicación significativa que apoye la afirmación de la compañía de la efectividad
de la medicina? Calcule el valor P.
7. Se estudia la tasa de combustión de dos propelentes sólidos utilizados en los sis-
temas de escape de emergencia de aeroplanos. Se sabe que la tasa de combustión
de los dos propelentes tiene aproximadamente la misma desviación estándar de 3
cm/s. Se prueban dos muestras aleatorias de 20 especímenes cada una, obtenién-
dose medias de 18 y 24 cm/s respectivamente. Pruebe la hipótesis de que los dos
combustibles sólidos tienen la misma rapidez promedio de combustión. Utilice
un = 0.05
a) ¿Cuál es el valor de P de la prueba?
b) ¿Cuál es el valor de  para la prueba del inciso a) si la verdadera diferencia en
la rapidez promedio de combustión es 2.5 cm/s?
Tema N° 2: MÉTODOS PARA REALIZAR PRUEBAS DE HIPOTE-
SIS

Existen tres métodos para realizar la aseverancia de hipótesis: El método del Valor
P, método tradicional y método por intervalos de confianza. Estos métodos nos per-
miten tener una aproximación donde se diseña una alternativa a la simple conclusión
de "rechazo" o "no rechazo" de una proposición (hipótesis) que ayuda en la toma de
decisiones. En esta sección mostraremos los pasos a seguir en cada método, y cons-
tatará que tienen casi cierta similitud, es por ello que usted decidirá cuál de ellos es
más práctico para realizar la prueba de hipótesis de diverso situaciones problemati-
zadas.
1.4. MÉTODO DEL VALOR P

Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se


puede elegir de forma arbitraria y determinar su tamaño. Si  es demasiado grande,
se puede reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar
el tamaño de la muestra para compensar la disminución que ocurre de manera au-
tomática en la potencia de la prueba (probabilidad de rechazar H o dado que una al-
ternativa específica es verdadera).
Los valores P se calcula según el procedimiento resumido que muestra la figura 32

Figura 32. Procedimientos para el cálculo de valores P. Tomado de


Triola, 2009, p 396

Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un


nivel de significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia.
Entonces, por supuesto, el rechazo o no rechazo estricto de H o dependerá de esa
región crítica. En la estadística aplicada los usuarios han adoptado de forma extensa
la aproximación del valor P. La aproximación se diseña para dar al usuario una al-
ternativa a la simple conclusión de "rechazo" o "no rechazo".
La aproximación del valor P como ayuda en la toma de decisiones es bastante na-
tural pues casi todos los paquetes de computadora que proporcionan el cálculo de
prueba de hipótesis entregan valores de P junto con valores de la estadística de la
prueba apropiada.
 Un valor P es el nivel (de significancia) más bajo en el que el valor observado
de la estadística de prueba es significativo.
 El valor P es el nivel de significancia más pequeño que conduce al rechazo de la
hipótesis nula H0
 El valor P es el mínimo nivel de significancia en el cual H o sería rechazada
cuando se utiliza un procedimiento de prueba especificado con un conjunto dado
de información. Una vez que el valor de P se haya determinado, la conclusión en
cualquier nivel 
particular resulta de comparar el valor P con 
1. Valor p    Rechazar H0 al nivel .
2. Valor p  No rechazar H0 al nivel 
PRUEBA PRUEBA UNILATERAL
CRITERIO BILATERAL IZQUIERDA DERECHA

Gráfica

Valor e P
 
2 1   Z0   Z0   
1   Z0 
 
 
Planteamiento H0 :   0 H0 :   0 H0 :   0
de Hipótesis Ejm: Ejm.: Ejm.:
H1 :   0 H1 :    0 H1 :   0
Nota: Sea:   Z  Función de una distribución acumulada normal. Significa

  Z   P  Z  z  . Además: Z0  Es el valor del estadístico de prueba que se calcula.


Ejm.: Si el valor del estadístico de prueba calculado es: Z0  3,25 y puesto que la
hipótesis alternativa es de dos colas, el valor de P es:
P  2 1   3,25  21  0,9994   0,0012 , además   0,05

Entonces: p  0,0012  0,05  se rechazar H0 .


En esta sección: Z0  Z , consideramos Z como el valor de estadístico calculado.

Este método está basado en el cálculo del valor P, estudiado en la sección anterior,
para determinar la aseveración de la prueba de hipótesis.
Pasos a seguir en este método.
1° Identificación de la hipótesis especifica que será probada y expresarla en forma
simbólica.
2° De la forma simbólica que debe ser verdadera cuando la hipótesis original es
falsa.
3° De las dos expresiones simbólicas obtenidas hasta este momento, permite que la
hipótesis alternativa H1 sea la que contenga igualdad, de manera que la H1 , em-
plea los símbolos > o < o  . Permite que la hipótesis nula H0 sea la expresión
simbólica de que el parámetro es igual al valor fijo considerado.
4° Elije el nivel de significancia 
con base en la gravedad de cometer un error de
tipo I. Disminuye  si las consecuencias de rechazar una H0 verdadera son gra-
ves. Los valores 0,05 y 0,01 son muy comunes.
5° Identifique el estadístico que se revela para esta prueba y determina su distribu-
ción muestral (normal, t, chi cuadrada).
6° Calcule el estadístico de prueba y el valor de P. Dibuje una gráfica y muestre
el estadístico de prueba y el valor P.
7° Rechace H0 si el valor de P es menor o igual que el nivel de significancia  . No
rechace H0 si el valor P es mayor que  .
8° Replantee esta decisión previa en términos sencillo y sin tecnicismos y retome la
hipótesis original.

1.5. MÉTODO TRADICIONAL


En este método al igual que método del Valor P, se sigue los mismos pasos a excep-
ción del paso 6° y 7°, que está referido al valor del estadístico de prueba, valores
críticos y región crítica, para determinar la aseveración de la prueba de hipótesis.
Pasos a seguir en este método.
1° Identificación de la hipótesis especifica que será probada y expresarla en forma
simbólica.
2° De la forma simbólica que debe ser verdadera cuando la hipótesis original es
falsa.
3° De las dos expresiones simbólicas obtenidas hasta este momento, permite que la
hipótesis alternativa H1 sea la que contenga igualdad, de manera que la H1 , em-
plea los símbolos > o < o  . Permite que la hipótesis nula H0 sea la expresión
simbólica de que el parámetro es igual al valor fijo considerado.
4° Elije el nivel de significancia 
con base en la gravedad de cometer un error de
tipo I. Disminuye  si las consecuencias de rechazar una H0 verdadera son gra-
ves. Los valores 0,05 y 0,01 son muy comunes.
5° Identifique el estadístico que se revela para esta prueba y determina su distribu-
ción muestral (normal, t, chi cuadrada).
6° Calcule el estadístico de prueba, los valores críticos y la región crítica. Di-
buje una gráfica e incluya el estadístico de prueba, el valor o valores críticos y la
región crítica.
7° Rechace H0 si el estadístico de la prueba se encuentra en la región crítica. No

rechace H0 si el estadístico de no se encuentra en la región crítica.


8° Replantee esta decisión previa en términos sencillo y sin tecnicismos y retome la
hipótesis original.

1.6. MÉTODO DE INTERVALOS DE CONFIANZA


Este método está basado en el cálculo de intervalos de confianza de un pará-
metro de población para determinar el rango de valores que toma el parámetro
(estudiados en la unidad I), este método permite determinar la aseveración de la
prueba de hipótesis.
Pasos a seguir en este método.
1° Identificación de la hipótesis especifica que será probada y expresarla en forma
simbólica.
2° De la forma simbólica que debe ser verdadera cuando la hipótesis original es
falsa.
3° De las dos expresiones simbólicas obtenidas hasta este momento, permite que la
hipótesis alternativa H1 sea la que contenga igualdad, de manera que la H1 ,
emplea los símbolos > o < o  . Permite que la hipótesis nula H0 sea la expre-
sión simbólica de que el parámetro es igual al valor fijo considerado.
4° Elija el nivel de significancia para la prueba de hipótesis teniendo en cuenta la
siguiente tabla N° 1 y construye los intervalos de confianza.
Tabla N° 1: Nivel de confianza para un intervalo de confianza
Prueba bilateral Prueba unilate-
(dos colas) ral (una cola)
Nivel de significancia
0,01 99% 98%
para la prueba de 0,05 95% 90%
Hipótesis 0,10 90% 80%

Intervalos de Confianza
Bilateral 
P Z /2 XZ 
 /2
Dos colas

Unilateral P X  Z   1  

Cola a la izquierda

P X  Z   1  

Cola a la derecha

5° Identifique el estimador estadístico que se revela para esta prueba y


determina su distribución muestral (normal, t, chi cuadrada).
6° Un estimado del intervalo de confianza de un parámetro de la población
contiene los probables valores de tal parámetro, rechaza la hipótesis de
que el parámetro de población tiene un valor que no está incluido en el
intervalo de confianza.

Como observamos estos tres métodos coinciden desde el primer paso hasta el
cuarto o quinto, de ahí se aplica la particularidad del método mostrado. Todos
estos métodos se aplicaran indistintamente en la resolución de problemas en la
siguiente sección, para poder corroborar los pasos que hay que tener en cuenta
para determinar el rechazo o no rechazo de una hipótesis. Estos métodos se
muestran su aplicación en la siguiente sección.
Tema N° 3: PRUEBA DE HIPOTESIS PARA UNA MUESTRA
3.1. PRUEBA DE HIPOTESIS SOBRE UNA PROPORCIÓN POBLACIONAL p
Requisitos
 Las observaciones muestrales son una muestra aleatoria simple.
 Se satisfacen las condiciones para una distribución binomial.
 Se satisface las condiciones np  5 y nq  5 de la población (utilizada en la
hipótesis nula)
Donde:   np y   npq
Notación
n  Tamaño de la muestra

X
p  Proporción muestral
n
p  Proporción de la población (ulitizada en H0 )
q  1p

pp
Estadístico de prueba: Z 
pq / n
Valor P: Utilice la distribución normal estándar (Tabla A – 2) y remítase a la figura
2.1
Valores Críticos: Utilice la distribución normal estándar (Tabla A – 2)

Para el desarrollo de los siguientes ejercicios consideremos los métodos de aseve-


ración de hipótesis tanto como el método del valor P o intervalos de confianza, que
son los más utilizados
Ejemplo N° 1: Un constructor afirma que se instalan bombas de calor en 70% de
todas las casas que se construyen hoy en día en la ciudad de Richmond. ¿Estaría de
acuerdo con esta afirmación si una investigación de casas nuevas en esta ciudad
muestra que 8 de 15 tienen instaladas bombas de calor? Utilice un nivel de signifi-
cancia de 0.10.
Solución: Para solucionar, se observa que es una distribución de muestral de pro-
porciones, donde se sigue los siguientes pasos del método de intervalos de con-
fianza:
1° La aseveración original dice que se instalan bombas de calor en todas las casas
que se construyen hoy en día en la ciudad de Richmond: p  0,7
2° El opuesto de la aseveración original: p  0,7
3° Como p  0,7 y no es igual, entoces se convierte en una hiposesis alternativa,
Ho : p  0,7
opteniendose:
H1 : p  0,7

4° El nivel de significancia es   0,1


5° Dado que la aseveración implica una proporción p, el estadistico relevante de

esta prueba es la proporción muestral p y la distribución de proporciones se
aproxima a una distribución normal.

p p
6° El estadpistico de prueba es: Z 
pq / n

8
Donde: p   0,53 , p = 0,70 , q= 0,30 n =15
15
0,53  0,70
Luego, reemplazando: Z   1, 44
 0,70  0,30  / 15
Por lo tanto: : Z  1,44 ,
De paso 3° se menciona H1 : p  0,7 , entonces se determine que la región critica
esta en ambas colas de la distribución normal. Para ello determinamos los valores
críticos, con el nivel de significancia de   0,1 , donde los valores criticos son ZL =
 1,645, y lo representamos en la gráfica siguente:

Luego si: 1,645  Z  1,645  No se rechaza H0


si: Z  1,645 o Z  1,645  Se rechaza H0

Figura 33. Región de rechazo bilateral

7° Como 1,645  1, 44  1,645  No se rechaza H0 y se concluye con el


nivel de significancia de 0,10 que la afirmación del constructor es cierta.

Ejemplo N° 2: Un fabricante de semiconductores produce controladores que se em-


plean en aplicaciones de motores automovilísticos. El cliente requiere que la fracción
de controladores defectuosos en uno de los pasos de manufactura críticos no sea
mayor que 0.05, y que el fabricante demuestre esta característica del proceso de
fabricación con este nivel de calidad, utilizando   0,05 . El fabricante de semicon-
ductores toma una muestra aleatoria de 200 dispositivos y encuentra que cuatro de
ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad del pro-
ceso?
Solución:
1° La aseveración original dice que la fracción de controladores defectuosos en uno
de los pasos de manufactura críticos no sea mayor que 0,05 p  0,05
2° El opuesto de la aseveración original: p  0,05
3° De las dos expresiones simbolicas anteriores, la expresión p  0,05

No contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis


nula es la afirmación de que p igual al valor fijo de 0,05. Como consecuencia se
Ho : p  0,05
expresa:
H1 : p  0,05

4° El nivel de significancia es   0,05 (valor criticos es ZL =- 1,645)


5° Dado que la aseveración implica una proporción p, el estadistico relevante de esta

prueba es la proporción muestral p y la distribución de proporciones se aproxima a
una distribución normal.

p p
6° El estadistico de prueba es: Z 
pq / n

4
Donde: p   0,02 , P = 0,05 , q= 0,08 n =200
200

0,02  0,05
Luego, reemplazando: Z   1,95
 0,05 0,95 / 20
Por lo tanto: : Z  1,95
Utilizando este valor procedemos al calculo del valor P. Según el diagrama de flujo
de la figura 2.1, se resume el calculo del valor P. Se trata de una prueba de una cola
de manera que P es el área a la izquierda, ahora nos remitimos a la tabla A – 2 para
encontrar el valor de P que equivale a 0,0256
Luego si: P    No se rechaza H0 al nivel de significancia 
si: P    Se rechaza H0 al nivel de significancia 

Figura 34. Región de rechazo unilateral

7° Como 0,0297  0,05  se rechaza H0 con el nivel de significancia de 0,05;


y se concluye que la fracción de articulos defectuosos es menor a 0,05.(
1,95  1,645 )

3.2. PRUEBA DE HIPOTESIS RESPECTO LA MEDIA,  CONOCIDA


En este caso se considera pruebas de hipótesis sobre la media de una población 
(o la media de una distribución de probabilidad) donde la desviación estándar de la
población  
, es conocida.
Requisitos
 La muestra es aleatoria
 Se conoce el valor de la desviación estándar poblacional 
 Se satisface una o ambas condiciones: La población se distribuye normalmente
o n  30
Notación
n  Tamaño de la muestra
X  Media muestral
x  Media poblacional

/ n Desviación estándar poblacional


X  x
Estadístico de prueba: Z 
/ n
Valor P: Utilice la distribución normal estándar (Tabla A – 2) y remítase a la figura
2.1
Valores Críticos: Utilice la distribución normal estándar (Tabla A – 2)

EJEMPLO N° 1: Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en


promedio 5,23 onzas con una desviación estándar de 0,24 onzas. Pruebe la hipótesis
de que   5,5 onzas contra al hipótesis alternativa,   5,5 onzas en el nivel de
significancia de 0.05.
Solución: Se trata de una distribución muestral de medias con desviación estándar
conocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la desvia-
ción muestral como un estimador puntual para la poblacional.
1° y 2° Del enunciado del problema establece la relación de hipótesis, para ello no
remitimos al paso 3°
H0 :   5,5 onzas
3° Opteniendose:
H1 :   5,5 onzas

4° El nivel de significancia es   0,05


5° Dado que la aseveración implica una media poblacional  , el estadistico relevante
de esta prueba es la media muestral X  5,23 onzas . Como se supone que
conocemos la desviación estándar   0,24 onzas y parece que la población se
distribuye normalemente, el límite del teorema central indica que la distribución de
medias muestrales pueden ser aproximarse por medio de una distribución normal.
X
6° El estadistico de prueba es: Z
/ n

  5,5 onzas X  5,23 onzas   0,05


Donde:
  0,24 onzas n  64
5,23  5,5
Luego, reemplazando: Z  9
0,24 / 64

Por lo tanto: Z  9
De paso 3° se menciona H1 :   5,5 onzas , entonces se determine que la región
critica esta en la cola izquierda de la distribución normal. Para ello determinamos los
valores críticos, con el nivel de significancia de   0,05 , donde los valores criticos
son ZL = - 1,645, y lo representamos en la gráfica siguente:
Luego
Si: Z  1,645  No se rechaza H0
Si : Z  1,645  Se rechaza H0
Figura 35. Región de rechazo unilateral

7° Como 9  1,645  se rechaza H0 y se concluye con un nivel de significancia


del 0.05 que las bolsas de palomitas de maíz pesan en promedio menos de 5,5 on-
zas.

Nota: En general es fácil comprender la región crítica y el procedimientode


prueba cuando el estadístico de prueba es Z más que X . Sin embargo, la
misma región crítica siempre puede escribirse en términos del valor calcu-
lado de la media muestral X . Un procedimiento idéntico al anterior es el
siguiente.

H0 :   0 si : X  a 0 X  b  Rechazar la H0
a   0  Z /2. / n
Donde:
b   0  Z /2. / n

Ejemplo N° 2: Una empresa eléctrica fabrica focos que tienen una duración que se
distribuye de forma aproximadamente normal con una media de 800 horas y una
desviación estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una
duración promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir
que la duración media ha cambiado? Utilice un nivel de significancia del 0.04.
Solución: Para solucionar, se observa que es una distribución muestral de medias
con desviación estándar conocidas, donde se sigue los siguientes pasos:
1° La aseveración original dice que la duración media de los focos ha cambiado:
  800 horas
2° El opuesto de la aseveración original:   800 horas
3° Como   800 horas y no es igual, entoces se convierte en una hiposesis
H0 :   800 horas
alternativa, opteniendose:
H1 :   800 horas

4° El nivel de significancia es   0,04


5° Dado que la aseveración implica una media poblacional   800 horas , el

estadistico relevante de esta prueba es la media muestral X  788horas . Como se


supone que conocemos la desviación estándar   40 horas y parece que la
población se distribuye normalemente, el límite del teorema central indica que la
distribución de medias muestrales pueden ser aproximarse por medio de una
distribución normal.
ZL .
6° El estadistico de prueba de medias muestral es: X
n
  800 horas X  788 horas   0,04
Donde:
  40 horas n  30
De paso 3° se menciona H1 :   800 horas , entonces se determine que la región
critica esta en ambas colas de la distribución normal. Para ello determinamos los
valores críticos, con el nivel de significancia de   0,04 , donde los valores criticos
son ZL =  2,052. Como el estadistico de prueba esta refererido al media muestral
X determinaremos los valores criticos respectivos con respecto a esta y lo
representamos en la gráfica siguente:

X  800 
 2,052 40   800  14,98
Luego, reemplazando:
30
X  800  14,98
X  800  14,98  814,98 y X  200  14,98  785,02
Por lo tanto: 785,02  X  814,98
Luego
Si: 785,02  X  8,14,98  No se rechaza H0
Si : X  785,98 o X  814,02  Se rechaza H0

Figura 36. Región de rechazo biilateral

7° Como 785,02  X  814,98  X  778 horas  No se rechaza H0 y se con-


cluye con un nivel de significancia del 0.04 que la duración media de los focos no
ha cambiado.

3.3. PRUEBA DE HIPOTESIS RESPECTO LA MEDIA,  DESCONOCIDA

En este caso se considera prueba de hipótesis sobre la media de una población  (o


la media de una distribución de probabilidad) donde la desviación estándar de la
población  
, es desconocida. Aquí se utiliza la distribución t de Student.
Requisitos
 La muestra es aleatoria
 Se desconoce el valor de la desviación estándar poblacional 
 Se satisface una o ambas condiciones: La población se distribuye normalmente o
n  30
Notación
n  Tamaño de la muestra
X  Media muestral
x  Media poblacional

S S/ n Desviación estándar muestral

X  x
Estadístico de prueba: t 
S/ n
Valor P y valores críticos: Utilice la distribución normal estándar (Tabla A – 3) y
utilice gl  n  1 para el número de grados de libertad, remítase a la figura 2.1 para
el cálculo de P

Ejemplo N° 1: El Instituto Eléctrico Edison publica cifras del número anual de Kilo-
watt-hora que gastan varios aparatos electrodomésticos. Se afirma que una aspira-
dora gasta un promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12
hogares que se incluye en un estudio planeado indica que las aspiradoras gastan un
promedio de 42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-
hora, ¿esto sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan,
en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal.
Solución:
Se trata de una distribución muestral de medias con desviación estándar descono-
cida, pero como el tamaño de muestra es menor a 30. Para cual se utilizará una
distribución t de Student .Se puede tomar la desviación muestral como un esti-
mador puntual para la poblacional, donde se sigue los siguientes pasos:
1° La aseveración original dice que las aspiradoras gastan, en promedio, menos de
46 kilowatt-hora anualmente:   46 kilowatt hora
2° El opuesto de la aseveración original:   46 kilowatt  hora
3° De las dos expresiones simbolicas anteriores, la expresión
  46 kilowatt hora . No contiene igualdad por lo que se combierte en la
hipótesis alternativa . la hipotesis nula es la afirmación de que  igual al valor fijo
de 46. Como consecuencia se expresa:
H0 :   46 kilowatt hora
Opteniendose:
H1 :   46 kilowatt hora

4° El nivel de significancia es   0,05


5° Dado que la aseveración implica una media poblacional  , y como los requisitos
para utilizar el estadistico relevante prueba t satisface empleamos la distribución t.
Remitase a la Unidad I.
X
6° El estadistico de prueba es: t
S/ n

  46 kilowatt  hora X  42 kilowatt  hora   0,05


Donde:
S  11,9 kilowatt  hora n  12
42  46
Luego, reemplazando: t  1,16
11,9 / 12
Por lo tanto: t  1,16
De paso 3° se menciona H1 :   46 kilowatt  hora , entonces se determine que la
región critica esta en la cola izquierda de la distribución normal. Para ello
determinamos los valores críticos, con el nivel de significancia de   0,05 , y grafos
de libertad : gl  n  1  12  1  11 donde los valores criticos son tL = - 1,796, y lo
representamos en la gráfica siguente:
Luego
Si: t  1,796  No se rechaza H0
Si : t  1,796  Se rechaza H0

Figura 37. Región de rechazo

7° Como 1,16  1,796  no se rechaza H0 y se concluye con un nivel de signifi-


cancia del 0.05 que el número promedio de kilowatt-hora que gasta al año las aspi-
radoras no es significantemente menor que 46.

Otro método: (Por intervalos de confianza). Si aplicamos el otro método donde se


utilizara la media muestral, tendríamos:

X
tL .S
 46 
1,79611,9   39,83
n 12
Luego: Si: XL  39,83  No se rechaza H0
Si : XL  39,83  Se rechaza H0

Figura 38. Región de rechazo

Como la X  42 kilowatt  hora y es valor no es menor a 39,83 por lo tanto se

rechaza la H0

Valor de P: Se puede aprovechar este ejemplo para calcular el valor de P, como el


valor de H0 calculada es de –1.16, se busca en la tabla y se ve que el área a la
izquierda de este valor es de 0.135 con 11 grados de libertad, por lo tanto no se
rechaza H0 , ya que sería un valor alto para un nivel de significancia.

Ejemplo N° 2: Un artículo publicado en la re- 19.8 18.5 17.6 16.7 15.8


vista Materials Engineering describe los resulta-
dos de pruebas de resistencia a la adhesión de 22 15.4 14.1 13.6 11.9 11.4
especímenes de aleación U-700. La carga para la
que cada espécimen falla es la siguiente en MPa: 11.4 8.8 7.5 15.4 15.4
¿Sugieren los datos que la carga promedio de fa-
lla es mayor que 10Mpa? Supóngase que la carga 19.5 14.9 12.7 11.9 11.4
donde se presenta la falla tiene una distribución
normal, y utilícese   0,05 . Calcule el valor de 10.1 7.9
P.(Símbolo: Mpa  Mega pascal)
Solución: Se trata de una distribución muestral de medias con desviación estándar
desconocida, pero como el tamaño de muestra es menor a 30. Para cual se utilizará
una distribución t de Student .
1° La aseveración original dice que la carga promedio de falla de resistencia en es-
pecímenes de aleación U – 700 es mayor que 10Mpa?:   10 Mpa
2° El opuesto de la aseveración original:   10 Mpa
3° De las dos expresiones simbolicas anteriores, la expresión   10 Mpa No
.
contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis
nula es la afirmación de que  igual al valor fijo de 10. Como consecuencia se
expresa:
H0 :   10 Mpa
Opteniendose:
H1 :   10 Mpa

4° El nivel de significancia es   0,05


5° Dado que la aseveración implica una media poblacional  , y como los requisitos
para utilizar el estadistico relevante prueba t satisface empleamos la distribución t.
Remitase a la Unidad I.
X
6° El estadistico de prueba es: t
S/ n

Para este ejercicio de vemos calcular la media y la desviación estándar muestral,


haciendo uso de una calculadora.
  10 Mpa X  13,71 Mpa   0,05
Donde:
S  3,55 Mpa n  22
13,71  10
Luego, reemplazando: t  4,90
3,55 / 22
Por lo tanto: t  4,90
De paso 3° se menciona H1 :   10 Mpa , entonces se determine que la región
critica esta en la cola derecha de la distribución t . Para ello determinamos los valores
críticos, con el nivel de significancia de   0,05 , y grafos de libertad :
gl  n  1  22  1  21 donde los valores criticos son tL = 1,721, y lo representamos
en la gráfica siguente:
Luego
Si: t  1,721  No se rechaza H0
Si : t  1,721  Se rechaza H0

Figura 39. Región de rechazo unilateral derecha

7° Como 4,90  1,721  se rechaza H0 y se concluye con un nivel de significancia


del 0.05 que la carga de falla promedio es de mayor que 10 Mpa.
Para calcular el valor de P se va a la tabla A – 3 y se busca en 21 grados de libertad
el valor de t = 4.90. Se observa que el valor mayor de t que se encuentra en la tabla
con 21 grados de libertad es de 3.819 el cual le corresponde un área a la derecha de
0.05, por lo que para el valor de 4.90 el valor de P es prácticamente cero, y esto
apoya la decisión de rechazar
3.4. PRUEBA DE HIPOTESIS RESPECTO DE UNA VARIANZA
En este caso se considera prueba de hipótesis respecto a una varianza de la población
2 . Aquí se utiliza la distribución Chi cuadrada
Requisitos
 La muestra es aleatoria simple.
 La población tiene una distribución normal.
Notación
n  Tamaño de la muestra
2
S  Varianza muestral
2  Varianza poblacional

X 2

 n  1 S2
Estadístico de prueba:
2
Valor P y valores críticos: Utilice la Tabla A – 4, con gl  n  1 para el número de
grados de libertad (La tabla A – 4 está basada en áreas acumuladas de la derecha).
Tener en cuenta la distribución de las colas, por ejemplo: Nivel de significancia de
  0,05

Prueba unilateral
Prueba Prueba con cola Prueba con cola
Bilateral a la derecha a la izquierda
Divida el nivel de manera Como el área de la Como el área de la
que las de significancia de derecha del valor izquierda del valor
0,05 entre la cola derecha e crítico es 0,05, crítico es 0,05, el
izquierda, de manera que las localice 0,05 en la área a la derecha
áreas a la derecha de los dos parte superior del valor crítico es
valores críticos sean 0,975 y de la tabla A – 4 0,95, así que loca-
0,025, respectivamente. Lo- lice 0,95 en la parte
calice 0,975 y 0,05 en la superior de la tabla
parte superior de la tabla A–4
A – 4.

Ejemplo N° 1: Una compañía que produce una parte de máquina para un motor,
afirma que tiene una varianza de diámetro no mayor a 0.0002 pulgadas. Una muestra
aleatoria de 10 de dichas partes dio una varianza de muestra s 2 = 0.0003. Si se
supone que las medidas del diámetro se distribuyen en forma normal, ¿hay evidencia
para refutar lo que afirma el proveedor? Use   0,05 . Calcule el valor P.
Solución: En este caso se considera prueba de hipótesis respecto a una varianza de
la población 2 . Aquí se utiliza la distribución Chi cuadrada. Para ello se sigue los
pasos siguientes:
1° La aseveración original dice que la compañía produce máquina para un motor
que tiene una varianza de diámetro no mayor a 0.0002 pulgadas:   0,0002
2° El opuesto de la aseveración original:   0,0002
3° De las dos expresiones simbolicas anteriores, la expresión   0,0002 No
.
contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis
nula es la afirmación de que 2 es igual al valor fijo de 0,0002. Como consecuencia
se expresa:
H0 : 2  0,0002
Opteniendose:
H1 : 2  0,0002
4° El nivel de significancia es   0,05
5° Dado que la aseveración implica una varianza poblacional 2 , y como los
2
requisitos para utilizar el estadistico relevante prueba X satisface empleamos la
distribución Chi cuadrata . Remitase a la Unidad I.

X 2

 n  1 S2
6° El estadistico de prueba es:
2
Para este ejercicio de vemos calcular la media y la desviación estándar muestral,
haciendo uso de una calculadora.
2  0,0002   0,05
Donde:
S2  0,0003 n  10

Luego, reemplazando: X2 
10  1 0,0003  13,5
 0,0002
Por lo tanto: X2  13,5
De paso 3° se menciona H1 : 2  0,0002 , entonces se determine que la región
critica esta en la cola derecha de la distribución chi cuadrada . Para ello determinamos
los valores críticos, con el nivel de significancia de   0,05 , y grados de libertad :
gl  n  1  10  1  9 donde los valores criticos son X2L = 16,919, y lo representamos
en la gráfica siguente:
Luego

Si: X2  16,919  No se rechaza H0


Si : X2  16,919  Se rechaza H0

Figura 40. Región de rechazo unilateral

7° Como 13,5  16,919  no se rechaza H0 y se concluye con un nivel de signifi-


cancia del 0.05 que no se puede refutar la afirmación del proveedor. (Que la compa-
ñía produce máquina para un motor con una varianza de diámetro no mayor a 0.0002
pulgadas).

Para calcular el valor de P se va a la tabla A – 4 y se busca el valor de 13,5 en el


reglón de 9 grados de libertad. Interpolando entre 0,10 y 0,20, obteniéndose el valor
de P de 0,1484

Figura 41. Cálculo del valor de P

Ejemplo N° 2: El contenido de azúcar del almíbar de los duraznos enlatados tiene


una distribución normal, donde se cree que la varianza es 2 = 18 mg2. Se toma una
muestra de 10 latas dieron una desviación estándar de 4.8 mg. ¿Muestran estos
datos suficiente evidencia para decir que la varianza ha cambiado?. Use un  = 0.05
y calcule el valor de P.
Solución: En este caso se considera prueba de hipótesis respecto a una varianza de
la población 2 . Aquí se utiliza la distribución Chi cuadrada. Para ello se sigue los
pasos siguientes:
1° La aseveración original dice que el contenido de azúcar del almíbar de los duraz-
nos enlatados su varianza ha cambiado: 2  18 mg 2
2° El opuesto de la aseveración original: 2  18 mg 2
3° De las dos expresiones simbolicas anteriores, la expresión 2  18 mg 2 . No
contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis
nula es la afirmación de que 2 es igual al valor fijo de 18. Como consecuencia se
expresa:
H0 : 2  18 mg 2
Opteniendose:
H1 : 2  18 mg 2
4° El nivel de significancia es   0,05
5° Dado que la aseveración implica una varianza poblacional 2 , y como los
requisitos para utilizar el estadistico relevante prueba X2 satisface empleamos la
distribución Chi cuadrada . Remitase a la Unidad I.

X 2

 n  1 S2
6° El estadistico de prueba es:
2
2  18   0,05
Donde:
S  4,8 n  10
10  1 4,8 
2

Luego, reemplazando: X 2
  11,52
18 
Por lo tanto: X2  11,52
De paso 3° se menciona H1 : 2  18 mg2 , entonces se determine que la región
critica esta en las dos colas de la distribución chi cuadrada . Para ello determinamos
los valores críticos, con el nivel de significancia de   0,05 , y grados de libertad :
gl  n  1  10  1  9 donde los valores criticos son X2L = 2,7 y 19,023, y lo
representamos en la gráfica siguente:
Luego

Si: 2,7  X2  19,023  No se rechaza H0


Si : X2  2,7  X2  16,919  Se rechaza H0

Figura 42. Región de rechazo y región de aceptación

7° Como 2,7  11,52  19,023  no se rechaza H0 y se concluye con un nivel de


significancia del 0.05, del contenido de azúcar del almíbar no ha cambiado, esto es
de 18 mg2.
Como el valor real de X2 = 11,52 este número se encuentra a la derecha de la media,
lo cual quiere decir que le valor de P / 2 será el área de X2 . Al buscar el valor de
11,52 es la tabla A – 4 , se obtiene un área de 0,2423, por lo tanto P/ 2 =0,2423 y
P 0,4846.
Figura 43. P/2

TABLA N° 2 RESUMEN DE LA PRUEBAS DE HIPÓTESIS


PARA UNA POBLACIÓN

REQUISITOS DISTRIBUCIÓN VALORES P


PARÁMETRO Muestra aleato- Y ESTADISTICO Y CRÍTICOS
ria simple y… DE PRUEBA

PROPORCIÓN np  5  nq  5 p p Tabla A - 2
Z
pq / n
2 conocida
o X  x
y n  30 Z Tabla A – 2
Población / n
distribuida
normalmente
2 desconocida
t Student
MEDIA y n  30 Tabla A – 3
X  x
o t
Población S/ n
distribuida nor-
malmente
Población no Usar método no
Distribuida para métrico o
normalmente Bootstrapping
n  30
VARIANZA Población Chi cuadrada
distribuida
normalmente X 2

 n  1 S2 Tabla A – 4

2

Tomado de Triola, 2009, p 445


Lectura N° 1
¿La estadística en el trabajo?
"Para la investigación y la enseñanza en el campo de la ecología, el comporta-
miento animal y la eco toxicología, el conocimiento de la
estadística es esencial para obtener un buen trabajo y
conservarlo". Joanna Burger. Profesora distinguida de bio-
logía en Rutgers University y miembro del Environmental and
Ocupational Health Sciences lnstitute. Joanna Burger es do-
cente, hace investigación y forma parte de muchos comités
ambientales nacionales e internacionales que tratan con espe-
cies en peligro de extinción, contaminantes de la vida silvestre,
los efectos de químicos en el comportamiento animal y los efec-
tos de las personas en los ecosistemas

¿Qué con- en realidad seleccionan un conjunto de ca-


ceptos de la estadística utiliza en su tra- racterísticas muy específicas.
bajo? Aunque existen más de 250 islas en la bahía
Utilizo diversos métodos estadísticos, inclui- donde se realizó el estudio, sólo 36 reúnen
dos los paramétricos y los no paramétricos. los criterios que usan las golondrinas de mar.
Sin un firme entendimiento de la estadística Estas aves eligen islas que son lo bastante
yo no sería capaz de probar si los factores altas para evitar las mareas en las tormentas
ambientales afectan el éxito reproductivo. de verano, pero l bastante bajas para que los
Utilizo la estadística para probar hipótesis depredadores no puedan sobrevivir durante
que planteo al observar animales dentro de el invierno. Las islas que son lo suficiente-
sus ambientes naturales. Mientras que la ob- mente altas para evitar las mareas de las tor-
servación nos conduce a formular hipótesis, mentas de invierno pueden tener poblacio-
sólo es posible responder a las preguntas nes viables de depredadores, como zorros y
mediante el uso de experimentos bien dise- mapaches, que se comerían los huevos y los
ñados y ensayos estadísticos. Para la inves- polluelos de las golondrinas.
tigación y la enseñanza en el campo de la ¿El conocimiento de la estadística es
ecología, el comportamiento animal y la eco- esencial para su trabajo?
toxicología, el conocimiento de la estadística Una firme comprensión de la estadística es
es esencial para obtener un buen trabajo y absolutamente esencial para realizar investi-
conservarlo. gación con humanos y animales. Con el uso
¿Podría dar un ejemplo específico de de pruebas de hipótesis y análisis de regre-
cómo ha usado usted la estadística en el sión múltiple, es posible comenzar a identifi-
pasado? car y evaluar los factores que afectan com-
La estadística es muy útil para identificar fac- portamientos, tales como la conducta de
tores importantes que influyen en el compor- pesca y de consumo de las personas, el com-
tamiento animal. Los pájaros anidan en há- portamiento de alimentación de las aves cos-
bitat particulares, pero nos preguntamos si teras y la construcción de nidos de las aves
anidan de manera aleatoria o si eligen sitios marinas.
específicos para hacer sus nidos. Esto es im- En términos de estadística, ¿qué reco-
portan puesto que la conservación requiere mendaría a los aspirantes a obtener un
conocer las necesidades de los animales para empleo en su campo?
poder crear, proteger y/o manejar ese hábi- Toda persona que quiera trabajar en el
tat. Yo probé la hipótesis de que las golon- campo de la biología de la conservación, la
drinas de mar comunes estaban seleccio- ecotoxicología, el comportamiento animal o
nando islas de pantanos salados específicos. ecológico necesita poseer una amplia gama
Al comparar estadísticamente un amplio de habilidades estadísticas. Sería recomen-
rango de factores ambientales (como son la dable tomar dos o tres cursos, incluyendo es-
altitud, el tamaño del territorio, el tipo y la tadística general, regresión y métodos no pa-
densidad de la vegetación) en todas las islas ramétricos. La naturaleza de cada problema
con el mismo conjunto de factores en las is- y las características de los datos determinan
las que las golondrinas de mar usan para ani- la estadística que se requiere, y uno no debe
dar, pudimos demostrar que estos animales limitarse por una carencia de conocimiento
de la estadística
ACTIVIDAD N° 3

Foro de discusión sobre la lectura ¿La Estadística en el trabajo?


Instrucciones
Ingrese al foro y participe con comentarios críticos y analíticos del tema ¿La Esta-
dística en el trabajo?
 Lea y analice la siguiente lectura.
 Responda en el foro a las preguntas acerca de la lectura
¿Cuál es Propósito de lectura?
¿Cuál es la relación entre la lectura propuesta y la estadística aplicada?
¿Qué términos estadísticos utilizas con más frecuencia en tu trabajo?
¿Cuál es la importancia de la estadística aplicada en tu centro de trabajo?

ACTIVIDAD N° 3

PRUEBA DE HIPOTESIS SOBRE UNA POBLACIÓN


I. Resuelva los siguientes ejercicios aplicando estimación de pro-
porciones:

1. Sean las siguientes hipótesis.

Ho: π = 0,40
H1: π ≠ 0,40
Una muestra de 120 observaciones reveló que p = 0,30. ¿Puede rechazar la hi-
pótesis nula en el nivel de significancia de 0,05?
a) Formule la regla de decisión
b) Calcule el valor del estadístico de prueba
c) ¿Cuál es su decisión respecto de la hipótesis nula?
2. Un artículo reciente de USA Today informó que sólo hay un trabajo disponible por
cada tres nuevos graduados de universidad. Las principales razones fueron una
sobrepoblación de graduados universitarios y una economía débil. Una encuesta
de 200 recién graduados reveló que 80 estudiantes tenían trabajo. Con un nivel
de significancia de 0,02. ¿Puede concluir que una proporción mayor de estudiantes
de su escuela tienen empleo?
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba
de hipótesis.
3. Una investigación de la universidad de Toledo indica que el 50% de los estudiantes
cambia de área de estudios después del primer año en un programa. Una muestra
aleatoria de 100 estudiantes de la Facultada de Administración reveló que 48 ha-
bían cambiado de área de estudio después del primer año del programa de estu-
dios. ¿Hubo una reducción significativa en la proporción de estudiantes que cam-
bian de área el primer año en este programa? Realice una prueba con un nivel de
significancia de 0,05.
Nota: se recomienda utilizar el procedimiento de los cinco pasos para la prueba
de hipótesis.
4. Un constructor afirma que se instalan bombas de calor en 70% de todas las casas
que se construyen hoy en día en la ciudad de Lima. ¿Estaría de acuerdo con esta
afirmación si una investigación casas nuevas en esta ciudad muestra que 8
de 15 tienen instaladas bombas de calor? utilice un nivel de significancia de 0.10.
II. Resuelva los siguientes ejercicios aplicando estimación de me-
dias con desviación estándar:
5. Se selecciona una muestra de 36 observaciones de una población normal. La me-
dia muestral es de 12, y el tamaño de la muestra 36. La desviación estándar de
la población es 3. Utilice el nivel de significancia 0,02.

Ho: u <= 10
H1: u > 10
a) Es una prueba de una o de dos colas?
b) Cuál es la regla de decisión?
c) Cuál es el valor del estadístico de prueba?
d) Cuál es su decisión al respecto de Ho?
e) Cuál es el valor p? Interpreta este valor
6. Se selecciona una muestra de 64 observaciones de una población normal. La me-
dia de la muestra es de 215, y la desviación estándar de la población, 15. Lleve a
cabo la prueba de hipótesis, utilice el nivel de significancia 0,03.
Ho: u >= 220
H1: u < 220
a) Es una prueba de una o de dos colas?
b) Cuál es la regla de decisión?
c) Cuál es el valor del estadístico de prueba?
d) Cuál es su decisión al respecto de Ho?
e) Cuál es el valor p? Interpreta este valor
7. En el momento en que fue contratada como mesera en el Grumney Family Res-
taurant, a Beth Brigden le dijeron: “Puedes ganar en promedio más de $80 al día
en propinas”. Suponga que la desviación estándar de la distribución de población
es de $3,24. Los primeros 35 días de trabajar en el restaurante, la suma media
de sus propinas fue de $84,85. Con el nivel de significancia de 0,01. ¿La señora
Brigden puede concluir que gana un promedio de más de $80 en propinas?.
8. Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de
forma aproximadamente normal con una media de 800 horas y una desviación
estándar de 40 horas. Pruebe la hipótesis de que µ≠800 horas si una muestra
aleatoria de 30 focos tiene una duración promedio de 788 horas. Utilice un nivel
de significancia de 0.04.
9. Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pa-
sado muestra una vida promedio de 71.8 años. Suponga una desviación estándar
poblacional de 8.9 años. Queremos probar si la vida media hoy en día es mayor a
70 años con base en esa muestra. La muestra parecería indicar que es así pero
¿Cuál es la probabilidad de que la media de la muestra no refleje la verdadera
media de la población? Utilizar un nivel de significancia de 0.05.
10. Las puntuaciones en un test que mide la variable creatividad siguen, en la
población general de adolescentes, una distribución Normal de media 11,5. En un
centro escolar que ha implantado un programa de estimulación de la creatividad
una muestra de 30 alumnos ha proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6,
14, 16, 6, 7, 15, 20, 14, 15.
A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
11. En una muestra de 1000 nacimientos el número de varones ha sido 542
¿Puede considerarse, con un nivel de significación del 10%, que en general nacen
más niños que niñas?
12. En una muestra de 66 alumnos se ha calculado el coeficiente de correlación
de Pearson entre sus puntuaciones en el primer parcial de Análisis de Datos y el
tiempo que se emplea en desplazarse desde su domicilio hasta la Facultad, obte-
niéndose que r vale 0,24. Podemos mantener, con un nivel de confianza del 95%,
la idea de que estas variables son incorreladas, o por el contrario debemos recha-
zarla.
13. Las puntuaciones en un test de razonamiento abstracto siguen una distribu-
ción Normal de media 35 y varianza 60. Para evaluar un programa de mejora de
las capacidades intelectuales, a 101 individuos que están realizando este pro-
grama se les pasa el test, obteniéndose una media de 50 puntos y una varianza
de 80 ¿Puede asegurarse, a un nivel de confianza del 90%, que el programa in-
crementa las diferencias individuales en esta variable?
14. Un criador de pollos sabe por experiencia que el peso de los pollos de cinco
meses de 4,35 libras. Los pesos siguen una distribución normal. Para tratar de
aumentar el peso de dichas aves se le agrega un aditivo al alimento. En una mues-
tra de pollos de cinco meses se obtuvieron los siguientes pesos en libras

4,41 4,37 4,33 4,35 4,30 4,39 4,36 4,38 4,40 4,39

En el nivel 0,01 el aditivo ha aumentado el peso medio de los pollos? Estime el


valor de p.
15. Una compañía de transportes requiere comprar un gran lote de buses para el
transporte urbano con el fin de reemplazar su parque automotor y para tal fin
desea comprobar la afirmación hecha por el proveedor de la marca B, en el sentido
de que la marca A es menos ahorradora de combustible. Para tal fin la empresa
toma una muestra aleatoria de 35 vehículos marca A y encuentra que la misma
tiene un promedio en el rendimiento de 18 km/galón con una desviación estándar
de 8 km/galón, mientras que una muestra de 32 vehículos marca B presenta un
promedio de 22 km/galón con desviación estándar de 3 km/galón. ¿Qué decisión
debe tomar el gerente de la compañía con un nivel de significación del 5%?

III. Resuelva los siguientes ejercicios aplicando estimación de va-


rianzas
16. Una muestra aleatoria de 16 sobres de cierto producto cuyos pesos se distri-
buyen normalmente ha dado una desviación estándar de 0.6 gramos. Utilizando
un nivel de significación del 5%, ¿es válido inferir que la varianza de los pesos de
tales sobres es mayor que 0.25 gramos2?
17. Sean las siguientes hipótesis:

Ho: μ =400
H1: μ ≠ 400
En el caso de una muestra aleatoria de 12 observaciones seleccionada de una
población normal, la media muestral fue de 407, y la desviación estándar de la
muestra, de 6. Utilice el nivel de significancia 0,01.
a) Formule la regla de decisión?
b) Calcule el valor de estadístico de prueba
c) Cuál es su decisión respecto de la hipótesis nula?
18. La administración de White Industries analiza una nueva técnica para armar
un carro de golf; la técnica actual requiere 42,3 minutos de trabajo en promedio.
El tiempo medio de montaje de una muestra aleatoria de 24 carros, con la nueva
técnica, fue de 40,6 minutos, y la desviación estándar, de 2,7 minutos. Con un
nivel de significancia de 0,10, ¿puede concluir que el tiempo de montaje con la
nueva técnica es más breve?
19. En la actualidad, la mayoría de los que viajan por avión compra sus boletos
por internet. De esta forma, los pasajeros evitan la preocupación de cuidar un
boleto de papel, además de que las aerolíneas ahorran. No obstante, en fechas
recientes, las aerolíneas han recibido quejas relacionadas con los boletos, en par-
ticular cuando se requiere hacer un enlace para cambiar de línea. Para analizar el
problema, una agencia de investigación independiente tomó una muestra aleatoria
de 20 aeropuertos y recogió información relacionada con la cantidad de quejas
que hubo sobre los boletos durante marzo. A continuación se presenta la informa-
ción.

14 14 16 12 12 14 13 16 15 14
12 15 15 14 13 13 12 13 10 13

Con un nivel de significancia de 0,05, ¿la agencia de investigación puede concluir


que la cantidad media de quejas por aeropuerto es menor de 15 al mes?
20. La empresa Jamestown Steel Company fabrica y ensambla escritorios y otros
muebles para oficina, en diversas plantas del oeste de Nueva York. La producción
semanal del escritorio modelo A325 en la planta Fredonia, se distribuye normal-
mente con una media de 200 y una desviación estándar de 16. En tiempos recien-
tes, debido a la expansión del mercado, se han introducido nuevos métodos de
producción y se han contratado más empleados. El vicepresidente de la compañía
quisiera saber si ha habido alguna variación en la producción semanal. Planteado
de otra forma, ¿el número medio de escritorios producidos en la Planta mencio-
nada es diferente de 200? Utilice el nivel de significancia 0.01
Tema N° 4: PRUEBA DE HIPOTESIS PARA DOS MUESTRAS
1. PRUEBA DE HIPOTESIS SOBRE DOS PROPORCIONES POBLACIO-
NALES p
Requisitos
 Tenemos proporciones de dos muestras aleatorias simples que son independien-
tes.
 Para ambas muestras el número de éxitos es de al menos 5 y el número de
fracasos es de al menos 5.
Notación: Para la población 1:
n1  Tamaño muestral

p1  Proporción poblacional (ulitizada en H0 )

X1  Número de éxitos en la muestra


 X1
p  Proporción muestral
n1
 
q  1p
 
Se adjunta los significados correspondientes a n2 ,p2 ,X2 ,p2 y q2
provienen de la población 2.
X1  X2
Proporción muestral agrupada p : p
n1  n2
Complemento de p como q,  q  1 p
Estadístico de prueba (con H0 : p1  p2 ):
  
p
 1  p 
2   p1  p 2 
Z 
pq pq

n1 n2
Donde: p1  p2  0 , (supuesto de la hipótesis nula)
 X1  X X1  X2
p1   p2  2 ; p  q  1p
n1 n2 n1  n2

Valor P: Utilice la distribución normal estándar de la Tabla A – 2 (use el valor calcu-


lado de la prueba Z y obtenga el valor P siguiendo el procedimiento que se resumen
la figura 2.1)
Valores Críticos: Utilice la Tabla A – 2 (con base en el nivel de significancia , 
obtenga valores críticos utilizando los procedimientos de la figura 2.1)

Recuerda de la Unidad I:
ESTIMADO DEL INTERVALO DE CONFIANZA DE: p1  p 2 , es:
     
 
 p1  p2   E  p1  p2   p1  p2   E
   
   
p1 q1 p2 q2
Donde el margen de error E es: E  Z /2 
n1 n2

Ejemplo N° 1: Se evalúan dos tipos diferentes de soluciones para pulir, para su


posible uso en una operación de pulido en la fabricación de lentes intraoculares utili-
zados en el ojo humano después de una cirugía de cataratas. Se pulen 300 lentes
con la primera solución y, de éstos, 253 no presentaron defectos inducidos por el
pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales 196
resultan satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para
pulir son diferentes? Utilice   0,01
Solución: Para solucionar, se observa que es una distribución de muestral de pro-
porciones, donde se sigue los siguientes pasos:
1° La aseveración original dice existe alguna razón para creer que las dos soluciones
para pulir son diferentes: p1  p2
p1 : Tipo de solución 1 para pulir lentes intra oculares

p2 : Tipo de solución 2 para pulir lentes intra oculares

2° El opuesto de la aseveración original: p1  p2


3° Como p1  p2 y no es igual, entoces se convierte en una hiposesis alternativa,
Ho : p1  p2  0
opteniendose:
H1 : p1  p2  0
4° El nivel de significancia es   0,01
5° Dado que la aseveración implica dos proporciones p1 y p2 , el estadistico

relevante de esta prueba es la proporción muestral agrupada de p para el valor

comun de p1 y p2 y la distribución de proporciones se aproxima a una distribución


normal.
  
 p1  p 2   p1  p 2  
 
6° El estadpistico de prueba es: Z 
pq pq

n1 n2

x1 
x
Dado que p1  p2  0 y p1  y p2  2
n1 n2
X1  X2
p  q  1p
n1  n2

253
Donde: p1   0,8433 , n1  300 p1  p2  0
300

196
p2   0,6533 n2  300
300
253  196 449
p   0,7483  q  1  0,7483  0,2517
300  300 600
Luego, reemplazando:
Z
 0,8433  0,6533  0  5,36
 0,7483 0,2517    0,7483 0,2517 
300 300

Por lo tanto: : Z  5,36 ,


De paso 3° se menciona H1 : p1  p2  0 , entonces se determine que la región critica
esta en ambas colas de la distribución normal. Para ello determinamos los valores
críticos, con el nivel de significancia de   0,01 , donde los valores criticos son ZL =
 2,575, y lo representamos en la gráfica siguente:

Luego si: 2,575  Z  2,575  No se rechaza H0


si: Z  2,575 o Z  2,575  Se rechaza H0

Figura 44. Región de rechazo y región de aceptación

7° Como 5,36  2,575  se rechaza H1 y se concluye con el nivel de


significancia de 0,01 que los dos fluidos para pulir son diferentes

Ejemplo N° 2: Se tomará el voto entre los residentes de una ciudad y el condado


circundante para determinar si se debe construir una planta química propuesta. El
lugar de construcción está dentro de los límites de la ciudad y por esta razón muchos
votantes del condado consideran que la propuesta pasará debido a la gran proporción
de votantes que favorecen la construcción. Para determinar si hay una diferencia
significativa en la proporción de votantes de la ciudad y votantes del condado que
favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la ciudad
favorecen la propuesta y 240 de 500 residentes del condado también lo hacen, ¿es-
taría de acuerdo en que la proporción de votantes de la ciudad que favorecen la
propuesta es más alto que la proporción de votantes del condado? Utilice un nivel de
significancia de 0.025.
Solución:
1° La aseveración original dice que ¿estaría de acuerdo en que la proporción de vo-
tantes de la ciudad que favorecen la propuesta es más alto que la proporción de
votantes del condado? p1  p2
p1 : Votantes de la ciudad que favorencen la propuesta

p2 : Votantes del condado que favorencen la propuesta

2° El opuesto de la aseveración original: p1  p2


3° Como p1  p2 y no es igual, entoces se convierte en una hiposesis alternativa,
Ho : p1  p2  0
opteniendose:
H1 : p1  p2  0

4° El nivel de significancia es   0,025


5° Dado que la aseveración implica dos proporciones p1 y p2 , el estadistico

relevante de esta prueba es la proporción muestral agrupada de p para el valor

comun de p1 y p2 y la distribución de proporciones se aproxima a una distribución


normal.
  

 p1  p 2   p1  p 2 
 
6° El estadpistico de prueba es: Z 
pq pq

n1 n2

x1 
x
Dado que p1  p2  0 y p1  y p2  2
n1 n2
X1  X2
p  q  1p
n1  n2

120
Donde: p1   0,60 , n1  200 p1  p2  0
200

240
p2   0,48 n2  500
500
120  240 360
p   0,51  q  1  0,51  0, 49
200  500 700
Luego, reemplazando:

Z
 0,60  0, 48  0  2,87
 0,51 0, 49   0,51 0, 49
200 500

Por lo tanto: : Z  2,87 ,


De paso 3° se menciona H1 : p1  p2  0 , entonces se determine que la región critica
esta en la cola derecha de la distribución normal. Para ello determinamos los valores
críticos, con el nivel de significancia de   0,025 , donde el valor critico es ZL =1,96,
y lo representamos en la gráfica siguente:

Luego si: Z  1,96  No se rechaza H0


si: Z  1,96  Se rechaza H0
Figura 45. Región de rechazo

7° Como 2,87  1,96  se rechaza H1 y se concluye con el nivel de significancia


de 0,025 que la proporción de votantes de la ciudad a favor de la propuesta es más
alta que la proporción de votantes del condado.

2. PRUEBA DE HIPOTESIS RESPECTO A DOS MEDIAS INDEPEN-


DIENTES, 1 y 2 CONOCIDAS
En este caso se considera prueba de hipótesis sobre las dos medias poblaciones,
conociendo las desviaciones estándares ( 1 y 2 donde el estadístico de prueba y el
intervalos de confianza están basados en una distribución normal y no en una distri-
bución de t.
Requisitos
 Se conocen las desviaciones estándar poblacionales
 Las muestras son independientes
 Ambas muestras son aleatorias simples
 Cualquiera de estas condiciones satisface:
Dos tamaños muestrales son grandes (como n1  30  n2  30 las dos
muestras provienen de poblaciones que tienen distribuciones normales.
Notación: Para la población 1
n1  Tamaño de la muestra

X1  Media muestral
1  Media poblacional

12  Varianza poblacional

Se adjunta los significados correspondientes a n2 ,X2 ,  2 , 22 provienen


de la población 2.

Estadístico de prueba, 1  2 : Z
 X  X      
1 2 1 2

12 22

n1 n2
Valor P y valores críticos: Remítase a la Tabla A – 2

Ejemplo N° 1: Un diseñador de productos está interesado en reducir el tiempo de


secado de una pintura tapa poros. Se prueban dos fórmulas de pintura; la fórmula 1
tiene el contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente se-
cante que debe reducir el tiempo de secado. De la experiencia se sabe que la des-
viación estándar del tiempo de secado es ocho minutos, y esta variabilidad inherente
no debe verse afectada por la adición del nuevo ingrediente. Se pintan diez especí-
menes con la fórmula 1, y otros diez con la fórmula 2. Los dos tiempos promedio de
secado muestrales son 121 min y 112 min respectivamente. ¿A qué conclusiones
puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, utili-
zando   0,05 ?
Solución: Se trata de una distribución muestral de dos medias con desviaciones
estándares conocidas, pero como el tamaño de muestra es menor a 30 se puede
tomar las desviaciones muestrales como un estimador puntual para las poblaciones.
1° La aseveración original dice que al comparar dos fórmulas de pintura con ingre-
dientes convencional y el otro con un aditivo, para reducir el tiempo promedio de
secado, entonces tendríamos que determinar si hay una diferencia entre los tiempos
promedios de secado respecto a las formulas: 1   2
1 : Tiempo promedio de secado de la fórmula 1 con contenido quimico estándar

2 : Tiempo promedio de secado de la fórmula 2 con contenido ingrediente de


secante

2° El opuesto de la aseveración original: 1  2  1  2  0


3° De los pasos anteriores se concluye que se desea rechazar que 1  2  0 ,
entonces 1  2  0 si el nuevo ingrediente disminuye el tiempo promedio de

secado, por eso se pone la diferencia mayor a cero para probar que 2 es menor

que 1
H0 : 1  2  0
Opteniendose:
H1 : 1  2  0
4° El nivel de significancia es   0,05
5° Dado que la aseveración implica dos medias poblacionales 1 y 2 , el estadistico
relevante de esta prueba es la diferencia de las medias muestrales X1  X2 . Como
se supone que conocemos las desviaciones estándares 1  2  8 min y las
poblaciones se distribuye normalemente, el límite del teorema central indica que la
distribución de medias muestrales pueden ser aproximarse por medio de una
distribución normal.
6° El estadistico de prueba es:
12 22
X1  X2  1   2  Z 
n1 n2

X1  121 min X2  112 min   0,05


Donde:
1 2  8 min n 1  n2  10 Z  1,645

8  8 
2 2

Luego, reemplazando: X1  X2  0  1,645   5,88


10 10

Por lo tanto: X1  X2  5,88


De paso 3° se menciona H1 : 1  2  0 , entonces se determine que la región
critica esta en la cola a la derecha de la distribución normal. Para ello determinamos
los valores críticos, con el nivel de significancia de   0,05 , donde los valores
criticos son ZL = 1,645, y lo representamos en la gráfica siguente:
Luego
Si: X1  X2  5,88  No se rechaza H0
Si : X1  X2  5,88  Se rechaza H0

Figura 46. Región de rechazo

7° Como X1  X2  121  112  9  9  5,88 se rechaza H0 y se concluye con un ni-


vel de significancia del 0.05 que la adición del nuevo ingrediente a la pintura si dis-
minuye de manera significativa el tiempo promedio de secado

3. PRUEBA DE HIPOTESIS RESPECTO A DOS MEDIAS INDEPENDIENTES,


1 y 2 DESCONOCIDAS

CASO 1: Si:
1  2
En este caso se considera prueba de hipótesis sobre las dos medias poblaciones,
desconociendo las desviaciones estándares ( 1 y 2 ), si se puede suponer que

1  2 , las varianzas muestrales S12 y S22 pueden agrupar es para obtener un esti-

mado de varianza poblacional


2
 común. Aquí se aplica el estadístico t de Stu-
dent.
Requisitos
 Se desconocen las desviaciones estándar poblacionales, pero se supone
que son iguales. Es decir: 1  2
 Las muestras son independientes
 Ambas muestras son aleatorias simples
 Cualquiera de estas condiciones satisface:
Dos tamaños muestrales son grandes (como n1  30  n2  30 las dos
muestras provienen de poblaciones que tienen distribuciones normales.
Notación: Para la población 1
n1  Tamaño de la muestra

X1  Media muestral
1  Media poblacional
12  Varianza poblacional

Se adjunta los significados correspondientes a n2 ,X2 ,  2 , 22 provienen


de la población 2.

Estadístico de prueba, 1  2 : t
 X  X      
1 2 1 2

Sp2 Sp2

n1 n2

Donde la varianza agrupada: Sp2 


n1 
 1 S12  n2  1 S22  y el númerol de grados
n  1  n
1 2  1

de libertad está dado por: gl  n1  n2  2


Valor P y valores críticos: Remítase a la Tabla A – 3

Ejemplo N° 1: Se llevó a cabo un experimento para comparar el desgaste por abra-


sivos de dos diferentes materiales laminados. Se probaron 12 piezas del material 1
exponiendo cada pieza a una máquina para medir el desgaste. Se probaron 10 piezas
del material 2 de manera similar. En cada caso se observó la profundidad del des-
gaste. Las muestras del material 1 revelaron un desgaste promedio (codificado) de
85 unidades con una desviación estándar muestral de 4; en tanto que las muestras
del material 2 revelaron un promedio de 81 y una desviación estándar muestral de
5. ¿Podríamos concluir, a un nivel de significancia de 0,05, que el desgaste abrasivo
del material 1 excede al del material 2 en más de 2 unidades? Suponga que las
poblaciones son aproximadamente normales con varianzas iguales.
Solución: Se trata de una distribución muestral de dos medias con desviaciones
estándares desconocidas e iguales ( 1  2   ), ambas distribuciones normal-
mente distribuidas, para este caso se aplicará la prueba de t agrupada, y se sigue
los siguientes pasos:
1° La aseveración original dice que el desgaste promedio abrasivo del material 1
excede al del material 2 en más de 2 unidades: 1  2  2
1 : Desgaste promedio abrasivo del material 1

2 : Desgaste promedio abrasivo del material 1

2° El opuesto de la aseveración original: 1  2  2


3° De las dos expresiones simbolicas anteriores, la expresión
1  2  2 . No contiene igualdad por lo que se combierte en la hipótesis
alternativa . la hipotesis nula es la afirmación de que 1   2 igual al valor fijo de
2. Como consecuencia se expresa:
H0 : 1  2  2
Opteniendose:
H1 : 1  2  2
4° El nivel de significancia es   0,05
5° Dado que la aseveración implica dos medias poblacionales 1 y 2 , el estadistico
relevante de esta prueba considera varianzas agrupadas que se puede genera una
en comun. Tamvien se le conoce prueba t independiente, debido aque las dos
poblaciones normales son independientes. El estadistico de prueba es:
6° El estadistico de prueba 1  2 es: t 
 X  X      
1 2 1 2

Sp2 Sp2

n1 n2

Donde la varianza agrupada: S 2



n1  
 1 S12  n2  1 S22 
p
n  1  n
1 2  1

Grados de libertad: gl  n1  n2  2

1  85 2  81 n1  12   0,05
Donde:
S1  4 S2  5 n2  10
Calculando la varianza común (agrupada):
12  1 4   10  1 5
2 2

S 2
  20,05
p
12  1  10  1
Luego, reemplazando: t 
85 81 2  1,04
20,05 20,05

12 10
Por lo tanto: t  1,04
De paso 3° se menciona H1 : 1  2  2 , entonces se determine que la región
critica esta en la cola a la derecha de la distribución normal. Para ello determinamos
los valores críticos, con el nivel de significancia de   0,05 y con grados de libertad:
gl  n1  n2  2  12  10  2  20 , donde el valor critico es ZL = 1,725, y lo
representamos en la gráfica siguente:
Luego
Si: H1 : 1  2  2  No se rechaza H0
Si : H1 : 1  2  2  Se rechaza H0

Figura 47. Región de rechazo

7° Como  1,04  1,725 no se rechaza H0 y se concluye con un nivel de signifi-


cancia del 0.05 que no podemos concluir que el desgaste abrasivo del material 1
excede al del material 1 en más de 2 unidades.

CASO 2: Si:
1  2
Se trata de distribuciones muestrales de dos medias con desviaciones estándares
desconocidos y diferentes ( 1  2 ), ambas distribuciones normalmente distribui-
das, para este caso no existe un estadístico t exacto para probar H0 :1  2 , el
estadístico es:

 X  X      
1 2 1 2
Estadístico de prueba 1  2 : t
S12 S22

n1 n2
Grados de libertad: Para el cálculo del Valor P o valores críticos, utilice el número
de grados de libertad teniendo en cuenta:
 Grado de libertad el más pequeño: gl : n1  1 y n2  1
 Programas de cómputo utilizan el estimado más exacto y está fundamentado en:
 A  B
2
S12 S2
gl  , donde: A  y B 2
A2 B2 n1 n2

n1  1 n2  1
Valor P: Remítase a la Tabla A – 3. Utilice el procedimiento resumido en la figura
2.1
Valores críticos: Remítase a la Tabla A – 3

Ejemplo N° 2: Se pueden utilizar dos pruebas analíticas diferentes para determinar


el nivel de impureza en aleaciones de acero, Se prueban ocho especímenes con am-
bos procedimientos, los resultados aparecen en la siguiente tabla. ¿Existe suficiente
evidencia para concluir que ambas pruebas dan el mismo nivel de impureza prome-
dio, utilizando   0,10 ?

Espécimen 1 2 3 4 5 6 7 8
Prueba 1 1,2 1,3 1,5 1,4 1,7 1,8 1,4 1,3
Prueba 2 1,4 1,7 1,5 1,3 2,0 2,1 1,7 1,6
Solución: Se trata de distribuciones muestrales de dos medias con desviaciones es-
tándares desconocidos y diferentes ( 1  2 ), ambas distribuciones normalmente
distribuidas, para este caso se aplica el estadístico t exacto con grados de libertad
establecido; y se sigue los siguientes pasos:
1° La aseveración original dice que existe suficiente evidencia para concluir que
ambas pruebas dan el mismo nivel de impureza promedio: 1  2
1 : Promedio del nivel de impureza en aleación de acero, en Prueba 1

2 : Promedio del nivel de impureza en aleación de acero, en Prueba 2

2° El opuesto de la aseveración original: 1  2


3° De las dos expresiones simbolicas anteriores, la expresión
1  2 . No contiene igualdad por lo que se combierte en la hipótesis alternativa . la
hipotesis nula es la afirmación de que 1 y 2 son diferentes. Como consecuencia
se expresa:
H0 : 1  2
Opteniendose:
H1 : 1  2
4° El nivel de significancia es   0,10
5° Dado que la aseveración implica dos medias poblacionales 1 y 2 , el estadistico
relevante de esta prueba considera varianzas agrupadas que se puede genera una
en comun. Tamvien se le conoce prueba t independiente, debido aque las dos
poblaciones normales son independientes. El estadistico de prueba es:

6° El estadistico de prueba 1  2 es: t 


 X  X      
1 2 1 2

S12 S22

n1 n2
Donde el grado de libertad se calcule mediante:
 A  B
2
S12 S2
 gl  , donde: A  y B 2
A2 B2 n1 n2

n1  1 n2  1
Calculando las medias y desviaciones estándar muestrales haciendo uso de la
calculadora tenemos:
X1  1,45 X2  1,66 n1  n2  8   0,05
Donde:
S1  0,21 S2  0,28
 0,21  0,28
2 2

Calculando el grado de libertad: A  0,0055 y B  0,0098


8 8

 0,0055  0,0098
2

gl   12,98  13
 0,0055   0,0098
2 2

81 81

Luego, reemplazando: t 
85 81 2  1,04
20,05 20,05

12 10
Por lo tanto: t  1,04
De paso 3° se menciona H1 : 1  2 , entonces se determine que la región critica
esta en dos colas de la distribución normal. Para ello determinamos los valores
críticos, con el nivel de significancia de   0,10   / 2  0,05 y con grados de
libertad: gl  13 , donde el valor critico es ZL =  1,746, y lo representamos en la
gráfica siguente:
Luego
Si: 1,746  t  1,746  No se rechaza H0
Si : t  1,746 o t  1,746  Se rechaza H0
Figura 48. Región de rechazo

7° Como  1,04  1,725 no se rechaza H0 y se concluye con un nivel de signifi-


cancia del 0,10 que no hay evidencia fuerte que indique el nivel de impureza pro-
medio de las dos pruebas sea diferente

Figura 49. Métodos para pruebas de hipótesis de dos medias independientes.


Tomado de Triola, 2009, p 476
4.4. PRUEBA DE HIPOTESIS RESPECTO DOS VARIANZA
En este caso se considera prueba de hipótesis respecto a dos varianzas de la pobla-
ción (o desviación estándar) utilizando dos muestra. Aquí se utiliza la distribución
F.(Distribución Fisher)
Requisitos
 Las dos poblaciones son independientes una de la otra.
 Las dos poblaciones están distribuidas normalmente.
Notación: Para la población 1
n1  Tamaño de la muestra que tiene la varianza más grande

S12  La más grande de dos varianzas muestrales

 2
1  Varianza de la población donde se obtiene la muestra con la
varianza más grande
Se adjunta los significados correspondientes a n2 ,S22 ,22 provienen de la población 2.
2
S
Estadístico de prueba: F 1
2
S
2

Donde S12 es la más grande las varianzas muestrales.


Valores críticos: Utilice la Tabla A – 5, para obtener los valores críticos F se deter-
minan siguiendo:
 Nivel de significancia 
(Tabla A – 5 tiene cuatro páginas de valores críticos
para = 0,025 y 0,05)
 Grados de libertad del numerador: gl : n1 1
 Grados de libertad del denominador: gl : n2  1

Ejemplo N° 1: Se realiza un estudio para comparar el tiempo que les toma a hom-
bres y mujeres ensamblar cierto producto. La experiencia indica que la distribución
del tiempo tanto para hombres como para mujeres es aproximadamente normal,
pero que la varianza del tiempo para las mujeres es menor que para los hombres.
Una muestra aleatoria de los tiempos de 11 hombres y 14 mujeres produce los si-
guientes datos:
Hombres Mujeres
n1  11 n2  14
S1  6,1 S2  5,3

Pruebe la hipótesis de que 12  22 contra la alternativa de que 12  22 . Utilice un
valor P en su conclusión.

Solución: En este caso se considera la prueba de hipótesis respecto a las varianzas


de las poblaciones 12 y 22 . Aquí se utiliza la distribución F. Para ello se sigue los
pasos siguientes:
1° La aseveración original dice que la varianza del tiempo para las mujeres es me-
nor que para los hombres: 1
2
 22
12: Varianza de tiempo que emplean los hombres para ensamblar un pro-
ducto
22 : Varianza de tiempo que emplean las mujeres para ensamblar un pro-
ducto
2° El opuesto de la aseveración original: 12  22
3° De las dos expresiones simbolicas anteriores, la expresión   2 No
. 1
2 2

contiene igualdad por lo que se combierte en la hipótesis alternativa . la hipotesis


nula es la afirmación de que 12 y 22 son iguales. Como consecuencia se expresa:
2
H0 :   22
1
Opteniendose:
H1 : 12  22
4° El nivel de significancia es   0,05
5° Dado que la aseveración implica dos varianzas poblacionales 12 y 22 , y como los
requisitos para utilizar el estadistico relevante prueba F satisface empleamos la
distribución de Fisher (F). Remitase a la Unidad I.
S12
6° El estadistico de prueba es: F  2
S2

S1 6,1 n1  11   0,05
Donde:
S2  5,3 n 2  14
 6,1  1,32
2

Luego, reemplazando: F 
 5,3
2

Por lo tanto: F  1,32


De paso 3° se menciona H1 : 12  22 , entonces se determine que la región critica
esta en la cola derecha de la distribución F . Para ello determinamos los valores
críticos, con el nivel de significancia de   0,05 , y grados de libertad :
 Grados de libertad del numerador: gl : n1  1  11  1  10
 Grados de libertad del denominador: gl : n2  1  14  1  13 donde los valores
criticos son FL = 2,6710, y lo representamos en la gráfica siguente:

Luego

Si: F  2,67  No se rechaza H0


Si : F  2,67  Se rechaza H0

Figura 50. Región de rechazo


7° Como 1,32  2,67  no se rechaza H0 y se concluye con un nivel de significancia
del 0.05 que no se puede determinar que la varianza del tiempo empleado para las
mujeres en ensamblar productos es menor que para los hombres.

Para calcular el valor de P se va a la tabla A – 5 y se busca el valor de 1,32 en el


reglón de13 grados de libertad. Interpolando entre 1 y 2, obteniéndose el valor de
P de 0,0965

Figura 51. Valor de P

TABLA N° 3 RESUMEN DE LA PRUEBAS DE HIPÓTESIS


PARA DOS POBLACIONES
REQUISITOS DISTRIBUCIÓN Y ES- VALORES P
PARÁMETRO Muestra inde- TADISTICO DE PRUEBA Y CRÍTICOS
pendientes y…
Distribución Normal
P n1  30  n2  30   
R p
 1  p 
2   p1  p 2 
Z 
O
P
O pq pq

R n1 n2
C
I Si: p1  p2  0 ,
O Tabla A – 2
N
 X  X
p1  1  p2  2
E n1 n2
S
X1  X2
p  q  1p
n1  n2
12 y 22 Distribución Normal

conocida o
Z
 X  X      
1 2 1 2 Tabla A – 2
y n  30 12 22

Población n1 n2
distribuida
normalmente
M Distribución t Student :
E
Si: 1  2 :
D
I
A
S
12 y 22
t
 X  X      
1 2 1 2

desconocida
Sp2 Sp2
y n  30 
n1 n2
o
Varianza agrupada:
Población
distribuida
normalmente
S 2

n 1  
 1 S12  n2  1 S22 
p
n  1  n
1 2  1
Tabla A – 3
gl  n1  n2  2
Población no Distribución t Student :
Distribuida
normalmente Si: 1  2 :
n  30
 X  X      
1 2 1 2
t
S12 S22

n1 n2
Tabla A - 3
 A  B
2

gl  , donde:
A2 B2

n1  1 n2  1
S12 S2
A y B 2
n1 n2

Población Distribución de Fisher


distribuida S12 Tabla A – 5
VARIANZA normalmente F
S22
Elaboración propia
Lectura seleccionada N°4

¿La estadística en el trabajo


"Es extremadamente importante que cada uno de noso-
tros comprenda la estadística
para poder procesar de forma efectiva las grandes canti-
dades de información que se nos presentan cada día en
nuestras vidas profesionales y personales".
Michael Saccucci - Director de estadística y gerencia de
calidad para Consumers Union, encargado de probar pro-
ductos y servicios, así como de dar calificaciones y reco-
mendaciones a los consumidores en la revista Consumer
Report.

¿Qué conceptos y procedimientos prueba, analiza los resultados y pre-


estadísticos utiliza en Consumers senta los hallazgos en un informe esta-
Union?. Durante cualquier día, los es- dístico. El especialista también inter-
pecialistas en estadística tienen que uti- viene en una variedad de proyectos es-
lizar varios procedimientos estadísticos, peciales, dependiendo de las necesida-
muchos de los cuales se estudian en este des de la organización. Los consumido-
libro de texto. Por ejemplo, en un estu- res confían en la información que ofre-
dio reciente, realizado para evaluar la cemos, por lo que es importante que uti-
calidad y seguridad del pollo, desarrolla- licemos las técnicas estadísticas apro-
mos un esquema de muestreo complejo piadas para asegurarnos de que nues-
para que los distintos fabricantes estu- tras evaluaciones son correctas.
vieran bien representados. En un estu- ¿Qué pasos sigue para asegurar ob-
dio reciente de protectores solares, utili- jetividad en sus procedimientos de
zamos la distribución normal para deter- prueba?. Es política de la Consumers
minar el número adecuado de réplicas Union que todas las pruebas se realicen
necesarias para evaluar correctamente de manera objetiva y científica y que se
los productos. Dependiendo del tipo de cuide la seguridad del personal de
prueba, el especialista en estadística prueba. Hacemos grandes esfuerzos
puede necesitar construir un diseño para respetar esta política. Por ejemplo,
completamente aleatorizado, un diseño no aceptamos ningún tipo de publicidad
aleatorizado por bloques o algún otro externa en nuestras publicaciones. Em-
tipo de diseño experimental para asegu- pleamos compradores anónimos distri-
rarse de que los resultados sean exactos buidos en todo el territorio de Estados
y sin sesgos. Durante la fase de análisis, Unidos para adquirir nuestras muestras
el especialista utiliza diversas técnicas, de prueba de las mismas formas dispo-
como el análisis de varianza, el análisis nibles a los consumidores. No acepta-
de regresión, el análisis de series de mos muestras gratuitas de nadie, inclu-
tiempo, el análisis categórico y/o el aná- yendo vendedores. No probamos mues-
lisis no paramétrico. tras enviadas por un fabricante que no
¿Qué hacen los especialistas en es- solicitamos. Además, los técnicos em-
tadística en Consumers Union?.Rea- plean diseños experimentales aleatori-
lizan gran variedad de tareas. En las pri- zados para asegurarse de que nuestras
meras etapas de un proyecto, el espe- pruebas se realizan con integridad y ob-
cialista en estadística trabaja con el jetividad científica. Cuando resulta prác-
equipo del proyecto para desarrollar el tico, los artículos que se prueban se co-
protocolo de prueba y ayudar a seleccio- difican de forma ciega, de tal manera
nar los productos que van a probarse. que los encargados de efectuar la
Después, ayuda a crear un diseño expe- prueba no saben qué marcas están eva-
rimental adecuado para la prueba. Una luando.
vez que se han obtenido los datos de
¿Las calificaciones y recomendacio- ¿Qué tan esenciales considera que
nes de la revista Consumer Reporte son sus antecedentes profesionales
sólo se basan en la significancia es- para llevar a cabo sus responsabili-
tadística? No. La información que ofre- dades con excelencia? La misión de
cemos debe ser útil para los consumido- Consumers Union es adelantarse a los
res. Nuestros técnicos realizan una va- intereses de los consumidores al brindar
riedad de pruebas para evaluar el información y consejo acerca de produc-
desempeño de un producto. Estas prue- tos y servicios, acerca de aspectos que
bas están diseñadas para simular condi- afectan su bienestar, defendiendo el
ciones del uso predecible de los consu- punto de vista del consumidor. Para ser
midores. Si resulta que existe una signi- competitivos tuvimos que buscar formas
ficancia estadística, pero no hay una di- más eficientes de ofrecer mayor infor-
ferencia importante en los resultados de mación a los consumidores en menor
la prueba, no consideramos una marca tiempo. Mi historial, tanto en estadística
mejor que otra. Por ejemplo, al probar como en gerencia de calidad, ha sido su-
selladores de agua, podríamos encontrar mamente valioso para ayudar a que
que existe una diferencia estadística- Consumers Union logre esta misión.
mente significativa entre las cantidades Cuando era estudiante universita-
de agua que se filtra en dos marcas di- rio, ¿pensaba que utilizaría la esta-
ferentes de sellador. Sin embargo, si la dística en su trabajo? Inicié mi carrera
diferencia consiste en unas cuantas go- en matemáticas y realmente no me in-
tas de agua, calificaríamos de forma si- teresé en la estadística sino hasta el úl-
milar a los productos respecto a esa ca- timo año de la carrera. Fue durante el
racterística. posgrado, mientras trabajaba bajo la di-
¿Cree usted que se tiene una mejor rección del profesor Hoerl en la Univer-
percepción de los solicitantes de sidad de Delaware, cuando me di cuenta
empleo cuando tienen algunos estu- cuán interesante sería una carrera en
dios de estadística?. Dado el nivel de estadística. A pesar de los sentimientos
oferta que existe ahora, considero que el negativos que muchos estudiantes tie-
conocimiento básico de la estadística se- nen por la estadística, creo tener uno de
ría considerado favorablemente en casi los trabajos más interesantes. Nunca sé
cualquier campo de estudio, sobre todo qué esperar durante la jornada. Un día
en las áreas cuantitativas, como las quizá esté sentado en una sesión de ca-
ciencias, la ingeniería y los negocios. Es pacitación sobre cata de vinos para
extremadamente importante que cada aprender acerca de los procedimientos
uno de nosotros comprenda la estadís- de prueba; otro día tal vez tenga que
tica para poder procesar de forma efec- discutir diversas formas para probar pin-
tiva las grandes cantidades de informa- turas. Sin embargo, la mayoría de los
ción que se nos presentan cada día en días paso gran parte de tiempo utili-
nuestras vidas profesionales y persona- zando una computadora para diseñar el
les. Un enfoque en el pensamiento esta- próximo estudio o buscando entre gran-
dístico sería especialmente útil. des cantidades de datos aquellos que re-
sultarán útiles como base de las evalua-
ciones de producto
ACTIVIDAD N° 4

Foro de discusión sobre la lectura ¿La Estadística en el trabajo?


Instrucciones
Ingrese al foro y participe con comentarios críticos y analíticos del tema ¿La Esta-
dística en el trabajo?
 Lea y analice la siguiente lectura. Complementen con lo desarrollado en los
temas de anteriores.
 Responda en el foro a las preguntas acerca de la lectura
¿Cuál es propósito de lectura?
¿Cuál es la relación entre la lectura propuesta y la estadística aplicada?
De acuerdo a la lectura utilizas los conceptos y procedimientos de la esta-
dística en tu centro de trabajo. Ejemplifique de qué manera lo aplica.
Realiza Ud. pruebas de hipótesis en el área de trabajo que se desempeña.
Si es afirmativo, podría citar ejemplos de su aplicación. ¿Qué pasos sigue
Ud. para asegurar una objetividad en sus procedimientos de prueba?
Si es negativo, ¿porque? Fundamente. ¿Qué pasos seguiría Ud. para asegu-
rar una objetividad en los procedimientos de una prueba?

ACTIVIDAD N° 5

PRUEBA DE HIPOTESIS SOBRE DOS POBLACIONES


Resuelva los siguientes ejercicios:

1. Una muestra de 50 familias de una comunidad de 10 de ellas están viendo pro-


grama especial de televisión sobre la economía nacional. En una segunda comu-
nidad 15 familias de una muestra aleatoria de 50 están viendo el programa es-
pecial de televisión, a continuación se prueba la hipótesis de que la proporción
general de televidentes en las dos comunidades no difiere, usando el nivel de
significancia de 1%.

2. Se toman 200 muestras de dos segmentos normales de clientes identificando su


preferencia en los productos de la empresa, los datos obtenidos son:  1 = 6,40,

1 = 2,19, 2 = 6,80 , 2 = 2,42. Probar a un 95% de nivel de confianza si no


hay diferencia en las medias.

3. Se estudia la tasa de combustión de dos propelentes sólidos utilizados en los


sistemas de escape de emergencia de aeroplanos. Se sabe que la tasa de com-
bustión de los dos propelentes tiene aproximadamente la misma desviación es-
tándar de 3 cm/s. Se prueban dos muestras aleatorias de 20 especímenes cada
una, obteniéndose medias de 18 y 24 cm/s respectivamente.
a) Pruebe la hipótesis de que los dos combustibles sólidos tienen la misma
rapidez promedio de combustión. Utilice un   0,05
b) ¿Cuál es el valor de P de la prueba?
c) ¿Cuál es el valor de  para la prueba del inciso a) si la verdadera diferen-
cia en la rapidez promedio de combustión es 2,5 cm/s?
4. De una población se toma una muestra de 40 observaciones. La media muestral
es de 102 y la desviación estándar 5. De otra población se toma una muestra de
50 observaciones. La media muestral es ahora 99 y la desviación estándar es 6.
Realice la siguiente prueba de hipótesis usando como nivel de significancia 0,04.
Ho: u1 = u2
Ho: u1 ≠ u2

a) ¿Es esta una prueba de una o de dos colas?


b) Establezca la regla de decisión.
c) Calcule el valor del estadístico de prueba.
d) ¿Cuál es su decisión respecto a la hipótesis nula?
e) ¿Cuál es el valor p?

5. Se realiza un estudio acerca del impacto que tiene el Programa de Planificación


Familiar que lleva a cabo el HMI Ramos Larrea en dos asentamientos humanos
de su jurisdicción, uno ubicado en área urbana (A) y otro en área rural(B), to-
mando para ello dos muestras de mujeres en edad fértil y con actividad sexual:
nA = 30 y nB = 30. Después de aplicado el instrumento de medición, se obtienen
los siguientes datos

29 10 27 8 26 11 25 7 13 9 28 24 7 22 9
Muestra A
12 9 13 15 8 11 19 20 25 18 23 29 26 8 11
9 14 11 8 15 19 21 13 10 8 17 22 19 11 7
Muestra B
24 18 15 11 26 17 7 14 12 10 8 11 6 9 12

Según los datos obtenidos y suponiendo normalidad, ¿podríamos decir que el im-
pacto fue mayor en las mujeres del asentamiento humano ubicado en el área
urbana? Utilizar un nivel de significación del 5%.

6. En el Hospital del Carmen, se realizó un estudio para comparar la efectividad de


dos tratamientos diferentes para la diarrea aguda, se seleccionaron 15 niños de 1
a 2 años de edad con diarrea aguda, fueron divididos en dos subgrupos, al sub-
grupo A se le dio como tratamiento SRO y al subgrupo B se le dio como tratamiento
SRO + Cocimiento de arroz. Después de tres días de tratamiento, se registró la
frecuencia de evacuaciones de los niños. Los resultados fueron los siguientes:

GRUPO A 3 4 3 4 4 4 5
GRUPO B 4 1 2 3 1 3 2 3

¿Proporcionan los datos evidencias suficientes que indique que la efectividad de


los dos tratamientos no es la misma? Utilice un nivel de significación de 0,05.

7. Lisa Pérez es directora de presupuesto en la empresa CHINA MOTORS, desea com-


parar los gastos diarios de transporte del equipo de ventas y del personal de co-
branza. Recopiló la siguiente información muestral (importe en SOLES).

EQUIPO DE
131 135 146 165 136 142 148
VENTAS (S/.)
PERSONAL DE
COBRANZAS 130 102 129 143 149 120 139
(S/.)

a) ¿Al nivel de significancia de 0,10, puede concluirse que los gastos medios
diarios del equipo de ventas son mayores?
b) ¿Cuál es el valor p?
8. Se lleva a cabo un experimento para comparar el desgaste por abrasivo de dos
diferentes materiales laminados. Se prueban 12 piezas del material 1 mediante
la exposición de cada pieza a una máquina para medir el desgaste. 10 piezas del
material 2 se prueban de manera similar. En cada caso, se mide la profundidad
del desgaste. Las muestras del material 1 dan un desgaste promedio de 85 uni-
dades con una desviación estándar muestral de 4, mientras que las muestras del
material 2 dan un promedio de 81, desviación estándar muestral de 5. ¿Podemos
concluir con un nivel de significancia del 0,05 que el desgaste abrasivo del ma-
terial 1 excede el del material 2 en 2 unidades?

9. Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ra-


tones, todos con una etapa avanzada de la enfermedad. Cinco ratones reciben
el tratamiento y cuatro no. Los tiempos de sobrevivencia en años, a partir del
momento en que comienza el experimento son los siguientes:

Con Tratamiento 2,1 5,3 1,4 4,6 0,9

Sin Tratamiento 1,9 0,5 2,8 3,1

¿Se puede decir en el nivel de significancia del 0,05 que el suero es efectivo?
Suponga que las dos poblaciones se distribuyen normalmente con varianzas
iguales.

10. Los tiempos de respuesta en días de dos procesos de atención al cliente se mues-
tran a continuación:
Proceso A
2,95 3,16 3,12 3,45 3,2 3,22 3,5 3,22 2,98 3,75
3,38 3,45 3,48 3,9 3,7 3,26 3,36 3,34 3,33 3,25
3,18 3,2 3,28 3,35 3,12

Proceso B
3,22 3,3 3,34 3,28 3,29 3,25 3,3 3,27 3,38 3,34
3,35 3,19 3,35 3,05 3,36 3,258 3,3 3,28 3,3 3,3
3,2 3,16 3,33
Probar a un 95% de confianza si hay diferencia entre las varianzas de las dos
muestras.
Tema N° 5: PRUEBAS DE BONDAD, TABLAS DE CONTINGEN-
CIAS

En el desarrollo de esta unidad nos ocupamos de la prueba de hipótesis estadísticas


acerca de parámetros de una población como
; ; p
. Ahora se considera una prueba
para determinar si una población tiene una distribución teórica específica. La prueba
se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las
observaciones en una muestra observada y las frecuencias esperadas que se obtie-
nen a partir de la distribución hipotética. La fórmula que se utilizará para calcular el
valor de chi-cuadrada es igual a la de la sección anterior, con el mismo concepto de
grados de libertad.
1.1. Prueba de Bondad
Requisitos
 Los datos se seleccionan al azar.
 Los datos muestrales consisten en conteos de frecuencias para cada una
de las diferentes categorías
 Para cada categoría la frecuencia esperada es al menos 5
Notación:
O  Frecuencia observada de un resultado

E  Frecuencia esperada de un resultado


k  Número de categorías diferentes o resultados
n  Número total de ensayos
O  E
2

Estadístico de prueba: X 
2

E
Valores críticos:
 Los valores críticos se encuentran en la Tabla A – 4. Utilice:
Grados de libertad: k  1  K: Número de categorías
 Las pruebas de hipótesis de bondad siempre son de cola dere-
cha.

Ejemplo N° 1: Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y
se observó el número de caras de cada serie. El número de series en los que se
presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
N° caras 0 1 2 3 4 5 Total
N° de series (fi) 38 144 342 287 164 25 1 000

Ajustar una distribución binomial a los datos con un   0,05


Solución:
1° H0; Los datos se ajustan a una distribución binomial.
H1; Los datos no se ajustan a una distribución binomial.
Para obtener los valores esperados se tiene que utilizar la fórmula de la distribución
binomial: P  X n Cx .px .qnx , donde n es 5, p y q son las probabilidades respectivas de
cara y sello en un solo lanzamiento de la moneda.
2° Cálculo del valor p en una distribución normal:   pn    5p
Calculo de la media del número de caras de frecuencias observadas:

Es:   X .f1 i
 2, 47  p
 2, 47
  0, 494
n 5 5
 q  1  p  0,506
3° Probabilidad de la distribución Binomial:
P  x  5 Cx  0, 494   0,506 
x 5x

Al seguir esta fórmula se calcula la probabilidad de obtener caras, según el valor de


la variable aleatoria. La probabilidad multiplicada por 1000 nos dará el valor espe-
rado. Se resumen los resultados en la tabla siguiente:

Número de Frecuencia Frecuencia


P(x caras)
caras (x) esperada Observada

0 0,0332 33,2 38

1 0,1619 161,9 144

2 0,3162 316,2 342

3 0,3087 308,7 287

4 0,1507 150,7 164

5 0,0294 29,4 25

4° Para los grados de libertad el valor de m será uno, ya que se tuvo que estimar la
media de la población para poder obtener el valor de P y así poder calcular los va-
lores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4

Figura 52. Región de rechazo unilateral

5° Si: X2  9, 49  No se rechaza H0
X2  9, 49  Se rechaza H0
n

 O 
2
j  Ej
j1
6° Cálculo de X :
2
X2 
Ej
38  33,2 144  161,9 342  316,2  287  307,7  184  150,7   25  29,4 
2 2 2 2 2 2

X2      
33,2 161,9 316,2 307,7 150,7 29,4
X  8,1358  8,14
2

7° Como el 8,14 no es mayor a 9,49, no se rechaza H0 y se concluye con


un   0,05 que el ajuste de los datos a una distribución binomial es bueno.
Ejemplo N° 2: Se propone que el número de defectos en las tarjetas de circuito
impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarje-
tas de circuito impreso y se observa el número de defectos. Los resultados obtenidos
son los siguientes:
N° defectos O 1 2 3 o más
Frecuencia observadas 32 15 9 4

¿Muestran estos datos suficiente evidencia para decir que provienen de una distribu-
ción Poisson?. Haga la prueba de la bondad del ajuste con un   0,05
Solución:
1° H0; La forma de la distribución de los defectos es Poisson.
H1; La forma de la distribución de los defectos no es Poisson.
2° La media de la distribución Poisson propuesta en este ejemplo es desconocida y
debe estimarse a partir de los datos contenidos en la muestra.
30  0   15 1  9  2  4 3
  0,75
60
3° A partir de la distribución Poisson con parámetro 0.75, pueden calcularse las pro-
babilidades asociadas con el valor de x. Esto es la fórmula de la Poisson es:
x .e 0,75x.e0,75
P x  
x! x!
Con esta fórmula se calculan las probabilidades, mismas que se multiplican por 60
para obtener los valores esperados.
Número de Frecuencia Frecuencia
Probabilidad
defectos esperada observada

0 0.472 28.32 32

1 0.354 21.24 15

2 0.133 7.98 9

3 ó más 0.041 2.46 4

Puesto que la frecuencia esperada en la última celda es menor que 3, se combinan


las dos últimas celdas.

Número de Frecuencia Frecuencia


defectos esperada observada

0 28.32 32

1 21.24 15

2 ó más 10.44 13

4° Los grados de libertad serían 3-1-1=1, debido a que la media de la distribución


Poisson fue estimada a partir de los datos.
Figura 53. Región de rechazo

5° Si: X2  3,84 no se rechaza Ho


X2  3,84 se rechaza Ho
n

 O 
2
j  Ej
j1
6° Cálculos de X :
2
X2 
Ej
32  28,32 15  21,24  13  10, 44 
2 2 2

X 2
  
28,32 21,24 10, 44
X2  2,94
7° Como el 2.94 no es mayor a 3.84, no se rechaza H 0 y se concluye con
un   0,05 que la distribución de defectos en las tarjetas de circuito impreso es
Poisson.

1.2. TABLAS DE CONTINGENCIA: También denominada tabla de dos factores, es


aquella tabla de frecuencias correspondientes a dos variables cualitativas, represen-
tadas una variable para categorizar en reglón y la otra para categorizar en columnas.

PRUEBA DE INDEPENDENCIA PRUEBA DE HOMOGENIEDAD


Esta prueba permite medir la significa- Debemos emplear esta prueba cuando
ción de la asociación entre 2 variables tenemos varias muestras y se desea de-
de clasificación o sea entre 2 variables terminar si son homogéneas con rela-
cualitativas. ción a la distribución en las mismas de
una variable cualitativa.
Tema N° 6: PRUEBAS DE INDEPENDENCIA Y HOMOGENEIDAD
6.1. PRUEBA DE INDEPENDENCIA: Esta prueba consiste en poner a prueba la
hipótesis nula de que no existe asociación entre variables del reglón con las de la
columna en una tabla de contingencia.
Requisitos
 Los datos muestrales son seleccionados al azar y se representan como conteos
de frecuencias en una tabla de dos factores.
 La hipótesis nula H0 es la afirmación de que las variables del reglón y columnas
son independientes; la hipótesis alternativa H1 es la afirmación de que las va-
riables son dependientes.
 Para cada celda de la tabla de contingencia, la frecuencia esperada E es menos
que 5.
O  E
2

ESTADISTICO DE PRUEBA: X 
2

E
VALORES CRÍTICOS:
 Para los valores críticos remítase a la Tabla A – 4,
Grados de libertad = (r – 1)(c - 1),
donde: r  Número de renglones
c  Número de columnas
 En una prueba de independencia de una tabla de contingencia, región crítica se
localiza sólo en la cola derecha

Ejemplo N° 1:
1. Una asociación de profesores universitarios quiere determinar si la satisfacción en
el trabajo es independiente del rango académico. Para ello realizó un estudio na-
cional entre los académicos universitarios y encontró los resultados mostrados son
la tabla siguiente. Con   0,05 haga una prueba para saber si son dependientes
la satisfacción en el trabajo y el rango.
Rango

Instruc- Profesor Profesor


Profesor
tor asistente asociado
Satisfac-
ción en el Mucha 40 60 52 63
trabajo
Regular 78 87 82 88

Poca 57 63 66 64

Solución:
1° Ho; La satisfacción en el trabajo y el rango son independientes.
H1; La satisfacción en el trabajo y el rango son dependientes.
2° Grados de libertad: (r-1)(c-1) = (3-1)(4-1)=(2)(3) = 6
3° Si: X2  12,592 no se rechaza Ho
X2  12,592 se rechaza Ho
Figura 54. Región de rechazo

4° Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 6, esto quiere decir que necesitamos calcular únicamente 6 frecuencias
esperadas, y las faltantes se encuentran por diferencia.
5° Se calcularán los valores esperados E11, E12, E13, E21, E22 y E23.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:

Rango

Profe-
Profesor
Instruc- sor
Aso- Profesor Total
tor asis-
ciado
tente
Satisfac-
ción en el
Mucha 40 60 52 63 215
trabajo
Regular 78 87 82 88 335

Poca 57 63 66 64 250

Total 175 210 200 215 800

 
1 t r
Eij  n i  j  
n i1
Oij . Oij
j1

E11 
 215175  47,03 E12 
 215 210  56,44 E13 
 215 200   53,75
800 800 800
E21 
335175  73,28 E  335 210   87,94 E  335 200   83,75
22 23
800 800 800
....
Rango
Profe- Profe-
Satisfac- Instruc- sor sor Profe-
Total
ción tor asis- aso- sor
tente ciado

40 60 52 63
Mucha 215
(47,03) (56,44) (53,75) (57,78)

78 87 82 88
Regular 335
(73,28) (87,94) (83,75) (90,03)

57 63 66 64
Poca 250
(54,69) (65,62) (62,50) (67,19)

Total 175 210 200 215 800

6° Los valores entre paréntesis son los esperados, los que no se calcularon por
fórmula se obtuvieron por diferencia con respecto a los totales.

O 
2
t r  Eij
X   .
2 ij

i1 j1 Eij

 60  47,03  60  56, 44   64  67,19 


2 2 2

X 2
   ... 
47,03 56, 44 67,19
X  2,75
2

7° Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza
Ho y se concluye con un   0,05 que la satisfacción en el trabajo y el rango son
independientes.

6.2 PRUEBA DE HOMOGENEIDAD: Esta prueba permite probar la aseveración


de que poblaciones diferentes tienen las mismas proporciones de algunas caracterís-
ticas.

Ejemplo N° 1: Estamos interesados en estudiar la fiabilidad de cierto componente


informático con relación al distribuidor que nos lo suministra. Para realizar esto, to-
mamos una muestra de 100 componentes de cada uno de los 3 distribuidores que
nos sirven el producto comprobando el número de defectuosos en cada lote. La si-
guiente tabla muestra el número de defectuosos en para cada uno de los distribuido-
res.
Componentes Componentes
defectuosos correctos Total
Distribuidor 1 16 84 100
Distribuidor 2 24 76 100
Distribuidor 3 9 91 100
Total 49 251 300
Solución:
1° Ho; Entre los distribuidores no existen diferencias de fiabilidad referente al
mismos componente.
H1; Entre los distribuidores existen diferencias de fiabilidad referente
al mismos componente.
2° Grados de libertad: (r-1)(c-1) = (3-1)(2-1)=(2)(1) = 2

3° Si: X2  5,991 no se rechaza Ho

X2  5,991 se rechaza Ho
Figura 55. Región de rechazo

4° Se procederá a calcular los valores esperados de cada celda. Como los grados de
libertad son 2, esto quiere decir que necesitamos calcular únicamente 2 frecuencias
esperadas, y las faltantes se encuentran por diferencia.
5° Se calcularán los valores esperados E11, E12, E21, E22, E31 E32.
Como se necesitan los totales de renglón y columna se mostrarán en la tabla:
 
1 t r
Eij  n i  j   ij 
n i1
O .
j1
Oij

E11 
 49100  16,33 E12 
 251100  83,67
300 300
E21 
 49100  16,33 E   251100  83,67
22
300 300
E31 
 49100  16,33 E   251100  83,67
32
300 300
Las frecuencias esperadas bajo homogeneidad son las representadas entre parénte-
sis.
Componentes Componentes
defectuosos correctos Total
Distribuidor 1 16 (16,33) 84 (83,67) 100
Distribuidor 2 24 (16,33) 76 (83,67) 100
Distribuidor 3 9 (16,33) 91 (83,67) 100
Total 49 251 300
6° Los valores entre paréntesis son los esperados, los que no se calcularon por
fórmula se obtuvieron por diferencia con respecto a los totales.

O 
2
t r  Eij
X2   .
ij

i1 j1 Eij

16  16,33  24  16,33 76  83,67  91  83,67 


2 2 2 2

X 2
   ...  
16,33 16,33 83,67 83,67
X2  8,9632
7° Como el valor de 8,9632 es mayor que el de tabla 5,991, por lo tanto debemos
concluir que no existe homogeneidad y por lo tanto que hay diferencias entre los tres
distribuidores a un nivel de significancia del 5%.

ACTIVIDAD N° 6

Instrucción: Resuelva los siguientes ejercicios:

1. Cierto tipo de linterna de mano se vende con las cuatro pilas incluidas. Se obtiene
una muestra aleatoria de 152 linternas. Sea X la variable aleatoria que representa
el número de pilas defectuosas de una linterna seleccionada al azar. De las 150
linternas se determina el número de pilas defectuosas por linterna, resultando los
siguientes datos:

N° DE PILAS DEFECTUOSAS 0 1 2 3 4
FRECUENCIA OBSERVADA 24 54 28 26 10

a) Si la variable aleatoria X sigue una distribución binomial con parámetros


n = 4 y p, obtener el estimador de máxima verosimilitud de p .
b) Pruebe si la variable aleatoria X sigue una distribución binomial con paráme-
tros n = 4 y 𝑝̂ , donde 𝑝̂ es el EMV de p encontrado en el inciso (a). Considere
 = 0.01. ¿Cuál es el valor-p? Interprete.
2. Durante un periodo de semanas, se observó el número semanal de averías de una
máquina y se anotó en la tabla adjunta. Se observó que el número semanal medio
de averías era 2,1. Contraste la hipótesis nula de que la distribución poblacional
del número de averías es de Poisson. Considere  = 0,01. ¿Cuál es el valor-p?
Interprete.

Número de averías 0 1 2 3 4 5 o más


Número de semanas 12 22 33 25 8 5

3. En el hospital materno infantil, el número de nacimientos observados para cada


mes de cierto año es:

Enero 95 Julio 105


Febrero 105 Agosto 110
Marzo 95 Septiembre 105
Abril 105 Octubre 100
Mayo 90 Noviembre 95
Junio 95 Diciembre 100
¿Existe alguna razón para creer que el número de nacimientos no se encuentra
distribuido en forma uniforme durante todos los meses de año?.
Considere  = 0,01.
4. El departamento de control de calidad de una compañía cree que el número de
defectos por unidad de cierto componente sigue una distribución de Poisson con
 = 0,5. En un estudio realizado por el departamento, se pudo construir la si-
guiente tabla de frecuencias:

Número de defectos 0 1 2 3 o más


Frecuencia absoluta 62 24 15 2
¿Existe suficiente evidencia al nivel de significancia del 5%, de que el número
de defectos por unidad efectivamente sigue una distribución de Poisson con
 = 0,5?
5. Diariamente, de lunes a viernes, un inversionista al abrir el mercado, compra las
tres acciones más baratas al precio de apertura del día, con el objetivo de vender-
las al final del día a un precio superior. Si el precio de venta no es superior al de
compra, no vende las acciones el mismo día y las dona a una fundación de niños.
Use los datos mostrados en la tabla siguiente para probar a un nivel de significan-
cia de 5% si el número de acciones vendidas se puede considerar como datos de
una variable aleatoria binomial.

Número de acciones vendidas 0 1 2 3


Frecuencia observada 1 16 55 228

6. Al estudiar si conviene tener o no una sucursal en la ciudad de Tarapoto, la ge-


rencia comercial de Plaza Vea de Lima, establecer el siguiente criterio para tomar
una decisión: Abrir la sucursal si el ingreso promedio familiar mensual en dicha
ciudad es no menor de $500 y no abrirla en caso contrario. Si una muestra alea-
toria de 100 ingresos familiares de esta ciudad ha dado una media de $480.
a) ¿Cuál es la decisión a tomar al nivel de significancia del 5%?
b) ¿Con que probabilidad de error se abriría la sucursal en Tarapoto si el ingreso
promedio realmente es $464?
c) Determine la potencia de la prueba si el ingreso promedio realmente es $464.
7. La fábrica INDECO produce un tipo de conductor eléctrico que tiene una resisten-
cia a la ruptura no mayor de 300 kg. Se descubre un proceso nuevo y más barato
que desea emplearse, siempre que el conductor así producido tenga una resisten-
cia media a la ruptura mayor de 300 kg. Si una muestra aleatoria de 36 conduc-
tores producidos con el nuevo proceso ha dado una media 304,5 kg y una desvia-
ción estándar Ŝ = 15 kg. ¿Debería el fabricante adoptar el nuevo proceso, si está
dispuesto a asumir un error típico I del 5%?. Suponga que la distribución de la
resistencia a la ruptura es:
a) Normal.
b) Desconocida no normal.
8. El Colegio Médico del Perú desean estudiar si la proporción poblacional de pacien-
tes con la enfermedad de Alzheimer es igual para ambos sexos. Para esto, se
decide observar dos muestras aleatorias independientes, una para cada sexo: de
294 hombres y 485 mujeres respectivamente.
a) ¿Se comportará o no la enfermedad de la misma forma en ambos grupos?
Para analizar lo expresado, se decide obtener dos muestras aleatorias inde-
pendientes, una para cada sexo (este es el cambio en la forma de muestrear
las poblaciones), de tamaños 294 y 485 de hombres y mujeres respectiva-
mente. Luego estas muestras se clasifican respecto a, si las personas escogi-
das están enfermas o no, obteniéndose la tabla siguiente:
ENFERMO DE ALZHEIMER
SEXO TOTAL
SI NO
MASCULINO 7 287 294
FEMENINO 33 452 485
TOTAL 40 739 779

b) ¿En qué difiere, la tabla presente de la anterior?.


Glosario de la Unidad II

Hipótesis: Es una aseveración o afirmación acerca de una propiedad de una pobla-


ción.
Prueba de Hipótesis: Es un procedimiento estándar para probar una aseveración
de acerca una propiedad de una población.

Hipótesis nula: ( Ho ) Afirmación de que el valor de un parámetro de población es


igual a un valor aseverado.

Hipótesis alterna: ( H1 ) Afirmación de que el parámetro tiene un valor diferente a


la hipótesis nula.
Región crítica: Conjunto de valores del estadístico de prueba que pueden provocar
que rechacemos la hipótesis.
Nivel de significancia: Es la probabilidad de que el estadístico de prueba caiga en
la región crítica, cuando la hipótesis nula es verdadera.
Valor crítico: Es cualquier valor que separa la región crítica de los valores estadís-
ticos de prueba que no conducen al rechazo de la hipótesis nula.
Valor P: Es la probabilidad de obtener un valor del estadístico de prueba que sea al
menos tan extremos como el que representa a los datos muestrales, suponiendo que
la hipótesis nula es verdadera.
Error de tipo I: ( ) El error de rechazar la hipótesis nula cuando en realidad es
verdadera. También se le conoce como el nivel de significancia.
Error de tipo II: (  ) El error de no rechazar la hipótesis nula cuando en realidad
es falsa.
Prueba de hipótesis bilaterales: Esta prueba se determina cuando la hipótesis
alterna es diferente, donde la región crítica separa en dos partes (dos colas) con la
misma probabilidad en cada una (  / 2 ).

Prueba de hipótesis unilaterales: Esta prueba se determina cuando la hipótesis


alterna genera una desigualdad. Esta puede ser:
 Cuando la hipótesis alterna es menor genera que la región critica se ubica en la
izquierda (cola a la izquierda) con una probabilidad de . 
 Cuando la hipótesis alterna es mayor genera que la región critica se ubica en la
derecha (cola a la derecha) con una probabilidad de 
.
Prueba de hipótesis para una o dos muestras: Esta es una o más pruebas rela-
cionadas a una o dos muestras en estudio. Están referidas de acuerdo al estimador
que se cuentan para poder determinar si es validad o no la prueba. Estas son: Sobre
una proporción poblacional; respecto a la media, con  conocida o desconocida y
respecto a varianzas.
Prueba de bondad o ajuste: Esta prueba se basa en qué tan buen ajuste se tiene
entre la frecuencia de ocurrencia de las observaciones en una muestra observada y
las frecuencias esperadas que se obtienen a partir de una distribución hipotética.
Tablas de contingencia: También denominadas de dos factores. Es aquella tabla
de frecuencias correspondiente a dos variables cualitativas, representadas una va-
riable para categorizar en reglón y la otra para categorizar en columnas. Esta tabla
permite determinar las pruebas de independencia y homogeneidad.
Prueba de independencia: Esta prueba consiste en poner a prueba la hipótesis
nula de que no existe asociación entre variables del reglón con las de la columna en
una tabla de contingencia.
Prueba de homogeneidad: Esta prueba consiste en poner la aseveración de que
poblaciones diferentes tienen las mismas proporciones de algunas características.

BIBLIOGRAFÍA DE LA UNIDAD I

Montgomery, D. (2013). Applied Statistics and Probability for engineers. (6°ed.).


EEUU: Willey.
Triola, M.F. (2009). Estadística. (10° ed.). México: Editorial: Pearson Educación
Devore, J.L. (1998). Probabilidades y estadística para ingeniería y ciencias. (4° ed.).
México:Editorial: International Thomson
Autoevaluación N°2
Instrucciones:
 El examen tiene una duración de 70 minutos.
 El procedimiento y respuesta (fundamentación) se tomará en cuenta para la
calificación.
 Utilice calculadora
1. Complete los valores de la tabla:
Niveles de con- Valor crítico de Valor crítico de
α
fianza zα/2 zα
96% 0,04
88% 1,555
92% 0,08 1,405
2. El fabricante de llantas de camiones radial X-15 con cinturón de acero, afirma que
el kilometraje medio del neumático en estado útil, es 60 000 km. Se conoce que
σ=4000 km. Una empresa camionera compró 48 llantas y halló que la duración
media fue de 61 500 kilómetros. ¿Difiere la experiencia de esta empresa de lo que
afirma el fabricante de las llantas? Use un nivel de significación 0,05. Fundamente
su conclusión y grafique.
3. Dadas las hipótesis siguientes: H0: µ≤10,40 y H1:µ>10,40 En una muestra alea-
toria de 11 observaciones, la media es de 12,51 y la desviación estándar es 2,70.
Usando el nivel de significancia 0,01 ¿cuál es su decisión respecto a la hipótesis
nula? Fundamente su respuesta.
4. En una muestra de 120 mujeres se encuentra una proporción del 12,5% de des-
aprobados en el curso de Estadística aplicada, mientras que entre los 160 varones
que componen la otra parte de la muestra, el porcentaje es del 15%. ¿Se puede
aseverar que la proporción de varones que han desaprobado Estadística aplicada
es mayor que la proporción de mujeres, para α=0,05?
5. Para determinar la conciencia pública y la preocupación por la contaminación am-
biental, se entrevistó a una muestra de ciudadanos de dos distritos de Huancayo.
La pregunta fue: ¿es la contaminación ambiental una preocupación en su distrito?
Determine mediante una prueba de hipótesis si la preocupación por la contamina-
ción ambiental es homogénea o no en los dos distritos, para un nivel de significa-
ción 0,025

Respuesta
No Si Duda No sabe
El Tambo 2 31 2 5
Chilca 11 20 7 2
ANEXOS
Respuestas de la Autoevaluación n°1
Pregunta 1:
a) F, ya que en el estudio prospectivo se realizan proyecciones a futuro.
b) V
c) V
d) F, ya que en el estudio a ciegas el sujeto no sabe que está recibiendo el trata-
miento.
Pregunta 2:
a) Intervalo de selección: N/n=72/18=4
Elemento de arranque: 4
La muestra de los contratos está conformada por: 4; 8; 12; 16; 20; 24; 28; 32;
36; 40; 44; 48; 52; 56; 60; 62; 64 y 72. En la tabla sería los datos sombreados
Nº Monto Nº Monto Nº Monto Nº Monto
1 147,81 19 43,67 37 93,48 55 734,42
2 470,71 20 229,34 38 65,17 56 346,76
3 148,67 21 559,37 39 170,42 57 466,77
4 106,92 22 88,31 40 271,94 58 166,80
5 138,02 23 900,30 41 966,28 59 884,39
6 94,24 24 411,51 42 680,30 60 391,47
7 268,45 25 564,60 43 208,44 61 404,08
8 256,22 26 367,07 44 98,11 62 238,89
9 120,61 27 240,56 45 533,82 63 950,45
10 673,09 28 400,60 46 261,33 64 560,70
11 157,39 29 152,72 47 749,13 65 188,50
12 340,23 30 181,59 48 350,76 66 500,40
13 581,64 31 256,22 49 345,23 67 420,00
14 284,56 32 113,61 50 783,45 68 666,40
15 440,48 33 202,50 51 450,32 69 980,15
16 564,87 34 445,52 52 130,00 70 80,18
17 240,06 35 45,17 53 90,25 71 115,19
18 586,81 36 202,50 54 250,40 72 250,20

b) Tenemos los datos: n=18; g.l.=18-1=17; 1-α=99%; tα/2=2,898


Con la calculadora: Media=316,23 y s=165,62
El error: E=113,13 dólares
El intervalo: 316,23-113,13<µ<316,23 + 113,13
203,10<µ<429,36
Conclusión: Es probable que la media poblacional de las utilidades de la empresa
se encuentren entre 203,10 y 429,36 dólares, para un 99% de nivel de confianza.
Pregunta 3: Los datos n=18; 1-α=95%; s=165,62 dólares; g.l.=17
De la tabla se obtiene: 𝑋𝐼2 = 7,564 y 𝑋𝐷2 = 30,191
Reemplazando en la fórmula:
17(165,62)2 17(165,62)2
< 𝜎2 <
30,191 7,564
Entonces: 15 445,32<σ<61 648,56
Conclusión: Es razonable concluir que la varianza poblacional de las utilidades obte-
nidas por la empresa se encuentra entre 15 445,32 y 61 648, 56 dólares2,afirmación
que se hace para un 95% de nivel de confianza.
Pregunta 4:
4
a) Los datos n=25; p̂ = = 0,40; q̂ = 0,60; 1-α=94%; zα/2=1,885
10
(0,40)(0,60)
Error: 𝐸 = 1,885√ = 0,18469≈ 0,18, entonces: E=0,18
25

El intervalo de confianza: 0,40-0,18<p<0,40+0,18


0,22<p<0,58
Conclusión: el 94% de muestras tamaño 25, la proporción de familias que po-
seen celular de última generación se encuentra en el intervalo de 0,22 y 0,58.
b) El estima puntual es p=0,40, es decir el 40% de las familias poseen un celular
de última generación.
Pregunta 5:
Con la calculadora de obtienen los datos:
Taxis: Media1=8,62; varianza1=2,84; n1=8; g.l.=7
Automóviles: Media2=6,12; varianza2=4,98; n2=8; g.l.=7
tα/2=2,365
El error:
2,84 4,98
𝐸 = 2,365 √ + = 2,34
8 8
E=2,34 años
El intervalo: (8,62-6,12)-2,34<µ1-µ2<(8,62-6,12)+2,34
0,16<µ2-µ1<4,84
Conclusión: La diferencia de las medias poblacionales de la antigüedad de los vehícu-
los se ubica en el intervalo de 0,16 a 4,84 años, aseveración que se hace para un
95% de nivel de confianza.
Respuestas de la Autoevaluación n°2
Pregunta 1: Completando los valores en la tabla se tiene:
Niveles de con- Valor crítico de Valor crítico de
α
fianza zα/2 zα
96% 0,04 2,055 1,755
88% 0,12 1,555 1,175
92% 0,08 1,755 1,405
Pregunta 2:
Paso 1: Formulación de H0 y H1
H0: µ=60 000 kilómetros
H1: µ≠60 000 kilómetros
Paso 2: Nivel de significancia α=0,05
Paso 3: Distribución z, ya que es una muestra grande.
Paso 4: Se rechaza H0 si: zc<-zα/2 ó zc>zα/2
Paso 5: Media=61 500 km; σ=4 000; n=48; zα/2 = 1,96
61 500 − 60 000
𝑧𝑐 = = 2,60
4000
√48

2,60<-1,96 ó 2,60>1,96 ….. (V)


Paso 6: Se rechaza H0 para un 95% de nivel de confianza, por lo tanto se asevera
que la experiencia de la empresa que compró y utilizó los neumáticos difiere de la
afirmación del fabricante.
Pregunta 3:
Paso 1: Formulación de H0 y H1
H0: µ≤10,40
H1: µ>10,40
Paso 2: Nivel de significancia α=0,01
Paso 3: Prueba t de student para una media.
Paso 4: Se rechaza H0 si: tc>tα
Paso 5: Media=12,51; s=2,70; n=11; g.l.= 11-1=10; tα = 2,764
12,51 − 10,40
𝑡𝑐 = = 2,592
2,70
√11
Se rechaza H0 si: 2,592>2,764 ……….. (F)
Paso 6: Para un 99% de confianza no es posible rechazar H0, por lo tanto se asevera
que la media poblacional es menor o igual a 10,40.
Pregunta 4:
Paso 1: Formulación de H0 y H1
H0: Proporción de varones que desaprueban Estadística aplicada es menor o igual
que la proporción de estudiantes mujeres (H0: pv≤pm)
H1: Proporción de varones que desaprueban Estadística aplicada es mayor que la
proporción de estudiantes mujeres (H1: pv>pm)
Paso 2: Nivel de significancia α=0,05
Paso 3: Prueba para dos proporciones.
Paso 4: Se rechaza H0 si: zc>zα; donde zα = 1,645
Paso 5: Varones nv=160; p̂v=0,15; xv=24
Mujeres nm=120; p̂m=0,125; xm=15

24+15
𝑝̅ = = 0,14 ; 𝑞̅ = 0,86
160+120
En la fórmula:
(0,15 − 0,125) − 0
𝑧𝑐 = = 0,597
√(0,14)(0,86) + (0,14)(0,86)
160 120

0,597>1,645 ….. (F)


Paso 6: No es posible rechazar H0 para un 95% de nivel de confianza, por lo tanto
se asevera que la proporción de varones que desaprueban Estadística aplicada es
menor o igual que la proporción de estudiantes mujeres.
Pregunta 5:
Paso 1: Formulación de H0 y H1
H0: La preocupación por la contaminación ambiental no difiere según distrito.
H1: La preocupación por la contaminación ambiental difiere según distrito.
Paso 2: Nivel de significancia α=0,025
Paso 3: Prueba Chi cuadrada de homogeneidad.
Paso 4: Se rechaza H0 si: 𝑋𝑐2 >𝑋𝛼2 ; donde 𝑋𝛼2 = 9,348; g.l.=(2-1)(4-1)=3
Paso 5: Se halla los valores esperados en la tabla:

Respuesta
Total
No Si Duda No sabe
El Tambo 2/ 6,5 31/ 25,5 2/ 4,5 5/ 3,5 40
Chilca 11/ 6,5 20/ 25,5 7/ 4,5 2/ 3,5 40
Total 13 51 9 7 80

Se halla el valor Chi cuadrado calculado: 𝑋𝑐2 = 12,667


Se rechaza H0 si: 12,667>9,348 …….... (V)
Paso 6: Para un 97,5% de nivel de confianza se rechaza H0, por lo tanto se asevera
que la preocupación por la contaminación ambiental difiere según distrito donde re-
siden los encuestados.
Respuestas de la Autoevaluación n°3

Pregunta 1: a) rs=0,964;
a) El diagrama de dispersión presenta una nube de puntos con pen-
diente positiva.
b) Se rechaza H0, ya que 0,964>0,893
Conclusión: Para un 98% de nivel de confianza se rechaza H0, por lo
que se asevera que existe una correlación significativa entre el nú-
mero de anuncios y las ventas generadas.
Pregunta 2: Con la calculadora se obtienen los datos:
a) Ecuación: 𝑦̂ = 16,2 − 0,36𝑥
b) El mejor puntaje predicho: 𝑦̂ = 13,32
c) r=-0,87: Existe una correlación negativa alta.
r2=75,36%: La variación del promedio se explica por la variación
de las inasistencias.
El diagrama es una nube de puntos con pendiente negativa.
Pregunta 3: a) El índice estimado de satisfacción es: y´=497,736
b) Para un ingreso adicional de 10 000 soles: y´=525,736
Para dos actividades sociales más: y´=551,336
Proporciona más satisfacción dos actividades sociales más por se-
mana.
Pregunta 4: Los modelos matemáticos son:
Modelo lineal Modelo logarítmico
A=-19,67 A=-10,42
B=14 B=36,25
Modelo: y=-19,67-14x Modelo: y=-10,42+36,25lnx
r= 0,9789 r= 0,8978
r2=0,9583≈95,83% r2=0,8061≈80,61%

Modelo potencial Modelo exponencial


A=1,15 A=0,95
B=2,36 B=2,21
Modelo: y=1,15x2,36 Modelo: y=0,95(2,21)x
r= 0,9970 r= 0,9468
r2=0,9941≈99,41% r2=0,8965≈89,65%
Se observa que el mejor modelo es el modelo potencia ya que presenta el mayor
coeficiente de determinación (r2=99,41%).
Pregunta 5: Se realizan los cálculos como se indica a continuación:

Promedio móvil
Año Ventas Total móvil 3 años
de 3 años
1 202
2 204 202+204+163=569 569/3=189,67
3 163 204+163+161=528 528/3=176
4 161 163+161+146=470 470/3=156,67
5 146 161+146+184=491 491/3=163,67
6 184 146+184+170=500 500/3=166,67
7 170
El gráfico es:
250

200

150

100

50

0
2010 2011 2012 2013 2014 2015 2016

Ventas Promedio móvil

Respuestas de la Autoevaluación n°4


Pregunta 1: Se completa la tabla ANOVA:

Fuente de variación SC g.l. Cuadrados medios


Entre grupos 17,73 2 17,73/2=8,86
Dentro de grupos 36 12 36/12=3
Total 53,73

No es posible rechazar la hipótesis nula (H0) para 2 y 12 grados de li-


bertad, ya que no se cumple que: Fc > Fα
2,9533>3,8853….. (F)
Conclusión: Para un 95% de nivel de confianza no se rechaza H 0, por lo
que se asevera que no existe diferencia significativa en el contenido de
azúcar.
Pregunta 2:
 Para los tratamientos (Columnas)
Para las columnas tenemos:
Distancia (km)
Tipo de gasolina Auto Auto Auto (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2
1 2 3
Regular 36,0 33,5 34,6 18,06 2,96 19,29
Súper regular 27,4 31,2 33,3 18,92 0,34 49,19
Sin plomo 30,9 32,5 34,1 0,72 0,52 46,67
Premium sin plomo 32,7 29,9 32,8 0,90 3,53 14,56
Medias 31,75 31,78 33,70 38,61 7,35 129,71
Media total=32,41 SCD=175,66

Donde: Media total= (31,75+31,78+33,70)/3=32,41


SCD=38,61+7,35+129,71=175,66
SCE=4(31,75-32,41)2+4(31,78-32,41)2+4(33,70-32,41)2 = 9,99
En la tabla ANOVA para los tratamientos:
Suma de Cuadrados me-
Fuente de variación g.l.
cuadrados dios
Entre grupos SCE=9,99 3-1=2 9,99/2=5,00
Dentro de los grupos SCD=175,66 12-3=9
Total SCtotal=185,65 11

 Para los bloques (Filas)


Completamos la tabla para el bloque tipo de gasolina:
Distancia (km)
Tipo de gasolina Auto Auto Auto Medias Media total
1 2 3
Regular 36,0 33,5 34,6 34,70
Bloques

Súper regular 27,4 31,2 33,3 30,63


32,41
Sin plomo 30,9 32,5 34,1 32,50
Premium sin plomo 32,7 29,9 32,8 31,80

Hallamos la suma de cuadrados entre bloques (SCEB):


SCB=3(34,70-32,41)2+3(30,63-32,41)2+3(32,50-32,41)2+3(31,80-32,41)2
SCB=26,38
En base a los datos de la tabla ANOVA anterior tenemos:
Fuente de Suma de Cuadrados me-
g.l.
variación cuadrados dios
Tratamientos Distancia SCT= 9,99 3-1= 2 9,99/2=5,00
Bloques Tipo gasolina SCB= 26,38 4-1= 3 26,38/3=8,79
Error SCR= 149,28 2x3=6 149,28/6=24,88
Total SCtotal=185,65 n-1=11

Formulación de H0 y H1 para las columnas:


H0: Las medias de las distancias según los autos son iguales.
H1: Las medias de las distancias según los autos no son iguales.

5,00
Luego: 𝐹𝑐 = = 0,2010
24,88

Se rechaza H0 si Fc > F(2; 6)


0,2010>7,2599 ………... (F)
No es posible rechazar H0 para un 97,5% de confianza, se asevera que las
medias de las distancias en los tres autos son iguales, es decir no hay diferen-
cias.
Formulación de H0 y H1 para las filas:
H0: Las medias de las velocidades según los tipos de gasolina son iguales.
H1: Las medias de las velocidades según los tipos de gasolina no son iguales.

8,79
Luego: Fc = = 0,3533
24,88

Se rechaza H0 si Fc > F(3; 6)


0,3533>6,5988 ………... (F)
No se rechaza H0 para un 97,5% de confianza, es decir se asevera que las
medias de las velocidades según los tipos de gasolina son iguales.
Conclusión: Finalmente se asevera que no hay diferencia en las velocidades
entre los autos ni según los tipos de gasolina que utilizan dichos autos, para un
97,5% de nivel de confianza.
Pregunta 3: Completando la tabla tenemos:

Pieza de
Hora muestra Media Rango
1 2 3 4
9:00 51 50 20 40 40,25 31
10:00 47 45 30 41 40,75 17
11:00 46 42 30 37 38,75 16
12:00 44 25 38 41 37,00 19
Media 39,19 20,75

Luego: x̅ = 39,19 y R
̅ = 20,75, de la tabla se tiene que A2=0,729 para subgrupos de
tamaño 4
Las fórmulas: Límite de control superior: LCS = x̿ + A2 R
̅

Límite de control inferior: LCI = x̿ − A2 R


̅

LCS=39,19+0,729(20,75)=54,32
LCI=39,19-0,729(20,75)=24,06
Conclusión: Las medias de los diámetros exteriores se encuentran dentro de los lí-
mites de control.
Las fórmulas: Límite de control superior: LCS=D 4R
̅
Límite de control inferior: LCI=D3R
̅

De la tabla se obtiene que D3=0,000 y D4=2,282


LCS=2,282(20,75)=47,35
LCI=0,000(20,75)=0,00
Conclusión: Las medias de las amplitudes de variación de los diámetros exteriores se
encuentran dentro de los límites de control.
Pregunta 4: Se tiene la tabla:
No inspeccio- Proporción de
Día Defectuosos
nado defectos
1 10 3 3/10=0,30
2 10 2 2/10=0,20
3 10 1 0,10
4 10 3 0,30
5 10 2 0,20
6 10 2 0,20
7 10 8 0,80
8 10 2 0,20
9 10 0 0,00
Total 90 23
23
La línea central: p̅ = = 0,26 y q̅ = 0,74
90

Límites de control:
̅ .q
p ̅ (0,26)(0,74)
Límite de control superior: p̅ + 3√ = 0,26 + 3√ = 0,68
n 10

̅ .q
p ̅ (0,26)(0,74)
Límite de control inferior: p̅ − 3√ = 0,26 − 3√ = −0,16 ~0,00
n 10

Noo hay proporción negativa.


Conclusión:
 Como la proporción de defectos no se encuentran entre los límites 0,0000 y 0,68,
se dice que el proceso no está bajo control.
 Se observa que la producción del día 7 está fuera de control estadístico, debido
a que la proporción de armazones defectuosos (0,80) se encuentra fuera del
límite superior de control, por lo que se sugiere identificar las causas del hecho
a fin de mejorar el proceso de fabricación.
UNIDAD III: ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL Y
SERIES DE TIEMPO

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD III

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad III: Interpretar pronósticos utilizando el
análisis de correlación, regresión y modelos de series de tiempo.
CONOCIMIENTOS HABILIDADES ACTITUDES
Tema N° 1: Análisis de correla-
1. Valora de
ción 1. Identifica la correlación
utilidad de la
1. Variable dependiente. entre variables.
estadística
2. Variable independiente 2. Realiza prueba de hipóte-
en la toma
3. Prueba de hipótesis de correlación. sis de una correlación de
de decisio-
Tema N° 2: Construcción del mo- variables
nes.
delo lineal de regresión 3. Construye modelos linea-
1. Ecuación de regresión. les de regresión y estima 2. Demuestra
2. Intervalo de predicción para una y el mejor valor predicho interés por
individual. 4. Analiza el coeficiente conocer la
Lectura seleccionada n°1 múltiple de determina- relación en-
Tema N° 3: Regresión múltiple. ción en una regresión tre variables
Análisis de mullticolinealidad múltiple. estadísticas.
1. Matriz de correlación. 5. Valida modelos matemá-
3. Demuestra
2. Coeficiente múltiple de determina- ticos aplicando las reglas.
sentido crí-
ción 6. Identifica los componen-
tico al elegir
3. Coeficiente múltiple de determina- tes de las series de
un modelo
ción ajustado. tiempo.
matemático
Tema N° 4: Validación de modelos 7. Aplica los métodos más
que explica
1. Modelo matemático. convenientes de suavi-
el comporta-
2. Reglas básicas para la creación de zamiento de series de
miento de
un buen modelo. tiempo.
las variables.
Tema N° 5: Modelos de series de
Actividad N°1
tiempo 4. Resuelve si-
1. Componentes de las series de Los estudiantes Participan tuaciones
tiempo. en el Foro de discusión so- problemas
2. Modelo aditivo bre ¿Cuáles son las carac- vinculado a
3. Modelo multiplicativo terísticas y etapas de la in- la aplicación
4. Análisis de tendencia vestigación correlacional? de los méto-
5. Métodos de suavizamiento de la dos de sua-
serie vizamiento.
6. Promedio móvil
7. Promedio móviles ponderados
8. Suavizamiento exponencial
Autoevaluación de la Unidad III
TEMA N° 1: ANÁLISIS DE CORRELACIÓN
En este capítulo se estudiará la relación existente entre dos o más variables, y se
formulará una ecuación que permita calcular una variable basada en otra variable,
por ejemplo:
¿Existe relación entre lo que una empresa invierte en publicidad y sus ventas?
¿Existe relación entre el consumo de electricidad y el número de personas que
habitan en la vivienda? ¿Existe una relación entre el tiempo de servicios de los
empleados y la productividad? Observe que en cada caso presentado hay dos va-
riables, como en el primero: inversión en publicidad y ventas realizadas en la em-
presa.
1. ANÁLISIS DE CORRELACIÓN
El análisis de correlación es el estudio de la relación entre dos variables. Según Lind,
Marchal y Mason (2004) el análisis de correlación es un conjunto de técnicas esta-
dísticas empleado para medir la intensidad de la asociación entre dos variables.
Es decir, la finalidad es evaluar que tan intensa es la relación entre dos variables,
para lo cual es muy conveniente observar, primeramente, el diagrama de dispersión
de los datos, y así establecer de qué manera se da la relación.

Ejemplos de diagramas de dispersión

Figura 56. Correlación positiva muy alta (r=0,92) Correlación negativa moderada
(r=-0,54)

Variable dependiente (y): es la variable que se predice o calcula.


Variable independiente (x): Es la variable que proporciona las bases para el
cálculo. Es la variable que permite predecir.
Al coeficiente de correlación de Pearson también se le conoce como la correlación
producto momento.
1.1. Propiedades:
a) El valor de r siempre está entre -1 y 1, inclusive, es decir es un valor del intervalo:
-1≤r≤+1.
b) El valor del coeficiente de correlación no cambia si todos los valores de cualquiera
de las variables se convierten a una escala diferente.
c) El coeficiente de correlación mide la fuerza de una relación lineal.
La siguiente tabla es una herramienta valiosa para interpretar el coeficiente de co-
rrelación entre dos variables:
Tabla para la interpretación del coeficiente correlación
Valor Significado
-1 Correlación negativa perfecta
-0,90 a -0,99 Correlación negativa muy alta
-0,70 a -0,89 Correlación negativa alta Relación inversa
-0,40 a -0,69 Correlación negativa moderada entre las variables
-0,20 a -0,39 Correlación negativa baja
-0,01 a -0,19 Correlación negativa muy baja
0 Correlación nula
0,01 a 0,19 Correlación positiva muy baja
0,20 a 0,39 Correlación positiva baja
0,40 a 0,69 Correlación positiva moderada Relación directa
0,70 a 0,89 Correlación positiva alta entre las variables
0,90 a 0,99 Correlación positiva muy alta
1 Correlación positiva perfecta

Nota: Un error muy frecuente es concluir que la correlación im-


plica causalidad.

1.2. Prueba de hipótesis de correlación


Cuando se prueban hipótesis o cuando se hacen inferencias sobre una correlación,
se deben cumplir las siguientes condiciones:
 La muestra de datos apareados (x; y) es una muestra aleatoria de datos cuanti-
tativos.
 El diagrama de dispersión debe confirmar que los puntos se aproximan al patrón
de una línea recta.
 Es conveniente eliminar los valores extremos, si existieran, ya que es muy pro-
bable que es producto de algún error.
En la prueba de hipótesis se formulan las siguientes hipótesis:

H0: ρ=0 (No existe una correlación lineal entre las variables)

H0: ρ≠0 (Existe una correlación lineal entre las variables)


1.3. El estadístico de prueba es la t de Student, para n-2 grados de libertad:

r √n − 2
t=
√1 − r 2

Conclusión: Si │t│> tα/2 (valor crítico de la tabla A-3), rechace H0 y concluya que
existe una correlación lineal. Si │t│≤ tα/2, no rechace H0 y concluya que no hay
evidencia suficiente para afirmar que existe una correlación lineal.
Ejemplo 1: La tabla presenta el peso y la presión sanguínea de una muestra aleatoria
de 7 universitarios.
a) Halle e interprete el coeficiente de correlación de Pearson y grafique el diagrama
de dispersión.
b) Halle e interprete el coeficiente de determinación.
c) Realice la prueba de significancia para α=0,02.
Peso (kg) 99 78 83 111 75 107 95
Presión sanguínea (mm Hg) 170 130 138 180 160 150 100
Solución
a) Coeficiente de correlación de Pearson:
Sujetos Peso (x) Presión (y) x2 y2 xy
1 99 170 9 801 28 900 16 830
2 78 130 6 084 16 900 10 140
3 83 138 6 889 19 044 11 454
4 111 180 12 321 32 400 19 980
5 75 160 5 625 25 600 12 000
6 107 150 11 449 22 500 16 050
7 95 100 9 025 10 000 9 500
Total 648 1028 61 194 155 344 95 954

n(∑ xy) − (∑ x)(∑ y)


En la fórmula: r=
√[n(∑ x 2 ) − (∑ x)2 ][n(∑ y 2 ) − (∑ y)2 ]

7(95 954) − (648)(1 028)


r=
√[7(61 194) − (648)2 ][7(155 344) − (1028)2 ]
r = 0,34
El coeficiente de correlación indica que entre el peso y la presión sanguínea de los 7
universitarios existe una correlación positiva baja.

Figura 57. Correlación positiva baja (r=0,34) entre


el peso y la presión sanguínea de los estudiantes

b) El coeficiente de determinación: cd= r2, entonces: cd= (0,34)2= 0,1156≈11,56%


Interpretación: Existe una baja asociación entre las variables. La variación de
cerca del 11,56% de las presiones sanguíneas se explica por la variación de los
pesos de los 7 universitarios.
c) Prueba de hipótesis:

Paso 1: Formulación de H0 y H1
H0: No existe una correlación significativa entre el peso y la presión san-
guínea.
H1: Si existe una correlación significativa entre el peso y la presión san-
guínea.
Paso 2: Nivel de significancia α=0,02
Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.
Paso 4: Para los grados de libertad: g.l.=7-2=5; α=0,02 se tiene en la tabla A-3:
tα/2=3,365

Paso 5: Hallamos el valor de la t de Student calculado (tc)


0,34 √7 − 2
t𝑐 = = 0,808
√1 − (0,34)2

Regla de decisión: Se rechaza H0 si ocurre que │0,808│>3,365 ….. (F)

Paso 6: Para un 98% de nivel de confianza no es posible rechazar H 0, por lo que


se asevera que no existe una correlación significativa entre el peso y la presión
sanguínea de los 7 universitarios que participan en la investigación.

Ejemplo2: Una universitaria se entrena para obtener su licencia de conducir repi-


tiendo un test de 40 preguntas. En el diagrama de dispersión se describen el número
de errores que corresponden a los intentos realizados. Luego de realizar los cálculos
se obtuvo el coeficiente de correlación de Pearson: r=-0,85.

Figura 58. Diagrama de dispersión de datos del problema


a) Elabore la tabla con sus respectivos valores
b) Interprete el coeficiente de correlación.
c) Halle e interprete el coeficiente de determinación
d) Realice la prueba de significancia para α=0,05.
Solución
a) Del diagrama de dispersión se obtiene la tabla:

Cantidad de intentos 1 2 3 4 5 6 7 8
Cantidad de errores 14 9 8 10 8 7 5 6
b) El coeficiente de correlación r=-0,85 indica que entre el número de intentos y los
errores cometidos por la señorita existe una correlación negativa alta, lo que indica
que a más intentos en resolver el test de 40 preguntas menos errores se cometen.
c) El coeficiente de determinación: cd= r2, luego cd= (-0,85)2= 0,7225≈72,25%
Existe una alta asociación negativa entre las variables. La variación de cerca del
72,25% del número de errores cometidos se explica por la variación del número
de intentos realizados.

d) Prueba de significancia o prueba de hipótesis:

Paso 1: Formulación de H0 y H1
H0: No existe una correlación significativa entre el número de intentos y la can-
tidad de errores cometidos.
H1: Existe una correlación significativa entre el número de intentos y la cantidad
de errores cometidos.
Paso 2: Nivel de significancia α=0,05
Paso 3: Se utiliza la prueba t de Student para la correlación de Pearson.
Paso 4: Para los grados de libertad: g.l.=8-2=6; α=0,05 se tiene en la tabla A-3:
tα/2=2,447

Paso 5: Hallamos el valor de la t de Student calculado (tc)


−0,85 √8 − 2
t𝑐 = = −3,952
√1 − (−0,85)2

Regla de decisión: Se rechaza H0 si ocurre que │-3,952│>2,447 ….. (V)


Paso 6: Para un 95% de nivel de confianza se rechaza H0, por lo tanto se asevera
que existe una correlación significativa entre el entre el número de inten-
tos y la cantidad de errores cometidos.

ACTIVIDAD N° 1
1. En base a la tabla para la interpretación del coeficiente de correlación, determine
el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) Si el coeficiente de correlación entre dos variables es r=-0,195 en- ( )


tonces se dice que las variables se correlacionan de manera negativa
baja.
b) La correlación entre dos variables implica que causalidad. ( )
c) Si ocurre que 0<r≤1, se afirma que las variables se relacionan de ( )
manera directa.
d) Si r=0,005 entonces se afirma que las variables no están relaciona- ( )
das
e) Si r=0,90 entonces se afirma que las variables se correlacionan de ( )
manera positiva moderada.
2. Subraye la respuesta correcta:
a) La relación entre la inversión que hace una empresa en publicidad y sus pos-
teriores ventas es:
Directa
Inversa
No hay relación entre las variables.
b) La relación entre el número de inasistencias al trabajo y el sueldo mensual que
perciben los empleados de una empresa es:
Directa
Inversa
No hay relación entre las variables.
c) La relación entre la estatura de los estudiantes y el promedio final obtenido en
estadística es:
Directa
Inversa
No hay relación entre las variables.
3. Una empresa comercial tiene 20 tiendas en todo el país dedicadas a la venta de
equipos de cómputo. El gerente de ventas ha planeado lanzar un anuncio publici-
tario por televisión en algunos canales, al menos dos veces antes de realizar la
campaña gigante de ventas, que empezó el sábado y terminó el domingo en las
diversas tiendas. Luego de la campaña, realiza una investigación con el objetivo
de determinar si existe alguna relación entre el número de veces que se transmitió
el anuncio publicitario y las ventas realizadas en cinco de sus tiendas, las que se
eligieron de manera aleatoria. Los pares de datos se muestran en la tabla.

Tienda No de anuncios en TV No Ventas


1 3 17
2 6 25
3 5 19
4 2 9
5 4 16
a) Halle e interprete el coeficiente de correlación de Pearson.
b) Elabore el diagrama de dispersión.
c) Calcule e interprete el coeficiente de determinación (Cd).
d) Realice la prueba de significancia para α=0,05
4. Un municipio está considerando aumentar el número de agentes de serenazgo, en
un esfuerzo por reducir la cantidad de delitos. Antes de tomar una decisión final,
el alcalde pide al Jefe de serenazgo realice una encuesta en otras ciudades de
similar tamaño de habitantes, a fin de determinar la relación entre el número de
agentes y la cantidad de delitos reportados. El funcionario recopiló la información
que se muestra en la tabla.

No de agentes No de delitos
15 17
17 13
25 5
27 7
17 7
12 21
11 19
22 6
a) Halle e interprete el coeficiente de correlación de Pearson.
b) Trace el diagrama de dispersión.
c) Calcule e interprete el coeficiente de determinación (Cd).
d) Realice la prueba de significancia para α=0,01.
TEMA N° 2: CONSTRUCCIÓN DEL MODELO LINEAL DE REGRE-
SIÓN
En la primera parte de esta unidad se explicó los procedimientos estadísticos para
determinar la intensidad y la dirección de la relación que existe entre dos variables
cuantitativas. En esta segunda parte se determinará una ecuación para expresar para
expresar la relación lineal entre dos variables cuantitativas, por lo que se desea es-
timar el valor de la variable dependiente y, en base a un valor de la variable inde-
pendiente x. A esta técnica que sirve para desarrollar la ecuación y dar las estima-
ciones se conoce como análisis de regresión.
1. Ecuación de regresión: Es una ecuación que define la relación lineal entre dos
variables.
La ecuación: 𝑦̂ = 𝑏0 + 𝑏1 𝑥
describe algebraicamente la relación entre las dos variables. La gráfica de la ecuación
de regresión se denomina recta de regresión, recta del mejor ajuste o recta de míni-
mos cuadrados.
Notación para la ecuación de regresión:

Parámetro Estadístico
poblacional muestral
Intercepto y de la ecuación de regresión 𝛽0 b0
Pendiente de la ecuación de regresión 𝛽1 b1
Ecuación de la recta de regresión 𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑦̂ = 𝑏0 + 𝑏1 𝑥
Donde:
n(∑ xy) − (∑ x) (∑ y)
b1 =
n (∑ x 2 ) − (∑ x)2

b0 = 𝑦̅ − 𝑏1 𝑥̅
Se debe saber que:
 Si no existiera una correlación lineal entre dos variables, el mejor valor predicho
de y es 𝑦̅.
 Si existiera una correlación lineal, el mejor valor predicho de y se obtiene reem-
plazando el valor de x en la ecuación de regresión.

Ejemplo 1. Inversión e ingresos brutos de bodegas: La tabla presenta la inver-


sión de una muestra aleatoria de ocho bodegas de un vecindario de Huancayo y sus
correspondientes ingresos brutos mensuales, ambas variables están dadas en miles
de soles. Halle la ecuación estimada de regresión lineal, halle el mejor ingreso bruto
predicho para una bodega cuya inversión es de 90 000 soles y grafique el diagrama
de dispersión correspondiente.

Inversión (x1000) 78 95 58 29 103 80 60 70


Ingresos brutos (x1000) 22 27 20 12 31 28 23 24

Solución
a) Obtención de la ecuación estimada de regresión lineal:
Inver- Ingresos
Bodegas x2 y2 xy
sión brutos
1 78 22 6 084 484 1 716
2 95 27 9 025 729 2 565
3 58 20 3 364 400 1 160
4 29 12 841 144 348
5 103 31 10 609 961 3 193
6 80 28 6 400 784 2 240
7 60 23 3 600 529 1 380
8 70 24 4 900 576 1 680
Total 573 187 44 823 4 607 14 282

De la tabla se tiene: n=8; ∑x=573; ∑y=187; ∑xy=14 282 y ∑x2=44 823


573 187
Las medias aritméticas: 𝑥̅ = = 71,62; : 𝑦̅ = = 23,38
8 8

Reemplazando en la fórmula se halla b1:


n(∑ xy) − (∑ x) (∑ y)
b1 = 2
n (∑ x 2 ) − (∑ x)

8(14 282) − (573)(187)


b1 = = 0,23483
8(44 823) − (573)2

b1 = 0,23

En la fórmula: b0 = 𝑦̅ − 𝑏1 𝑥̅ , para hallar b0:

b0= 23,38–0,23(71,62)=6,9074≈6,91 entonces: b0= 6,91


La ecuación estimada de regresión lineal es: 𝑦̂ = 6,91 + 0,23𝑥
b) Mejor ingreso bruto predicho para una inversión de 90 000 soles:
Reemplazando en la fórmula: 𝑦̂ = 6,91 + 0,23𝑥
𝑦̂ = 6,91 + 0,23(90) = 27,61 (x1000 soles)
Por lo tanto, el mejor ingreso bruto mensual predicho para una bodega del vecin-
dario que tenga una inversión de 90 000 soles de 27 610 soles.
c) Diagrama de dispersión de las variables:

Figura 59. Diagrama de dispersión y estimado de


la ecuación de regresión lineal de la inversión y los
ingresos brutos de 8 bodegas vecinales.
Ejemplo 2. La tabla muestra las mediciones de la velocidad del aire y el coeficiente
de evaporación de gotas de combustible quemado en un motor de impulso.

Velocidad del aire (cm/s) 90 100 140 180 220 260 300 340 380
Coeficiente de evapora-
0,35 0,37 0,78 0,70 0,75 1,18 1,32 1,45 1,65
ción (mm2/s)

Halle la ecuación estimada de regresión lineal, halle el mejor coeficiente de evapora-


ción predicho para una velocidad de 400 cm/s y grafique.
Solución
a) Completamos la tabla, para obtener la ecuación estimada de regresión lineal:
Observa- Velocidad Coeficiente
x2 y2 xy
ciones (x) evaporación (y)
1 90 0,35 8100 0,12 31,50
2 100 0,37 10000 0,14 37,00
3 140 0,78 19600 0,61 109,20
4 180 0,70 32400 0,49 126,00
5 220 0,75 48400 0,56 165,00
6 260 1,18 67600 1,39 306,80
7 300 1,32 90000 1,74 396,00
8 340 1,45 115600 2,10 493,00
9 380 1,65 144400 2,72 627,00
Total 2010 8,55 536100 9,88 2291,50

De la tabla se tiene: n=9; ∑x=2010; ∑y=8,55; ∑xy=2 291,50 y ∑x2=536 100


2010 8,55
Las medias aritméticas: 𝑥̅ = = 223,33; : 𝑦̅ = = 0,95
9 9

Reemplazando en la fórmula se halla b1:


n(∑ xy) − (∑ x) (∑ y)
b1 = 2
n (∑ x 2 ) − (∑ x)

9(2 291,50) − (2 010)(8,55)


b1 = = 0,0043807 …
9(536 100) − (2 010)2

b1 = 0,00438

En la fórmula: b0 = 𝑦̅ − 𝑏1 𝑥̅ para hallar b0:

b0= 0,95–0,00438(223,33)=-0,0281854≈-0,02818

b0= -0,02818
Reemplazando en el modelo de la ecuación: 𝑦̂ = 𝑏0 + 𝑏1 𝑥
Se obtiene la ecuación estimada de regresión: 𝑦̂ = −0,02818 + 0,00438𝑥
b) El mejor coeficiente de evaporación predicho para una velocidad del aire de 400
cm/s:
Reemplazando en la fórmula: 𝑦̂ = −0,02818 + 0,00438𝑥
𝑦̂ = −0,02818 + 0,00438(400) = 1,72382~1,72
Por lo tanto, el mejor coeficiente de evaporación de gotas de combustible quemado
en un motor de impulso predicho para una velocidad del aire de 400 cm/s de 1,72
mm2/s.
c) Diagrama de dispersión de las variables:

Figura 60. Diagrama de dispersión y estimado de


la ecuación de regresión lineal.
2. Intervalo de predicción para una y individual
Para realizar la predicción se utilizan las siguientes fórmulas:

Intervalos de predicción: ŷ − E < y < ŷ + E


Margen de error (E):

1 n(x0 − x̅)2
E = t ∝/2 . se √1 + +
n n(∑ x 2 ) − (∑ x)2

y x0 representa el valor dado de x, tα/2 tiene n-2 grados de libertad:

Error estándar de estimación (se):

∑ y2 −b0 ∑ y−b1 ∑ xy ∑(y−𝑦̂)2


𝑠𝑒 = √ ó 𝑠𝑒 = √
n−2 n−2

Ejemplo 1. Inversión e ingresos brutos de bodegas vecinales: Construya el


intervalo de predicción del 95% para el ingreso bruto de una bodega cuyo presu-
puesto es de 90 000 soles Interprete sus resultados.
Solución

Se halla primeramente el error estándar de estimación (se) con la fórmula, dado


que ya se conoce: ∑y2=4 607; ∑y=187; ∑xy=14 282; b0=6,91; b1=0,23; n=8

4 607 − 6,91(187) − 0,23 (14 282)


𝑠𝑒 = √ = 2,2349~2,23
8−2

Se halla el margen de error (E), para g.l.=8-2=6; 1-α=95% de la tabla se obtiene:


t ∝/2=2,447; x0=90; 𝑥̅ = 71,62; ∑x2=44 823; ∑x=573:

1 8(90 − 71,62)2
E = 2,447(2,23)√1 + + = 6,0132~6,01
8 8(44 823) − 5732
E = 6,01
El intervalo de predicción de los ingresos brutos: ŷ − E < y < ŷ + E donde se co-
noce que: ŷ =27,61:
27,61 − 6,01 < y < 27,61 + 6,01
21,60<y<33,62
Conclusión: Para una inversión de 90 000 soles, se tiene la certeza del 95% de
que el intervalo de los ingresos brutos de las bodegas esta entre 21 600 y 33 620
soles.

Ejemplo 2. Construya el intervalo de predicción del coeficiente de evaporación


para una velocidad del aire de 200 cm/s, para un 98% de confianza. Interprete el
resultado obtenido.
Solución
Hallamos el error estándar de estimación (se) con la fórmula, si ya conocemos:
∑y2=9,98; ∑y=8,55; ∑xy=2291,50; b0=-0,02818; b1=0,00438; n=9 y reempla-
zamos en la fórmula:

∑ y 2 − b0 ∑ y − b1 ∑ xy
𝑠𝑒 = √
n−2

Tenemos:
9,98 − (−0,02818)(8,55) − 0,00438(2291,5)
𝑠𝑒 = √ = 0,1622~0,16
9−2

Se halla el margen de error (E), para g.l.=9-2=7; 1-α=98% de la tabla se obtiene:


t ∝/2=2,365; x0=200; 𝑥̅ = 223,33; ∑x2=536100; ∑x=2010, al reemplazar en la fór-
mula:
1 n(x0 − x̅)2
E = t ∝/2 . se √1 + +
n n(∑ x 2 ) − (∑ x)2

Se tiene:
1 9(200 − 223,33)2
E = 2,365(0,16)√1 + + = 0,3999~0,40
9 9(536 100) − 20102
E = 0,40
El intervalo de predicción del coeficiente de evaporación de los ingresos brutos,
donde hallamos en: 𝑦̂ = −0,02818 + 0,00438𝑥
𝑦̂ = −0,02818 + 0,00438(200) = 0,84782~0,85
ŷ = 0,85
Reemplazando: ŷ − E < y < ŷ + E
0,85 − 0,40 < y < 0,85 + 0,40
0,35<y<1,25
Conclusión: Para una velocidad de 200 cm/s, se tiene la certeza del 98% de que
el intervalo del coeficiente de evaporación de gotas de combustible quemado en
el motor de impulso se encuentra en el intervalo de 0,35 a 1,25 de mm 2/s.
ACTIVIDAD N° 2
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

a) A la recta de regresión se le conoce también como recta del mejor ( )


ajuste.
b) En la ecuación de regresión: 𝑦̂=2,5-3,9x, si x=120, entonces: 𝑦̂=467 ( )
c) Si no existiera una correlación lineal entre dos variables, el mejor ( )
valor predicho de y es 𝑦̅.
d) Sea 𝑦̂=-8,1 + 7,2x, si se sabe que x=-20 entonces: 𝑦̂=-152 ( )
e) Si existiera una correlación lineal, el mejor valor predicho de y se ( )
obtiene reemplazando el valor de x en la ecuación de regresión.
2. Se presenta las estaturas de 6 madres y sus respectivas hijas, las cuáles fueron
seleccionadas aleatoriamente. Halle el estimado de la verdadera ecuación de re-
gresión. Halle la mejor estatura predicha de la hija de una mujer de 168 cm de
estatura.

Madre (cm) Hija (cm)


152 160
150 155
170 171
165 166
152 155
163 166
3. En base al ejercicio anterior construya el intervalo de predicción de la estatura de
la hija cuya madre mide 160 cm de estatura para un 95% de confianza. Interprete
el resultado.
4. Una empresa dedicada a la explotación de sustancias químicas busca estudiar la
relación del tiempo de extracción (x) sobre la eficiencia de una operación de ex-
tracción (y). A partir de actividades realizadas previamente obtuvieron algunos
datos y con el apoyo de programa estadístico generaron la ecuación de regresión
estimada: 𝑦̂=39,50+0,764x. Complete la tabla y construya el intervalo de predic-
ción de la eficiencia de la extracción para un tiempo de 55 minutos de extracción
para un 99% de nivel de confianza.

Tiempo de extracción Eficiencia de ex-


(minutos) tracción (%)
(x) (y)
41 71
19 55
35 64
39 72
19 54
49 79
15 48
31 66
TEMA N° 3: REGRESIÓN MÚLTIPLE. ANÁLISIS DE MULTICOLI-
NEALIDAD

1. Regresión múltiple
En este capítulo se amplía el estudio de la correlación y de la regresión, analizando
la influencia de dos o más variables independientes sobre la variable dependiente, al
cual se denomina análisis de regresión y correlación múltiples.
Según Triola (2009, p.566) una ecuación de regresión múltiple expresa una relación
lineal entre una variable de respuesta y y dos o más variables de predicción (x1; x2;
….xk)
La forma general de la ecuación de regresión múltiple estimada:
ŷ = b0 + b1 x1 + b2 x2 + ⋯ . + bk xk
Donde:
n: tamaño de la muestra
k: número de variables de predicción o variables independientes.
ŷ : valor predicho de y
x1; x2; … ; xk: son las variables de predicción
β0: intercepto y, o el valor de y cuando todas las variables de predicción son 0
(este valor es un parámetro poblacional)

b0: estimado de β0 basado en los datos muestrales (b0 es un estadístico muestral)

β1; β2;…; βk: son los coeficientes de las variables de predicción: x1; x2;…; xk

b1; b2;…; bk son estimados muestrales de los coeficientes:β1; β2;…; βk

Matriz de correlación: Es una matriz que contiene los coeficientes de correlación


entre todos los pares de variables, la cual ayuda a identificar cuáles son las varia-
bles relativamente más importantes.

Coeficiente múltiple de determinación (R2)


Es una medida que denota lo bien que se ajusta la ecuación de regresión múltiple
a los datos muestrales.
Si se tiene la matriz de correlación de las variables de la ecuación de regresión
múltiple: ŷ = b0 + b1 x1 + b2 x2
Tabla matriz de correlación de variables
Variable x1 Variable x2 Variable ŷ

Variable x1 1

Variable x2 rx2 x1 1

Variable ŷ rŷx1 rŷx2 1

Fórmula para hallar el coeficiente múltiple de determinación:

rŷx1 2 + rŷx2 2 − 2rŷx1 rŷx2 rx1 x2


R2 =
1 − rx1 Xx2 2
2. Coeficiente múltiple de determinación ajustado

Es el coeficiente múltiple de determinación (R2) modificado para justificar el nú-


mero de variables y el tamaño de la muestra. Se halla a través de la fórmula:

(n − 1)
R2 ajustado = 1 − (1 − R2 )
[n − (k + 1)]

donde: n es el tamaño de la muestra y k es el número de variables de predicción


Análisis de multicolinealidad
Multicolinealidad: Es la correlación que existe entre las variables independien-
tes, las que se deben analizar mediante el uso de una matriz de correlación entre
las variables.
Un método práctico que se utiliza es que las correlaciones entre variables inde-
pendientes, cuyo valor está comprendido entre -0,70 y 0,70, no ocasionan dificul-
tades. Una de las soluciones para determinar la multicolinealidad es eliminar una
de las variables independientes que están fuertemente correlacionadas y volver a
calcular la ecuación de regresión.
Coeficiente de correlación múltiple (R)
Es la raíz cuadrada positiva del coeficiente de determinación (R) y mide la relación
entre las variables independientes consideradas como grupo y la variable depen-
diente (y).
Ejemplo1. Mediante un software estadístico se obtuvo la correspondiente ecua-
ción estimada de regresión de la distancia promedio que recorren una camioneta
por cada galón de gasolina que consumen, donde x1 es el octanaje de la gasolina
que utiliza y x2 es el peso de la camioneta:
ŷ = 6,29 + 0,18x1 − 0,001x2
Responda:
a) ¿Cuál es el nombre completo de la ecuación?
b) ¿Cuáles son las variables independientes?
c) ¿Cuál es la variable dependiente?
d) ¿De qué manera se relacionan las variables?
e) ¿Cuál es la distancia promedio que recorre una camioneta por cada galón de
gasolina que consume, si se sabe que pesa 1100 kg y la gasolina es de 92
octanos?
Solución
a) Ecuación de regresión múltiple con dos variables independientes (x1 y x2).
b) Variables independientes:
x1: Octanaje de la gasolina.
x2: Peso del automóvil (en kg).
c) Variable dependiente: Distancia promedio que recorren las camionetas por
cada galón de gasolina que consumen.
d) Relación entre las variables:
(+) x1: Relación directa: “a más octanaje más distancia de recorrido” y “a
menos octanaje menos distancia de recorrido”.
(-) x2: Relación inversa: “a más peso menos distancia de recorrido” y “a me-
nos peso más distancia de rendimiento”.
e) Rendimiento promedio por galón de gasolina: Reemplazando se tiene:
ŷ = 6,29+0,18(92)-0,001(1100)= 22,74
ŷ = 23,70 km.
La distancia estimada del recorrido de la camioneta será de 23,70 kilómetros
por cada galón de gasolina que consume.
Ejemplo 2. El director de mercadotecnia de una empresa constructora está estu-
diando las ventas mensuales de viviendas. Se seleccionaron tres variables como
estimadores de las ventas: Población regional (x1), ingreso per cápita (x2) y tasa
regional de desempleo (x3). La ecuación de regresión encontrada es:
ŷ = 63 900 + 0,38x1 + 9,7x2 − 10 500x3
Responda:
a) ¿Cuáles son las variables independientes?
b) ¿Cuál es la variable dependiente?
c) ¿De qué manera se relacionan las variables?
d) ¿Cuál es el monto estimado de las ventas mensuales en una región en la que
hay: 600 000 habitantes, el ingreso per cápita es de 6 940 dólares y la tasa de
desempleo es de 5,0%?
Solución
a) Variables independientes:
x1: Población regional.
x2: Ingreso per cápita.
x3: Tasa de desempleo.
b) Variable dependiente: Ventas mensuales de viviendas.
c) Relación entre las variables:
(+) x1: Relación directa: “a más población corresponde más ventas” y “a me-
nos población menos ventas”.
(+) x2: Relación directa: “a más ingreso per cápita más ventas” y “a menos
ingreso per cápita menos ventas”.
(-) x3: Relación inversa: “a más tasa de desempleo menos ventas” y “a menos
tasa de desempleo más ventas”.
d) Estimación de las ventas mensuales de viviendas:
ŷ = 63 900+0,38(600 000)+9,7(6940)-10 500 (5)= 306 718
ŷ = 306 718 soles.
Las ventas estimadas durante cada mes en viviendas es de aproximadamente
306 718 soles.
Ejemplo 3. La tabla muestra las correlaciones de las variables de la ecuación de
regresión múltiple: promedio de las calificaciones (𝑦̂), el tiempo de estudio (x1) y
el coeficiente de inteligencia (x2).
a) Halle e interprete el coeficiente múltiple de determinación ajustado si la mues-
tra es de tamaño 10.
b) Realice el análisis de multicolinealidad.
Coeficiente de Tiempo de Promedio de cali-
inteligencia (x1) estudio (x2) ficaciones (ŷ)

Coef. de inteligencia (x1) 1,000


Tiempo de estudio (x2) 0,570 1,00
Prom. de calificaciones (ŷ) 0,875 0,835 1,00

Solución
a) Reemplazando en la fórmula:

2
rYX1 2 + rYX2 2 − 2rYX1 rYX2 rX1 X2
R =
1 − rX1 X2 2

0,8752 + 0,8352 − 2(0,875)(0,835)(0,570)


R2 = = 0,9331
1 − 0,5702
A continuación, realizamos el ajuste para n=10 y k=2 variables de predicción:
(10 − 1)
R2 ajustado = 1 − (1 − 0,93312 ) = 0,8337
[10 − (2 + 1)]
Interpretación: El 83,37% de la variación del promedio de las calificaciones de
los estudiantes, puede explicarse por el tiempo de estudio y el coeficiente de
inteligencia de los estudiantes.
b) Análisis de multicolinealidad
De la tabla anterior se afirma que el promedio de las calificaciones es la variable
dependiente (Y). Se está particularmente interesado en las variables indepen-
dientes que tengan una fuerte correlación con la variable dependiente. El coe-
ficiente de inteligencia (x1) es la que tiene la correlación más fuerte con el pro-
medio de las calificaciones: 0,875. El signo positivo indica la relación directa
entre las variables. La correlación entre el coeficiente de inteligencia y el pro-
medio de las calificaciones es más intensa que la correlación entre el tiempo y
el promedio de las calificaciones.

ACTIVIDAD N° 3
1. El ingeniero de control de calidad de una empresa desea estimar la resistencia a
la tensión mecánica de un alambre de acero, en función de su diámetro exterior y
al contenido de molibdeno en el acero. Para hacer un experimento seleccionó cinco
trozos de alambre, midió su diámetro exterior y determinó el contenido de molib-
deno y luego midió la resistencia a la tensión de cada trozo. Los resultados fueron:
Diámetro
Resistencia Cantidad de
Tramo exterior
(lb/pulg2) (ŷ) Molibdeno (x2)
(mm) (x1)
A 19 0,5 9
B 12 0,3 6
C 9 0,2 5
D 16 0,4 8
E 13 0,3 7
Con la ayuda de un software estadístico obtuvo la ecuación de regresión:
ŷ = −0,05 + 20x1 + x2
Complete:
a) Variables independientes:
……………………………………………………………………………………………..
……………………………………………………………………………………………..
b) Variable dependiente: ………………………………………………………………………………
c) Manera en que se relaciona las variables: (directa o inversa)
La resistencia y el diámetro exterior: …………………………………………………
La resistencia y la cantidad de molibdeno: …………………………………………………….
2. La tabla muestra las correlaciones de las variables de la ecuación para estimar la
resistencia a la tensión mecánica de un alambre de acero:
a) Halle e interprete el coeficiente múltiple de determinación ajustado si la mues-
tra es de tamaño 5.
b) Realice el análisis de multicolinealidad.

Diámetro ex- Cantidad de


Resistencia (ŷ)
terior (x1) Molibdeno (x2)

Diámetro exterior (x1) 1,000


Cantidad de Molibdeno (x2) 0,971 1,00

Resistencia (ŷ) 0,995 0,990 1,00

3. El gerente de un empresa exportadora obtuvo la ecuación estimada de regresión


de las ganancias anuales en millones de soles, donde x1 es el número de vende-
dores que laboraron y x2 es el precio del producto al por mayor, los datos que se
utilizaron para obtener la ecuación corresponden a los años 2010 hasta el 2015.
ŷ = 19,8 + 0,36x1 − 29,2x2
Complete:
a) El nombre completo de la ecuación: …………………………………………………………
b) Variables independientes:
……………………………………………………………………………………………..
……………………………………………………………………………………………..
c) Variable dependiente: ………………………………………………………………………………..
d) La constante: ……………………………
e) Manera en que se relaciona las variables: (directa o inversa)
Las ganancias con el número de vendedores: …………………………………………………
Las ganancias con el precio del producto: …………………………………………………….
f) Complete la tabla:

Año No vendedores Precio del pro- Ganancias en millo-


(X1) ducto (X2) nes de soles (𝐲̂)
2012 25 0,92
2013 30 0,91
2014 28 0,90
2015 27 0,87
4. La tabla muestra las correlaciones de las variables de la ecuación de regresión
múltiple del ejercicio anterior sobre las ganancias anuales de la empresa exporta-
dora:
a) Halle e interprete el coeficiente múltiple de determinación ajustado si la mues-
tra es de tamaño 7.
b) Realice el análisis de multicolinealidad.
Precio del
No de vendedores Ganancias
producto
(x1) (ŷ)
(x2)
No de vendedores (x1) 1,000
Precio del producto (x2) -0,674 1,00
Ganancias (ŷ) 0,902 -0,927 1,00
TEMA N° 4: VALIDACIÓN DE MODELOS
1. Modelo matemático: es una función matemática que se “ajusta” o describe da-
tos del mundo real.
A continuación, se presentan algunos modelos genéricos que aparecen en la calcu-
ladora científica:
Lineal y=a + bx
Cuadrático y = ax2 + bx + c
Logarítmico y= a + b.lnx
Potencial y = axb
Exponencial y= a.bx
El modelo que se seleccione dependerá de las características de los datos muestrales
y una herramienta necesaria es la elaboración de un diagrama de dispersión para
decidir el modelo adecuado.

Lineal: y=2+3x Cuadrático: y=x 2-8x+18

Logarítmico: y=1+2lnx Exponencial: y=2 x

Figura 61. Modelos de correlación

2. Reglas básicas para la creación de un buen modelo matemático

2.1. Elabore el gráfico de puntos y elija el modelo que visualmente más se ajuste
a los puntos observados, es decir a un modelo lineal, cuadrático, exponen-
cial, potencial, etc.
2.2. Con la calculadora halle los coeficientes de determinación (r2) de cada mo-
delo y elija el modelo que tenga el mayor coeficiente de determinación, ya
que éste será el mejor modelo
2.3. Si trabaja con un software estadístico (como el SPSS) elija el modelo que
tenga el menor p-valor.
Ejemplo 1: Un ingeniero descubrió que, al incluir pequeñas cantidades de un com-
puesto en baterías recargables para computadoras portátiles, podría extender su
tiempo de vida. Experimentó con diferentes cantidades de aditivo y los datos fueron:
Cantidad de aditivo Vidas (horas)
1 4
2 3
3 7
4 9
5 10
Construya el diagrama de dispersión e identifique el modelo que se ajusta mejor a
los datos.
Solución
Visualizamos el diagrama de dispersión y observamos que los puntos se acomodan a
un modelo lineal:

Figura 62. Diagrama de dispersión donde se visualiza el modelo lineal

Con una calculadora científica evaluamos a qué modelo se ajusta los datos. Presen-
tamos los resultados para los modelos lineal, logarítmico, potencial y exponencial.
Modelo lineal Modelo logarítmico
A=1,2 A=2,60
B=1,8 B=4,17
Modelo: y=1,2+1,8x Modelo: y=2,60+4,17lnx
r= 0,9333 r= 0,8699
r2=0,8710≈87,10% r2=0,7567≈75,67%
Modelo potencial Modelo exponencial
A=3,11 A=2,48
B=0,68 B=1,34
Modelo: y=3,11x0,68 Modelo: y=2,48(1,34)x
r= 0,8276 r= 0,8863
r2=0,6849≈68,49% r2=0,7855≈78,55%
De los resultados se observa que el modelo lineal presenta el mayor coeficiente de
determinación (r2=87,10%), seguido del modelo exponencial (r2=78,55%). Por lo
tanto se concluye que la ecuación: y=1,2 + 1,8x describe mejor la relación entre la
cantidad de aditivo y el tiempo de vida adicional de las baterías.
Ejemplo 2: Lucía está realizando un experimento en el laboratorio y monitorea cada
hora que pasa la cantidad que tenía de cierto isótopo radiactivo y registró los datos
que se muestran en la tabla:

Tiempo (h) Cantidad (g)


1 68
2 58
3 48
4 40
5 34
6 30
7 26
Construya el diagrama de dispersión e identifique el modelo que mejor se ajusta a
los datos.

Solución
El diagrama de dispersión nos indica que los puntos se acomodan a un modelo loga-
rítmico o exponencial:

Figura 63. Diagrama de dispersión donde se visualiza el modelo logarítmico

Mediante una calculadora científica evaluamos a qué modelo se ajusta mejor los da-
tos de Lucía:
Modelo lineal Modelo logarítmico
A=71,43 A=70,60
B=-7 B=-22,31
Modelo: y=71,43-7x Modelo: y=70,60-22,31lnx
r= 0,9824 r= 0,9926
r2=0,9650≈96,50% r2=0,9852≈98,52%

Modelo potencial Modelo exponencial


A=75,66 A=78,85
B=-0,50 B=0,85
Modelo: y=75,66x0,50 Modelo: y=78,85(0,85)x
r= -0,97 r= 0,00
r2=0,9463≈94,63% r2=0,9958≈99,58%
Se observa que el modelo exponencial presenta el mayor coeficiente de determina-
ción (r2=99,58%), seguido del modelo logarítmico (r2=98,52%). Por lo tanto se con-
cluye que la ecuación: y=78,85(0,85)x describe mejor la relación entre el tiempo que
transcurre y la cantidad de isótopos radiactivos que van quedando.
Ejemplo 3: La variable respuesta (𝑦̂) es el peso (en kilogramos) de una muestra de
varones y las variables de predicción son la estatura (x1) en centímetros, la circun-
ferencia de la cintura (x2) en centímetros y el nivel colesterol (x3) en miligramos.
¿Cuál de las ecuaciones será la mejor ecuación de regresión múltiple?

Valor p r2 Ecuación de regresión múltiple


0,001 0,793 𝑦̂ = -42,8+2,41x2-0,0106x3
0,000 0,877 𝑦̂ = -206+2,66x1+2,15x2
0,002 0,277 𝑦̂ = -148+4,65x1+0,00589x3
Respuesta: La mejor ecuación de regresión múltiple es la segunda ecuación:

𝑦̂ = -206+2,66x1+2,15x2

debido a que presenta el mayor coeficiente de determinación (r2=0,877) y el menor


valor p (0,000) en comparación con las otras dos ecuaciones.

ACTIVIDAD N° 4
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) Si el coeficiente de determinación está cerca a 0 el ajuste de la recta ( )
es malo
b) La expresión: y = axb corresponde al modelo exponencial. ( )
c) Si el coeficiente de determinación se aproxima a 1 el ajuste de la ( )
recta es bueno.
d) Modelo matemático es una función matemática que se “ajusta” o ( )
describe datos del mundo real.
2. La tabla muestra los días de inasistencia al trabajo y el bono de reconocimiento
(x100 soles) recibido por una muestra de empleados de una empresa por motivo
de fiestas patrias:

Inasistencias (días) (x) 1 4 5 1 2 3


Bono de reconocimiento (y) 49 41 40 48 45 43

a) Grafique el diagrama de dispersión.


b) Identifique el mejor modelo matemático (lineal, cuadrático, exponencial, loga-
rítmico o potencial) que mejor se ajuste a los datos de la tabla. Argumente su
decisión.
c) Realice una predicción para 6 inasistencias.
3. Se tiene los datos sobre la cantidad de consumo semestral de vino (en litros por
habitante) y el número de fallecidos a causa de enfermedades cardiacas, por cada
100 000 habitantes en 12 países europeos:

Consumo de vino (x) 2,5 6,5 2,9 2,4 2,4 7,9 9,1 0,8 0,8
Muertes enf. cardiaca (y) 211 86 131 191 220 107 71 297 211
a) Grafique el diagrama de dispersión.
b) Identifique el mejor modelo matemático (lineal, exponencial, logarítmico o po-
tencial) que mejor se ajuste a los datos de la tabla. Justifique su decisión.
Modelo lineal Modelo logarítmico
Modelo: y=251,9-21,63x Modelo: y=-75,44lnx+248,42
r2=0,7854≈78,54% r2=0,8187≈81,87%
Modelo potencial Modelo exponencial
Modelo: y=256,82x-0,485 Modelo: y=271,98e-0,146x
r2=0,8133≈81,33% r2=0,8601≈86,01%
4. A partir de la observación de cinco años de las variables producción industrial (y)
en millones de toneladas y el tiempo (x):

Año 2011 2012 2013 2014 2015


X 1 2 3 4 5
Producción (y) 1,25 5 11,25 20 30,50
a) Grafique el diagrama de dispersión.
b) Identifique el mejor modelo matemático (lineal, cuadrático, exponencial, loga-
rítmico o potencial) que mejor se ajuste a los datos de la tabla. Argumente su
respuesta.
c) Realice una predicción para el año 2017.
TEMA N° 5: MODELOS DE SERIES DE TIEMPO
1. Series de tiempo
Según Córdova (2006) las series de tiempo o serie cronológica es un conjunto de
datos observados en forma secuencial, generalmente en intervalos de tiempo iguales.
Los modelos de serie de tiempo se elaboran en base a los antecedentes observados
y que se plasman en una historia estadística recurrente específica que puede ser
modelada y utilizada para fines de pronóstico.
Como ejemplos se tiene:

Series de tiempo Ejemplos


Precios de los artículos.
Tasas de desempleo en las ciudades.
Tasa de inflación.
Series económicas Cotizaciones diarias del dólar.
Índice de precios de productos.
Ventas de vehículos.
Producción en las fábricas.

Meteorología en las ciudades.


Cantidad de lluvia.
Serie físicas Temperatura mínima y máxima diaria.
Velocidad del viento.
Índices de radiación solar.

Geofísica Series sismológicas.

Tasas de crecimiento de la población.


Series demográficas
Tasa de natalidad, mortalidad.

Series de marketing Demandas, gastos y ofertas.

Series de transporte Series de tráfico de vehículos.

Nota:
 Uno de los problemas que intenta resolver las series de tiempo es la predicción.
Existen diversos tipos de cambios y movimientos en una serie de tiempo, los cuales
son causados por factores o componentes con repercusiones a largo plazo o a corto
plazo. La finalidad de estudiar este tema es determinar la ecuación de tendencia
lineal y la evaluación de los tipos de cambio que influyen en la serie a través del
tiempo.
En la gráfica de líneas una serie de tiempo se destacan picos y valles.
Pico: se produce en un punto cuando de una tendencia creciente cambia a una ten-
dencia decreciente.
Valle: Se produce cuando de una tendencia decreciente cambia a una tendencia
creciente.
Ejemplo: Se muestra en la tabla la producción anual (en millones de unidades) de
juguetes de una empresa desde el año 2003 hasta el año 2012. Elabore el grafique
de líneas de la serie de tiempo.
Producción
Año x
y
2003 1 4
2004 2 8
2005 3 11
2006 4 15
2007 5 12
2008 6 9
2009 7 16
2010 8 13
2011 9 21
2012 10 23

En la tabla se observa que el año 2003 tiene el código x=1, el año 2004 tiene el
código x=2, así sucesivamente. La producción anual de millones de juguetes es la
variable y.
Al observar el gráfico de líneas se tiene que existen dos picos, uno en el año 2006
(x=4) y otro en el año 2009 (x=7). También se observan dos valles, uno en el año
2008 (x=6) y otro en el año 2010 (x=8).

Figura 64. Gráfica de líneas con picos

2. Componentes de las series de tiempo


El análisis de la serie de tiempo es un proceso mediante el cual se llega a identificar
y separar los factores o componentes que se relacionan con el tiempo y que influyen
sobre los valores observados de la serie de tiempo.
Los factores que afectan a una serie de tiempo son:
2.1. La tendencia (T): es el movimiento general creciente o decreciente de los
valores de la serie de tiempo Y, que persiste en un periodo largo de tiempo.
Ejemplo: el incremento estable en los costos de vida registrado en el índice de
precios al consumidor.
2.2. Las fluctuaciones cíclicas (C): Son movimientos hacia arriba y hacia debajo
de la línea de tendencia, y que ocurren en periodos cortos de tiempo. Son
secuencias repetidas.
Ejemplo: el ciclo económico, ya que, a través del tiempo, hay años en los que el
ciclo económico llega a un pico arriba de la línea de tendencia, en otros, es pro-
bable que la actividad de los negocios disminuya debajo de la línea de tendencia.

2.3. Las variaciones estacionales (E): Son las oscilaciones en la extensión de


un año y tiene más o menos la misma forma año tras año. La periodicidad
puede ser de horarios, diarios, semanales, mensuales o trimestrales depen-
diendo de la naturaleza de la serie pero no duran más de un año.
Ejemplos: en invierno las ventas de helado, en verano la venta de lana, la expor-
tación de fruta en marzo.

2.4. Movimientos irregulares (I): Son movimientos con respecto a la tendencia


que se deben a causas aleatorias o esporádicas (cómo huelgas, terremotos,
inundaciones, etc.) y por lo tanto no pueden adjudicarse a efectos estacionales
o cíclicos.

3. Modelos de series de tiempo


En general, una serie de tiempo contiene sus componentes en forma aditiva y en
forma multiplicativa.
3.1. Modelo aditivo: supone que el valor de los datos originales “Y” es la suma de
las cuatro componentes, es decir:
Y=T+C+E+I
Nota: Este modelo es apropiado cuando la magnitud de las fluctuaciones estacionales
de la serie no varía al hacerlo la tendencia.
En este modelo todos los valores de las componentes se expresan en sus unidades
originales y el valor de una componente no afecta los valores de los otros componen-
tes, como se ve en el siguiente ejemplo:
Ejemplo: Aplique el modelo de series de tiempo para estimar las ventas de laptops
en el presente año, donde se conoce que:
 T=2200 unidades.
 C=-95 unidades, ya que el ciclo comercial está actualmente en descenso.
 E=550 unidades, ya que las influencias estacionales existentes han tenido un
impacto positivo en las ventas.
 I=-40 unidades, por cuestiones desconocidas.
Entonces, se estima que se venderá 2615 laptops, ya que:
2200+(-95)+550+(-40) = 2615 laptops3.2.

3.2. Modelo multiplicativo: supone que el valor de los datos originales “Y” es el
producto de las cuatro componentes, es decir:
Y=TxCxExI
Nota: Este modelo es apropiado cuando la magnitud de las fluctuaciones estacionales
de la serie crece y decrece proporcionalmente con los crecimientos y decrecimientos
de la tendencia.
Este modelo es el que se utiliza más a menudo debido a que caracteriza a la mayoría
de las series de tiempo económicas y de negocios. También se debe aclara que en
este modelo sólo la componente de tendencia se expresa en unidades originales y
los otros componentes se expresan en números relativos o porcentajes, como se ve
en el siguiente ejemplo:
Ejemplo: La producción y venta de 48 060 pares de zapatillas en una empresa de
calzados en el año 2015, se descompone en sus cuatro componentes:
 T=50 000 pares de zapatillas.
 C=100%, ya que no existe efecto del ciclo de negocios.
 E=108%, ya que la producción por campaña escolar tiene una variación esta-
cional del 8%.
 I=89% la producción sufre una variación irregular del -11% por razones des-
conocidas.
50 000(1,00)(1,08)(0,89)=48 060 pares de zapatillas

4. Análisis de tendencia
El análisis de la tendencia es el procedimiento mediante el cual se determina la
dirección del movimiento de la serie de tiempo a largo plazo y permute deducir el
desarrollo de la serie de tiempo en el futuro. La tendencia puede ser ascendente,
descendente o constante. Lo primero que se debe decidir es si la tendencia es una
línea recta o una curva.
El análisis de series de tiempo permite:
 Detectar patrones de cambio en la información estadística en intervalos regula-
res.
 Proyectar los patrones para obtener una estimación para el futuro.
 Ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.
La estimación de la tendencia se puede realizar por muchos métodos entre los que
están: el método de mano libre o alzada, el método de los dos promedios, (o semi
promedios), el método de las medias móviles y el método de los mínimos cuadrados.
4.1. Tendencia lineal
La tendencia a largo plazo de muchas series de negocios (industriales y comercia-
les), como ventas, exportaciones y producción, con frecuencia se aproxima a una
línea recta. Esta línea de tendencia muestra que algo aumenta o disminuye a un
ritmo constante. El método que se utiliza para obtener la línea recta de mejor
ajuste es el método de mínimos cuadrados.

4.2. Tendencia no lineal


Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice que este
comportamiento es no lineal. Dentro de estas tendencias tenemos: polinomial,
logarítmica, exponencial, potencial, etc.

5. Métodos de suavizamiento de la serie


Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La fina-
lidad es definir a partir de la serie observada una nueva serie que suaviza los efectos
ajenos a la tendencia (estacional, efectos aleatorios), de manera que podamos de-
terminar la dirección de la tendencia.
5.1. Promedio móvil
El método promedio móvil emplea el promedio de los n valores más recientes de
datos en la serie de tiempos como pronósticos para el siguiente periodo. Es uno de
los indicadores más versátiles y de mayor uso dentro de todos los indicadores.
La utilización de un promedio móvil muestra la dirección y la duración de una ten-
dencia, el propósito es ilustrar la tendencia, de una manera más suavizada.
Se construye sustituyendo cada valor de una serie por la media obtenida con esa
observación y algunos de los valores inmediatamente anteriores y posteriores. A con-
tinuación se presenta la fórmula:

∑( n valores más recientes)


Promedio móvil =
n

Ejemplo: La tabla muestra las ventas semanales de gasolina de un grifo. Aplique el


método de promedios móviles de tres semanas para el pronóstico de ventas, a partir
de la segunda semana, el cual se da en cientos de galones.
El primer paso para calcular el promedio móvil de tres semanas es determinar el total
de movimientos en tres semanas. El total de ventas en las tres primeras semanas
es: 16+20+18=54. Este total se divide entre tres: 54:3=18, para obtener la media
aritmética de las ventas de la semana. La suma total y la media aritmética se colocan
en la fila de la semana central de ese grupo de tres semanas, es decir en la semana
2, como se muestra en la tabla, y así sucesivamente:

Ventas Total móvil de Promedio móvil


Semana
(x100 galones) 3 semanas de 3 semanas
1 16
2 20 16+20+18=54 54/3=18
3 18 20+18+22=60 60/3=20
4 22 18+22+17=57 19
5 17 22+17+15=54 18
6 15 17+15+19=51 17
7 19 15+19+17=51 17
8 17 19+17+21=57 19
9 21 17+21+19=57 19
10 19

Ejemplo: Aplique el método de promedios móviles de cinco semanas para el pronós-


tico de venta semanal de gasolina en el grifo.
Se procede de manera similar, con la diferencia que ahora se toman cinco semanas
y los resultados se colocan en la semana central, así:

Ventas Total móvil de 5 Promedio móvil


Semana
(x100 galones) semanas de 5 semanas
1 16
2 20
3 18 16+20+18+22+17=93 93/5=18,6
4 22 20+18+22+17+15=92 92/5=18,4
5 17 18+22+17+15+19=91 18,2
6 15 22+17+15+19+17=90 18,0
7 19 17+15+19+17+21=89 17,8
8 17 15+19+17+21+19=91 18,2
9 21
10 19

A continuación, se muestra el gráfico de los promedios móviles de 3 y 5 semanas:


23
22
21
20
19
18
17
16
15
14
1 2 3 4 5 6 7 8 9 10

Ventas Promedio móvil 3 Promedio móvil 5

Figura 65. Gráfico de los promedios móviles

Ejemplo: Aplique el método de promedios móviles de cuatro semanas para el pro-


nóstico de venta semanal de gasolina en el grifo.
Para hallar los promedios móviles para cuatro, seis y otro número par de años se
realiza de la siguiente manera. El total de las cuatro primeras semanas (76) se coloca
entre la semana 2 y 3. El total para las siguientes cuatro semanas es 77 y se coloca
entre las semanas 3 y 4. Los promedios de las primeras cuatro semanas y las segun-
das cuatro semanas (19 y 19,25 respectivamente) están promediados, y la cifra re-
sultante se centra en la semana 3. Este procedimiento se repite hasta que se hayan
calculado todos los posibles promedios de cuatro semanas, como se muestra a con-
tinuación:

Promedio Promedio móvil


Total móvil de
Semana Ventas móvil de 4 de 4 semanas
4 semanas
semanas centrado
1 16
2 20
16+20+18+22=76 76/4=19
3 18 19,125
20+18+22+17=77 77/4=19,25
4 22 18,625
18+22+17+15=72 72/4=18
5 17 18,125
22+17+15+19=73 73/4=18,25
6 15 17,625
17+15+19+17=68 68/4=17
7 19 17,5
15+19+17+21=72 72/4=18
8 17 18,5
19+17+21+19=76 76/4=19
9 21
10 19
Para resumir la técnica del uso de promedios móviles, su propósito es auxiliar en la
identificación de la tendencia a largo plazo en una serie de tiempo (ya que amortigua
las fluctuaciones a corto plazo). Sirve para revelar cualesquiera de las fluctuaciones
cíclicas y estacionales.
5.2. Promedios móviles ponderados
Este método consiste en asignar un factor de ponderación distinto para cada dato.
Generalmente, a la observación o dato más reciente a partir del cual se quiere hacer
el pronóstico, se le asigna el mayor peso, y este peso disminuye en los valores de
datos más antiguos.
Por ejemplo, tomando los datos de la tabla anterior sería:
1 2 3
𝑃𝑟𝑜𝑛ó𝑠𝑡𝑖𝑐𝑜 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑢𝑎𝑟𝑡𝑎 𝑠𝑒𝑚𝑎𝑛𝑎 = (16) + (20) + (18) = 18,33 𝑔𝑎𝑙𝑜𝑛𝑒𝑠.
6 6 6
Como se observa el dato más alejado (que corresponde a la semana 1) tiene el factor
de ponderación más pequeño (1/6), el siguiente tiene un factor de ponderación que
es el doble del primero (2/6) y el dato más reciente (que corresponde a la semana
3) tiene un factor de ponderación que es el triple del primero (3/6). Los pronósticos
a partir de la semana 4 son:

Ventas Pronósticos con el promedio


Semana
(x100 galones) móvil ponderado
1 16
2 20
3 18
4 22 18,33
5 17 20,33
6 15 18,83
7 19 16,83
8 17 17,33
9 21 19,33
10 19 19,33
Nota: La suma de los factores de ponderación siempre debe ser igual a 1.
5.3. Suavizamiento exponencial
Este método emplea el promedio ponderado de la serie de tiempo pasado como pro-
nóstico, es un caso especial del método de promedios móviles ponderados en el cual
sólo se selecciona el peso o factor de ponderación más reciente. El siguiente modelo
corresponde al método de suavizamiento exponencial:
𝐹𝑡+1 =∝ 𝑌𝑡 + (1−∝)𝐹𝑡
Donde:
Ft+1= pronóstico de la serie de tiempo para el periodo t+1
Yt= valor real de la serie de tiempo en el periodo t
Ft= pronóstico de la serie de tiempo para el periodo t
∝ = constante de suavizamiento, 0≤ ∝ ≤1
Así tenemos los pronósticos mediante el método de suavizamiento exponencial del
ejemplo de la venta de gasolina en el grifo, para una constante de suavizamiento
α=0,2
Ventas Pronóstico con el método de suavizamiento
Semana
(Yi) exponencial
1 Y1=16 F1=Y1=16,00
2 Y2=20 F2=F1=16,00
3 Y3=18 F3=∝Y2+(1-∝)F2=(0,2)(20)+(0,8)(16)=16,80
4 Y4=22 F4=∝Y3+(1-∝)F3=(0,2)(18)+(0,8)(16,80)=17,04
5 17 F5=∝Y4+(1-∝)F4=(0,2)(22)+(0,8)(17,04)=18,03
6 15 F6=∝Y5+(1-∝)F5=17,82
7 19 F7=∝Y6+(1-∝)F6=17,26
8 17 F8=∝Y7+(1-∝)F7=17,61
9 21 F9=∝Y8+(1-∝)F8=17,49
10 19 F10=∝Y9+(1-∝)F9=18,19
A continuación, se muestra el gráfico de las ventas reales y los pronósticos mediante
el suavizamiento exponencial.

23
22
21
20
19
18
17
16
15
14
1 2 3 4 5 6 7 8 9 10

Ventas reales Exponencial

Figura 66. Gráfico de las ventas reales y los pronósticos mediante el suavizamiento
exponencial
ACTIVIDAD N° 5
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) La suma de los factores de ponderación a veces debe ser igual a 1. ( )
b) El método de promedios ponderados consiste en asignar un factor de ( )
ponderación distinto para cada dato.
c) Uno de los problemas que intenta resolver las series de tiempo es la ( )
predicción.
d) El promedio móvil es un método de suavizamiento de series de ( )
tiempo.
e) Cuando la serie de tiempo presenta un comportamiento curvilíneo se ( )
dice que corresponde a una tendencia lineal.
f) El análisis de las series de tiempo permite proyectar los patrones para ( )
obtener una estimación para el futuro
g) Cuando de una tendencia creciente cambia a una tendencia decre- ( )
ciente se dice que en ese punto ocurre un pico en la serie.
2. En la tabla se presentan datos que corresponden a la cantidad de muertes a causa
de accidentes mensualmente en los Estados Unidos desde el año 1973 a 1978
(Fuente National Sadety Council).

Media mensual
Meses del año
de muertes
Enero 8044,00
Febrero 7283,83
Marzo 8063,83
Abril 8264,83
Mayo 9126,17
Junio 9595,33
Julio 10452,80
Agosto 9749,17
Septiembre 8700,33
Octubre 8984,67
Noviembre 8467,17
Diciembre 8720,67

Su correspondiente gráfico es:


Figura 67. Gráfico de cantidad de muertes a causa de accidentes mensualmente
en los Estados Unidos desde el año 1973 a 1978 (Fuente National Sadety Coun-
cil).

Conteste:
a) ¿En qué mes del año es menos frecuente las muertes? ..............................
b) ¿En qué mes del año ocurren más muertes? .......................................
c) ¿En qué meses del año ocurren picos? ………………………………………………………………
d) ¿En qué meses del año ocurren valles? ………………………………………………………..
3. A partir de los datos de la tabla anterior aplique el método de suavizamiento de la
serie del promedio móvil trimestral y realice los pronósticos a partir del mes de
febrero hasta noviembre. Grafique la tendencia de las muertes por accidentes y el
correspondiente suavizamiento trimestral.
4. Halle el promedio móvil de cuatro años y de cinco años para la siguiente produc-
ción, en miles de unidades. Grafique tanto los datos originales, como los prome-
dios móviles.
,
Cantidad producida
Año
(miles)
2007 1
2008 2
2009 6
2010 3
2011 7
2012 3
2013 8
2014 5
2015 10
5. Una compañía presenta en la siguiente tabla el reporte de ventas (en miles de
soles) correspondiente al año 2015.
Meses Ventas
Enero 80
Febrero 90
Marzo 85
Abril 70
Mayo 80
Junio 105
Julio 100
Agosto 105
Setiembre 100
Octubre 105
Noviembre 100
Diciembre 150
Teniendo en cuenta los datos anteriores, se debe calcular un pronóstico mediante
la técnica de promedio móvil utilizando un periodo de 3 meses (a partir de abril)
y un periodo de 6 meses (a partir de Julio). Grafique los datos reales y los pro-
nósticos.

LECTURA SELECCIONADA N° 1
Investigación correlacional: Características y etapas

(C.l.), estado nutricional, educación


En este tipo de investigación se persi-
y nivel de ingreso de los padres.
gue fundamentalmente determinar el
grado en el cual las variaciones en uno  En un grupo de trabajadores, iden-
o varios factores son concomitantes con tificar el grado de satisfacción con el
la variación en otro u otros factores. La trabajo o en relación con el nivel
existencia y fuerza de esta covariación educativo, ingreso salarial, condi-
normalmente se determina estadística- ciones del trabajo y número de hi-
mente por medio de coeficientes de co- jos.
rrelación. Es conveniente tener en
 Uso de métodos de planificación fa-
cuenta que esta covariación no significa
miliar en relación con años de estu-
que entre los valores existan relaciones
dio, residencia rural o urbana y ni-
de causalidad, pues éstas se determi-
vel de aspiraciones para con los hi-
nan por otros criterios que, además de
jos.
la covariación, hay que tener en cuenta.
Etapas en investigaciones correla-
Características
cionales
a) Es indicado en situaciones complejas
 Definir el problema.
en que importa relacionar variables,
pero en las cuales no es posible el  Revisar la literatura.
control experimental.
 Determinar el diseño operacional:
b) Permite medir e interrelacionar múl-
 Identificar las variables pertinen-
tiples variables simultáneamente en
tes.
situaciones de observación naturales,
como en los ejemplos ofrecidos.  Seleccionar los sujetos apropia-
dos.
c) Permite identificar asociaciones entre
variables, pero hay que prevenir que  Determinar qué instrumentos
ellas sean espurias o falsas, introdu- son los más apropiados para ob-
ciendo los controles estadísticos tener los datos.
apropiados.
 Seleccionar las técnicas de corre-
d) Es menos riguroso que el tipo de in- lación estadística apropiadas
vestigación experimental porque no para los datos.
hay posibilidad de manipular la varia-
 Recoger los datos.
ble (o variables) independiente (s) ni
de controlarlas rigurosamente. En  Analizar los datos por medio de las
consecuencia, no conduce directa- correspondientes técnicas correla-
mente a identificar relaciones causa- cionales e interpretar los resultados
efecto, pero sí a sospecharlas.
Ejemplos de investigaciones corre- Fuente: https://sites.goo-
lacionales son los siguientes: gle.com/site/ciefim/investi-
gaci%C3%B3ncorrelacional
 En un grupo de estudiantes, deter-
minar la relación entre inteligencia
ACTIVIDAD N° 2
Foro de discusión sobre la lectura: ¿Cuáles son características y etapas de la
investigación correlacional?
Instrucciones
Ingrese al foro y responda la pregunta: ¿Cuál es la característica más importante de
la investigación correlacional?
Determine un ejemplo de investigación correlacional vinculado su carrera profesio-
nal:
 Formule la hipótesis explicativa.
 Describa la forma de desarrollo de la investigación.

GLOSARIO DE LA UNIDAD III

1. Análisis de correlación
Es un conjunto de técnicas estadísticas empleado para medir la intensidad de la
asociación entre dos variables.
2. Variable dependiente (y)
Es la variable que se predice o calcula.
3. Variable independiente (x)
Es la variable que proporciona las bases para el cálculo. Es la variable que permite
predecir.
4. Ecuación de regresión
Es una ecuación que define la relación lineal entre dos variables.
5. Ecuación de regresión múltiple
Expresa una relación lineal entre una variable de respuesta y y dos o más variables
de predicción (x1; x2; ….xk)
6. Matriz de correlación
Es una matriz que contiene los coeficientes de correlación entre todos los pares
de variables, la cual ayuda a identificar cuáles son las variables relativamente más
importantes.
7. Coeficiente múltiple de determinación (R2)
Es una medida que denota lo bien que se ajusta la ecuación de regresión múltiple
a los datos muestrales.
8. Multicolinealidad
Es la correlación que existe entre las variables independientes, las que se deben
analizar mediante el uso de una matriz de correlación entre las variables. Es un
método práctico que se utiliza es que las correlaciones entre variables indepen-
dientes, cuyo valor está comprendido entre -0,70 y 0,70, no ocasionan dificulta-
des.
9. Coeficiente de correlación múltiple (R)
Es la raíz cuadrada positiva del coeficiente de determinación (R) y mide la relación
entre las variables independientes consideradas como grupo y la variable depen-
diente (y).

36
10. Modelo matemático: es una función matemática que se “ajusta” o describe
datos del mundo real.
11. Series de tiempo
Es un conjunto de datos observados en forma secuencial, generalmente en in-
tervalos de tiempo iguales.
12. Pico
Se produce en un punto cuando de una tendencia creciente cambia a una ten-
dencia decreciente.
13. Valle
Se produce cuando de una tendencia decreciente cambia a una tendencia cre-
ciente.
14. La tendencia (T)
Es el movimiento general creciente o decreciente de los valores de la serie de
tiempo Y, que persiste en un periodo largo de tiempo.
15. Las fluctuaciones cíclicas (C)
Son movimientos hacia arriba y hacia debajo de la línea de tendencia, y que
ocurren en periodos cortos de tiempo. Son secuencias repetidas.
16. Las variaciones estacionales (E)
Son las oscilaciones en la extensión de un año y tiene más o menos la misma
forma año tras año. La periodicidad pueden ser de horarios, diarios, semanales,
mensuales o trimestrales dependiendo de la naturaleza de la serie pero no duran
más de un año.
17. Movimientos irregulares (I)
Son movimientos con respecto a la tendencia que se deben a causas aleatorias
o esporádicas (cómo huelgas, terremotos, inundaciones, etc.) y por lo tanto no
pueden adjudicarse a efectos estacionales o cíclicos.
18. Tendencia lineal
La tendencia a largo plazo de muchas series de negocios (industriales y comer-
ciales), como ventas, exportaciones y producción, con frecuencia se aproxima a
una línea recta. Esta línea de tendencia muestra que algo aumenta o disminuye
a un ritmo constante. El método que se utiliza para obtener la línea recta de
mejor ajuste es el método de mínimos cuadrados.
19. Tendencia no lineal
Cuando la serie de tiempo presenta un comportamiento curvilíneo se dice que
este comportamiento es no lineal. Dentro de estas tendencias tenemos: polino-
mial, logarítmica, exponencial, potencial, etc.
20. El método promedio móvil
Emplea el promedio de los n valores más recientes de datos en la serie de tiem-
pos como pronósticos para el siguiente periodo. Es uno de los indicadores más
versátiles y de mayor uso dentro de todos los indicadores.
21. Promedios móviles ponderados
Este método consiste en asignar un factor de ponderación distinto para cada
dato. Generalmente, a la observación o dato más reciente a partir del cual se
quiere hacer el pronóstico, se le asigna el mayor peso, y este peso disminuye en
los valores de datos más antiguos.
22. Suavizamiento exponencial

37
Este método emplea el promedio ponderado de la serie de tiempo pasado como
pronóstico, es un caso especial del método de promedios móviles ponderados en
el cual sólo se selecciona el peso o factor de ponderación más reciente.

BIBLIOGRAFÍA DE LA UNIDAD III


Córdova, M. (2006). Estadística inferencial. Lima: Moshera SRL.
Lind, D.; Marchal, W. y Mason, R. (2004). Estadística para administración y
economía. Colombia: Alfaomega.
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México:
Cengage Learning.
Peña, D. (1989). Estadística, modelos y métodos. Madrid: Alianza Universidad.
Triola, M. (2009). Estadística. México: Pearson educación.

38
Autoevaluación n°3
1. Una empresa comercial tiene varias tiendas dedicadas a la venta de electrodomés-
ticos. El gerente de ventas ha realizado anuncios publicitarios por la radio al menos
tres veces antes de realizar la campaña gigante de ventas. Una vez culminada la
campaña realiza una investigación con el objetivo de determinar si existe alguna
relación entre el número de anuncios publicitarios emitidos en la radio y las ventas
generadas. Los pares de datos se muestran en la tabla.
a) Halle e interprete el coeficiente de correlación de Spearman.
b) Grafique el diagrama de dispersión.
c) Realice la prueba de significancia para α=0,02 (Utilice la tabla A-9 de Mario
Triola)

No anuncios Ventas
7 8
3 6
15 14
9 10
11 9
6 7
13 12

2. La tabla muestra el porcentaje de inasistencias y el promedio que han obtenido


un grupo de estudiantes en el curso de Mercadotecnia (Utilice la calculadora)
Halle:
a) El estimado de la verdadera ecuación de regresión lineal.
b) El mejor puntaje promedio predicho para un estudiante que tiene 8% de inasis-
tencias.
c) Halle e interprete r, r2 y grafique el diagrama de dispersión.
Inasis-
Prome-
tencia
dio
(%)
0 16
12 12
20 11
5 14
15 10
10 13
2 17
13 9

3. Se estudió una muestra de personas mayores viudas para determinar el grado de


satisfacción en su vida actual. Se utilizó un índice especial denominado índice de
satisfacción para medir esta cualidad. Se estudiaron seis factores que son: edad
en el momento del primer matrimonio (x1), ingreso anual (x2), número de hijos
vivos (x3), valor de los bienes poseídos (x 4), estado de salud expresado como
índice (x5) y cantidad promedio de actividades sociales (x 6) por semana como
hacer deporte o bailar.
La ecuación de regresión múltiple es:
ŷ=16,24+0,017x1+0,0028x2+42x3+0,0012x4+0,19x5+26,8x6
a) ¿Cuál es el índice estimado de satisfacción de una persona que se casó por
primera vez a los 18 años, tiene un ingreso anual de 26 500 soles, tres hijos
vivos, bienes por 156 000 soles, un índice de estado de salud de 141, y en
promedio 2,5 actividades sociales por semana?.

39
b) ¿Qué proporciona más satisfacción: un ingreso adicional de 10 000 soles anua-
les o dos actividades sociales más por semana?

4. Elabore el diagrama de dispersión y luego identifique el mejor modelo matemá-


tico para el siguiente conjunto de datos:

x 1 2 3 4 5 6
y 1 7 17 31 49 71
5. La tabla muestra el promedio de las ventas de cemento (en miles de TM) en los
últimos 7 años. Realice el suavizamiento de la serie mediante el método de pro-
medios móviles de tres años para el pronóstico de ventas a partir del segundo
año. Grafique.
Año Ventas
2010 202
2011 204
2012 163
2013 161
2014 146
2015 184
2016 170

40
UNIDAD IV: DISEÑOS EXPERIMENTALES Y CONTROL ESTADÍS-
TICO DE PROCESOS

DIAGRAMA DE ORGANIZACIÓN DE LA UNIDAD IV

ORGANIZACIÓN DE LOS APRENDIZAJES


Resultado de aprendizaje de la Unidad IV: interpretar los resultados del diseño
experimental y de control estadístico de procesos, mediante pruebas de compara-
ción y de dos factores.
CONOCIMIENTOS HABILIDADES ACTITUDES
Tema N° 1: Diseño de expe-
1. Valora de utilidad de
rimentos 1. Identifica los elemen-
la estadística en la
1. Diseños experimentales. tos de diseño experi-
toma de decisiones.
2. Tipos de diseños mental
3. Diseño completamente al 2. Realiza la prueba de 2. Demuestra interés
azar hipótesis para la dife- por conocer la rela-
Tema N° 2: Prueba para la rencia de medias y ción entre variables
diferencia de medias luego interpreta los estadísticas.
1. Análisis de varianza de un resultados.
3. Es coherente en el
facto 3. Aplica experimentos
planteamiento de los
Tema N° 3: Experimento de dos factores y rea-
diseños experimenta-
factorial AxB ANOVA liza la prueba de hipó-
les.
Tema N° 4: Gráficos de tesis para experimen-
control para la variación y tos factoriales. 4. Resuelve situaciones
media 4. Realiza el control es- problemas vinculado
1. Datos de proceso tadístico de procesos. al control estadístico
2. Gráfica de rachas de procesos.
3. Fuentes de variación Actividad N°1
4. Gráfica R Los estudiantes Participan
Tema N° 5: Grafica de con- en el Foro de discusión so-
trol para atributos bre ¿Cuáles son las carac-
1. Gráfica de control p terísticas y etapas de la
2. Diagrama de c con barra investigación experimen-
Autoevaluación de la Unidad tal?
IV

41
TEMA N° 1: DISEÑO DE EXPERIMENTOS. DEFINICIONES Y
PRINCIPIOS BÁSICOS
En los métodos estadísticos, por lo general se toman datos que se obtienen de dos
fuentes distintas: las investigaciones observacionales y los experimentos.
Según Triola (2009):
 En un estudio observacional, vemos y medimos las características específicas,
pero no se intenta modificar a los sujetos que se está estudiando. Entre estos
estudios se tienen los estudios retrospectivos, los estudios transversales y
los estudios prospectivos.
 En un experimento se aplican algunos tratamientos y luego se procede a ob-
servar los efectos sobre los sujetos o unidades experimentales. Los experi-
mentos son realizados prácticamente en todos los campos del saber humano,
con la finalidad de descubrir algo sobre un proceso o sistema.

Figura 68. Tomado de Triola, 2009, p.22

42
1. DISEÑOS EXPERIMENTALES
De acuerdo a Hernández y otros (2014) el diseño señala al investigador lo que debe
hacer para alcanzar sus objetivos de estudio, contestar las interrogantes que se ha
planteado y analizar la certeza de la hipótesis formulada en un contexto particular.
Es decir, un diseño viene a ser el plan o estrategia concebida para responder a las
preguntas de investigación.
1.1. Definición: El diseño de experimentos es un conjunto de técnicas que per-
miten manipular un proceso para inducirlo a proporcionar la información que se re-
quiere para mejorarlo mediante cambios en sus variables y su interacción o secuencia
de ejecución. En suma, es la aplicación del método científico para generar conoci-
miento acerca de un proceso o sistema.
El diseño de un experimento es concebido como los procedimientos previstos para
garantizar que los datos se obtendrán de manera que permitan un análisis objetivo
y que conduzca a deducciones válidas en relación al problema de investigación.
Prosiguiendo con Hernández y otros (2014) es un estudio de investigación en el que
se manipulan deliberadamente una o más variables independientes (posibles cau-
sas), para analizar las consecuencias que la manipulación tiene sobre una o más
variables dependientes (supuestos efectos), dentro de una situación de control para
el investigador.
La metodología del diseño de experimentos se basa en la experimentación. Se sabe
que, si se repite un experimento, en condiciones indistinguibles, los resultados pre-
sentan cierta variabilidad. Si la experimentación se realiza en un laboratorio donde
la mayoría de las causas de variabilidad están controladas, el error experimental
será pequeño y habrá poca variación en los resultados del experimento.
1.2. Tipos de diseños
Por lo general, lo diseños experimentales se clasifican en diseños pre-experimentales,
cuasi experimentales y experimentales, los cuales a su vez se dividen en otros dise-
ños más específicos.
Carrasco, S. (2014) sostiene que los tipos de diseños experimentales son las dife-
rentes formas de resolver problemas de interés científico en el campo experimental,
en los que se tiene los pre-experimentales, los cuasi experimentales y los experi-
mentales puros, como se aprecia a continuación:

Pre experimental Cuasi experimental Experimental puro

Son aquellas investigacio- Son aquellos que no asig- Son aquellos que reúnen
nes en la que su grado de nan al azar los sujetos los dos requisitos para lo-
control es mínimo y no que forman parte del grar el control y la validez
cumplen con los requisitos grupo de control y experi- interna: grupos de control
de un verdadero experi- mental, ni son empareja- (manipulación de la varia-
mento. dos, puesto que los gru- ble o variables indepen-
pos de trabajo ya están dientes) y equivalencia de
formados. grupos.

1.3. Objetivo de un diseño de experimentos


El objetivo de un diseño de experimentos es proporcionar la mayor cantidad de in-
formación para responder el problema planteado en la investigación, con un mínimo
costo y máxima eficiencia.
Los principios básicos del diseño de experimentos es que se cumplan con la repro-
ducción, aleatorización y control.

43
Ejemplo 1: Un investigador está interesado en estudiar el efecto de los contenidos
televisivos antisociales sobre la conducta agresiva de los niños, para lo cual establece
dos grupos de niños, uno que ven solo programas televisivos con contenidos antiso-
ciales y otro grupo que ven solo programas televisivos con contenidos prosociales. Al
finalizar la experiencia se observará cuál de los dos grupos muestra una mayor con-
ducta agresiva, si ocurriera que el grupo de niños que vieron programas antisociales
muestran mayor conducta agresiva, frente a los niños que vieron programas proso-
ciales, y si no hay otra causa posible que hubiera afectado a los grupos de niños se
comprobaría la hipótesis.
 Hipótesis de investigación: Los programas televisivos con contenidos antiso-
ciales influyen sobre la conducta agresiva de los niños.
 Variable independiente: Programas televisivos antisociales.
 Variable dependiente: Conducta agresiva de los niños.
 Diseño de investigación: El diseño es cuasi experimental, pudiéndose utilizar
de dos maneras, así:

Diseño cuasi-experimental
solo con post-test

Diseño cuasi-experimental
solo con pre-test y post-test

Donde: GE: Grupo experimental


GC: Grupo control
X: Programas televisivos antisociales.
O1 y O2: Pre-test y post-test
Grupo experimental: los niños que ven sólo programas televisivos antisociales.
Grupo control: los niños que ven sólo programas televisivos prosociales.
Ejemplo 2: En la investigación es muy frecuente encontrar ejemplos donde se desea
comparar muestras distintas como:
 Una empresa dedicada a la agricultura utiliza diversos tipos de fertilizantes y desea
comparar si éstos tienen efectos diferentes sobre el rendimiento de la semilla de
quinua.
 Hipótesis de investigación: Los tipos de fertilizantes influyen sobre el ren-
dimiento de la semilla de quinua.
 Variable independiente: Tipos de fertilizantes.
 Variable dependiente: Rendimiento de la semilla de quinua.
 Variables intervinientes: Cantidad de riego, pureza de los insecticidas su-
ministrados, etc.
 Un docente de estadística aplicada que da clases en grupos experimentales de
estudiantes, en los que desarrolla en mismo contenido pero con distintas estrate-
gias didácticas, desea comprobar si la estrategia didáctica utilizada influye en las
calificaciones de los estudiantes en la asignatura.
 Hipótesis de investigación: Las estrategias didácticas que utiliza el docente
influyen en las calificaciones que obtienen los estudiantes.
 Variable independiente: Estrategias didácticas.
 Variable dependiente: Calificaciones de los estudiantes en estadística apli-
cada.
 Variables intervinientes: Conocimientos previos de los estudiantes, moti-
vación de los estudiantes, problemas socioemocionales, etc.

44
En las dos situaciones plateadas tienen en común que su interés está centrado en un
solo factor con varios tratamientos que pueden producir efectos distintos en la varia-
ble dependiente.
En los ejemplos desarrollados, aparte del factor señalado, también hay la posibilidad
que otros factores puedan influir, obviamente suponen tener poca importancia, a los
que se llama variables intervinientes. El resultado de todas estas causas no contro-
ladas (variables intervinientes) también influyen en la variable dependiente.
1.4. Diseño experimental completamente aleatorio
Es el diseño más simple y sencillo de realizar, en el cual los tratamientos se asignan
entre las unidades experimentales. Este diseño tiene una amplia aplicación cuando
las unidades experimentales son muy homogéneas, es decir, la mayoría de los fac-
tores actúan por igual entre las unidades.
El diseño completamente al azar es una prueba basada en el análisis de varianza, en
donde la varianza total se descompone en “la varianza de los tratamientos” y la “va-
rianza del error”. El objetivo es determinar si existe una diferencia significativa entre
los tratamientos, para lo cual se compara si la “varianza del tratamiento” contra la
“varianza del error” y se determina si la primera es lo suficientemente alta.
En este diseño los sujetos o unidades de observación se asignan a diferentes grupos
de tratamiento de manera aleatoria.
1.4.1. Características:
a) Se definen los tratamientos que se van aplicar a las n unidades experimentales,
de tal forma que a r unidades experimentales les va a corresponder un tipo de
tratamiento.
b) Las unidades experimentales se sortean para la asignación a cada tratamiento.
c) Se define la variable a medir.
1.4.2. Ventajas de los diseños completamente aleatorios:
a) Es flexible, el número de observaciones puede variar de un tratamiento para
otro.
b) El análisis estadístico es simple, aunque se tengan tratamientos con diferente
número de observaciones.
c) El análisis no se complica cuando se pierde algún dato o todo un tratamiento.
d) Los grados de libertad son máximos y en experimentos pequeños con pocos
tratamientos y repeticiones representan una ventaja.
Una de las desventajas es que es ineficaz en experimentos donde las unidades ex-
perimentales no son homogéneas, es decir si presentan mucha heterogeneidad.
1.4.3. Hipótesis de un diseño completamente al azar

En este diseño la hipótesis nula (H0) es que los efectos del tratamiento son todos
iguales, lo que se expresa por:

H0: β1= β2= β3=……


La hipótesis alterna es que hay al menos un efecto de tratamiento que es diferente
a los demás. Para probar esta hipótesis se hace uso de la prueba ANOVA.

45
ACTIVIDAD AUTOFORMATIVA N° 1
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:

f) En una investigación con diseño cuasi experimental difiere de una con ( )


diseño experimental en el grado de seguridad y confiabilidad.
g) Experimento se refiere a tomar una acción y luego observar sus con- ( )
secuencias.
h) El máximo control de las variables ocurren en los diseños pre-expe- ( )
rimentales
i) El diseño completamente al azar tiene aplicación cuando las unidades ( )
experimentales son muy homogéneas
j) En el diseño cuasi experimental los sujetos son asignados al azar. ( )
2. Una industria cervecera, que obtiene un determinado producto, está interesado
en comprobar si el color de los envases de vidrio influyen en el sabor de la cerveza.
Formule la hipótesis de investigación y las variables independiente, dependiente e
intervinientes.
3. Un docente de Estadística desea probar la eficacia de una nueva estrategia de
enseñanza, del cual ha conocido experiencias satisfactorias. Para ello, con la au-
torización de las autoridades educativas, distribuye a los estudiantes en dos gru-
pos aleatorios A y B. Se asigna al azar al grupo A las estrategias tradicionales de
clases expositivas, y al grupo B se le asigna la nueva estrategia de enseñanza. Al
final de dos semanas de clases se evalúa mediante una prueba escrita a ambos
grupos de estudiantes para observar los resultados. Identifique:
a) Variable independiente.
b) Variable dependiente.
c) Tipo de diseño.
d) Hipótesis nula e hipótesis alterna.

46
TEMA N° 2: PRUEBA PARA LA DIFERENCIA DE MEDIAS
(ANOVA)
1. Introducción
El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en
una variable cuantitativa. Se trata, por lo tanto, de una generalización de la prueba
“t” de Student para dos muestras independientes al caso de diseños con más de dos
muestras.
El nombre “análisis de varianza” se basa en el enfoque en el cual el procedimiento
utiliza las varianzas para determinar si las medias son diferentes. El procedimiento
funciona comparando la varianza entre las medias de los grupos y la varianza dentro
de los grupos como una manera de determinar si los grupos son todos parte de una
población más grande o poblaciones separadas con características diferentes.
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K
poblaciones (K>2) son iguales, frente a la hipótesis alternativa de que por lo menos
una de las poblaciones difiere de las demás en cuanto a su valor esperado.
De acuerdo a Triola (2009, p.636) el análisis de varianza es un método de prueba de
igualdad de tres o más medias poblacionales, por medio del análisis de las varianzas
muestrales.
Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1)
H0: µ1=µ2=µ3= µ4=….
H1: No todas las medias son iguales
Si el valor estadístico de prueba (ANOVA) nos impulsa a aceptar la hipótesis nula
(H0), se concluye que las diferencias observadas entre las medias muestrales se de-
ben a la variación casual en el muestreo (por lo que se asevera que los valores medios
de la población son iguales). Si se rechaza la hipótesis nula (H0), se concluye que las
diferencias entre los valores medios de la muestra son demasiado grandes como para
deberse únicamente a la casualidad (por lo que se asevera que, no todas las medias
de la población son iguales)

Figura 69. Región de rechazo y de aceptación.


El análisis de varianza requiere el cumplimiento de los siguientes supuestos:
 Las poblaciones (distribuciones de probabilidad de la variable dependiente co-
rrespondiente a cada factor) son normales.
 Las K muestras sobre las que se aplican los tratamientos son independientes.
 Las poblaciones tienen todas igual varianza (homocedasticidad).

2. Análisis de varianza de un factor (o en una dirección)

47
Se utiliza para probar la hipótesis de que tres o más medias poblacionales son
iguales y porque se emplea una sola propiedad o característica para categorizar
las poblaciones.
Tabla ANOVA

Suma de Grados de Cuadrados medios


Fuente de variación
cuadrados libertad (CM)
Entre los grupos SCE k-1 CME= SCE/(k-1)
Dentro de los grupos SCD n-k CMD=SCD/(n-k)
Total SCtotal n-1

Donde: SCE: Suma de cuadrados entre los grupos.


SCD: Suma de cuadrados dentro de los grupos.
SCtotal: Suma de cuadrados total
CME: Cuadrado medio entre grupos
CMD: Cuadrado medio dentro de los grupos.
k: Número de grupos
n: Número de datos

Ejemplo 1: Se tiene un nuevo limpiador de uso múltiple cuya demanda se prueba


exhibiéndolo en tres lugares diferentes dentro de diversos supermercados. La
tabla muestra el número de botellas de 12 onzas de “Clean All” que se vendieron
en cada ubicación. Al nivel de significancia del 0,025 ¿existe una diferencia en el
número medio de botellas vendidas según el punto de venta?

Con otros
Cerca de Cerca de
limpiado-
panadería la cerveza
res
20 12 25
15 18 28
24 10 30
18 15 32
Solución
Paso 1: Formulación de la hipótesi nula (H0)y la hipótesis alterna (H1)
H0: La media del número de botellas vendidas no difieren según el punto
de venta.
H0: µ1 = µ2 = µ3
H1: No todas las medias del número de botellas vendidas en los puntos
de ventas son iguales.
Paso 2: Nivel de significación α=0,025
Paso 3: Prueba análisis de varianza de un factor (ANOVA).
Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,025 hallamos la
región crítica para 2 y 9 grados de libertad F(2; 9)= 5,7147
Paso 5: Se halla los datos:
Cerca de Cerca de Con otros
panade- la cer- limpiado- (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2
ría veza res
20 12 25 0,56 3,06 14,06
15 18 28 18,06 18,06 0,56
24 10 30 22,56 14,06 1,56

48
Me- 18 15 32 1,56 1,56 10,56
dia 19,25 13,75 28,75 42,74 36,74 26,74
Media total=20,58 SCD=106,22

Donde: Media total= (19,25+13,75+28,75)/3=20,58


SCD=42,74+36,74+26,74=106,22
SCE=4(19,25-20,58)2+4(13,75-20,58)2+4(28,75-20,58)2 = 460,68
Completando en la tabla ANOVA:
Fuente de variación Suma de cuadrados g.l. Cuadrados medios
Entre grupos SCE=460,68 3-1=2 460,68/2=230,34
Dentro de los grupos SCD=106,22 12-3=9 106,22/9=11,80
Total SCtotal =566,90

230,34
Hallamos la razón F: 𝐹𝑐 = = 19,5203
11,80

Paso 6: Regla de decisión: Se rechaza H0 si Fc > F(2; 9)


19,5203 >5,7147 ………... (V)

Zona de aceptación H0 Zona de rechazo de H0

1-α=0,975 α=0,025

0 5,7147 19,5203

Figura 70. Zona de aceptación y de rechazo de H0

Conclusión: Se rechaza la hipótesis nula (H0) y se acepta la hipótesis alterna


(H1), por tanto, se afirma que el número medio de botellas vendidas de “Clean All”
difieren según el punto de venta donde se ubicó el producto, para un nivel de
confianza del 97,5%.
Ejemplo 2: Se determinó el tiempo de respuesta en milisegundos para cuatro
tipos diferentes de circuitos utilizados en una calculadora electrónica. Realice el
análisis de varianza e indique si los cuatro circuitos tienen una respuesta media
homogénea. Pruebe la hipótesis para α=0,05. Los resultados se presentan a con-
tinuación:

Circuitos

49
1 2 3 4
25 40 17 23
20 33 18 25
18 27 26 21
22 21 16 19
20 22
Solución
Paso 1: Formulación de H0 y H1
H0: Los circuitos tienen una respuesta media homogénea.
H1: No todas las medias de los circuitos son iguales.
Paso 2: Nivel de significación α=0,05
Paso 3: Prueba análisis de varianza de un factor (ANOVA).
Paso 4: Utilizando la tabla A-5 para un nivel de significación 0,05 hallamos la
región crítica para 3 y 14 grados de libertad F(3; 14)= 3,3439
Paso 5: Los datos necesarios:

1 2 3 4 (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2 (𝑥4 − 𝑥̅4 )2


25 40 17 23 14,06 139,24 5,06 1,00
20 33 18 25 1,56 23,04 1,56 9,00
18 27 26 21 10,56 1,44 45,56 1,00
22 21 16 19 0,56 51,84 10,56 9,00
20 22 67,24 0,00
21,25 28,20 19,25 22,00 26,74 282,80 62,74 20,00
Media total=22,68 SCD=392,28
Media total= (21,25+28,20+19,25+22,00)/4=22,68
SCD=26,74+282,80+62,74+20,00=392,28
SCE=4(21,25-22,68)2+5(28,20-22,68)2+4(19,25-22,68)2+5(22,00-22,68)2
SCE=209,90
Completando en la tabla ANOVA:
Fuente de variación Suma de cuadrados g.l. Cuadrados medios
Entre grupos SCE=209,90 4-1=3 209,90/3=69,97
Dentro de los grupos SCD=392,28 18-4=14 392,28/14=28,02
Total SCtotal =602,18

69,97
La razón F: 𝐹𝑐 = = 2,4971
28,02

Paso 6: Regla de decisión: Se rechaza H0 si Fc > F(3; 14)


2,4971 >3,3439 ………... (F)

50
Zona de aceptación H0 Zona de rechazo de H0

1-α=0,975 α=0,025

0 2,4971 3,3439
Figura 71. Zona de aceptación y de rechazo de H0
Figura 3
Conclusión: Para un 95% de nivel de confianza no es posible rechazar la hipótesis
nula (H0), por lo que se asevera que los cuatro tipos de circuitos utilizados en la
calculadora electrónica tienen una respuesta media homogénea.

ACTIVIDAD AUTOFORMATIVA N° 2
1. Complete los valores: (utilice la tabla A-5)

Tamaño to- Grados de libertad


Nivel de No de Valor de
tal de la Denomina-
confianza grupos Numerador Fα
muestra dor
95% 5 20
97,5% 9 30
2. Una fábrica de hilados tiene un gran número de telares. Se supone que cada uno
de los telares proporciona la misma salida de tela por minuto. Para investigar esta
suposición, se eligen tres telares al azar y su salida se mide en diferentes tiempos.
La tabla muestra los resultados. ¿Son los telares similares en la salida media de
tela (kg/min)?

Telar 1 Telar 2 Telar 3


7,9 8,0 8,2
7,6 8,2 8,4
7,8 8,4 8,2
8,0 8,0 7,8
7,8 8,0

3. Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión


arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar
20 hipertensos y se distribuyen aleatoriamente en 4 grupos. Al primero de ellos
no se les suministra ningún tratamiento, al segundo una dieta sin sal, al tercero
el fármaco a una dosis determinada y al cuarto el mismo fármaco a otra dosis. Las
presiones arteriales sistólicas de los 20 sujetos al finalizar el tratamiento se mues-
tra en la tabla. ¿Puede concluirse que los resultados de los tratamientos difieren
para α=0,025?

1 2 3 4

51
180 163 158 147
173 170 146 152
175 158 160 143
182 162 171 155
181 170 155 160

4. Se desea investigar los efectos del ejercicio sobre el estrés. En la tabla adjunta se listan
las lecturas de la presión sanguínea sistólica (en milímetros de mercurio) de sujetos antes
de iniciar los ejercicios aeróbicos y antes de generarles estrés por medio de una prueba
psicotécnica. Utilice un nivel de significancia de 0,05 para probar la aseveración de que
los diferentes grupos de sujetos tienen la misma presión sanguínea media (mm Hg). ¿se
puede considerar que los grupos provienen de la misma población?
Grupo A Grupo B Grupo C
97 135 99
110 130 100
102 133 87
93 121
124

52
TEMA N° 3: EXPERIMENTO FACTORIAL AxB (ANOVA en dos direcciones)
En un análisis de varianza en dos direcciones se considera una segunda variable
de tratamiento. La segunda variable de tratamiento se denomina la variable de
bloqueo.
La ventaja de considerar otros factores reside en que se puede reducir la varianza
del error.
El valor estadístico F para la variable de tratamiento y la variable de bloqueo, se
determinan en la siguiente tabla:

Fuente de Suma de Grados de


Cuadrados medios F
variación cuadrados libertad
Tratamientos SCT k-1 SCT/(k-1)=CMT CMT/CMR
Bloques SCB b-1 SCB/(b-1)=CMB CMB/CMR
Error SCR (k-1)(b-1) SCR/(k-1)(b-1)=CMR
Total SCtotal n-1
Donde:
SCT: Suma de cuadrados de los tratamientos.
SCB: Suma de cuadrados de los bloques.
SCR: Suma de cuadrados del error (o Error)
SCTtotal: Suma de cuadrados total
CMT: Cuadrado medio de los tratamientos.
CMB: Cuadrado medio de los bloques.
CMR: Cuadrado medio del error
Ejemplo 1: Una empresa de transportes realiza una ampliación de autobuses
desde un punto de la ciudad hasta el centro de la ciudad. Hay cuatro rutas: A; B;
C y D. Se sabe que la empresa realizó varios recorridos de prueba para determinar
si existe diferencia entre los tiempos utilizados al recorrer las cuatro rutas. Como
hay una gran número de conductores, la prueba se realizó de manera que cada
uno de los conductores recorriera cada una de las cuatro rutas. A continuación se
muestran los tiempos del recorrido, en minutos de cada combinación conductor-
ruta. A nivel de significación de 0,05. ¿Existirá alguna diferencia en el tiempo pro-
medio de viaje en las cuatro rutas y los cinco conductores elegidos aleatoria-
mente?
Rutas
Conductores A B C D
García 18 20 20 22
Sánchez 21 22 24 24
Rojas 20 23 25 23
Buendía 25 21 28 25
Gutiérrez 26 24 28 25
Solución
 Para los tratamientos (Columnas)
Considerando sólo las 4 rutas (o columnas) completamos la tabla:
Rutas
Conduc- (Tratamientos) (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2 (𝑥4 − 𝑥̅4 )2
tor
A B C D
García 18 20 20 22 16 4 25 3,24
Sánchez 21 22 24 24 1 0 1 0,04

53
Rojas 20 23 25 23 4 1 0 0,64
Buendía 25 21 28 25 9 1 9 1,44
Gutiérrez 26 24 28 25 16 4 9 1,44
Medias 22 22 25 23,8 46 10 44 6,80
Media total=23,20 SCD=106,80
Donde: Media total= (22+22+25+23,8)/4=23,20
SCD=46+10+44+6,80=106,80
SCE=5(22-23,2)2+5(22-23,2)2+5(25-23,2)2 +5(23,8-23,2)2 = 32,40
En la tabla ANOVA para los tratamientos:
Suma de Cuadrados me-
Fuente de variación g.l.
cuadrados dios
Entre grupos SCE=32,40 4-1=3 32,40/3=10,80
Dentro de los grupos SCD=106,80 20-4=16
Total SCtotal=139,20 19

 Para los bloques (Filas)


Completamos la tabla para el bloque de conductores:
Rutas
Conductores Medias Media total
A B C D
García 18 20 20 22 22,00
Bloques

Sánchez 21 22 24 24 22,75
Rojas 20 23 25 23 22,75 23,20
Buendía 25 21 28 25 24,75
Gutiérrez 26 24 28 25 25,75
Hallamos la suma de cuadrados entre bloques (SCEB):
SCB=4(20-23,2)2+4(22,75-23,2)2+4(22,75-23,2)2+4(24,75-23,2)2
+4(25,75-23,2)2
SCB=78,20
En base a los datos de la tabla ANOVA anterior tenemos:
Fuente de va- Suma de Cuadrados
g.l.
riación cuadrados medios
Tratamientos Rutas SCT= 32,40 4-1= 3 32,4/3=10,80
Bloques Conductores SCB= 78,20 5-1= 4 78,2/4=19,55
Error SCR= 28,60 3x4=12 28,6/12=2,38
Total SCtotal=139,20 n-1=19

Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1)


H0: Las medias de las columnas son iguales.
H1: Las medias de las columnas no son iguales.
10,80
Luego: 𝐹𝑐 = = 4,5378
2,38

Se rechaza H0 si Fc > F(3; 12)


4,5378>3,4903 ………... (V)

54
Se rechaza H0 para un 95% de confianza, es decir se asevera que el tiempo
medio de viaje no es el mismo en las cuatro rutas.

Formulación de la hipótesis nula (H0) y la hipótesis alterna (H1)


H0: Las medias de las filas son iguales.
H1: Las medias de las filas no son iguales.

19,55
Luego: Fc = = 8,2143
2,38

Se rechaza H0 si Fc > F(4; 12)


8,2143>3,2592 ………... (V)
Se rechaza H0 para un 95% de confianza, es decir se asevera que el tiempo
medio de viaje no es el mismo para los cinco conductores.
Conclusión: Finalmente se asevera que hay diferencia en el tiempo utilizado en
las cuatro rutas y con los cinco conductores, para un 95% de nivel de confianza.
Ejemplo 2: Suponiendo que se quiere investigar si la producción de tres diferen-
tes máquinas es igual, tomando en cuenta la experiencia de los operadores a un
nivel de significación del 2,5%.
Experiencia de Máquinas
los operadores 1 2 3
1 año 27 21 25
5 años 31 33 35
10 años 42 39 39
15años 38 41 37
Solución

 Para los tratamientos (Columnas)


Considerando sólo las 3 máquinas (o columnas) completamos la tabla:
Experiencia de Máquinas
(𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2
los operadores 1 2 3
1 año 27 21 25 56,25 156,25 81
5 años 31 33 35 12,25 0,25 1
10 años 42 39 39 56,25 30,25 25
15años 38 41 37 12,25 56,25 9
Medias 34,50 33,50 34,00 137,00 243,00 116
Media total=34,00 SCD=496,00
Donde: Media total= (34,50+33,50+34,00)/3=34,00
SCD=137+243+116=496
SCE=4(34,50-34)2+4(33,50-34)2+4(34,00-34)2 = 2,00
En la tabla ANOVA para los tratamientos:
Suma de Cuadrados me-
Fuente de variación g.l.
cuadrados dios
Entre grupos SCE=2,00 3-1=2 2,00/2=1,00
Dentro de los grupos SCD=496,00 12-3=9
Total SCtotal=498,00 11

 Para los bloques (Filas)

55
Completamos la tabla para el bloque de los años de experiencia:
Experiencia de Máquinas
los operadores Medias Media total
1 2 3
1 año 27 21 25 24,33

Bloques
5 años 31 33 35 33,00
34,00
10 años 42 39 39 40,00
15años 38 41 37 38,67

Hallamos la suma de cuadrados entre bloques (SCEB):


SCB=3(24,33-34)2+3(33-34)2+3(40-34)2+3(38,67-34)2
SCB=456,95
En base a los datos de la tabla ANOVA anterior tenemos:
Fuente de Suma de Cuadrados me-
g.l.
variación cuadrados dios
Tratamientos Máquinas SCT= 2,00 3-1= 2 2,00/2=1,00
Bloques Experiencia SCB= 456,95 4-1= 3 456,95/3=152,32
Error SCR= 39,05 2x3=6 39,05/6=6,51
Total SCtotal=498,00 n-1=11

Formulación de H0 y H1 para las columnas:


H0: Las medias de la producción según las máquinas son iguales.
H1: Las medias de la producción según las máquinas no son iguales.
1,00
Luego: 𝐹𝑐 = = 0,1536
6,51

Se rechaza H0 si Fc > F(2; 6)


0,1536>7,2599 ………... (F)
No es posible rechazar H0 para un 97,5% de confianza, se asevera que la pro-
ducción en las tres máquinas son iguales.
Formulación de H0 y H1 para las filas:
H0: Las medias de la producción según los años de experiencia son iguales.
H1: Las medias de la producción según los años de experiencia no son iguales.

152,32
Luego: Fc = = 23,3978
6,51

Se rechaza H0 si Fc > F(3; 6)


23,3978>6,5988 ………... (V)
Se rechaza H0 para un 97,5% de confianza, es decir se asevera que las medias
de la producción según los años de experiencia no son iguales.
Conclusión: Finalmente se asevera que no hay diferencia entre las máquinas a
pesar de la diferencia en la experiencia de los operadores, para un 97,5% de
nivel de confianza.

56
ACTIVIDAD N° 3
1. Una empresa de publicidad desea saber si el tamaño de un anuncio y su colorido
producen diferencia en la respuesta de los lectores de revistas. A una muestra
aleatoria de lectores les fue presentada una serie de anuncios con cuatro colores
distintos y tres tamaños diferentes. A cada lector se le pide que asigne una califi-
cación, de 1 a 10, a cada combinación de color y tamaño. Supóngase que las
calificaciones se distribuyen en forma aproximadamente normal. Las puntuaciones
de cada combinación se muestran en la siguiente tabla. Utilice α=0,025
Tamaño del Color del anuncio
anuncio Rojo Azul Naranja Verde
Pequeño 2 3 3 8
Mediano 3 5 6 7
Grande 6 7 8 8

2. Un investigador desea probar el efecto de cuatro agentes químicos sobre la resis-


tencia de un tipo particular de tela. Debido a que podría haber variabilidad de un
rollo de tela a otro, el investigador decide utilizar un diseño de bloques aleatori-
zados, con los rollos de tela considerados como bloques. Selecciona 5 rollos y
aplica los cuatro agentes químicos de manera aleatoria a cada rollo. A continua-
ción, se presentan las resistencias a la tensión resultantes. Analice los datos de
este experimento para α=0,05 e interprete los resultados.
Agente Rollos
químico 1 2 3 4 5
1 72 67 73 70 66
2 72 66 74 71 69
3 74 67 77 72 67
4 72 70 74 74 68

3. Se describe un experimento para investigar el efecto del tipo de cristal y el tipo de


fósforo sobre la brillantez de un cinescopio. Los datos son la corriente en micro
amperes necesaria para obtener un nivel de brillantez específico. Utilice α=0,05.
Los datos son los siguientes:

Tipo de fósforo
Tipo de cristal
1 2 3
280 300 290
1 290 310 285
285 295 290
230 260 220
2 235 240 225
240 235 230

57
TEMA N° 4: GRÁFICOS DE CONTROL PARA LA VARIACIÓN Y LA
MEDIA
1. Datos de proceso: son datos ordenados de acuerdo con alguna secuencia de
tiempo. Son mediciones de una característica de bienes o servicios que resultan
de alguna combinación de equipo, personas, materiales, métodos y condiciones.
2. Gráfica de rachas: es una gráfica secuencial de valores de datos individuales a
lo largo del tiempo. Un eje (generalmente el eje vertical) se utiliza para los valores
de los datos y el otro eje (generalmente el eje horizontal) se emplea para la se-
cuencia de tiempo).

Figura 72. Gráfico de rachas

3. Interpretación de una gráfica de rachas


Un proceso es estadísticamente estable o se encuentra bajo control estadístico si sólo
varía de forma natural, sin patrones, sin ciclos o puntos fuera de lo común.
Gráfica 𝒙
̅
Es una gráfica de control que permite realizar el seguimiento de media del proceso.
Donde:
Línea central: es la media de todas las medias muestrales y se simboliza por 𝒙
̿
Límite de control superior: LCS = x̿ + A2 R
̅

Límite de control inferior: LCI = x̿ − A2 R


̅

El valor de A2 se encuentra en la Tabla 14-2

58
Tabla 4. Tomado de Triola (2009)

Ejemplo 1: Una empresa ofrece un servicio telefónico gratuito para asesorar a sus
clientes respecto a problemas con el uso de sus productos, desde las 8:00 a.m. hasta
las 5:00 p.m. todos los días. Es imposible que un representante técnico conteste
inmediatamente a cada llamada, por lo que se presenta un malestar en los clientes.
La empresa decide elaborar un diagrama de control que describa el tiempo (en mi-
nutos) que transcurre desde que se recibe una llamada hasta que un representante
responda al cliente. Cierto día se tomó una muestra de cinco llamadas cada hora, el
resultado se muestra a continuación:

Muestras
Hora
1 2 3 4 5
8 7 10 7 6 8
9 11 12 10 9 10
10 12 8 6 9 12
11 11 10 6 14 11
12 7 7 10 4 11
13 10 7 4 10 10
14 8 11 11 7 7
15 8 11 8 14 12
16 12 9 12 17 11
17 7 7 9 17 13

59
En base a esta información elabore una gráfica de control (Gráfica de la x̅) para la
duración media de la llamada, ¿parece haber una tendencia en los tiempos de las
llamadas?, ¿Existe algún periodo en el que parezca que algunos clientes esperan más
tiempo que otros?
Solución
Hallamos la media y la amplitud o rango de cada una de las filas, así:

Número de muestra Amplitud/


Hora Media
1 2 3 4 5 rango
8 7 10 7 6 8 7,6 10-6=4
9 11 12 10 9 10 10,4 12-9=3
10 12 8 6 9 12 9,4 12-6=6
11 11 10 6 14 11 10,4 8
12 7 7 10 4 11 7,8 7
13 10 7 4 10 10 8,2 6
14 8 11 11 7 7 8,8 4
15 8 11 8 14 12 10,6 6
16 12 9 12 17 11 12,2 8
17 7 7 9 17 13 10,6 10
Suma 96 62
96
Luego: x̿ = = 9,6 min ̅ = 62 = 6,2 minutos
R
10 10

De la tabla 14-2 hallamos el valor A2=0,577 para 5 subgrupos


Límite de control superior: LCS = x̿ + A2 R
̅

Límite de control inferior: LCI = x̿ − A2 R


̅

Hallamos los límites de control: LCS=9,6+0,577(6,2)=13,18


LCI= 9,6-0,577(6,2)=6,02
Interpretación:
 El proceso se encuentra bajo control estadístico.
 Existe cierta variación en la duración de las llamadas telefónicas, pero todas las
medias muestrales se encuentran dentro de los límites de control.

Figura 73. Gráfico de rachas

60
De acuerdo a Triola (2009), un proceso está fuera de control estadístico cuando:
1. Hay un patrón, una tendencia o un ciclo que evidentemente no es aleatorio.
2. Hay un punto que está fuera de la región entre los límites superior e inferior.
3. Si cumplen una de las siguientes rachas:
 Existen ocho puntos consecutivos, todos por encima o por debajo de la línea
central (Regla de racha de 8).
 Existen seis puntos consecutivos, todos crecientes o decrecientes.
 Hay 14 puntos consecutivos alternantes que se incrementan o disminuyen
sucesivamente.
 Dos de cada tres puntos consecutivos están más allá de los límites de control
que se encuentran a dos desviaciones estándar de la línea central.
 Cuatro de cada cinco puntos consecutivos están más allá de los límites de
control que están a una desviación estándar de la línea central.
Ejemplo 2: El gráfico de rachas muestra la media de los errores de medición de 4
altímetros durante 20 días hábiles consecutivos. Los altímetros fueron elegidos al
azar. Observe el gráfico y determine si el proceso de producción de altímetros para
aviones está bajo control estadístico.

Gráfico de la media de errores


LCS=48,3
8
Rango de errores

𝐱̅ = 𝟐𝟏, 𝟐 𝐩𝐢𝐞𝐬

LCI=0

Días
Figura 74. Gráfico de la media de errores
Solución
 El proceso de producción de altímetros para aviones no se encuentra bajo control
estadístico.
 Las medias están bajo control estadístico en las primeras muestras, pero hay
una tendencia hacia el límite de control superior (LCS). La media es la última
muestra está fuera de control estadístico.

 En consecuencia, hay que realizar un ajuste en el proceso de producción de altí-


metros para aviones.

4. Fuentes de variación
4.1. Variación aleatoria: se debe al azar, este tipo de variación inherente a
cualquier proceso que no es capaz de producir un bien o servicio exacta-
mente de la misma forma cada vez.

61
4.2. Variación asignable: Resulta de causas identificables como maquinaria de-
fectuosa, empleados sin capacitación adecuada, entre otros.
4.3. Gráfica R
Es una gráfica de control para supervisar la variación.
Una gráfica de control de una característica de proceso (como la media o la variación)
consiste en valores graficados en secuencia a lo largo del tiempo e incluye una línea
central, así como un límite de control inferior (LCI) y un límite de control superior
(LCS).
Notación:
n: tamaño de cada muestra o subgrupo.
Puntos graficados son los rangos muestrales.
Línea central: R
̅
Límite de control superior: LCS=D4R ̅
Límite de control inferior: LCI=D3R
̅

Los valores de D3 y D4 se obtienen de la Tabla 14-2

Ejemplo 3: Elabore un gráfico de control para amplitudes de variación (gráfica R)


del ejemplo 1, ¿parece que hay momentos en los que se presenta demasiada varia-
ción en la operación? Formule su conclusión.

Solución
De la tabla 14-2 hallamos el valor D3=0,000 y D4=2,114
Del ejemplo 1 ya se conoce que R
̅ = 6,2 𝑚𝑖𝑛𝑢𝑡𝑜𝑠

Hallamos los límites de control: LCS=2,114(6,2)=13,11


LCI= 0,000(6,2)=0,00
Al observar el gráfico se concluye que:
 El gráfico muestra que todas las amplitudes se encuentran dentro de los límites
de control.
 La variación en el tiempo de atención a las llamadas de los clientes están dentro
de los límites normales, es decir el tiempo de atención a la llamadas se encuen-
tran bajo control estadístico.

Figura 75. Gráfico que muestra que todas las amplitudes se encuentran dentro de
los límites de control

62
Ejemplo 4: Interprete el diagrama de amplitud de variación de los grados brix en
la fabricación de bebidas gaseosas. Argumente si las situaciones mostradas están
bajo control estadístico.

Figura 76. Diagrama de amplitud de variación de los grados brix en la fabricación


de bebidas gaseosas

Solución

Luego de analizar el diagrama de amplitudes, se afirma que el proceso es variable,


ya que existen muchas observaciones muy cerca al límite de control inferior, lo que
indica que los grados brix en la bebida están por debajo del promedio.

ACTIVIDAD AUTOFORMATIVA N° 4
5. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) La variación aleatoria es inherente a todo proceso de producción. ( )
b) Cuando se aprecia un ciclo que no es aleatorio se afirma que el pro- ( )
ceso es estable.
c) Contar con maquinaria defectuosa es una causa de la variación alea- ( )
toria.
d) Los límites de control de un gráfico son fronteras que indican puntos ( )
extremos.
e) El gráfico de rachas permite asegurar que las características de un ( )
proceso si cambian.
6. Un fabricante de triciclos selecciona diariamente al azar 8 armazones y determina
la cantidad de defectos. El número de armazones defectuosos encontrado en los
últimos 15 días es: 4; 3; 2; 4; 3; 3; 9; 3; 1; 4; 6; 3; 0; 5; 3. Elabore un diagrama
de control para este proceso y determine si está “bajo control”.
7. Una empresa que produce papel higiénico evalúa su producto sometiendo 12 rollos
a una prueba de esfuerzo en humedad y verificando si el papel se rompe durante
la prueba y con qué frecuencia. A continuación, se presenta en número de rollos
defectuosos encontrado en los últimos 13 días: 0; 0; 1; 2; 2; 1; 2; 2; 3; 1; 2; 2
y 1. Elabore el diagrama de control para el proceso y determine si está o no “bajo
control”.
8. Se ha instalado un nuevo horno industrial en una empresa panadera. Para adquirir
experiencia respecto a las temperaturas del horno, un ingeniero toma lecturas de
la temperatura en 6 sitios diferentes del horno, cada media hora. La primera lec-
tura tomada a las 9:00 a.m. fue de 351 oF. (En la tabla sólo se dan sólo los dos
últimos dígitos de las lecturas para facilitar los cálculos). Determine los límites de

63
control superior e inferior de la lectura media de la temperatura, con su corres-
pondiente gráfica e interpretación. Además, elabore la gráfica de control de am-
plitudes (o rangos) e interprete fundamentando sus razones.

Lecturas (oF)
Hora
1 2 3 4 5 6
9:00 51 50 20 40 30 45
9:30 38 45 21 44 25 38
10:00 47 45 30 41 20 43
10:30 41 39 48 40 40 45
11:00 46 42 30 37 60 41
11:30 39 41 22 40 31 40
12:00 44 25 38 41 39 48

64
TEMA N° 5: GRÁFICAS DE CONTROL PARA ATRIBUTOS
1. Gráfica de Control de p: es una gráfica de se dibuja en secuencia en función del
paso del tiempo y que incluye una línea central, un límite de control inferior (LCI)
y un límite de control superior (LCS).

Notación:

El estimado agrupado de la proporción de artículos defectuosos en el proceso se sim-


boliza por 𝑝̅ y el estimado agrupado de la proporción de artículos del proceso que no
son defectuosos se simboliza por 𝑞̅
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑒𝑓𝑒𝑐𝑡𝑜𝑠 𝑒𝑛𝑐𝑜𝑛𝑡𝑟𝑎𝑑𝑜𝑠 𝑒𝑛 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜𝑠 𝑚𝑢𝑒𝑠𝑡𝑒𝑎𝑑𝑜𝑠
𝑝̅ =
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑟𝑡í𝑐𝑢𝑙𝑜𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑎𝑑𝑜𝑠
𝑞̅ = 1 − 𝑝̅
n: tamaño de cada muestra
línea central: 𝑝̅
̅ .q
p ̅
Límite de control superior: p̅ + 3√
n

̅ .q
p ̅
Límite de control inferior: p̅ − 3√
n

Nota: Si el valor del límite de control inferior saliera negativo, utilice 0 en su lugar.
Si el valor del límite de control superior excediera a 1, utilice 1 en su lugar.
Ejemplo 1: El departamento de crédito de un banco se encarga de ingresar cada
transacción al estado de cuenta mensual del cliente. La exactitud es decisiva y los
errores causarían el descontento de los clientes. Para evitar equivocaciones, cada
empleado que ingresa los datos teclea una muestra de 1500 de su lote de trabajo
una segunda vez, y un programa de computación verifica que los números concuer-
den. El programa imprime además un informe acerca del número y tamaño de cual-
quier discrepancia. Siete personas trabajaron durante la última hora y los siguientes
son los resultados:
o o
Empleado N N que no
inspeccionado concuerdan
1 1500 4
2 1500 6
3 1500 6
4 1500 2
5 1500 15
6 1500 4
7 1500 4
a) Elabore un diagrama de porcentaje de defectuosos para este proceso ¿Cuáles son
los límites de control superior e inferior? Interprete los datos.
b) ¿Parecería que algunos de los encargados de ingresar los datos están “fuera de
control”?
Solución
Completamos la tabla:
o o
Proporción de de-
Empleado N N que no
fectos
inspeccionado concuerdan
1 1500 4 4/1500=0,0027
2 1500 6 6/1500=0,0040

65
3 1500 6 0,0040
4 1500 2 0,0013
5 1500 15 0,0100
6 1500 4 0,0027
7 1500 4 0,0027
Total 10500 41
41
Luego: 𝑝̅ = = 0,0039
10500

0,0039(1 − 0,0039)
LCS = 0,0039 + 3. √ = 0,0087
1500

0,0039(1−0,0039)
LCS = 0,0039 − 3. √ = −0,0009 ~ 0 (No hay proporción negativa).
1500

Gráficamente se tiene el diagrama de control para las proporciones de los ingresos


defectuosos de datos:

Figura 77. Diagrama de control para las proporciones de los ingresos defectuosos
de datos
Conclusión:
 Si la proporción de defectos se encuentran entre los límites 0,0000 y 0,0087, se
dice que el proceso está bajo control.
 Se observa que el desempeño del empleado 5 está fuera de control estadístico,
debido a que la proporción de defectos que él muestra es de 0,0100 o 1% cifra
que se encuentra fuera del límite superior de control, por lo que se sugiere un
entrenamiento o capacitación adicional o debe ser transferido a otra área de
trabajo en el banco.

2. Diagrama de c con barra


El diagrama llamado c con barra representa gráficamente el número de defectos o
fallas por unidad.
Límites de control para el número de defectos por unidad:
𝐿𝐶𝐼 = 𝑐̅ − 3√𝑐̅ 𝐿𝐶𝑆 = 𝑐̅ + 3√𝑐̅
Donde 𝑐̅ es el número medio de defectos por unidad.

66
Ejemplo 1: El director de un periódico de Huancayo está interesado en determinar el
número de palabras mal escritas que se publican en ese diario. Para controlar el
problema y promover la necesidad de una escritura correcta, se utilizará un diagrama
de control. El número de palabras con errores en la edición final del diario durante
los últimos 10 es días es: 9; 10; 7; 4; 8; 9; 5; 6; 11; y 9. Determine los límites de
control adecuados e interprete el diagrama. ¿Hubo algunos días en ese periódico en
los que el número de palabras mal escritas haya estado fuera de control?
Solución
9+10+7+4+8+9+5+6+11+9
Hallamos 𝑐̅: 𝑐̅ = = 7,80
10

Luego: 𝐿𝐶𝐼 = 7,8 − 3(√7,8) = −0,58~0,00 porque el número de palabras mal escritas no
puede ser negativo.
𝐿𝐶𝑆 = 7,8 + 3(√7,8) = 16,18
Por tanto, el límite inferior de control es 0 y el límite superior de control es 16,18.
El diagrama c se muestra a continuación:

Figura 78. Diagrama de c con barra


Conclusión:
 Al comparar cada punto de los datos con el valor 16,18 se observa que todos
ellos son menores que el límite superior de control, de manera que el número de
palabras más escrita en el diario huancaíno se encuentra “bajo control”.

ACTIVIDAD AUTOFORMATIVA N° 5
1. Determine el valor de Verdad (V) o Falsedad (F) de las siguientes proposiciones:
a) Un diagrama de c con barras se refiere al número de defectos por ( )
unidad.
b) El objetivo del control estadístico de calidad es controlar la calidad ( )
del producto, mas no así el servicio que se ofrece.
c) El objetivo de los diagramas de control es monitorear en forma grá- ( )
fica la calidad de un producto o servicio.
d) Un diagrama para la media muestra la amplitud de variación de la ( )
variable.
e) La gráfica de atributos es un diagrama de porcentajes de defectos. ( )
2. Una empresa que fabrica acumuladores para vehículos está interesada en evaluar
la calidad el producto que ofrece al mercado, para lo cual selecciona una muestra

67
de acumuladores y los prueba. El número de acumuladores defectuosos encontra-
dos en los últimos 14 turnos es: 4; 3; 2; 4; 3; 3; 9; 3; 3; 4; 8; 3; 4 y 6. Elabore
el diagrama de control para el proceso y determine si está o no bajo control.
3. Una cadena de supermercados evalúa el trabajo de sus cajeros examinando al
azar los recibos impresos para verificar si hay errores. Los siguientes datos indican
el número errores observados en 12 recibos elegidos aleatoriamente: 0: 1; 1; 0;
0; 2; 1; 0; 1; 1; 0; 0. Elabore el diagrama de control para el proceso y determine
si el proceso está “bajo control”.

LECTURA SELECCIONADA N° 1
Investigación experimental: Características y etapas
La investigación experimental se ha de observación controlada o simple-
ideado con el propósito de determinar, mente por razones éticas.
con la mayor confiabilidad posible, rela- Ejemplos de este tipo de investiga-
ciones de causa-efecto, para lo cual uno ción son los siguientes:
o más grupos, llamados experimentales,  Probar que el alquitrán del tabaco pro-
se exponen a los estímulos experimen- duce cáncer cuando es aplicado en de-
tales y los comportamientos resultantes terminadas condiciones a la piel de las
se comparan con los comportamientos ratas.
de ese u otros grupos, llamados de con-
 Investigar los efectos de dos métodos
trol, que no reciben el tratamiento o es-
de enseñanza de la historia de Colom-
tímulo experimental.
bia en el aprendizaje en grupos de ni-
Características de la investigación ños de 5° de primaria, controlando el
experimental tamaño de la clase y el nivel de inteli-
a. Requiere de una manipulación rigu- gencia de los niños, y asignando profe-
rosa de las variables o factores expe- sores y estudiantes al azar a los grupos
rimentales, y del control directo o por de control y experimental.
procedimientos estadísticos al azar,  Investigar los efectos de una clase de
de otros factores que pueden afectar abonos en el crecimiento precoz de un
el experimento. Estos procedimientos tipo de maíz, controlando otros facto-
al azar incluyen la selección de los su- res que también puedan afectar el cre-
jetos, la asignación al azar de los su- cimiento, suministrando el abono a un
jetos a los grupos experimental y de grupo de plantas experimentales y no
control y la asignación al azar del tra- suministrándolo al grupo de plantas de
tamiento experimental a uno de los control.
grupos.
Etapas en la investigación experi-
b. Emplea un grupo de control para com- mental:
parar los resultados obtenidos en el
 Revisar la literatura relativa al pro-
grupo experimental, teniendo en
blema. Identificar y definir el pro-
cuenta que, para los fines del experi-
blema.
mento, ambos grupos deben ser
iguales, excepto en que uno recibe  Formular la hipótesis explicativa, dedu-
tratamiento (el factor causal) y el otro cir sus consecuencias en términos ob-
no. servables y definir términos básicos.
c. La investigación experimental es el  Elaborar plan experimental.
procedimiento más indicado para in-  Identificar todos los factores o va-
vestigar relaciones de causa-efecto, riables no experimentales que pue-
pero a la vez tiene la desventaja de dan afectar el experimento y deter-
ser artificial y restrictivo, viéndose li- minar cómo controlarlas.
mitada su aplicación a los seres hu-  Seleccionar el diseño experimental
manos, bien sea porque estos actúan apropiado.
de manera diferente bajo condiciones

68
 Seleccionar una muestra represen-  Organizar los resultados en forma es-
tativa de sujetos, asignarlos a los tadísticamente apropiada, de modo
grupos y a uno de éstos asignarle el que se pueda apreciar claramente el
tratamiento experimental. efecto.
 Seleccionar o elaborar instrumentos 4. Aplicar la prueba de significación
para realizar el experimento y medir estadística apropiada.
sus resultados.  Informar los resultados por escrito.
 Elaborar procedimientos para reco- Fuente: https://sites.google.com/site/ciefim/ inves-
ger los datos del experimento. tigaci%C3%B3nexperimental
 Enunciar la hipótesis nula.
 Realizar el experimento.

ACTIVIDAD N° 2
Foro de discusión sobre la lectura: ¿Cuáles son características y etapas de la
investigación experimental?
Instrucciones
Ingrese al foro y responda la pregunta: ¿Cuál es la característica más importante de
la investigación experimental?
Determine un ejemplo de investigación experimental relacionado a su carrera pro-
fesional:
 Formule la hipótesis explicativa.
 Describa el plan experimental.
 Deduzca sus consecuencias en términos observables.

69
GLOSARIO DE LA UNIDAD IV
1. Estudio observacional
Cuando vemos y medimos las características específicas, pero no se intenta mo-
dificar a los sujetos que se está estudiando.
2. Experimento
Son realizados prácticamente en todos los campos del saber humano, con la
finalidad de descubrir algo sobre un proceso o sistema.
3. Diseño experimental
Es un conjunto de técnicas que permiten manipular un proceso para inducirlo a
proporcionar la información que se requiere para mejorarlo mediante cambios en
sus variables y su interacción o secuencia de ejecución.
4. El análisis de varianza (ANOVA) de un factor
Sirve para comparar varios grupos en una variable cuantitativa. Se utiliza para
probar la hipótesis de que tres o más medias poblacionales son iguales y porque
se emplea una sola propiedad o característica para categorizar las poblaciones.
5. Experimento factorial AxB (ANOVA en dos direcciones)
En un análisis de varianza en dos direcciones se considera una segunda variable
de tratamiento. La segunda variable de tratamiento se denomina la variable de
bloqueo.
6. Datos de proceso
Son datos ordenados de acuerdo con alguna secuencia de tiempo. Son mediciones
de una característica de bienes o servicios que resultan de alguna combinación de
equipo, personas, materiales, métodos y condiciones.
7. Gráfica de rachas
Es una gráfica secuencial de valores de datos individuales a lo largo del tiempo.
Un eje (generalmente el eje vertical) se utiliza para los valores de los datos y el
otro eje (generalmente el eje horizontal) se emplea para la secuencia de tiempo).
8. Variación aleatoria
Se debe al azar, este tipo de variación inherente a cualquier proceso que no es
capaz de producir un bien o servicio exactamente de la misma forma cada vez.
9. Variación asignable
Resulta de causas identificables como maquinaria defectuosa, empleados sin ca-
pacitación adecuada, entre otros.
10. Gráfica R
Es una gráfica de control para supervisar la variación.
11. Gráfica de Control de p
Es una gráfica del que se dibuja en secuencia en función del paso del tiempo y
que incluye una línea central, un límite de control inferior (LCI) y un límite de
control superior (LCS).
12. Diagrama de c con barra
El diagrama llamado c con barra representa gráficamente el número de defectos
o fallas por unidad.
Autoevaluación de la Unidad IV
Instrucciones:
1. Suponga que usted es un nutricionista a quien se le ha pedido que determine si
existe una diferencia en el contenido de azúcar de las tres principales marcas de
cereal para el desayuno (A; B; y C). Para evaluar la cantidad de azúcar en los
cereales, usted realiza una muestra aleatoria de 5 paquetes de cada marca y lleva
a cabo un análisis físico-químico del contenido de azúcar y se determinó los valores
que se muestran. ¿Cuál es su conclusión para un nivel de significancia de 0,05?

Marcas A B C
6 4 8

de azúcar
5 2 7
Niveles

(%)
3 4 4
8 2 5
4 3 3
Total
2. Una empresa automotriz tiene en su almacén tres automóviles de la misma marca
y modelo. Al gerente le gustaría comparar el consumo de gasolina de los tres
vehículos (A; B y C) utilizando cuatro tipos diferentes de gasolina. Para cada
prueba, se depositó un galón de combustible en el tanque vacío de cada automóvil
y se manejó hasta agotar la gasolina. La tabla muestra el número de kilómetros
recorridos en cada prueba.
Distancia (en km)
Tipo de gasolina
Auto 1 Auto 2 Auto 3
Regular 36,0 33,5 34,6
Súper regular 27,4 31,2 33,3
Sin plomo 30,9 32,5 34,1
Premium sin plomo 32,7 29,9 32,8

Utilizando el nivel de significancia 0,025:


a) ¿Hay diferencia entre los autos?
b) ¿Hay diferencia entre los tipos de gasolina?
3. Cada hora un inspector de control de calidad mide el diámetro exterior de cuatro
piezas. Los resultados de las mediciones se muestran en la siguiente tabla:

Pieza de
Hora muestra
1 2 3 4
9:00 51 50 20 40
10:00 47 45 30 41
11:00 46 42 30 37
12:00 44 25 38 41
a) Calcule la media del diámetro exterior, la media de la amplitud de variación y
determine los límites de control para la media y la amplitud de variación.
b) ¿Se encuentran las mediciones dentro de los límites control? Interprete el grá-
fico 𝑥̅ y R
̅

4. Un fabricante de bicicletas selecciona diariamente 10 armazones y determina la


cantidad de defectos. El número de armazones defectuosos en los últimos 9 días
de fabricación es: 3; 2; 1; 3; 2; 2; 8; 2; 0. Elabore un diagrama de control y de-
termine si está “bajo control”.
BIBLIOGRAFÍA DE LA UNIDAD IV

Carrasco, S. (2014). Metodología de la investigación científica. Lima: San Marcos.


Córdova, M. (2006). Estadística inferencial. Lima: Moshera SRL.
Hernández y otros (2014). Metodología de la investigación. Chile:Mc Graw-Hill
Companies Inc.
Lind, D.; Marchal, W. y Mason, R. (2004). Estadística para administración y
economía. Colombia: Alfaomega.
Pagano, R. (2011). Estadística para las ciencias del comportamiento. México:
Cengage Learning.
Triola, M. (2009). Estadística. México: Pearson educación.
Oseda, D. y otros (2014). Métodos y técnicas de investigación científica. Huancayo:
Soluciones gráficas SAC.
ANEXOS
Respuestas de la Autoevaluación n°3

Pregunta 1: a) rs=0,964;
b) El diagrama de dispersión presenta una nube de puntos con pen-
diente positiva.
c) Se rechaza H0, ya que 0,964>0,893
Conclusión: Para un 98% de nivel de confianza se rechaza H0, por lo
que se asevera que existe una correlación significativa entre el nú-
mero de anuncios y las ventas generadas.
Pregunta 2: Con la calculadora se obtienen los datos:
a) Ecuación: 𝑦̂ = 16,2 − 0,36𝑥
b) El mejor puntaje predicho: 𝑦̂ = 13,32
c) r=-0,87: Existe una correlación negativa alta.
r2=75,36%: La variación del promedio se explica por la variación
de las inasistencias.
El diagrama es una nube de puntos con pendiente negativa.
Pregunta 3: a) El índice estimado de satisfacción es: y´=497,736
b) Para un ingreso adicional de 10 000 soles: y´=525,736
Para dos actividades sociales más: y´=551,336
Proporciona más satisfacción dos actividades sociales más por se-
mana.
Pregunta 4: Los modelos matemáticos son:
Modelo lineal Modelo logarítmico
A=-19,67 A=-10,42
B=14 B=36,25
Modelo: y=-19,67-14x Modelo: y=-10,42+36,25lnx
r= 0,9789 r= 0,8978
r2=0,9583≈95,83% r2=0,8061≈80,61%

Modelo potencial Modelo exponencial


A=1,15 A=0,95
B=2,36 B=2,21
Modelo: y=1,15x2,36 Modelo: y=0,95(2,21)x
r= 0,9970 r= 0,9468
r2=0,9941≈99,41% r2=0,8965≈89,65%
Se observa que el mejor modelo es el modelo potencia ya que presenta el mayor
coeficiente de determinación (r2=99,41%).
Pregunta 5: Se realizan los cálculos como se indica a continuación:

Promedio móvil
Año Ventas Total móvil 3 años
de 3 años
1 202
2 204 202+204+163=569 569/3=189,67
3 163 204+163+161=528 528/3=176
4 161 163+161+146=470 470/3=156,67
5 146 161+146+184=491 491/3=163,67
6 184 146+184+170=500 500/3=166,67
7 170
El gráfico es:

250

200

150

100

50

0
2010 2011 2012 2013 2014 2015 2016

Ventas Promedio móvil

Respuestas de la Autoevaluación n°4


Pregunta 1: Se completa la tabla ANOVA:

Fuente de variación SC g.l. Cuadrados medios


Entre grupos 17,73 2 17,73/2=8,86
Dentro de grupos 36 12 36/12=3
Total 53,73

No es posible rechazar la hipótesis nula (H0) para 2 y 12 grados de li-


bertad, ya que no se cumple que: Fc > Fα
2,9533>3,8853….. (F)
Conclusión: Para un 95% de nivel de confianza no se rechaza H 0, por lo
que se asevera que no existe diferencia significativa en el contenido de
azúcar.
Pregunta 2:
 Para los tratamientos (Columnas)
Para las columnas tenemos:
Distancia (km)
Tipo de gasolina Auto Auto Auto (𝑥1 − 𝑥̅1 )2 (𝑥2 − 𝑥̅2 )2 (𝑥3 − 𝑥̅3 )2
1 2 3
Regular 36,0 33,5 34,6 18,06 2,96 19,29
Súper regular 27,4 31,2 33,3 18,92 0,34 49,19
Sin plomo 30,9 32,5 34,1 0,72 0,52 46,67
Premium sin plomo 32,7 29,9 32,8 0,90 3,53 14,56
Medias 31,75 31,78 33,70 38,61 7,35 129,71
Media total=32,41 SCD=175,66

Donde: Media total= (31,75+31,78+33,70)/3=32,41


SCD=38,61+7,35+129,71=175,66
SCE=4(31,75-32,41)2+4(31,78-32,41)2+4(33,70-32,41)2 = 9,99
En la tabla ANOVA para los tratamientos:
Suma de Cuadrados me-
Fuente de variación g.l.
cuadrados dios
Entre grupos SCE=9,99 3-1=2 9,99/2=5,00
Dentro de los grupos SCD=175,66 12-3=9
Total SCtotal=185,65 11

 Para los bloques (Filas)


Completamos la tabla para el bloque tipo de gasolina:
Distancia (km)
Tipo de gasolina Auto Auto Auto Medias Media total
1 2 3
Regular 36,0 33,5 34,6 34,70
Bloques

Súper regular 27,4 31,2 33,3 30,63


32,41
Sin plomo 30,9 32,5 34,1 32,50
Premium sin plomo 32,7 29,9 32,8 31,80

Hallamos la suma de cuadrados entre bloques (SCEB):


SCB=3(34,70-32,41)2+3(30,63-32,41)2+3(32,50-32,41)2+3(31,80-32,41)2
SCB=26,38
En base a los datos de la tabla ANOVA anterior tenemos:
Fuente de Suma de Cuadrados me-
g.l.
variación cuadrados dios
Tratamientos Distancia SCT= 9,99 3-1= 2 9,99/2=5,00
Bloques Tipo gasolina SCB= 26,38 4-1= 3 26,38/3=8,79
Error SCR= 149,28 2x3=6 149,28/6=24,88
Total SCtotal=185,65 n-1=11

Formulación de H0 y H1 para las columnas:


H0: Las medias de las distancias según los autos son iguales.
H1: Las medias de las distancias según los autos no son iguales.

5,00
Luego: 𝐹𝑐 = = 0,2010
24,88

Se rechaza H0 si Fc > F(2; 6)


0,2010>7,2599 ………... (F)
No es posible rechazar H0 para un 97,5% de confianza, se asevera que las
medias de las distancias en los tres autos son iguales, es decir no hay diferen-
cias.
Formulación de H0 y H1 para las filas:
H0: Las medias de las velocidades según los tipos de gasolina son iguales.
H1: Las medias de las velocidades según los tipos de gasolina no son iguales.

8,79
Luego: Fc = = 0,3533
24,88

Se rechaza H0 si Fc > F(3; 6)


0,3533>6,5988 ………... (F)
No se rechaza H0 para un 97,5% de confianza, es decir se asevera que las
medias de las velocidades según los tipos de gasolina son iguales.
Conclusión: Finalmente se asevera que no hay diferencia en las velocidades
entre los autos ni según los tipos de gasolina que utilizan dichos autos, para un
97,5% de nivel de confianza.
Pregunta 3: Completando la tabla tenemos:

Pieza de
Hora muestra Media Rango
1 2 3 4
9:00 51 50 20 40 40,25 31
10:00 47 45 30 41 40,75 17
11:00 46 42 30 37 38,75 16
12:00 44 25 38 41 37,00 19
Media 39,19 20,75

Luego: x̅ = 39,19 y R
̅ = 20,75, de la tabla se tiene que A2=0,729 para subgrupos de
tamaño 4
Las fórmulas: Límite de control superior: LCS = x̿ + A2 R
̅

Límite de control inferior: LCI = x̿ − A2 R


̅

LCS=39,19+0,729(20,75)=54,32
LCI=39,19-0,729(20,75)=24,06
Conclusión: Las medias de los diámetros exteriores se encuentran dentro de los lí-
mites de control.
Las fórmulas: Límite de control superior: LCS=D 4R
̅
Límite de control inferior: LCI=D3R
̅

De la tabla se obtiene que D3=0,000 y D4=2,282


LCS=2,282(20,75)=47,35
LCI=0,000(20,75)=0,00
Conclusión: Las medias de las amplitudes de variación de los diámetros exteriores se
encuentran dentro de los límites de control.
Pregunta 4: Se tiene la tabla:
No inspeccio- Proporción de
Día Defectuosos
nado defectos
1 10 3 3/10=0,30
2 10 2 2/10=0,20
3 10 1 0,10
4 10 3 0,30
5 10 2 0,20
6 10 2 0,20
7 10 8 0,80
8 10 2 0,20
9 10 0 0,00
Total 90 23
23
La línea central: p̅ = = 0,26 y q̅ = 0,74
90

Límites de control:
̅ .q
p ̅ (0,26)(0,74)
Límite de control superior: p̅ + 3√ = 0,26 + 3√ = 0,68
n 10

̅ .q
p ̅ (0,26)(0,74)
Límite de control inferior: p̅ − 3√ = 0,26 − 3√ = −0,16 ~0,00
n 10

Noo hay proporción negativa.


Conclusión:
 Como la proporción de defectos no se encuentran entre los límites 0,0000 y 0,68,
se dice que el proceso no está bajo control.
 Se observa que la producción del día 7 está fuera de control estadístico, debido
a que la proporción de armazones defectuosos (0,80) se encuentra fuera del
límite superior de control, por lo que se sugiere identificar las causas del hecho
a fin de mejorar el proceso de fabricación.

S-ar putea să vă placă și