Sunteți pe pagina 1din 179

CAPÍTULO I

Estadística e Investigación

1
Estadística e Investigación

1. La Estadística y la Investigación Científica

Sólo con el propósito de crear un marco adecuado para nuestra exposición, daremos
algunas ideas básicas sobre investigación, sin explicar los conceptos, dado que esto
compete al curso de Metodología de la Investigación Científica.

De las muchas definiciones que se pueden encontrar en la bibliografía, la siguiente


es sencilla, clara y completa: “Es el estudio sistemático, controlado, empírico, reflexivo y
crítico de proposiciones hipotéticas sobre las supuestas relaciones que existen entre
fenómenos naturales. Permite descubrir nuevos hechos o datos, relaciones o leyes, en
cualquier campo del conocimiento humano...”. (Canales, Alvarado y Pineda, 1996, p. 53).

Según Canavos (1992), explica los tipos características y fases de la investigación:

1.1. ¿Qué tipos de Investigación existen?

Existen tantas tipificaciones de la investigación como criterios se emplean. Es


frecuente encontrar en la literatura sobre metodología de la investigación una exposición de
las clasificaciones según diversos criterios que a juicio de sus autores son los "más
importantes". Ante esta situación es conveniente aclarar que no hay clasificaciones buenas
ni malas, ni verdaderas ni falsas, ni más importantes ni menos importantes. Una tipificación
sí puede ser más o menos adecuada, útil en mayor o menor grado para identificar una
investigación. Hay quienes pretenden tipificar una investigación particular según los
diferentes criterios conocidos, el resultado es, en la mayoría de los casos, un embrollo
artificial e inútil.

En este texto le presentamos sólo una tipificación, la que en base a nuestra experiencia,
resulta ser de mayor utilidad en muchas disciplinas, en particular para las investigaciones
en el campo de la educación y administración.

1.1.1. La Investigación Descriptiva (Diagnóstica).


Cuando el objetivo de la investigación es la descripción o la caracterización de
un aspecto, fenómeno o un proceso de cualquier area, estaremos en el caso de una
investigación descriptiva.

*La investigación descriptiva univariada.


Un ejemplo de este tipo sería una investigación que se plantea el siguiente
objetivo:
"Identificar las características de los cliente puntuales en los créditos del Banco de Crédito-
sucursal Balta, atendidos en el presente año (2013)".

2
La descripción del fenómeno de la deserción consistirá fundamentalmente en la medición
de su incidencia según género, grado de estudio, lugar de procedencia del cliente, tipo de
cliente, tipo de tarjeta que posee, movimientos mensuales que realiza a la tarjeta, actividad
a la que se dedica el cliente, etc.
Se trata de una investigación cuyo propósito es el de caracterizar el comportamiento de una
sola variable, un solo fenómeno: clientes puntuales en los créditos.

Características. En general, una investigación descriptiva univariada es aquella en la que:


a) El objetivo del estudio se limita a la descripción o caracterización de un fenómeno o
proceso a través de una serie de indicadores pertinentes para dicho propósito.
b) No se formulan hipótesis de relación entre variables. El análisis puede implicar la
formulación y contraste de hipótesis estadísticas de bondad de ajuste, que centra el interés
en evaluar la distribución teórica de la variable o indicador en cuestión.
c) Desde la visión de algunos metodólogos este tipo de trabajo no es considerado como
una investigación; nosotros consideramos que es una tarea con valor científico, a un nivel
inicial en la formación de investigadores.
d) Se lleva a cabo sobre la base a una muestra, y no tiene sentido hablar de variables
dependientes o independientes.

CUIDADO. La expresión “univariada”, se debe entender como


el estudio de un solo fenómeno, más adelante aclararemos

*La investigación descriptiva correlacional.


Es aquella en la que el objetivo es el de buscar la relación entre dos o más
fenómenos o procesos. En el área de la educación consideremos que estamos interesados en
investigar no sólo la deserción, sino que buscamos su relación o vinculación con otra(s)
variable(s), tales como las condiciones socioeconómicas, condiciones sociodemográficas o
las características psicológicas de los desertores. El objetivo de la investigación podría ser
formulado en los siguientes términos:

Determinar la relación del fenómeno de la deserción con las condiciones


sociodemográficas y psicológicas de los escolares del Centro Educativo 10104

Características. En este tipo de investigaciones:


a) Se consideran dos o más variables, en el caso de nuestro ejemplo las variables son la
deserción, las condiciones sociodemográficas y las condiciones psicológicas.
b) Se formula hipótesis de relación entre las variables. Esta relación sólo es de
correlación o covariación y no de causa-efecto. La estructura de las hipótesis es, en forma
general:

3
c) “Existe una relación directa (o inversa) entre la variable X y la variable Y”
d) En cuanto a la función de las variables en la estructura relacional, una(s) variable(s)
puede(n) considerarse Variable(s) dependiente(s) y otra(s) como variable(s)
independiente(s), sin embargo, en la mayoría de los casos no es posible o no es correcto
atribuir a las variables la función de ser dependientes o independientes, lo correcto es
considerarlos como fenómenos concomitantes o variables que varían en forma conjunta, es
decir, hay una covariación entre ellas.
e) Se realizan las mediciones de las variables a través de un conjunto de indicadores y
mediante procedimientos estadísticos se detecta la existencia o no de una relación y, en
caso de existir evidencia, se cuantifica el grado de relación entre los indicadores.
f) Las relaciones que se detectan no son relaciones de causa - efecto. Luego, no es
correcto tampoco formular conclusiones cuya estructura es: " la variable A influye en la
variable B" o "el fenómeno o factor A es causa del fenómeno o variable B".
g) Este tipo de investigación también se puede realizar sobre la base de una o más
muestras. (Canavos, 1992)

1.1.2. La Investigación experimental.


Supóngase que un profesor está interesado en investigar los logros en el
aprendizaje de los estudiantes mediante el uso del Nuevo Enfoque Pedagógico (N.E.P.)
frente al enfoque tradicional; Postula la hipótesis de que el nuevo enfoque pedagógico
permite el logro de aprendizajes en mayor grado que el enfoque tradicional. Cuenta con 80
escolares que tienen los mismos antecedentes académicos y son similares en muchas
características tales como edad, nivel educativo, nivel socioeconómico, inteligencia, etc.
Para verificar su hipótesis nuestro docente investigador procede del modo siguiente:

- Forma dos grupos de 40 estudiantes cada uno, asignando al azar a cada elemento en uno
de los grupos. Uno de los grupos constituye el Grupo Control y el otro, el Grupo
Experimental.
- Conduce el proceso de enseñanza-aprendizaje de modo que emplea el Nuevo Enfoque
Pedagógico con el Grupo Experimental y el Enfoque Tradicional con el Grupo Control.
- Finalizado el periodo de aplicación de ambos enfoques, realiza la evaluación del logro
de los objetivos en ambos grupos y
- Procede a comparar ambos grupos mediante algún test (o prueba) estadística.

Características
La experimentación se utiliza para deducir relaciones causales. El significado científico de
la causalidad difiere del significado común. El cuadro siguiente, reproducido de Malhotra,
aclara lo que debemos entender por causalidad en el campo de la ciencia.

4
Tabla 1
Significados común y científico de causalidad
Significado común Significado científico
-X es la única causa de Y -X es sólo una de las causas posibles de Y
-X siempre debe llevar a Y -La presencia de X provoca que la presencia de Y
(X es una causa que determina Y) sea más probable (X es una probable causa de
-Es posible probar que X es la causa de Y. Y)
- Es difícil probar que X sea la causa de Y. A lo
más podemos inferir que X es una causa de Y.
Fuente: Malhotra, 2008

-Se formula hipótesis de relación causal entre las variables.


-Se puede hablar con propiedad de la variable dependiente (efecto) y de la variable
independiente (causa). En nuestro ejemplo la variable dependiente es el logro de objetivos
y la variable independiente es el enfoque aplicado, es una variable cualitativa con dos
modalidades de variación: el N.E.P. y el Enfoque Tradicional.
-Se manipula de manera intencional la o las variables independientes.
-Se mide el efecto de la variable independiente sobre la variable dependiente.
-Se controla la validez interna de la situación experimental, para evitar la influencia de
otras variables extrañas.

Niveles de la Investigación
Científica INVESTIGACIÓN
EXPERIMENTAL

INVESTIGACIÓN
CORRELACIONAL

INVESTIGACIÓN

DESCRIPTIVA

Figura 1: La siguiente figura trata de expresar los niveles para cada uno de los
tipos de investigación referidos.

1.2 ¿Cuántas y cuáles son las fases de la Investigación?


En el proceso de investigación se pueden identificar varias fases, siendo las dos
grandes fases las siguientes:

5
1.2.1. Fase de Planeación
a. Selección del tema.
b. Planteamiento del problema
- Formulación del Problema.
- Formulación de objetivos
- Justificación e Importancia.
c. Construcción del marco teórico
- Teorías
- Antecedentes
- Datos
- Variables
- Hipótesis.
d. Diseño metodológico
- Tipo de Investigación
- Selección de diseño de la investigación
- Diseño de la muestra
- Elaboración de instrumentos de recolección de datos
- Diseño de formatos de tabulación
- Previsión de los análisis a realizar con los datos.

1.2.2. Fase de Ejecución.


a. Selección de la muestra
b. Obtención de datos
c. Edición de datos
d. Codificación de datos
e. Creación de una base de datos
f. Análisis de datos
g. Presentación de los resultados del análisis
h. Interpretación de resultados
i. Formulación de conclusiones
j. Redacción y comunicación del Informe de investigación.

1.3. ¿En qué fase del proceso de Investigación interviene la Estadística?


La Estadística interviene en las dos fases del proceso de investigación.

En la fase de Planeación, la Estadística interviene en el Diseño Metodológico,


concretamente, en el diseño de la muestra, la elaboración de los instrumentos de
recolección de datos, diseño de los formatos de los reportes o tablas y la previsión de los
métodos especiales a emplear en el análisis de los datos recolectados.

6
En la fase de Ejecución, la Estadística interviene casi en todas las actividades que se
señalan, salvo en la interpretación de los resultados del análisis, que es una tarea de
explicación de los hallazgos de la investigación a partir del marco teórico respectivo.
(Devore, 1998)

1.4 En conclusión. ¿Qué es la Estadística?


Podemos decir que la Estadística es una Ciencia que proporciona métodos eficientes
para:
La Estadística

SELECCIONAR MUESTRAS

 RECOPILAR
 ORGANIZAR
 PRESENTAR DATOS
 ANALIZAR

EN EL PROCESO DE UNA
INVESTIGACION

Figura 2: el organizador gráfico nos presenta de manera


sistematizada el objeto y campo de acción de la Estadística.

La estadística constituye una metodología para realizar investigaciones con un enfoque


cuantitativo. Existe el enfoque cualitativo de la investigación, que se basa en metodologías
tales como la hermenéutica y la etnografía.
Los métodos que proporciona la estadística son tan diversos que generalmente se dividen
en dos grandes categorías: estadística descriptiva y estadística inferencial.
1.4.1 Estadística descriptiva:
Es la rama que se encarga de describir, analizar una serie de datos y extraer
conclusiones sobre el comportamiento de estas. Los gráficos, tablas, diagramas y cálculos
descriptivos nos ayudan a mostrar los datos de manera más clara y elocuente.
1.4.2 Estadística inferencial:
Es la rama que implica generalizaciones y afirmaciones con respecto a la
probabilidad de su validez.

7
Hasta esta parte tenemos una primera visión de la relación entre la Investigación
Científica y la Estadística.
1.5 Importancia de la Estadística
No existe actividad humana en que se deje de usar la Estadística, las decisiones más
importantes en nuestra vida se toman con ayuda de esta ciencia. La importancia en el área
científica es porque:
a) Realiza una descripción más exacta.
b) Permite resumir los resultados de manera significativa y cómoda.
c) Nos permite obtener conclusiones generales y específicas.

1.6 Nomenclatura usada en la Estadística

1.6.1 Medición:
La medición es un proceso de asignación de números u otros signos a las
características de los objetos, de acuerdo con ciertas reglas especificadas con anticipación.

1.6.2 Población:
Se denomina población al conjunto de todas las unidades de observación o
análisis (que consiste en personas, animales, objetos, etc.), cuyas características observables
se van a estudiar. Una población debe definirse en términos de su contenido, extensión y
tiempo.

Tarea: En el caso del ejemplo de investigación descriptiva:


¿Cuál es el objetivo?
Respuesta: Identificar las características de los cliente puntuales en los créditos del Banco
de Crédito- sucursal Balta, atendidos en el presente año (2013)".
¿Cuál es el fenómeno de interés a investigar?
Respuesta: El fenómeno de las características de los cliente puntuales.
¿Dónde tiene lugar el fenómeno?
Respuesta: Banco de Crédito- sucursal Balta.
¿En quienes ocurre el fenómeno?.
Respuesta:. Cliente puntuales en los créditos del Banco de Crédito- sucursal Balta.
La población bajo estudio se debe definir siempre:
Describiendo sus elementos o entidades que la conforman, de modo que se pueda saber con
precisión si un elemento dado pertenece o no a la población.
Delimitándolo en el espacio. ¿Dónde ocurre el fenómeno?
Delimitándolo en el tiempo. ¿Cuándo ocurre el fenómeno?

8
Si la población bajo estudio no es muy grande, en el sentido de la cantidad de sus
elementos, y si se cuenta con los medios económicos y el tiempo suficientes, la
investigación se realiza con todos los elementos de la población.

1.6.3 Muestra:
Es una parte, un subgrupo de elementos de la población que se selecciona para
participar en el estudio. Cuando la población es muy grande, es decir tiene cientos o miles
de elementos o cuando los medios y el tiempo son limitados, la investigación se conduce
sólo por la muestra.
Representación de población y muestra

 
 
 
 


 MUESTRA

POBLACIÓN

Figura 3: La figura nos representa la muestra como parte de una población


de estudio.

Fuente: López, 2014

1.6.4 Unidad de Análisis:


Es cualquier elemento que tenga información sobre el fenómeno que se estudia.
Así, si estudiamos la altura de los niños de una clase, cada alumno es una unidad de
análisis; si estudiamos el precio de la vivienda, cada vivienda es una unidad de análisis.

1.6.5 Dato:
Es el valor o respuesta que adquiere la variable.

1.6.6 Constante:
Es un dato cuyo valor no puede cambiar durante la ejecución de la investigación.
Recibe un valor en el momento de la recolección y este permanece inalterado durante toda
la investigación.

1.6.7 Estadígrafo:

9
Es una medida usada para describir el comportamiento de una variable en la
muestra. Sirven para estimar parámetros o como valores de distribuciones de probabilidad
que permiten hacer inferencia estadística.

1.6.8 Parámetro:
Son todas aquellas medidas que describen numéricamente la característica de una
población. También se les denomina valor verdadero, ya que una característica poblacional
tendrá un solo parámetro (media, varianza, etc.). Sin embargo, una población puede tener
varias características, y, por tanto, varios parámetros.

1.6.9 Variable:
Es una característica que representa a aquello que varía o que está sujeto a algún
tipo de cambio. Se trata de algo que se caracteriza por ser inestable, inconstante y mudable.

1.6.10 Indicador:
Son medidas verificables de cambio o resultado diseñadas para contar con un
estándar contra el cual evaluar, estimar o demostrar el progreso con respecto a metas
establecidas. (ONU, 2002)

1.7 Clasificación de variables y escala de medición


Trataremos la clasificación de variables por su naturaleza, por su escala y por la
relación de sus variables

1.7.1 Por su Naturaleza

Clasificación de las Variables por su Naturaleza

Cualitativas
Por su
Discretas
1 Naturaleza
.7.1.1 Cuantitativas
Variables
Continuas
cualitativas
: Son las
Figura 4: Por su naturaleza, las variables se clasifican en cualitativas y
variables que expresanydistintas
cuantitativas, cualidades,
a su vez las características
cuantitativas en discretas y ocontinuas
modalidad. Cada modalidad
que se presenta se denomina atributo o categoría. Las variables cualitativas pueden ser
dicotómicas cuando sólo pueden tomar dos valores posibles como: sí y no, hombre y mujer,
etc. o son politómicas cuando pueden adquirir tres o más valores.

10
1.7.1.2 Variables cuantitativas: Son las variables que se expresan mediante
cantidades numéricas. Las variables cuantitativas además pueden ser:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de
valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores
entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de
hijos (1, 2, 3, 4, 5).
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Por ejemplo la masa (2,3 kg, 2,4 kg, 2,5 kg,...) o la altura (1,64 m,
1,65 m, 1,66 m,...), o el salario. Solamente se está limitado por la precisión del aparato
medidor, en teoría permiten que exista un valor entre dos variables.

1.7.2 Por su Escala

Clasificación de las Variables por su Escala

Nominal
Cualitativas
Ordinal
Por su Escala
Intervalo
Cuantitativas
Razón

Figura 5: Por su escala, las variables cualitativas pueden ser nominales u


ordinales, y las cuantitativas ene escala de intervalo y razón.

1.7.2.1 Variable cualitativa de escala Nominal: Presenta modalidades no


numéricas que no admiten un criterio de orden, por ejemplo: sexo, estado civil, profesión,
color de cabello, etc.

1.7.2.2 Variable cualitativa de escala Ordinal: Presenta modalidades no


numéricas que admiten un criterio de orden, por ejemplo: nivel de instrucción, ciclo
académico, cargo administrativo, etc.

1.7.2.3 Variable cuantitativa de escala Intervalo: Son variables numéricas


cuyos valores representan magnitudes y la distancia entre los números de su escala es igual.
Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad,
establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de

11
la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones
como la multiplicación y la división no son realizables. Un ejemplo de este tipo de
variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es
la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una
temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.

1.7.2.4 Variable cuantitativa de escala Razón: Las variables de razón poseen


las mismas características de las variables de intervalo, con la diferencia que cuentan con
un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo
que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y
División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel
más alto de medición. Las variables altura, peso, distancia o el salario, son algunos
ejemplos de este tipo de escala de medida.

1.7.3 Por la relación de sus variables

Clasificación de las Variables por la Investigación.

Dependiente
Por su
Investigación
Independiente

Figura 6: Las variables por su investigación pueden clasificarse


en dependientes e independientes.

1.7.3.1 Variables Dependientes: Es aquella que dentro de una hipótesis


representa la consecuencia, el efecto, el fenómeno que se estudia. Se simboliza con la letra
Y. Ejemplo: entre las variables rendimiento académico y aplicación de métodos, la variable
dependiente es rendimiento académico.

1.7.3.2 Variables Independientes: Es aquella que influye en la variable


dependiente y no depende de otra variable, dentro de una hipótesis. Se simboliza con la
letra X. Ejemplo: entre las variables hiperactividad y falta de autoestima, la variable
autoestima es independiente, ya que explica o influye en la hiperactividad del niño. (Miller,
1992)

12
PROBLEMAS PROPUESTOS

1. Clasifique adecuadamente las diversas variables


VARIABLES TIPO ESCALA
Número de artículos eléctricos vendidos Cuantitativa Razón
Discreta
Actitud de los pacientes durante su internado Cualitativa nominal
El peso de la carga de los camiones Cuantitativa Razón
La longitud de 1000 tornillos con arandela y tuerca Cuantitativa Razón
El grado académico de un docente Cuantitativa Ordinal
Marca de computadoras utilizadas Cualitativa Nominal
Cantidad de dinero gastado en libros Cuantitativa Razón
Directa
Volumen de agua de un reservorio Cuantitativa Razón
Continua
Los tipos de fallas de una maquinaria Cualitativa Nominal
Número de inasistencias en un mes Cuantitativa Ordinal
Directa
Nivel socioeconómico de los habitantes de Chiclayo Cualitativa Ordinal
Gravedad de un infarto Cualitativa Ordinal
Número de ataques de asma semanales Cuantitativa Razón
Directa

2. Para cada ejercicio, identificar: población, unidad de análisis, muestra, variable y tipo de
variable:
2.1 En la empresa Agroindustrial Tumán S.A. trabajan 2500 personas. La empresa está
estudiando conceder un aumento de sueldo y encarga hacer un estudio de factibilidad para
analizar si es posible realizar el aumento. La comisión de funcionarios encargada de este
estudio toma una muestra de 180 trabajadores informando que ganan en promedio
mensualmente 1060 soles, la cual la comparan con los sueldos mensuales de otras
empresas. Sí usted fuera el auditor de este estudio de factibilidad, identifique lo siguiente:
Población: 2500 personas
Unidad de análisis: 1 trabajador
Muestra:180 trabajadores
Variable de Estudio: Sueldos
Tipo de variable: Cuantitativa continua

13
2.2 El Gerente de Procter & Gamble, quiere saber cuál es la marca de detergente que
más prefieren las amas de casa de la ciudad de Chiclayo. Para llevar a cabo este estudio se
seleccionó una muestra de 504 amas de casa de los alrededores del centro histórico de la
ciudad de Chiclayo. Identifique:
Población: Amas de casa de Chiclayo
Unidad de análisis: 1 ama de casa
Muestra: 504 amas de casa
Variable de Estudio: Marca de
detergente que más prefieren
Tipo de variable: Cualitativa nominal

2.3 La empresa Telefónica, desea diseñar nuevos planes de una tarifa en el servicio de
telefonía móvil en la ciudad de Lima. Se elige 50 usuarios de telefonía móvil y se observa
sus gastos en tráfico telefónico. Identifique:

Población: Habitantes de la ciudad de


Lima
Unidad de análisis: Un usuario de la
telefónica
Muestra: 50 usuarios
Variable de Estudio: Nuevos planes en
el servicio de la telefónica
Tipo de variable: Cuantitativa discreta

2.4 Se está haciendo un estudio de la calidad de la producción de lingotes o barras de


acero producidos por la empresa Sider Perú de Chimbote. Se evalúan los pesos y diámetros
de una muestra de 50 lingotes de acero. Dicha muestra fue obtenida de la producción diaria
en forma aleatoria y las unidades de medida están dadas en kg. y cm. Identificar:

Población: Calidad de la producción de


lingotes o barras de acero
Unidad de análisis: 1 lingote o 1 barra
de acero
Muestra: 50 lingotes de acero
Variable de Estudio: Pesos y diámetros
Tipo de variable: Cualitativa continua

14
2.5 La Oficina de Servicios Generales de la USS desea conocer los medios en los cuales
con mayor frecuencia se transportan los alumnos de la USS. Para ello realiza una encuesta a
50 alumnos de pregrado en el semestre 2012-II y encuentra que el 70% de los encuestados
usa el transporte público y el 20% usa el transporte de la universidad. Identifique:
Población: Alumnos de la uss
Unidad de análisis: 1 alumno
Muestra: 50 alumnos
Variable de Estudio: Transporte publico
Tipo de variable: Cuantitativo directa

2.6 En una farmacia de Chiclayo, se está recogiendo información sobre el grado de


satisfacción de los clientes respecto a su servicio nocturno, para ello se toma una muestra
de 70 clientes y concretamente se les pregunta en cuanto a la relación calidad-precio de los
medicamentos en este servicio nocturno. Identifique:
Población: Total de clientes que realizaron servicio nocturno
en la farmacia de Chiclayo
Unidad de análisis: 1 cliente
Muestra: 70 clientes encuestados
Variable de Estudio: El grado de satisfacción de los
clientes
Tipo de variable: Cualitativo

2.7 Un médico de cabecera trabaja en un área rural del distrito de Ferreñafe que cuenta
con 4500 habitantes, y está interesado en conocer cuando se producen un mayor número de
demanda de asistencia a domicilio, para reforzar el horario que más lo necesita. Para ello
realiza una encuesta a 200 habitantes y ha recogido datos sobre las últimas demandas que
ha tenido y las ha catalogado como visitas de mañana, tarde, noche o festivo dependiendo
de la hora y en el día en que se han producido. Identifique:
Población: 4500 habitantes
Unidad de análisis: 1 habitante 1
Muestra: 200 habitantes encuestados
Variable de Estudio: Mayor número de
demanda de asistencia a domicilio de un
medico
Tipo de variable: Cuantitativo

15
2.8 El ministerio de agricultura está ofreciendo cursos a distancia y presenciales de
capacitación a los integrantes de cooperativas agroindustriales debidamente formadas. La
cantidad de estas cooperativas en el país son de 6750 y la cantidad de integrantes que la
conforman es igual a 68056. El ministerio quiere conocer mejor a su público objetivo, para
lo cual ha tomado una muestra de 210 cooperativas, a las cuales se les ha preguntado por:
tipo de orientación de la cooperativa, número de personas participantes, ¿qué cursos de
capacitación ya han recibido?, y el ingreso en nuevos soles que manejan al mes.
Identifique:
Población: Total de lectores de diario de la
cuidad de Chiclayo
Unidad de análisis: Un lector de diario de la
cuidad de Chiclayo
Muestra: 684 lectores de la cuidad de
Chiclayo
Variable de Estudio: Diario que más prefieren
los lectores de la cuidad de Chiclayo
Tipo de variable: Cualitativo

2.9 El Director del diario la Industria quiere saber cuál es el diario que más prefieren los
lectores de la ciudad de Chiclayo. Para llevar a cabo este estudio se seleccionó una muestra
de 684 lectores de dicha ciudad. Identifique:
Población: Total de lectores de diario de la
cuidad de Chiclayo
Unidad de análisis: Un lector de diarios
Muestra: 684 lectores de la cuidad de
Chiclayo
Variable de Estudio: Diario que más
prefieren los lectores de la cuidad de
Chiclayo
Tipo de variable: Cualitativo

16
2.10 La Facultad de Ciencias de la Comunicación de una Universidad Pública cuenta
con 5000 estudiantes y está realizando un estudio sobre el impacto de las redes sociales y el
internet en la formación de los jóvenes de la especialidad de Comunicación Social. Para
ello se encuesta a chicos y chicas de primer y segundo semestre de dicha especialidad, si se
aplicaron 200 encuestas lo que proveerá resultados del ¿por qué las nuevas tecnologías se
han vuelto tan necesarias en estos días? Identifique:
Población: 5000 estudiantes de la Facultad de
Ciencias de la Comunicación de una
Universidad Pública
Unidad de análisis: Un estudiante de la
facultad de ciencias de la comunicación de la
universidad publica
Muestra: 200 estudiantes de primer y segundo
semestre
Variable de Estudio: Un estudio sobre el
impacto de las redes sociales y el internet en
la formación de jóvenes
Tipo de variable: Cuantitativa

17
CAPÍTULO II

Método de recolección de datos

18
2.1 Conceptos generales en la investigación
Para comprender las técnicas e instrumentos que se utilizan en la recolección y el
análisis de información, es necesario definir conceptos básicos que se utilizan, como los
siguientes.

Investigación

Se define “como una serie de métodos para resolver problemas cuyas soluciones necesitan
obtenerse por medio de una serie de operaciones lógicas, tomando como punto de partida
datos objetivos”. (Real Academia Española)

Método

La palabra método proviene del griego methodos, término compuesto por meta, que
significa con, y odos, que significa vía. De acuerdo con la Real Academia Española,
método es “el procedimiento que se sigue en las ciencias para hallar la verdad y enseñarla”.
Es una forma razonada de utilizar técnicas y procedimientos para realizar alguna actividad
en cierto orden siguiendo los principios ordenados de la ciencia.

Técnica

Técnica es un “procedimiento o conjunto de procedimientos, reglas, normas o protocolos,


que tienen como objetivo obtener un resultado determinado, ya sea en el campo de la
ciencia, de la tecnología, del arte, de la educación o en cualquier otra actividad”. (Real
Academia Española)

Instrumentos

Son las herramientas, las maquinarias y los equipos que sirven como apoyo para realizar
una investigación; su utilización permite alcanzar los resultados esperados.

Recopilación

Es un compendio, resumen o reducción breve de una obra, un discurso o de cierto material


informativo. Al realizar una recopilación de datos, éstos provienen de observaciones reales
o de documentos que se usan de manera cotidiana. La recopilación de información puede
obtenerse a partir de: a) bancos de datos, b) entrevistas o cuestionarios, c) observación
directa o mediciones experimentales. (Hernández, 2001)

2.2 Investigación de campo


Los instrumentos de recopilación de información para una investigación de campo
son aquellos que se aplican directamente en el ambiente en donde se presenta el fenómeno

19
en estudio. Para ello se requiere de la elaboración de un plan de trabajo, del diseño de los
instrumentos, del levantamiento de información en el campo donde se presenta el fenómeno
y de la concentración y el análisis de los resultados.

A continuación analizaremos las técnicas de recopilación de información que permiten


efectuar el levantamiento de datos.

2.2.1 Cuestionarios
El cuestionario es un documento formal y estructurado mediante el cual se
recopila información, datos y opiniones a través de preguntas específicas que se aplican
dentro de un universo o una muestra de individuos, con la finalidad de interpretar
posteriormente esa información. (Muñoz, 2011)
En esencia, los cuestionarios utilizan dos tipos de preguntas: abiertas y cerradas.

Preguntas abiertas. Son aquellas en las que el encuestado es libre de emitir un juicio o una
opinión de acuerdo con su criterio acerca de lo que se le interroga; de esta forma, no existe
ninguna limitación para la expresión de las ideas y opiniones, ni en profundidad ni en
temáticas.

Preguntas cerradas. Son las interrogantes donde el encuestado tiene la oportunidad de


elegir, entre las opciones presentadas, aquella respuesta que esté de acuerdo con su opinión.
Existen varias modalidades de respuestas cerradas; entre las más comunes tenemos las
siguientes:

a) Preguntas dicotómicas, las cuales sólo permiten dos posibles respuestas, por lo general
opuestas entre sí, por ejemplo: ( ) Sí ( ) No; Masculino ( ) Femenino ( )
b) Preguntas tricotómicas. Son aquellas en que las opciones de respuestas son tres
posibilidades, por ejemplo: Sí ( ) No ( ) No sabe ( )
c) Preguntas de alternativas múltiples. También conocidas como preguntas peine o ítems,
nos presentan varias alternativas entre las que el encuestado elige alguna; por lo general,
estas opciones incluyen una gama de respuestas que varían de un extremo a otro, por
ejemplo: Elija la respuesta marcando con una “x”

( ) Soltero ( ) Divorciado ( ) Viudo ( ) Unión libre ( ) Casado


O bien, ¿Cómo calificaría el servicio?
Excelente ( ) Bueno ( ) Regular ( ) Malo ( ) Pésimo ( )

Preguntas de gradación de Likert. En estas respuestas se indican en forma gradual las


opiniones, intereses o actitudes de cada respuesta:
Totalmente de acuerdo ( ) De acuerdo ( ) Neutral ( )
En desacuerdo ( ) Totalmente en desacuerdo ( )

20
Asimismo, el diseño de un cuestionario contiene

1. Datos de identificación
Contiene:
- Datos sobre el nombre, dirección, número de teléfono del encuestado.
- La fecha, hora de entrevista.
- Nombre y código del encuestador
2. Solicitud de cooperación
Redactada para obtener la colaboración de los encuestados. Contiene:
- Identificación de la institución que realiza el estudio y/o del encuestador.
- Explicación del objetivo de la encuesta.
- El tiempo que será preciso emplear para el llenado del cuestionario
3. Instrucciones
Son las instrucciones referidas a la forma de utilizar el cuestionario.
- Si el cuestionario se administra mediante entrevistadores, sean personales o por
teléfono, las instrucciones son para el entrevistador y se encuentran en una hoja
separada, Hoja de instrucciones del entrevistador.
- Si el cuestionario es auto administrado o por correo, las instrucciones se encuentran
en el mismo cuestionario.
4. Información solicitada
Es la parte más importante y extensa del cuestionario, está integrada por el conjunto de
preguntas a la obtención de información relevante para los propósitos de la investigación.
5. Datos de clasificación.
Contiene datos generales para clasificar los encuestados, como el nivel socioeconómico,
tipo de vivienda, tipo de hogar, etc. a veces suele ponerse también en la primera parte del
cuestionario.
Si el cuestionario se administra mediante entrevista personal, son registrados por el
entrevistador, con base a la observación.
Si el cuestionario es auto administrado, por correo o entrevista telefónica, los datos
los proporciona el encuestado.

Aplicación de la prueba piloto. Después de haberse elaborado el borrador de los


cuestionarios, el siguiente paso es que el investigador pruebe el cuestionario antes de
aplicarlo de manera definitiva. Para ello se emplea una recopilación inicial de información
en forma experimental, es decir, se aplica el cuestionario a cierto número de personas que
responderán las preguntas; así, se observa la manera como están contestando el cuestionario

21
y se evalúa si éste cumple con los objetivos planteados. El resultado que se obtiene de esta
prueba piloto sirve para corregir, modificar o ratificar la forma como están planteadas las
preguntas.

2.2.2 Entrevistas
Entrevista es la recopilación de información en forma directa, cara a cara, donde
el entrevistador interroga y obtiene información directamente del entrevistado, siguiendo
una serie de preguntas preconcebidas y adaptándose a las circunstancias que las respuestas
del entrevistado le presenten.

2.2.3 Encuestas
Otra de las técnicas más utilizadas en el desarrollo de una investigación,
principalmente en las ciencias sociales, es el levantamiento de información mediante
encuestas, ya sea de opinión, de comportamiento, de actuación o de cualquier otro factor
digno de evaluar. La encuesta se realiza con la ayuda de un cuestionario, cuya función es la
medición y pueden aplicarse de manera personal, telefónica o por correo.

2.2.4 Observación
Una de las técnicas más importantes que se utiliza en cualquiera de los métodos
de investigación científica es la observación, la cual se puede definir como el examen
detenido de los diferentes aspectos de un fenómeno, con la finalidad de estudiar sus
características, rasgos y comportamiento dentro del ambiente donde se desarrolla el propio
fenómeno.
“La observación es el registro, en forma sistemática, de patrones conductuales de personas,
objetos y sucesos a fin de obtener información sobre el fenómeno de interés”.

Toda vez que decida emplear el método de la observación, para que ésta sea sistemática,
será necesario que previamente resuelva los siguientes tres problemas:

¿ Qué se va a observar?
¿Cómo se va a observar?
¿Cuándo se va a observar?
Supongamos que su objetivo es el estudio de la atención de los alumnos del primer año de
secundaria en las clases de matemáticas, empleando dos practicantes de la especialidad de
matemáticas como observadores para que lleven a cabo el registro de la atención en el aula
durante el período que va del mes de mayo a fines de julio.

No se trata de la observación del tamaño, ni de la edad de los alumnos, ni mucho menos del
color de los ojos de la profesora o de los practicantes, sino, se trata de la observación de la
actividad psicofisiológica de los alumnos, llamada atención. En esta situación concreta se
encuentran presentes las soluciones de los tres problemas:

22
¿Qué se va a observar?. Respuesta: La atención.
¿Cómo se va a observar?. Respuesta: Mediante dos observadores, de modo que cada uno
registra una vez a cada alumno.
¿Cuándo se va a observar?. Respuesta: En todas las clases de matemáticas, desde mayo
hasta julio.
2.2.5 Experimentación
Otra de las herramientas más utilizadas en el método científico de investigación
es la experimentación, un “método común de las ciencias y la tecnología, que consiste en el
estudio de un fenómeno, reproducido generalmente en un laboratorio, en las condiciones
particulares de estudio que interesan, eliminando o introduciendo aquellas variables que
puedan influir en él. Se entiende por variable todo aquello que pueda causar cambios en los
resultados de un experimento”, existen variables independientes y dependientes. La
variable independiente es todo evento que se incorpora al experimento para ver cómo
influye en la variable dependiente.

2.3 Investigación documental


La investigación de tipo documental es aquella que se respalda en la recopilación de
información a través de escritos formales, libros, revistas, manuscritos, cuadros, figuras,
registros audibles en grabaciones fonográficas o magnéticas, y páginas de Internet. Esto
permite al investigador fundamentar y complementar su investigación con lo aportado por
diferentes autores.

2.4 Validez y confiabilidad de los instrumentos


2.4.1. Validez de un Instrumento: se refiere al grado en que un instrumento de
medición realmente mide la variable que pretende medir. Por ejemplo: que un instrumento
de inteligencia mida inteligencia y no ausencia de memoria.

Pasos para crear y validar un Instrumento de Medición

Listar las variables que se van a medir u observar.


a) Revisar la definición conceptual de las variables.
b) Establecer la definición operacional.
c) Elegir un instrumento ya desarrollado que se adaptará para el estudio o crear
un nuevo instrumento, tomando en cuenta las dimensiones a medir y los indicadores
específicos que se utilizarán para cada una.
d) Indicar el nivel de medición de cada ítem o variable.
e) Establecer la forma en que se codificarán (darles un número que represente)
las variables o ítems.
f) Aplicar una prueba piloto del instrumento.
g) Modificar el instrumento, a partir de los resultados de la prueba piloto.

23
2.4.2. Confiabilidad del Instrumento: Se refiere al grado en que su aplicación
repetida al mismo sujeto u objeto produce resultados similares o consistentes con
mediciones previas.

Existen diversos métodos para evaluar la confiabilidad de un instrumento, tales como:


a) Medida de Estabilidad: (confiabilidad test - retest). Un mismo instrumento es
administrado a un mismo grupo de personas después de un período de tiempo. Se mide la
confiabilidad a través de la correlación entre ambos puntajes.

b) Método de Formas paralelas o alternativas. Se Administran dos formas


equivalentes, por tanto no es el mismo instrumento. Las formas son equivalentes en
contenidos, preguntas, instrucciones, duración, etc. Las formas se administran a un mismo
grupo dentro de un período de tiempo corto. Se mide la confiabilidad a través de la
correlación entre ambos puntajes.

c) Método de las Mitades partidas (split - halves). Requiere una sola medición
en un mismo grupo de sujetos. Se divide la prueba en dos mitades y se comparan los
resultados en correlaciones.

d) Coeficiente de Cronbach. Este coeficiente requiere una sola medición y mide


la consistencia interna de los ítems en cada escala y el instrumento como conjunto. Es decir
entrega un valor estadístico que nos indica en qué medida un conjunto de ítems apuntan en
la misma dirección. (Ross,2000)

2.5 Organización y presentación de datos


Después de la recopilación de los datos, es necesario resumirlos y presentarlos en
forma tal. Que faciliten su comprensión y su posterior análisis y utilización. Para ello, se
ordenan en cuadros numéricos y luego se representan en gráficos.

Tabla de Frecuencias
Es el agrupamiento de datos en categorías que muestran el número de observaciones en
cada categoría mutuamente excluyente.

Partes de una tabla:

Tabla..., Que (variable), A quien, Donde, Cuando

Variable

Categ. Conteo o

24
Porcentaje
Categ.

Total

Fuente: ¿de dónde se obtuvieron los datos?


2.5.1 Tablas para Variables Cualitativas

Frecuencia absoluta simple

Frecuencia relativa
porcentual

Variable fi hi%

Categ.

Categ.

Total

Nomenclatura usada en la tabla:


Frecuencia absoluta simple (fi) Es el número de veces que se repiten los valores dentro
de las diferentes categorías en que está dividida la información.
Frecuencia relativa porcentual (hi%) Es el valor que resulta al dividir cada una de las
frecuencias absolutas simples entre el número total de datos.
fi
hi %  *100
n

Ejemplo: La oficina de recursos humanos de la empresa constructora “LAS TORRES” S.A.


de la ciudad de Chiclayo, contrató a 20 obreros para construir un edificio en el cercado de
la ciudad, en sus fichas de inscripción de cada obrero se registró su estado civil.

25
X1 = Soltero X8 = Divorciado X15 = Soltero
X2 = Casado X9 = Casado X16 = Casado
X3 = Viudo X10 = Casado X17 = Casado
X4 = Soltero X11 = Casado X18 = Soltero
X5= Divorciado X12 = Soltero X19 = Divorciado
X6 = Viudo X13= Divorciado X20 = Casado
X7 = Soltero X14 = Viudo
Con esta información construir una tabla de distribución de frecuencia para la variable
“Estado Civil”.
Clases o categorías:
C1 = Soltero C2 = Casado
C3 = Divorciado C4 = Viudo

Tabulación:
Tabla 1
Estado civil de 20 obreros de la empresa constructora “Las Torres” S.A.,
Chiclayo-diciembre 2013.
Estado Civil (x) fi hi %
Soltero 6 30
Casado 7 35
Divorciado 4 20
Viudo 3 15
TOTAL 20 100

Fuente: Fichas de inscripción oficina recursos humanos.Diciembre-2013

Interpretación:
El 30 % de obreros tienen el estado civil de solteros (6), el 35 % son casados (7), el 20 %
divorciados (4), y el 15 % son viudos (3).

2.5.2 Tablas de Variables Cuantitativas Discretas

Frecuencia absoluta simple

Frecuencia relativa
porcentual

Variable fi Fi hi% Hi%


26
Categ.

Categ.

Total

Nomenclatura usada en la tabla:


Frecuencia absoluta acumulada (Fi) Se obtiene sumando y acumulando los valores de las
frecuencias absolutas intervalo por intervalo en orden ascendente.
F1 = f1
F2 = f1 + f2
F3 = f1 + f2 + f3
Fi = f1 + f2 + f3 +… + fi
Frecuencia relativa acumulada porcentual (Hi%) Se obtiene sumando y acumulando los
valores relativos simples intervalo por intervalo en orden ascendente.
H1 = h1
H2 = h1 + h2
H3 = h1 + h2 + h3
Hi = h1 + h2 + h3 + … + hi
Ejemplo: Se realiza un estudio para determinar el número de trabajadores que emplea las
pequeñas empresas del departamento de Lambayeque, para lo cual se toma una muestra de
20 pequeñas
empresas X 1 = 6 X 6 = 3 X 11 = 4 X16 = 3
X2 = 5 X7 = 4 X12 = 5 X17 = 4
X3 =4 X8 =4 X13 =6 X18 = 6
X4 =4 X9 =5 X14 = 2 X19 =5
X5 =5
X10 = 5 X15 = 4 X20 =3

determinándose los siguientes datos

27
Clasificación:
En este caso se identifican los distintos valores que tiene Xi, primero ubicamos el valor
menor y mayor: Xmin = 2 y Máx. = 6. Los distintos valores que toma la variable Xi los
vamos a denotar por fi resultando:
X1 = 2; X2 = 3; X3 = 4; X4 = 5; X5 = 6
Tabulación:
Tabla 2
Número de trabajadores de una muestra de 20 pequeñas empresas.
Departamento Lambayeque, 2012
N° de Trabajadores fi Fi hi% Hi%
2 1 1 5 5
3 3 4 15 20
4 7 11 35 55
5 6 17 30 85
6 3 20 15 100
TOTAL 20 100

Fuente: Cámara de Comercio, Lambayeque-2012


Interpretación:
El 35 % de las pequeñas empresas de Lambayeque tienen 4 trabajadores, el 30% tienen 5
trabajadores. Por otra parte, el 55% de las pequeñas empresas, poseen como máximo 4
trabajadores.

2.3.3 Tablas para Variables Cuantitativa Continua


Frecuencia absoluta simple

Frecuencia absoluta acumulada

Variable Yi fi Fi hi% Hi%

Categ.

Categ.

Frecuencia relativa porcentual


Total Marca de Clase
Frecuencia relativa acumulada
porcentual

Nomenclatura usada en la tabla:

28
Marca de clase (xi) La marca de clase es el punto medio de un intervalo.
l i 1  l i
Yi 
2
Cuando la variable en estudio es continua, para elaborar una tabla de distribución de
frecuencias deben seguir los siguientes pasos:

1° Elegir el Rango (R)


Se define como la diferencia entre el valor máximo y el valor mínimo.
R = X máx - Xmín

2° Elegir el número de Intervalos (I)


El número de intervalos puede fijarse arbitrariamente dependiendo del número de datos que
se tenga. Por lo general el número de intervalos a elegir, varía entre 5 a 20.
Sin embargo existen algunas fórmulas que permiten determinar el número de intervalos.
K  1 3.322 * log n , n 10 ó K  2.5 * 4 n
Dónde: K = Número de Intervalos
n = Número de datos.

3° Elegir la Amplitud (A)


Se define como el cociente que se tiene al dividir el Rango (R) entre el número de
intervalos (K).
R
A
K
Si la amplitud del intervalo resultara un valor no entero se procede a redondear al entero
inmediato superior si los datos son enteros.
Si los datos proporcionados están en decimal, se redondea de acuerdo al número de
decimales de la información.

4° Construir los intervalos (I)


Comenzar teniendo como referencia el valor menor de los datos y la amplitud.
Ejemplo: Los siguientes datos representan las edades de 50 pacientes atendidos en los
servicios de emergencias del Hospital Regional Docente Las Mercedes, ciudad de Chiclayo
mes de abril de 2013.

63 68 36 49 56 64 59 35 78 43
36 43 53 70 57 62 43 68 62 27

29
89 64 72 52 51 62 60 71 61 55
26 59 60 67 57 67 61 67 51 81
60 53 64 76 44 73 56 62 63 60

Construir una tabla de distribución de frecuencias.

i. Número de Intervalos
K  1 3.322 * log 50= 6.64=7
I  2.5 * 4 50
I 7

ii. Hallar el Rango


R  X max  X min
R = 89 – 26 = 63

iii. Amplitud del Intervalo


R 63
A 
I 7
A9

Tabla 3
Edad de 50 pacientes atendidos por servicios de emergencias Hospital
Docente las
[Li-1, Li> Yi fi Fi hi % Hi % Mercedes –
Chiclayo. Abril,
26 - 35 30,5 2 2 4 4
2013
35 - 44 39,5 6 8 12 16
44 - 53 48,5 5 13 10 26
53 - 62 57.5 15 28 30 56
62 – 71 66.5 14 42 28 84
71 – 80 75.5 5 47 10 94
80 – 89 84.5 3 50 6 100
TOTAL 50 100

30
Fuente: Registros Hospital Docente las Mercedes. Chiclayo, Abril-2013

Interpretación:
f3: 5 pacientes atendidos por servicios de emergencias del Hospital Regional Docente de las
Mercedes de Chiclayo tienen una edad comprendida entre 44 y 53 años.

h4 % :El 30 % de pacientes atendidos por servicios de emergencias del Hospital Regional


Docente de las Mercedes de Chiclayo tienen una edad comprendida entre 53 y 62 años.

H5 % :El 84 % de pacientes atendidos por servicios de emergencias en el Hospital


Regional Docente de las Mercedes de Chiclayo tienen una edad menor de 71 años pero
mayor a 26 años.

2.6 Representaciones gráficas


Los gráficos más usuales para representar variables de tipo cualitativa son los
siguientes:
2.6.1. Diagramas de barras:
Se utiliza generalmente para representar variables cualitativas, representan en el
eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las
frecuencias relativas.

Tabla 4
Grado de instrucción de pacientes atendidos de Tuberculosis pulmonar,
Hospital Almanzor Aguinaga Asenjo - Chiclayo, Mayo - 2013
Grado de Instrucción fi %
Analfabeto 36 45
Primaria 24 30
Secundaria 16 20
Superior 04 05
TOTAL 80 100

Fuente: Registros Hospital Docente las Mercedes.Chiclayo,Mayo-2013

31
Grado de instrucción de pacientes atendidos de Tuberculosis pulmonar -
Hospital Almanzor Aguinaga Asenjo - Chiclayo, Mayo – 2013

36
P 32
A
A =Analfabetos
P= Primaria
C 28

E 24

T 0 20
A P S SP
E
Figura 1: Se puede observar que el 45% de los pacientes atendidos son
S 16
analfabetos, mientras que el 5% de ellos tienen un grado de instrucción
superior.

Fuente: Registros Hospital Docente las Mercedes.Chiclayo,Mayo-2013 12

2.6.2 Gráfico de sector (torta)


8
Es un gráfico circular distribuido en sectores. Se usa para representar las
componentes de un total en variables cualitativas.
4

GRADO DE INSTRUCCIÓN

Ejemplo:
Teniendo en cuenta la información de la tabla 4, construir un gráfico de sector.

Pacientes atendidos de tuberculosis pulmonar según grado de instrucción Hospital


Almanzor Aguinaga Asenjo de Chiclayo – Mayo, 2013

32
Superior
5%

Primaria Secundaria
30% 20%

Analfabeto
45%

xi fi hi Fi Hi
0 1 12.5 1 12.5
Fuente: Registros Hospital Docente las
Mercedes.Chiclayo,Mayo-2013

Para variables de tipo cuantitativa discreta


tenemos el siguiente gráfico:

2.6.3 Diagrama de Bastones


Las barras deben ser estrechas para representar los valores que toma la variable discreta.

Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X,
obteniéndose los siguientes resultados:

Representar gráficamente el resultado.


En primer lugar observamos que la variable X es cuantitativa discreta.

Tabla 5
Número de veces que aparece una cara
al lanzar 3 monedas al aire

33
1 3 37.5 4 50.0
2 3 37.5 7 87.5
3 1 12.5 8 100.0
Total 8 100.0

Lanzamiento de tres monedas al aire en ocho ocasiones

Figura 3: la figura nos muestra el número de veces que aparece una


cara al lanzar tres monedas aire.

2.6.4. Histograma
Un histograma se construye a partir de la tabla estadística, representando sobre
cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular
la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.

Graficar la información de la tabla 3

Edad de 50 pacientes atendidos por servicios de emergencias. Hospital Docente


Las Mercedes – Chiclayo. Abril, 2013

34
16

14

12
Fuente:
N° DE PACIENTES

10
Registros
8
Hospital 6
Docente 4

las 2

Mercedes 0
26 – 35 35 – 44 44 – 53 53 – 62 62 – 71 71 – 80 80 - 89
.Chiclayo EDAD

,Mayo-
2013

2.6.5. Polígono de frecuencias


Es una línea poligonal cerrada que une los puntos medios de los techos de los
rectángulos el histograma, se usa para comparar dos o más distribuciones de variables
cuantitativas. El polígono de frecuencias se construye fácilmente si tenemos representado
previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase.
%

Masculino Femenino

35
Graficar la información de la tabla 3

Edad de 50 pacientes atendidos por servicios de emergencias.


Hospital Docente Las Mercedes – Chiclayo. Abril, 2013

18
16
N° DE PACIENTES 14
12
10
8
6
4
2
0
21.5 30.5 39.5 48.5 57.5 66.5 75.5 84.5 93.5
EDAD

Figura 5: el pico más alto nos da referencia a que existen 15 pacientes atendidos con una
edad promedio de aproximadamente 58 años.
Fuente: Registros Hospital Docente las Mercedes.Chiclayo,Mayo-2013

PROBLEMAS PROPUESTOS

1. Un conjunto de datos consta de 95 observaciones o datos. ¿Cuántos intervalos


recomendaría para construir la tabla de distribución de frecuencias?
Rpta:____________________

2. Un conjunto de datos está integrado por 75 observaciones que van desde el 1.2 hasta
39.2 dólares (1 decimal). ¿Cuál es la amplitud que recomendaría usted para la construcción
de una tabla de distribución de frecuencias?
Rpta:____________________

3. Instrucción: Teniendo en cuenta la siguiente tabla de distribución, complétela en


forma correcta utilizando las propiedades y definiciones dadas en clase:
36
Inversión Yi fi Fi hi Hi
20 - 30
30 - 40
40 - 50
50 - 60 5 96
60 - 70
Total 50
Además se sabe que h2 = h4 y h1 = h5

4. Al investigar el nivel socioeconómico en las modalidades: bajo (B), medio (M), alto
(A) de 50 familias se obtuvo los siguientes datos:

M B B M A M B M B M
B B B M M A B B A M
A B B B M B M A M B
M M M B M M B A M M
A M M M M B B M A M
a. Indicar la variable en estudio.
b. Indicar el tipo de variable.
c. Elaborar la tabla de distribución frecuencias.
d. Interpretar la tabla.

5. Un investigador desea determinar cómo varían los pesos en kilogramos de las


obreras de una empresa y toma una muestra de 50 mujeres para registrar luego dichos
pesos. Los datos obtenidos fueron los siguientes:

65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Construir la tabla de distribución de frecuencias en forma completa (Incluyendo el número,
título, conceptos, cuerpo o contenido, nota o notas de pie, fuente y elaboración), usando la
Regla de Sturges para determinar el número de intervalos.

Interpretar:
h4%:…………………………………………………………………………………………………...
H4%:…………………………………………………………………………………………………..
F3:..………………………………………………………………………………………………...
f2:……………………………………………………………………………………………………

6. Cervecería “RICA CHELA”


La Cervecería “RICA CHELA” acaba de lanzar al mercado una nueva cerveza. Después del
lanzamiento, las ventas no han tenido el impacto esperado en las regiones (no incluye
Lima), por lo que han realizado un estudio de mercado, en el cual se han incluido las

37
principales ciudades: Trujillo, Chiclayo, Piura e Iquitos. El objetivo de la investigación de
mercado es el tratar de determinar segmentos de mercado a los cuales puedan enfocarse e
idear una estrategia de comercialización que eleven los niveles de consumo y venta. El
estudio de campo consideró una muestra de 40 personas que respondieron en las cinco
ciudades. Los datos y las variables recolectadas se detallan a continuación:

X1. Sexo
X2. Edad (en años)
X3. Categoría ocupacional (estudiante, obrero, empleado, profesional).
X4. Nivel de educación (años de escolaridad terminados).
X5. Estado civil (casado, no casado).
X6. Ingreso mensual.
X7. Si el encuestado bebe cerveza por lo menos una vez al mes (sí, no).
X8. Ciudad.

Realizar lo siguiente:

a. Una tabla de frecuencias para la variable ingreso considerando la totalidad de los datos.
b. Calcule e interprete a partir de la tabla construida: H2%, f3, h4%, F2, y3.
c. Considerando solamente los datos de la ciudad de Chiclayo construya una tabla que
distribuya a las personas tomadas como muestra de acuerdo a su estado civil. Asimismo,
utilice la gráfica adecuada para presentar la información.
d. Considerando solo a las personas de Iquitos, presente una tabla que las distribuya de
acuerdo a su edad. Igualmente grafique sus resultados

Base de datos:

X4:Años de
Nº X1:Sexo X2.Edad X3:Cat_ocu X5: E_C X6:Ingreso X7:Bebe X8:Ciudad
escolaridad

1 Masculino 34 Obrero 6 Casado 1200 Si Trujillo


2 Femenino 40 Ama de casa 10 No casado 3100 No Trujillo
3 Masculino 40 Empleado 17 No casado 3700 Si Trujillo
4 Femenino 33 Estudiante 6 No casado 2800 No Trujillo
5 Masculino 22 Estudiante 9 No casado 1100 Si Trujillo
6 Masculino 31 Empleado 11 No casado 800 Si Trujillo
7 Femenino 36 Ama de casa 9 No casado 1600 Si Trujillo
8 Masculino 36 Obrero 12 No casado 700 Si Trujillo
9 Femenino 38 Empleado 15 No casado 600 Si Trujillo

38
10 Masculino 35 Obrero 8 No casado 1200 No Trujillo
11 Masculino 30 Estudiante 14 No casado 700 Si Chiclayo
12 Femenino 31 Ama de casa 5 Casado 1200 No Chiclayo
13 Masculino 35 Obrero 6 Casado 1200 Si Chiclayo
14 Masculino 37 Obrero 17 Casado 1300 Si Chiclayo
15 Femenino 38 Ama de casa 10 No casado 1380 Si Chiclayo
16 Femenino 19 Estudiante 13 No casado 800 Si Chiclayo

17 Femenino 22 Estudiante 11 No casado 900 No Chiclayo


18 Masculino 32 Estudiante 14 Casado 1100 Si Chiclayo
19 Masculino 38 Obrero 12 No casado 1200 Si Chiclayo
Chiclayo
20 Masculino 34 Obrero 7 No casado 1600 Si
21 Femenino 26 Estudiante 15 No casado 1200 No Piura
22 Femenino 37 Ama de casa 5 No casado 1400 Si Piura
23 Masculino 35 Obrero 8 Casado 1300 Si Piura

24 Femenino 35 Ama de casa 9 Casado 980 Si Piura


25 Masculino 37 Obrero 8 Casado 1100 Si Piura
26 Femenino 39 Ama de casa 5 Casado 900 No Piura
27 Masculino 40 Obrero 7 No casado 1200 Si Piura
28 Masculino 30 Estudiante 10 No casado 900 Si Piura

29 Masculino 38 Obrero 7 No casado 700 Si Piura


30 Masculino 30 Obrero 9 Casado 450 Si Piura

31 Femenino 36 Ama de casa 9 Casado 900 No Iquitos


32 Femenino 23 Obrero 4 No casado 990 Si Iquitos

33 Masculino 42 Empleado 10 No casado 1300 No Iquitos


34 Masculino 31 Obrero 9 Casado 1300 No Iquitos
35 Masculino 38 Obrero 5 Casado 1200 Si Iquitos
36 Masculino 35 Obrero 12 No casado 900 Si Iquitos
37 Femenino 30 Estudiante 13 Casado 680 Si Iquitos

38 Masculino 44 Obrero 5 Casado 1200 Si Iquitos


39 Masculino 32 Estudiante 13 No casado 800 Si Iquitos
40 Masculino 46 Obrero 5 Casado 900 Si Iquitos

7. La siguiente tabla muestra la superficie (en millones de millas cuadradas) de los


océanos.
Océano: Pacífico Atlántico Índico Antártico Ártico
Superficie: 70 41 28 7 4
Identificar la variable, y represente los datos mediante dos gráficos diferentes.
8. Construya una gráfica adecuada que permita comprar la predilección de los
estudiantes por las carreras de ciencias en tres universidades si se tienen los siguientes
datos.

Universidades Alumnos que Total de


Prefieren ciencias alumnos

39
A 300 6000
B 200 4000
C 180 7200

9. Se ha clasificado un grupo de personas de acuerdo a su ocupación y procedencia. La


distribución resultó la siguiente.
Ocupación Costa Sierra Selva
Agricultores 15 16 7
Mineros 5 9 4
Técnicos 13 8 2
Obreros 16 11 4

a. Haga un gráfico para representar la distribución de las personas por su ocupación.


b. Haga un gráfico para comparar la región de procedencia de las personas según su
ocupación.

10. El volumen de exportación de cobre, en miles de toneladas, durante el periodo


2005-2009 se dan en la tabla que sigue. Trazar un gráfico para:

Gran Mediana Pequeña


Año
minería minería minería
2005 30 30 30
2006 50 50 30
2007 80 60 43
2008 60 40 42
2009 50 45 40
a. Mostrar la evolución de las exportaciones.
b. Ver el tipo de minería que determina principalmente la tendencia de las
exportaciones
c. Mostrar la proporción de cada tipo de minería respecto al total de las exportaciones
por año.

40
CAPÍTULO III

Medidas de Tendencia Central


y
Posición

Medidas de Tendencia Central y Posición


3. Medidas de centralización
Las Medidas de Centralización o de Tendencia Central son parámetros o estadígrafos que
expresan en forma resumida un conjunto de datos. Estos parámetros a través de sus
propiedades y sus definiciones hacen posible el análisis de un conjunto de datos.

41
3.1. El Promedio o Media Aritmética
El promedio es el centro de la distribución de los datos cuando se trata de casos
normales. Entendemos aquí por casos normales aquellos conjuntos de datos que no
contienen valores muy extremos, valores muy alejados de los demás (Universidad Católica
de Valparaíso) .
El promedio tiene los siguientes símbolos

𝜇 𝑝𝑎𝑟𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙

𝑥̅ 𝑝𝑎𝑟𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙

3.1.1 Promedio para datos originales: Se denomina datos originales a un


conjunto de datos de cualquier variable y copiados de cualquier manera. La fórmula para su
cálculo es:
n
 xi
i 1
x Donde xi: Observaciones o datos
n
n: N° de datos

Ejem.1: Los siguientes datos corresponde al ingreso económico de 8 padres de los alumnos
de ingeniería de sistemas: 1200, 900, 1250, 1350, 800, 750, 1200, 1300. Encontrar el
ingreso promedio
1200  900  1250  1350  800  750  1200  1300
x
8
x  1093,75 Soles

El ingreso económico promedio de 8 padres de familia es 1093,75 soles.

3.1.2 Promedio para datos tabulados


a. Promedio para datos tabulados no agrupados en intervalos
n

x f i i
Formula: x i 1

n
Ejem. 2:

42
Tabla 1
Número De trabajadores por empresa
Xi fi
46 8
47 10
48 16
49 14
50 12
51 9
52 6
Total 75

Reemplazamos los valores en la fórmula:

46 x8  47 x10  48x16  49 x14  50 x12  51x9  52 x6


x
75
x  48,84
El N° promedio de trabajadores por empresa es aproximadamente 49

b. Promedio para datos tabulados agrupados en intervalos

x f i i
FORMULA: x i 1
Yi : Marcas de clase del intervalo
n

Ejem.3:
Tabla 2
Ingreso económico de 62 padres de familia

43
Ingreso Económico Yi fi Fi
454,5 – 587,5 521 5 5
587,5 – 720,5 654 5 10
720,5 – 853,5 787 10 20
853,5 – 986,5 920 13 33
986,5 – 1119.5 1053 16 48
1119,5 – 1252,5 1186 8 56
1252,5 – 1385,5 1319 5 62
Total 62

521x5  654 x5  787 x10  920 x13  1053x16  1186 x8  1319 x5


x
62
x  945,74
El ingreso económico promedio de los 62 padres de familia es de 945,74 soles.

3.2. La Moda (Mod)


La Moda en un conjunto de observaciones, viene a ser el valor de la variable que se
presenta con más frecuencia en la distribución de datos.
No tiene símbolo definido.

3.2.1. Moda para datos cuantitativos agrupados


Ejemplo N° 1: Los siguientes datos corresponde al ingreso económico de 10 padres de
familia. Encontrar la moda.
970, 930, 860, 1040, 1020, 1380, 1410, 900, 1040, 1240
Mod = 1040
Ejemplo N° 2: Ingreso económicos de 8 trabajadores. Encontrar la moda.
1200, 1050, 910, 1300, 1550, 1420, 960
Estos datos no tienen moda.
Ejemplo N° 3: corresponde al peso de 10 alumnos:
65, 54, 72, 60, 58, 54, 66, 70, 58
Mod1 = 54
Mod2 = 58

44
Un conjunto de datos puede tener una moda y se dice que la distribución de los datos es
unimodal, más de una moda se dice que la distribución de los datos es multimodal o
también no tener moda y se dice que la distribución de los datos es amodal.

3.2.2. Moda para Datos Cuantitativos agrupados


a. Moda para datos tabulados no agrupados en intervalos
Formula: Mod  x j
Dónde:
xj es el valor de la variable que corresponde a la máxima frecuencia absoluta.

Ejem.4: Tomamos los datos de la tabla 1

Xi fi
46 8
47 10
48 16
49 14
50 12
51 9
52 6
Total 75

La Moda será el valor de la variable que corresponde a la máxima frecuencia absoluta


(f4 =16), en este caso Mod = 48
El resultado significa que es más frecuente encontrar empresas con 48 trabajadores

b. Moda para datos tabulados agrupados en intervalos


 f i  f i 1 
Formula: Md  L j 1  A 
 ( f i  f i 1 )  ( f i  f i 1 ) 
Donde:
fi = máxima frecuencia absoluta
fi-1 = frecuencia absoluta anterior a nj
fi+1 = frecuencia absoluta posterior a nj
Li-1 = límite inferior del intervalo que se encuentra en la misma fila de nj
A = Amplitud del intervalo

45
Ejem.5: Vamos a tomar los datos de la tabla 2

Ingreso
fi
Económico Fi
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62

De acuerdo a la teoría:
1° fi = 16 2° Li-1 = 986,5 3° fi-1 = 13
4° A = 133 5° fi+1 = 8

Reemplazando lo valores en la fórmula se tiene:


 16  13 
Mod  986,5  133 
 16  13  16  8 
Mod  1022
Los sueldos o ingresos económicos más frecuente de 62 trabajadores encuentran alrededor
de 1022 soles.

3.2.3. Moda para datos cualitativos:


La moda estará dada por la categoría de la variable que corresponde a la máxima frecuencia
absoluta.
Ejem.6: Tabla 3
Nivel de Instrucción de 70 personas
Nivel de instrucción fi hi%
Primaria 2 2,86
Secundaria 11 15,71
Sup. No Universitaria 42 60,00
Sup. Universitaria 15 21,43
Total 70 100,00

La máxima frecuencia es 42, por lo tanto, la moda es la categoría superior no


universitaria, es decir: Mod = Sup. No Universitaria
46
3.3. La Mediana
Es el valor que divide a la totalidad de datos, ordenados en forma creciente o
decreciente, en dos partes iguales, de tal manera que el 50% de los datos se encuentren a la
izquierda de la mediana y el otro 50% a la derecha de la mediana.(Tomeo, 2003)

Li Me Ls

50% 50%

La mediana se aplica en lugar del promedio, cuando la variabilidad de los datos es muy
marcada. La mediana también se aplica a datos cualitativos ordenados de acuerdo a rangos.
La mediana no tiene símbolo definido.

3.3.1. Mediana para datos cuantitativos no agrupados


Se presentan dos casos:
a. Cuando el N° de datos es Par
Se ordenan los datos en forma creciente o decreciente y se toma el promedio de los dos
valores del centro.

Ejemplo N°1: Los siguientes datos corresponden a las edades de 10 ingenieros:


50, 22, 61, 30, 55, 42, 46, 35, 38,28
Ordenamos en forma creciente:
22, 28, 30, 35, 38, 42, 46, 50, 55, 61
38  42
Me 
2
Me  40
El 50% de los ingenieros tienen una edad máxima de 40 años

b. Cuando el N° de datos es Impar


Ejemplo N°2: Los siguientes datos corresponden al nº de trabajadores de 9 empresas
63, 56, 94, 32, 58, 41, 90, 45, 104
Ordenamos de forma creciente
32, 41, 45, 56, 58, 63, 90, 94, 104

Se toma el valor del centro: Me = 58

El 50% de empresas tienen un número máximo de 58 trabajadores.

47
3.3.2. Mediana para Datos Cuantitativos Tabulados
a. Mediana para datos no agrupados en intervalos
n
1° Cuando  Fi 1
2
Formula: Me = Xi
Dónde:
xj: Es el valor de la variable que se encuentra en la misma fila de Fi
n
Fi: Frecuencia absoluta acumulada inmediatamente mayor que
2
Fi-1: Frecuencia absoluta acumulada anterior a Fi

Procedimiento:
Ejem.7: Tomamos los datos de la tabla 1
n 75
Xi fi Fi 1°   37,5 2° Fi  48
2 2
46 8 8
n
47 10 18 3° Fi 1  34 efectivamente  Fi 1
48 16 34 2
49 14 48
50 12 60 4° Xj  49
51 9 69
52 6 75
Por lo tanto: Me = 49
Total 75
50% de las empresas tienen como máximo 49 trabajadores.

n
2° Cuando  Fi 1
2
Li 1  Li
Formula:
2
Ejem.8: Los siguientes datos corresponden al N° de hijos de 54 familias

Número Procedimiento:
de hijos fi Fi n 54
Li 1°   27 2° Fi  42
2 2
1 5 5
n
2 10 15 3° Fi 1  27 efectivamente  Fi 1
3 12 27 2
4 15 42 4° Li  4 5° Li 1  3
5 8 50
6 4 54 3 4
Reemplazando valores: Me   3,5 = 4
Total 54 2

El 50% de las familias tienen como máximo aproximadamente 4 hijos.

48
b. Mediana para datos agrupados en intervalos
n
1° Cuando  Fi 1
2

 n 2  Fi 1 
FORMULA: Me  Li 1  A *  
 Fi  Fi 1 
Dónde:
Li-1 = límite inferior del intervalo que se encuentra en la misma fila de Fi
A = Amplitud del intervalo
Fi = frecuencia absoluta acumulada inmediatamente mayor que n
2
Fi-1= frecuencia absoluta acumulada anterior a Fi

Ejem.9: Vamos a tomar los datos de la tabla 2

Ingreso
fi
Económico Fi
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62

Procedimiento:
n
1° n  62  31 2° Fi= 33 3° Fi 1  20 efectivamente  Fi 1
2 2 2

4° Li 1  853,5 5° A = 133
Reemplazando valores se tiene:
 31  20 
Me  853,5  133 
 33  20 
Me  966,04
El 50% de trabajadores tienen un ingreso máximo de 966,04 soles.

49
n
2° Cuando  Fi 1
2

Formula: Me  Li 1
Ejem.10: Los siguientes datos corresponden al peso en kilos de 120 alumnos.
Peso fi Fi
30 –33 10 10
33 – 37 20 30
37 – 41 30 60
41 – 45 30 90
45 – 49 16 106
49 – 53 14 120
Total 120
Procedimiento:

3° Fi 1  60 efectivamente
n 120 n
1°   60 2° Fi  90  Fi 1
2 2 2

4° Li 1  41 5° A  4

Reemplazando valores se tiene: Me  41


El 50% de los alumnos tienen un peso máximo de 41 kilogramos.

3.3.2. Mediana para datos cualitativos:


Es factible obtener la mediana cuando se tiene datos cualitativos, susceptibles de ordenarse
de acuerdo a rangos o categorías.

Ejem.11: Tomaremos los datos de la tabla 3


Nivel de Instrucción fi Fi
Primaria 2 2
Secundaria 11 13
Superior No Universitaria 42 55
Superior Universitaria 15 70
Total 70
Procedimiento:

1° n  35 2° Fi  55 3° Fi 1  13
2
La mediana está dada por la categoría que se encuentra en la misma fila de Fi; por lo tanto,
la mediana está dada por la categoría Superior no universitaria.
El 50% de los padres de familia de los estudiantes tienen un grado de instrucción máximo
de Superior no universitaria.

50
3.4. Cuartiles (Qi)
Son medidas de posición que dividen a la distribución de datos ordenados, en cuatro partes
iguales, de tal manera que:

Li Q1 Q2 Q3 Ls

25%

50%

75%

3.4.1. Cuartiles para datos no agrupados


Una vez ordenados los datos tales que x(1)  x( 2)  x(3)  ....  x( n ) . El cuartil i-ésimo (i = 1,
i
2 o 3), es el valor del dato que ocupa la posición ( )( n  1 ) en el ordenamiento.
4
Si la posición resulta entera, se hace una interpolación lineal entre los dos valores
correspondientes a las dos observaciones entre las cuales se encuentra la fracción.

Ejem.12
Tomaremos los datos, ordenados previamente correspondientes al ingreso económico
semanal de 7 padres de familia.
200, 225, 300, 420, 450, 460, 540

x1 x2 x3 x4 x5 x6 x7

Cálculo del Primer Cuartil (Q1): i =1, n =7


i 1
( )( n  1 )  ( )( 7  1 )  2 , posición entera, luego Q1 = x2 = 225.
4 4
El 25% de los padres de familia, tienen un ingreso máximo de 225 soles.

Cálculo del Segundo Cuartil (Q2): i =2, n =7


i 2
( )( n  1 )  ( )( 7  1 )  4 , posición entera, luego Q2 = x4 = 420
4 4
El 50% de los padres de familia, tienen un ingreso máximo de 420 soles.

Cálculo del Tercer Cuartil (Q3): i =3, n =7


i 3
( )( n  1 )  ( )( 7  1 )  6 , posición entera, luego Q3 = x6 = 460.
4 4
El 75% de los padres de familia, tienen un ingreso máximo de 460 soles.

51
Ejem.13
Tomaremos los datos ordenados previamente, correspondientes al ingreso económico
semanal de 10 padres de familia
200, 225, 300, 420, 450, 460, 540, 550, 600, 650

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Cálculo del Primer Cuartil (Q1): i =1, n =10


i 1
( )( n  1 )  ( )( 10  1 )  2.75 , posición no entera, luego Q1 estará entre las
4 4
observaciones X2 y X3.

Estableciendo proporciones se tiene:


Q1  x 2 0,75
  Q1  x 2  ( x3  x 2 )(0,75)
x3  x 2 1
Q  225  (300  225)(0,75)
Q  225  56,25
Q  281,25
El 25% de los padres de familia tienen un ingreso máximo de 281,25 soles.

Cálculo del Segundo Cuartil (Q2): i =2, n =10


i 2
( )( n  1)  ( )(10  1)  5,5 , posición no entera, luego Q2 estará entre las observaciones X5
4 4
y X6.
Entonces:
Q2  x5  ( x6  x5 )(0,5)
 450  (460  450)(0,5)
 450  5
Q2  455
El 50% de los padres de familia tienen un ingreso máximo de 455 soles.

Cálculo del Tercer Cuartil (Q3): i =3, n =10


i 3
( )( n  1)  ( )(10  1)  8,25 , posición no entera, luego Q3 estará entre las
4 4
Observaciones X8 y X9.

52
Entonces:
Q3  x8  ( x9  x8 )(0,25)
 550  (600  550)(0,25)
 550  12,5
Q2  562,5

El 75% de los padres de familia tienen un ingreso máximo de 562,5 soles.

3.4.2. Cuartiles para datos agrupados

 n(i) 
 4  Fi 1 
Formula: Qi  Li 1  A *  
 Fi  Fi 1 
 

Donde i, tomará valores de 1 a 3, según se trate de calcular el 1°, 2° ó 3° cuartil.

Ejem.14
Para el cuadro N° 2, calcular el primer, segundo y tercer cuartil.

Procedimiento: Es parecido al cálculo de la mediana

Cálculo del primer cuartil (Q1): i = 1 Ingreso


fi Fi
 n(1)  Económico
  Fi 1 
Formula:
Q1  Li 1  A *  4  454,5 – 587,5 5 5
 Fi  Fi 1  587,5 – 720,5 5 10
  720,5 – 853,5 10 20
853,5 – 986,5 13 33
ni  621 986,5 – 1119.5
1°   15,5 2° Fi= 20 16 48
4 4 1119,5 – 1252,5 8 56
3° Fi-1 = 10 1252,5 – 1385,5 5 62
4° Li-1 = 720,5 5° A = 133 Total 62

Reemplazando valores en la fórmula:

 15  10 
Q1  720,5  133 * 
 20  10  El 25% de los trabajadores, tienen un ingreso máximo
Q1  787 de 787 soles.

53
Cálculo del segundo cuartil (Q2): i = 2
 n(2) 
 4  Fi 1 
Formula: Q2  Li 1  A *  
 Fi  Fi 1 
 
Procedimiento:
ni  622
1°   31 2° Fi = 33 3° Fi-1 = 20
4 4
4° Li-1 = 853,5 5° A = 133

Reemplazando valores en la fórmula:

 31  20 
Q2  853,5  133
 33  20 
Q2  966,04

El 50% de los trabajadores, es decir 31, tienen un ingreso máximo de 966,04 soles.

Cálculo del tercer cuartil (Q3): i = 3

 n(3) 
 4  Fi 1 
Formula: Q3  Li 1  A *  
 Fi  Fi 1 
 
Procedimiento:
ni  623
1°   46,5 2° Fi = 48 3° Fi-1 = 33
4 4
4° Li-1 = 986,5 5° A = 133

Reemplazando valores en la fórmula:

 46,5  33 
Q3  986,5  133 
 48  33 
Q3  1106,2

El 75% de los trabajadores, es decir 47 tienen un ingreso máximo de 1106,2 soles.

54
3.5. Deciles (Di)
Son medidas de posición que dividen a la distribución de datos, previamente ordenados, en
10 partes.
i
El decil i–ésimo es el valor del dato que ocupa la posición ( )( n  1 ) en el ordenamiento.
10

Si la posición no resulta entera, se hace una interpolación lineal entre los dos valores
correspondientes a las dos observaciones entre las cuales se encuentre la posición.
(Montgomery, 1997)

3.5.1. Deciles para datos originales


Ejemplo: Tomaremos los datos correspondiente al ingreso semanal, previamente ordenados
de 9 trabajadores de una empresa
320, 330, 345, 410, 460, 580, 900, 940, 940

x1 x2 x3 x4 x5 x6 x7 x8 x9

Calcular el Decil 2 y el Decil 6.


Decil 2 (D2): i = 2, n = 9
2
( )( 9  1 )  2
10
Posición entera
Por tanto el decil 2 es el dato que ocupa la segunda posición: D2 = 330.

El 20% de los trabajadores tienen un ingreso máximo de 330 soles.

Decil 6 (D6): i = 6, n = 9
6
( )( 9  1 )  6
10 :
Posición entera
Por tanto el decil 6 es el dato que ocupa la sexta posición: D6 = 580.

El 60% de los trabajadores tienen un ingreso máximo de 580 soles.

55
3.5.2. Deciles para datos tabulados
 n(i ) 
 10  Fi 1 
Formula: Di  Li 1  A *  
 Fi  Fi 1 
 
Donde i, tomará valores de 1 a 9, según se trate del primero, segundo, hasta el noveno decil.

Ejem.15
Para el cuadro N° 2, calcular el 4° decil.

Procedimiento:
1° ni   624  24,8 2° Fi = 33 3° Fi-1 = 20
10 10
4° Li-1 = 853,5 5° A= 133

Reemplazando valores en la fórmula:

 n(4) 
 10  Fi 1   24,8  20 
D4  Li 1  A *  D4  853,5  133 * 
 33  20 

 Fi  Fi 1 
  D4  902,61

El 40% de los trabajadores, tienen un ingreso máximo de 902,61 soles.

3.6. Percentiles
Para el cálculo de los centiles o percentiles (Pi) se procede de manera similar y las fórmulas
correspondientes son: (Hoog, 1995)
i
Para datos originales: ( )( n  1 )
100

Para datos tabulados:

 n(i ) 
 100  Fi 1 
Formula: Pi  Li 1  A *  
 Fi  Fi 1 
 

56
Ejem.16: Para la tabla 2, calcular el 37° percentil.

Ingreso
fi Fi
Económico
454,5 – 587,5 5 5
587,5 – 720,5 5 10
720,5 – 853,5 10 20
853,5 – 986,5 13 33
986,5 – 1119.5 16 48
1119,5 – 1252,5 8 56
1252,5 – 1385,5 5 62
Total 62

Procedimiento:

1° ni   6237   22,94 2° Fi = 33 3° Fi-1 = 20


100 100
4° Li-1 = 853,5 5° A= 133

Reemplazando valores en la fórmula:

 n(37) 
 100  Fi 1   22,94  20 
P37  Li 1  A *   P37  853,5  133 *  
 Fi  Fi 1   33  20 
  P37  883,57

El 37% de los trabajadores, tienen un ingreso máximo de 883,57 soles.

57
PROBLEMAS PROPUESTOS

1. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en


que incurren 50 viviendas:
Renta anual 4-6 6-8 8 - 10 10 - 12 12 - 14 14 - 16 16 - 18
N° de Viviendas 3 2 7 7 11 11 9
- Halle la renta anual promedio
- Calcule la renta anual máximo que paga el 50% de las viviendas
- ¿Cuánto es la renta anual que paga la mayoría de los hogares?

2 . Un dentista observa el número de caries en cada uno de los 100 niños de cierto
colegio. La información obtenida aparece resumida en la siguiente tabla:
N° cari es fi hi %
0 25 25
1 20 20
2 X z
3 15 15
4 y 5
- Halle el número de caries promedio.
- El número de caries máximo que tienen el 50% de los niños.

3 . El histograma de la distribución correspondiente al peso de 100 alumnos de


Bachillerato es el siguiente

- Halle el peso más frecuente en los alumnos


4. Los siguientes datos pertenecen a la distribución de la producción de papas (en Tn.)
en 40 zonas del país
L1= 20 f2 - f5=2 X5= 100 f1=4 f3=20
Si se sabe que la distribución es simétrica y presenta 5 intervalos de clase.
- Reconstruya los intervalos de clase y obtenga las frecuencias absolutas
- Calcule la media, la mediana y moda e interprételos

58
5. Dada la siguiente distribución de frecuencias, calcular el valor de “n” sabiendo que
la moda es 60 y pertenece al tercer intervalo.
Intervalos f
16 – 32 6
32 – 48 n
48 – 64 8
64 – 80 3n
80 - 96 3

6. A los trabajadores de la empresa “El Olivar”, se les consultó, sobre el número de


hijos que tienen a fin de regalarles un obsequio por navidad.
Número de Trabajadores
hijos
0 15
1 20
2 23
3 14
4 10
5 5
- Cuantos hijos en promedio tiene cada trabajador
- Cuantos hijos tiene la mayoría de los trabajadores
- Cuantos hijos tiene como máximo el 85% de los trabajadores

7. Las notas de los alumnos que llevaron el curso Matemática básica se presenta a
continuación:
15.0 11.9 10 15
12.1 13.8 8 14.5
9.5 12.3 7.5 12.7
8.3 20 6.3 13.6
10.4 15.3 5.5 19.2
12.5 14.5 15 14.5
11.6 11.9 13 11.2

- Cuál es la nota promedio de los alumnos


- Cuanto es la nota máxima del 45% de los alumnos
- Cuál es la nota máxima del 70% de los alumnos.

8. El tiempo en segundos que demoran las computadoras en transferir un mismo


archivo a un dispositivo externo esta dado en la siguiente tabla:

59
Tiempo en minutos Número de
computadoras
170 – 175 1
175 – 180 3
180 – 185 4
185 – 190 8
190 – 195 5
195 – 200 2
- Calcular la el tiempo máximo que demoran el 65% de las máquinas en transferir un
archivo.
- ¿Cuánto tiempo tardan la mayoría de computadoras en transferir un archivo?
- Cuál es el tiempo promedio.

9. Se recolectó el número de papeletas por distintos motivos a un grupo personas que


se dedicaban hacer taxi, obteniéndose la siguiente tabla:
Número de papeletas Taxistas
26-34 2
34-42 1
42-50 10
50-58 4
58-66 16
66-74 8
74-82 9
Total 50

-Calcule el número de papeletas promedio por taxista


-Calcule el número de papeletas más frecuente en los taxistas.

10. Las personas que asisten al gimnasio “Ponte en Forma” comentaron sobre el
número de hijos que tienen:
3 0 4 4
2 1 3 3
0 1 4 4
1 2 2 2
1 0 3 0
2 3 4 3
3 2 1 2
2 1 3 2
- Cuántos hijos tienen en promedio las personas
- Cuántos hijos como máximo tiene el 45% de las personas.

60
- Cuántos hijos como máximo tiene el 74% de las personas.

CAPÍTULO IV

Medidas de Dispersión
Y
Deformación

61
Medidas de Dispersión y Deformación
4.1. Medidas de Dispersión
Son medidas o parámetros estadísticos que sirven de complemento a las medidas de
centralización en el análisis de los datos. La dispersión o variación es una característica
importante de un conjunto de datos porque intenta dar una idea de cuán esparcidos se
encuentran éstos. (Mendenhall, 2000)

4.1.1. Recorrido o Rango: (R)

Viene a ser la diferencia entre el valor máximo y el valor mínimo de los datos, es decir:
R = VMax – VMin

Ejem.1: Si tenemos los siguientes datos referentes al ingreso quincenal de 10 trabajadores.


720 – 860 – 820 – 456 - 950 – 1000 – 1150 – 980 – 1384 – 998
VMax = 1384
VMin = 456
R = 1384 – 456 = 928 soles.

El recorrido a rango como estadígrafo de posición es muy limitado, porque sólo considera
los valores extremos de la distribución de datos y no nos indican nada sobre el
comportamiento de los datos.

4.1.2. Varianza:
La Varianza muestral es la que se presenta en la tabla adjunta y la varianza poblacional se
define en el capítulo de probabilidades.

CONDICIÓN Muestra

Datos Originales 2
∑(𝑥𝑖 − 𝑥̅ )2
𝑆 =
𝑛−1

Datos Tabulados ∑(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖


𝑆2 =
sin intervalos 𝑛−1

Datos Tabulados 2
∑(𝑦𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
𝑆 =
con intervalos 𝑛−1

62
Observación: Si deseamos obtener la varianza en una población, el denominador en la
fórmula es “n” (tamaño de población).

Ejem.2: Los siguientes datos corresponden a los ingresos económicos por semana de 12
trabajadores de una empresa

Xi: 600, 650, 200, 710, 300, 550, 420, 460, 450, 540, 850, 225.

Para poder aplicar la fórmula, primero debemos encontrar el promedio y luego aplicar la
fórmula de la varianza.
1° Calculando el promedio: x  496.25
∑(𝑥𝑖 − 𝑥̅ )2
2° Calculando la varianza muestral: 𝑆 2 =
𝑛−1

(600  496.25) 2  (650  496.25) 2  (200  496.25) 2  ......  (225  496.25) 2


S 
2

12  1
419156.22
S2 
12  1
S  38105.11 Soles al cuadrado
2

4.1.3. Desviación Estándar: Es la raíz cuadrada de la varianza.

Las fórmulas son las siguientes:

CONDICIÓN Muestra
Datos Originales
∑(𝑥𝑖 − 𝑥̅ )2
𝑆= √
𝑛−1

Datos Tabulados
∑(𝑥𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
sin intervalos 𝑆= √
𝑛−1

Datos Tabulados
∑(𝑦𝑖 − 𝑥̅ )2 ∗ 𝑓𝑖
con intervalos 𝑆= √
𝑛−1

Ejem.3: A partir del ejemplo 2 se encontrará la desviación estándar.

S  S 2  38105.11
S  195.21 Soles

63
La dispersión promedio que existe entre los datos y la media aritmética es de 195.21 soles.

4.1.4. Coeficiente de variación:


Se utiliza para comparar la dispersión de dos conjuntos de datos que tienen unidades
diferentes, ya que representa una medida relativa de dispersión.
s
CV  (100)
X

Ejemplo: La resistencia al rompimiento de dos muestras de botellas es la siguiente:

Muestra 1: 230 250 245 258 265 240


Muestra 2: 190 228 305 240 265 260

Muestra 1: Muestra 2

 
x  248 x  248
s = 12.56 s = 38.75

CV = 12.56/248*100= 5.06% CV = 38.75/248*100 = 15.625

La muestra 1 presenta menor variabilidad.

4.2 Medidas de Asimetría


4.2.1. Coeficientes de asimetría (As)
Miden el grado de deformación horizontal de la distribución de frecuencias.

Índices de Asimetría de Pearson (As).


Se definen:

3( y  Me) y  Md
As  ó As 
S S
El primero es el más usual.

Interpretación
1. Si la distribución es Simétrica, entonces As = 0, en este caso coinciden y  Me  Md
2. Si la distribución es Asimétrica Positiva ó sesgada a la derecha si: As > 0.
3. Si la distribución es Asimétrica Negativa ó sesgada a la izquierda si: As < 0.

64
Fuente: Escobar, 2010

4.2.2. Estadígrafos de Apuntamiento o Kurtuosis


La kurtuosis viene a ser el grado de apuntamiento de una distribución.
a. Si una distribución tiene una elevada punta o apuntamiento, se llama Leptokúrtica.
b. Si la distribución se asemeja a una distribución normal se llama Mesocúrtica
c. Si la distribución es aplanada se denomina Platikúrtica. (Meyer, 2002)
El estadígrafo para analizar el apuntamiento es:

Coeficiente de Kurtuosis: a = m 44
S
Donde S4 = ( S2 )2

 x  x  ni
4
i
m4 =
n
Si a = 3 : La distribución es Mesokúrtica ( Normal).
Si a > 3 : La distribución es Leptokúrtica ( apuntada)
Si a < 3 : La distribución es Platikúrtica ( aplanada )

Fuente: Rodríguez, 2014


65
PROBLEMAS PROPUESTOS

1) Cierto diccionario tiene 1459 páginas con palabras definidas, a continuación se


indica el número de palabras definidas en cada una de las páginas de una muestra aleatoria
simple obtenida de dichas páginas. Se utiliza esta muestra como base para estimar el
número total de palabras definidas en el diccionario. ¿Cuál es la variación que existe?
51 63 36 43 34 62 73 39 53 79
2) A continuación se presentan los salarios anuales de una muestra aleatoria simple de
entrenadores de futbol americano de la NCAA. ¿Qué cambios se observarían en la
desviación estándar si se omitiera el salario más alto?
$150000 $300000 $350147 $232425 $360000 $229000
3) A continuación se presentan las duraciones (en segundos) de canciones que eran
populares cuando se escribió este libro.(Las canciones son de Pink, One Direction,Shakira,
Rihanna, entre otros)¿La desviación estándar cambiaría mucho si se eliminara la canción de
mayor duración?
448 242 231 246 246 293 280 227 244 213 262
4) En un examen de matemáticas los 30 alumnos de una clase han obtenido las
puntuaciones recogidas en la siguiente tabla. Halla la varianza y la desviación típica.
Calificaciones N°
alumnos
[0,1) 2
[1,2) 2
[2,3) 3
[3,4) 6
[4,5) 7
[5,6) 6
[6,7) 1
[7,8) 1
[8,9) 1
[9,10) 1
5) En cierta clase se ha medido la altura de los 25 alumnos. Sus medidas, en cm, se
reflejan en la siguiente tabla agrupados en intervalos. Calcula la varianza y la desviación
típica.
Alturas N°
alumnos
[150,155) 3
[155,160) 7
[160,165) 6
[165,170) 4
[170,175) 5
6) Para el ejercicio 1 calcule e interprete el coeficiente de asimetría.
7) A partir del ejercicio 2 calcule e interprete la Kurtuosis.
8) Del ejercicio 3 calcular e interpretar las medidas de asimetría.
9) Hallar el ejercicio 4 el coeficiente de asimetría. Interpretar
10) Calcular e interpretar la Kurtuosis del ejercicio 5

66
CAPÍTULO V

Probabilidades

67
Probabilidades

5.1. Introducción a las Probabilidades


A lo largo de la historia los jugadores han recurrido a las probabilidades para
realizar sus apuestas. Es así que hace 3500 A.C., juegos de azar con objetos de hueso,
que podrían ser consideradas como los precursores de los dados, fueron ampliamente
desarrollados en Egipto y otros lugares. Los primeros dados cúbicos con marcas
virtualmente idénticas a los dados modernos se han encontrado en tumbas egipcias que
datan del año 2000 A.C. Es por eso que el juego con dados ha sido popular desde esa
época y que por ello se le considera como un hecho clave para el primer desarrollo de la
Teoría de la Probabilidad.
La Teoría de la Probabilidad toma importancia cuando se inventaron fórmulas y técnicas
probabilísticas, siendo sus precursores: Jacob Bernoulli (1645-1705), Abraham de Moivre
(1667-1754), el reverendo Thomas Bayes (1702-1761)y Joseph Lagrange (1736-1813).
Fue en el siglo XIX en que Pierre Simón, Marquis de Laplace (1749-1827), unificó esas
ideas y formuló la primera teoría general de la probabilidad.
La Teoría de la Probabilidad se ha desarrollado constantemente desde el siglo XVII y se ha
aplicado ampliamente en diversos campos de estudio. Hoy, la Teoría de la Probabilidad
es una herramienta importante para el desarrollo de la Estadística Inferencial y también se
desarrolla en la mayoría de las áreas de ingeniería, administración y Ciencias Afines.

5.2. Experimentos
La Teoría de la Probabilidad tiene que ver con los diversos resultados posibles que
pueden obtenerse y los posibles sucesos que podrían ocurrir cuando se realiza un
experimento. El término experimento se utiliza en la teoría de la probabilidad para
describir virtualmente cualquier proceso cuyos resultados no se conocen de antemano con
certeza. Entonces, un experimento es el proceso mediante el cual se obtiene una
observación (o una medición) de un fenómeno.

5.2.1. Experimentos Aleatorios


Si se realiza un experimento, éste puede tener uno de varios posibles resultados;
si no puede predecirse con seguridad cual ocurrirá, se dice que el experimento es aleatorio.
Por Ejemplo si lanzas una moneda, cuyo resultado puede ser, caer cara o caer sello. En
este experimento no podemos predecir con seguridad cuál resultado aparecerá con certeza.
Otro experimento aleatorio es el siguiente: al lanzar un dado, los resultados que se obtienen
pueden ser cualquier número del 1 al 6.

68
5.2.2. Experimentos Determinísticos
Si un experimento tiene un único resultado posible, que al realizarlo sabemos
que ocurrirá, el experimento se llamará determinístico.
Por Ejemplo, un experimento determinístico sería extraer una bola de una que contiene
bolas con un sólo color, digamos negras. Si nos fijamos en el color de la bola extraída
sabemos de antemano que es negra. (Raymond y Myers, 1998).

5.3. Espacio Muestral


Es el conjunto de todos los posibles resultados de un experimento. Por Ejemplo, al realizar
el experimento de lanzar un dado y observar la cara que aparece, vemos una serie de
resultados posibles y que se representa por:
S = {1, 2, 3, 4, 5, 6 }
Otro Ejemplo es, si realizamos el experimento; si lanzamos dos monedas al aire,
observamos que los posibles resultados pueden ser (en este caso los resultados de a dos se
agrupan en pares ordenados):

T = { (sello, sello) (sello, cara) (cara, sello) (cara, cara) }

Otro Ejemplo es, si realizamos el experimento; se lanzan dos dados, los posibles
resultados al observar el número de puntos en ambas caras de los dados es el siguiente
espacio muestral:

(1,1) (1,2), (1,3), (1,4), (1,5), (1,1),


,(2,1) (2,2), (2,3), (2,4), (2,5), (2, 6),
,
(3,1) (3,2), (3,3), (3,4), (3,5), (3,6),
V= ,(4,1) (4,2), (4,3), (4,4), (4,5), (4, 6),
,(5,1) (5,2), (5,3), (5,4), (5,5), (5, 6),
,(6,1) (6,2), (6,3), (6,4), (6,5), (6, 6)
,

Más Ejemplos:

Dados los siguientes experimentos:

E1: Lanzar una moneda y observar la cara superior.


E2: Lanzar un dado y observar el número que aparece en la cara superior.
E3: Extraer una bola de una urna que contiene bolas rojas “R” y bolas verdes “V”.
E4: Designar un delegado de un grupo de 50 personas a través de un sorteo.
E6: Elegir un punto del intervalo cerrado [0,1]
E7: Observar el tiempo de vida de un T.V. SONY.
E8: verificar el estado de un transistor (0= apagado, 1= prendido).

69
Indicar su espacio muestral:

Solución:

Para e1: S  {c, s}, donde c= cara y s= sello.


1

Para e : S  {1,2,3,4,5,6}
2 2

Para e : S  {R,V }
3 3

Para e : S  {1,2,3,,50} donde cada número representa a cada persona.


4 4

Para e : S  {1,2,3,}
5 5

Para e : S  {x  R/0  x  1}
6 6

Para e : S  {t  R/t  0}
7 7

Para e : S  {0,1}
8 8

5.4. Eventos
Con base a los experimentos anteriores (lanzar un dado, lanzar dos monedas y lanzar
dos dados), observamos que éstos pueden tener uno o más resultados, a los cuales se les
llama “Eventos” y que se representan mediante letras mayúsculas.
Por tanto un Evento es un subconjunto de un Espacio Muestral.
Se puede hacer una lista de muchos eventos asociados con un experimento, algunos con
más posibilidad de ocurrir que otros. Desde el punto de vista de conjuntos, un evento es un
subconjunto de un espacio muestral. Por Ejemplo, en el experimento de tirar un dado se
tiene:
{1} es el evento elemental o evento simple que indica que al lanzar un
dado salga la unidad.
{2, 4,6} es un evento que indica que al lanzar un dado salga número par.
{1, 2,3} es un evento que indica que al lanzar un dado salga un número menor
que 4
{1, 2, 3, 4, 5, 6} es un evento que indica que al lanzar un dado salga un número menor
que 7

Otro Ejemplo: En el experimento aleatorio lanzar 4 monedas simultáneamente. Definimos


los eventos siguientes:

E1: “Todas las monedas muestran el mismo lado”

70
E2: “Ocurren por lo menos dos caras”
E3: “Ocurre sello en el tercer lanzamiento”.

Sol: tenemos que: S  {ccc, ccs, csc, css, scc, scs, ssc , sss}
Luego: E 1
 {ccc, sss}

E 2
 {ccc, ccs, csc, scc}

E 3
 {ccs, css, scs, sss}

Observaciones:
- A todo elemento de un espacio muestral se le denomina suceso, y se denota por
w,x,y, etc., es decir w S.
- Un evento con un solo elemento es un evento elemental, así E  {w} es un evento
elemental.
- Si el conjunto vacío es subconjunto de cualquier conjunto, entonces  es un
evento, y se denomina evento imposible.
Ejemplo: E= “lanzar un dado y observar que la cara superior muestre un puntaje
mayor que 6”  E  {}  
- Si todo conjunto es subconjunto de sí mismo, entonces S también es un evento y
se le denomina Evento Seguro. En el Ejemplo de la tirada del dado un evento
seguro S sería ver un puntaje menor que 7 al lanzar el dado, como vemos el
evento sería:
S = {1, 2, 3, 4, 5, 6}, y es un evento seguro porque siempre ocurre.

5.5. Álgebra de Eventos:


Simplemente es la misma Álgebra de conjuntos, es decir podemos combinar eventos
para formar nuevos eventos, utilizando las diferentes operaciones conjunto:

Si denotamos los eventos por A, B, C, D, E, etc.

a) A  B es el evento que sucede sí y solo si A ó B o ambas, suceden.


b) A  B es el evento que sucede sí solo si A y B sucede simultáneamente.
c
c) A , (complemento de A), es el evento sí y solo si, A no sucede.
Observación: Dos eventos A y B son llamados mutuamente, si son disyuntivos, es decir si
A  B   . En otras palabras, son mutuamente exclusivos si no pueden suceder
simultáneamente. (Devore,1998)
Ejemplo: Lanzase un dado y observese el número que aparece en la cara superior
 A  {1,2,3,4,5,6}
Sea A el evento de salir un número par, B de salir impar y C salir primo.
 A  {2,4,6} , B  {1,3,5} , C  {2,3,5}.

71
Entonces: A C  {2,3,4,5,6} es el evento de que el número sea par o primo.
B C  {3,5} es el evento de que el número sea impar o primo.
 {1,4,6} es el evento de que el número no sea primo.
c
C
5.6. Definiciones de Probabilidad:
La definición de probabilidad tiene 3 enfoques:
1. Definición Clásica o A priori
2. Definición de probabilidad por frecuencia Relativa o Aposteriori.
3. Probabilidad Subjetiva.
Observación: las dos primeras definiciones son probabilidades objetivas.

5.6.1. Definición Clásica o A priori:


La probabilidad de un evento es la razón entre el número de casos (sucesos)
favorables y el número total de casos (sucesos) posibles del espacio muestral, siempre y
cuando cada uno de los resultados o sucesos del espacio muestral tiene la misma
posibilidad de suceder. Así, la probabilidad de que ocurre el evento E es:
N ( E ) nE
P( E )  
N (S ) n

Donde: N(E)=nE = cardinal del conjunto E


N(S)=n = cardinal del conjunto S.

Nota: cardinal de un conjunto es el número de elementos que tiene dicho conjunto.

Ejemplo: Se lanza dos dados. Calcular la probabilidad de:


a) Obtener suma 4.
b) Obtener suma 7.
c) Obtener suma par.
d) Obtener suma mayor que 5.
e) Que el resultado del primer dado sea mayor que el resultado del
segundo?
Solución.: El espacio muestral lo podemos obtener a través de un cuadro de doble entrada
donde S está formado por pares ordenados, en la cual el primer componente es el resultado
del primer dado y la segunda componente el resultado del segundo dado.

2° 1 2 3 4 5 6
1° dado
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

72
6 (6,1) (6,2) (6,3) (5,4) (6,5) (6,6)
n  36

Sean los eventos:


A: “obtener suma 4” A={(3,1),(2,2),(1,3)} n A
3
B: “obtener suma 7” B={(6,1),(5,2),(4,3),(3,4),(2,5),(1,6)} n B
6
C:“obtener suma par”
C={(1,1),(1,3),(1,5),(2,2),(2,4),(2,6),(3,1),(3,3),(3,5),(4,2),(4,4),(4,6),(5,1),
(5,3),(5,5),(6,2),(6,4),(6,6)} n C
 18

D: “obtener suma mayor que 5” n D


 26

E: “resultado del primer dado mayor que el resultado del segundo dado” n E
 15

Por lo tanto:

P( A)  n A

3 1
 , P( B) 
nB  3  1 , P(C )  nC  18  1
n 36 2 n 36 6 n 36 2

P( D)  n D

26 13
 , P(E) queda para el estudiante.
n 36 18
5.6.2. Definición por frecuencia Relativa o A posteriori
Si un experimento bien definido se repite n veces (n grande); sea n A el número de veces
que el evento A ocurre en los n ensayos donde n A
 n , a este n A
se le denomina
" nA "
frecuencia; y al cociente se le denomina frecuencia relativa, la cual representa a la
n
estimación de la probabilidad de que ocurra el evento A, o sea:

P( A)  n A

n
Si queremos obtener la verdadera probabilidad, entonces N debe ser muy grande.

 P(A)  lím
n A

n
n 

73
Observación: las propiedades de la probabilidad por frecuencia relativa son las mismas que
la probabilidad clásica dados en las observaciones generales de la pág.

Ejemplo: en 20 centros educativos de las diferentes P.P.J.J. de Chiclayo que forman en total
a 16000 alumnos, se detectaron 1900 casos de tuberculosis. Hallar la probabilidad de
encontrar a un alumno tuberculoso en un colegio determinado.

Solución: sea el evento E: “un alumno tuberculoso en determinado colegio”.

 n A  1900 , n  16000

1900
P( E )   0,1186 o en forma porcentual P( E)  11,86%
16000

Entonces diremos si escogemos un alumno de un determinado centro educativo, existe un


11,86% de posibilidades que esté tuberculoso.

Ejemplo: La distribución de alumnos de un determinado Instituto Pedagógico por niveles o


especialidades es la siguiente:

Nivel Especialidad Primaria Hist.y Geog. Leng.yLit. (C) Educ.Fis. Matem. Total
(A) (B) (E) (M)
N° Total de alumnos 108 60 58 40 38 304
Alumnos sexo femen. 80 38 30 16 11 175
(F)
Alumnos sexo 28 22 28 24 27 129
mascul.(V)
¿Cuál es la probabilidad de que un alumno seleccionado aleatoriamente

a) Sea una mujer?


b) Pertenezca a Lenguaje y Literatura
c) Sea un alumno masculino de la especialidad de Educación Física?
d) Sea un alumno de sexo femenino de la especialidad de Matemática?

Solución:

a) Sea A el evento: “la persona seleccionada es mujer”.


 n A  175 (total de alumnos del sexo femenino)

n  304 (total de alumnos del Instituto)

74
 P( A)  n A

175
n 304
b) Sea B el evento: “el alumno seleccionado pertenece a la especialidad de
lenguaje y Literatura”.
 nB  58 (total de alumnos de Lenguaje y Literatura)

 P( B)  n B

58
n 304
c) Sea C el evento: “la persona seleccionada es hombre y de la especialidad
de Educación Física”.
 nC  24

24
 P(C ) 
304

d) Sea D el evento: “la persona seleccionada sea del sexo femenino de la


especialidad de Matemática”.
 nD  11

11
 P( D) 
304

5.6.3. Definición Subjetiva


La probabilidad es subjetiva cuando en un experimento determinado, la
probabilidad de que un evento A ocurra, tiene un grado de creencia asignado a la ocurrencia
de este evento por un individuo en particular, pero eso sí, está basado en toda la evidencia a
su disposición, con las siguientes exigencias:

1) P( A)  0 , representa la certeza de que el evento A no ocurrirá.

2) P( A)  1, representa la certeza de que el evento A si ocurrirá.

3) 0  P( A)  1 , representa la certeza de que el evento A, ocurrirá.

Claro es que si la probabilidad es subjetiva de la ocurrencia de un evento A, para una


persona tendrá un determinado valor de acuerdo a las condiciones o evidencias que
dispone. Y para otra persona que tiene de repente más evidencias, podría asignar a la
ocurrencia del evento A otra probabilidad diferente (un número diferente al anterior).

75
Ejemplo:

¿Cuál es la probabilidad de que la selección peruana se clasifique al próximo Mundial de


Fútbol?

¿Cuál es la probabilidad de que un profesor en educación pública gane S/.10000 en el


próximo gobierno?

Como pueden observar, son eventos únicos, que no han ocurrido antes. No hay forma de
que se puedan interpretar tales probabilidades como una frecuencia relativa o como una
probabilidad Clásica. Entonces el enfoque subjetivo de la probabilidad es pues adecuado en
la respuesta de las preguntas últimamente expuestas.

5.7. Técnicas de conteo:


Uno de las cuestiones importantes a tener en cuenta en las teorías de las
probabilidades es el conteo de los elementos que suceden en los diferentes eventos y
espacios muestrales, para esto recurrimos a técnicas que nos ayudará a encontrar el cardinal
de los conjuntos requeridos para la solución de un determinado problema de
probabilidades.

5.7.1. Principio aditivo


Si se desea llevar a efecto una actividad, la cual tiene formas alternativas para ser
realizada, donde la primera de esas alternativas puede ser realizada de M maneras o formas,
la segunda alternativa puede realizarse de N maneras o formas y la última de las
alternativas puede ser realizada de W maneras o formas, entonces esa actividad puede ser
llevada a cabo de,
M + N + ...+ W maneras o formas

Ejemplos:

1) Una persona desea comprar una lavadora de ropa, para lo cual ha pensado que puede
seleccionar de entre las marcas Whirpool, Easy y General Electric, cuando acude a hacer la
compra se encuentra que la lavadora de la marca W se presenta en dos tipos de carga ( 8 u
11 kilogramos), en cuatro colores diferentes y puede ser automática o semiautomática,
mientras que la lavadora de la marca E, se presenta en tres tipos de carga (8, 11 o 15
kilogramos), en dos colores diferentes y puede ser automática o semiautomática y la
lavadora de la marca GE, se presenta en solo un tipo de carga, que es de 11 kilogramos, dos
colores diferentes y solo hay semiautomática. ¿Cuántas maneras tiene esta persona de
comprar una lavadora?

76
Solución:

M = Número de maneras de seleccionar una lavadora Whirpool


N = Número de maneras de seleccionar una lavadora de la marca Easy
W = Número de maneras de seleccionar una lavadora de la marca General Electric
M = 2 x 4 x 2 = 16 maneras
N = 3 x 2 x 2 = 12 maneras
W = 1 x 2 x 1 = 2 maneras
M + N + W = 16 + 12 + 2 = 30 maneras de seleccionar una lavadora
¿Cómo podemos distinguir cuando hacer uso del principio multiplicativo y cuando del
aditivo?

Es muy simple, cuando se trata de una sola actividad, la cual requiere para ser llevada a
efecto de una serie de pasos, entonces haremos uso del principio multiplicativo y si la
actividad a desarrollar o a ser efectuada tiene alternativas para ser llevada a cabo, haremos
uso del principio aditivo.

5.7.2. Principio Multiplicativo


Si se desea realizar una actividad que consta de r pasos, en donde el primer paso
de la actividad a realizar puede ser llevado a cabo de N1 maneras o formas, el segundo paso
de N2 maneras o formas y el r-ésimo paso de Nr maneras o formas, entonces esta actividad
puede ser llevada a efecto de; N1 x N2 x ..........x Nr maneras o formas
El principio multiplicativo implica que cada uno de los pasos de la actividad deben ser
llevados a efecto, uno tras otro. (Miller y Johnson, 1992)
Ejemplos:
1) Una persona desea construir su casa, para lo cuál considera que puede construir los
cimientos de su casa de cualquiera de dos maneras (concreto o block de cemento), mientras
que las paredes las puede hacer de adobe, adobón o ladrillo, el techo puede ser de concreto
o lámina galvanizada y por último los acabados los puede realizar de una sola manera
¿cuántas maneras tiene esta persona de construir su casa?
Solución
Considerando que r = 4 pasos
N1= maneras de hacer cimientos = 2
N2= maneras de construir paredes = 3
N3= maneras de hacer techos = 2
N4= maneras de hacer acabados = 1

77
N1 x N2 x N3 x N4 = 2 x 3 x 2 x 1 = 12 maneras de construir la casa

El principio multiplicativo, el aditivo y las técnicas de conteo que posteriormente se


tratarán nos proporcionan todas las maneras o formas posibles de cómo se puede llevar a
cabo una actividad cualquiera.
2) ¿Cuántos números telefónicos es posible diseñar, los que deben constar de seis dígitos
tomados del 0 al 9?, a. Considere que el cero no puede ir al inicio de los números y es
posible repetir dígitos, b. El cero no debe ir en la primera posición y no es posible repetir
dígitos, c. ¿Cuántos de los números telefónicos del inciso b empiezan por el número siete?,
d. ¿Cuántos de los números telefónicos del inciso b forman un número impar?.

Solución:
9 x 10 x 10 x 10 x 10 x 10 = 900,000 números telefónicos
9 x 9 x 8 x 7 x 6 x 5 = 136,080 números telefónicos
1 x 9 x 8 x 7 x 6 x 5 = 15,120 números telefónicos
8 x 8 x 7 x 6 x 5 x 5 = 67,200 números telefónicos

3) ¿De cuántas maneras diferentes podrá vestirse un joven que tiene 3 camisas diferentes, 4
pantalones y 2 pares de calzado?

Solución: 3x 4 x 2 = 24 maneras diferentes

5.7.3. Principios Factoriales


5.7.3.1. Permutaciones:
Dado un conjunto finito A, de cardinal h , se llaman permutaciones a las
ordenaciones totales que pueden hacerse con los elementos del conjunto A.

Ejemplo:

- el conjunto unitario {a} sólo puede ordenarse de un modo único.


- el conjunto {a, b} puede ordenarse de dos modos: ab, ba
- el conjunto {a, b, c} puede ordenarse en seis modos: abc, acb, bac, bca, cab, cba

Notando que dos cuales de estos seis permutaciones son distintas, es decir, difieren en la
posición de sus elementos, entonces ¡interesa el orden ¡

En general el número de permutaciones de n elementos es:

p n
 n(n  1)(n  2).... * 3 * 2 *1  n!

78
Definición: el número p n
, de permutaciones que pueden construirse con n elementos de
un conjunto cualquiera es n!

Ejemplo: ¿De cuántas maneras pueden ubicarse 8 niños en 8 carpetas?


Si el conjunto de los niños está escrito por {a, b, c, d, e, f, g}, entonces lo que se quiere es
ordenar de distinta forma los elementos, es decir permutar los elementos. Se supone que las
carpetas están fijas.

Entonces el número de maneras que se pueden ubicarse los niños es:


p 8
 8!  8 * 7 * 6 * 5 * 4 * 3 * 2 *1  40320

5.7.3.2. Variaciones:
(nVr)

Dado un conjunto de n elementos, se da el nombre de variación a cada una de


las ordenaciones que se pueden formar tomando grupos en r elementos de este conjunto;
teniendo en cuenta el orden que toman (r  n) .

Del Ejemplo anterior tenemos que del conjunto {2, 3, 5, 6, 7, 9} tomamos 3 elementos para
formar números diferentes de 3 dígitos (parte a), es decir tomamos grupos de 3 en 3
elementos, teniendo en cuenta el orden, y dio como resultado por el principio fundamental
del conteo
(3
6*
5 *4 =120 que vienen a ser 6 (factorial generalizado)

3 factores

N° de elementos

Luego el número de grupos diferentes de r elementos ordenados (variaciones) que pueden


seleccionarse de un conjunto de n elementos está dada por la fórmula:

nVr  n  n(n  1)(n  2)...( n  r  1)


(r

Problema: seis personas entran en un salón de espera en la que hay 8 sillas ¿De cuantas
maneras diferentes pueden sentarse?

Solución: se trata de variación porque las personas se van a colocar en diferentes sillas,
pues se tiene en cuenta el orden.

79
8! 8!
Rpta. V    20160
(8  6)! 2!
8 6

5.7.3.3. Combinaciones: (nCr)


Una combinación de objetos es aquel acto de juntarlos en donde no cuenta el
orden de colocación de los objetos. Las diversas combinaciones de objetos difieren entre si
por la calidad de los ingredientes; es decir, dado un conjunto de n elementos se pide
cuantos subconjuntos de r elementos hay.

Ejemplo: del conjunto A={a, b, c, d}. ¿Cuántos subconjuntos de 3 elementos hay?

Solución: hallamos las combinaciones de 3 elementos (subconjuntos de 3 elementos del


conjunto

A) {a, b, c}, {a,b,d}, {a, c, d}, {b, c, d} Luego hay 4 combinaciones.


La dificultad se da si A tiene muchos elementos, para hallar el número de combinaciones
existe el siguiente teorema:

n!
nCr 
r! (n  r )!

Observación: el número de combinaciones r objetos se puede representar de la siguiente


 n n!
manera: nCr    
 r  r! (n  r )!
5.7.3.3.1. Técnica para diagramar las combinaciones:
Consideremos el conjunto V={a, e, i, o, u}, de las vocales. Formemos los
subconjuntos de V, cuyo cardinal es 1:
{a}, {e}, {i}, {o}, {u}

Diremos que hemos formado así las combinaciones de orden 1 con los 5 elementos del
conjunto V. A partir de las combinaciones de orden 1 con los elementos de V, formamos
las combinaciones de orden 2 así:
{a}  {a, e},{a, i},{a, o},{a, u}

{e}  {e, i},{e, o},{e, u}

{i}  {i, o},{i, u}

{o}  {o, u}

80
{u} 

Como podemos observar se coge un elemento seguido de los elementos de la derecha sin
regresar a la izquierda, este mismo procedimiento se sigue para formar las combinaciones
de orden 3, 4, etc.

Problema: un comité de 5 personas se va a seleccionar en un club de 12 miembros ¿De


cuántos modos puede seleccionarse este comité?

Solución: puesto que no interesa el orden, entonces se trata de combinaciones.

12! 12!
Entonces C    792
12 5
5! (12  5)! 5!7!
 Cr
n
Propiedad de los números Combinatorios: Si n C r

1
n
1) C n

 C n 1
n n
2) C r

n  m n  m
C C
n m
3) se cumple: a)  ó 
x  y x  y  n  m
x y

n 1
 C r 1  C r 1
n n
4) C r

n n 1

n
5) C r C
r r 1
(degradación de índices).

5.7.3.4. Permutaciones con Repeticiones (PR)


Muchas veces se desea saber el número de permutaciones de objetos, de los
cuales algunos son iguales, para esto usamos el siguiente teorema:

Teorema: el número de permutaciones de n objetos de los cuales n


1
son iguales, n 2
son
iguales, n r
son iguales, de donde n , n , n
1 2 r
son de diferentes clases, entonces
tenemos: (Canavos,1992)
n!
PR 
n !n !n !n !
1 2 3 r

Ejemplo: hallar el número de permutaciones de la palabra DIVISIBILIDAD.

Solución: tenemos n  13

81
Las clases que se repiten son: letra I  n1  5 letra D  n2  3 Luego, por la
13!
fórmula: PR 
5!3!

PROBLEMAS PROPUESTOS

1. ¿Cuál es la probabilidad de elegir un número de 2 cifras que se pueden formar con


los dígitos 1, 3, 5 y 7?
2. ¿Cuál es la probabilidad de elegir un número de 3 cifras existen en el sistema de
base seis?
3. De un grupo de 5 estudiantes, cuál es la probabilidad de elegir un grupo de tres
alumnos podrían formarse.
4. ¿Cuál es la probabilidad de elegir un viaje de A a D sin retroceder?

5. Dos personas A y B se distribuyen al azar en tres oficinas numeradas con 1,2, y 3


respectivamente, pudiendo estar ambos en una misma oficina. ¿Cuál es la probabilidad que
a) La oficina se quede vacía? b) Dos oficinas se queden vacías?

6. En una compañía hay 6 varones y 4 damas que aspiran ser miembros de un comité.
Si se deben escoger 2 al azar escribiendo los nombres en hojas de papel y sacándolos de
una urna. ¿Cuál es la probabilidad que los dos sean hombres? ¿Cuál que sean un hombre y
una mujer o dos mujeres?
7. De 20 personas que contrajeron cierta enfermedad al mismo tiempo y que fueron
llevados a una misma sala de un hospital, 15 se recuperan completamente en 3 días; al cabo
del cual, se escogen aleatoriamente 5 personas para un chequeo. ¿Cuál es la probabilidad
que los 5 sean dados de alta?
8. ¿Cuál es la probabilidad que exactamente 4 sean dados de alta?
9. ¿Cuál es la probabilidad que ninguno sea dado de alta?
10. Diez libros se colocan aleatoriamente en un estante. Determinar la probabilidad que
tres libros determinados, sean colocados juntos.

82
CAPÍTULO VI

Teoremas de las
probabilidades

83
6.1. Propiedades Generales de las Probabilidades:
Antes de conocer los teoremas de las probabilidades, es importante tener en cuenta
las siguientes propiedades:
1) La probabilidad de un evento cualquiera A está comprendido entre 0 y 1, es decir:
0  P( A)  1

y n  0 y se cumple que: 0  nA  n ,

Demostración: tenemos que n A

0 nA n
dividiendo entre n :    0  P( A)  1 l.q.q.d.
n n n

2) P( A)  0 , si A es un evento imposible.
Demostración: si A es un evento imposible  A   , n A
0

 P( A) 
n A

0
 P( A)  0 l.q.q.d.
n n

3) P( A)  1, si A es un evento seguro.
Demostración: Si A=S  n A  n

 P( A)  n A

n
 P( A)  1 l.q.q.d.
n n

4) Si S  {w1 , w2 , w3 , wn}, siendo cada uno de los sucesos igualmente


probables o posibles, entonces se tiene:
n

 P({wi})  1
i 1

Luego, si A es un evento de S, tal que A  {w1 , w2 ,, wr}


r
 P( A)   P({w1})
i 1

Observaciones Complementarias:

84
Si el espacio muestral S está formado por: S  {w1 , w2 , w3 ,  wn} , es decir un número
finito de elementos, entonces la probabilidad P i
a un resultado w,
i
está dada por

P  P({w }) , tal que cumple:


i I

(1) P  0
i
i  1,2,3,  n

n n
(2)  Pi   P({wi})  1
i 1 i 1

Luego, la suma de las probabilidades asignadas a los puntos o resultados del espacio
muestral es la unidad (teniendo en cuenta que estos resultados w , w , w ,w
1 2 3 n
son
mutuamente excluyentes y colectivamente exhaustivos).

Nota: Son mutuamente excluyentes:

{w1} {w2} {w3} {wn}  

Son colectivamente exhaustivas:

{w1} {w2} {wn}  S

- La probabilidad de un evento A es la suma de las probabilidades asignadas


de los puntos muestrales permanentes al evento A; estos es:

P( A)   Pi   P({w }); Pi  P({w })


I I
i
w A wiA
i

Ejemplo: Ocho amigos juegan boliche una vez a la semana. Este grupo está formado por 2
parejas de casados, 3 jóvenes y una joven. Antes del juego cada uno pone 10 soles en una
bolsa, cuyo contenido será ganado por el que obtenga mayor puntaje. Si las mujeres tienen
la mitad de la habilidad que los varones poseen para el juego. ¿Cuál es la probabilidad de
que un soltero gane?, ¿Cuál es probabilidad de que gane una mujer?, ¿Cuál es la
probabilidad de que gane un hombre casado?

Solución: el espacio muestral está formado por: 5 hombres que tienen igual habilidad,
siendo P la probabilidad de que gane un hombre.

3 mujeres que tiene la mitad de la habilidad de los hombres, entonces la probabilidad de


que gane una mujer es P/2.

P
Luego se tiene: 5( P)  3   1  P  2 13 y P 2  1 13.
2

85
a) Sea A, el evento “gane un hombre soltero”, A tiene 3 elementos, y éstos tiene igual
habilidad:
 P( A)  3( P)  3(2 13)  P( A)  6 13.

b) Sea B, el evento “gane una mujer”, B tiene 3 elementos, con igual habilidad:
 P( B)  3( P 2)  3(1 13)  P( B)  3 13.

c) Sea C, el evento “gane un hombre casado”, C tiene 2 elementos con igual habilidad:
 P(C )  2( P)  2(2 13)  P(C )  4 13.

6.2. Axiomas y Teoremas de Probabilidad:

6.2.1. Axiomas:
Axioma 1.
Cualquiera que sea el suceso S, P [S] ≥ 0.

Axioma 2.
Si dos sucesos son incompatibles, la probabilidad de su unión es igual a la suma de sus
probabilidades:

Si: A B =   P [AB ] = P [A ] + P [B ]

Axioma 3.
La probabilidad total es 1: P [E ] = 1

6.2.2. Teoremas Básicos:


Teorema 1
Si A es un suceso y A' es su contrario, P [
A' ] = 1 – P [ A]
Teorema 2:
La probabilidad del suceso vacío o suceso
imposible es P [ ] = 0.
Teorema 3:
Si dos sucesos A y B son tales que A CB ,
entonces P [ B ] = P [ A] + P [ B – A].
Teorema 4:
Si dos sucesos A y B son tales que A B , entonces P [ A] ≤ P [ B ]
Teorema 5:
Dados dos sucesos cualesquiera A y B,
P [ A U B ] = P [ A ] + P [ B ] – P [ A  B ].

86
6.2.3. Teorema de la probabilidad condicional
Sean A y B dos sucesos, tales que P(A)>0. Denotamos la probabilidad de B dado
que A ha ocurrido.

Puesto que A ha ocurrido, se convierte en el nuevo espacio muestral reemplazando el


original Ω.

Por lo tanto llegamos a la siguiente definición:

𝑃(𝐴∩𝐵) 𝑛(𝐴∩𝐵) 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑒𝑛 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑒 𝐴∩𝐵


P(B|A)= = =
𝑃(𝐴) 𝑁(𝐴) 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑒𝑛 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑒 𝐴

6.2.4. Teorema de Bayes


El teorema de Bayes, enunciado por Thomas Bayes, en la teoría de la
probabilidad, es el resultado que da la distribución de probabilidad condicional de un
evento aleatorio A dado B en términos de la distribución de probabilidad condicional del
evento B dado A y la distribución de probabilidad marginal de sólo A.

Sea {A1,A2,...,Ai,...,An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y


tales que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso
cualquiera del que se conocen las probabilidades condicionales P(B | Ai). Entonces, la
probabilidad P(Ai | B) viene dada por la expresión:

dónde:
P(Ai) son las probabilidades a priori.
P(B | Ai) es la probabilidad de B en la hipótesis Ai.
P(Ai | B) son las probabilidades a posteriori.
Esto se cumple
El Teorema de BAYES se apoya en el proceso inverso al del Teorema de la Probabilidad
Total:

Teorema de la probabilidad total: a partir de las probabilidades del suceso A (probabilidad


de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que
ocurra un accidente).

Teorema de Bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente)


deducimos las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?).

La fórmula del Teorema de Bayes es:

87
Tratar de explicar estar fórmula con palabras es un galimatías, así que vamos a intentar
explicarla con un ejemplo. De todos modos, antes de entrar en el ejercicio, recordar que
este teorema también exige que el suceso A forme un sistema completo.

Ejemplo.

El parte meteorológico ha anunciado tres posibilidades para el fin de semana:


a) Que llueva: probabilidad del 50%.
b) Que nieve: probabilidad del 30%

Según estos posibles estados meteorológicos, la posibilidad de que ocurra un


accidente es la siguiente:
a) Si llueve: probabilidad de accidente del 20%.
b) Si nieva: probabilidad de accidente del 10%

Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no


sabemos qué tiempo hizo (llovió, nevó o hubo niebla). El teorema de Bayes nos permite
calcular estas probabilidades:

Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se


denominan "probabilidades a priori" (lluvia con el 50%, nieve con el 30% y niebla con el
20%).

Una vez que incorporamos la información de que ha ocurrido un accidente, las


probabilidades del suceso A cambian: son probabilidades condicionadas P (A/B), que se
denominan "probabilidades a posteriori".

Aplicación de la fórmula:

a) Probabilidad de que estuviera lloviendo:

88
La probabilidad expresada en porcentaje, de que efectivamente estuviera lloviendo el día
del accidente (probabilidad a posteriori) es del 71,4%.

b) Probabilidad de que estuviera nevando:

La probabilidad expresada en porcentaje de que estuviera nevando es del 21,4%.

PROBLEMAS PROPUESTOS

1. La siguiente tabla muestra la distribución de 400 personas según hábito de fumar y


presencia de bronquitis.

Hábito de Bronquitis
Total
Fumar SI NO
Fuma 140 110 250
No fuma 50 100 150
Total 190 210 400

Si se elige una persona al azar ¿Cuál es la probabilidad de que:


i) Fume y tenga bronquitis
ii) No fume dado de que tiene bronquitis
iii) No tenga bronquitis dado que fuma
iv) No fume o tenga bronquitis.
v) Los sucesos "Fumar" y "Tener bronquitis" son independientes?

2. Una compañía dedicada al transporte público explota tres líneas de una ciudad, de
forma que el 60% de los autobuses cubre el servicio de la primera línea, el 30% cubre la
segunda y el 10% cubre el servicio de la tercera línea. Se sabe que la probabilidad de que,
diariamente, un autobús se averíe es del 2%, 4% y 1%, respectivamente, para cada línea.
Determina la probabilidad de que, en un día, un autobús sufra una avería.

3. Se lanzan dos dados:


¿Cuál es la probabilidad de obtener una suma de puntos igual a 7?
Si la suma de puntos ha sido 7, ¿cuál es la probabilidad de que en alguno de los dados haya
salido un tres?

89
4. Se lanzan dos dados equilibrados con seis caras marcadas con los números del 1 al
6. Se pide:
Halla la probabilidad de que la suma de los valores que aparecen en la cara superior sea
múltiplo de tres.
¿Cuál es la probabilidad de que los valores obtenidos difieran en una cantidad mayor de
dos?

5. Describe el espacio muestral asociado a cada uno de los siguientes experimentos


aleatorios. Lanzar tres monedas:
Lanzar tres dados y anotar la suma de los puntos obtenidos. Extracción de dos bolas de una
urna que contiene cuatro bolas blancas y tres negras.

6. Supongamos que en un examen para detectar cáncer, el 90% de quienes tienen


cáncer y el 5% de los que no tienen cáncer muestran una reacción positiva. Se sabe que en
un hospital el 1% de los pacientes tiene cáncer. Si un paciente es elegido al azar del hospital
y tiene una reacción positiva en este examen ¿Cuál será la probabilidad de que tenga
realmente cáncer?

7. En un laboratorio las máquinas A, B y C fabrican el 25, 15 y 60 por ciento del total


de los remedios, respectivamente. De lo que producen el 2, 4 y 6 por ciento
respectivamente no cumplen las normas. Si escogemos un remedio al azar de la
producción y no cumple las normas. ¿Cuál máquina cree Ud. es más probable que lo haya
fabricado?

8. Se extrae una bola de una urna que contiene 4 bolas rojas, 5 blancas y 6 negras,
¿cuál es la probabilidad de que la bola sea roja o blanca? ¿Cuál es la probabilidad de que no
sea blanca?

9. .En un centro escolar los alumnos pueden optar por cursar como lengua extranjera
inglés o francés. En un determinado curso, el 90% de los alumnos estudia inglés y el resto
francés. El 30% de los que estudian inglés son chicos y de los que estudian francés son
chicos el 40%. El elegido un alumno al azar, ¿cuál es la probabilidad de que sea chica?

10. En cierta encuesta se listaron como sigue los resultados sobre el uso de ropa para
dormir mientras se viaja:

90
Género
Uso de ropa Hombre Mujer
Ropa interior 0,22 0,024
Camisón 0,002 0,18
Nada 0,16 0,018
Pijamas 0,102 0,073
Camiseta 0,046 0,088
Otros 0,084 0,003
a) Cuál es la probabilidad de que un viajero sea hombre?
b) Cuál es la probabilidad de que un viajero sea hombre si duerme en pijama o en
camiseta?

CAPÍTULO VII

91
Distribuciones Probabilísticas

Funciones de distribuciones de probabilidades discretas y continuas


A. Función de distribución de probabilidades de una variable aleatoria discreta.
Es una lista de los valores de la variable aleatoria y sus respectivas probabilidades, donde
cada probabilidad toma valores entre 0 y 1 y además la suma de las probabilidades de todos
los valores de la variable es igual a 1.

Ejemplo. La variable aleatoria X, número de veces que se interrumpe la electricidad en una


ciudad por mes, tiene la siguiente función de distribución de probabilidades.

X f(x) =
probabilidad
1 0.35
2 0.30
3 0.20
4 0.10
5 0.05

B. Función de distribución de probabilidades de una variable aleatoria continua.


Es una función f(x) no negativa con


f(x)dx  1

92
Ejemplo el tiempo. La variable aleatoria X, peso neto en libras de un herbicida químico
empacado es

2.0, si 49.75  x  50.25


f(x)  
0, si x  49.75 o si x  50.25

Note que f(x) es no negativo (valores mayores o iguales a cero) y que


 50.25
 f(x)dx   2dx  2x  2(50.25)  2(49.75)  1 .
(50.25)
(49.75)
 49.75

C. Esperanza matemática de una variable aleatoria discreta o media de la población:


 . Es un concepto matemático y se define como sigue

μ  EX   xf(x)
x

En el ejemplo de función de distribución de probabilidades continua tenemos que


5
μ  EX    xf(x)   xf(x)  1(0.35)  2(0.30)  3(0.20)  4(0.10)  5(0.05)  2.2
x i 1

D. Esperanza matemática de una variable aleatoria continua:  . Se define

μ  EX   xf(x)dx




En el ejemplo de esperanza matemática o media de una población continua se tiene


50.25
2x 2
μ  EX   xf(x)dx   x(2)dx 
 50.25
 (50.25) 2  (49.75) 2  50
 49.75 2 ( 49.75)

E. Varianza de una variable aleatoria discreta:  2 . Se define como sigue

σ 2  Var X   EX  μ    x - μ  f(x)


2 2

Calcularemos la varianza de la variable aleatoria X del ejemplo del caso discreto

93
5
σ 2  Var X  EX  μ    x - μ  f(x)   x  2.2 (2)
2 2 2

x i 1

 (1  2.2) (0.35)  (2  2.2) 2 (0.30)  (3  2.2) 2 (0.20)  (4  2.2) 2 (0.10)  (5  2.2) 2 (0.05)
2

 1.6

F. Varianza de una variable aleatoria continua  2 . Se define de la siguiente manera

σ 2  VarX  EX  μ   x - μ f(x)dx


2  2


En el ejemplo del caso continuo tenemos


50.25
x3
σ  Var X   x - μ  f(x)dx   x - 50 (2)dx  2 x - 50 dx  2
 2 50.25 2 50.25 2
2
 49.75 49.75 3 49.75


2
3
 
(50.25) 3  (49.75) 3  0.0208

Distribuciones probabilísticas

7.1. Distribución Binomial


Introducción
En las empresas tenemos muchas situaciones donde se espera que ocurra o no un evento
específico. Éste puede ser de éxito o fracaso sin dar paso a un punto medio. Por ejemplo,
en la producción de un artículo, éste puede salir bueno o malo. Casi bueno no es un
resultado de interés. Para situaciones como éstas se utiliza la distribución binomial.
Describiremos el uso de la distribución binomial para obtener la probabilidad de ocurrencia
de ese evento que representa un resultado esperado.

Utilidad:
La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles
resultados.
Por ejemplo:
-Al nacer un bebé puede ser hombre o mujer
-En el deporte un equipo puede ganar o perder.
-En pruebas de cierto o falso sólo hay dos alternativas.

94
-Un tratamiento médico puede ser efectivo o inefectivo.
-La meta de producción o ventas del mes se pueden o no lograr.
-En pruebas de selección múltiple, aunque hay cuatro o cinco alternativas, se puede
clasificar como correcta o incorrecta.

La distribución de probabilidad binomial es un ejemplo de distribución de probabilidad


discreta. Está formada por una serie de experimentos de Bernoulli. Los resultados de cada
experimento son mutuamente excluyentes. Para construirla necesitamos:
1) la cantidad de pruebas n
2) la probabilidad de éxitos p
3) utilizar la función matemática.

A continuación vemos La función de probabilidad de la distribución Binomial.

P  X  x   Cxn p x q n  x
n!
P  X  x  . p x .(1  p)n  x
 n  x ! x !

x : es el número de aciertos. p: es la probabilidad de éxito n: es el número de


experimentos. 1-p ó q: es la probabilidad de fracaso

Medidas de resumen de la distribución binomial:

a) Valor esperado o media aritmética


E ( X )    np

b) Varianza

𝑉(𝑋) = 𝜎 2 = 𝑛𝑝𝑞
c) Desviación estándar
  npq

Ejemplo 1
Un comerciante tiene conocimiento de que el 12% de los artículos del lote recibido están
defectuosos. Si un comprador elige 4 artículos, encuentre la probabilidad de que.
a) los 4 estén defectuosos.
𝑃(𝑥 = 4) = 𝐶44 (0.12)4 (0.88)0 = 0.0002074
b) de 1 a 3 estén defectuosos.

95
P(1 ≤ 𝑥 ≤ 3) = 𝐶14 (0.12)1 (0.88)3 + 𝐶24 (0.12)2 (0.88)2 + 𝐶34 (0.12)3 (0.88)1 =
0.4009728

Ejemplo 2
En pruebas realizadas a un amortiguador para automóvil se encontró que el 20%
presentaban fuga de aceite. Si se instalan 8 de estos amortiguadores, hallar la probabilidad
de que,
a) 4 salgan defectuosos
𝑃(𝑥 = 4) = 𝐶48 (0.2)4 (0.8)4 = 0.05
b) más de 5 tengan fuga de aceite.
𝑃(𝑥 > 5) = 𝐶68 (0.2)6 (0.8)2 + 𝐶78 (0.2)7 (0.8)4 + 𝐶88 (0.2)8 (0.8)0
= 0.00123136
c) de 3 a 5 amortiguadores salgan defectuosos.
P(3 ≤ 𝑥 ≤ 5) = 𝐶38 (0.2)3 (0.8)5 + 𝐶48 (0.2)4 (0.8)4 + 𝐶58 (0.2)5 (0.8)3 =
0,20185088
d) Determine el promedio y la desviación estándar de amortiguadores con defectos.
𝐸(𝑥) = 𝑛𝑝 = 8 ∗ (0.20) = 1,6 ≈ 2

Ejemplo 3
Un ingeniero que labora en el departamento de control de calidad de una empresa eléctrica,
inspecciona una muestra al azar de 20 alternadores de un lote. Si el 10% de los
alternadores del lote están defectuosos. Cuál es la probabilidad de que en la muestra,
a) Ninguno esteé defectuoso
𝑃(𝑥 = 0) = 𝐶020 (0.1)0 (0.9)20 = 0,12157665
b) uno salga defectuoso,
𝑃(𝑥 = 1) = 𝐶120 (0.1)1 (0.9)19 = 0,27017034
c) A lo más dos salgan defectuosos

𝑃(𝑥 ≤ 2) = 𝐶020 (0.1)0 (0.9)20 + 𝐶120 (0.1)1 (0.9)19 + 𝐶220 (0.1)2 (0.9)18 = 0,67692681

d) más de tres estén con defectos


𝑃(𝑥 > 3) = 1 − 𝑃(𝑥 ≤ 3)
= 1− 𝑃[𝐶020 (0.1)0 (0.9)20
+ 𝐶120 (0.1)1 (0.9)19
+ 𝐶220 (0.1)2 (0.9)18 + 𝐶320 (0.1)3 (0.9)17 ]
P(𝑥 > 3) = 0,13295332

96
7.2. Distribución Hipergeométrica
Introduccion
La distribución hipergeométrica al igual que la distribución binomial se aplica en
situaciones donde se espera que ocurra o no un evento específico, la diferencia es que en la
distribución binomial, cada producto es extraído con reemplazo y todos los intentos son
independientes, en cambio en la distribución hipergeométrica cada muestra es extraída sin
reemplazo y los intentos son dependientes.

Utilidad:
La distribución hipergeométrica es especialmente útil en todos aquellos casos en los que se
extraigan muestras o se realizan experiencias repetidas sin devolución del elemento
extraído o sin retornar a la situación experimental inicial.
Por ejemplo:
-Se quiere seleccionar 2 hombres de 17 personas de las cuales hay sólo 7 hombres
-En la agro industria se tiene 8 terneros de los cuales hay 3 enfermos, se quiere
seleccionar 2 para la venta.
- Se tiene 22 empleados de los cuales 12 tienen estudios técnicos, se requiere 5 de ellos.

Este modelo presenta similitudes con el Binomial, pero sin la suposición de independencia
de éste último, la dependencia se debe al hecho de que N es finito y las extracciones se
efectúan sin reemplazamiento

Se requiere los siguientes elementos:

1) la cantidad de pruebas N
2) nº de elementos en la población original que pertenecen a la categoría deseada d
3) tamaño de muestra extraída n
4) nº de elementos en la muestra que pertenecen a la categoría deseada x
5) utilizar la función matemática.

Medidas de resumen de la distribución binomial:


a) Valor esperado o media aritmética
E (X) = n*d/N

97
b) Varianza
V(X) = n*p*q (N-n)/(N-1)

c) Desviación estándar
σ = √𝑛 ∗ 𝑝 ∗ 𝑞 ∗ (𝑁 − 𝑛)/(𝑁 − 1)

Ejemplo 1
En una empresa industrial diariamente se producen 14 unidades de metalmecánica, de las
cuales generalmente 5 salen defectuosas. Se examina en un día cualquiera una muestra de 4
unidades. Hallar la probabilidad de:

a) 2 unidades sean defectuosas.


(52)(14−5
5−2
)
𝑃(𝑥 = 2) = = 0,8392
(14
4
)

b) Las 4 sean defectuosas.


Tenemos
N= 14 d= 5 n= 4 x= 2

(54)(14−5
5−4 )
P(𝑥 = 4) = (14
= 0.0449
4)

Ejemplo 2
Entre los 12 colectores solares en exhibición en una feria comercial 9 son planos y los otros
3 son curvos. Si una persona que visita la feria selecciona aleatoriamente 3 colectores para
probarlos y luego comprarlos, ¿cuál es la probabilidad de que:
a) los 3 sean colectores planos?
b) los 3 sean colectores curvos?

Solución:
 9  3 
a) P(x=3) =    = 0,3818
 3  0 
12 
 
3
b) P(x=0) =  9  3  = 0,004545

0 
  
  3 
12 

 3 
 

98
Ejemplo Nº 3:
Un fabricante de tractores compra motores de una compañía, bajo una condición, acepta un
lote de 40 motores si de una muestra de 8 motores ninguno presenta defectos. ¿Cuál es la
probabilidad de aceptar un lote que en realidad tiene 2 motores con defectos?
 2  38 
P(x=0) =    = 0,6359
 0  8 
 40 
 
8 

7.3. Distribución de Poisson


Introducción
Llamada así en honor al probabilista francés Simeón Denis Poisson. Aquí interesa contar el
número de veces que un determinado suceso ocurre en un periodo de tiempo determinado
Es un proceso de tiempo continuo que consiste en "contar" eventos raros (de ahí el nombre
"sucesos raros") que ocurren a lo largo del tiempo.

Utilidad
Su utilidad se da en general en los problemas llamados líneas de espera, teoría de colas o
similares.

Ejemplo
- Nº de leucocitos en una gota de sangre
- Nº de veces que una planta de energía nuclear emite gases radiactivos en un periodo
de tres meses
- Número de bacterias nocivas por cada cm3 de agua.
- Número de personas que llegan a una posta médica para ser atendidos
- Número de aviones que llegan a un aeropuerto durante el día.

Es una distribución de v.a. discreta en la que la variable representa al número de éxitos en


el intervalo de tiempo o espacio, estos eventos son continuos e independientes, lo que
significa que el número de éxitos que ocurren en un intervalo de tiempo dado o espacio son
independientes, de los que ocurren en cualquier otro intervalo, pero se supone que la tasa de
éxitos por unidad de tiempo o espacio permanece constante, esta tasa lo representaremos
por .
Elementos:
1) Número promedio de ocurrencias por unidad de tiempo o espacio 
2) Número de eventos de Poisson en un intervalo de tiempo o en un espacio de tamaño t es
igual a x
3) e = 2.7182
4) = n*p (n=tamaño de muestra y p= probabilidad de éxito)
5) utilizar la función matemática
99
Medidas de resumen de la distribución de Poisson:
e   x
P(x) =  x: 0, 1, 2, 3,……..
x!
Donde e = 2,71828…….
E(x) = µ = 
V(x) = 𝜎 2 = 

La aproximación de una v.a del tipo binomial a una del tipo Poisson, es muy buena si n 
100 y p  0,05

Ejemplo 1:
Se sabe que el número promedio de camiones que llegan a un terminal terrestre durante el
día es de 10, las instalaciones del terminal pueden atender como máximo 15 camiones al
día. ¿Cuál es la probabilidad de que la capacidad de atención del terminal sea superado en
un día cualquiera?
Solución:
X = número de camiones que llegan al terminal terrestre durante el día para ser atendidos.
X= 0, 1, 2, 3,…..
P(x > 15) = 1 – P(x  15)
15
e 10 10 x
 x!
=1- x 0 = 1 - 0,9513 = 0,0487
Ejemplo 2:
En cierto proceso de fabricación en el que se producen artículos de porcelana ocurren
defectos que ocasionan problemas en las ventas, el fabricante asegura que en promedio uno
de cada 1000 artículos producidos es defectuoso. ¿Cuál es la probabilidad de que en una
caja de 3000 artículos haya:
a) exactamente 3 artículos con defectos?
b) al menos un artículo con defectos?

Solución:
a) X: número de artículos defectuosos en la muestra.
 = np = 3000(1/1000) = 3
e 3 3 3
P(x=3) = = 0,224042
3!

Si se hubiera usado la distribución binomial, se tendría:


P(x=3) =  3000 0,001)(0,999) 2997 = 0,224154
 
 3 
Nuevamente la diferencia es bastante pequeña.

100
b) P(x  1) = 1 - P(x=0) = 1 – 1/e3 = 1 – 0,049787 = 0,950213

Ejemplo 3:
El número de clientes que llegan a un banco es en promedio 60 por hora, ¿cuál es la
probabilidad de que lleguen 2 clientes en:
a) un minuto?
b) dos minutos?
Solución:
a)  = 60(1/60) = 1
1 2
P(x=2) = e 1  1 / 2e  0,1839
2!
b)  = 120(1/60) = 2
P(x=2) = e-222/2! = 2/e2 = 0,27067

7.4. Distribución Normal


Introducción
Llamada también distribución gaussiana, es la distribución de v.a. continua más importante
y la de mayor uso, es la distribución modelo y sirve de aproximación para las demás
distribuciones, asimismo de acuerdo a la ley de los grandes números muchas estadísticas
muestrales tienen distribución normal. Su gráfica se llama curva normal, es una curva
simétrica en forma de campana, o acampanada que se extiende sin límites en ambos
sentidos sobre la recta real o eje de las X (abscisas en el eje cartesiano). sin embargo, hay
que tener mucho cuidado para usarlo sin previa comprobación, pues las consecuencias
pueden ser impredecibles. Ejemplo si se diseña cierto material para resistir una cantidad
dada de presión que se supone se distribuye normalmente alrededor del valor promedio y el
diseño se hace con esta suposición, el material puede verse seriamente dañado al
aplacársele una presión elevada pero dentro de los límites permisibles. Ha sido estudiado
por muchos matemáticos como La Place, De Moivre, Gauss, etc. (Walpole,1998)

Utilidad
Se utiliza en muchos fenómenos que ocurren en la naturaleza, en la industria y en cualquier
campo, tales como: la temperatura del medio ambiente, la precipitación pluvial, las
mediciones de magnitudes físicas, el peso y la talla de las personas, etc.

Ejemplos
Consumo de cierto producto por un mismo grupo de individuos,
Cociente intelectual, grado de adaptación a un medio
Efecto de una misma dosis de un fármaco, o de una misma cantidad de abono

Propiedades
101
1.- Sus puntos de inflexión son:  -  y  + , por lo tanto es cóncava hacia abajo en el
intervalo  -  < x <  + ,
2.- La media y la Varianza de la distribución son:  y 2 respectivamente, y que son los
parámetros de la distribución.
3.- Las áreas comprendidas bajo la curva normal son:
  , corresponde al 68,26% del área total.
  2, corresponde al 95,44% del área total.
  3, corresponde al 99,74% del área total.
4.- A cualquier v.a que tiene distribución normal con media  y varianza 2, se le
representa por: N(, 2)

Definición:
Se dice que una variable aleatoria continua X, tiene una distribución normal, si su función
de densidad está dada por:
F (x) = 1  1 x   2  -<x< Donde: -  <  <  y  > 0
exp  ( ) 
 2  2  

Cálculo Directo. Si Z  N (0,1), Hallar.

a) P(Z≤1.60)
0.9452
Según la Tabla de la Distribución Normal
Para Z1.60  P=0.9452

1.60
b) P(Z≤1.30)
Según la Tabla de la Distribución Normal
0.9032
Para Z1.30  P=0.9032

1.30

c) P(Z≤-2.36)
Según la Tabla de la Distribución Normal
0.0039
Para Z-2.36 = 1- Z2.36  P=1-0.9961=0.0039
Z-2.36 = 0.0039

102
-2.36

d) P(-2.00≤Z≤2.00)
Según la Tabla de la Distribución Normal
Para -2.00≤Z≤2.00 = Z2.00- Z-2.00  P=0.9772-(1-0.9772)=0.9772-0.0228=0.9544
-2.00≤Z≤2.00 = 0.9544

0.9544

-2.00 2.00

e) P(-2.50≤Z≤2.50)
Según la Tabla de la Distribución Normal
Para -2.50≤Z≤2.50 = Z2.50- Z-2.50  P=0.9938-(1-0.9938)=0.9938-0.0062=0.9876
-2.50≤Z≤2.50 = 0.9876

0.9876

-2.50 2.50

Aplicaciones
1. Los tiempos de atención al cliente en minutos en una entidad financiera BCP tienen
distribución normal con medios 10 minutos y desviación estándar de 0.6 minutos, hallar:

a) La probabilidad de que el tiempo de atención sea menor a 11 minutos.


P [ X< 11]
11 − 10
P(X < 11) = 𝑃(𝑍 < )
0.6
P( Z < 1.67) = P( Z ≤ 1.67)
P( Z < 1.67) = 0.95254
P( Z < 1.67) = 0.95254

103
Como se tiene 10 clientes entonces el número de tiempo de atención de 11 minutos está
dada por:
n1 = n X P [X ˂ 11]
n1 = n X P [Z ˂ 1.67]
n1 = 10 X 0.95254
n1 = 9.53 minutos

0.9522

10 11
X

0.9

0 1.282
X

b) El porcentaje de clientes con un tiempo de atención mayor a 8 minutos. P [ X>8 ]


8 − 10
P(X > 8) = 𝑃(𝑍 < )
0.6
P(Z - 3.33) = 1 - P( Z -3.33 )
P( Z -3.33) = 1 - 0.000434
P( Z -3.33) = 0.999566

Como se tiene 10 clientes entonces el número de clientes porcentaje de 8 minutos está dada
por:
n1 = n XP [x> 8]
n1 = n X P [Z > - 3.33]
n1 = 10 X 0.00343
n1 = 3.43 de clientes

104
0.9996

8 10
X

c) Si en un día se atiende a 1500 clientes


c.1. ¿Cuántos clientes son atendidos en menos de 10 minutos. P [X<10]

10 − 10
P(X < 10) = 𝑃(𝑍 < )
0.6
P( X < 10) = P( Z< 0 )
P( X < 10) = 0.500000
P( X < 10) = 0.500000

Como se tiene 10 minutos entonces el número es de 10 clientes.


n1 = n x P [X<10]
n1=n x P [Z<0]
n1=1500 x 0.500000
n1 = 750 clientes

c.2. ¿Cuántos clientes son atendidos en más de 11 minutos. P[X > 11]
11 − 10
P(X >11) = 𝑃(𝑍 > )
0.6
P( X > 11) = 1 - P( Z> 1.67 )
P( X > 11) = 1-0.952540
P( X > 11) = 0.04746

Como se tiene 10 minutos entonces el número es de 11 clientes.


n1 = n x P [X> 11]
n1=n x P [Z< 1.67]
n1=1500 x 0.952540
n1 = 1428.81 clientes

105
0.04779
10 11
X

2. Los salarios de los trabajadores en cierta industria son en promedio $ 11.9 por hora y la
desviación estándar es de $ 0.4. Si los salarios tienen una distribución normal. ¿Cuál es
la probabilidad de que un trabajador seleccionado al azar:
a) Reciba salarios inferiores a $ 11?
P [X ≤ 11]
P (X≤11) = 11 – 11.9/0.4
P (Z≤ -2.25) = P (Z< -2.25)
P (Z≤ -2.25) = 0.0122
n₁ = n x P (x≤11)
n₁ = n x P (Z≤ -2.25)
n₁ =11 x 0.0122
n₁ = 0.1342
n₁ =13.42 Dólares

0.01222
11 11.9
X

b) ¿Cuál debe ser el salario menor que gana un trabajador que se encuentra entre
el 10% de los trabajadores que más ganan?
P [X≤ X1] = 0.10
Estandarizando obtenemos:
P (-Z≤X₁) = 0.01
Interpolando obtenemos:
Z AREA
-1.29 0.985

106
-Z 0.10
-1.28 0.1003

0.1003 – 0.0985 = (-1.28) – (1.29)


0.10 – 0.0985 -Z˳ -(-1.29)
0.0018 = 0.01
0.015 -Z˳+1.29
Aplicando la regla de tres simple obtenemos lo siguiente:
Zº= -1.28
X₁ - µ
= 1.28
δ
X₁ - 11.9
= 1.28
0.4
X1 = 11.9 + 1.28 x 0.4
X1 = 11.9 + 0.512
X1 = 12.412 dólares

0.8997

11.9 12.412
X

3. La renta media de los habitantes de un país es de 4 de ptas/año, con una varianza de 1,5.
Se supone que se distribuye según una distribución normal. Calcular:

a) La renta mínima y máxima que engloba al 80% con renta media.


P[ X≥ X1] = 0.80

Estandarizando obtenemos:

P[Z≥Z1]=0.80

107
Z1 Se encuentra en el área de los positivos de la distribución normal estándar, entonces
aplicamos la propiedad:

P [Z≥Z1]=1-P[Z≤Z1]=0.80
1-P [Z≤Z1]=0.80
P [Z<Z1]=0.20
Interpolando:
Z ÁREA
-0.85 0.1977
Z 0.20
-0.84 0. 2005

0.2005 – 0.1977 -0.84 + 0.85


=
0.20 – 0.1977 Z+0.85

0.0028 0.01
=
0.0023 Z-0.85

Aplicando la regla de tres simple obtenemos: Z= -0.84

X1 = 4 + (-0.84 x 1.5)
X1 = 4 + 1.26
X1 = -2.74 renta mínima.

0.8

2.738 4
X

7.5. Distribución de Probabilidad T-Student


Introducción
En ocasiones es necesario inferir si dos muestras provienen de la misma población, o nos
encontramos con la dificultad de no conocer la desviación típica poblacional y nuestra
muestra es menor de 30 datos, en estos casos aplicamos la distribución t

108
Utilidad
1) Para determinar el intervalo de confianza dentro del cual se puede estimar la media de
una población a partir de una muestra pequeña(n<30)
2) Para probar hipótesis cuando una investigación se basa en muestreo pequeño.
3) Para probar si dos muestras proviene de la misma población.

Ejemplos
-Para probar que el promedio de calificaciones de un grupo de 12 estudiantes, es el mismo
del año anterior.
- El efecto del consumo de nicotina de mujeres embarazada con el contenido mineral óseo
de su hijo.

La función de densidad t es simétrica con respecto a cero, además, para v > 1, E( T ) =0 y


para v > 2, V ( T ) = v / ( v - 2 ). Así vemos que una variable aleatoria con una distribución
t tiene el mismo valor esperado que una variable normal estándar. Sin embargo, una
variable aleatoria normal estándar siempre tiene una varianza de 1, mientras que la varianza
de una variable aleatoria con una distribución t siempre es mayor que 1. (Montgomery,
1997)
Definición: Sea Z una variable aleatoria normal estándar y sea  una variable aleatoria ji -
2

cuadrada con  grados de libertad.


Entonces sí Z y  2 son independientes,
Z
T 
 2 /
se dice que tiene una distribución t con  grados de libertad.

Elementos

Grados de libertad, n-1

Significancia, α= Alfa

Ejemplos:

1. Si T se distribuye mediante una t(20) hallar :


a) P[T ≤ 2.528] = 0.99

109
b) P [ -1.325 ≤ T ≤ 2.845]
P [T ≤ 2.845] – P [T≤ -1 .325]
0.995 – 0.1
P (T) = 0.895

7.6. Distribución X2 Cuadrada


Introducción
La distribución ji-cuadrada (X2) es la distribución muestral de varianza (s2). O sea que si se
extraen todas las muestras posibles de una población normal y a cada muestra se le calcula
su varianza, se obtendrá la distribución muestral de varianzas.
Utilidad
-Para poder estimar la varianza de una población normal.
-La relación entre el uso de un fármaco con la hipertensión de los pacientes
-La relación entre la contaminación del suelo y el crecimiento de cierta especie de árbol.
Propiedades de las distribuciones X2
a) Los valores de X2 son mayores o iguales que 0.
b) La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número
infinito de distribuciones X2.
c) El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el


estadístico X2. Si se elige una muestra de tamaño n de una población normal con varianza
σ2, el estadístico:

El estadístico tiene distribución Ji-Cuadrada con (n-1)g.l.

110
Elementos
Grados de libertad (n-1)
Nivel de significancia α = alfa
Varianza muestral S2
Varianza poblacional σ2

Ejemplos:
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos
en una ciudad grande forman una distribución normal con una desviación estándar =1
minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la
varianza muestral sea mayor que 2.

Solución:

Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:

El valor de 32 se busca adentro de la tabla en el


renglón de 16 grados de libertad y se encuentra
que a este valor le corresponde un área a la
derecha de 0.01. En consecuencia, el valor de la
probabilidad es P(s2>2)
Es una medida existente entre las frecuencias observadas y esperadas Y es suministrada por
el estadístico También se utiliza para decidir si ciertas variables son independientes.
Por ejemplo un encuestador podría desear saber si, el sexo, los antecedentes étnicos o el
rango salarial de una persona son factores relevantes en la votación para una elección de
algún legislador.
La definición formal de la distribución es la siguiente:

Sean Z1, Z2,…,Zk, k distribuciones normales estandar independientes.

Se denomina también la distribución Chi- cuadrado con k grados de libertad. que puede ser
cualquier entero positivo incluyendo al 1 y está representado por “df”.

Si x se distribuye mediante una x2, hallar:

a) P [ X ≥ 40.00]
= 1- P [ X ≤ 40.00]
=1 - 0.995

111
0.005

b) P [ 15.45 ≤ X ≤ 40.00]
P [ X ≤ 40.00] - P [ X ≤ 15.45]
0.995 - 0.25
0.745

7.7. Normal Estandarizada


Introducción
La distribución normal estándar está tabulada (habitualmente en la forma del valor de la
función de distribución Φ) y las otras distribuciones normales pueden obtenerse como
transformaciones simples de la distribución estándar. De este modo se pueden usar los
valores tabulados de la función de distribución normal estándar para encontrar valores de la
función de distribución de cualquier otra distribución normal.
La estandarización es un proceso que consiste en restar a la v.a. su esperanza y luego
dividir esta diferencia entre la desviación estándar (Raymond, 1998):
z = x  E ( x)
V ( x)

z= x
~ N (0,1)

Por lo tanto:
E(z) = E( x   ) = E(x/) – E(/) = E(x)/ - / = / - / = 0

V(z) = V( x   ) = V(x/) – V(/) = V(x)/2 – 0 = 2/2 = 1

En consecuencia:
f(z)= 1  1   -<z<
exp  z 2 
2  2 

Las distribuciones normales son estrictamente estables.


Ejemplos:
Calcule las siguientes probabilidades:
a) P(z  1)
b) P(z > 2)
c) P(z < 1,5)
d) P( -2 < z < 1.75)
e) P(0,05 < z > 1,96)

112
Solución:
a) P(z  1) = F(1) = 0,8413
b) P(z > 2) = 1 – P(z  2) = 1 – F(2) = 1 – 0,9772 = 0,0228
c) P(z > 1,5) = F(1,5) = 0,9332
d) P( -2 < z < 1.75) = F(1,75) – F(-2) = 0,9599 – 0,0228 = 0,9371
e) P(0,05 < z > 1,96) = F(1,96) – F(0,05) = 0,975 – 0,5199 = 0,4551

Nota.- la tabla usa valores de z con dos decimales como máximo, por lo que se debe
redondear los valores de z originales a dos decimales.

Ejemplos Prácticos:

Ejemplo 1:
El tiempo requerido para ensamblar una pieza mecánica es una v.a. cuya distribución es
normal con media igual a 12,9 mn. y  = 2 minutos, ¿cuál es la probabilidad de que una
pieza sea ensamblada en:
a) en menos de 11,5 mn.?
b) entre 11 y 14,8 mn.?
c) en más de 11,8 mn.?
d) exactamente 11 mn.?

Solución:
a) P(x < 11,5) = P ( z < z1) = P(z < - 0,7) = 0,2420
Donde z1 = 11,5  12,9 = -0.7
2

b) P (11 < x < 14, 8) = P (z2 < z < z3)= P(-0,95 < z < 0,95)
Dónde: z2 = 11  12,9 z3 = 14,8  12,9
 0,95  0,95
2 2

P (-0,95 < z < 0,95) = 0,8289 – 0,1711 = 0,6578

c) P(x > 11,8) = P(z > z4) = P(z > -0,55) = 1 – F(-0,55) = 1- 0,7088

Donde z4 = 11,8  12,9  055


2
P(z > -0,55) = 1 – F(-0,55) = 1- 0,2912 = 0,7088

113
d) P(x=11) = 0, sin embargo es factible estimar la probabilidad entre 110,5, es decir
P(10,5  x  11,5) = P(z1  z  z2)
Dónde: z1 = 10,5  12,9  1,2 z2 = 11,5  12,9  0,7
2 2
P(-1,2  z  - 0,7) = P(0,7  z  1,2) = 0,88493 – 0,75804 = 0, 12689

Como puede apreciar esta probabilidad es alta, por lo que la recomendación es cuando los
valores sean bastante altos y no pequeños como lo que se tiene. O cuando se usa variables
discretas.

Ejemplo 2:

Un embarque de 2500 aros son enviados a una ensambladora con las especificaciones que
los diámetros de los aros deben estar en el intervalo 0,3  0,005 pulgadas. Si los diámetros
internos de los aros tienen una distribución normal con media 0,302 pulg. Y una  = 0,003
pulg.¿Qué porcentaje de aros cumplirán las especificaciones?
Solución:
P(0,295 < x < 0,305) = P(z1 < z < z2) = P(-2,33 < z < 1,00)
Donde. z1 = 0,295  0,302 = - 2,33 z2 = 0,305  0302  1,00
0,003 0,003

P(-2,33 < z < 1,00) = F(1,00) - F(-2,33) = 0,8413 – 0,0099 =0,8314


En conclusión el 83,14% de los aros cumplen con las especificaciones, en tanto que el
16,86% no los cumple, en consecuencia 2500(0,1686) = 421,5 = 422 aros

Ejemplo 3:

Los hornos eléctricos fabricados por una compañía tienen una duración promedio de 15000
hrs. Y una  = 2500 hrs.
a) si el fabricante promete reponer todo horno que falle antes de las 7500 hrs., ¿qué
proporción de sus hornos tendrá que reponer?
b) si da como tiempo de garantía de 8500 hrs., ¿qué proporción de los hornos tendrá
reponer?
c) si sólo quiere reponer máximo el 1% de sus hornos, ¿qué tiempo de garantía tendrá que
dar?
Solución:
a) P(x  7500) = P(z  z1)
Donde z1 = 7500  1500  3
2500
P(z  -3) = F(-3) = 0,0013  0,13% de sus hornos

114
b) P(x  8500) = P(z  z2)
Donde z1 = 8500  1500  2,6
2500
P(z  -2,6) = F(-2,6) = 0,0047  0,4,7% de sus hornos

c) P(x < x0) = P(z < z0) = 0,01  z0 = -2,3267


Donde -2,3267 = x 0 1500  x0 = 9183,25 hrs.
2500
Nota.- En lo sucesivo en lugar de z = 2,3267 se usará z = 2,33

PROBLEMAS PROPUESTOS

1.- En una fábrica hay 12 máquinas. Cada una de ellas está averiada un día de cada 10,
¿cuál es la probabilidad de que en un determinado día haya más de tres máquinas
averiadas?

2.- De una población de conservas se sabe que el 60% son buenos. Si se extrae un
conjunto de 10 de ellos, ¿cuál es la probabilidad de que en ese conjunto haya 7
defectuosos?

3..- Un médico ha obsevado que el 13% de sus pacientes sufre de efectos negativos cuando
le administran cierto fármaco, a un grupo de 5 pacientes le recetó éste medicamento y
desea saber la siguiente probabilidad.

115
a) Que ninguno de ellos tenga efectos negativos
b) Uno o más tengan los efectos nosivos.
c) Un paciente tenga efectos nosivos

4.- De cada 2000 tornillos fabricados por una determinada máquina hay 2 defectuosos. Para
realizar el control de calidad se observan 150 tornillos y se rechaza el lote si el número de
defectuosos es mayor que 1. ¿Calcular la probabilidad de que el lote sea rechazado?

5.- En un taller se averían una media de 2 máquinas a la semana. Calcula la probabilidad de


que no haya ninguna avería en una semana. ¿Y de que haya menos de 6 en un mes?

6.- El número medio de llamadas telefónicas que se reciben en una central en cada minuto
es de 2, determínese la probabilidad que se reciban más de 5 llamadas.

7.- Los avistamientos de Anchoveta sigue una distribución de Poisson de media 2


avistamientos en un transecto de muestreo de 1km de recorrido tras una salida en barco.
Calcular la probabilidad de:
a..  No haya ningún avistamiento en el recorrido del barco:
b..  Haya menos de cinco en el mismo recorrido:
c..  Y menos de seis si consideramos un recorrido de 5km

8.- La concertista de piano Donna Prima está muy molesta por el número de tosidos que se
presentan en la audiencia justo antes de que empiece a tocar. Durante su última gira Donna
estimó un promedio de 8 tosidos justo antes de empezar su concierto. La señora Prima le ha
advertido a su diretor que si escucha mas de cinco tosidos en el concierto de esa noche, se
rehusará a tocar. ¿cuál será la probabilidad de la artista toque esa noche?

9.- Se tiene un programa de entrenamiento diseñado para mejorar la calidad de las


habilidades de los supervisores de línea de producción. Debido a que el programa es
autoadministrado, los supervisores requieren un número diferente de horas para terminarlo.
Un estudio anterior revela que el tiempo medio para completar el programa es de 500 horas,
y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100
horas.
a.-Cuál es la probabilidad de que un participante elegido al azar requiera mas de 500 horas
para completar e programa.
b.- Cuál es la probabilidad de que un participante elegido al azar se tome entre 500 y 650
horas para completar e programa.

10.- El coeficiente de inteligencia se distribuye en la población según la ley normal con


media µ = 100 y σ = 15. ¿qué procntaje de individuos de la pblación tendrá un CI superior
a 120?.
116
11.- Supóngase que la longitud de un pétalo de una población de plantas de cierta especie,
se distribuye normalmente con una media µ = 3.2 cm. Y σ= 1.8 , Qué proporcoón de la
pobación se espera que tenga un pétalo de longitud:
a) Mayor que 4.5 cm.
b) Mayor que 1-78 cm.
c) entre 2.9 y 3.6 cm.

117
CAPÍTULO VIII

Muestreo

Tamaño de Muestra
8.1. Tamaño de Muestras
Para determinar un tamaño de muestra es necesario identificar los siguientes componentes o
elementos:
1) La varianza (σ2): corresponde al grado de variabilidad que presentan las unidades de
la población. Mientras más grande sea σ2 mayor será el tamaño de la muestra. El valor de
σ2x supuestamente conocido, de lo contrario se debe estimar a través de una investigación

118
preliminar. En el caso de σ2p = PQ, sucede algo similar, pero se tiene la costumbre de tomar
P= 0,50 con lo cual se obtiene el máximo valor posible de n.
2) Nivel de confianza: Tiene relación directa con el tamaño de la muestra, por lo tanto
se dirá que a mayor nivel de confianza más grande debe ser el tamaño de la muestra. Los
valores de Z se obtienen mediante el uso de tablas como se ha venido haciendo. El nivel de
significación es fijado por el investigador, de acuerdo a su experiencia.
3) Precisión de la estimación: Corresponde al margen de error que el investigador fija
de acuerdo con el conocimiento que tenga acerca del parámetro que piensa estimar. Se le
conoce como error de muestreo (E).

Las fórmulas para el cálculo del tamaño de muestra son los siguientes:
TAMAÑO DE Cuando se conoce “N” Cuando NO se conoce
MUESTRA “N”
𝑁 ∗ 𝑍2 ∗ 𝜎 2 𝑍2 ∗ 𝜎 2
𝑛= 𝑛=
Para la media (𝑁 − 1) ∗ 𝐸 2 + 𝑍 2 ∗ 𝜎 2 𝐸2

𝑁 ∗ 𝑍2 ∗ 𝑃 ∗ 𝑄 𝑍2 ∗ 𝑃 ∗ 𝑄
𝑛= 𝑛=
Para la proporción (𝑁 − 1) ∗ 𝐸 2 + 𝑍 2 ∗ 𝑃 ∗ 𝑄 𝐸2

Donde:
n: Tamaño de muestra
Nivel de Valor de
Z: Nivel de confianza
confianza “Z”
E: Margen de error
90% 1,65
𝜎 2 : Varianza poblacional
𝜎: Desviación estándar de la población 95% 1,96
P: Proporción de la población que tiene la 99% 2,58
característica de interés
Q: 1- P
N: Tamaño de la población

Ejemplo. 1:
El auditor de un banco desea estimar la proporción de estados, de cuenta bancarias
mensuales para los depositantes del banco que tendrán errores de varias clases, y especifica
un coeficiente de confianza del 99% y un error máximo de 4%.
(a)Determinar el tamaño de la muestra si no se dispone de información sobre la proporción
verdadera de los estados de cuenta mensuales que tienen errores.
(b)Determinar el tamaño de la muestra, si el auditor, por su experiencia, cree que la
verdadera proporción de estados de cuenta con errores es 0.15.

119
Solución A:
𝑍2 ∗ 𝑃 ∗ 𝑄
𝑛=
Z99% = 2,58 𝐸2
E = 4% = 0,04
P = 0,5 2,582 ∗ 0,5 ∗ 0,5
𝑛=
Q = 1-0,5 = 0,5 0,042

𝑛 = 1040
Solución B:

𝑍2 ∗ 𝑃 ∗ 𝑄
Z99% = 2,58 𝑛=
𝐸2
E = 4% = 0,04
P = 0,15 2,582 ∗ 0,15 ∗ 0,85
Q = 1-0,15 = 0,85 𝑛=
0,042

𝑛 = 530
Ejemplo. 2:
Se pretende realizar una investigación para conocer el tiempo de estudio semanal dado
en horas, de los estudiantes de la Universidad Señor de Sipán. Si un estudio previo
determinó que la varianza fue de 0,32 horas. ¿Qué tamaño de muestra sería
conveniente para la investigación? Considerando un nivel de confianza del 95% y un
error tolerable de 0,05 horas.

Solución :

𝑍2 ∗ 𝜎 2
𝑛=
𝐸2
Z95% = 1,96
1,962 ∗ 0,32
E = 0,05 𝑛=
0,052
σ2 = 0,32
𝑛 = 492

8.2. Muestreo
El muestreo son las técnicas o herramientas utilizadas para la realización de una
muestra. En la aplicación de estas técnicas es necesario conocer y manejar algunos términos
indispensables en el desarrollo de una investigación, tal como se detallan a continuación:

A. Población o Universo: es un conjunto de unidades o elementos que presentan una


característica común; también se le considera como un conjunto de medidas. Si la
característica observada ha sido medida, recibe el nombre de variable continua; si por el

120
contrario, tan sólo se hace recuento se le denomina atributo o puede ser una variable
discreta.
Considerar la población como conjunto de unidades o elementos, debe entenderse como un
grupo de personas, familias, establecimientos, manzanas, barrios, etc., pero en realidad es
un conjunto de medidas obtenidas de las características estudiadas.

B. Unidad y Elemento: la unidad es divisible, por ejemplo una familia se puede


subdividir en personas que la conforman; una universidad se divide en facultades, a su vez
puede considerarse como unidad, ya que se subdivide en cursos y éstos en estudiantes. En
cambio el elemento es indivisible, una persona, una cosa, etc., sigue siendo la forma más
elemental de presentación, sin embargo, generalmente se habla en forma indistinta de
elemento o unidad como una sola cosa.
La unidad hace referencia a una persona, una familia, una vivienda, una manzana, un
barrio, un establecimiento, etc., y se denomina elemento cuando con ella obtenemos la
información necesaria. Es el individuo, entidad u objeto, del cual deseamos observar todas
o algunas de sus características para ser medidas o contadas. (Martínez, 2012)

8.2.1 Tipos de muestreo


Aquí destacan los muestreos de tipo probabilístico y no probabilístico:
I. Muestreo Probabilístico: Se denomina probabilístico cuando los elementos que
constituyen la población o universo tienen la misma posibilidad de ser seleccionados.
A. Muestreo aleatorio simple: el método de muestreo aleatorio simple es
recomendable, en especial, cuando la población no es numerosa y las unidades se
concentran en un área pequeña; por otra parte, la característica no debe tener gran
variabilidad, porque implicaría un tamaño muestral muy amplio lo que a su vez,
incrementaría costo y tiempo; por último, la población debe facilitar su enumeración para
que permita la aplicación de este método:
- Se requiere un listado de unidades de la población.
- No existe garantía de que todas las unidades queden representadas en la muestra,
cuando la característica tienen una gran variabilidad.
- Si el coeficiente de variación es mayor del 30% el tamaño de muestra se va haciendo
más grande.

B. Muestreo Aleatorio Estratificado: se denomina también como muestreo


aleatorio restringido, este procedimiento implica una división de la población en grupos,
denominados estratos, en tal forma que el elemento presenta una característica tan definida
que sólo le permite pertenecer a un único estrato.
- Afijación igual: se da cuando los elementos quedan asignados o repartidos por igual
en cada estrato muestral.
- Afijación proporcional: los elementos se distribuyen en los estratos muestrales, en la
misma proporción en que se distribuyen los elementos de la población.

121
- Afijación óptima: cuando el tamaño, tanto de la muestra general como para cada uno
de los estratos muestrales, depende del grado de variabilidad de la característica en
cada estrato y del costo mínimo para una precisión dada.

C. Muestreo Sistemático: más que un método de muestreo, es considerado


como un método de selección, al que algunos denominan método de selección a intervalos
regulares. Se aplica cuando la característica a investigar se encuentra ordenada de acuerdo
al valor, tiempo, cantidad, etc.

D. Muestreo por conglomerados: este muestreo se utiliza cuando no existe


listado, o bien las unidades están demasiado dispersas y no permiten llegar directamente a
las fuentes de información. Esto nos obliga a sustituir las unidades físicas o elementales,
por grupos de unidades, que llamaremos conglomerados; generalmente son superficies o
áreas en las que se ha dividido el espacio ocupado por la población. Supongamos que se
desea realizar estudios a familias en una ciudad, cada unidad o familia se constituye en un
conglomerado, por tal razón se aplica en muestreo aleatorio monoetápico, es decir, se
realiza la investigación en una sola etapa.(Martinez,2012)

II. Muestreo No Probabilístico: Entre los diferentes tipos de muestreo no


probabilístico se pueden mencionar: el casual o fortuito, el de selección experta, el
muestreo de poblaciones móviles y el de cuotas.

A. El muestreo casual o fortuito: se utiliza en diferentes áreas de la


investigación como arqueología, historia y medicina, entre otras. Aquí las muestras se
integran por voluntarios o unidades muéstrales que se obtienen en forma casual. Otras
ciencias que no se preocupan por la representatividad de sus especímenes son astronomía,
física y química.

B. El muestreo de selección Experta: denominado también como muestreo de


juicio, es una técnica utilizada por expertos para seleccionar especímenes, unidades o
porciones representativas o típicas, según el criterio del experto; por ejemplo: la selección
de un conjunto de especímenes con determinadas características, para un experimento de
laboratorio, o la selección de determinadas semanas del año para llevar a cabo algunas
auditorías.

Es importante hacer notar que en este caso los criterios de selección pueden variar de
experto a experto, al determinar cuáles son las unidades de muestreo representativas de la
población.

C. El método de poblaciones móviles: se basa en el concepto de captura-


marca-captura. La población total se estima con base en la proporción de individuos en la

122
recaptura, esto es, aquéllos que han sido capturados previamente y marcados. Este tipo de
técnicas se utiliza mucho en el muestreo de insectos, peces, venados, ballenas y, en general,
poblaciones de animales en extinción.

D. El Muestreo de Cuotas: es un tipo de muestreo ampliamente utilizado en


encuestas sobre opinión electoral, investigación de mercado o similares. Los encuestadores
reciben la orden de obtener cierto número de entrevistas (cuotas), a partir de las cuales se
construye una muestra relativamente proporcional a la población. Este esquema se ve como
una alternativa del muestreo probabilístico, en el que se busca seleccionar una muestra
representativa de la población estableciendo proporciones de los diferentes segmentos que
la componen. La técnica consiste en determinar, al seleccionar la muestra, la cuota de
entrevistas que se debe cubrir de cada grupo de la población y por cada enumerador. El
supuesto básico de esto es que con la conjunción de todas las cuotas se obtiene una imagen
de la totalidad.

Los diferentes tipos de muestreo no probabilístico mencionados varían ampliamente


en grado y área de justificación, pero cada una de sus técnicas tienen en común la
generalidad de los supuestos que sustentan la distribución de las variables en la población.
(Pimienta,2000).

PROBLEMAS PROPUESTOS

1. De una población N=10000 personas nos proponemos obtener una muestra, para
estimar el ingreso promedio por persona. Se quiere que la estimación muestra, no se aparte

123
en más de $5000 del promedio verdadero y que esto se cumpla en 95 de cada 100 casos. La
desviación típica es de $30000 ¿Cuál es el tamaño de muestra óptimo?
2. Supongamos que en un área dada, la proporción de explotaciones agropecuarias que
poseen energía es de 0,36 ¿Cuál es el error de muestreo de la estimación, utilizando una
muestra al azar de 300 explotaciones, con una confianza del 95% un total de 8000
explotaciones?
3. ¿Qué tamaña deberá tener una muestra para estimar dentro del 3% la proporción de
mujeres casadas que van periódicamente a consulta ginecológica, en una población de 5000
mujeres y una seguridad del 95%?
4. Se desea estimar el costo promedio de matrículas de los estudiantes universitarios
de la ciudad. Por estudios anteriores y a precios actuales se sabe que la desviación típica es
de $18000. a) Calcular el tamaño de muestra fijando para ello un error de $3000 y una
confianza del 99% b) Si se considera que la población estudiantil que se desea investigar es
de 12000 ¿Cuál sería el valor de n?
5. En cierta residencial se espera que el 60% de las familias tengan vehículo propio. Se
desea hacer una investigación para estimar la proporción de familias propietarias de
vehículos, con un error del 3% y un coeficiente de confianza del 90%. a) Determine el
tamaño de muestra b) ¿Qué sucedería si P=0,5?
6. Una oficina de investigaciones sobre salud considera que el 20% de las personas
adultas de una región, padecen cierta enfermedad parasitaria. ¿Cuántas personas tendrán
que seleccionar en la muestra al azar, para que el error del estimado de la proporción sea
del 7% y tenga una confianza del 99%?
7. Interesa estimar el número promedio de accidentes de tránsito en una ciudad.
Durante un año (365 días) se determina una desviación típica de 12 accidentes diarios.
¿Cuántos días (tamaño de muestra) se requieren para no errar en más de dos accidentes, con
un 90% de confianza?
8. Entre los estudiantes de cierta universidad privada, se desea tomar una muestra para
estimar la proporción de alumnos que utilizan la biblioteca. El error debe conservarse en un
4% con una confianza del 96%. ¿Cuál es el tamaño de la muestra, si la universidad tiene
3200 alumnos matriculados?
9. ¿Qué tamaño de muestra se requiere para una población de 5000 unidades, si se
desea un error del 8% y un intervalo de confianza del 95%?
10. A partir de una muestra de 200 observaciones se encontró que, en una remesa había
20 acumuladores defectuosos. Utilizando un nivel de confianza del 99%. Calcule el error de
muestreo.

124
CAPÍTULO IX

Introducción a la Inferencia
Estadística: Estimación

9.1. INFERENCIA ESTADISTICA.

125
La estadística tiene como finalidad inferir algo sobre una población con base en una
muestra aleatoria tomada de la población sobre la cual deseamos hacer la inferencia. La
Población tiene constantes desconocidas que la caracterizan, sobre estas constantes se hace
la inferencia. La inferencia consiste en estimar y probar hipótesis sobre estas constantes
desconocidas.

Primero presentaremos algunos conceptos básicos

a) Parámetro. Es una constante, generalmente desconocida, que caracteriza a una


población. Por ejemplo,  , la media de la población. Si consideramos la población de
estudiantes de la USS y conociéramos que la edad promedio (  ) de todos los estudiantes
es 20 años diríamos que esta población se caracteriza por ser una población joven.

b) Estimador. Es aquel que se calcula con los datos de la muestra (es una función de
la muestra). Como ejemplo señalaremos a la media de la muestra ( X ) la cual se calcula con
los datos de la muestra cómo sigue

x 1  x 2  ...  x n
X
n

POBLACION

Media de la población

2 Varianza de la población
 Desviación estándar de la población Parámetros
p
Proporción de la población

MUESTRA

X Media de la muestra

S2 Varianza de la muestra

S Desviación estándar de la muestra Estimadores

p̂ Proporción de la muestra

126
c) Estimador puntual. Es aquel que estima al parámetro mediante un solo valor o punto.
Ejemplo la media de la muestra.

d) Estimador por intervalo. Llamado también intervalo de confianza es aquel que estima
al parámetro mediante un intervalo con un coeficiente de confianza (1-  ).

e) Hipótesis. Es una afirmación sobre algo la cual puede ser falsa o verdadera.
Ejemplo. Mañana lloverá.

f) Hipótesis estadística. Es una afirmación sobre uno o varios parámetros de una o varias
poblaciones.
Ejemplo.  =20, la edad media de todos los alumnos de la USS es 20 años.

g) Hipótesis nula. Es una afirmación sobre uno o varios parámetros que incluye la
igualdad. se designa con Ho.
Ejemplo. Ho = Los datos de la muestra provienen de una distribución normal.

h) Hipótesis alternativa. Es el complemento de la hipótesis nula.


Ejemplo. Ha= H1= Los datos de la muestra no provienen de una distribución normal.

i) Error tipo I. Es el que se comete al rechazar Ho dado que Ho es verdadera.

j) Error Tipo II. Es el que se comete al no rechazar Ho dado que Ho es falsa.


 =Probabilidad de cometer el error tipo I.
 =Probabilidad de cometer el error tipo II

k) Puntos críticos. Son valores tabulares que delimitan la región de rechazo (RR) y la de
no rechazo (RA).

9.2 ESTIMACION DE PARAMETROS


En este tema veremos cómo estimar puntualmente y mediante un intervalo de
confianza al parámetro p (proporción de una población) y al parámetro  (media de una
población).

I. Estimación de la proporción de la población, p :


Solo veremos el caso donde el tamaño de muestra n es mayor o igual a 30, puesto que
el estimador se construye con base en la media de la muestra considerando n valores de una
variable medida en escala dicotómica (con solo dos valores 0 y 1). El fundamento teórico es
el teorema central del límite, el cual indica que cuando n es grande, la media muestral tiene

127
distribución aproximadamente normal. La muestra aleatoria se puede haber tomado de
cualquier distribución no necesariamente de la distribución normal.
Primero presentaremos el resultado para estimar la proporción de una población y en
seguida un ejemplo.

Teorema 1
Si n  30, entonces:

a) El mejor estimador puntual para p es p̂ don de


x
p̂  .
n
Donde n es el tamaño de muestra y x es el número de éxitos obtenidos.

b) Un 100(1-  )% intervalo de confianza para p es

 p̂q̂ p̂q̂ 
p̂ - Z  , p̂  Z  .
 2
n 2
n 
Donde:
x
p̂  , q̂ =1- p̂ , n es el tamaño de la muestra y Z α es un valor en la tabla de Z o
n 2

distribución normal estándar de tal manera que a su derecha esta una probabilidad

.
2
Ejemplo 1.
En un estudio sobre desocupación en el Municipio de T se tomó una muestra aleatoria de
200 personas en edad laboral del Municipio de T de las cuales 26 contestaron que no tienen
trabajo.
a) Estimar puntualmente a p, la proporción de desocupados en el Municipio de T.
b) Encontrar un 95% intervalo de confianza para p, Es decir estimar p con un
coeficiente de confianza del 95%.
c) Interpretar el estimador puntual y el estimador por intervalo.

Solución
Puesto que n=200 es mayor que 30 y el número de éxitos es x=26

a) El mejor estimador puntual de p es p̂


x 26
p̂    0.13 .
n 200
El mejor estimador puntual para p es p̂ =0.13 (o 13%).

128
b) Un 95% de confianza para p se encuentra usando el inciso b) del teorema 1
Un 100(1-  )% intervalo de confianza para p es

 p̂q̂ p̂q̂ 
p̂ - Z  , p̂  Z  .
 2
n 2
n 
Donde:

p̂ =0.13, q̂ =1- p̂ =1-0.13=0.87, n=200 y Z α es un valor en la tabla de Z o distribución


2


normal estándar de tal manera que a su derecha esta una probabilidad .
2
Para encontrar Z α , primero debemos calcular  usando la siguiente formula.
2

100  porciento del intervalo de confianza pedido 100  95 5


    0.05.
100 100 100

 0.05
Entonces   0.025 y Z α se encuentra en la tabla de la normal estándar ubicando
2 2 2

en el cuerpo de la tabla el valor 0.025 exacto o aproximado y finalmente se detecta el valor


se Z α observando el valor de Z α con un decimal en la primera columna y el segundo
2 2

decimal en la primera hilera como se indica en la tabla siguiente


0.06

1.9 0.025

Por lo tanto el valor de Z α es Z α =1.96.


2 2

En seguida determinamos los valores del límite inferior y del límite superior de 95% del
intervalo de confianza para p

p̂q̂ (0.13)(0.87)
LI  p̂ - Z   0.13  1.96  0.13  0.05  0.08
2
n 200

p̂q̂ (0.13)(0.87)
LS  p̂  Z   0.13  1.96  0.13  0.05  0.18
2
n 200

Entonces un 95% intervalo de confianza para p es [0.08, 0.18]. Es decir se estima que la
proporción poblacional esta entre 0.08 y 0.18.

129
c) Interpretación.
Si usamos un estimador puntual para estimar p, se concluye que el porcentaje de
desocupación en el Municipio de T es alrededor del 13% y si usamos un estimador por
intervalo para estimar p se concluye que el porcentaje de desocupación en el Municipio de
T esta entre el 8% y el 18% dicha conclusión se hace con un confianza de confianza
del95%.o con un error del 5%.

II. Estimación de la media de una población, 


Existen muchos casos sobre estimación puntual y por intervalo para la media de una
población, tales como combinaciones de que la población o variable en estudio tiene
distribución normal o distribución diferente de la normal, del tamaño de muestra pequeño o
grande y con la varianza de la población conocida o desconocida.
En este tema trataremos un solo caso para estimar la media de la población considerando
que la población o variable en estudio tiene distribución normal con varianza  2
desconocida que es el caso más frecuente y en nuestra opinión es el único caso que se
encuentra en la realidad (aplicaciones) en el sentido de que la varianza de la población es
desconocida. Si se tienen tamaños de muestras grandes los casos donde las variables en
estudio no tienen distribución normal para estimar la media de una población se pueden
usar las mismas fórmulas que presentaremos luego puesto que el teorema central del límite
nos dice que si se toma una muestra aleatoria de cualquier distribución y el tamaño de
muestra es grande la media de la muestra tiene distribución aproximadamente normal que
es el requerimiento o suposición para estimar la media de una población.
En seguida se presenta el resultado y un ejemplo para estimar la media de la población.

Teorema 2
Si se cumplen los dos requerimientos mencionados anteriormente; es decir, si la
variable en estudio tiene distribución normal y la varianza de esta distribución es
desconocida (si la varianza es desconocida, entonces la desviación estándar de la
población también es desconocida), entonces
a) El mejor estimador puntual para  es la media muestral X .
b) Un 100(1-  )% intervalo de confianza para  es

 S S 
X - t n -1, , Xt  .
 2 n n -1,
2 n
Donde:
X es la media de la muestra, S es la desviación estándar de la muestra, n es el tamaño
de la muestra y t α es un valor en la tabla de t de Student con n-1 grados de
n 1,
2


libertad (GL) de tal manera que a su derecha esta una probabilidad de
2

130
Ejemplo 2
En un estudio para estimar el salario promedio mensual de los profesores del departamento
de Lambayeque se tomó una muestra aleatoria de tres profesores a los cuales se les registro
su salario mensual en soles. Se conoce que variable salario tiene distribución normal. Los
datos de la muestra se dan a continuación
1200 800 1000

a) Estimar en forma puntual a  .


b) Estimar a  mediante un intervalo de confianza del 95%.
c) Interpretar a los dos estimadores obtenidos.

Como los dos requerimientos se cumplen: la variable en estudio tiene distribución normal y
la varianza  2 es desconocida, usaremos el teorema 2 para encontrar los estimadores de  .
a) El mejor estimador puntual para  es X
n

x 1200  800  100 3000


i
X i 1
   1000.
n 3 3
Entonces un estimador puntual para es X =1000.

b) Un 100(1-  ) % intervalo de confianza para  .

 S S 
X - t n -1, , Xt   . Donde:
 2 n n -1,
2 n
X =1000,
n=3,
( x i ) 2 (1200  800  1000) 2
 x i2  n
1200 2  800 2  1000 2 
3
S   40000 ,
n 1 3 1

 0.05
  0.025 y
2 2

t α se encuentra en la tabla de la distribución de T de Student ubicando en la primera


n 1,
2


columna los n-1=2 grados de libertad, en la primera hilera la probabilidad  0.025 y
2
finalmente se detecta el valor t α en la intersección de estos dos valores como se indica
n 1,
2
en la tabla siguiente:

131

 0.025
2

n-1=2 4.303

Por lo tanto el valor de t α es t α  t 2, 0.025  4.303 .


n 1, n 1,
2 2

Con estos datos podemos calcular el límite inferior (LI) y el límite superior (LS) del
intervalo de confianza pedido.

S 200
LI  X  t ε  1000  4.303 *  1000  496.88  503.12.
n 1, n 3
2

S 200
LS  X  t  1000  4.303 *
ε  1000  496.88  1496.88.
n 1,
n 3
2
A si un 95% intervalo de confianza para .12  es [503.12, 1496.88].

c) Interpretación
Si se usa un estimador puntual, se concluye que el salario promedio mensual de todos los
profesores del departamento de Lambayeque es de 1000 soles, sin embargo si se usa un
estimador por intervalo para el salario promedio, se estima que el salario promedio mensual
de todos los profesores del departamento de Lambayeque esta entre 503 soles y 1496.88
soles.

132
PROBLEMAS PROPUESTOS

1. En un estudio para para estimar la proporción de familias que usan un determinado


detergente, 196 familias fueron seleccionadas aleatoriamente. De las 196 familias se
determinó que 108 usan el producto (detergente).
a) Encontrar un estimador puntual para la proporción de familias que usan dicho
detergente.
b) Encontrar un 99% intervalo de confianza para la proporción de familias que usan el
detergente.
c) Encontrar un 95% intervalo de confianza para la proporción de familias que usan el
detergente.
d) Interpretar lo obtenido en los incisos a), b) y c).

2. En un estudio realizado por Waall Street Journal, se tomó una muestra aleatoria de
900 personas que están suscritas en Wall Street Journal, de estas 900 personas el 40%
indicaron que terminaron al menos dos años en una Universidad.
a) Encuentre un 95% intervalo de confianza para la proporción de suscritores de Wall
Street Journal que terminaron al menos dos años de estudios universitarios.
b) Interprete lo que encontró en el inciso a).

3. Un gerente compro 10000 baterías para la empresa en la cual trabaja. El gerente


toma una muestra aleatoria de 300 baterías de las 10000 compradas las cuales fueron
examinadas resultando 42 baterías defectuosas.
Encuentre un 95% intervalo de confianza para la proporción de baterías defectuosas en tota
la población de baterías compradas.

4. Se está considerando un nuevo medicamento para curar una determinada


enfermedad. El medicamento que se está usando actualmente tiene una probabilidad de 0.8
de curar dicha enfermedad. Se tomó una muestra aleatoria de 40 pacientes que padecen la
enfermedad y se les aplico el nuevo medicamento, resulto que 34 de ellos se curaron de la
enfermedad.
a) Determine un 95% intervalo de confianza para la proporción de todos pacientes que
se curan de la enfermedad si reciben el nuevo medicamento.
b) ¿Consideraría usted que el nuevo medicamento es mejor que el actual?

5. Un ingeniero civil está probando la resistencia de compresión del concreto. Prueba


120 muestras de las cuales 115 tienen resistencia mayor a 2250 psi.
a) Encuentre un 97% intervalo de confianza para la proporción de muestras que tienen
resistencia mayor a 2250 psi.

6. Un agricultor afirma que él puede determinar si una semilla de papaya es macho con
solo palpar la semilla. Para probar tal afirmación se tomaron 1000 semillas al azar para que
examine el agricultor y determine si es semilla de papayo macho, posteriormente se
sembraron las semillas y se determinó realmente si eran semillas de papayo macho.
Finalmente al hacer el cotejo se encontró que el agricultor de detecto el sexo de 6 semillas
correctamente.

133
a) Encontrar un estimador puntual para la proporción de semillas detectadas
correctamente por el agricultor con respecto al sexo.
b) Encontrar un 95% intervalo de confianza para la proporción de semillas detectadas
correctamente por el agricultor con respecto al sexo. ¿Cuál es su opinión con respecto a
la afirmación del agricultor?

7. El análisis de los gases de la sangre arterial practicado a una muestra aleatoria de 15


hombres adultos físicamente activos proporciono los siguientes valores de PaO2 en reposo:
75, 80, 80, 74, 84, 78, 89, 72, 83, 76, 75, 87, 78, 79, 88
Se conoce los valores de PaO2 tienen distribución normal.
a) Estimar puntualmente a la media de la población.
b) Encontrar un 95% intervalo de confianza para la media de la población de la cual se
tomó la muestra.

8. Se receto el medicamento A a una muestra aleatoria de 7 pacientes que padecían


insomnio. El número de horas de sueño experimentadas durante la segunda noche después
de iniciado el tratamiento fueron las siguientes:
3.5, 5.7, 3.4, 6.9, 17.8, 3.8, 6.6
Se conoce que el número de horas de sueño tiene distribución normal.
a) Encontrar un estimador puntual para el promedio del número de horas de sueño de la
población.
b) Encontrar un 95% intervalo de confianza para la media de la población.
c) Interpretar en términos del problema lo encontrado en los incisos a) y b),

9. Un ingeniero civil está probando la resistencia de compresión del concreto. Prueba 6


muestras al azar y obtiene los siguientes resultados:
2216 2237 2249 2204 2225 2311
Se conoce que la resistencia de compresión del concreto tiene distribución normal..
a) Encuentre un estimador puntual para el promedio de la resistencia de compresión del
concreto.
b) Construya un intervalo de confianza del 95% para la resistencia media.

10. Se analizó una marca particular de margarina dietética para determinar el nivel de
ácido graso polinsaturado (en porcentaje).Una muestra de 6 paquetes al azar dio como
resultado los siguientes datos:
16.8 17.2 17.4 16.9 16.5 17.1
Se conoce que el nivel de ácido graso polinsaturado tiene distribución normal.
a) Encontrar un estimador puntual para  .
b) Encuentre un 95% Intervalo de confianza para  .
c) Interprete en términos del problema lo calculado en los incisos a) y b).

134
CAPÍTULO X

Introducción a la Inferencia
Estadística: Prueba de
Hipótesis

135
10.1 PRUEBAS DE HIPOTESIS
Otra de las finalidades de la inferencia estadística, probablemente la más importante
en investigación, es la prueba de hipótesis. Es decir, probar enunciados o afirmaciones
sobre los parámetros de las poblaciones.

I. Metodología para desarrollar pruebas de hipótesis:


Para desarrollar una prueba de hipótesis puedes hacerlo haciendo uso de estos siete pasos:

1. Planteamiento de hipótesis: aquí deberás plantear H0 y H1


2. Nivel de significancia: es el valor α que te ayudará a tomar la decisión de aceptar o
rechazar H0
3. Estadístico de prueba: aquí sólo se plasmará la función pivotal.
4. Región de aceptación y rechazo: Se determinará en función a los puntos críticos.
5. Calculamos el estadístico de prueba: se reemplaza los datos en la función pivotal.
6. Decisión: en este paso se tomará la decisión de aceptar o rechazar H0.
7. Conclusión: se describirá y/o dará respuesta al problema presentado.

II. Tipos de pruebas de hipótesis:

a. Hipótesis bilateral ó de dos colas


H0 : θ = θ0
H1 : θ ≠ θ0

b. Hipótesis unilateral hacia la derecha


H0 : θ = θ0
H1 : θ > θ0

c. Hipótesis unilateral hacia la izquierda


H0 : θ = θ0
H1 : θ < θ0

𝜃0 = es el valor del parámetro desconocido 𝜃

136
III. Pruebas de Hipótesis para la proporción “p” y para la media “  ”:

A. Pruebas de hipótesis sobre el parámetro p, proporción de una población


Solamente trataremos el caso cuando n es mayor o igual a 30 (caso de muestras
grandes), para este caso se presenta una prueba de dos colas (Ha: p  p*) y dos pruebas de
una cola (Ha: p>p* y Ha: p<p*).

En los resultados o teoremas para pruebas de hipótesis presentaremos en cada uno de ellos
tres incisos describiendo brevemente los pasos a seguir para probar la hipótesis. Es decir, se
presenta el valor calculado (estadística de prueba), el valor tabular o punto crítico, la región
de rechazo (RR), región de no rechazo o región de aceptación (RA), y la regla de decisión.

Teorema 3
Si n, el tamaño de muestra, es mayor o igual a 30, entonces

a) Ho: p = p* versus
Ha: p  p*

Valor calculado o estadística de prueba



p p *
Zc 
p * (1  p * )
n
Valor tabular, valor en la tabla de la distribución normal estándar
α
Zt= Z α  valor en la tabla de Z tal que a su derecha esta una probabilid ad .
2
2

Región de rechazo (RR) y la región de aceptación (RA)

RR RA RR

-Zt Zt

Regla de decisión

Rechazar Ho si Zc cae en la RR. Es decir,


Rechazar Ho si Zc<-Zt o si Zc>Zt

137
b) Ho: p≤p* versus
Ha: p>p*

Valor calculado o estadística de prueba



p p *
Zc 
p * (1  p * )
n
Valor tabular, valor en la tabla de la distribución normal estándar

Zt= Z  valor en la tabla de Z tal que a su derecha esta una probabilid ad  .

Región de rechazo (RR) y la región de aceptación (RA)

RA RR

Zt
Regla de decisión

Rechazar Ho si Zc cae en la RR. Es decir,


Rechazar Ho si Zc>Zt

c) Ho: p≥p* versus


Ha: p<p*

Valor calculado o estadística de prueba



p p *
Zc 
p * (1  p * )
n
Valor tabular, valor en la tabla de la distribución normal estándar

Zt= Z  valor en la tabla de Z tal que a su derecha esta una probabilid ad  .

Construir la región de rechazo (RR) y la región de aceptación (RA)

RR RA

-Zt
Regla de decisión

Rechazar Ho si Zc cae en la RR. Es decir,


Rechazar Ho si Zc<-Zt.

138
Ejemplo
Usando los datos del ejemplo del estudio de desocupación en el municipio de T probar con
 =0.05 que el porcentaje de desocupación en el municipio de T es diferente del 4%,
afirmación que hace el gobierno central.

Usaremos las fórmulas de inciso a) del teorema 3


1. Planteamiento de hipótesis:
Ho: p=0.04 versus
H1: p  0.04

2. Nivel de significancia:
 =0.05.

3. Estadístico de prueba:
p̂  p *
Zc 
p * (1  p*)
n
4. Región de aceptación y rechazo:
Zt= Z α  Z 0.05  Z 0.025  1.96 .
2 2

Región de rechazo (RR) y la región de aceptación (RA)


Zc=6.50

RR RA RR

-Zt Zt
-1.96 1.96

5. Calculamos el estadístico de prueba:


p̂  p * 0.13  0.04
Zc    6.50
p * (1  p*) 0.04(1  0.04)
n 200
6. Decisión:
Puesto que Zc cae en la RR, se rechaza H0 con  =0.05.

7. Conclusión:
Con un nivel de significancia del 5% se concluye que el porcentaje de desocupación en
el municipio de T es significativamente diferente del 4% que afirma el gobierno central.

139
También podríamos haber probado la hipótesis considerando en la hipótesis alternante que
la proporción de desocupados en el municipio de T es mayor del 4%, lo cual ilustraremos
en seguida.
Usaremos el inciso b) del teorema 3.

1. Planteamiento de hipótesis:
Ho: p=0.04 versus
H1: p>0.04

2. Nivel de significancia:
 =0.05

3. Estadístico de prueba:
p̂  p *
Zc 
p * (1  p*)
n
4. Región de aceptación y rechazo:
Valor tabular Zt

Zt= Z  Z 0.05  1.96 .

Región de rechazo y región de aceptación


Zc=6.50

RA RR

Zt
1.96

5. Calculamos el estadístico de prueba:


p̂  p * 0.13  0.04
Zc    6.50
p * (1  p*) 0.04(1  0.04)
n 200
6. Decisión:
Puesto que Zc cae en la RR, se rechaza Ho con  =0.05.

7. Conclusión:

Con un nivel de significancia del 5% se concluye que el porcentaje de desocupación en


el municipio de T es significativamente diferente del 4% que afirma el gobierno central.

140
B. Pruebas de hipótesis sobre el parámetro  , media de una población
Trataremos solo el caso cuando la variable en estudio tiene distribución normal con
varianza desconocida., para este caso se presenta la una prueba de dos colas (Ha:    *)
y dos pruebas de una cola (Ha:  >  * y Ha:  <  *).

Teorema 4
a) Ho:  =  * versus
Ha:    *

Valor calculado o valor de la estadística de prueba tc

Xμ*
tc 
S
n
Valor tabular tt
α
tt= t α  valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad .
n 1, 2
2
GL=grados de libertad
Región de rechazo (RR) y la región de aceptación (RA)

RR RA RR

- tt tt

Regla de decisión

Rechazar Ho si tc cae en la RR. Es decir,


Rechazar Ho si tc < -tt o si tc > tt

b) Ho:  =  * versus
Ha:  >  *

Valor calculado tc

Xμ*
tc 
S
n

141
Valor tabular tt
tt= t n 1,  valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad  .
GL=grados de libertad

Región de rechazo (RR) y la región de aceptación (RA)

RA RR

tt

Regla de decisión

Rechazar Ho si tc cae en la RR. Es decir,


Rechazar Ho si tc > tt

c) Ho:  =  * versus
Ha:  <  *
Valor calculado tc

Xμ*
tc 
S
n
Encontrar el tt

tt= t n 1,  valor en la tabla de Tcon n - 1 GL tal que a su derecha esta una probabilid ad  .
GL=grados de libertad

Región de rechazo (RR) y la región de aceptación (RA)

RR RA

- tt

Regla de decisión

Rechazar Ho si tc cae en la RR. Es decir,


Rechazar Ho si tc < -tt

142
Ejemplo
Usando los datos del ejemplo de investigación sobre estimación del salario promedio de
todos los profesores del departamento de Lambayeque, probar con  =0.05 si el salario
promedio de los profesores es diferente a 1200 soles mensuales.
En el ejemplo tenemos los siguientes datos: n=3, la media muestral es igual a 1000 y la
desviación estándar de la muestra es 200.
1. Planteamiento de hipótesis: 2.Nivel de significancia:
Ho:  =1200 versus  =0.05
H1:   1200
3. Estadístico de prueba:

X μ*
tc 
S
n
4. Región de aceptación y rechazo:
Valor tabular tt
t α  t 2,0.025  4.303
n 1,
tt= 2

tt es un valor en la tabla de T con 2 grados de libertad y una probabilidad de 0.025 a


la derecha de dicho valor.
Región de rechazo (RR) y la región de aceptación (RA)
tc = -1.73
RR RA RR

- tt tt
-4.303 4.303
5. Calculamos el estadístico de prueba:

X  μ * 1000  1200
tc    1.73
S 200
n 3
6. Decisión:
Como el tc = -1.73 cae en la RA, no se rechaza Ho.

7. Conclusión:
Con un nivel de significancia del 5 % (error del 5%) se concluye que el salario
promedio de los profesores del departamento de Lambayeque no es significativamente
diferente de 1200 soles por mes. Es decir, con un nivel de significancia del 5% los datos de
muestra aleatoria no muestran evidencias para rechazar la hipótesis de que el salario
promedio de todos los profesores del departamento de Lambayeque es de 1200 soles
mensuales

143
PROBLEMAS PROPUESTOS

1. En un estudio sobre desocupación en el Municipio de T se tomó una muestra aleatoria de


200 personas en edad laboral del Municipio de T de las cuales 26 contestaron que no tienen
trabajo. El gobierno central afirma que el porcentaje de desocupados en el municipio de T
es del 4%. Pruebe la hipótesis de que el porcentaje de desocupación en el municipio de T es
diferente del 4% usando una  =0.01 y de su conclusión en términos del problema.

2. En un estudio para para estimar la proporción de familias que usan un determinado


detergente, 196 familias fueron seleccionadas aleatoriamente. De las 196 familias se
determinó que 108 usan el producto (detergente).
Probar con  =0.05 que más del 90% de las familias usan el detergente. De su conclusión
en términos del problema.

3. En un estudio realizado por Wall Street Journal, se tomó una muestra aleatoria de 900
personas que están suscritas en Wall Street Journal, de estas 900 personas el 40% indicaron
que terminaron al menos dos años en una Universidad.
Probar con  =0.05 que la proporción de suscritores de Wall Street Journal que terminaron
al menos dos años de estudios universitarios es del 50%.

4. Un gerente compro 10000 baterías para la empresa en la cual trabaja. El gerente toma
una muestra aleatoria de 300 baterías de las 10000 compradas las cuales fueron examinadas
resultando 42 baterías defectuosas.
Probar con  =0.05 que menos del 5%. De las baterías son defectuosas. De su conclusión
en términos del problema.

5. Se está considerando un nuevo medicamento para curar una determinada enfermedad. El


medicamento que se está usando actualmente tiene una probabilidad de 0.8 de curar dicha
enfermedad. Se tomó una muestra aleatoria de 40 pacientes que padecen la enfermedad y se
les aplico el nuevo medicamento, resulto que 34 de ellos se curaron de la enfermedad.
Probar con  =0.05 que el nuevo medicamento es mejor que el actual. De su conclusión en
términos del problema.

6. Un ingeniero civil está probando la resistencia de compresión del concreto. Prueba 6


muestras al azar y obtiene los siguientes resultados:
2216 2237 2249 2204 2225 2311
Se conoce que la resistencia de compresión del concreto tiene distribución normal.
Pruebe la hipótesis Ho:  =2250 psi contra Ha:   2250 psi usando  =0.05. Saque
conclusiones con base en el resultado de esta prueba.

7. Un fabricante de llantas está investigando la vida de las llantas producidas con un nuevo
producto. Tomo una muestra aleatoria de 16 llantas producidas con este nuevo producto y
las ha probado hasta el fin de su vida útil en una prueba de carretera. La media y la
desviación estándar muestrales son 60139.7 y 3645.94 km. Se conoce que la vida útil de las
llantas tiene distribución normal. Al fabricante le gustaría demostrar que la vida media de

144
esta nueva llanta es mayor de 60000 km. Formule y pruebe las hipótesis apropiadas con 
=0.05, y establezca conclusiones.

8. Una muestra aleatoria de n=100 medidores de agua es controlada dentro de una


comunidad para estimar el promedio de consumo de agua diario por casa, durante un
periodo estacional seco. La media y la varianza muestral fueron 12.5 y 1252. Se supone que
el consumo de agua tiene distribución normal.
Pruebe la hipótesis con  =0.05 que el consumo promedio diario de agua es menor que

9. Probar si los valores de la variable en estudio calificaciones tiene distribución normal.


Los datos de la muestra se dan a continuación.

11 09 03 03 03
05 10 06 05 02
03 15 04 07 01
08 18 02 03 02
01 11 03 03 03
04 02 06 05 05
03 05 08 01 04
Para probar si los datos de la muestra provienen de una distribución normal construya un
histograma de frecuencias y observe si la distribución de frecuencias tiene forma
acampanada lo cual indicara que los datos provienen de una distribución normal en caso
contrario se concluye que los datos no provienen de una distribución normal.
Hacer la prueba normal. Revisar un libro donde este descrito la prueba de bondad de ajuste
para prueba de normalidad. Por ejemplo puede revisar el libro: Introducción a los métodos
estadísticos un enfoque multidisciplinario de los autores Said y Zarate.

10. Saque conclusiones con base en el resultado de esta prueba.

145
CAPÍTULO XI

Prueba Chi Cuadrado

146
Pruebas No Paramétricas

Utilizamos el término No paramétrico para referirse únicamente a los contrastes que no


plantean hipótesis sobre parámetros y que se limitan a analizar las propiedades nominales u
ordinales de los datos.

Distribución Chi-cuadrada ( 2)


La distribución chi cuadrada es toda una familia de distribuciones. Las aplicaciones más
comunes de la distribución chi-cuadrada son (1) pruebas de bondad de ajuste y (2) pruebas
de independencia y (3) Prueba de Homogeneidad

1. Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra


corresponden a cierta distribución poblacional. En este caso es necesario que los valores de
la variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en
clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos
categorizar los datos asignando sus valores a diferentes clases o grupos.

Supongamos que tenemos un número k de clases en las cuales se han ido registrando un
total de n observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias
observadas en cada clase por O1, O2,…, Ok (Oi es el número de valores en la clase Ai). Se
cumplirá:
O1 + O2 +... + O k = n

Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas
(teóricas), a las que denotaremos por E1, E2,..., Ek. Se cumplirá:
E1 + E2 +... + E k = n
Frecuencia Observada Frecuencia Observada
Clase 1 O1 E1
Clase 2 O2 E2

Clase K Ok Ek
Total n n

Veremos si las frecuencias observadas están o no en concordancia con las frecuencias


esperadas (es decir, si el número de resultados observados en cada clase corresponden
aproximadamente al número esperado).
Para comprobarlo, haremos uso de un contraste de hipótesis usando la distribución Chi-
cuadrado.
𝑘
2
(𝑂 − 𝐸𝑖 )2
𝜒 =∑
𝐸𝑖
𝑖=1

147
Ejemplo
El director de “Movil”, tiene la responsabilidad de controlar el nivel de existencias para
cuatro tipos de automóvil vendidos por la firma. En el pasado, ha ordenado nuevos
automóviles bajo la premisa de que los cuatro tipos son igualmente populares y la demanda
de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más
difíciles de controlar, y el director considera que debería probar su hipótesis respecto a una
demanda uniforme.

Tabla 1.Muestra la expectativa uniforme para una muestra de 48 autos


vendidos durante el último mes.
Tipo de auto Ventas observadas Ventas esperadas
Tipo1 15 12
Tipo2 11 12
Tipo3 10 12
Tipo4 12 12

Solución
1. Planteamiento de hipótesis
H0: La demanda es uniforme para los cuatro tipos de autos.
H1: La demanda no es uniforme para los cuatro tipos de autos.

2. Nivel de significancia:
α=0.05
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟎𝟓;𝟑 = 𝟕. 𝟖𝟏𝟓
𝐸𝑖

4. Región de aceptación y rechazo


𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐

5. Calculamos el estadístico de prueba

(15 − 12)2 (11 − 12)2 (10 − 12)2 (12 − 12)2


𝜒𝒄𝟐
= + + + = 1.17
12 12 12 12
6. Decisión
Como 𝜒𝑐2 > 𝜒𝑡2 , entonces se rechaza la Ho

7. Conclusión:
La demanda no es uniforma para los 4 tipos de autos.

148
2. Prueba de Independencia, La prueba de independencia Chi-cuadrado, nos permite
determinar si existe una relación entre dos factores analizadas en un estudio. Para saber si
dos factores muestran algún grado de dependencia se construyen tablas de doble entrada
(filas y columnas) .Es necesario resaltar que esta prueba nos indica si existe o no una
relación entre las variables, pero no indica el grado o el tipo de relación; es decir, no indica
el porcentaje de influencia de una variable sobre la otra o la variable que causa la
influencia.

Característica muestras Total A


A (i) 𝑙1 𝑙2 … 𝑙𝑐 𝑛𝑖.

𝑎1 𝑜1,1 𝑜1,2 𝑜1,𝑐 𝑛𝑖.


𝑎1 𝑜2,1 𝑜2,2 … 𝑜2,𝑐 𝑛𝑖.
. . …
. . …
𝑎1 𝑜𝑟,1 𝑜𝑟,2 … 𝑜𝑟,𝑐 𝑛𝑟.
Total n.j 𝑛.1 𝑛.2 … 𝑛.𝑐 𝑛..

𝑜𝑖𝑗 = Frecuencia observada de la respuesta o clase ai de la característica A,


correspondiente a la muestra j.
𝑛𝑖. = Tamaño de muestra de la localidad o muestra j.
𝑐 𝑐

𝑛𝑖. = ∑ 𝑜𝑖𝑗 𝑛𝑖. = ∑ 𝑜𝑖𝑗


𝑗=1 𝑗=1

𝑛 = ∑𝑟𝑖=1 𝑛𝑖. = ∑𝑐𝑗=1 𝑛.𝑗 = ∑𝑟𝑖=1 𝑜𝑖𝑗

Con la información de este cuadro se procede a realizar la prueba de hipótesis, la


cual debe seguir el procedimiento que se muestra a continuación.

Ejemplo 1
Alicia García es la directora de investigación de Plaguicidas de un importante Laboratorio
en la ciudad de Chiclayo. En su proyecto actual Alicia debe determinar si existe alguna
relación entre la clasificación de efectividad que los consumidores asignan a un nuevo
insecticida y el sitio (urbano o rural) en el cual se utiliza. De los 100 consumidores a
quienes se le aplicó la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales. La Tabla
2. Resume las clasificaciones hechas por los consumidores. (Use α=0.10)

149
Tabla 2.
Clasificación según el uso de Plaguicidas

Clasificación Urbano Rural Total


Arriba del 20 11 31
promedio
Promedio 40 8 48

Debajo del 15 6 21
promedio
Total 75 25 100

Solución
1. Planteamiento de hipótesis
H0: La clasificación y la ubicación son independientes.
H1: La clasificación y la ubicación No son independientes.

2. Nivel de significancia:
α=0.10

3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟏𝟎;𝟑 = 𝟒. 𝟔𝟎𝟓
𝐸𝑖

4. Región de aceptación y rechazo


𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐

5. Calculamos el estadístico de prueba

Clasificación Urbano Rural Total


Arriba del 20 11 31
promedio 23.3 7.75
Promedio 40 8 48
36 12
Debajo del 15 6 21
promedio 15.8 5.25
Total 75 25 100

150
Cálculo de las frecuencias esperadas:
𝑛1. 𝑛.1 (75)(31)
𝑒11 = = = 23.25
𝑛. . (100)

𝑛1. 𝑛.2 (25)(31)


𝑒11 = = = 7.75
𝑛. . (100)

𝑛2. 𝑛.1 (75)(48)


𝑒11 = = = 36
𝑛. . (100)

𝑛2. 𝑛.2 (25)(48)


𝑒11 = = = 12
𝑛. . (100)

𝑛3. 𝑛.1 (75)(21)


𝑒11 = = = 15.75
𝑛. . (100)

𝑛3. 𝑛.2 (25)(21)


𝑒11 = = = 5.25
𝑛. . (100)

Estadístico de prueba:

(20 − 23.3)2 (11 − 7.75)2 (40 − 36)2 (8 − 12)2 (15 − 15.8)2


𝜒𝒄𝟐 = + + + +
23.3 7.75 36 12 15.8
(6 − 5.25)2
+
5.25

𝜒𝒄𝟐 = 3.76

6. Decisión
Como 𝜒𝑐2 < 𝜒𝑡2 , entonces No se rechaza la Ho

7. Conclusión
No existen suficientes evidencias estadísticas con un nivel de significación α=0,05 para
afirmar que la clasificación de la efectividad y la ubicación donde se utiliza sean
independientes.
151
Ejemplo 2
Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación
de bienestar. Extrae una muestra aleatoria de 100 sujetos. Los datos aparecen a
continuación.

Sensación de Práctica deportiva Total


Bienestar
Sí no
Sí 20 25 45
No 10 45 55
Total 30 70 100

Contraste la hipótesis de independencia entre bienestar y práctica de deporte


(α = 0.1)

Solución

1. Planteamiento de hipótesis
H0: La práctica deportiva y la sensación de bienestar son independientes.
H1: La práctica deportiva y la sensación de bienestar No son independientes.

2. Nivel de significancia:
α=0.10

3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟏𝟎;𝟏 = 𝟔, 𝟔𝟑
𝐸𝑖

Grados de libertad=(r-1)(c-1)=(2-1)(2-1)=1
Al 0.05 de significancia =6,63

4. Región de aceptación y rechazo


𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐

152
5. Calculamos el estadístico de prueba

Sensación de Práctica deportiva Total


Bienestar
Sí no
Sí 20 25 45
13,5
32
No 10 45 55
16,50 38,5
Total 30 70 100

Estadístico de prueba:

(20 − 13.5)2 (25 − 32)2 (10 − 16.5)2 (45 − 38.5)2


𝜒𝒄𝟐 = + + +
13.5 32 16.5 38.5

𝜒𝒄𝟐 = 8.13
6. Decisión
Como 𝜒𝑐2 < 𝜒𝑡2 , entonces se rechaza la Ho

7. Conclusión
Existen suficientes evidencias estadísticas con un nivel de significación α=0,05 para
afirmar que la práctica deportiva y la sensación de bienestar están asociadas.

153
3. Prueba de Homogeneidad
De varias muestras cualitativas, consiste en comprobar si varias muestras de un carácter
cualitativo proceden de la misma población. Es necesario que las dos variables medibles
estén representadas mediante categorías con las cuales construiremos una tabla de
contingencia.

Ejemplo: En un estudio para evaluar la aceptación de un producto X en tres


distritos de Chiclayo, se llevó a cabo una encuesta y se encontraron los siguientes
resultados:

Opinión sobre Distrito Total


el producto X
La José Chiclayo
Victoria Leonardo
Ortiz
Bueno 69 10 30 109
Regular 62 33 75 170
Malo 19 7 95 121
Total 150 50 200 400

Probar si la opinión sobre el producto X es semejante en los tres distritos.


Use (α=0.05)

Solución
1. Planteamiento de hipótesis
H0: La opinión sobre el producto X es semejante en los tres distritos.
H1: La opinión sobre el producto X No es semejante en los tres distritos

2. Nivel de significancia:
α=0.05
3. Estadístico de prueba
(𝑂−𝐸𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 ; 𝟐
𝜒𝟎.𝟎𝟓;𝟒 = 𝟗, 𝟒𝟖𝟖
𝐸𝑖

Grados de libertad=(r-1)(c-1)=(3-1)(3-1)=4
Al 0.05 de significancia =9,488

154
4. Región de aceptación y rechazo
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐
𝑺𝒊 𝜒𝒄𝟐 > 𝜒𝒕𝟐 𝒆𝒏𝒕𝒐𝒏𝒄𝒆𝒔 𝒔𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒂 𝒍𝒂 𝑯𝒐

5. Calculamos el estadístico de prueba

Opinión sobre el Distrito Total


producto X
La José Leonardo Chiclayo
Victoria Ortiz
Bueno 69 10 30 109
40,875 13,625 54,5
Regular 62 33 75 170
63,750 21,250 85,0
Malo 19 7 95 121
45,375 15,125 60,5
Total 150 50 200 400

Estadístico de prueba:

(69 − 40,875)2 (10 − 13,625)2 (30 − 54.5)2 (95 − 60.5)2


𝜒𝒄𝟐 = + + +⋯+
40,875 13,625 54,5 60.5

𝜒𝒄𝟐 = 78,42099

6. Decisión
Como 𝜒𝑐2 > 𝜒𝑡2 , entonces se rechaza la Ho

7. Conclusión
Existen suficientes evidencias estadísticas con un nivel de significación α=0,05 que la
aceptación del producto X no es semejante en los distritos de La Victoria, José Leonardo
Ortiz y Chiclayo.

155
PROBLEMAS PROPUESTOS

1. Se realiza un estudio para investigar la asociación entre la recuperación de una


enfermedad y el uso de vitaminas. Se selecciona 200 pacientes aleatoriamente y se recogen
los datos que se muestra en la tabla.
Recuperación de la enfermedad
Uso de Total
vitaminas Se recupera No se recupera

Si 72 68 140
No 48 12 60
Total 120 80 200
A un nivel de significancia de α=0.1 pruebe si existe relación entre las variables analizadas.

2. Se selecciona al azar 236 trabajadores y se les clasifica de acuerdo con sus hábitos
de beber licor, obteniéndose los siguientes resultados.
Hábito de licor Rendimiento laboral
Alto Medio Bajo
Bebedor en exceso 28 31 14
Bebedor 29 16 12
promedio
Poco bebedor 17 9 23
No bebedor 27 19 11
Pruebe la hipótesis de independencia de los factores, es decir que el rendimiento laboral de
un trabajador es independiente del hábito que tiene de beber licor, para una significancia
α=0.05.

3. En un grupo de enfermos que se quejaban que no podían dormir se les dio somníferos y
placebos. Los datos se muestran en la tabla adjunta.
Duermen bien Duermen mal
Somníferos 58 20
Placebos. 94 48
¿Es lo mismo tomar somnífero o placebos para dormir bien o mal en este grupo de
enfermos. Pruebe a un nivel de significancia del 5%

4. En el marco de un estudio realizado por el instituto de investigaciones de la


universidad USS, acerca del perjuicio étnico en los universitarios de Chiclayo, se aplicó
una encuesta a los estudiantes según su lugar de residencia. Se obtuvieron los resultados
que se presentan en la siguiente tabla:

156
Lugar de Grado de perjuicio Total
residencia Alto Bajo
AA.HH 32 28 60
Urbanizaciones 225 290 515
Residenciales 50 79 129
Total 307 397 704
A un nivel de significación del 5% pruebe si las variables “perjuicio étnico” y “Lugar de
residencia” son independientes.

5. Se desea probar si la distribución proporcional del rendimiento en una gran


compañía variaba según el coeficiente intelectual de los trabajadores, para lo cual se toma
una muestra para cada nivel de CI y se clasifica según el rendimiento en la compañía en la
siguiente tabla.

Coeficiente intelectual Rendimiento


Deficiente Regular Bueno
Por debajo del promedio 78 75 36
En promedio 53 87 67
Sobre el promedio 21 34 48
Verifique la hipótesis que la distribución proporcional del rendimiento en la compañía es el
mismo para cada nivel un nivel de significancia del 5%.

6. La tabla contiene el resultado de un experimento para investigar el efecto de


vacunación de animales de laboratorio, contra una determinada enfermedad. Mediante un
nivel de significación del 0.05, pruebe la hipótesis de que no hay diferencia entre los grupos
vacunados y no vacunados, es decir que la vacunación y la enfermedad son independientes.
Superaron la enfermedad Total
Si No
Vacunados 20 78 98
No vacunados 32 62 94
Total 52 140 192

7. La escuela profesional de Psicología de la Universidad USS desea determinar si


existe asociación entre el ciclo de estudios del estudiante y su nivel de nerviosismo frente a
una exposición. Este es medido por una prueba estándar de nerviosismo y ansiedad. Se
elige aleatoriamente 400 estudiantes de los 3 turnos y se obtienen los siguientes resultados.
157
Ciclo de Nivel de nerviosismo y ansiedad Total
estudios No ligeramente moderadamente extremadamente
I 20 20 40 80 160
II 10 30 30 30 100
I y II 40 20 10 10 80
IV 40 20 0 0 60
Total 110 90 80 120 400
Realice la prueba al 5% de nivel de significancia.

8. Se visitó uno de los restaurantes más concurridos de la ciudad de Chiclayo, y


nuestro interés fue saber si existe o no relación entre el consumo de bebidas alcohólicas y el
sexo de la persona, mediante un nivel de significación del 0,05.
Consumo de bebidas Sexo de la persona total
alcohólicas Mujer varón
No, nunca 17 5 22
Esporádicamente 57 11 68
Solo los fines de 69 18 87
semana
Los fines de semana y 16 7 23
un día más
Total 159 41 200

9. Para conocer la opinión de los ciudadanos de Chiclayo sobre la sentencia al ex


alcalde Beto torres se tomó una muestra de 120 personas y se ha obtenido los siguientes
resultados:
valor Gl Significancia
asintótica
Ji-cuadrado de 0,343 2 0,842
Pearson
Usando un nivel de significancia del 5%, se puede afirmar que la opinión sobre la sentencia
al ex alcalde es independiente del género.

10. En una muestra aleatoria de 100 ciudadanos del distrito de Lambayeque, se les
clasificó por su ocupación: obrero, estudiante, profesional, y se les consultó si están a favor
o en contra de la integración de un organismo de justicia, propuesto por el congreso. los
datos se muestran a continuación.
Obrero estudiante profesional
A favor 23 29 27

158
En contra 25 39 35
Proponga y pruebe una hipótesis para demostrar, con el 5% de significancia, que la opinión
de los ciudadanos es independiente de su ocupación.

CAPÍTULO XII

REGRESIÓN Y
CORRELACIÓN LINEAL

159
Regresión y correlación lineal simple

En muchas ocasiones surge la necesidad de estudiar la relación que existe entre dos
variables cuantitativas que tienen distribución aproximadamente normal. Por ejemplo,
promedio ponderado semestral y número de horas de estudio en una muestra de estudiantes
universitario del I Ciclo de estudios. Antes de establecer un modelo que relacione a ambas
variables, es necesario averiguar si estas dos variables esta correlacionadas entre sí; es decir
realizar una análisis de correlación.
12.1. Análisis de correlación de dos variables cuantitativas
El coeficiente de correlación poblacional ρ entre dos variables aleatorias x e y, se estima
con “r”.
 n Yt X t   Yt  X t
 r
 
n Yt 2   Yt  n X t2   X t 
2 2

Las sumatorias en la fórmula anterior se realizan sobre las n observaciones, tomadas como
muestra.

Los del coeficiente de correlación de Pearson se encuentran entre –1 y 1, esto es


 1  rx , y  1
Por lo tanto a medida que el valor del coeficiente se acerca a 1 indica que ambas variables
están fuertemente correlacionadas y de manera positiva o sea que ambas variables varían en
el mismo sentido, al aumentar una aumenta la otra o al disminuir una disminuye la otra.
Cuando el coeficiente se acerca a –1 indica que ambas variables están fuertemente
correlacionadas y de manera negativa o sea que ambas variables varían en sentido opuesto,
al aumentar una disminuye la otra.
Por otro lado si el valor de r es próximo a 0 indica ausencia de correlación lineal entre
ambas variables, puede existir otro tipo de relación entre las mismas (por ejemplo
curvilínea). Los valores de r=+1, r=-1 y r= 0, en la práctica rara vez se presentan.
Lo enunciado anteriormente se puede representar en una gráfica llamada diagrama de
dispersión de los datos que permita observar la posible relación entre las variables.
Diagramas de dispersión que muestra los tipos de relación entre las variables

160

Correlación positiva Correlación negativa Ausencia de correlación


12.2. Significancia estadística del coeficiente de correlación de Pearson

1. Planteamiento de la hipótesis
H0: ρxy = 0 (las variables no están correlacionadas)

H1: ρxy ≠ 0 (Las variables si esta correlacionadas)

2. Nivel de significancia: α=0.05


3. Prueba estadística:

𝑟 ∗ √(𝑛 − 2)
𝑡=
√1 − 𝑟 2
4. Región de rechazo

RR RA RR RR: Región de rechazo t = T (α/2; n-2)

RA: Región de aceptación


-t t

5. Decisión: Si el valor de la prueba estadística cae a la derecha o a la izquierda del


punto crítico, se rechaza Ho
6. Conclusión: Si se rechaza Ho, se concluye que las variables si están
correlacionadas.
Si las variables están correlacionadas podemos realizar un análisis de regresión para
establecer la forma de esa relación

12.3. Análisis de Regresión Lineal Simple


El análisis de regresión lineal simple es útil para estudiar la forma probable de la relación
entre dos variables (Y: variable dependiente y X: variable independiente), y su objetivo
final es predecir o estimar el valor de la variable dependiente, conociendo un valor
específico de la variable independiente.
Para poder desarrollar este tipo de análisis se siguen los siguientes pasos.

Tomar una muestra de n observaciones en las que se consideran dos variables, una variable
x independiente, considerada libre de error es decir una variable fijada de antemano y una
variable y, variable dependiente, considerada variable aleatoria, o sea una de las posibles
respuestas de la variable y a la variable x. Se tienen entonces un conjunto de n pares de la
forma (x,y)

161
a) Realizar un diagrama de dispersión de las variables (x,y) en un sistema de
coordenadas cartesianas, ya visto anteriormente y calcula el coeficiente de correlación.
b) En base a la información anterior y si se considera apropiado un modelo de recta,
encontrar la ecuación de la recta que mejor ajuste (o represente) a todos los puntos del
diagrama. A través de esta ecuación es posible predecir el valor de y para un determinado
valor de x.
c) La ecuación de la recta es la siguiente:
y  0  1 xi   i

Dónde  0 : Es el intercepto o término independiente


 1 Es la pendiente, representa el cambio en la variable y por unidad de cambio de la
variable X. También se le llama coeficiente de regresión
 i : Es el error aleatorio determinado por la diferencia entre yi y el valor esperado de “y
“como variable aleatoria determinada para la “x” en particular. No se agregarán
Otros supuestos sobre estos errores que son necesarios cuando se realiza un análisis
inferencial en regresión.
d) Los parámetros poblacionales  y  deben ser estimados para obtener la recta de
regresión ajustada expresada de la siguiente manera:

 
yˆ   0   1 x1

Donde ( ŷi ) es el valor ajustado o estimado para un cierto valor de “x” y los valores a y b
son los estimadores o valores que estiman a los parámetros poblacionales  y  y que se
calculan con los datos muestrales.

Estimación de la recta de regresión por el método de mínimos cuadrados:


Los valores estimados de β0 y β1 se encuentran utilizando el principio de mínimos
cuadrados:

   n  xi y i   xi  y i
 0  y  1 x 1 
n xi   xi 
2 2

Dónde:
y : media aritmética de las y
x : media aritmética de las x

12.4. Significancia Estadística del Coeficiente de Regresión

162
Si existe una relación lineal entre la variable Y y la variable X, el coeficiente de regresión β
 
de la ecuación yˆ   0   1 x1 , debe ser diferente de cero, es decir debemos realizarse la
siguiente prueba de hipótesis:

1. Planteamiento de las hipótesis


H 0 : 1  0
H 1 : 1  0

2. Nivel de significancia
α = 0.05
3. Prueba estadística
ˆ
t
S ˆ

Donde, un estimador para Var ( ˆ ) es:

ˆ 2
S 2ˆ 
(X t  X )2

Y un estimador insesgado de la varianza del error es


n

e 2
t
 
 (Yt   0  1 X t ) 2
ˆ 2  i 1

n2 n2
Intervalo de confianza para el coeficiente de regresión:

Un intervalo de confianza ( 1   )*100% para el coeficiente de regresión  está dado por:

 
1  t1-n2  [ EE ( 1 )]
2

n 2 
Donde t1- es el percentil apropiado de la distribución t con (n-2) grados de libertad.
2

12.5. El coeficiente de determinación: R2


El coeficiente de determinación en un análisis de regresión simple es r2, es decir el
coeficiente de correlación al cuadrado y nos indica el porcentaje de variaciones observadas
en la variable dependiente que es explicado por las variaciones de la variable

163
independiente. El coeficiente de determinación expresa la variabilidad explicada por el
modelo de regresión. A partir de él podeos calcular el coeficiente de alineación. Este
coeficiente expresa la proporción de la variabilidad de la variable dependiente no explicada
por el modelo y viene dado por la siguiente expresión: [1 – R2 ]

Ejemplo
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml)
está relacionada con el tiempo de reacción a un estímulo en segundos.

Droga (ml) 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
Tiempo (segs) 1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9

Realizar un análisis de correlación de las variables en estudio. En el caso de que las


variables estén correlacionadas realizar un análisis de regresión.

Gráfico de dispersión del tiempo de reacción a estímulo


versus dosis de droga
5

3
Tiempo de reacción (seg)

0 R² = 0.8824
0 1 2 3 4 5 6 7

Dosis de droga (ml)

Figura 2: se aprecia la correlación positiva entre las variables


droga y tiempo.

12.6. Coeficiente de correlación

n Yt X t   Yt  X t
r
nY t
2 2

  Yt  n X t2   X t 
2

164
12 ∗ 130.9 − 28.85 ∗ 45
𝑟= = 0.939
√(12 ∗ 85.7125)2 (12 ∗ 204.5 − 452 )
Se puede concluir de existe una alta correlación positiva entre el tiempo de reacción y dosis
de la droga.

Significancia estadística del coeficiente de correlación de Pearson


1. Planteamiento de la hipótesis
H0: ρxy = 0 (las variables no están correlacionadas)
H1: ρxy ≠ 0 (Las variables si esta correlacionadas)
2. Nivel de significancia: α=0.05
3. Prueba estadística:
𝑟 ∗ √(𝑛 − 2) 0.939 ∗ √12 − 2
𝑡= = = 8.63399455
√1 − 𝑟 2 √1 − (0.939)2

4. Región de rechazo
RR RA RR

-t t
-2.2281 +2.2281 (este valor se ha obtenido de la tabla T de Student
con 10 grados de libertad y con 0.025 de
probabilidad)
5. Decisión: Como el t calculado es mayor que el punto crítico 2.2281, se rechaza Ho
6. Conclusión: Si existe correlación entre el tiempo de reacción y dosis de la droga,
con un nivel de significancia de 0.05.
Como se observa que si existe una alta correlación lineal directa entre las variables de
estudio, el siguiente paso es determinar un modelo que los relacione a ambas variables.
Análisis de Regresión.
 
Estimación de la recta de regresión: yˆ   0   1 x1
Se debe obtener los valores de a y b, mediante las siguientes relaciones:

165
 n  xi y i   xi  y i  
1   0  y  1 x
n xi   xi 
2 2

̂1 = 12(130.9)−45(28.85)
𝛽 2 = 0.63531469
12(204.5)−45

̂0 = (28.85/12) - 0,63531469 (45/12) = 0,02173658


𝛽

yˆ  0.023  0.64 x1
Significancia estadística del coeficiente de regresión
Antes veamos algunos cálculos auxiliares
Y 𝑌̂ 𝑒̂ ̅̅̅2
(𝑥 − 𝑥)
1 0,657 0,117649 7,5625
0,8 0,97465 0,03050262 5,0625
1,8 1,2923 0,25775929 3,0625
1,4 1,60995 0,044079 1,5625
2,1 1,9276 0,02972176 0,5625
1,8 2,24525 0,19824756 0,0625
2,2 2,5629 0,13169641 0,0625
3 2,88055 0,0142683 0,5625
2,75 3,1982 0,20088324 1,5625
3 3,51585 0,26610122 3,0625
4,1 3,8335 0,07102225 5,0625
4,9 4,15115 0,56077632 7,5625
suma 1,92270699 35,75

166
1. Planteamiento de las hipótesis
H 0 : 1  0
H 1 : 1  0
2. Nivel de significancia
α = 0.05
3. Prueba estadística
ˆ
t
S ˆ

0.63531469
𝑡= = 8.663
0.07333622
Donde, un estimador para Var ( ˆ ) es:
ˆ 2 0.1922707
S 2ˆ  = = 0.0053782
(X t  X ) 2 35.75

0.07333622
S ˆ 

Y un estimador insesgado de la varianza del error es


n

e 2
t
 (Y  ˆ  ˆ X t ) 2
ˆ 2  i 1

t
1,92270699/(12-2) = 0.1922707
n2 n2 =

4. Región de rechazo
RR RA RR

-t t
-2.2281 +2.2281 (este valor se ha obtenido de la tabla T de Student
con 10 grados de libertad y con 0.025 de
probabilidad)

5. Decisión: como el t calculado(8,66304113) es mayor que el t de tabla(2.2281), se


rechaza Ho
6. Conclusión: se concluye que si existe relación entre tiempo de reacción al estímulo
y dosis de la droga, con un nivel de significancia de 0.05

Como existe una relación lineal entre las variables de estudio, se podría predecir el tiempo

167
de reacción al estímulo que tendría un sujeto si la dosis fuera de 7 ml
yˆ  0.023  0.64(7) = 4,46893941

El tiempo de reacción es aproximadamente de 4.5 segundos


Un intervalo de confianza del 95% para β, es el siguiente:
 
1  t1-n2  [ EE ( 1 )]
2

0.63531469 ± 2.2281x0.07333622
LI : 0.4719
LS : .0.7987
Como el intervalo de confianza no contiene a la unidad, el coeficiente de regresión es
diferente de cero, por lo que se concluye que el tiempo de reacción al estímulo y la dosis de
droga están linealmente relacionas y esta relación es directa, con un nivel de confianza del
95%
El coeficiente de determinación es (0.939)2 = 0.882, es decir el porcentaje de variaciones
observadas en el tiempo de reacción al estímulo que es explicado por las variaciones de la
dosis de la droga es del 87.1%. El porcentaje de variación del tiempo de reacción al
estímulo que no es explicado por la dosis de la droga es del 0.118 [1 – R2 ]
A continuación se presenta los cálculos realizados con el MegaStat
ANOVA
table
Source SS df MS F p-value
Regression 14,4296 1 14,4296 75,05 5,82E-06
Residual 1,9227 10 0,1923
Total 16,3523 11

Regression output confidence interval


std. t 95% 95%
variables coefficients error (df=10) p-value lower upper
intercept 0,0217 0,3027 0,072 ,9442 -0,6528 0,6963
5,82E-
X 0,6353 0,0733 8,663 06 0,4719 0,7987
12.7. Análisis de regresión lineal múltiple
En capítulos anteriores tratamos el análisis de regresión simple que trata de relacionar una
variable explicativa cuantitativa con una variable respuesta cuantitativa. Todos los
elementos de ese capítulo nos van a servir ahora para continuar con el caso más general y

168
de mayor utilidad práctica, que es la regresión lineal múltiple. Por regresión lineal múltiple
entenderemos el análisis de regresión lineal pero ahora con más de una variable explicativa.

a) Datos para regresión múltiple


Los datos para regresión lineal simple consisten en pares de observaciones (xi, yi) de dos
variables cuantitativas. Ahora tendremos múltiples variables explicativas, por lo que la
notación será más elaborada. Llamaremos xij el valor de la j-ésima variable del i-ésimo
sujeto o unidad (i=1,2,...,n ; j=1,2,...,p). Los datos se pueden organizar de la siguiente forma
en una base:
1 x11 x12 ... x1p y1
2 x21 x22 ... x2p y2
:
n xn1 xn2 ... xnp yn
Donde n es el número de casos o tamaño muestral y p es el número de variables
explicatorias. Esta es una forma de organizar la base de datos, no importa el orden de las
variables.

Modelo de regresión lineal múltiple:

El modelo estadístico de regresión lineal múltiple es:

yi   0   1 xi1   2 xi 2     p xip   i
para i= 1, 2, ...,n

La respuesta media  y  E (Y ) es una función lineal de las variables explicatorias:

 y   0   1 x1   2 x2     p x p

Las desviaciones  i son independientes y normalmente distribuidas con media 0 y


desviación estándar :  i ~ N (0,  2 )

Los parámetros del modelo son:  0 ,  1 , ,  p y , los coeficiente de regresión y la


estimación de la variabilidad, es decir son en total (p + 2) parámetros.

Si suponemos que la respuesta media está relacionada con los parámetros a través de la
ecuación:  y   0   1 x1   2 x 2     p x p , esto quiere decir que podemos estimar la
media de la variable respuesta a través de la estimación de los parámetros de regresión. Si
esta ecuación se ajusta a la realidad entonces tenemos una forma de describir cómo la
media de la variable respuesta “y” varía con las variables explicatorias x1 , x 2 , , x p .

169
b) Estimación de los parámetros de regresión múltiple.

En regresión lineal simple usamos el método de mínimos cuadrados para obtener


estimadores del intercepto y de la pendiente. En regresión lineal múltiple el principio es el
mismo, pero necesitamos estimar más parámetros.

Llamaremos b0 , b1 , , b p a los estimadores de los parámetros  0 ,  1 , ,  p

La respuesta estimada por el modelo para la i-ésima observación es:


   
yˆ i   0  1 xi1   2 xi 2     p xip
El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha:
residuo = y observado  yˆ estimado
El i-ésimo residuo = ei  yi  yˆ i

    

ei  y i    0  1 xi1   2 xi 2     p xip 
 

El método mínimos cuadrados elige los valores de los estimadores b0 , b1 , , b p óptimos,


es decir, que hacen la suma de cuadrados de los residuos menor posible. En otras palabras,
   
los parámetros estimados  0  1  2     p minimizan la diferencia entre la respuesta

y  yˆ i  .
2
observada y la respuesta estimada, lo que equivale a minimizar: i

La fórmula de los estimadores de mínimos cuadrados para regresión múltiple se complica


porque necesitamos notación matricial, sin embargo estamos a salvo si entendemos el
concepto y dejaremos a SPSS hacer los cálculos.

El parámetro  2 mide la variabilidad de la respuesta alrededor de la ecuación de


regresión en la población. Como en regresión lineal simple estimamos  2 como el
promedio de los residuos al cuadrado:

s 2
 ˆ 
2 e
2
i

 y i  yˆ i 
2

n  p 1
n  p 1
y x

La cantidad (n-p-1) son los grados de libertad asociados con la estimación de la

variabilidad: s y2 x
s y2 / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las
variables explicatorias xj.

170
 y  yi 
2


2 i
Lo distinguimos de s que es la variabilidad de y sin tomar en cuenta las
n 1
y

variables explicativas xj.

c) Pruebas de significancia e Intervalos de confianza para los coeficientes de regresión


Podemos obtener intervalos de confianza y test de hipótesis para cada uno de los
coeficientes de regresión  j como lo hicimos en regresión simple. Los errores estándar de
los estadísticos muestrales b0 , b1 , , b p tienen fórmulas más complicadas, así es que
nuevamente dejaremos que SPSS haga su trabajo.

Test de hipótesis para  j :


H0 :  j  0
Para docimar la hipótesis se usa el test t:
H1 :  j  0
bj
t ~ t (n  p  1)
EE(b j )
Donde EE (b j ) es el error estándar de b j

Notas:
- Vamos a dejar a SPSS el cálculo del error estándar de b j
- Tendremos entonces un test de hipótesis asociado a cada variable explicatoria en el
modelo.
- Podemos realizar hipótesis de una cola, donde H1:  j  0 o H1:  j  0 , pero lo
usual es hacer el test bilateral.

j
d) Intervalo de confianza para :
Un intervalo de confianza ( 1   )*100% para  j está dado por:

bj  t  (n  p  1) EE (b j )
1
2

donde t  es el percentil apropiado de la distribución t con (n-p-1) grados de libertad,


1
2

EE (b j ) es el error estándar de b j

171
e) Intervalos de confianza para la respuesta media e intervalos de predicción
individual:

Si queremos obtener intervalos de confianza para la respuesta media o intervalos de


confianza para futuras observaciones en los modelos de regresión múltiple, las ideas
básicas son las mismas que ya vimos en regresión simple y dejaremos el cálculo a SPSS.

Tabla de ANOVA para regresión múltiple

La tabla de análisis de varianza para la regresión múltiple es la siguiente:


gl SC CM
Fuente de variación Grados de libertad Suma de Cuadrados Cuadrados Medios

Modelo p SCMod   ( yˆ  y ) 2 SCMod


p
n
SC Re s
SC Re s   ( y i  yˆ i ) 2
Residuo n  p 1 i 1 n  p 1
n
SCT    y i  y 
2
Total n 1 i 1

La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son
ahora p en vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de
sólo una. Las sumas de cuadrados representan las fuentes de variación. Recordemos que la
suma de cuadrados total es igual a la suma de los cuadrados del modelo de regresión más la
suma de los cuadrados del residuo:
SCT = SCMod + SCRes

El estimador de la varianza  2 de nuestro modelo está dado por la media cuadrática


residual MCRes=SCRes/(n-p-1)
f) Estadístico F
La razón entre el cuadrado medio del modelo y el residuo F  MCMod MC Re s , permite
estimar si la relación entre las variables explicatorias y la respuesta es significativa. La
hipótesis que docima el test F es:

172
H 0 : 1   2     p  0
H 1 : al menos un  j no es cero

La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la
variable respuesta. La hipótesis alternativa dice que al menos una de las variables
explicatorias está linealmente relacionada con la respuesta. Como en regresión simple,
valores grandes de F nos dan evidencia en contra de hipótesis nula. Cuando H0 es
verdadera, el estadístico F tiene distribución F de Fisher con (p, n-p-1) grados de libertad.
Los grados de libertad están asociados a los grados de libertad del modelo y del residuo en
la tabla ANOVA.
Recordemos que en regresión lineal simple el test F de la tabla ANOVA es equivalente al test t
bilateral para la hipótesis de que la pendiente es cero. Ahora, el test F de regresión múltiple
docima la hipótesis de que todos los coeficientes de regresión (con excepción del intercepto)
son cero, hipótesis que no es de mucho interés. En el problema de regresión múltiple interesan
más las hipótesis individuales para cada parámetro asociado a cada variable explicatoria.

g) Coeficiente de determinación (R2)


En regresión lineal simple vimos que el cuadrado del coeficiente de correlación era
SCReg y se podía interpretar como la proporción de la variabilidad de “y” que podía
r2 
SCTotal
ser explicada por “x”. Un coeficiente similar se calcula en regresión múltiple:

R 
2 SCMod

 ( yˆ  y ) 2

y  y
2
SCTotal i

Donde R2 es la proporción de la variabilidad de la variable respuesta “y” que es explicada


por las variables explicatorias x1 ,x 2 , ,x p en la regresión lineal múltiple.
A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raíz cuadrada de R2
es el coeficiente de correlación múltiple, es la correlación entre las observaciones yi y los
valores predichos ŷi .

Ejemplo
Los datos provienen de un estudio de consumo de helado que abarcó las primaveras y
veranos de tres años. El consumo de helados de midió en pintas per cápita por semana, el
precio del helado en dólares, el ingreso familiar de los consumidores en dólares por
semana y la temperatura en grados Fahrenheit.
Consumo: Y 0.386 0.374 0.393 0.425 0.406 0.344 0.327 0.288 0.269 0.256
Precio: X1 1.35 1.41 1.39 1.40 1.36 1.31 1.38 1.34 1.33 1.39
Ingreso:X2 351 356 365 360 342 351 369 356 342 356

173
Temperatura:X3 41 56 63 68 69 65 61 47 32 24

Utilizando EXCEL realizar un análisis de correlación y regresión lineal múltiple.

Resumen

Tabla 1
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,818538824
Coeficiente de determinación R^2 0,670005806
R^2 ajustado 0,505008709
Error típico 0,04207347
Observaciones 10

174
Tabla 2: análisis de varianza para el contraste global de los coeficientes
Suma de Promedio de Valor crítico
Grados de libertad cuadrados los cuadrados F de F
Regresión 3 0,021564539 0,00718818 4,06071269 0,068130513
Residuos 6 0,010621061 0,001770177
Total 9 0,0321856

Tabla 3: Contraste individual de los coeficientes


Superior
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95%
Intercepción 0,535670427 0,709074556 0,755450075 0,47857576 -1,199372507 2,270713361
Variable X 1 1,104708497 0,528910554 2,088648993 0,08175089 -0,189489007 2,398906
Variable X 2 -0,005300135 0,002415974 -2,19378822 0,07070473 -0,011211811 0,00061154
Variable X 3 0,003681166 0,001166714 3,155156486 0,01968554 0,000826319 0,006536013

175
Correlaciones entre variables

Figura 3: se muestra la correlación existente entre las variables temperatura,


ingreso, precio y consumo.

Tabla 4
Correlaciones entre variables
Consumo Precio Ingreso Temperatura
Correlación de 1 ,338 ,116 ,592
Pearson
Consumo
Sig. (bilateral) ,340 ,749 ,072
N 10 10 10 10
Correlación de ,338 1 ,567 ,180
Pearson
Precio
Sig. (bilateral) ,340 ,087 ,619
N 10 10 10 10
Correlación de ,116 ,567 1 ,585
Pearson
Ingreso
Sig. (bilateral) ,749 ,087 ,076
N 10 10 10 10
Correlación de ,592 ,180 ,585 1
Pearson
Temperatura
Sig. (bilateral) ,072 ,619 ,076
N 10 10 10 10

176
De la tabla 1 se puede observar una alta correlación entre las variables (dependiente e
independientes: 0.82). El 67% de la variación de la variable dependiente es explicado
por las variables independientes.
Con respecto al contraste global:

H 0 : 1   2     p  0
H 1 : al menos un  j no es cero

De la tabla 2 se puede observar el valor crítico F mayor que 0.05, por lo que se acepta
Ho, es decir no existe una relación lineal entre el consumo, precio, ingreso y
temperatura.
Con respecto a los contrastes individuales

De la taba 3 se puede observar que sólo la temperatura se relaciona con el consumo


(probabilidad < 0.05), los otros coeficientes no son estadísticamente significativos
(probabilidad > 0.05).
Observando la tabla de correlaciones, ninguna de las variables se encuentran
correlacionadas (Sig>0.05).
En conclusión se podría decir que no existe una relación entre el consumo, precio,
ingreso y temperatura.

177
PROBLEMAS PROPUESTOS

En los ejercicios que se presenta a continuación, se pide:


1. Realizar un análisis de correlación
2. Si las variables esta correlacionadas, realizar una análisis de regresión.
3. Interpretar el coeficiente de regresión
4. Interpretar el coeficiente de determinación

1. Se llevó a cabo un experimento para estudiar el efecto de cierto medicamento para


disminuir la frecuencia cardiaca en adultos. La variable independiente es la dosis en
miligramos del medicamento, y la variable dependiente es la diferencia entre la
frecuencia cardiaca más baja después de la administración del medicamento y un control
antes de administrarlo. Se reunieron los siguientes datos:
Dosis (mg) : 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75
Reduc. R.C(latidos /min): 10 8 12 12 14 12 16 18 17 20

2. Para una muestra de 10 personas disponemos de información respecto a su grado de


extroversión, y se desea evaluar su posible relación lineal con la dimensión de
personalidad estabilidad emocional. Ambas variables se han medido con un test y se han
obtenido las puntuaciones para cada sujeto en una escala de 0 a 10. Los valores
obtenidos se presentan en la siguiente tabla:
Sujetos X: Grado de Y: Estabilidad Emocional
Extroversión
1 5 6
2 10 6
3 4 3
4 7 8
5 6 6
6 5 3
7 4 5
8 4 9
9 4 10
10 3 9

3. Los siguientes datos se relacionan con Y: Ventas anuales en miles de dólares de un


determinado producto y X: Número de veces de publicidad en el año .Los datos son los
siguientes:
X 13 16 14 11 17 9 13 17 18 12
Y 6.2 8.6 7.2 4.5 9.0 3.5 6.5 9.3 9.5 5.7

178
4. Una empresa de mecánica industrial, tiene información de 10 meses, y quiere
determinar si existe alguna relación entre el gasto mensual en miles de dólares y el
número de piezas fabricadas. Y: Gasto mensual y X: número de piezas fabricadas. Los
datos se presentan a continuación:
Y 191 170 272 155 280 173 234 116 153 178
X 40 42 53 35 56 39 48 30 37 40

5. Se tiene la hipótesis de que el número de expedientes tramitados esta en relación a


los años de experiencia del secretario de juzgado. Se tomó una muestra de 10 secretarios
de juzgado y durante 15 días de trabajo, se obtuvieron los siguientes datos:
N° Exp. 4 9 10 14 4 12 20 3 17 15
tramitados
Años de 5 10 8 12 6 14 18 4 15 20
experiencia

6. Un consultor de una corporación, está interesado en el grado de precisión con que


un nuevo índice de desempeño laboral mide. Una forma de verificación es analizando
la relación entre el índice de evaluación en el trabajo (X) y el salario del empleado
(Y). Se tomó una muestra de ocho empleados y se recabo información del salario y el
índice de evaluación en el trabajo (1 a 10, donde 10 es la mejor calificación).
X 9 7 8 4 7 5 5 6
Y 2600 2500 2300 1500 2400 1800 1700 2200

7. En el 2011 se publicó un trabajo “Diseñando plantas en climas difíciles” en la


revista Field Crops Research, los datos usados en la investigación son:
Duración 92 92 96 100 102 102 106 106 121 143
Rendimiento 1.7 2.3 1.9 2.0 1.5 1.7 1.6 1.8 1.0 0.3
Con x = la duración de la cosecha de porotos de soya en días, y = rendimiento de la
cosecha en toneladas por hectárea. Estime el rendimiento si la duración de la cosecha fue
de 104 días

8. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente
intelectual (CI en puntos), depende del número de hermanos. Toma una muestra
aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la
salida adjunta.
CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90
Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6

179

S-ar putea să vă placă și