Introduccion A La Inferencia Estadistica

“Año de la consolidación del mar de Grau
Universidad Nacional de Ucayali
Facultad de Derecho y Ciencias Políticas
TEMA : INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
CURSO : ESTADÍSTICA BÁSICA
PROFESOR : FRANCISCO RENGIFO SILVA
CICLO : II
GRUPO :B
ALUMNOS : DÁVILA LAZARO EFRAIN ALBERTO
NAJAR CARDENAS LIAN MÍA
SALDAÑA PEZO INGRID SOLEDAD
SORIA GARCIA CINTHYA THALIA
TORRES ZUÑIGA RUBEN HANS
VILCHEZ GOMEZ JOSÉ LUIS
PUCALLPA – 2016
DEDICATORIA
Quiero dedicarle este trabajo.
A Dios que me da vida, a mi maestro por los
conocimientos que nos imparte, para lograr mis
metas en mis estudios profesionales y nuestros
padres por su apoyo incondicional.
2
INDICE
DEDICATORIA ................................................................................................... 2
INDICE ............................................................................................................... 3
6. INTRODUCCION A LA INFERENCIA ESTADISTICA ................................. 4
6.1. Estimación de parámetros ........................................................................ 5
6.1.1. Estimación puntual ................................................................................ 7
6.1.2. Estimación por intervalos ...................................................................... 9
6.1.2.4. Intervalos para la diferencia de medias poblacionales ..................... 14
6.1.2.5. Intervalos de confianza para la diferencia de medias ...................... 19
6.1.2.6. Intervalo de confianza para la diferencia de proporciones

poblacionales ................................................................................................... 22
6.2. Prueba de hipótesis ................................................................................ 23
6.2.1. Prueba de hipótesis para la media poblacional ................................... 24
6.2.2. Prueba de hipótesis para la proporción poblacional ............................ 27
6.2.3. prueba de hipótesis para la diferencia de medias poblacionales ........ 31
6.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con

observaciones variadas .................................................................................... 33
6.2.5. Prueba de hipótesis para la diferencia de proporciones poblacionales35
6.3. Análisis de regresión lineal simple.......................................................... 37
6.3.1. Elección de una relación funcional ...................................................... 42
6.3.2. El método de los mínimos cuadrados ordinarios ................................. 43
6.4. Análisis de correlación lineal simple ....................................................... 45
6.5. Prueba de independencia ....................................................................... 48
ANEXOS .......................................................................................................... 52
3
6. INTRODUCCION A LA INFERENCIA ESTADISTICA
La inferencia estadística es, realmente, la parte más interesante y con

mayor cantidad de aplicaciones en problemas concretos. ¿De qué se
ocupa? El planteo, a grandes rasgos, es más o menos el siguiente: el
investigador se encuentra estudiando una gran población (personas, o
tornillos, o palomas, o automóviles, o lo que sea) y quiere disponer de
algunos valores (promedios, desvíos, tendencias, forma de la distribución,
etcétera) que sean válidos en forma general, para toda la población en
estudio. Sin embargo, le resulta imposible acceder a toda la información,
medir la variable analizada en todos y cada uno de los integrantes de la
población.
¿Qué hace?. Apela al estudio de muestras, que son subconjuntos de la

población original, con menos elementos, pero que intentan representarla
del modo más fiel posible. En algún sentido puede decirse que una
muestra seleccionada honestamente es un “modelo reducido a escala” de
la población. Por supuesto, al tomar la muestra siempre se producen
errores y se pierden detalles, pero es mucho más lo que se gana respecto
a la información que ella puede proporcionar.
Existen numerosas técnicas para seleccionar muestras. Este paso es de

importancia vital en un estudio estadístico, porque las conclusiones que
se obtienen dependen muy esencialmente de la/s muestra/s analizada/s.
Las técnicas que proporcionan las mejores muestras son las aleatorias,
en las que cualquier integrante de la población tiene la misma probabilidad
de ser elegido.
La cantidad de elementos que integran la muestra (el tamaño de la

muestra) depende de múltiples factores, como el dinero y el tiempo
disponibles para el estudio, la importancia del tema analizado, la
4
confiabilidad que se espera de los resultados, las características propias
del fenómeno analizado, etcétera.
A partir de la muestra seleccionada se realizan algunos cálculos y se

estima el valor de los parámetros de la población tales como la media, la
varianza, la desviación estándar, o la forma de la distribución, etcétera.
Existen dos formas de estimar parámetros: la estimación puntual y la
estimación por intervalo de confianza. En la primera se busca, con base
en los datos muestrales, un único valor estimado para el parámetro. Para
la segunda, se determina un intervalo dentro del cual se encuentra el valor
del parámetro, con una probabilidad determinada.
Ejemplo
Si se dice que la media de las alturas de los estudiantes varones del I.E.S.
Nº9-OO8 “Manuel Belgrano” es de 1,77 m
( =1,77m), se está dando una estimación
puntual. En cambio, si se dice que la media de las alturas es de 1,77m
6.1. Estimación de parámetros
Los parámetros son medidas descriptivas de toda una población.

Sin embargo, sus valores por lo general se desconocen, porque es
poco factible medir una población entera. Por eso, usted puede
tomar una muestra aleatoria de la población para obtener
estimaciones de los parámetros. Un objetivo del análisis estadístico
es obtener estimaciones de los parámetros de la población, junto
con la cantidad de error asociada con estas estimaciones. Estas
estimaciones se conocen también como estadísticos de muestra.
Una línea de distribución ajustada es una curva que se basa en las
estimaciones de los parámetros en lugar de los valores reales de
los parámetros.
Estimador.
5
Por ejemplo: es un posible estimador de µ.
µ=θ
: : Estimador puntual de µ, porque al evaluarlo para una muestra es

concreto, da un solo número o punto.
: Estimación puntual de µ.
Otros Parámetros de Interés:
P: Proporción Poblacional (proporción binomial).
“Proporción de elementos con cierta característica de interés en un

universo dado.”
= Estimador puntual de P.
X: Nº de elementos en la muestra con característica de interés.
σ2 : Varianza Poblacional.
6
6.1.1. Estimación puntual
Si a partir de las observaciones de una muestra se calcula un solo valor

como estimación de un parámetro de la población desconocido, el
procedimiento denomina estimación puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller
en la asignatura de matemáticas que notaremos . Sea X la variable
aleatoria que indica la nota obtenida por cada estudiante. Tomamos una
muestra de tamaño n y denotamos la nota media de la muestra. Si al

tomar una muestra de 100 estudiantes obtenemos que la media es 6´2,
este número lo tomaríamos como estimativo de . Decimos que 6´2 es
una estimación puntual de .
Un estimador puntual T de un parámetro es cualquier estadística que

nos permita a partir de los datos muéstrales obtener valores aproximados
del parámetro .
Para indicar que T es un estimador del parámetro escribimos =T.

Con esto queremos decir que empleamos la expresión dada mediante T
para obtener valores próximos al valor del parámetro.
Es muy probable que haya error cuando un parámetro es estimado. Es
cierto que si el número de observaciones al azar se hace suficientemente
grande, éstas proporcionarían un valor que casi sería semejante al
parámetro; pero a menudo hay limitaciones de tiempo y de recursos y se
tendrá que trabajar con unas cuántas observaciones. Para poder utilizar
la información que se tenga de la mejor forma posible, se necesita
identificar las estadísticas que sean “buenos” estimadores. Hay cuatro
criterios que se suelen aplicar para determinar si una estadística es un
buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia
EJEMPLO
Estimador puntual de σ.
7
µ1 - µ2: Diferencia de dos medias poblacionales.
Estimador puntual de µ1 - µ2.
Diferencia entre las medias de dos muestras aleatorias independientes.
P1 – P2
Estimador puntual para P1 – P2
Diferencia entre dos proporciones muéstrales, basadas en dos muestras

aleatorias independientes.
Razón de dos varianzas poblacionales.
Estimador puntual de
Sea X una variable aleatoria con media µ desconocida y varianza σ 2.
X1, X2,…, Xn m. a. de tamaño n.
θ=µ
= f (X1, X2,…, Xn)
Estimadores posibles para µ

8
6.1.2. Estimación por intervalos
La estimación por intervalos consiste en establecer el intervalo de valores

donde es más probable se encuentre el parámetro. La obtención del
intervalo se basa en las siguientes consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener

las probabilidades de ocurrencia de los estadísticos muéstrales.
b) Si conociéramos el valor del parámetro
poblacional, podríamos establecer la probabilidad de que el estimador
se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello
el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo alrededor
de cada valor del estadístico muestral, el parámetro se sitúa dentro de
cada intervalo en un porcentaje conocido de ocasiones. Este intervalo
es denominado "intervalo de confianza".
Ejemplo
Una empresa de investigación llevó a cabo una encuesta para

determinar la cantidad media que los fumadores gastan en cigarrillos
durante una semana. La semana encontró que la distribución de
cantidades gastadas por semana tendía a seguir una distribución
9
normal, con una desviación estándar de $5. Una muestra de de 64
fumadores reveló que = $20.
a)¿Cuál es el estimador de intervalo de confianza de 95% para la μ?
1 - .9500 = .0500 . 0500 ÷ 2 = .0250

𝑧 = ±1.96
𝜎
±𝑧 𝑛
√
5
20 ± 1.96 20 − 1.225 = 18.77
√64
5
20 ± 1.96 8
20 + 1.225 = 21.25
95%
n = 64 = 20 σ= 5 N.C = 95% = .9500
20 ± 1.96 × .625 Intervalo de confianza 18.77 20 21.25
20 ± 1.225 18.77 − 21.25
6.1.2.1. Intervalo de confianza para la media poblacional

6.1.2.2.
Supongamos que la estatura de los niños de 2 años está distribuida normalmente

con una media de 90 cm y una desviación estándar de 36 cm. ¿Cuál sería la
distribución muestral de la media para una muestra de tamaño 9? Recordemos
que la media de una distribución muestral de medias es igual a μ :
Y el error estándar es:
Para nuestro ejemplo, la distribución muestral de la media tendría una media de

90 y una desviación estándar de 36/3 = 12. Recordemos que la desviación
estándar de una distribución muestral es igual al error estándar. Intervalos de
confianza para la media μ = μ x Y el error estándar es: La siguiente figura muestra
esta distribución en donde el área sombreada representa el 95% del total,
encontrándose entre los valores de 66.48 y 113.52. Estos límites fueron
10
calculados añadiendo y restando 1.96 desviaciones estándar del valor de la
media de 90, lo que equivale al 95% del área bajo una curva normal estándar,
es decir:
90 - (1.96 x 12) =
90 - 23.52 = 66.48
90 + (1.96 x 12) =
90 + 23.52 = 113.52
Lo que nos muestra la figura es que 95% de las medias se encontrarían a no

más de 23.52 de la media de 90 (o sea a 1.96 desviaciones estándar). Ahora si
consideramos la probabilidad de que la media de una muestra aleatoria se
encuentre a cierta distancia de la media de la población, entonces podemos decir
que como 95% de la distribución está a 23.5 de 90, la probabilidad de que la
media de cualquier muestra esté a 23.52 de 90 es de 0.95. 95% del área. 23.52
Lo anterior significa que si calculamos repetidamente la media de una muestra,
y consideramos un intervalo que vaya de - 23.52 a + 23.52, este intervalo
contendrá a la media de la población 95% de las veces. En general, podemos
calcular el intervalo de confianza con la siguiente fórmula:
Donde z es el valor de la curva estándar normal para la confianza que se

requiere. En el caso de 95% de confianza:
11
De esta fórmula se puede observar que tanto el tamaño de la muestra como el
valor de σ se deben conocer. Z se puede obtener de la tabla de la distribución
n = 400 x = 300 p = x/n = 300/400 = 0.75 N.C = 99%

normal a partir del nivel de confianza establecido. Como en muchas ocasiones
se desconoce σ en esos casos lo correcto es utilizar otra distribución para
muestras (la llamada “t” de student que veremos en la siguiente sesión) si la
población de donde provienen los datos es normal. En este caso se puede utilizar
una estimación puntual de la desviación estándar de la población por medio de
la desviación estándar de la muestra, es decir (σ ~ s).
EJEMPLO
María Wilson considera postularse para la alcaldía de la ciudad de Bear Gulch,

Montana. Antes de solicitar la postulación, decide realizar una encuesta entre los
electores de Bear Gulch. Una muestra de de 400 electores revela que 300 la
apoyarían en las elecciones de noviembre. Construya un intervalo de confianza
del 99% para la proporción poblacional.
1 - .9900 = .0100 . 0100 ÷ 2 = .0050 𝒛 = ±𝟐. 𝟓𝟖

𝑝 (1−𝑝)
p ± 𝑧√ 𝑛
.75(1−.75)
. 75 ± 2.58√ 400
.75 ± 2.58 (.01875) .75 − .0483 = .7017
.1875
. 75 ± 2.58√ .75 ± .0483 .75 + .0483 = .7983
400
Intervalo de confianza = . 𝟕𝟎𝟏𝟕− . 𝟕𝟗𝟖𝟑
6.1.2.3. Intervalos de confianza para la proporción poblacional
Un estimador puntual de la proporción P en un experimento binomial está dado

por la estadística P=X/N, donde X representa el número de éxitos en N pruebas.
Por tanto, la proporción de la muestra p=x/n se utilizará como estimador puntual
12
del parámetro P. Si no se espera que la proporción P desconocida esté
demasiado cerca de 0 ó de 1, se puede establecer un intervalo de confianza para
P al considerar la distribución muestral de proporciones.
Considerando el valor z para la distribución de proporciones
Si intentamos despejar el valor de P nos encontramos con que
Pero ¿cómo podemos encontrar P si también está del lado derecho de la

ecuación? Lo que haremos es aproximar la proporción de la población por la de
la muestra, es decir sustituir P por la proporción de la muestra p siempre y
cuando el tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0

ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable ya que realmente se debería emplear la distribución binomial, por tanto,
no se debe utilizar. Para estar seguros, se debe requerir que np y n(1-p) sea
mayor o igual a 5. El error de estimación será la diferencia absoluta entre p y P,
y podemos tener el nivel de confianza de que esta diferencia no excederá el valor
de
EJEMPLO
13
Realice el ejercicio si se toma una muestra de 200 hojas y con consideraciones
de desviación estándar y media poblacional idénticas? Considérese un intervalo
de confianza del 95%.
𝜎
El error estándar es 𝜎𝑋̅ = =
√𝑛
100%−95% 𝛼
Las colas: = 2.5%. Equivalente al área A = 0.025 =
2 2
𝛼 INTERVALO DE CONFIANZA
A= = 0.025
2
𝑍1 𝑍2
11
Halamos el valor de 𝑍1 = 𝑍2 =
𝜎
𝑋̅𝑖−𝑠 = 𝑋̅ ± 𝑍𝑖−𝑠
√𝑛
Si reemplazamos cada una de las variables, hallamos los límites del intervalo:
𝜎
Para 𝑍1 = Hallemos el límite inferior 𝑋̅𝑖 = 𝑋̅ − 𝑍1
√𝑛
𝜎
Para 𝑍2 = Hallemos el límite inferior 𝑋̅𝑠 = 𝑋̅ + 𝑍2
√𝑛
6.1.2.4. Intervalos para la diferencia de medias poblacionales
En ocasiones interesa definir un intervalo de valores tal que permita establecer

cuáles son los valores mínimo y máximo aceptables para la diferencia entre las
medias de dos poblaciones. Pueden darse dos situaciones según las muestras
sean o no independientes; siendo en ambos casos condición necesaria que las
poblaciones de origen sean normales o aproximadamente normales:
 MUESTRAS INDEPENDIENTES
14
Si puede suponerse que las varianzas de ambas poblaciones son iguales, el
intervalo de confianza para la diferencia de medias poblacionales está centrado
en la diferencia de las medias muestrales, siendo sus límites superior e inferior:
t /2 es el valor crítico correspondiente al grado de confianza 1- de la

distribución t de Student con n1+ n2-2 grados de libertad y
es una estimación de la desviación típica común a ambas poblaciones obtenida

a partir de las varianzas de las dos muestras. En la práctica si n1 y n2 son
moderadamente grandes, el valor crítico
t /2 se aproxima, como ya se ha visto anteriormente, a los valores de la

distribución normal.
Si las varianzas poblacionales no pueden suponerse iguales los límites del

intervalo de confianza son:
El valor crítico t /2 corresponde a una distribución t cuyos grados de libertad se

calculan en base a ambos tamaños muestrales y a las desviaciones típicas de
cada grupo según la corrección propuesta por Dixon y Massey:
Para obtener el intervalo de confianza en ambos casos la secuencia es:

Analizar
15
Comparar medias
Prueba T para muestras independientes
En el cuadro de diálogo hay que seleccionar en Contrastar variables la variable

objeto de análisis e indicar la Variable de agrupación junto con el criterio
para Definir grupos (las dos poblaciones).
Los grupos pueden definirse en función de una variable cuantitativa o de una

cualitativa. Si la variable de agrupación presenta sólo dos valores o modalidades,
entonces se debe seleccionar Usar valores especificados e indicar la modalidad
que define el grupo 1 y la del grupo 2. Si la variable tiene más de 2 valores o
modalidades se elige la opción Punto de corte indicando el valor de la variable
que induce una partición en dos grupos, uno de los cuales estará formado por
todos los casos con valores menores que el especificado y el otro por el resto de
casos.
Al aceptar se obtienen:
16
- resultados de la prueba de Levene para contrastar la igualdad de
varianzas *
- resultados de la prueba T para contrastar la igualdad de medias
- intervalo de confianza para la diferencia de medias al 95% por defecto.
Si se quiere cambiar el grado de confianza del intervalo, antes de aceptar hay

que modificarlo con el botón Opciones.
 MUESTRAS DEPENDIENTES.
En este caso las muestras están formadas por parejas de valores, uno de cada
población y el estadístico se obtiene a partir de las diferencias de los valores de
las dos variables correspondientes a cada caso o di que se define como di= xi-
yi.
Para contrastar la hipótesis de igualdad de medias y obtener el intervalo de

confianza la secuencia es:
Analizar
Comparar medias
Prueba T para muestras independientes
17
Las variables se deben seleccionar por parejas. Haciendo clic sobre las variables
de la lista aparecen sus nombres en el cuadro Selecciones actuales; una vez
seleccionadas las dos variables se trasladan al recuadro Variables
relacionadas de la forma habitual. En cada sesión se pueden seleccionar tantos
pares de variables como medias se quieran comparar.
Al aceptar se obtienen para cada par de variables, los siguientes resultados:
- Media, desviación tipo y error típico de la media de las di.
- Intervalo de confianza, por defecto al 95%, para la diferencia de medias

poblacionales que viene dado por:
es el valor de la distribución t de Student con n-1 grados de

libertad que deja por encima una probabilidad de /2.
- Estadístico t del contraste (contraste de dos colas).
Un artículo publicado dio a conocer los resultados de un análisis del peso de

calcio en cemento estándar y en cemento contaminado con plomo. Los niveles
bajos de calcio indican que el mecanismo de hidratación del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de
cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso
promedio de calcio es de 90 con una desviación estándar de 5; los resultados
obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en
promedio con una desviación estándar de 4. Supóngase que el porcentaje de
peso de calcio está distribuido de manera normal. Encuéntrese un intervalo de
confianza del 95% para la diferencia entre medias de los dos tipos de cementos.
Por otra parte, supóngase que las dos poblaciones normales tienen la misma
desviación estándar.
Solución:
El estimador combinado de la desviación estándar es:
18
Al calcularle raíz cuadrada a este valor nos queda que sp = 4.41
expresión que se reduce a – 0.72 1- 2 6.72
Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente,
para este nivel confianza, no puede concluirse la existencia de una diferencia
entre las medias.
6.1.2.5. Intervalos de confianza para la diferencia de medias
Sean 11 x , 12 x , ... 1 n 1 x , una muestra aleatoria de n 1 observaciones tomadas

de una primera población con valor esperado μ1 , y varianza 2 σ 1 ; y 21 x , 22 x
, ... 2 n 2 x , una muestra aleatoria de n 2 observaciones tomada de la segunda
población con valor esperado μ 2 y varianza 2 σ 2 . Si x 1 y x 2 son las medias
muestrales, la estadística x 1 − x 2 es un estimador puntual de μ1 − μ 2 , y tiene
una distribución normal si las dos poblaciones son normales, o aproximadamente
normal si cumple con las condiciones del teorema del límite central (tamaños de
muestras relativamente grandes). Por lo tanto
19
Para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso
de que sean desconocidas, se debe probar si son igual es o diferentes. Cada
uno de estos tres casos se analizarán por separado Varianzas conocidas pero
diferentes, σ 1 2 ≠ σ Si las varianzas poblacionales son conocidas y diferentes,
los pasos a seguir para encontrar el intervalo de confianza son los siguientes: a)
El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ
2, será T = x 1 − x 2, que es un estimador suficiente b) La variable aleatoria
asociada con el estimador será la variable normal estándar dada por:
c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de

confianza que se quiere considerar. Teorema. Si x1 − x2 son las medias de dos
muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones
que tienen varianzas conocidas 2 σ 1 y 2 σ 2 , respectivamente, entonces el
intervalo de confianza para μ1 − μ 2 es:
EJEMPLO
Una muestra de 150 bombillos de la marca A mostró un tiempo de vida media de

1, 400 horas y una desviación estándar de 120 horas. Una muestra de 200
bombillos de la marca B mostró un tiempo de vida media de 1, 200 horas y una
20
desviación estándar de 80 horas. Encontrar los límites de confianza de 95%,
para la diferencia de los tiempos de vida media de las poblaciones de la marca
A y B. Para un nivel de confianza de 95%.
Solución:
Marca A Marca B
n1 = 150 bombillos n1 = 200 bombillos
̅1 = 1.400 horas
𝒙 𝑥̅ 1 = 1.200 horas
𝜹𝟏 = 120 horas 𝛿1 = 80 horas
α = 0.05
α/2 α/2
0.95
0.025 0.025
-Z = -1.96 Z = 1.96
1202 802
− 𝜇𝐵 = 𝑃 (1.400 –1.200) ± 1.96 √ 150 +
𝜇𝐴̂ 200
= 200 ± 1,96 * 11,31

= 200 ± 22,16
177,8 < 𝜇𝐴 ̂
− 𝜇𝐵 < 222,16
Interpretación:
La diferencia de los tiempos de vida media de las poblaciones de la marca A y

B oscila entre 177,8 y 222,16 para un nivel de confianza de 95%.
21
6.1.2.6. Intervalo de confianza para la diferencia de proporciones
poblacionales
Sea X1, X2,..., Xn1 una muestra aleatoria extraída de una población Bernoulli. Sea
X la variable Binomial definida como el número de éxitos en esta muestra y con
parámetro π1, proporción poblacional de éxitos.
Sea Y1, Y2,..., Yn2 una muestra aleatoria extraída de una población Bernoulli. Sea
Y la variable Binomial definida como el número de éxitos en esta muestra y
tomemos a π2 como la proporción de éxitos en esta otra población. Supongamos
que ambas muestras son independientes.
Si p1 y p2 son los estadísticos muestrales y definimos a = p1-p2 como el

estimador de la diferencia de proporciones poblacionales
θ = π1-π2 entonces se debe cumplir que
Nota:
Si n1 y n2 son bastante grandes el radical se calcula usando los estadísticos de

la muestra; es decir, las proporciones muestrales.
EJEMPLO
1. Se desea estimar, por medio de un intervalo de confianza, la proporción p de

individuos daltónicos de una población a través del porcentaje observado en
una muestra aleatoria de individuos de tamaño n . Si el porcentaje de
individuos daltónicos en una muestra aleatoria es igual al 30%, calcule el valor
mínimo de n para que, con un nivel de confianza del 95%, el error que se
cometa en la estimación sea inferior a 0,031.
Solución: n  840 .
6.2. Prueba de hipótesis
Una prueba de hipótesis es una prueba estadística que se utiliza para determinar
si existe suficiente evidencia en una muestra de datos para inferir que cierta
condición es válida para toda la población.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población:
la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que
se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay
efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se
desea poder concluir que es verdadero.
Con base en los datos de la muestra, la prueba determina si se debe rechazar la

hipótesis nula. Para tomar la decisión se utiliza un valor p. Si el valor p es menor
que o igual al nivel de significancia, que es un punto de corte que usted define,
entonces puede rechazar la hipótesis nula.
Un error común de percepción es que las pruebas estadísticas de hipótesis están

diseñadas para seleccionar la más probable de dos hipótesis. En realidad, una
prueba mantendrá la validez de la hipótesis nula hasta que haya suficiente
evidencia (datos) en favor de la hipótesis alternativa.
EJEMPLO
En el problema de la prueba de hipótesis de los ejercicios 1 y 2, suponga que la

media muestral es 𝑋̅ = $240. Para determinar si se debe rechazar la hipótesis
nula, esta media se convierte a un valor Z y se compara con los valores críticos
± 1.96 como sigue:
𝜎𝑋̅ = 7.17 Según el ejercicio
23
𝑋̅ − 𝜇0 240 − 260 −20
𝑍= = = = −2.79
𝜎𝑋̅ 7.17 7.17
En el modelo para las pruebas de hipótesis, este valor de Z se encuentra en la

región de rechazo de la cola izquierda. Así la hipótesis nula se rechaza y se
acepta la hipótesis alternativa (H1 : μ ≠ $260.00 .
Observe que en el ejercicio 2 se llegara a la misma conclusión al comparar la

media muestral 𝑋̅ = $240 con los valores críticos para la media anteriormente
indicados.
𝑭(𝒁)
REGION DE REGION DE
RECHAZO RECHAZO
Región de aceptación
𝒁
-1.96 +1.96
6.2.1. Prueba de hipótesis para la media poblacional
Se utiliza una prueba de una muestra para probar una afirmación con respecto
a una media de una población única.
24
Nota: Se considera práctico utilizar la distribución t solamente cuando se
requiera que el tamaño de la muestra sea menor de 30, ya que para muestras
más grandes los valores t y z son aproximadamente iguales, y es posible
emplear la distribución normal en lugar de la distribución t.
EJEMPLO
Un gerente de ventas de libros universitarios afirma que en promedio sus
representantes de ventas realiza 40 visitas a profesores por semana. Varios de
estos representantes piensan que realizan un número de visitas promedio
superior a 40. Una muestra tomada al azar durante 8 semanas reveló un
promedio de 42 visitas semanales y una desviación estándar de 2 visitas. Utilice
un nivel de confianza del 99% para aclarar esta cuestión.
Datos:
 = 40
𝑥̅ = 42
n=8
𝑆=2
Nivel de confianza del 99%
Nivel de significación = (100%-99%)/2 = 0,5% = 0,005
25
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 =
𝑆
√𝑛
Solución:
H0:  = 40
H1:  > 40
Grados de libertad: n-1 = 8-1 =7
α = 0,005 ⟹ 𝑡𝑡𝑎𝑏𝑙𝑎 = 3,499
𝑥̅ − 𝜇 42 − 40 2
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = = = = 2,83
𝑆 2 0,7071
√𝑛 √8
H0 es aceptada, ya que tprueba (2,83) es menor que ttabla (3,499), por lo que no es
acertado pensar que están realizando un número de visitas promedio superior a
40.
26
En Excel
6.2.2. Prueba de hipótesis para la proporción poblacional
Cuando el objetivo del muestreo es evaluar la validez de una afirmación con

respecto a la proporción de una población, es adecuado utilizar una prueba de
una muestra. La metodología de prueba depende de si el número de
observaciones de la muestra es grande o pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de
medias y proporciones son bastante semejantes. De este modo, los
valores estadísticos de prueba miden la desviación de un valor estadístico de
muestra a partir de un valor propuesto. Y ambas pruebas se basan en la
distribución normal estándar para valores críticos. Quizá la única diferencia real
entre las ambas radica en la forma corno se obtiene la desviación estándar de la
distribución de muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z
27
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de
una tabla normal a un nivel de significación seleccionado.
Como ocurrió con la prueba de medias de una muestra, las pruebas de
proporciones pueden ser de una o dos colas.
La primera alternativa establece una prueba de cola derecha, la segunda,

izquierda y la tercera, una prueba de dos colas.
Ejemplo
En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe
esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa
de que la proporción real de los estudiantes universitarios trabajan es mayor de
28
lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela
que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.
Los datos son:
Como en los datos aparece el tamaño de la población, se debe verificar si el

tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente
fórmula:
Los cálculos en Excel se muestran en la siguiente figura:
29
El gráfico elaborado en Winstats y Paint se muestra a continuación:
Decisión:
30
6.2.3. prueba de hipótesis para la diferencia de medias poblacionales
La prueba de hipótesis para dos muestras es casi semejante a la prueba de

una sola muestra es decir que este capítulo se tomaran dos muestras
aleatorias para determinar si proviene de una misma población o a su vez de
poblaciones iguales.
Así mismo puedo entender que en el caso de que se den las dos poblaciones
iguales, se esperara que la media entre las dos medias muéstrales sea cero.
En el caso que existan poblaciones independientes, estas son iguales a la
suma de dos variables individuales.
Por ende las muestras deben ser suficientemente grandes para que la
distribución de las medias muéstrales siga una distribución normal.
Así mismo constituyo que para realizar una comparación de poblaciones con
muestras pequeñas es necesario tener en cuenta las siguientes
suposiciones: las dos muestras provienen de poblaciones independientes, de
igual manera las desviaciones estándar de las dos poblaciones son iguales,
así mismo las poblaciones muestreadas siguen una distribución normal.
Como consiguiente tenemos que el número de grados de libertad en la
prueba es igual al número total de elementos muestreados, menos el número
de muestras.
Existen casos en que las muestras no son independiente sino son
dependientes o que a su vez estas están relacionadas entre si
Por tal razón puedo entender que existen dos tipos de muestras
dependientes,
1.- las que se caracterizan por una medición, una intervención de cierto tipo
y está a su vez otra medición.
2.- existe una formación de pares de las observaciones correspondientes.
Para tener una idea más concreta formulare la existencia de una
comparación de las muestras independientes y dependientes.
Las muestra dependiente son aquellas que se caracteriza por una medición
seguida, por un intervalo de algún tipo y después otra medida. A esta también
se la puede llamar un estudio antes o después.
De la misma forma el segundo tipo de muestra dependiente se caracteriza
por la formación de pares de observaciones.
31
Como una conclusión de este capitulo es que es semejante al capitulo
anterior, ya que sus cambios son pocos y los procesos a seguir son los
mismos.
EJEMPLO
Lisa Monnin es directora de presupuesto en la empresa New Process
Company, desea comparar los gastos diarios de transporte del equipo de
ventas y del personal de cobranza. Recopiló la siguiente información
muestral ( importe en dólares).
Ventas ($) 131 135 146 165 136 142
Cobranza
($) 130 102 129 143 149 120 139
Al nivel de significancia de 0,10, puede concluirse que los gastos medios

diarios del equipo de ventas son mayores? cuál es el valor p?
32
6.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con
observaciones variadas
Cuando se desea probar la hipótesis de que las proporciones en dos poblaciones

no son diferentes, las dos proporciones muéstrales se emplean para determinar
el error estándar de la diferencia entre proporciones. La estimación conjunta de
la proporción poblacional, basada en las proporciones obtenidas en dos
muestras independientes, es:
𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2
𝜋̂ =
𝑛1 − 𝑛2
El error estándar de la diferencia entre proporciones que se usa para probar la

suposición de no diferencia es:
33
𝜋̂(1 − 𝜋̂) 𝜋̂(1 − 𝜋̂)
𝜎̂𝑝̂1 −𝑝̂2 = √ +
𝑛1 𝑛2
La hipótesis nula por probar es normalmente de la forma,
𝐻𝑜 : 𝜋1 = 𝜋2 ó 𝐻𝑜 : (𝜋1 − 𝜋2 ) = 0
Contra una hipótesis alternativa de uno o dos extremos.
La fórmula para obtener el estadístico 𝑧 para probar la hipótesis nula de que no

hay diferencia entre dos proporciones poblacionales es:
𝑝̂1 − 𝑝̂2
𝑧=
𝜎̂𝑝̂1 −𝑝̂2
Para que la diferencia de las proporciones muéstrales tenga una distribución

aproximadamente normal, los tamaños de las muestras deben ser grandes y las
proporciones no deben estar muy cerca de 0 𝑜 1.
EJEMPLO:
Una muestra de 50 familias de una comunidad muestra que 10 de ellas están

viendo un programa especial de televisión sobre la economía nacional. En una
segunda comunidad 15 familias de una muestra aleatoria de 50 están viendo el
programa especial de televisión, a continuación se prueba la hipótesis de que la
proporción general de televidentes en las dos comunidades no difiere, usando el
nivel de significancia de 1%:
𝐻𝑜 : (𝜋1 − 𝜋2 ) = 0 𝑜 𝑙𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡𝑒. 𝜋1 = 𝜋2

𝐻1 : (𝜋1 − 𝜋2 ) ≠ 0 𝑜 𝑙𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡𝑒. 𝜋1 ≠ 𝜋2
. 99
𝛼 = 1 − .01 = = .495
2
𝑍 = 2.57
𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2 50(. 20) + 50(.30) 10 + 15

𝜋̂ = = = = .25
𝑛1 + 𝑛2 50 + 50 100
34
𝜋̂(1 − 𝜋̂) 𝜋̂(1 − 𝜋̂) (. 25)(.75) (. 25). 75)
𝜎̂𝑝̂1 −𝑝̂2 = √ + =√ + = √. 00375 + .00375
𝑛1 𝑛2 50 50
= .087
𝑝̂1 − 𝑝̂ 2 . 20 − .30 −.10

𝑧= = = = −1.15
𝜎̂𝑝̂1 −𝑝̂2 . 087 . 087
0
-2.57 2.57
-1.15
El valor calculado para 𝑧 −1.15, está en la región de aceptación de la hipótesis

nula. Por lo tanto no se puede rechazar la hipótesis de que no hay diferencia en
la proporción de televidentes en las dos comunidades.
6.2.5. Prueba de hipótesis para la diferencia de proporciones

poblacionales
Para hacer inferencias estadísticas sobre dos poblaciones, se necesita

tener una muestra de cada población. Las dos muestras serán
dependientes o independientes de acuerdo a la forma de seleccionarlas.
Si la selección de los datos de una población no está relacionada con la
de los datos de la otra, son muestras independientes. Si las muestras se
seleccionan de manera que cada medida en una de ellas pueda asociarse
naturalmente con una medida en la otra muestra, se llaman muestras
dependientes. Cada dato sale de alguna fuente; una fuente es algo, una
persona o un objeto, que produce datos. Si dos medidas se obtienen de
35
la misma fuente, se puede pensar que las medidas están pareadas. En
consecuencia dos medidas que se obtienen del mismo conjunto de
fuentes son dependientes. Note que si dos muestras son dependientes,
entonces necesariamente tienen el mismo tamaño.
EJEMPLO
1. Diez hombres se sometieron a una dieta especial registrando sus pesos antes
de comenzarla y después de un mes de estar en ella. Los resultados de los
pesos, en libras, se muestran a continuación:
Hombre A B C D E F G H I J
Antes 181 172 190 186 210 202 166 173 183 184
Después 178 175 185 184 207 201 160 168 180 189
Haga una prueba con = 0.05 para determinar si la dieta logró alguna
diferencia, ya sea positiva o negativa. Calcule el valor de P.
Solución:
Ensayo de hipótesis:
Ho; A - D =0
H1; A - D 0
Regla de decisión:
Si –2.262 tc 2.262 No se rechaza Ho,
36
Si la tc < -2.262 ó si tc > 2.262 se rechaza Ho.
Cálculos:
Se procederá a calcular las diferencias de cada par:
Hombre A B C D E F G H I J
Antes 181 172 190 186 210 202 166 173 183 184
Después 178 175 185 184 207 201 160 168 180 189
Diferencia 3 -3 5 2 3 1 6 5 3 -5
Al calcular la media de las diferencias nos da 2 con una sd = 3.53.
Justificación y decisión:
Como 1.79 está entre los dos valores críticos de –2.262 y 2.262, por lo
tanto no se rechaza H0, y se concluye con un = 0.05 que no existe

evidencia estadística que apoye la efectividad de la dieta para variar el
peso.
Para calcular el valor de P se interpola entre 0.10 y 0.05, con 9 grados de

libertad obteniendo un área de 0.0574, pero como el ensayo es bilateral
este sería un valor de P/2, por lo tanto el valor de P = (2)(0.0574) = 0.1148
6.3. Análisis de regresión lineal simple

37
Para llevar a cabo un análisis de regresión simple con las especificaciones que el
programa tiene establecidas por defecto:
| Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al
cuadro de diálogo Regresión lineal que muestra la figura 18.4.
Figura 18.4. Cuadro de diálogo Regresión lineal.
| Seleccionar la variable salario en la lista de variables del archivo de datos y

trasladarla al cuadro Dependiente.
| Seleccionar la variable salini y trasladarla a la lista Independientes.
Con sólo estas especificaciones, al pulsar el botón Aceptar el Visor ofrece los resultados
que muestran las tablas 18.1 a la 18.3.
Bondad de ajuste
La primera información que obtenemos (tabla 18.1) se refiere al coeficiente de

correlación múltiple (R) y a su cuadrado. Puesto que sólo tenemos dos variables, el
coeficiente de correlación múltiple no es otra cosa que el valor absoluto del coeficiente
de correlación de Pearson entre esas dos variables (ver capítulo anterior). Su cuadrado
(R cuadrado) es el coeficiente de determinación:
( los residuos son las diferencias existentes entre las puntuaciones observadas y los
2
pronósticos obtenidos con la recta). Tal como hemos señalado ya, R expresa la
proporción de varianza de la variable dependiente que está explicada por la variable
independiente. En nuestro ejemplo (tabla 18.1), R toma un valor muy alto (su máximo
es 1); y R 2 nos indica que el 77,5 % de la variación de salario está explicada por salini.
Es importante resaltar en este momento que el análisis de regresión no permite afirmar
38
que las relaciones detectadas sean de tipo causal: sólo es posible hablar de grado de
relación. Tabla 18.1. Resumen del modelo.
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 ,880 ,775 ,774 $8,115.36
R cuadrado corregida es una corrección a la baja de R 2 que se basa en el número de

casos y de variables independientes:
(p se refiere al número de variables independientes). En una situación con pocos casos

y muchas variables independientes, R 2 puede ser artificialmente alta. En tal caso, el
valor de R 2 corregida será sustancialmente más bajo que el de R 2. En nuestro ejemplo,
2
como hay 474 casos y una sola variable independiente, los dos valores de R (el
corregido y el no corregido) son prácticamente iguales.
El error típico de la estimación (al que llamaremos Se) es la desviación típica

de los residuos, es decir, la desviación típica de las distancias existentes entre las
puntuaciones en la variable dependiente (Yi) y los pronósticos efectuados con la
recta de regresión aunque no exactamente, pues la suma de las distancias al
cuadrado están divididas por nn2:
Ecuación de regresión
La tabla 18.3 muestra los coeficientes de la recta de regresión. La columna etiquetada

Coeficientes no estandarizados contiene los coeficientes de regresión parcial que
definen la ecuación de regresión en puntuaciones directas.
Tabla 18.3. Coeficientes de regresión parcial.
Coeficientes no Coeficientes
estandarizados estandarizados
B Error típ. Beta t Sig.
(Constante) 1928,206 888,680 2,170 ,031
Salario inicial 1,909 ,047 ,880 40,276 ,000
El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo

que hemos llamado B0):
39
Y el coeficiente correspondiente a Salario inicial es la pendiente de la recta de regresión
(lo que hemos llamado B1):
B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada
unidad de cambio de la variable independiente (salini) . Según esto, la ecuación de
regresión queda de la siguiente manera:
Pronóstico en salario = 1928,206 + 1,909 salini
A cada valor de salini le corresponde un pronóstico en salario basado en un incremento

constante (1928,206) más 1,909 veces el valor de salini.
Coeficientes de regresión estandarizados
Los coeficientes Beta (coeficientes de regresión parcial estandarizados) son los

coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras
estandarizar las variables originales, es decir, tras convertir las puntuaciones directas
en típicas. Se obtiene de la siguiente manera:
En el análisis de regresión simple, el coeficiente de regresión estandarizado

correspondiente a la única variable independiente presente en la ecuación coincide
exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según
veremos, los coeficientes de regresión estandarizados permiten valorar la importancia
relativa de cada variable independiente dentro de la ecuación.
Pruebas de significación
Finalmente, los estadísticos t y sus niveles críticos (Sig.) nos permiten contrastar
las hipótesis nulas de que los coeficientes de regresión valen cero en la
población. Estos estadísticos t se obtienen dividiendo los coeficientes de
regresión B0 y B1 entre sus correspondientes errores típicos:
siendo:
40
Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student
con nn2 grados de libertad. Por tanto, pueden ser utilizados para decidir si un
determinado coeficiente de regresión es significativamente distinto de cero y, en
consecuencia, si la variable independiente está significativamente relacionada
con la dependiente.
Puesto que en regresión simple sólo trabajamos con una variable

independiente, el resultado del estadístico t es equivalente al del estadístico
F de la tabla del ANOVA (de hecho, t 2 = F).
A partir de los resultados de la tabla 18.3, podemos llegar a las siguientes

conclusiones:
1. El origen poblacional de la recta de regresión (β0) es

significativamente distinto de cero (generalmente, contrastar la
hipótesis “β0 = 0" carece de utilidad, pues no contiene información
sobre la relación entre Xi e Yi).
2. La pendiente poblacional de la recta de regresión (el coeficiente de
regresión β1 correspondiente a salini) es significativamente distinta
de cero, lo cual nos permite concluir que entre salario y salini existe
relación lineal significativa.
EJEMPLO
Un centro comercial sabe en función de la distancia, en kilómetros, a la que se

sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en
la tabla:
Nº de clientes (X) 8 7 6 4 2 1
Distancia (Y) 15 19 25 23 34 40
Calcular el coeficiente de correlación lineal.
Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?
Si desea recibir a 500 clientes, ¿a qué distancia del núcleo de población debe
situarse?
41
xi yi xi ·yi xi2 yi2
8 15 120 64 225
7 19 133 49 361
6 25 150 36 625
4 23 92 16 529
2 34 68 4 1 156
1 40 40 1 1 600
28 156 603 170 4 496
6.3.1. Elección de una relación funcional
Se dice que una magnitud o cantidad esta en función de otra si el valor

de la primera depende exclusivamente del valor de la segunda, estas
situaciones se representan matemáticamente de diversas formas, en
diagramas de ven, gráficas, tablas de variables o funciones
matemáticas. Una función es en si, un objeto matemático que se utiliza
para expresar la dependencia entre dos magnitudes, y puede
presentarse a través de varios aspectos complementarios. Un ejemplo
habitual de función numérica es la relación entre la posición y el tiempo
en el movimiento de un cuerpo.
EJEMPLO
42
6.3.2. El método de los mínimos cuadrados ordinarios
Uno de los puntos determinantes en la econometría se basa en el

procesamiento estadístico y para ello el método de Mínimos Cuadrados
Ordinarios MCO permite encontrar los Mejores Estimadores Lineales
Insesgados.
Este método presenta muchas ventajas en cuanto a lo fácil de su uso

y por lo adecuado del planteamiento estadístico matemático que
permite adecuarse a los supuestos para los modelos econométricos.
El término de MCO esta vinculado con la regresión y la correlación,

ambas determinan la existencia de relación entre dos o mas variables
(siempre una dependiente y una o varias independientes).
43
La diferencia radica en que le regresión se expresa en una función o
relación funcional mediante una ecuación con su uso predictivo, y la
correlación es un valor que mide la intensidad con que están
relacionadas linealmente las variables, se esta hablado de una
regresión o correlación simple cuando se relacionan 2 variables, si
existen mas se habla de una correlación múltiple (el alcance de este
curso se limita a la simple).
Las funciones regresivas principalmente pueden ser de cuatro tipos:
 Lineales
De la forma matemática Y(x) = a+ bXi
Y su expresión Regresiva Yi = β1+ β2Xi + υi
 De segundo grado
De la forma matemática Y(x) = a+ bXi+cXi2
Y su expresión Regresiva Yi = β1+ β2Xi + β3Xi2+ υi
 Exponenciales
De la forma matemática Y(x) = abx
Y su expresión econométrica log F(x) = log a + x log b + υi
 De potencia
De la forma matemática Y(x) = aXin
Y su expresión Regresiva log Yi = log a + b log X + υi
EJEMPLO
Se desea estimar una función de costes para la empresa Elegant Rugs que
relacione los costes semanales de mano de obra indirecta de fabricación (Yi) con
las horas-máquina (X2i) y la cantidad de lotes de producción (X3i), usando la
siguiente información contable
Semana Costes Horas Lotes

1 1190 68 12
2 1211 88 15
44
3 1004 62 13
4 917 72 11
5 770 60 10
6 1456 96 12
7 1180 78 17
8 710 46 7
9 1316 82 14
10 1032 94 12
11 752 68 7
12 963 48 14
Se pide:
1. Especifique el sistema de ecuaciones normales para la regresión

múltiple Yi = b1 + b2X2i + b3X3i + ui, i = 1, 2, ..., 12.
2. Resuelva el sistema de ecuaciones normales.
3. Escriba la ecuación de regresión lineal estimada.
4. Interprete los coeficientes de la ecuación de regresión.
5. Genere los residuos y los valores ajustados.
6. Calcule el coeficiente de determinación.
7. Repita el ejercicio usando datos en desviaciones.
6.4. Análisis de correlación lineal simple
El análisis de correlación se encuentra estrechamente vinculado con el análisis

de regresión y ambos pueden ser considerados de hecho como dos aspectos de
un mismo problema.
La correlación entre dos variables es - otra vez puesto en los términos más
simples - el grado de asociación entre las mismas. Este es expresado por un
único valor llamado coeficiente de correlación (r), el cual puede tener valores que
ocilan entre -1 y +1. Cuando “r” es negativo, ello significa que una variable (ya
sea “x” o “y”) tiende a decrecer cuando la otra aumenta (se trata entonces de una
“correlación negativa”, correspondiente a un valor negativo de “b” en el análisis
45
de regresión). Cuando “r” es positivo, en cambio, esto significa que una variable
se incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo
de “b” en el análisis de regresión).
Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de
datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso
2 de la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido
- indirectamente - a partir de la relación:
Figura 1a Diagrama de puntos dispersos correspondientes a pares de valores

de “x” y de “y”. Nótese que “y” tiende a decrecer con el aumento de “x”, lo cual
sugiere coeficientes de regresión y de correlación negativos (basado en la Tabla
1)
46
Figura 1b Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la
regresión y = 2,16 - 0,173x, con r = 0,75
la cual proporciona el valor del “coeficiente de determinación” (r²). Entonces, lo

único necesario es calcular
es decir, tomar la raíz indicada del coeficiente de determinación a los fines de

obtener el valor absoluto de “r”, y luego agregar el signo (+ o -) de acuerdo a que
la correlación sea positiva o negativa (lo cual puede ser establecido visualmente
a partir del gráfico, o bien en base al cálculo del valor de “b” de la correspondiente
regresión y utilizando para “r” el mismo signo).
Cuando se calculan los valores de “r” se querrá saber, sin embargo, hasta qué
punto la correlación identificada pudiera haber surgido únicamente por
casualidad. Esto puede ser establecido verificando si el valor estimado de “r” es
“significativo”, es decir si el valor absoluto de “r” es mayor o igual que un valor
“crítico” de “r” indicado en las tablas estadísticas (ver Tabla de valores críticos
de “r” en el Apéndice 1).
EJEMPLO
47
Calcule “a”, “b” y “r” a partir de los datos presentados en la Tabla 1 y verifique,
por medio de la Tabla del Apéndice 1, hasta qué punto el valor estimado de “r”
es significativo para valores de P = 0,01 y de P = 0,05
6.5. Prueba de independencia
El objetivo es verificar si existe una dependencia entre las variables cualitativas

que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.
P(Ai ∩ Bj) = P(Ai) · P(Bj)
Utilizaremos generalmente la notación más simplificada:
P(Ai ∩ Bj) = pij
P(Ai) = pi·
P(Bj) = p·j
Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla
de contingencia, por ni·/N y n·j/N respectivamente.
Hipótesis nula de independencia: para toda combinación de resultados de las

variables fila y columna (i, j).
H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m
La hipótesis alternativa, que implica dependencia, se puede formular diciendo

que alguna de las igualdades de la hipótesis nula es falsa.
Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:
eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N
48
El estadístico de contraste se calcula de la manera habitual:
La distribución asintótica bajo la hipótesis nula es una χ2 con (k − 1) · (m − 1)

grados de libertad. Los grados de libertad pueden entenderse, de manera
intuitiva, entendiendo que el número de parámetros que se estiman son (k − 1)
y (m − 1), ya que queda fijada la probabilidad de la última clase de cada
característica una vez estimadas las restantes. Por tanto, aplicando la fórmula
para los grados de libertad se obtiene:
grados de libertad = número de clases − número de parámetros estimados − 1
grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)
El criterio de decisión es el mismo que en el caso general:
Rechazamos la hipótesis nula si
donde el último término es el valor crítico asociado con una distribución χ2,
con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una
probabilidad igual a α.
La condición de validez es que las frecuencias esperadas eij sean mayores que
5.
EJEMPLO
La distribución del número de entrevistas conseguidas por los 56 alumnos que

participaron en el proyecto fue la siguiente:
49
No. De Entrevistas No. De Alumnos
0 6
1 16
2 23
3 9
4 2
Compruebe la hipótesis a un nivel de significación del 95%
Solución:
Paso 1. Redactar las hipótesis (Nula y Alternativa)
La hipótesis Nula siempre se redacta como una afirmación del patrón

esperado:
H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo

número de entrevistas.
H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el

mismo número de entrevistas.
Paso 2. Determinar los grados de libertad
G.L.= Clasificaciones -1
G.L.= No. De entrevistas -1
G.L.= 5-1 = 4
Paso 3. Determinar el punto Crítico
Χ2 (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grados

de libertad por el lateral y en la parte superior de la tabla el nivel de
significación de 0,05. Encontramos que el valor crítico es 9,49
50
Paso 4. Calcular las Esperanzas. Como el patrón esperado es que todos los
estudiantes realicen el mismo número de entrevistas se calcula un promedio
entre las observaciones y el número de
Paso 5. Tomar la decisión
Se rechaza la hipótesis nula con un 5% de significación.
51
ANEXOS
52
EJEMPLOS DESARROLLADOS
53
54
55
56
57
58
59
EJERCICIOS PLANTEADOS
1. En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de

actividades de ocio que gustan más a sus habitantes. Para ello van a ser
encuestados 100 individuos elegidos al azar.
Explicar qué procedimiento de selección sería más adecuado utilizar:

muestreo con o sin reposición. ¿Por qué?
Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500
niños, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la
muestra anterior utilizando un muestreo estratificado. Determinar el tamaño
muestral correspondiente a cada estrato.
2. Sea la población de elementos: {22,24, 26}.

Escriba todas las muestras posibles de tamaño dos, escogidas mediante
muestreo aleatorio simple.
Calcule la varianza de la población.
Calcule la varianza de las medias muestrales.
3. La variable altura de las alumnas que estudian en una escuela de idiomas

sigue una distribución normal de media 1,62 m y la desviación típica 0,12 m.
¿Cuál es la probabilidad de que la media de una muestra aleatoria de 100
alumnas sea mayor que 1.60 m?
4. Se ha tomado una muestra de los precios de un mismo producto alimenticio
en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han
encontrado los siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen según una ley
normal de varianza 25 y media desconocida:
¿Cuál es la distribución de la media muestral?
Determine el intervalo de confianza, al 95%, para la media poblacional.
60
5. La media de las estaturas de una muestra aleatoria de 400 personas de una
ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es
una variable aleatoria que sigue una distribución normal con varianza σ 2 =
0,16 m2.
Construye un intervalo, de un 95% de confianza, para la media de las
estaturas de la población.
¿Cuál sería el mínimo tamaño muestral necesario para que pueda decirse
que la verdadera media de las estaturas está a menos de 2 cm de la media
muestral, con un nivel de confianza del 90%?
6. Las ventas mensuales de una tienda de electrodomésticos se distribuyen

según una ley normal, con desviación típica 900 €. En un estudio estadístico
de las ventas realizadas en los últimos nueve meses, se ha encontrado un
intervalo de confianza para la media mensual de las ventas, cuyos extremos
son 4 663 € y 5 839 €.
¿Cuál ha sido la media de las ventas en estos nueve meses?
¿Cuál es el nivel de confianza para este intervalo?
7. Se desea estimar la proporción, p, de individuos daltónicos de una

población a través del porcentaje observado en una muestra aleatoria de
individuos, de tamaño n.
Si el porcentaje de individuos daltónicos en la muestra es igual al 30%,
calcula el valor de n para que, con un nivel de confianza de 0,95, el error
cometido en la estimación sea inferior al 3,1%.
Si el tamaño de la muestra es de 64 individuos, y el porcentaje de individuos
daltónicos en la muestra es del 35%, determina, usando un nivel de
significación del 1%, el correspondiente intervalo de confianza para la
proporción de daltónicos de la población.
61
8. En una población una variable aleatoria sigue una ley normal de media
desconocida y desviación típica 2.
Observada una muestra de tamaño 400, tomada al azar, se ha obtenido
una media muestra al igual a 50. ¿Calcule un intervalo, con el 97 % de
confianza, para la media de la población.
Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la
muestra para qué la amplitud del intervalo que se obtenga sea, como
máximo, 1?
9. Una marca de nueces afirma que, como máximo, el 6% de las nueces

están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías.
Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de
la marca?
Si se mantiene el porcentaje muestral de nueces que están vacías y 1-α
= 0.95, ¿qué tamaño muestral se necesitaría para estimar la proporción
de nueces con un error menor del 1% por ciento?
10. La duración de la bombillas de 100 W que fabrica una empresa sigue una
distribución normal con una desviación típica de 120 horas de duración.
Su vida media está garantizada durante un mínimo de 800 horas. Se
escoge al azar una muestra de 50 bombillas de un lote y, después de
comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de
significación de 0,01, ¿habría que rechazar el lote por no cumplir la
garantía?
62

Introduccion A La Inferencia Estadistica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introduccion A La Inferencia Estadistica

Încărcat de

Drepturi de autor:

Formate disponibile

“Año de la consolidación del mar de Grau

Universidad Nacional de Ucayali

Facultad de Derecho y Ciencias Políticas

TEMA : INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

CURSO : ESTADÍSTICA BÁSICA

PROFESOR : FRANCISCO RENGIFO SILVA

ALUMNOS : DÁVILA LAZARO EFRAIN ALBERTO

NAJAR CARDENAS LIAN MÍA

SALDAÑA PEZO INGRID SOLEDAD

SORIA GARCIA CINTHYA THALIA

TORRES ZUÑIGA RUBEN HANS

VILCHEZ GOMEZ JOSÉ LUIS

6. INTRODUCCION A LA INFERENCIA ESTADISTICA ................................. 4

6.1. Estimación de parámetros ........................................................................ 5

6.1.1. Estimación puntual ................................................................................ 7

6.1.2. Estimación por intervalos ...................................................................... 9

6.1.2.4. Intervalos para la diferencia de medias poblacionales ..................... 14

6.1.2.5. Intervalos de confianza para la diferencia de medias ...................... 19

6.1.2.6. Intervalo de confianza para la diferencia de proporciones

6.2. Prueba de hipótesis ................................................................................ 23

6.2.1. Prueba de hipótesis para la media poblacional ................................... 24

6.2.2. Prueba de hipótesis para la proporción poblacional ............................ 27

6.2.3. prueba de hipótesis para la diferencia de medias poblacionales ........ 31

6.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con

6.2.5. Prueba de hipótesis para la diferencia de proporciones poblacionales35

6.3. Análisis de regresión lineal simple.......................................................... 37

6.3.1. Elección de una relación funcional ...................................................... 42

6.3.2. El método de los mínimos cuadrados ordinarios ................................. 43

6.4. Análisis de correlación lineal simple ....................................................... 45

6.5. Prueba de independencia ....................................................................... 48

La inferencia estadística es, realmente, la parte más interesante y con

¿Qué hace?. Apela al estudio de muestras, que son subconjuntos de la

Existen numerosas técnicas para seleccionar muestras. Este paso es de

La cantidad de elementos que integran la muestra (el tamaño de la

A partir de la muestra seleccionada se realizan algunos cálculos y se

6.1. Estimación de parámetros

Los parámetros son medidas descriptivas de toda una población.

: : Estimador puntual de µ, porque al evaluarlo para una muestra es

Otros Parámetros de Interés:

P: Proporción Poblacional (proporción binomial).

“Proporción de elementos con cierta característica de interés en un

X: Nº de elementos en la muestra con característica de interés.

Si a partir de las observaciones de una muestra se calcula un solo valor

muestra de tamaño n y denotamos la nota media de la muestra. Si al

Un estimador puntual T de un parámetro es cualquier estadística que

Para indicar que T es un estimador del parámetro escribimos =T.

Estimador puntual de µ1 - µ2.

Diferencia entre las medias de dos muestras aleatorias independientes.

Estimador puntual para P1 – P2

Diferencia entre dos proporciones muéstrales, basadas en dos muestras

Razón de dos varianzas poblacionales.

Sea X una variable aleatoria con media µ desconocida y varianza σ 2.

X1, X2,…, Xn m. a. de tamaño n.

= f (X1, X2,…, Xn)

Estimadores posibles para µ

La estimación por intervalos consiste en establecer el intervalo de valores

a) Si conocemos la distribución muestral del estimador podemos obtener

Una empresa de investigación llevó a cabo una encuesta para

1 - .9500 = .0500 . 0500 ÷ 2 = .0250

6.1.2.1. Intervalo de confianza para la media poblacional

Supongamos que la estatura de los niños de 2 años está distribuida normalmente

Y el error estándar es:

Para nuestro ejemplo, la distribución muestral de la media tendría una media de