Sunteți pe pagina 1din 62

“Año de la consolidación del mar de Grau

Universidad Nacional de Ucayali

Facultad de Derecho y Ciencias Políticas

TEMA : INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

CURSO : ESTADÍSTICA BÁSICA

PROFESOR : FRANCISCO RENGIFO SILVA

CICLO : II

GRUPO :B

ALUMNOS : DÁVILA LAZARO EFRAIN ALBERTO

NAJAR CARDENAS LIAN MÍA

SALDAÑA PEZO INGRID SOLEDAD

SORIA GARCIA CINTHYA THALIA

TORRES ZUÑIGA RUBEN HANS

VILCHEZ GOMEZ JOSÉ LUIS

PUCALLPA – 2016
DEDICATORIA
Quiero dedicarle este trabajo.
A Dios que me da vida, a mi maestro por los
conocimientos que nos imparte, para lograr mis
metas en mis estudios profesionales y nuestros
padres por su apoyo incondicional.

2
INDICE

DEDICATORIA ................................................................................................... 2

INDICE ............................................................................................................... 3

6. INTRODUCCION A LA INFERENCIA ESTADISTICA ................................. 4

6.1. Estimación de parámetros ........................................................................ 5

6.1.1. Estimación puntual ................................................................................ 7

6.1.2. Estimación por intervalos ...................................................................... 9

6.1.2.4. Intervalos para la diferencia de medias poblacionales ..................... 14

6.1.2.5. Intervalos de confianza para la diferencia de medias ...................... 19

6.1.2.6. Intervalo de confianza para la diferencia de proporciones


poblacionales ................................................................................................... 22

6.2. Prueba de hipótesis ................................................................................ 23

6.2.1. Prueba de hipótesis para la media poblacional ................................... 24

6.2.2. Prueba de hipótesis para la proporción poblacional ............................ 27

6.2.3. prueba de hipótesis para la diferencia de medias poblacionales ........ 31

6.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con


observaciones variadas .................................................................................... 33

6.2.5. Prueba de hipótesis para la diferencia de proporciones poblacionales35

6.3. Análisis de regresión lineal simple.......................................................... 37

6.3.1. Elección de una relación funcional ...................................................... 42

6.3.2. El método de los mínimos cuadrados ordinarios ................................. 43

6.4. Análisis de correlación lineal simple ....................................................... 45

6.5. Prueba de independencia ....................................................................... 48

ANEXOS .......................................................................................................... 52

3
6. INTRODUCCION A LA INFERENCIA ESTADISTICA

La inferencia estadística es, realmente, la parte más interesante y con


mayor cantidad de aplicaciones en problemas concretos. ¿De qué se
ocupa? El planteo, a grandes rasgos, es más o menos el siguiente: el
investigador se encuentra estudiando una gran población (personas, o
tornillos, o palomas, o automóviles, o lo que sea) y quiere disponer de
algunos valores (promedios, desvíos, tendencias, forma de la distribución,
etcétera) que sean válidos en forma general, para toda la población en
estudio. Sin embargo, le resulta imposible acceder a toda la información,
medir la variable analizada en todos y cada uno de los integrantes de la
población.

¿Qué hace?. Apela al estudio de muestras, que son subconjuntos de la


población original, con menos elementos, pero que intentan representarla
del modo más fiel posible. En algún sentido puede decirse que una
muestra seleccionada honestamente es un “modelo reducido a escala” de
la población. Por supuesto, al tomar la muestra siempre se producen
errores y se pierden detalles, pero es mucho más lo que se gana respecto
a la información que ella puede proporcionar.

Existen numerosas técnicas para seleccionar muestras. Este paso es de


importancia vital en un estudio estadístico, porque las conclusiones que
se obtienen dependen muy esencialmente de la/s muestra/s analizada/s.
Las técnicas que proporcionan las mejores muestras son las aleatorias,
en las que cualquier integrante de la población tiene la misma probabilidad
de ser elegido.

La cantidad de elementos que integran la muestra (el tamaño de la


muestra) depende de múltiples factores, como el dinero y el tiempo
disponibles para el estudio, la importancia del tema analizado, la

4
confiabilidad que se espera de los resultados, las características propias
del fenómeno analizado, etcétera.

A partir de la muestra seleccionada se realizan algunos cálculos y se


estima el valor de los parámetros de la población tales como la media, la
varianza, la desviación estándar, o la forma de la distribución, etcétera.
Existen dos formas de estimar parámetros: la estimación puntual y la
estimación por intervalo de confianza. En la primera se busca, con base
en los datos muestrales, un único valor estimado para el parámetro. Para
la segunda, se determina un intervalo dentro del cual se encuentra el valor
del parámetro, con una probabilidad determinada.

Ejemplo
Si se dice que la media de las alturas de los estudiantes varones del I.E.S.
Nº9-OO8 “Manuel Belgrano” es de 1,77 m
( =1,77m), se está dando una estimación
puntual. En cambio, si se dice que la media de las alturas es de 1,77m

6.1. Estimación de parámetros

Los parámetros son medidas descriptivas de toda una población.


Sin embargo, sus valores por lo general se desconocen, porque es
poco factible medir una población entera. Por eso, usted puede
tomar una muestra aleatoria de la población para obtener
estimaciones de los parámetros. Un objetivo del análisis estadístico
es obtener estimaciones de los parámetros de la población, junto
con la cantidad de error asociada con estas estimaciones. Estas
estimaciones se conocen también como estadísticos de muestra.
Una línea de distribución ajustada es una curva que se basa en las
estimaciones de los parámetros en lugar de los valores reales de
los parámetros.

Estimador.

5
Por ejemplo: es un posible estimador de µ.

µ=θ

: : Estimador puntual de µ, porque al evaluarlo para una muestra es


concreto, da un solo número o punto.

: Estimación puntual de µ.

Otros Parámetros de Interés:

P: Proporción Poblacional (proporción binomial).

“Proporción de elementos con cierta característica de interés en un


universo dado.”

= Estimador puntual de P.

X: Nº de elementos en la muestra con característica de interés.

σ2 : Varianza Poblacional.

6
6.1.1. Estimación puntual

Si a partir de las observaciones de una muestra se calcula un solo valor


como estimación de un parámetro de la población desconocido, el
procedimiento denomina estimación puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller
en la asignatura de matemáticas que notaremos . Sea X la variable
aleatoria que indica la nota obtenida por cada estudiante. Tomamos una

muestra de tamaño n y denotamos la nota media de la muestra. Si al


tomar una muestra de 100 estudiantes obtenemos que la media es 6´2,
este número lo tomaríamos como estimativo de . Decimos que 6´2 es
una estimación puntual de .

Un estimador puntual T de un parámetro es cualquier estadística que


nos permita a partir de los datos muéstrales obtener valores aproximados

del parámetro .

Para indicar que T es un estimador del parámetro escribimos =T.


Con esto queremos decir que empleamos la expresión dada mediante T
para obtener valores próximos al valor del parámetro.
Es muy probable que haya error cuando un parámetro es estimado. Es
cierto que si el número de observaciones al azar se hace suficientemente
grande, éstas proporcionarían un valor que casi sería semejante al
parámetro; pero a menudo hay limitaciones de tiempo y de recursos y se
tendrá que trabajar con unas cuántas observaciones. Para poder utilizar
la información que se tenga de la mejor forma posible, se necesita
identificar las estadísticas que sean “buenos” estimadores. Hay cuatro
criterios que se suelen aplicar para determinar si una estadística es un
buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia

EJEMPLO

Estimador puntual de σ.

7
µ1 - µ2: Diferencia de dos medias poblacionales.

Estimador puntual de µ1 - µ2.

Diferencia entre las medias de dos muestras aleatorias independientes.

P1 – P2

Estimador puntual para P1 – P2

Diferencia entre dos proporciones muéstrales, basadas en dos muestras


aleatorias independientes.

Razón de dos varianzas poblacionales.

Estimador puntual de

Sea X una variable aleatoria con media µ desconocida y varianza σ 2.

X1, X2,…, Xn m. a. de tamaño n.

θ=µ

= f (X1, X2,…, Xn)

Estimadores posibles para µ


8
6.1.2. Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores


donde es más probable se encuentre el parámetro. La obtención del
intervalo se basa en las siguientes consideraciones:

a) Si conocemos la distribución muestral del estimador podemos obtener


las probabilidades de ocurrencia de los estadísticos muéstrales.
b) Si conociéramos el valor del parámetro
poblacional, podríamos establecer la probabilidad de que el estimador
se halle dentro de los intervalos de la distribución muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello
el intervalo se establece alrededor del estimador. Si repetimos el
muestreo un gran número de veces y definimos un intervalo alrededor
de cada valor del estadístico muestral, el parámetro se sitúa dentro de
cada intervalo en un porcentaje conocido de ocasiones. Este intervalo
es denominado "intervalo de confianza".

Ejemplo

Una empresa de investigación llevó a cabo una encuesta para


determinar la cantidad media que los fumadores gastan en cigarrillos
durante una semana. La semana encontró que la distribución de
cantidades gastadas por semana tendía a seguir una distribución

9
normal, con una desviación estándar de $5. Una muestra de de 64
fumadores reveló que = $20.
a)¿Cuál es el estimador de intervalo de confianza de 95% para la μ?

1 - .9500 = .0500 . 0500 ÷ 2 = .0250


𝑧 = ±1.96
𝜎
±𝑧 𝑛

5
20 ± 1.96 20 − 1.225 = 18.77
√64
5
20 ± 1.96 8
20 + 1.225 = 21.25

95%
n = 64 = 20 σ= 5 N.C = 95% = .9500
20 ± 1.96 × .625 Intervalo de confianza 18.77 20 21.25
20 ± 1.225 18.77 − 21.25

6.1.2.1. Intervalo de confianza para la media poblacional


6.1.2.2.

Supongamos que la estatura de los niños de 2 años está distribuida normalmente


con una media de 90 cm y una desviación estándar de 36 cm. ¿Cuál sería la
distribución muestral de la media para una muestra de tamaño 9? Recordemos
que la media de una distribución muestral de medias es igual a μ :

Y el error estándar es:

Para nuestro ejemplo, la distribución muestral de la media tendría una media de


90 y una desviación estándar de 36/3 = 12. Recordemos que la desviación
estándar de una distribución muestral es igual al error estándar. Intervalos de
confianza para la media μ = μ x Y el error estándar es: La siguiente figura muestra
esta distribución en donde el área sombreada representa el 95% del total,
encontrándose entre los valores de 66.48 y 113.52. Estos límites fueron
10
calculados añadiendo y restando 1.96 desviaciones estándar del valor de la
media de 90, lo que equivale al 95% del área bajo una curva normal estándar,
es decir:

90 - (1.96 x 12) =

90 - 23.52 = 66.48

90 + (1.96 x 12) =

90 + 23.52 = 113.52

Lo que nos muestra la figura es que 95% de las medias se encontrarían a no


más de 23.52 de la media de 90 (o sea a 1.96 desviaciones estándar). Ahora si
consideramos la probabilidad de que la media de una muestra aleatoria se
encuentre a cierta distancia de la media de la población, entonces podemos decir
que como 95% de la distribución está a 23.5 de 90, la probabilidad de que la
media de cualquier muestra esté a 23.52 de 90 es de 0.95. 95% del área. 23.52
Lo anterior significa que si calculamos repetidamente la media de una muestra,
y consideramos un intervalo que vaya de - 23.52 a + 23.52, este intervalo
contendrá a la media de la población 95% de las veces. En general, podemos
calcular el intervalo de confianza con la siguiente fórmula:

Donde z es el valor de la curva estándar normal para la confianza que se


requiere. En el caso de 95% de confianza:

11
De esta fórmula se puede observar que tanto el tamaño de la muestra como el
valor de σ se deben conocer. Z se puede obtener de la tabla de la distribución

n = 400 x = 300 p = x/n = 300/400 = 0.75 N.C = 99%


normal a partir del nivel de confianza establecido. Como en muchas ocasiones
se desconoce σ en esos casos lo correcto es utilizar otra distribución para
muestras (la llamada “t” de student que veremos en la siguiente sesión) si la
población de donde provienen los datos es normal. En este caso se puede utilizar
una estimación puntual de la desviación estándar de la población por medio de
la desviación estándar de la muestra, es decir (σ ~ s).

EJEMPLO

María Wilson considera postularse para la alcaldía de la ciudad de Bear Gulch,


Montana. Antes de solicitar la postulación, decide realizar una encuesta entre los
electores de Bear Gulch. Una muestra de de 400 electores revela que 300 la
apoyarían en las elecciones de noviembre. Construya un intervalo de confianza
del 99% para la proporción poblacional.

1 - .9900 = .0100 . 0100 ÷ 2 = .0050 𝒛 = ±𝟐. 𝟓𝟖


𝑝 (1−𝑝)
p ± 𝑧√ 𝑛
.75(1−.75)
. 75 ± 2.58√ 400
.75 ± 2.58 (.01875) .75 − .0483 = .7017
.1875
. 75 ± 2.58√ .75 ± .0483 .75 + .0483 = .7983
400
Intervalo de confianza = . 𝟕𝟎𝟏𝟕− . 𝟕𝟗𝟖𝟑

6.1.2.3. Intervalos de confianza para la proporción poblacional

Un estimador puntual de la proporción P en un experimento binomial está dado


por la estadística P=X/N, donde X representa el número de éxitos en N pruebas.
Por tanto, la proporción de la muestra p=x/n se utilizará como estimador puntual
12
del parámetro P. Si no se espera que la proporción P desconocida esté
demasiado cerca de 0 ó de 1, se puede establecer un intervalo de confianza para
P al considerar la distribución muestral de proporciones.

Considerando el valor z para la distribución de proporciones

Si intentamos despejar el valor de P nos encontramos con que

Pero ¿cómo podemos encontrar P si también está del lado derecho de la


ecuación? Lo que haremos es aproximar la proporción de la población por la de
la muestra, es decir sustituir P por la proporción de la muestra p siempre y
cuando el tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0


ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es
confiable ya que realmente se debería emplear la distribución binomial, por tanto,
no se debe utilizar. Para estar seguros, se debe requerir que np y n(1-p) sea
mayor o igual a 5. El error de estimación será la diferencia absoluta entre p y P,
y podemos tener el nivel de confianza de que esta diferencia no excederá el valor
de

EJEMPLO

13
Realice el ejercicio si se toma una muestra de 200 hojas y con consideraciones
de desviación estándar y media poblacional idénticas? Considérese un intervalo
de confianza del 95%.

𝜎
El error estándar es 𝜎𝑋̅ = =
√𝑛
100%−95% 𝛼
Las colas: = 2.5%. Equivalente al área A = 0.025 =
2 2

𝛼 INTERVALO DE CONFIANZA
A= = 0.025
2

𝑍1 𝑍2

11

Halamos el valor de 𝑍1 = 𝑍2 =

𝜎
𝑋̅𝑖−𝑠 = 𝑋̅ ± 𝑍𝑖−𝑠
√𝑛

Si reemplazamos cada una de las variables, hallamos los límites del intervalo:
𝜎
Para 𝑍1 = Hallemos el límite inferior 𝑋̅𝑖 = 𝑋̅ − 𝑍1
√𝑛

𝜎
Para 𝑍2 = Hallemos el límite inferior 𝑋̅𝑠 = 𝑋̅ + 𝑍2
√𝑛

6.1.2.4. Intervalos para la diferencia de medias poblacionales

En ocasiones interesa definir un intervalo de valores tal que permita establecer


cuáles son los valores mínimo y máximo aceptables para la diferencia entre las
medias de dos poblaciones. Pueden darse dos situaciones según las muestras
sean o no independientes; siendo en ambos casos condición necesaria que las
poblaciones de origen sean normales o aproximadamente normales:

 MUESTRAS INDEPENDIENTES

14
Si puede suponerse que las varianzas de ambas poblaciones son iguales, el
intervalo de confianza para la diferencia de medias poblacionales está centrado
en la diferencia de las medias muestrales, siendo sus límites superior e inferior:

t /2 es el valor crítico correspondiente al grado de confianza 1- de la


distribución t de Student con n1+ n2-2 grados de libertad y

es una estimación de la desviación típica común a ambas poblaciones obtenida


a partir de las varianzas de las dos muestras. En la práctica si n1 y n2 son
moderadamente grandes, el valor crítico

t /2 se aproxima, como ya se ha visto anteriormente, a los valores de la


distribución normal.

Si las varianzas poblacionales no pueden suponerse iguales los límites del


intervalo de confianza son:

El valor crítico t /2 corresponde a una distribución t cuyos grados de libertad se


calculan en base a ambos tamaños muestrales y a las desviaciones típicas de
cada grupo según la corrección propuesta por Dixon y Massey:

Para obtener el intervalo de confianza en ambos casos la secuencia es:


Analizar

15
Comparar medias
Prueba T para muestras independientes

En el cuadro de diálogo hay que seleccionar en Contrastar variables la variable


objeto de análisis e indicar la Variable de agrupación junto con el criterio
para Definir grupos (las dos poblaciones).

Los grupos pueden definirse en función de una variable cuantitativa o de una


cualitativa. Si la variable de agrupación presenta sólo dos valores o modalidades,
entonces se debe seleccionar Usar valores especificados e indicar la modalidad
que define el grupo 1 y la del grupo 2. Si la variable tiene más de 2 valores o
modalidades se elige la opción Punto de corte indicando el valor de la variable
que induce una partición en dos grupos, uno de los cuales estará formado por
todos los casos con valores menores que el especificado y el otro por el resto de
casos.

Al aceptar se obtienen:

16
- resultados de la prueba de Levene para contrastar la igualdad de

varianzas *

- resultados de la prueba T para contrastar la igualdad de medias

- intervalo de confianza para la diferencia de medias al 95% por defecto.

Si se quiere cambiar el grado de confianza del intervalo, antes de aceptar hay


que modificarlo con el botón Opciones.

 MUESTRAS DEPENDIENTES.

En este caso las muestras están formadas por parejas de valores, uno de cada
población y el estadístico se obtiene a partir de las diferencias de los valores de
las dos variables correspondientes a cada caso o di que se define como di= xi-
yi.

Para contrastar la hipótesis de igualdad de medias y obtener el intervalo de


confianza la secuencia es:

Analizar

Comparar medias

Prueba T para muestras independientes

17
Las variables se deben seleccionar por parejas. Haciendo clic sobre las variables
de la lista aparecen sus nombres en el cuadro Selecciones actuales; una vez
seleccionadas las dos variables se trasladan al recuadro Variables
relacionadas de la forma habitual. En cada sesión se pueden seleccionar tantos
pares de variables como medias se quieran comparar.

Al aceptar se obtienen para cada par de variables, los siguientes resultados:

- Media, desviación tipo y error típico de la media de las di.

- Intervalo de confianza, por defecto al 95%, para la diferencia de medias


poblacionales que viene dado por:

es el valor de la distribución t de Student con n-1 grados de


libertad que deja por encima una probabilidad de /2.

- Estadístico t del contraste (contraste de dos colas).

Un artículo publicado dio a conocer los resultados de un análisis del peso de


calcio en cemento estándar y en cemento contaminado con plomo. Los niveles
bajos de calcio indican que el mecanismo de hidratación del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de
cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso
promedio de calcio es de 90 con una desviación estándar de 5; los resultados
obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en
promedio con una desviación estándar de 4. Supóngase que el porcentaje de
peso de calcio está distribuido de manera normal. Encuéntrese un intervalo de
confianza del 95% para la diferencia entre medias de los dos tipos de cementos.
Por otra parte, supóngase que las dos poblaciones normales tienen la misma
desviación estándar.

Solución:

El estimador combinado de la desviación estándar es:

18
Al calcularle raíz cuadrada a este valor nos queda que sp = 4.41

expresión que se reduce a – 0.72 1- 2 6.72

Nótese que el intervalo de confianza del 95% incluye al cero; por consiguiente,
para este nivel confianza, no puede concluirse la existencia de una diferencia
entre las medias.

6.1.2.5. Intervalos de confianza para la diferencia de medias

Sean 11 x , 12 x , ... 1 n 1 x , una muestra aleatoria de n 1 observaciones tomadas


de una primera población con valor esperado μ1 , y varianza 2 σ 1 ; y 21 x , 22 x
, ... 2 n 2 x , una muestra aleatoria de n 2 observaciones tomada de la segunda
población con valor esperado μ 2 y varianza 2 σ 2 . Si x 1 y x 2 son las medias
muestrales, la estadística x 1 − x 2 es un estimador puntual de μ1 − μ 2 , y tiene
una distribución normal si las dos poblaciones son normales, o aproximadamente
normal si cumple con las condiciones del teorema del límite central (tamaños de
muestras relativamente grandes). Por lo tanto

19
Para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso
de que sean desconocidas, se debe probar si son igual es o diferentes. Cada
uno de estos tres casos se analizarán por separado Varianzas conocidas pero
diferentes, σ 1 2 ≠ σ Si las varianzas poblacionales son conocidas y diferentes,
los pasos a seguir para encontrar el intervalo de confianza son los siguientes: a)
El estadístico usado como estimador puntual de la diferencia de medias μ1 − μ
2, será T = x 1 − x 2, que es un estimador suficiente b) La variable aleatoria
asociada con el estimador será la variable normal estándar dada por:

c) Para calcular el intervalo de confianza se debe tener en cuenta el nivel de


confianza que se quiere considerar. Teorema. Si x1 − x2 son las medias de dos
muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones
que tienen varianzas conocidas 2 σ 1 y 2 σ 2 , respectivamente, entonces el
intervalo de confianza para μ1 − μ 2 es:

EJEMPLO

Una muestra de 150 bombillos de la marca A mostró un tiempo de vida media de


1, 400 horas y una desviación estándar de 120 horas. Una muestra de 200
bombillos de la marca B mostró un tiempo de vida media de 1, 200 horas y una

20
desviación estándar de 80 horas. Encontrar los límites de confianza de 95%,
para la diferencia de los tiempos de vida media de las poblaciones de la marca
A y B. Para un nivel de confianza de 95%.

Solución:

Marca A Marca B
n1 = 150 bombillos n1 = 200 bombillos
̅1 = 1.400 horas
𝒙 𝑥̅ 1 = 1.200 horas
𝜹𝟏 = 120 horas 𝛿1 = 80 horas

α = 0.05

α/2 α/2
0.95

0.025 0.025
-Z = -1.96 Z = 1.96

1202 802
− 𝜇𝐵 = 𝑃 (1.400 –1.200) ± 1.96 √ 150 +
𝜇𝐴̂ 200

= 200 ± 1,96 * 11,31


= 200 ± 22,16

177,8 < 𝜇𝐴 ̂
− 𝜇𝐵 < 222,16

Interpretación:

La diferencia de los tiempos de vida media de las poblaciones de la marca A y


B oscila entre 177,8 y 222,16 para un nivel de confianza de 95%.

21
6.1.2.6. Intervalo de confianza para la diferencia de proporciones
poblacionales

Sea X1, X2,..., Xn1 una muestra aleatoria extraída de una población Bernoulli. Sea
X la variable Binomial definida como el número de éxitos en esta muestra y con
parámetro π1, proporción poblacional de éxitos.

Sea Y1, Y2,..., Yn2 una muestra aleatoria extraída de una población Bernoulli. Sea
Y la variable Binomial definida como el número de éxitos en esta muestra y
tomemos a π2 como la proporción de éxitos en esta otra población. Supongamos
que ambas muestras son independientes.

Si p1 y p2 son los estadísticos muestrales y definimos a = p1-p2 como el


estimador de la diferencia de proporciones poblacionales

θ = π1-π2 entonces se debe cumplir que

Nota:

Si n1 y n2 son bastante grandes el radical se calcula usando los estadísticos de


la muestra; es decir, las proporciones muestrales.

EJEMPLO

1. Se desea estimar, por medio de un intervalo de confianza, la proporción p de


individuos daltónicos de una población a través del porcentaje observado en
una muestra aleatoria de individuos de tamaño n . Si el porcentaje de
individuos daltónicos en una muestra aleatoria es igual al 30%, calcule el valor
mínimo de n para que, con un nivel de confianza del 95%, el error que se
cometa en la estimación sea inferior a 0,031.
Solución: n  840 .

6.2. Prueba de hipótesis

Una prueba de hipótesis es una prueba estadística que se utiliza para determinar
si existe suficiente evidencia en una muestra de datos para inferir que cierta
condición es válida para toda la población.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población:
la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que
se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay
efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se
desea poder concluir que es verdadero.

Con base en los datos de la muestra, la prueba determina si se debe rechazar la


hipótesis nula. Para tomar la decisión se utiliza un valor p. Si el valor p es menor
que o igual al nivel de significancia, que es un punto de corte que usted define,
entonces puede rechazar la hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están


diseñadas para seleccionar la más probable de dos hipótesis. En realidad, una
prueba mantendrá la validez de la hipótesis nula hasta que haya suficiente
evidencia (datos) en favor de la hipótesis alternativa.

EJEMPLO

En el problema de la prueba de hipótesis de los ejercicios 1 y 2, suponga que la


media muestral es 𝑋̅ = $240. Para determinar si se debe rechazar la hipótesis
nula, esta media se convierte a un valor Z y se compara con los valores críticos
± 1.96 como sigue:

𝜎𝑋̅ = 7.17 Según el ejercicio

23
𝑋̅ − 𝜇0 240 − 260 −20
𝑍= = = = −2.79
𝜎𝑋̅ 7.17 7.17

En el modelo para las pruebas de hipótesis, este valor de Z se encuentra en la


región de rechazo de la cola izquierda. Así la hipótesis nula se rechaza y se
acepta la hipótesis alternativa (H1 : μ ≠ $260.00 .

Observe que en el ejercicio 2 se llegara a la misma conclusión al comparar la


media muestral 𝑋̅ = $240 con los valores críticos para la media anteriormente
indicados.

𝑭(𝒁)
REGION DE REGION DE

RECHAZO RECHAZO

Región de aceptación

𝒁
-1.96 +1.96

6.2.1. Prueba de hipótesis para la media poblacional

Se utiliza una prueba de una muestra para probar una afirmación con respecto
a una media de una población única.

24
Nota: Se considera práctico utilizar la distribución t solamente cuando se
requiera que el tamaño de la muestra sea menor de 30, ya que para muestras
más grandes los valores t y z son aproximadamente iguales, y es posible
emplear la distribución normal en lugar de la distribución t.

EJEMPLO
Un gerente de ventas de libros universitarios afirma que en promedio sus
representantes de ventas realiza 40 visitas a profesores por semana. Varios de
estos representantes piensan que realizan un número de visitas promedio
superior a 40. Una muestra tomada al azar durante 8 semanas reveló un
promedio de 42 visitas semanales y una desviación estándar de 2 visitas. Utilice
un nivel de confianza del 99% para aclarar esta cuestión.

Datos:

 = 40

𝑥̅ = 42

n=8

𝑆=2

Nivel de confianza del 99%

Nivel de significación = (100%-99%)/2 = 0,5% = 0,005

25
𝑥̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 =
𝑆
√𝑛

Solución:
H0:  = 40
H1:  > 40
Grados de libertad: n-1 = 8-1 =7

α = 0,005 ⟹ 𝑡𝑡𝑎𝑏𝑙𝑎 = 3,499

𝑥̅ − 𝜇 42 − 40 2
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = = = = 2,83
𝑆 2 0,7071
√𝑛 √8

H0 es aceptada, ya que tprueba (2,83) es menor que ttabla (3,499), por lo que no es
acertado pensar que están realizando un número de visitas promedio superior a
40.

26
En Excel

6.2.2. Prueba de hipótesis para la proporción poblacional

Cuando el objetivo del muestreo es evaluar la validez de una afirmación con


respecto a la proporción de una población, es adecuado utilizar una prueba de
una muestra. La metodología de prueba depende de si el número de
observaciones de la muestra es grande o pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de
medias y proporciones son bastante semejantes. De este modo, los
valores estadísticos de prueba miden la desviación de un valor estadístico de
muestra a partir de un valor propuesto. Y ambas pruebas se basan en la
distribución normal estándar para valores críticos. Quizá la única diferencia real
entre las ambas radica en la forma corno se obtiene la desviación estándar de la
distribución de muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z

27
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de
una tabla normal a un nivel de significación seleccionado.
Como ocurrió con la prueba de medias de una muestra, las pruebas de
proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda,


izquierda y la tercera, una prueba de dos colas.

Ejemplo
En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe
esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa
de que la proporción real de los estudiantes universitarios trabajan es mayor de

28
lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela
que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.
Los datos son:

Como en los datos aparece el tamaño de la población, se debe verificar si el


tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente
fórmula:

Los cálculos en Excel se muestran en la siguiente figura:

29
El gráfico elaborado en Winstats y Paint se muestra a continuación:

Decisión:

30
6.2.3. prueba de hipótesis para la diferencia de medias poblacionales

La prueba de hipótesis para dos muestras es casi semejante a la prueba de


una sola muestra es decir que este capítulo se tomaran dos muestras
aleatorias para determinar si proviene de una misma población o a su vez de
poblaciones iguales.
Así mismo puedo entender que en el caso de que se den las dos poblaciones
iguales, se esperara que la media entre las dos medias muéstrales sea cero.
En el caso que existan poblaciones independientes, estas son iguales a la
suma de dos variables individuales.
Por ende las muestras deben ser suficientemente grandes para que la
distribución de las medias muéstrales siga una distribución normal.
Así mismo constituyo que para realizar una comparación de poblaciones con
muestras pequeñas es necesario tener en cuenta las siguientes
suposiciones: las dos muestras provienen de poblaciones independientes, de
igual manera las desviaciones estándar de las dos poblaciones son iguales,
así mismo las poblaciones muestreadas siguen una distribución normal.
Como consiguiente tenemos que el número de grados de libertad en la
prueba es igual al número total de elementos muestreados, menos el número
de muestras.
Existen casos en que las muestras no son independiente sino son
dependientes o que a su vez estas están relacionadas entre si
Por tal razón puedo entender que existen dos tipos de muestras
dependientes,
1.- las que se caracterizan por una medición, una intervención de cierto tipo
y está a su vez otra medición.
2.- existe una formación de pares de las observaciones correspondientes.
Para tener una idea más concreta formulare la existencia de una
comparación de las muestras independientes y dependientes.
Las muestra dependiente son aquellas que se caracteriza por una medición
seguida, por un intervalo de algún tipo y después otra medida. A esta también
se la puede llamar un estudio antes o después.
De la misma forma el segundo tipo de muestra dependiente se caracteriza
por la formación de pares de observaciones.

31
Como una conclusión de este capitulo es que es semejante al capitulo
anterior, ya que sus cambios son pocos y los procesos a seguir son los
mismos.

EJEMPLO
Lisa Monnin es directora de presupuesto en la empresa New Process
Company, desea comparar los gastos diarios de transporte del equipo de
ventas y del personal de cobranza. Recopiló la siguiente información
muestral ( importe en dólares).

Ventas ($) 131 135 146 165 136 142

Cobranza
($) 130 102 129 143 149 120 139

Al nivel de significancia de 0,10, puede concluirse que los gastos medios


diarios del equipo de ventas son mayores? cuál es el valor p?

32
6.2.4. Prueba de hipótesis para la diferencia de medias poblacionales con
observaciones variadas

Cuando se desea probar la hipótesis de que las proporciones en dos poblaciones


no son diferentes, las dos proporciones muéstrales se emplean para determinar
el error estándar de la diferencia entre proporciones. La estimación conjunta de
la proporción poblacional, basada en las proporciones obtenidas en dos
muestras independientes, es:

𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2
𝜋̂ =
𝑛1 − 𝑛2

El error estándar de la diferencia entre proporciones que se usa para probar la


suposición de no diferencia es:

33
𝜋̂(1 − 𝜋̂) 𝜋̂(1 − 𝜋̂)
𝜎̂𝑝̂1 −𝑝̂2 = √ +
𝑛1 𝑛2

La hipótesis nula por probar es normalmente de la forma,

𝐻𝑜 : 𝜋1 = 𝜋2 ó 𝐻𝑜 : (𝜋1 − 𝜋2 ) = 0

Contra una hipótesis alternativa de uno o dos extremos.

La fórmula para obtener el estadístico 𝑧 para probar la hipótesis nula de que no


hay diferencia entre dos proporciones poblacionales es:

𝑝̂1 − 𝑝̂2
𝑧=
𝜎̂𝑝̂1 −𝑝̂2

Para que la diferencia de las proporciones muéstrales tenga una distribución


aproximadamente normal, los tamaños de las muestras deben ser grandes y las
proporciones no deben estar muy cerca de 0 𝑜 1.

EJEMPLO:

Una muestra de 50 familias de una comunidad muestra que 10 de ellas están


viendo un programa especial de televisión sobre la economía nacional. En una
segunda comunidad 15 familias de una muestra aleatoria de 50 están viendo el
programa especial de televisión, a continuación se prueba la hipótesis de que la
proporción general de televidentes en las dos comunidades no difiere, usando el
nivel de significancia de 1%:

𝐻𝑜 : (𝜋1 − 𝜋2 ) = 0 𝑜 𝑙𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡𝑒. 𝜋1 = 𝜋2


𝐻1 : (𝜋1 − 𝜋2 ) ≠ 0 𝑜 𝑙𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛𝑡𝑒. 𝜋1 ≠ 𝜋2

. 99
𝛼 = 1 − .01 = = .495
2
𝑍 = 2.57

𝑛1 𝑝̂1 + 𝑛2 𝑝̂ 2 50(. 20) + 50(.30) 10 + 15


𝜋̂ = = = = .25
𝑛1 + 𝑛2 50 + 50 100

34
𝜋̂(1 − 𝜋̂) 𝜋̂(1 − 𝜋̂) (. 25)(.75) (. 25). 75)
𝜎̂𝑝̂1 −𝑝̂2 = √ + =√ + = √. 00375 + .00375
𝑛1 𝑛2 50 50

= .087

𝑝̂1 − 𝑝̂ 2 . 20 − .30 −.10


𝑧= = = = −1.15
𝜎̂𝑝̂1 −𝑝̂2 . 087 . 087

0
-2.57 2.57
-1.15

El valor calculado para 𝑧 −1.15, está en la región de aceptación de la hipótesis


nula. Por lo tanto no se puede rechazar la hipótesis de que no hay diferencia en
la proporción de televidentes en las dos comunidades.

6.2.5. Prueba de hipótesis para la diferencia de proporciones


poblacionales

Para hacer inferencias estadísticas sobre dos poblaciones, se necesita


tener una muestra de cada población. Las dos muestras serán
dependientes o independientes de acuerdo a la forma de seleccionarlas.
Si la selección de los datos de una población no está relacionada con la
de los datos de la otra, son muestras independientes. Si las muestras se
seleccionan de manera que cada medida en una de ellas pueda asociarse
naturalmente con una medida en la otra muestra, se llaman muestras
dependientes. Cada dato sale de alguna fuente; una fuente es algo, una
persona o un objeto, que produce datos. Si dos medidas se obtienen de

35
la misma fuente, se puede pensar que las medidas están pareadas. En
consecuencia dos medidas que se obtienen del mismo conjunto de
fuentes son dependientes. Note que si dos muestras son dependientes,
entonces necesariamente tienen el mismo tamaño.

EJEMPLO

1. Diez hombres se sometieron a una dieta especial registrando sus pesos antes
de comenzarla y después de un mes de estar en ella. Los resultados de los
pesos, en libras, se muestran a continuación:

Hombre A B C D E F G H I J

Antes 181 172 190 186 210 202 166 173 183 184

Después 178 175 185 184 207 201 160 168 180 189

Haga una prueba con = 0.05 para determinar si la dieta logró alguna
diferencia, ya sea positiva o negativa. Calcule el valor de P.

Solución:

Ensayo de hipótesis:

Ho; A - D =0

H1; A - D 0

Regla de decisión:

Si –2.262 tc 2.262 No se rechaza Ho,

36
Si la tc < -2.262 ó si tc > 2.262 se rechaza Ho.

Cálculos:

Se procederá a calcular las diferencias de cada par:

Hombre A B C D E F G H I J

Antes 181 172 190 186 210 202 166 173 183 184

Después 178 175 185 184 207 201 160 168 180 189

Diferencia 3 -3 5 2 3 1 6 5 3 -5

Al calcular la media de las diferencias nos da 2 con una sd = 3.53.

Justificación y decisión:

Como 1.79 está entre los dos valores críticos de –2.262 y 2.262, por lo

tanto no se rechaza H0, y se concluye con un = 0.05 que no existe


evidencia estadística que apoye la efectividad de la dieta para variar el
peso.

Para calcular el valor de P se interpola entre 0.10 y 0.05, con 9 grados de


libertad obteniendo un área de 0.0574, pero como el ensayo es bilateral
este sería un valor de P/2, por lo tanto el valor de P = (2)(0.0574) = 0.1148

6.3. Análisis de regresión lineal simple


37
Para llevar a cabo un análisis de regresión simple con las especificaciones que el
programa tiene establecidas por defecto:

| Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al
cuadro de diálogo Regresión lineal que muestra la figura 18.4.

Figura 18.4. Cuadro de diálogo Regresión lineal.

| Seleccionar la variable salario en la lista de variables del archivo de datos y


trasladarla al cuadro Dependiente.

| Seleccionar la variable salini y trasladarla a la lista Independientes.

Con sólo estas especificaciones, al pulsar el botón Aceptar el Visor ofrece los resultados
que muestran las tablas 18.1 a la 18.3.

Bondad de ajuste

La primera información que obtenemos (tabla 18.1) se refiere al coeficiente de


correlación múltiple (R) y a su cuadrado. Puesto que sólo tenemos dos variables, el
coeficiente de correlación múltiple no es otra cosa que el valor absoluto del coeficiente
de correlación de Pearson entre esas dos variables (ver capítulo anterior). Su cuadrado
(R cuadrado) es el coeficiente de determinación:

( los residuos son las diferencias existentes entre las puntuaciones observadas y los
2
pronósticos obtenidos con la recta). Tal como hemos señalado ya, R expresa la
proporción de varianza de la variable dependiente que está explicada por la variable
independiente. En nuestro ejemplo (tabla 18.1), R toma un valor muy alto (su máximo
es 1); y R 2 nos indica que el 77,5 % de la variación de salario está explicada por salini.
Es importante resaltar en este momento que el análisis de regresión no permite afirmar

38
que las relaciones detectadas sean de tipo causal: sólo es posible hablar de grado de
relación. Tabla 18.1. Resumen del modelo.
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 ,880 ,775 ,774 $8,115.36

R cuadrado corregida es una corrección a la baja de R 2 que se basa en el número de


casos y de variables independientes:

(p se refiere al número de variables independientes). En una situación con pocos casos


y muchas variables independientes, R 2 puede ser artificialmente alta. En tal caso, el
valor de R 2 corregida será sustancialmente más bajo que el de R 2. En nuestro ejemplo,
2
como hay 474 casos y una sola variable independiente, los dos valores de R (el
corregido y el no corregido) son prácticamente iguales.

El error típico de la estimación (al que llamaremos Se) es la desviación típica


de los residuos, es decir, la desviación típica de las distancias existentes entre las
puntuaciones en la variable dependiente (Yi) y los pronósticos efectuados con la
recta de regresión aunque no exactamente, pues la suma de las distancias al
cuadrado están divididas por nn2:

Ecuación de regresión

La tabla 18.3 muestra los coeficientes de la recta de regresión. La columna etiquetada


Coeficientes no estandarizados contiene los coeficientes de regresión parcial que
definen la ecuación de regresión en puntuaciones directas.

Tabla 18.3. Coeficientes de regresión parcial.

Coeficientes no Coeficientes
estandarizados estandarizados
B Error típ. Beta t Sig.
(Constante) 1928,206 888,680 2,170 ,031

Salario inicial 1,909 ,047 ,880 40,276 ,000

El coeficiente correspondiente a la Constante es el origen de la recta de regresión (lo


que hemos llamado B0):

39
Y el coeficiente correspondiente a Salario inicial es la pendiente de la recta de regresión
(lo que hemos llamado B1):

B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada
unidad de cambio de la variable independiente (salini) . Según esto, la ecuación de
regresión queda de la siguiente manera:

Pronóstico en salario = 1928,206 + 1,909 salini

A cada valor de salini le corresponde un pronóstico en salario basado en un incremento


constante (1928,206) más 1,909 veces el valor de salini.

Coeficientes de regresión estandarizados

Los coeficientes Beta (coeficientes de regresión parcial estandarizados) son los


coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras
estandarizar las variables originales, es decir, tras convertir las puntuaciones directas
en típicas. Se obtiene de la siguiente manera:

En el análisis de regresión simple, el coeficiente de regresión estandarizado


correspondiente a la única variable independiente presente en la ecuación coincide
exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según
veremos, los coeficientes de regresión estandarizados permiten valorar la importancia
relativa de cada variable independiente dentro de la ecuación.

Pruebas de significación

Finalmente, los estadísticos t y sus niveles críticos (Sig.) nos permiten contrastar
las hipótesis nulas de que los coeficientes de regresión valen cero en la
población. Estos estadísticos t se obtienen dividiendo los coeficientes de
regresión B0 y B1 entre sus correspondientes errores típicos:

siendo:

40
Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student
con nn2 grados de libertad. Por tanto, pueden ser utilizados para decidir si un
determinado coeficiente de regresión es significativamente distinto de cero y, en
consecuencia, si la variable independiente está significativamente relacionada
con la dependiente.

Puesto que en regresión simple sólo trabajamos con una variable


independiente, el resultado del estadístico t es equivalente al del estadístico
F de la tabla del ANOVA (de hecho, t 2 = F).

A partir de los resultados de la tabla 18.3, podemos llegar a las siguientes


conclusiones:

1. El origen poblacional de la recta de regresión (β0) es


significativamente distinto de cero (generalmente, contrastar la
hipótesis “β0 = 0" carece de utilidad, pues no contiene información
sobre la relación entre Xi e Yi).
2. La pendiente poblacional de la recta de regresión (el coeficiente de
regresión β1 correspondiente a salini) es significativamente distinta
de cero, lo cual nos permite concluir que entre salario y salini existe
relación lineal significativa.

EJEMPLO

Un centro comercial sabe en función de la distancia, en kilómetros, a la que se


sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en
la tabla:

Nº de clientes (X) 8 7 6 4 2 1

Distancia (Y) 15 19 25 23 34 40

Calcular el coeficiente de correlación lineal.

Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?

Si desea recibir a 500 clientes, ¿a qué distancia del núcleo de población debe
situarse?

41
xi yi xi ·yi xi2 yi2

8 15 120 64 225

7 19 133 49 361

6 25 150 36 625

4 23 92 16 529

2 34 68 4 1 156

1 40 40 1 1 600

28 156 603 170 4 496

6.3.1. Elección de una relación funcional

Se dice que una magnitud o cantidad esta en función de otra si el valor


de la primera depende exclusivamente del valor de la segunda, estas
situaciones se representan matemáticamente de diversas formas, en
diagramas de ven, gráficas, tablas de variables o funciones
matemáticas. Una función es en si, un objeto matemático que se utiliza
para expresar la dependencia entre dos magnitudes, y puede
presentarse a través de varios aspectos complementarios. Un ejemplo
habitual de función numérica es la relación entre la posición y el tiempo
en el movimiento de un cuerpo.

EJEMPLO

42
6.3.2. El método de los mínimos cuadrados ordinarios

Uno de los puntos determinantes en la econometría se basa en el


procesamiento estadístico y para ello el método de Mínimos Cuadrados
Ordinarios MCO permite encontrar los Mejores Estimadores Lineales
Insesgados.

Este método presenta muchas ventajas en cuanto a lo fácil de su uso


y por lo adecuado del planteamiento estadístico matemático que
permite adecuarse a los supuestos para los modelos econométricos.

El término de MCO esta vinculado con la regresión y la correlación,


ambas determinan la existencia de relación entre dos o mas variables
(siempre una dependiente y una o varias independientes).

43
La diferencia radica en que le regresión se expresa en una función o
relación funcional mediante una ecuación con su uso predictivo, y la
correlación es un valor que mide la intensidad con que están
relacionadas linealmente las variables, se esta hablado de una
regresión o correlación simple cuando se relacionan 2 variables, si
existen mas se habla de una correlación múltiple (el alcance de este
curso se limita a la simple).

Las funciones regresivas principalmente pueden ser de cuatro tipos:

 Lineales
De la forma matemática Y(x) = a+ bXi

Y su expresión Regresiva Yi = β1+ β2Xi + υi

 De segundo grado
De la forma matemática Y(x) = a+ bXi+cXi2

Y su expresión Regresiva Yi = β1+ β2Xi + β3Xi2+ υi

 Exponenciales
De la forma matemática Y(x) = abx

Y su expresión econométrica log F(x) = log a + x log b + υi

 De potencia
De la forma matemática Y(x) = aXin

Y su expresión Regresiva log Yi = log a + b log X + υi

EJEMPLO

Se desea estimar una función de costes para la empresa Elegant Rugs que
relacione los costes semanales de mano de obra indirecta de fabricación (Yi) con
las horas-máquina (X2i) y la cantidad de lotes de producción (X3i), usando la
siguiente información contable

Semana Costes Horas Lotes


1 1190 68 12
2 1211 88 15

44
3 1004 62 13
4 917 72 11
5 770 60 10
6 1456 96 12
7 1180 78 17
8 710 46 7
9 1316 82 14
10 1032 94 12
11 752 68 7
12 963 48 14

Se pide:

1. Especifique el sistema de ecuaciones normales para la regresión


múltiple Yi = b1 + b2X2i + b3X3i + ui, i = 1, 2, ..., 12.

2. Resuelva el sistema de ecuaciones normales.

3. Escriba la ecuación de regresión lineal estimada.

4. Interprete los coeficientes de la ecuación de regresión.

5. Genere los residuos y los valores ajustados.

6. Calcule el coeficiente de determinación.

7. Repita el ejercicio usando datos en desviaciones.

6.4. Análisis de correlación lineal simple

El análisis de correlación se encuentra estrechamente vinculado con el análisis


de regresión y ambos pueden ser considerados de hecho como dos aspectos de
un mismo problema.

La correlación entre dos variables es - otra vez puesto en los términos más
simples - el grado de asociación entre las mismas. Este es expresado por un
único valor llamado coeficiente de correlación (r), el cual puede tener valores que
ocilan entre -1 y +1. Cuando “r” es negativo, ello significa que una variable (ya
sea “x” o “y”) tiende a decrecer cuando la otra aumenta (se trata entonces de una
“correlación negativa”, correspondiente a un valor negativo de “b” en el análisis

45
de regresión). Cuando “r” es positivo, en cambio, esto significa que una variable
se incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo
de “b” en el análisis de regresión).

Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de
datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso
2 de la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido
- indirectamente - a partir de la relación:

Figura 1a Diagrama de puntos dispersos correspondientes a pares de valores


de “x” y de “y”. Nótese que “y” tiende a decrecer con el aumento de “x”, lo cual
sugiere coeficientes de regresión y de correlación negativos (basado en la Tabla
1)

46
Figura 1b Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la
regresión y = 2,16 - 0,173x, con r = 0,75

la cual proporciona el valor del “coeficiente de determinación” (r²). Entonces, lo


único necesario es calcular

es decir, tomar la raíz indicada del coeficiente de determinación a los fines de


obtener el valor absoluto de “r”, y luego agregar el signo (+ o -) de acuerdo a que
la correlación sea positiva o negativa (lo cual puede ser establecido visualmente
a partir del gráfico, o bien en base al cálculo del valor de “b” de la correspondiente
regresión y utilizando para “r” el mismo signo).

Cuando se calculan los valores de “r” se querrá saber, sin embargo, hasta qué
punto la correlación identificada pudiera haber surgido únicamente por
casualidad. Esto puede ser establecido verificando si el valor estimado de “r” es
“significativo”, es decir si el valor absoluto de “r” es mayor o igual que un valor
“crítico” de “r” indicado en las tablas estadísticas (ver Tabla de valores críticos
de “r” en el Apéndice 1).

EJEMPLO

47
Calcule “a”, “b” y “r” a partir de los datos presentados en la Tabla 1 y verifique,
por medio de la Tabla del Apéndice 1, hasta qué punto el valor estimado de “r”
es significativo para valores de P = 0,01 y de P = 0,05

6.5. Prueba de independencia

El objetivo es verificar si existe una dependencia entre las variables cualitativas


que definen filas y columnas, es decir, si para todo i = 1, ..., k y j = 1, .., m se
verifica que la probabilidad del resultado correspondiente a la
combinación Ai ∩ Bj es el producto de las probabilidades marginales
correspondientes. P(Ai) es la probabilidad del resultado i para la variable fila
y P(Bj) la del resultado j para la variable columna.

P(Ai ∩ Bj) = P(Ai) · P(Bj)

Utilizaremos generalmente la notación más simplificada:

P(Ai ∩ Bj) = pij

P(Ai) = pi·

P(Bj) = p·j

Los valores de pi· y p·j se estimarán, a partir de los valores observados en la tabla
de contingencia, por ni·/N y n·j/N respectivamente.

Hipótesis nula de independencia: para toda combinación de resultados de las


variables fila y columna (i, j).

H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m

La hipótesis alternativa, que implica dependencia, se puede formular diciendo


que alguna de las igualdades de la hipótesis nula es falsa.

Los valores observados son nij. Los valores esperados bajo la hipótesis nula de
independencia se calculan de la manera siguiente:

eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N

48
El estadístico de contraste se calcula de la manera habitual:

La distribución asintótica bajo la hipótesis nula es una χ2 con (k − 1) · (m − 1)


grados de libertad. Los grados de libertad pueden entenderse, de manera
intuitiva, entendiendo que el número de parámetros que se estiman son (k − 1)
y (m − 1), ya que queda fijada la probabilidad de la última clase de cada
característica una vez estimadas las restantes. Por tanto, aplicando la fórmula
para los grados de libertad se obtiene:

grados de libertad = número de clases − número de parámetros estimados − 1

grados de libertad = k · m − (k − 1) − (m − 1) − 1 = (k − 1) · (m − 1)

El criterio de decisión es el mismo que en el caso general:

Rechazamos la hipótesis nula si

donde el último término es el valor crítico asociado con una distribución χ2,
con (k − 1) · (m − 1) grados de libertad, tal que deja a su derecha una
probabilidad igual a α.

La condición de validez es que las frecuencias esperadas eij sean mayores que
5.

EJEMPLO

La distribución del número de entrevistas conseguidas por los 56 alumnos que


participaron en el proyecto fue la siguiente:

49
No. De Entrevistas No. De Alumnos
0 6
1 16
2 23
3 9
4 2

Compruebe la hipótesis a un nivel de significación del 95%

Solución:

Paso 1. Redactar las hipótesis (Nula y Alternativa)

La hipótesis Nula siempre se redacta como una afirmación del patrón


esperado:

H0: Todos los estudiantes tienen la misma probabilidad de conseguir el mismo


número de entrevistas.

H1: No Todos los estudiantes tienen la misma probabilidad de conseguir el


mismo número de entrevistas.

Paso 2. Determinar los grados de libertad

G.L.= Clasificaciones -1

G.L.= No. De entrevistas -1

G.L.= 5-1 = 4

Paso 3. Determinar el punto Crítico

Χ2 (GL;α) Buscamos en la tabla de la distribución Chi-cuadrado con 4 grados


de libertad por el lateral y en la parte superior de la tabla el nivel de
significación de 0,05. Encontramos que el valor crítico es 9,49

50
Paso 4. Calcular las Esperanzas. Como el patrón esperado es que todos los
estudiantes realicen el mismo número de entrevistas se calcula un promedio
entre las observaciones y el número de

Paso 5. Tomar la decisión

Se rechaza la hipótesis nula con un 5% de significación.

51
ANEXOS

52
EJEMPLOS DESARROLLADOS

53
54
55
56
57
58
59
EJERCICIOS PLANTEADOS

1. En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de


actividades de ocio que gustan más a sus habitantes. Para ello van a ser
encuestados 100 individuos elegidos al azar.

Explicar qué procedimiento de selección sería más adecuado utilizar:


muestreo con o sin reposición. ¿Por qué?
Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500
niños, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la
muestra anterior utilizando un muestreo estratificado. Determinar el tamaño
muestral correspondiente a cada estrato.

2. Sea la población de elementos: {22,24, 26}.


Escriba todas las muestras posibles de tamaño dos, escogidas mediante
muestreo aleatorio simple.
Calcule la varianza de la población.
Calcule la varianza de las medias muestrales.

3. La variable altura de las alumnas que estudian en una escuela de idiomas


sigue una distribución normal de media 1,62 m y la desviación típica 0,12 m.
¿Cuál es la probabilidad de que la media de una muestra aleatoria de 100
alumnas sea mayor que 1.60 m?
4. Se ha tomado una muestra de los precios de un mismo producto alimenticio
en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han
encontrado los siguientes precios:
95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110.
Suponiendo que los precios de este producto se distribuyen según una ley
normal de varianza 25 y media desconocida:
¿Cuál es la distribución de la media muestral?
Determine el intervalo de confianza, al 95%, para la media poblacional.

60
5. La media de las estaturas de una muestra aleatoria de 400 personas de una
ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es
una variable aleatoria que sigue una distribución normal con varianza σ 2 =
0,16 m2.
Construye un intervalo, de un 95% de confianza, para la media de las
estaturas de la población.
¿Cuál sería el mínimo tamaño muestral necesario para que pueda decirse
que la verdadera media de las estaturas está a menos de 2 cm de la media
muestral, con un nivel de confianza del 90%?

6. Las ventas mensuales de una tienda de electrodomésticos se distribuyen


según una ley normal, con desviación típica 900 €. En un estudio estadístico
de las ventas realizadas en los últimos nueve meses, se ha encontrado un
intervalo de confianza para la media mensual de las ventas, cuyos extremos
son 4 663 € y 5 839 €.
¿Cuál ha sido la media de las ventas en estos nueve meses?
¿Cuál es el nivel de confianza para este intervalo?

7. Se desea estimar la proporción, p, de individuos daltónicos de una


población a través del porcentaje observado en una muestra aleatoria de
individuos, de tamaño n.
Si el porcentaje de individuos daltónicos en la muestra es igual al 30%,
calcula el valor de n para que, con un nivel de confianza de 0,95, el error
cometido en la estimación sea inferior al 3,1%.
Si el tamaño de la muestra es de 64 individuos, y el porcentaje de individuos
daltónicos en la muestra es del 35%, determina, usando un nivel de
significación del 1%, el correspondiente intervalo de confianza para la
proporción de daltónicos de la población.

61
8. En una población una variable aleatoria sigue una ley normal de media
desconocida y desviación típica 2.
Observada una muestra de tamaño 400, tomada al azar, se ha obtenido
una media muestra al igual a 50. ¿Calcule un intervalo, con el 97 % de
confianza, para la media de la población.
Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la
muestra para qué la amplitud del intervalo que se obtenga sea, como
máximo, 1?

9. Una marca de nueces afirma que, como máximo, el 6% de las nueces


están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías.
Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de
la marca?
Si se mantiene el porcentaje muestral de nueces que están vacías y 1-α
= 0.95, ¿qué tamaño muestral se necesitaría para estimar la proporción
de nueces con un error menor del 1% por ciento?

10. La duración de la bombillas de 100 W que fabrica una empresa sigue una
distribución normal con una desviación típica de 120 horas de duración.
Su vida media está garantizada durante un mínimo de 800 horas. Se
escoge al azar una muestra de 50 bombillas de un lote y, después de
comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de
significación de 0,01, ¿habría que rechazar el lote por no cumplir la
garantía?

62

S-ar putea să vă placă și