Sunteți pe pagina 1din 33

Prof.

: Jezabel Fermín
ASIGNATURA: ESTADISTICA II (0913863)

UNIDAD I: TEORIA DE MUESTREO Y ESTIMACION

La teoría del muestreo es el estudio de las relaciones existentes entre una población y
muestras extraídas de la misma.

Muestreo: Es el procedimiento por medio del cual se estudia una parte de la población
llamada muestra, con el objetivo de inferir con respecto a toda la población.

Ventajas del Muestreo:


 Costos reducidos.
 Mayor rapidez para obtener resultados.
 Mayor exactitud o mejor calidad de la información.
 Factibilidad de hacer el estudio cuando la toma de datos implica técnicas
destructivas.

Calculo del tamaño de la muestra

El tamaño de la muestra depende de los siguientes elementos:


1. Tamaño de la población.
2. Nivel de confianza adoptado.
3. Error de estimación permitido.
4. Proporción en que se encuentre en el universo la característica estudiada (p)

Nota: Cuando no es posible estimar la característica mediante un ensayo piloto (p en


%) adoptará la suposición de que dicho porcentaje es igual al 50%.

La población se considera finita cuando no pasa de 100000 elementos e infinita cuando


supera esa cantidad.

Fórmulas para determinar el tamaño de la muestra:

1. Para Poblaciones Finitas:


2. Para Poblaciones Infinitas:
2
Z p(1  p) N
2
Z2 p(1  p)
n
e 2 ( N  1)  Z 
2
p(1  p) n 2
e2
2

1
Tipos de Muestreo:
1. Muestreos No Probabilísticos: Los elementos o individuos de la muestra se
eligen sin tomar en cuenta su probabilidad de ocurrencia. Por tanto, es imposible
determinar el grado de representatividad de la muestra. Estas pueden ser:
a. Muestreo por Juicio: También conocido como muestreo por selección experta o
selección intencional. El investigador toma la muestra seleccionando los elementos que
a él le parecen representativos o típicos de la población.
b. Muestreo Casual o fortuito: Se utiliza en los casos en que no es posible
seleccionar los elementos, y deben sacarse conclusiones con los elementos que estén
disponibles.
c. Muestreo de Cuota: Se utiliza en el estudio de opinión de mercado.
d. Muestreo de Poblaciones Móviles: En este tipo de muestreo se utiliza métodos
de captura, marca y recaptura. Se utiliza mucho en el estudio de migración de
poblaciones de animales y otras características.

2. Muestreos Probabilísticos: Los elementos de la muestra son seleccionados


siguiendo un procedimiento que brinde a cada uno de los elementos de la población
una probabilidad conocida de ser incluidos en la muestra. Dentro de este tipo tenemos:

a. Muestreo Aleatorio Simple: Es seleccionado de tal manera que cada muestra


posible del mismo tamaño tiene igual probabilidad de ser seleccionado de la población.
b. Muestreo Sistemático: Este tipo de muestreo se obtiene cuando los elementos
son seleccionados en una manera ordenada. La manera de selección depende del
número de elementos incluidos en la población y el tamaño de la muestra. El número
de elementos en la población es dividido por el número deseado en la muestra y el
cociente (resultado) se redondea al entero más cercano, el cual indicará si cada
décimo, cada onceavo, o cada centésimo elemento en la población va a ser
seleccionado.

N población
  cociente
n muestra
El primer elemento de la muestra es seleccionado al azar.
c. Muestreo Estratificado: Para este tipo de muestreo se divide la población en
grupos, llamados estratos, que son más homogéneos que la población como un todo.
Los elementos de la muestra son seleccionados al azar o por un método sistemático de
cada estrato. El número de elementos seleccionado de cada estrato puede ser
proporcional al tamaño del estrato en relación con la población.

2
n n NE  n
 E  nE 
NT N E NT

d. Muestreo Por Conglomerado: Para este tipo de muestreo se divide la población


en grupos que son convenientes para el muestreo. Se selecciona una porción de los
grupos al azar o por un método sistemático y se toma todos los elementos o parte de
ellos al azar o por un método sistemático de los grupos seleccionados para obtener una
muestra. Este tipo de muestreo produce un mayor error muestral que una muestra
aleatoria simple del mismo tamaño.

Distribuciones Muéstrales

La estadística inferencial involucra el uso de un estadístico para sacar una conclusión


o inferencia sobre el parámetro correspondiente.

El estadístico es una medida usada para describir alguna característica de una


muestra, tal como una media aritmética, una desviación típica o estándar de una
muestra.

El parámetro es una medida usada para describir alguna característica de una


población, tal como una media aritmética, una desviación típica o estándar de una
población.

El estadístico se utiliza como estimador del parámetro.

Los símbolos utilizados para representar los estadísticos y los parámetros son los
siguientes:
Medida Parámetro Estadístico
Media Aritmética  x
Varianza 2 s2
Desviación Típica o Estándar  s
Proporción  p
Nº de Elementos N n

Distribución muestral de un estimador


La distribución del estimador de todas las posibles muestras del mismo tamaño, que
pueden ser extraídas de una población, se le denomina Distribución muestral del
estimador, puesto que el estimador es una variable aleatoria, ya que su valor cambia de
muestra a muestra. Debe quedar claro que si tomamos una segunda muestra aleatoria

3
de una población, sería casi imposible esperar el mismo valor para el estimador. Si por
ejemplo el estimador es 𝑋̅y tomamos varias muestras, lo más probable es que ninguna
de las 𝑋̅ de cada una de las muestras sería igual a las otras. Esas diferencias se deben
precisamente a que se trata de un proceso aleatorio en la selección de las muestras.

Distribución en el muestreo
Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población
(N), dos o más muestras pueden ser extraídas de la misma población. Un cierto
estadístico puede ser calculado para cada una de las muestras posibles extraídas de la
población.

La distribución muestral es una lista de todos los valores posibles para un estadístico
y la probabilidad relacionada con cada valor.

Error Muestral o Error de Muestreo: Es la diferencia entre el parámetro poblacional y


el estadístico de la muestra utilizado para estimar el parámetro. Un error de muestreo
usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población,
sino que se toma una muestra para estimar las características de la población.

Media de las Medias Muéstrales: La distribución muestral de las medias muéstrales


es una lista de todas las medias muéstrales posibles. Estas medias muéstrales al igual
que cualquier lista de números, tienen una media denominada la media de las medias
muéstrales o la gran media. Esta media de las medias se obtiene aplicando la
siguiente formula:
x
X
K
De una población que contiene “N” elementos, podemos extraer o seleccionar “K”
muestras diferentes de igual tamaño “n”. El número de muestras posibles de tamaño “n”
se obtiene a través de la fórmula de combinación:

N!
K  N Cn 
n!( N  n)!

Dónde:
N: tamaño de la población.n: tamaño de la muestra.
K: número posible de muestras de tamaño n, que pueden ser obtenidas de una
población de tamaño N.

4
La media de la distribución muestral X es igual a la media de la población original 

X   
Se recuerda:

 : Media aritmética de la población. 𝜇 =


∑𝑥
𝑁

∑(𝑥−𝜇)2
 : Desviación estándar de la población.𝜎 = √ 𝑁

Varianza y Error Estándar de las medias muéstrales:


La varianza en las medias muéstrales mide la dispersión de las observaciones
individuales (medias muéstrales) alrededor de su media (la gran media X ) y el error
estándar de la distribución muestral es una medida de la dispersión de las medias
muéstrales alrededor de  . Por tanto, el error estándar  x , mide la tendencia a sufrir
del error de muestreo en el esfuerzo por estimar  . Este se obtiene de la raíz
cuadrada de la varianza de la distribución de las medias muéstrales. Estas se
determinan de la siguiente manera:

 f (x  )
2 2
 f (x  X )
2   2 
x K x K
2
 f (x  X )
. x   x  2
K x

2 Varianza de las medias muéstrales


x
x: Desviación estándar de las medias muéstrales, que se le da el nombre de error
estándar.

Teorema del Límite Central


Si la población o proceso del cual se toma una muestra tiene una distribución normal,
también la distribución de muestreo de la media tendrá distribución normal, sin importar
el tamaño de la muestra. El teorema de límite central establece que cuando el tamaño
de la muestra se incrementa la distribución de muestreo de la media así como de otros
estadísticos muéstrales se aproxima en cuanto a su forma a la distribución normal,

5
independientemente de la forma de la distribución de la población de la que fue tomada
la muestra.

Uso de la distribución muestral


Es importante ya que se pueden tomar decisiones con base en los resultados
muéstrales.
Una aplicación de la distribución muestral es la de determinar la probabilidad de que
una media muestral clasifique dentro de un rango dado. La distribución muestral está
distribuido normalmente si la muestra se toma de una población normal (n  30) y el
teorema del límite central garantiza la normalidad en el proceso de muestreo, mientras
que la desviación normal puede utilizarse para el proceso de toma de decisiones.
Ahora bien, si a cada una de las K muestras posibles, le calculamos un estimador como
la media o la proporción, obtenemos una variable aleatoria cuya distribución
denominamos DISTRIBUCIÓN MUESTRAL DEL ESTIMADOR.
Si un estimador, es por ejemplo la media aritmética, entonces podemos hablar de
DISTRIBUCIÓN EN EL MUESTREO DE LA MEDIA, pero si el estimador es la
proporción, hablaremos de DISTRIBUCIÓN EN EL MUESTREO DE LA PROPORCIÓN,
etc.

Distribución en el muestreo de la Media


Si a cada una de las K muestras de igual tamaño “n”, que podemos seleccionar de una
población “N”, le calculamos su respectivos estimadores (medias aritméticas), se puede
observar que la mayoría de estas medias muéstrales ( x ) difieren entre sí. La
distribución de probabilidad de estas medias muéstrales se denomina distribución
muestral de la media, la cual tiene una media 
y una desviación estándar o error
estándar  , entonces:
x
1. La distribución muestral de la media ( x ) tiene media  , es decir:

E x  X 

2. La distribución muestral de la media tiene desviación estándar o error estándar:



x 
n

Si el tamaño muestral n no es una fracción pequeña del tamaño poblacional N,


entonces, al error estándar se le aplicará un factor de corrección, es decir, cuando se

6
 N n
conoce la población, al error estándar se le aplica factor de corrección  

 N  1 
siempre y cuando se cumpla la siguiente condición, si n  0.05  N se requiere del
factor de corrección, por lo tanto, el error estándar a utilizar sería:
 N n
x  
n N 1

Distribución muestral de X en una población normal con media y desviación


estándar conocida:
x
:Z 

n

Si la población está normalmente distribuida y se conoce µ pero se desconoce σ,


entonces el valor de “σ”, puede reemplazarse por la desviación estándar de la muestra
“S”, siempre y cuando el tamaño de la muestra sea grande(n ≥ 30). En estas
x
condiciones el valor de “Z” sería: Z 
S
n

Distribución de las Proporciones Muéstrales


La distribución en el muestreo de la proporción, consiste en la distribución de las
proporciones de todas las posibles muestras que pueden ser seleccionadas de una
población.Cada muestra tendrá su propia proporción de éxitos (p).Sin embargo, al igual
que con las medias, el valor esperado de la distribución muestral de las proporciones
será igual a la proporción de éxitos en la población.

E ( p)  

Dónde: p es la proporción de éxito de la muestra


 es la proporción de éxito de la población
p
El valor esperado (medias) de la distribución muestral es: E ( p) 
k
 (1   )
El error estándar es: p 
n

7
Cuando se conoce la población, al error estándar se le aplica factor de corrección
 N n 
  siempre y cuando se cumpla la siguiente condición, si n  0.05  N se
 N  1 
requiere del factor de corrección, por lo tanto el error estándar se determina de la
siguiente manera:
 (1   ) N n
p  
n N 1

El teorema del límite central también se cumple en la distribución en el muestreo de la


proporción, es decir, que si una población no es normal o no sabemos nada de ella, las
proporciones muéstrales se distribuirán aproximadamente como una distribución
normal, si el tamaño de la muestra n ≥ 30.
p 
Z
 1   
n

ESTIMACIONES

Debido al coste, al tiempo y a la viabilidad, se suelen estimar los parámetros de la


población a partir de los estadísticos de una muestra.

Un estimador de un parámetro poblacional es una variable aleatoria que depende de la


información de la muestra y cuyas realizaciones proporcionan aproximaciones al valor
desconocido del parámetro.

Estimación Puntual
Un estimador puntual de un parámetro poblacional es una función de la muestra que da
como resultado un único valor. Por ejemplo, la media muestral (X ) es un estimador
puntual de la media poblacional (  )

Formulas:
 Xi
Media muestral: X 
n

8
2 2 2
(Xi  X )
2  Xi  nX
Varianza muestral: S  
n 1 n 1

Desviación estándar o típica muestral: S  S2

Proporción muestral:
X X : nº de éxito en la muestra
p donde :
n n : nº de elementos en la muestra

Propiedades de un estimador
Un buen estimador debe tener las siguientes propiedades:
a) Insesgado.Un estimador es “insesgado”, cuando el valor promedio de las
estimaciones para todas las posibles muestras de igual tamaño, es igual al verdadero
parámetro poblacional. Por ejemplo, la media muestral, la varianza muestral y la
proporción muestral son estimadores insesgado de sus correspondientes parámetros
poblacionales:

b) Consistente. Se dice que un estimador es “consistente”, cuando la magnitud de


los errores de estimación, se pueden reducir a medida que se aumenta el tamaño de la
muestra, hasta eliminarlos completamente cuando el tamaño de la muestra iguala al
tamaño de la población.
Cuando se hace una estimación, necesariamente se genera un ERROR que aspiramos
sea mínimo. En cualquier investigación, es necesario especificar con anticipación el
nivel máximo de error que estamos dispuestos a aceptar en la estimación. El tamaño de
la muestra, depende en buena parte del error que estemos dispuestos a tolerar en la
estimación. Si estamos dispuestos a aceptar un mínimo error en la estimación,
entonces el tamaño de la muestra deberá ser muy grande. Entre mayor sea el error que
estamos dispuestos a tolerar, más pequeña será la muestra necesaria para la
respectiva estimación ahorrando con esto tiempo y dinero, además los errores no
muéstrales serán menores.

c) Eficiente. La raíz cuadrada positiva de la varianza del estimador, se denomina


“ERROR ESTÁNDAR”, el cual es una medida de la variabilidad del estimador. Cuando
el error estándar es menor para un estimador que para otro, se dice que el primero es
más eficiente que el segundo. Por ejemplo, si se trata de estimar un promedio, la media
aritmética es un estimador más eficiente que la mediana.

9
Estimación con Intervalos de Confianza
Una forma de estimar un parámetro poblacional consiste en estimar con algún grado de
confianza, un intervalo que incluya un límite inferior y un límite superior dentro de los
cuales esperamos que se encuentre el verdadero valor del parámetro. Con esto,
estamos admitiendo que existe una probabilidad “  ” de que esto no ocurra y por
consiguiente una probabilidad “1 –  ” de que ello si ocurra. Es decir, “  ” es la
probabilidad de fallar en la estimación y “1 –  ” es la confiabilidad que merece la
estimación.

Un intervalo de confianza (estimación por intervalo) denota un rango dentro del cual
puede encontrarse el parámetro, y el nivel de confianza que el intervalo contiene del
parámetro. Este tiene un límite inferior de confianza (LIC) y un límite superior de
confianza (LSC). Estos límites se determinan calculando primero al estadístico (la
media muestral (X ) o la proporción) luego se suma una cierta cantidad al estadístico
para obtener el límite superior de confianza (LSC), y la misma cantidad se resta del
estadístico para obtener el límite inferior de confianza (LIC).

El nivel de confianza es la probabilidad específica y se denota por (1   ) 100% ,


donde  es la proporción de las colas de la distribución que queda fuera del intervalo
de confianza. La proporción en la cola superior de la distribución es  y la proporción
2
en la cola inferior que queda fuera del intervalo de confianza también es 
2

Podemos calcular intervalos de confianza para estimar algunos parámetros


poblacionales tales como: la media, la proporción, la diferencia de medias, la diferencia
de proporciones y para la desviación estándar. Para tal efecto, nos basaremos en los
conceptos estudiados sobre distribuciones muéstrales vistas anteriormente:

Intervalos de confianza para la media de una población con varianza ( 2 ) o


desviación estándar poblacional ( ) conocida y desconocida
Si una población es normal, las medias muéstrales ( X ) de todas las muestras de
tamaño “n”, que pueden tomarse de una población “N”, se distribuyen normalmente, sin
importar el tamaño de la muestra. Por otra parte, si una población no está normalmente
distribuida o no se sabe nada de ella, según el teorema del límite central, las medias
muéstrales se distribuirán aproximadamente de acuerdo a una distribución normal,
siempre y cuando el tamaño de la muestra sea mayor que 30 (n>30).

10
Consideremos una muestra aleatoria de n observaciones extraídas de una población
que sigue una distribución normal de media  y varianza  2 . Si la media muestral es
X , entonces el intervalo de confianza al (1   ) 100% de la media poblacional, cuando
la varianza es conocida, viene dado por:

  
 : X  Z → X  Z    X  Z
2 n 2 n 2 n

Si el tamaño de la muestra es mayor que 30 (n >30) y el valor de  es desconocida,


entonces, la desviación estándar de la muestra “S”, puede reemplazar al valor de  .
Por lo tanto,
S S S
 : X  Z → X  Z    X  Z
2 n 2 n 2 n

Se puede observar que para estimar el parámetro poblacional, se está creando un


intervalo cuyo límite inferior corresponde al lado izquierdo de la fórmula, mientras que el
límite superior corresponde al lado derecho de la fórmula. Esto quiere decir, que para la
referida estimación, aceptamos un margen de error por defecto o por exceso máximo
𝜎
de𝑍𝛼⁄
2 √𝑛

Por lo tanto, entre mayor nivel confianza (1   ) queramos tener en la estimación,


mayor amplitud presentará el intervalo, por cuanto mayor será el valor de Z y como
consecuencia más débil será la estimación, a menos que aumentemos el tamaño de la
muestra “n”.

11
Distribución t de Student
Cuando debe tomarse una muestra pequeña, la distribución normal puede no aplicarse.
El teorema del límite central asegura normalidad en el proceso de muestreo solo si la
muestra es grande. Cuando se utiliza una muestra pequeña, puede ser necesaria una
distribución alternativa, la distribución t de Student. Esta se utiliza cuando se cumple
las tres (3) condiciones siguientes:

1. La muestra es pequeña (n < 30)


2. La desviación estándar poblacional ( ) es desconocida
3. La población proviene de una distribución normal o casi normal

Si la desviación poblacional ( ) es conocida la distribución normal se usa inclusive si la


muestra es pequeña.

Al igual que la distribución normal estándar, la distribución t tiene forma de campana,


presenta una media igual a cero, es simétrica con respecto a la media y oscila entre
  y   . Sin embargo, mientras que la distribución Z tiene una varianza igual a 1
( 2  1) , la varianza de la distribución t es mayor que 1, por tanto, la distribución es
platicurtica o más plana y más dispersa que la distribución Z.

Aunque sólo hay una distribución normal estándar, hay una distribución t distinta por
cada tamaño muestral n. Sin embargo, a medida que n se hace más grande, la
distribución t se aproxima a la distribución normal estándar hasta que, cuando n  30 ,
son aproximadamente iguales.

El estadístico t se calcula en gran parte como el estadístico Z.

X 
t Sigue una distribución t de Student con n – 1 grados de libertad
S
n

La distribución t de Student utiliza una tabla de probabilidad especial, cuyo uso sugiere
como compensación el cálculo previo de los grados de libertad (g.l), que se define como
el tamaño de la muestra “n”, al cual se le ha restado tantas unidades como parámetros
de la población halla que estimar a partir de la muestra.

12
Intervalo de confianza para la media de una población con varianza poblacional
( 2 ) desconocida y muestra pequeña (n < 30)

S S S
 : X  tn 1; → X  tn 1;    X  tn 1;
2 n 2 n 2 n

Determinación del tamaño de la muestra para estimar la media poblacional


Para resolver cualquier problema de estimación de intervalo de confianza o de prueba
de hipótesis, es necesario calcular previamente el tamaño de la muestra sobre la cual
se va a basar la inferencia. El tamaño de la muestra depende en buena parte del
propósito del estudio.
Para poder conocer el tamaño de la muestra adecuado, es necesario conocer la mitad
de la amplitud del intervalo de confianza es decir el error por defecto o por exceso que
estamos dispuestos a aceptar en la estimación. Este valor, previamente lo fijamos
nosotros mismos de acuerdo a nuestro criterio, es decir, si queremos una precisión muy
fina en la estimación, el intervalo de confianza será estrecho, pero si no es necesaria
mucha precisión, el intervalo de confianza será amplio. Igualmente según nuestro
criterio, para conocer el tamaño de la muestra debemos definir el nivel de confianza que
queremos en la estimación, es decir, (1   ) =0.90 ó 0.95 ó 0.99, etc. A mayor nivel de
confianza deseado, mayor será el tamaño de muestra requerida.
Partiendo de la base de que las medias muéstrales se distribuyen normalmente, la
fórmula para el tamaño de la muestra puede ser obtenida del valor que toma Z en la
distribución de las medias muéstrales así:

Z
X 
 Z
X    n
 
n

El error que estamos dispuestos a aceptar en la estimación, es la diferencia entre la


media de la muestra (estimador) y la verdadera media poblacional (parámetro), es decir
la mitad de la amplitud del intervalo, lo cual es: 𝑒 = 𝑋̅ − 𝜇

̅ − 𝜇y despejando a “n” en la expresión anterior


En consecuencia, reemplazando 𝑋
tenemos:
2
 Z 
n 
 e 

13
Intervalo de confianza para la proporción de una población
Sea p la proporción observada de éxito en una muestra aleatoria de n observaciones
procedentes de una población con una proporción  de éxitos. Entonces, si n es
grande, un intervalo de confianza del (1   ) 100% para la proporción poblacional viene
dado por:
p1  p  p1  p  p1  p 
 : p  Z → p  Z    p  Z
2 n 2 n 2 n

Determinación del tamaño de la muestra requerido para la estimación de la


proporción
Antes de recolectar la muestra, el tamaño de muestra mínimo requerido puede
determinarse especificando el nivel de confianza y el error de muestreo o error de
estimación aceptable y haciendo una estimación inicial de  la proporción poblacional
desconocida.
p   (1   )
Z donde p 
p n

Para Poblaciones Infinitas: Para Poblaciones Finitas:


𝜋(1 − 𝜋)
Z2    (1   ) 𝑛= 𝑒2 𝜋(1−𝜋)
n 2
𝑍𝛼2⁄
+
𝑁
e2 2

Si no es posible determinar un estimado inicial de la proporción poblacional (  ), se le


deberá estimar en 50% (0,5). Esta estimación representa el valor para el que se
requeriría del tamaño de muestra mayor.
Distribución Ji cuadrada e intervalos de confianza para la varianza y desviación
estándar
Dada una población de valores con distribución normal, puede demostrarse que la
distribución ji cuadrada (  2 ) son las distribuciones de probabilidad adecuada para la
razón:
(n  1) S 2
2

14
Hay una distribución ji cuadrada diferente según el valor de n – 1, lo cual representa los
grados de libertad.
Dado que la varianza muestral es un estimador in sesgado de la varianza poblacional,
el valor esperado a largo plazo de la razón anterior es igual a los grados de libertad (n –
1). Sin embargo, en cualquier muestra dada por lo general la varianza muestral no es
idéntica en valor a la varianza poblacional.
Las distribuciones ji cuadrada no son simétricas, en consecuencia, un intervalo de
confianza de dos extremos para una varianza o desviación estándar implica el uso de
dos valores diferentes de ji cuadrado.

Intervalo de confianza para la varianza poblacional

(n  1) S 2 (n  1) S 2 (n  1) S 2 (n  1) S 2
 
2
  
2
 g2.l superior  g2.l inferior 2  2 
n 1; n 1; 1
2 2

Intervalo de confianza para la desviación poblacional

(n  1) S 2 (n  1) S 2 (n  1) S 2 (n  1) S 2
    
 g2.l superior  g2.l inferior 2  2 
n 1; n 1; 1
2 2

Intervalos de confianza para la diferencia de medias de dos poblaciones normales


Con desviación estándar poblacional (  )conocida:

( X 1  X 2 )  Z  X  X  1  2  ( X 1  X 2 )  Z  X  X
2 1 2 2 1 2
Dónde:

 X 1 X 2   2   2 X 
X1 X2 n

15
Con desviación estándar poblacional (  )desconocida:

( X 1  X 2 )  Z S X  X  1  2  ( X 1  X 2 )  Z S X  X
2 1 2 2 1 2
Dónde:
S
SX X  S2  S2 SX 
1 2 X1 X2 n

Intervalos de Confianza para la diferencia entre dos medias para muestras


pequeñas (Distribución t de Student)
Se debe cumplir las siguientes cuatro condiciones:
1. La muestra es pequeña (n < 30)
2. La desviación estándar poblacional ( ) es desconocidas
3. La población proviene de una distribución normal o casi normal
4. Las dos varianzas poblacionales (desconocidas) son iguales (  12   22 )

Por tanto, el error estándar de la diferencia entre medias cuando procede el uso de la
distribución t es combinar las dos varianzas muéstrales:

2 (n1  1) S12  (n2  1) S22


SX 
n1  n2  2

El error estándar de la diferencia entre muestras basadas en el uso de la varianza


combinada estimada es:

2  1 1 
2 2
SX SX
SX X 
1 2
  SX X  SX
1 2  n n  con g.l  n1  n2  2

n1 n2  1 2
El intervalo de confianza es:

( X 1  X 2 )  t g.l ; S X  X  1  2  ( X 1  X 2 )  t g.l ; S X  X
2 1 2 2 1 2

Intervalos de confianza para la diferencia entre dos proporciones:

( p1  p2 )  Z S p1  p2  1   2  ( p1  p2 )  Z S p1  p2
2 2
Dónde:

16
S p1  p2  S 2p  S 2p
1 2
p (1  p1) 2 p2 (1  p2 )
S 2p  1 yS
p2

1 n1 n2

17
UNIDAD II: PRUEBAS DE HIPÓTESIS

En la inferencia estadística es muy común, en tener que tomar decisiones sobre la


población, partiendo de las características de las muestras extraídas de la misma. A
estas decisiones se le denominan decisiones estadísticas.

HIPÓTESIS ESTADÍSTICAS
Para tomar decisiones, es conveniente hacer ciertos supuestos acercas de las
poblaciones objeto de investigación. Estos supuestos que pueden ser ciertos o falsos,
en base a distribuciones de probabilidad de las poblaciones se le llaman hipótesis
estadística.
Una Hipótesis Estadística es un enunciado provisional referente a uno o más
parámetros de una población o grupo de poblaciones.

PRUEBAS DE HIPÓTESIS
Tiene como propósito determinar si el valor supuesto de un parámetro poblacional,
como la media de la población (µ), debe aceptarse como verosímil (como verdadera)
con base en evidencias muéstrales.

ERROR DE TIPO I Y ERROR DE TIPO II


ERROR DE TIPO I O RIESGO DE PRIMERA ESPECIE (α): es considerado como aquel que
se comete al rechazar la hipótesis nula a nivel de la muestra, siendo verdadera a nivel
de la población. La probabilidad de cometer este tipo de error se llama nivel de
significación de la prueba y se denota con la letra griega alfa (α).

ERROR DE TIPO II (β): ocurre cuando a nivel de la muestra se acepta la hipótesis


nula siendo esta falsa a nivel de la población. Este tipo de error se comete cuando la
hipótesis nula no se rechaza y la hipótesis de investigación es verdadera. La
probabilidad de cometer un error tipo II se denota con la letra griega (β)

POTENCIA DE UNA PRUEBA (1 – β): se denomina así a la probabilidad de aceptar la


hipótesis nula cuando en realidad es falsa.

HIPÓTESIS NULA (H0): es el valor paramétrico hipotético que se compara con el


resultado muestral. Se le rechaza sólo si es poco probable que el resultado muestral
haya ocurrido dado lo correcto de la hipótesis.

HIPÓTESIS ALTERNA (H1 ó Ha): se acepta sólo si la hipótesis nula es rechazada.

ZONAS DE RECHAZO, CONTRASTE BILATERAL Y UNILATERAL


La ZONA DE RECHAZO consiste en un conjunto de valores, tales que, cuando la
hipótesis nula es cierta, su probabilidad es muy pequeña. Esto también suele llamarse
coeficiente de riesgo o nivel de significación.
18
La hipótesis alternativa es la que define la ubicación de la zona de rechazo, es
decir, si la hipótesis alternativa señala la dirección de la diferencia, entonces se tiene
una prueba unilateral y habrá una zona de rechazo que estará situada a la derecha o a
la izquierda de la curva correspondiente a la distribución, según sea la dirección
ubicada por la hipótesis alternativa. Si la hipótesis alternativa no señala la dirección de
la diferencia, entonces se habla de una prueba, ensayo o contraste bilateral.

CONTRASTE BILATERAL: En este caso la hipótesis alternativa indica que existe


diferencia entre las medidas comparadas. Si la comparación es entre dos medias, las
dos hipótesis y el gráfico serían:

H 0 :   0
H1 :    0
- Z0 Z0

CONTRASTE UNILATERAL: En este caso la hipótesis alternativa indica la dirección en que se


presenta la diferencia, si esta es hacia la derecha o hacia la izquierda.

H 0 :   0 ó H 0 :   0
H1 :    0
Z0

H 0 :   0 ó H 0 :   0
H1 :    0
- Z0
Z0 = Representa el valor crítico, es decir, el límite de separación de las dos zonas
de contraste (Zona de Rechazo y Zona de Aceptación).

PASOS BÁSICOS DE LA PRUEBA DE HIPÓTESIS:


Paso 1:Formule la hipótesis nula (H0) y la hipótesis alternativa (H1 ó Ha)
Paso 2:Especifique el nivel de significancia por aplicar.
El nivel de significancia es el estándar estadístico que se especifica para rechazar
la hipótesis nula.
Paso 3:Seleccione la estadística de prueba.y determine el valor del estadístico de
prueba.
Paso 4:Establezca el valor o valores crítico de la estadística de prueba.

19
Estos valores pueden ser uno o dos, dependiendo de si están implicadas las así
llamadas pruebas unilaterales o bilaterales. Un valor crítico identifica el valor de la
estadística de prueba requerido para rechazar o aceptar la hipótesis nula (H0)
Paso 5:Decisión.
El valor observado de la estadística muestral se compara con el valor (o valores)
crítico (s) de la estadística de prueba. Se rechaza o no entonces la hipótesis nula. Si la
hipótesis nula es rechazada se acepta la hipótesis alterna.

PRUEBA DE HIPÓTESIS SOBRE LA MEDIA (µ) DE UNA POBLACIÓN


PRUEBA DE HIPÓTESIS PARA LA MEDIA CON σ CONOCIDA Y σ DESCONOCIDA

Estadístico de Prueba

Hipótesis Nula CON σ CONOCIDA CON σ DESCONOCIDA

H o :   o X  0 X  0
Zc  Zc 
 S
n n
Hipótesis
Criterio de Rechazo
Alterna

H1 :    o Z c  Z
H1 :    o Z c   Z
H1 :    o Z c   Z
2

PRUEBA DE HIPÓTESIS PARA LA MEDIA CON n < 30 (MUESTRAS PEQUEÑAS) Y σ


DESCONOCIDA

Estadístico de Prueba
Hipótesis Nula
X  0
H o :   o tc   Tn1
S
n
Hipótesis Alterna Criterio de Rechazo

H1 :    o t c  t
H1 :    o t c  t
H1 :    o t c  t
2

20
PRUEBA DE HIPÓTESIS SOBRE LA PROPORCIÓN (Π) DE UNA POBLACIÓN
La prueba es apropiada cuando n  5 y n(1   )  5 , donde n es el tamaño de
la muestra y π es la proporción poblacional.

Estadístico de Prueba
Hipótesis Nula
p 0
Ho :   o Zc 
 0 (1   0 )
n
Hipótesis
Criterio de Rechazo
Alterna

H1 :    o Z c  Z
H1 :    o Z c   Z
H1 :    o Z c   Z
2

 
PRUEBA DE HIPÓTESIS SOBRE LA VARIANZA  2 DE UNA POBLACIÓN

Hipótesis Nula Estadístico de Prueba


Ho : 2
  o2
 c2 
n  1S 2
 o2
Hipótesis Alterna Criterio de Rechazo

H1 :  2   o2  c2   n21,

H1 :  2   o2  c2   n21,1

 c2   n21,
2
H 0 :  2   o2
 c2   n21,1
2

21
PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS
POBLACIONALES CONσ CONOCIDA Yσ DESCONOCIDA

Estadístico de Prueba
Hipótesis Nula
CON σ CONOCIDA CON σ DESCONOCIDA
H 0 : 1   2
X1  X 2 X1  X 2
H 0 : 1   2 ZC  ZC 
H 0 : 1   2
 12  22 S12 S 22
 
n1 n2 n1 n2
Hipótesis Alterna Criterio de Rechazo

H 1 : 1   2 Z c  Z
H 1 : 1   2 Z c   Z
H 1 : 1   2 Z c  Z
2

PRUEBAS DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS MEDIAS


POBLACIONALES CON MUESTRAS PEQUEÑAS Y VARIANZAS DESCONOCIDAS
IGUALES:
(n1  1) S12  (n2  1) S 22
S2 
n1  n2  2

Hipótesis Nula Estadístico de Prueba


H 0 : 1   2 X1  X 2
tC 
H 0 : 1   2 1 1 
S 2   
H 0 : 1   2  n1 n2 
Hipótesis Alterna Criterio de Rechazo
t c  t ,n1 n2 2
H 1 : 1   2
H 1 : 1   2 t c  t ,n1n2 2
H 1 : 1   2 t c  t ,n  n  2
2 1 2

PRUEBA DE HIPÓTESIS PARA LAS DIFERENCIAS ENTRE DOS


PROPORCIONES POBLACIONALES
n1 p1  n2 p2

n1  n2

22
Hipótesis Nula Estadístico de Prueba
H 0 : 1   2 p1  p 2
ZC 
H 0 : 1   2  (1   )  (1   )

H 0 : 1   2 n1 n2
Hipótesis Alterna Criterio de Rechazo

H1 :  1   2 Z c  Z
H1 :  1   2 Z c   Z
H1 :  1   2 Z c  Z
2

DISTRIBUCION F
Se define como la distribución que sigue el cociente de dos variables aleatorias
independientes con distribución Ji cuadrada (  2 ), cada una dividida por sus grados de
libertad.
Suponga que se toman muestras aleatorias independientes de n x y n y
observaciones de dos poblaciones normales con varianzas  x2 y  y2 , y varianzas
muéstrales S x2 y S 2y , entonces, la variable aleatoria:
S x2
 x2
F  F( nx 1),( n y 1)
S y2
 y2
 F(nx 1),(n y 1) : tiene distribución F con ( n x  1 ) grados de libertad en el
numerador y ( n y  1) grados de libertad en el denominador. Si se asume que las
varianzas poblacionales  x2 =  2y , entonces:
S x2
F  F( nx 1),( n y 1)
S y2
La distribución F tiene una función de densidad asimétrica, definida solo para
valores no negativos.

CONTRASTES DE IGUALDAD DE VARIANZAS DE DOS POBLACIONES NORMALES


Sean S x2 y S 2y las varianzas muéstrales observadas en dos muestras aleatorias
independientes de n x y n y observaciones de poblaciones normales con varianzas  x2 y
 2y . Si S x2 es mayor que S 2y , entonces:

23
Hipótesis Nula Estadístico de Prueba
H 0 :  x2   y2 S x2
Fc 
H 0 :  x2   y2 S y2

Hipótesis Alterna Criterio de Rechazo


H1 :  x2   y2 Fc  F( nx 1),( n y 1),

H1 :  x2   y2 Fc  F 
( nx 1),( n y 1),
2

Donde S x2 es la mayor de las dos varianzas muéstrales

ANALISIS DE VARIANZA (ANOVA)


Muchas decisiones en los negocios requieren de la comparación de más de dos
poblaciones. Es aquí donde el análisis de varianza (ANOVA) es de gran utilidad.
El análisis de varianza está diseñado específicamente para probar si dos o más
poblaciones tienen la misma media. Aun cuando el propósito de ANOVA es hacer
pruebas para hallar las diferencias en las medias poblacionales, implica un examen de
las varianzas muéstrales; de allí el término análisis de varianza.
En el estudio del ANOVA, las unidades experimentales son los objetos que
reciben el tratamiento. El factor es la fuerza o variable cuyo impacto en tales unidades
experimentales se desea medir.
La forma como se seleccionan los tratamientos determina si se está utilizando un
modelo de efectos fijos o un modelo de efectos aleatorios.

Modelo de Efectos Fijos: son aquellos en el cual se seleccionan tratamientos


específicos o se fijan antes del estudio.

Modelo de Efectos Aleatorios: son aquellos en el cual los niveles (tratamientos)


utilizados en el estudio se seleccionan aleatoriamente de una población de niveles
posibles. Para este tema nos concentraremos en los modelos de efectos fijos.

Para la aplicación de ANOVA son esenciales tres suposiciones:


1.- Todas las poblaciones involucradas son normales.
2.- Todas las poblaciones tienen la misma varianza.
3.- Las muestras se seleccionan independientemente.

24
ANÁLISIS DE VARIANZA (ANOVA) A UNA VÍA: DISEÑO COMPLETAMENTE
ALEATORIZADO.
El término proviene del hecho que varios sujetos o unidades experimentales se
asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios
empleados (unidades experimentales) pueden seleccionarse aleatoriamente para
participar en diversos tipos (niveles diferentes) de un programa de capacitación (factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en
cada uno de los tratamientos. Si de un tratamiento al otro la variación es
significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes
en las poblaciones.
Variación total: existe variación entre el número total de las observaciones.
Variación entre muestras: existe variación entre los diferentes tratamientos
(muestras).
Variación dentro de la muestra: existe variación dentro de un tratamiento dado
(muestra).
Al comparar estas fuentes diferentes de variación es que se puede utilizar el
análisis de varianza para probar la igualdad de las medias de poblaciones diversas.

FUNDAMENTOS DEL ANOVA:


Efecto del tratamiento:
Como las muestras diferentes tienen tratamientos distintos, la variación entre las
muestras puede ser producida por los efectos de tratamientos diferentes.
Si un efecto del tratamiento existe, puede detectarse comparando la variación
entre las muestras y la variación dentro de las muestras. Si la variación entre las
muestras es significativamente mayor que la variación dentro de las muestras, un fuerte
efecto de tratamiento está presente. Esta diferencia entre la variación entre muestras y
la variación dentro de las muestras es lo que mide el análisis de varianza.
El análisis de varianza es una relación de la variación entre muestras con la
variación dentro de las muestras.
Si los tratamientos diferentes tienen efectos diferentes, la variación entre muestra
crecerá, haciendo que la razón aumente. Esta razón se basa en la razón F.

La razón F es una razón de la variación entre muestras y la variación dentro de las


muestras.
Cuando las medias poblacionales son diferentes, el efecto del tratamiento está
presente y las desviaciones entre las muestras serán grandes comparadas con la
desviación del error dentro de una muestra. Por tanto, el valor F aumentará, lo cual es
una razón de la variación del tratamiento y de la variación del error.

25
Pasos para el Análisis de varianza:
1.- El análisis de varianza se utiliza para contrastar la hipótesis nula de que las
medias de dos o más poblaciones son iguales, frente a la hipótesis de que, al menos,
una de las medias es distinta.
H 0 : 1   2  3  ....  c
H1 : No todas las medias son iguales
2.- Se estima la varianza de la población a partir de la varianza entre las medias
muéstrales (MSA)
3.- Se estima la varianza de la población de cada muestra (MSE)
4.- Se calcula el estadístico F:
var ianza entre medias muestrales MSA
Fc  
var ianza de las medias MSE

Tabla para el Análisis de Varianza (ANOVA):


Fuente de la Suma de Grados de Cuadrado Estadístico
Variación Cuadrados Libertad Medio F
Entre las muestras
MSA
(explicado por el SSA c–1 MSA
Factor A)
MSE
Dentro de las
muestras (error o SSE (r – 1)c MSE
sin explicar)
Total SST rc – 1

5.- Si el estadístico F calculado es mayor que el valor tabular de F para el nivel de


significatividad y los grados de libertad especificados, la hipótesis nula, H 0, de que las
medias de las poblaciones son iguales, debe ser rechazada a favor de la hipótesis
alternativa H1.

Suma de cuadrados de los tratamientos (explicados por el factor A):


SSA  r  X j  X 
2

Suma del cuadrado del error (no explicado por el factor A):

SSE    X ij  X j 2
Suma de cuadrados total: 
SST    X ij  X  2
 SSA  SSE

26
SSA
Cuadrado Medio del Tratamiento: MSA 
c 1
SSE
Cuadrado Medio del Error: MSE 
r  1c
 X ij
Media de la muestra j compuesta por r observaciones: Xj
r
  Xij
Media de todas las muestras (La gran media): X 
rc
MSA
Estadístico de Prueba: F
MSE
Grados de libertad numerador = c – 1
Grados de libertad denominador = (r – 1)c
Dónde: c: es el número de tratamientos
r: es el número de observaciones en cada tratamiento

UNIDAD III: ANALISIS DE REGRESION LINEAL Y CORRELACION

ANALISIS DE REGRESIÓN:
Se utiliza para predecir el valor de la variable dependiente (Y) basada en la
variable independiente (X).

VARIABLE DEPENDIENTE (Y): Es la variable que se desea explicar o predecir,


también se le denomina variable de respuesta.

VARIABLE INDEPENDIENTE (X): Es la variable que proporciona la base para la


estimación, también se le denomina variable explicativa.

REGRESIÓN SIMPLE Y REGRESIÓN MÚLTIPLE:


REGRESIÓN SIMPLE: Se establece que Y es una función de sólo una variable
independiente. Con frecuencia se le denomina regresión bivariada porque sólo hay dos
variables, una dependiente y una independiente, la regresión simple se representa con
la siguiente fórmula:

𝑌 𝑒𝑠 𝑢𝑛𝑎 𝑓𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑋 → 𝑌 = 𝑓(𝑋)

En un modelo de REGRESIÓN MÚLTIPLE, Y es una función de dos o más variables


independientes. Un modelo de regresión con k variables independientes, se expresa de
la siguiente manera:

27
𝑌 = 𝑓(𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑘 )

En donde 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑘 son variables independientes que permiten explicar Y.


RELACIONES LINEALES Y CURVILÍNEAS:
Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia
en una cantidad constante. Si existe una relación curvilínea, Y cambia en una cantidad
diferente a medida que X cambia.

ECUACIÓN DE REGRESIÓN LINEAL: Ecuación que expresa la relación lineal entre dos
variables.

FORMA GENERAL DE LA ECUACIÓN DE REGRESIÓN LINEAL: 𝑌 ′ = 𝑏0 + 𝑏1 𝑋

En donde:
𝑌 ′ 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑞𝑢𝑒 𝑠𝑒 𝑝𝑟𝑒𝑑𝑖𝑗𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑌 𝑝𝑎𝑟𝑎 𝑢𝑛 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑋 𝑠𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑑𝑜
𝑏0 𝑒𝑠 𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 ó 𝑙𝑎 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛 𝑌.
𝑏1 𝑒𝑠 𝑙𝑎 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎.

Con frecuencia se encuentra que al utilizar una variable para explicar otra, existe
alguna variación en la relación. Por tanto, habrá algún error en el intento por explicar o
predecir dicha variable. Se dice que un modelo de esta naturaleza es estocástico, por
la presencia de la variación aleatoria y puede expresarse como:
𝑀𝑜𝑑𝑒𝑙𝑜 𝐿𝑖𝑛𝑒𝑎𝑙: 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀

Dicho modelo es la relación poblacional según la cual se hace regresión de Y


sobre X. Además, 𝛽0 + 𝛽1 𝑋 es la porción determinística de la relación, mientras que 𝜀
representa el carácter aleatorio que muestra la variable dependiente y por tanto denota
el término del error en la expresión. Los parámetros 𝛽0 𝑦 𝛽1 permanecerán
desconocidos y se pueden estimar con los datos muéstrales.

MODELO LINEAL CON BASE EN DATOS MUÉSTRALES:


𝑌 = 𝑏0 + 𝑏1 𝑋 + 𝑒
En donde los valores de:
𝑏0 𝑦 𝑏1 son estimaciones de 𝛽0 𝑦 𝛽1
𝑒es el término aleatorio y se le denomina residual.

MODELO DE REGRESIÓN ESTIMADA:


𝑌̂ = 𝑏0 + 𝑏1 𝑋
En donde:
𝑌̂es el valor estimado de Y
𝑏0 es el intercepto
𝑏1 es la pendiente de la recta de regresión estimada.

28
MÍNIMOS CUADRADOS ORDINARIOS (MCO): La recta de mejor ajuste.

MÉTODO DE LOS MÍNIMOS CUADRADOS:


Este método calcula lo que comúnmente se conoce como la recta del “mejor
ajuste”. Determina la ecuación de la recta de regresión minimizando la suma de los
cuadrados de las distancias verticales entre los valores reales de Y y los valores
pronosticados para Y.

El término de error es la diferencia entre los valores reales de Y (𝑌𝑖 ), y el estimado


de Y (𝑌̂𝑖 )
𝐸𝑟𝑟𝑜𝑟 = (𝑌𝑖 − 𝑌̂𝑖 )
Para determinar la recta de mejor ajuste, MCO requiere que se determine la suma
de cuadrados y productos cruzados:

SUMA DE LOS CUADRADOS DE X:


(∑ 𝑋𝑖 )2
𝑆𝐶𝑥 = ∑(𝑋𝑖 − 𝑋̅)2 ∴ 𝑆𝐶𝑥 = ∑ 𝑋𝑖2 −
𝑛

SUMA DE LOS CUADRADOS DE Y:


(∑ 𝑌𝑖 )2
𝑆𝐶𝑦 = ∑(𝑌𝑖 − 𝑌̅)2 ∴ 𝑆𝐶𝑦 = ∑ 𝑌𝑖2 −
𝑛

SUMA DE LOS PRODUCTOS CRUZADOS DE X Y Y:


(∑ 𝑋𝑖 )(∑ 𝑌𝑖 )
𝑆𝐶𝑥𝑦 = ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) ∴ 𝑆𝐶𝑥𝑦 = ∑ 𝑋𝑖 𝑌𝑖 −
𝑛

LA PENDIENTE DE LA RECTA DE REGRESIÓN:


𝑆𝐶𝑥𝑦
𝑏1 =
𝑆𝐶𝑥

EL INTERCEPTO DE LA RECTA DE REGRESIÓN:


𝑏0 = 𝑌̅ − 𝑏1 𝑋̅

ERROR ESTÁNDAR DE ESTIMACIÓN (Se): Es una medida del grado de dispersión de


los valores de Yi alrededor de la recta de regresión.

El error estándar de estimación mide la variación de los puntos de datos por


encima y por debajo de la recta de regresión. Además, refleja la tendencia a desviarse
del valor real de Y cuando se utiliza el modelo de regresión para fines predictivos, es
una medida del error típico.

29
2
√∑(𝑌𝑖 − 𝑌̂𝑖 )
𝑆𝑒 =
𝑛−2

Uno de los supuestos básicos del modelo MCO es que la varianza en los errores
alrededor de la recta de regresión es la misma para todos los valores de X. Entre
menos sea el valor de la varianza poblacional (𝜎 2 ), menos será la dispersión de los
puntos de datos alrededor de la recta.

Una estimación insesgada de 𝜎 2 es el Cuadrado Medio del Error (CME)

SUMAS DE CUADRADOS DEL ERROR:


(𝑆𝐶𝑥𝑦)2
𝑆𝐶𝐸 = 𝑆𝐶𝑦 −
𝑆𝐶𝑥

CUADRADO MEDIO DEL ERROR:


𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛−2

ERROR ESTÁNDAR:
𝑆𝑒 = √𝐶𝑀𝐸

SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL:


1. Para cada valor de X, hay un grupo de valores de Y. Estos últimos siguen
la distribución normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de
regresión.
3. Todas las desviaciones estándar de estas distribuciones normales son
iguales. A este supuesto se le denomina Homoscedasticidad que significa
que las varianzas en los valores de Y son las mismas en todos los valores
de X.
4. Los valores Y son estadísticamente independientes. Esto significa, que al
seleccionar una muestra en particular X no depende de ningún otro valor de
X.

ANALISIS DE CORRELACIÓN:
Es el estudio de la relación entre variables. Se utiliza para medir la fuerza de
relación o grado de asociación entre dos variables.

COEFICIENTE DE CORRELACIÓN: Describe la fuerza de la relación entre dos grupos


de variables en escala de intervalo o de razón. En otras palabras, el coeficiente de
correlación es una medida de la intensidad de la relación entre dos variables. Se
representa con la letra r y a menudo se conoce como r de Pearson y coeficiente de

30
correlación producto-momento de Pearson. Puede asumir cualquier valor de -1 a +1
inclusive, es decir, −1 ≤ 𝑟 ≤ +1

 Valores de -1 ó +1 indican correlación fuerte y perfecta.


 Valores cerca de -1 ó +1 indican fuerte relación negativa o positiva.
 Valores cerca o igual a cero “0” indican poca o ninguna relación entre las
variables.

DIAGRAMA DE DISPERSIÓN: Es la gráfica que describe la relación entre las dos


variables de interés.

SUMA DE CUADRADOS TOTAL:𝑆𝐶𝑇 = ∑(𝑌𝑖 − 𝑌̅)2


2
SUMA DE CUADRADOS DE LA REGRESIÓN:𝑆𝐶𝑅 = ∑(𝑌̂𝑖 − 𝑌̅)
2
SUMA DEL CUADRADO DEL ERROR:𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 )

𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑆𝐶𝑅


COEFICIENTE DE CORRELACIÓN:𝑟 =√ =√
𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑇𝑜𝑡𝑎𝑙 𝑆𝐶𝑇

La desviación explicada es la diferencia entre lo que predice el modelo de


regresión 𝑌̂𝑖 y el valor promedio de Y, (𝑌̂𝑖 − 𝑌̅).

El coeficiente de correlación proporciona una medida relativa de la capacidad del


modelo para explicar las desviaciones en los valores 𝑌𝑖 . Por ende mide la fuerza de la
relación entre Y y la variable explicativa X.

𝑆𝐶𝑥𝑦
FÓRMULA PARA CALCULAR EL COEFICIENTE DE CORRELACIÓN:𝑟 =
√(𝑆𝐶𝑥)(𝑆𝐶𝑦)
COEFICIENTE DE DETERMINACIÓN: Es el porcentaje de la variación total en la variable
dependiente Y que se explica, o contabiliza, por la variación en la variable
independiente X.
2 (𝑆𝐶𝑥𝑦)2
Formula: 𝑟 = (𝑆𝐶𝑥)(𝑆𝐶𝑦)

PRUEBAS PARA LOS PARÁMETROS POBLACIONALES

PRUEBA DE HIPÓTESIS PARA 𝛽1 (COEFICIENTE DE REGRESIÓN POBLACIONAL)

31
HIPÓTESIS:𝐻0 : 𝛽1 =0 𝑣𝑠 𝐻1 : 𝛽1 ≠ 0
𝑏
ESTADÍSTICO DE PRUEBA:𝑡𝑐 = 𝑆1
𝑏1
Dónde:
𝑆𝑏1 Es el error estándar del coeficiente de regresión y se determina de la siguiente
manera:
𝑆𝑒
𝑆𝑏1 =
√𝑆𝐶𝑥

CRITERIO DE RECHAZO: Se rechaza Ho si |𝑡𝑐 | ≥ |𝑡𝛼⁄ ;𝑔𝑙 | donde 𝑔𝑙 = 𝑛 − 2


2

INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE REGRESIÓN POBLACIONAL (𝛽1)

𝛽1 : 𝑏1 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑏1 ) → 𝑏1 − 𝑡(𝑆𝑏1 ) < 𝛽1 < 𝑏1 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑏1 )

PRUEBAS PARA EL COEFICIENTE DE CORRELACIÓN POBLACIONAL(𝜌)

HIPÓTESIS:𝐻0 : 𝜌 =0 𝑣𝑠 𝐻1 : 𝜌 ≠ 0
𝑟
ESTADÍSTICO DE PRUEBA:𝑡𝑐 =𝑆
𝑟

Dónde:
𝑆𝑟 Es el error estándar del coeficiente de correlación y se determina de la siguiente
manera:

1 − 𝑟2
𝑆𝑟 = √
𝑛−2

CRITERIO DE RECHAZO: Se rechaza Ho si |𝑡𝑐 | ≥ |𝑡𝛼⁄ ;𝑔𝑙 | donde 𝑔𝑙 = 𝑛 − 2


2

INTERVALO DE CONFIANZA PARA LA MEDIA CONDICIONADA:

Para calcular este intervalo para el valor promedio condicional de Y, se debe hallar
primero el Error Estándar de la Media Condicionada (𝑆𝑦 ). El error estándar de la media
condicionada reconoce que se utiliza una muestra para calcular 𝑏0 𝑦 𝑏1 en la ecuación
de regresión. Por tanto, 𝑏0 𝑦 𝑏1 están sujetos al error de muestreo. El propósito de 𝑆𝑦

32
es tener en cuenta los diferentes valores de 𝑏0 𝑦 𝑏1 que resultan del error de muestreo.
Se determina de la siguiente manera:

1 (𝑋𝑖 −𝑋̅)2
Error Estándar de la Media Condicionada:𝑆𝑦 = 𝑆𝑒 √ +
𝑛 𝑆𝐶𝑥

En donde:
𝑆𝑒 = es el error estándar de estimación
𝑋𝑖 = es el valor dado para la variable independiente

El intervalo de Confianza para la Media Condicionada viene dado por:

𝜇𝑦/𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) → 𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 ) < 𝜇𝑦 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦 )
𝑥

INTERVALO DE CONFIANZA PARA EL INTERVALO DE PREDICCIÓN:

Para calcular este intervalo de predicción, primero se debe hallar el Error Estándar
del Pronóstico (𝑆𝑦𝑖 ). Este error estándar del pronóstico explica el hecho de que los
valores individuales estén más dispersos que las medias. El error estándar de
pronóstico (𝑆𝑦𝑖 ) refleja el error de muestreo inherente al error estándar de la media
condicionada (𝑆𝑦 ) más la dispersión adicional, porque se están tratando con un valor
individual de Y. Se determina de la siguiente manera:

1 (𝑋𝑖 −𝑋̅)2
Error Estándar del Pronóstico:𝑆𝑦𝑖 = 𝑆𝑒 √1 + +
𝑛 𝑆𝐶𝑥

El Intervalo de Confianza para el Intervalo de Predicción es:

𝑌𝑥 : 𝑌̂𝑖 ± (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 ) → 𝑌̂𝑖 − (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 ) < 𝑌𝑥 < 𝑌̂𝑖 + (𝑡𝛼⁄2;𝑔𝑙 ) (𝑆𝑦𝑖 )

33

S-ar putea să vă placă și