Sunteți pe pagina 1din 1142

TEMA 01

PRUEBA DE HIPOTESIS

Ing. William León Velásquez


CONTENIDO
• CONCEPTOS BÁSICOS DE PRUEBA DE
HIPÓTESIS
• PRUEBA DE HIPÓTESIS PARA MUESTRAS
GRANDES
• PRUEBA DE HIPÓTESIS PARA DOS
MUESTRAS GRANDES
CONCEPTOS BÁSICOS DE PRUEBA DE
HIPOTESIS
HIPÓTESIS ESTADÍSTICA
• Las hipótesis estadísticas comienza con una
afirmación o suposición sobre un
parámetro de la población, como por ejemplo:
• La media poblacional.
• Una proporción poblacional

• Una Prueba de Hipótesis estadística es un


procedimiento basado en evidencia de la
muestra y la teoría de la probabilidad para
determinar si la hipótesis es una afirmación
razonable

Ing William León V


4
HIPÓTESIS ESTADÍSTICA
El valor del parámetro de la población especificado en la
hipótesis suele determinarse de una de tres maneras:

a. Puede resultar de la experiencia o


conocimientos pasados del proceso, o
incluso de experimentación previa.
•El objetivo entonces de la prueba de
hipótesis suele ser entonces determinar si
la situación experimental ha cambiado.

Ing William León V


5
HIPÓTESIS ESTADÍSTICA
El valor del parámetro de la población especificado en la hipótesis
suele determinarse de una de tres maneras:

b. Este valor puede determinarse a partir de


alguna teoría o modelo con respecto al
objeto que se estudia.
•Aquí el objetivo de la prueba de hipótesis
es verificar la teoría o modelo.

Ing William León V


6
HIPÓTESIS ESTADÍSTICA
El valor del parámetro de la población especificado en la hipótesis suele
determinarse de una de tres maneras:

c. Surge cuando el valor del parámetro de la


población es resultado de consideraciones
experimentales, tales como especificaciones de
diseño o ingeniería, o de obligaciones
contractuales.
•En esta situación, el objetivo dela prueba de
hipótesis es la prueba de conformidad.

Ing William León V


7
IDENTIFICACIÓN DE HIPÓTESIS
• En una prueba de hipótesis se empieza suponiendo un valor de un
parámetro que, a juicio del investigador, sea el más adecuado de acuerdo
con la información disponible, a este supuesto se le llama hipótesis nula y
se representa con Ho.

• La otra hipótesis que se define a


continuación se llama hipótesis
alternativa, que es la opuesta de lo que
se afirma en la hipótesis nula.
La hipótesis alternativa se representa
como Ha o H1
Ing William León V
8
IDENTIFICACIÓN DE HIPÓTESIS

•Hipótesis nula Ho •Hipótesis. Alternativa H1


• La que contrastamos • Niega a H0
• Los datos pueden rechazarla • Los datos pueden mostrar evidencia a
favor
• No debería ser rechazada sin • No debería ser aceptada sin una gran
una buena razón.
evidencia a favor.


H 0 : p  0.5
 p  0.5 , , 
 H1 :
Ing William León V
9
EJEMPLO
• ¿Debo tomar Aspirina o Migranol para el dolor de cabeza?
Laboratorios Bayer me dice que tome Aspirina 
• Existe teoría (antigua) de que lo mejor es Aspirina
• Laboratorios Migra me dice que tome Migranol 
• Existe teoría (nueva) de que lo mejor es Migranol

Tenemos dos teorías que compiten.


En estadística se va a llamar hipótesis.
DEFINICIONES
• La hipótesis nula, denotada por Ho, es el “status quo”, lo
convencional, lo que sabemos de la población, lo aceptado hasta el
momento.
• La hipótesis alternativa, denotada por H1, es una alternativa a la
hipótesis nula – implica cambio, es lo que el investigador espera que
sea cierto.

Ho: El nuevo medicamento es tan efectivo


como el antiguo.
H1: El nuevo medicamento es más efectivo
que el antiguo.
¿Cuál es H0?
Problema: El tiempo de vida promedio de una
determinada pieza usada en el ensamblaje de una
marca de computadoras es de 20,000 horas.

Solución:
Traducir a lenguaje estadístico:   20,000
Establecer su opuesto: 𝜇 ≠ 20,000
Seleccionar la Hipótesis alternativa 𝐻1 : 𝜇 ≠ 20,000
Seleccionar la hipótesis nula H 0 :   20,000

Ing William León V


¿Cuál es H0?
Problema: ¿El colesterol medio para la dieta de los
trabajadores de las empresas textiles es 6 mmol/l?
Solución:
Traducir a lenguaje estadístico:  6
Establecer su opuesto: 6
Seleccionar la Hipótesis alternativa: 𝐻1 : 𝜇 ≠ 6
Seleccionar la hipótesis nula H0 :   6

Ing William León V


¿Cuál es H0?
Problema: ¿La altura media o promedio de los
obreros de la empresa pesquera es de 1.60 m?
Solución:
Traducir a lenguaje estadístico:   1.60
Establecer su opuesto:   1.60
Seleccionar la Hipótesis alternativa: 𝐻1 : 𝜇 ≠ 1.60
Seleccionar la hipótesis nula H :   1.60
0

Ing William León V


¿Cuál es H0?
 Problema: El porcentaje de personas atacadas
por cierta enfermedad laboral en una fabrica
grande, no es mayor del 10%.

 Solución:

 Traducir a lenguaje estadístico: p  0.10


 Establecer su opuesto:
p  0.10
 Seleccionar la Hipótesis alternativa: 𝐻 : 𝜇 > 0.10
1
Seleccionar la hipótesis nula
H 0 : p  0.10

Ing William León V


¿Cuál es H0?

Problema: ¿El estrés laboral está


relacionada con el género?
Solución:
Traducir a lenguaje estadístico: p  0.5
Establecer su opuesto: p  0.5
Seleccionar la Hipótesis alternativa 𝐻1 : 𝑝 ≠ 0.5
Seleccionar la hipótesis nula
H 0 : p  0.5

Ing William León V


REGIÓN CRÍTICA Y NIVEL DE SIGNIFICACIÓN

La región crítica es el conjunto de


valores de la prueba estadística que
puede causar el rechazo de la
hipótesis nula.

Ing William León V


REGIÓN CRÍTICA Y NIVEL DE SIGNIFICACIÓN
El nivel de significancia (denotado por α)
es la probabilidad de que la prueba
estadística caerá en la región crítica
cuando la hipótesis nula es actualmente
cierta.
Si la prueba estadística cae en la región
crítica, se rechaza la hipótesis nula,
entonces α es la probabilidad de cometer Región de no
el error de rechazar la hipótesis nula rechazo
cuando ésta es cierta.
Las selecciones comunes de α son 0.05,
0.01, y 0.10.

Ing William León V


REGIÓN CRÍTICA Y NIVEL DE SIGNIFICACIÓN
Región crítica Nivel de significación: α
 Valores ‘improbables’ si... •Número pequeño: 1% , 5%
 Es conocida antes de realizar el •Fijado de antemano por el
experimento: resultados investigador
experimentales que refutarían H0 •Es la probabilidad de rechazar H0
cuando es cierta

a=0.05
Reg. Crit. Reg. Crit.

No rechazo H0

Ing William León V


H0: =40
PRUEBA: UNILATERAL Y BILATERAL

• Las pruebas pueden ser unilaterales o bilaterales (también llamados de


una o dos colas) según establezcamos las hipótesis,

• Si se define en términos de igual y diferente se


esta ante una hipótesis bilateral,
• Si se supone una dirección (en términos de mayor
o menor) se esta ante uno unilateral

Ing William León V


20
PRUEBA: UNILATERAL Y BILATERAL

La posición de la región crítica depende de la hipótesis alternativa

Bilateral

H1:   40

Unilateral Unilateral

H1:  < 40 Ing William León V


H1:  >40 21
SIGNIFICACIÓN: p

• El grado de significación 'p' o 'sig' es la probabilidad de error al


rechazar la hipótesis nula.

• Cuanto más pequeño sea su valor


más probable será que la hipótesis
nula sea falsa.

Ing William León V


22
SIGNIFICACIÓN: p
•El grado de significación está relacionado con el nivel de
significación es decir el riesgo de error que se está dispuesto a asumir
en caso de rechazar la hipótesis nula.

Ing William León V


23
SIGNIFICACIÓN: p

•El grado de significación se calcula 'a posteri', es decir cuando se conoce


el resultado de haber aplicado una prueba de significación.
•El grado de significación indica la probabilidad de error calculada al
rechazar la hipótesis nula.

A nivel práctico la forma de ejecutar es la


siguiente:
Si p >= α no se rechaza la hipótesis nula.
Si p < α se rechaza la hipótesis nula

Ing William León V


24
SIGNIFICACIÓN: p

H0:  = 40

No se rechaza
H0:  = 40
a

X  43
Ing William León V 25
SIGNIFICACIÓN: p
Es la probabilidad que tendría una
región crítica que comenzase
P a exactamente en el valor del
estadístico obtenido de la muestra.
Es la probabilidad de tener una
P a muestra que discrepe aún más que
la nuestra de H0.
X  43
Es la probabilidad de que por puro
No se rechaza azar obtengamos una muestra
H0:  =40 “más extraña” que la obtenida.
p es conocido después de realizar el
experimento aleatorio
La verificación es no significativa
cuando p>a
Ing William León V 26
SIGNIFICACIÓN : p

Se rechaza H0:  =40


Se acepta H1:  >40
X  50

Ing William León V


27
SIGNIFICACIÓN : p

La verificación es
estadísticamente
a P significativa
cuando p < α
a P Es decir, si el
X  50 resultado
P experimental
Se rechaza H0:  =40
discrepa más de “lo
Se acepta H1:  >40 tolerado” a priori.

Ing William León V


28
RESUMEN: α, p y criterio de rechazo

•Sobre α •Sobre p
•Es un número pequeño, preelegido al • Es conocido tras realizar el
diseñar el experimento experimento

• Conocido a sabemos todo sobre la • Conocido p sabemos todo sobre


región crítica el resultado del experimento

 Sobre el criterio de rechazo


 La verificación es significativa si p menor que a
(se rechaza Ho)
Ing William León V
RIESGOS AL TOMAR DECISIONES
Ejemplo 1:
Se juzga a un individuo por la presunta comisión de un delito

•H0: Hipótesis nula Los datos pueden rechazarla


No se rechazará si las pruebas
• No es culpable no indican lo contrario
Rechazarla por error tiene
graves consecuencias

•H1: Hipótesis alternativa


• Es culpable
No debería ser aceptada sin una gran
• No es inocente
evidencia a favor.
Rechazarla por error tiene consecuencias
consideradas menos graves que la anterior
Ing William León V
30
RIESGOS AL CONTRASTAR HIPÓTESIS

Ejemplo 2: Se cree que la implementación de


un nuevo proceso ofrece buenos resultados

Ejemplo 3: Parece que hay una incidencia de


productos defectuosos más alta de lo normal

Ing William León V


31
RIESGOS AL CONTRASTAR HIPÓTESIS

H0: Hipótesis nula


No especulativa
(Ej.1) No es culpable
(Ej.2) El nuevo proceso no tiene efecto en los resultados
(Ej.3) No hay nada que destacar en los productos

H1: Hipótesis alternativa


(Ej.1) Es culpable Especulativa
(Ej.2) El nuevo proceso es útil
(Ej. 3) Hay una situación anormal en los productos
Ing William León V
32
TIPOS DE ERROR AL TOMAR UNA DECISIÓN

• La verificación de la hipótesis no establece la


verdad de la hipótesis, sino un criterio que
nos permite decidir SI UNA HIPÓTESIS NO SE
RECHAZA O SE RECHAZA, o
• El determinar si las muestras observadas
difieren significativamente de los resultados
esperados.
• En este proceso podemos incurrir en dos tipos de errores según sea la
situación real y la decisión que tomemos.

Ing William León V


33
TIPOS DE ERROR AL TOMAR UNA DECISIÓN

• Si se rechaza una hipótesis nula,


cuando debe no ser rechazada, se
comete un error de tipo I,
mientras que
• Si no se rechaza una hipótesis nula,
debiendo ser rechazada se comete un
error de tipo II.

Ing William León V


34
TIPOS DE ERROR AL TOMAR UNA DECISIÓN
• Minimizar los errores no es un asunto sencillo, un caso suele
ser más grave que otro y los intentos de disminuir uno
suelen producir el aumento del otro.

La única forma de disminuir


ambos a la vez es aumentar
el tamaño de la muestra.

Ing William León V


35
TIPOS DE ERROR AL TOMAR UNA DECISIÓN
REALIDAD

Inocente Culpable
VEREDICTO Inocente
OK Error
Menos grave

Culpable Error OK

Muy grave

Ing William León V


36
TIPOS DE ERROR AL CONTRASTAR HIPÓTESIS

REALIDAD
CONCLUSIÓN H0 cierta H0 Falsa
No Rechazo H0 Correcto Error de tipo II
El tratamiento no tiene El tratamiento si tiene efecto
efecto y así se decide. pero no lo percibimos.
Probabilidad β

Rechazo H0 Error de tipo I Correcto


El tratamiento no tiene efecto
pero se decide que sí.
El tratamiento tiene efecto y el
Acepto H1 experimento lo confirma.
Probabilidad α

Ing William León V


37
PRUEBA DE HIPOTESIS PARA
MUESTRAS GRANDES
PRUEBA DE HIPOTESIS PARA MUESTRAS
GRANDES

• Cuando se plantean hipótesis para la media de una población


y para la diferencia de medias de dos poblaciones y las
desviaciones estándar poblacionales son conocidas o el
tamaño de la muestra es grande
• El estadístico de prueba está dado por:

z
Ing William León V
CINCO PASOS PARA PROBAR UNA HIPOTESIS PARA LA
MEDIA
1. Definir la Hipótesis estadística H0 y Ha

 En la prueba de hipótesis, se debe establecer el valor


supuesto o hipotetizado del parámetro de la población
antes de comenzar a tomar la muestra.
La suposición que se desea probar se conoce como
hipótesis nula: Ho.

Ing William León V


40
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha

En base a los datos muestrales la hipótesis nula se


rechaza o no rechaza.
Nunca se puede aceptar la hipótesis nula como
verdadera, para demostrar sin lugar a dudas que la
hipótesis es verdadera, se tendría que conocer el
parámetro de la población.
El no rechazo solamente significa que la evidencia
muestral no es lo suficientemente fuerte como
para llevar a su rechazo.

Ing William León V


41
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha

• Es importante recordar que, sin importar como se


determina el problema, la hipótesis nula siempre lleva el
signo de igual ( = ).
• Por ejemplo si se desea probar la hipótesis de que la
media de la población es igual a 16.
• Se simbolizará y leerá de la siguiente manera: “La
hipótesis nula es que la media de la población es igual a
16”.

Ho: μ= 16
Ing William León V
42
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha

•La hipótesis alternativadescribe la


conclusión a la que se llegará si se rechaza a
la hipótesis nula.
•También se conoce como hipótesis de
investigación.
•La hipótesis alternativa se acepta si los datos
de la muestra proporcionan suficiente evidencia
estadística de que la hipótesis nula es falsa.
Ing William León V
43
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hipótesis estadística H0 y Ha

Se considera tres hipótesis alternativas posibles:


Ha: ≠ 16
Ha: > 16
Ha: < 16
El signo de igual ( = ) nunca aparecerá en la hipótesis
alternativa. Porque la hipótesis nula es la declaración
que se prueba, y es necesario incluir un valor
especifico en los cálculos.
La hipótesis alternativa se considera, sólo si se
demuestra que no es verdadera la hipótesis nula.

Ing William León V


44
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS

2. Establecer el estadístico de prueba que sea apropiado.

• El estadístico de prueba es un valor que se calcula


en base a la información de la muestra, y que se
utiliza para determinar si se rechaza o no la
hipótesis nula.
• Existen muchos estadísticos de prueba que
pertenecen a una distribución muestral con su propia
forma, media y desviación estándar.
Z, t, χ2, F

Ing William León V


45
PASOS A SEGUIR EN UNA PRUEBA DE
HIPOTESIS
2. Establecer el estadístico de prueba que sea apropiado.

Por ejemplo en la prueba de hipótesis para la media,


el estadístico de prueba es la Z y se calcula por:
X
z 

n

Ing William León V


46
PASOS A SEGUIR EN UNA PRUEBA DE
HIPOTESIS
3. Definir el nivel de significancia y la zona de rechazo

• Elnivel de significancia es la probabilidad de


rechazar la hipótesis nula cuando es verdadera
es a lo que se llama error Tipo I.
• El nivel de significancia se define con la letra
griega alfa (α ).Se le llama también nivel de riesgo.

Ing William León V


47
PASOS A SEGUIR EN UNA PRUEBA DE
HIPOTESIS

3. Definir el nivel de significancia y la zona de rechazo

No hay un nivel de significancia que se aplique a todas


las pruebas.
Se toma la decisión de utilizar los niveles 0.05 ( que
con frecuencia se conoce como un nivel del 5%), 0.01,
0.10, o cualquiera entre 0 y 1 a elección de la persona
que realiza la prueba.

Ing William León V


48
PASOS A SEGUIR EN UNA PRUEBA DE
HIPOTESIS
3. Definir el nivel de significancia y la zona de rechazo

La zona de rechazo tiene:


• Una magnitud dada por α y
• Una dirección dada por la hipótesis alternativa.

Ing William León V


49
PASOS A SEGUIR EN UNA PRUEBA DE
HIPOTESIS
3. Definir el nivel de significancia y la zona de rechazo
Ejemplo

Ing William León V


50
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
3. Definir el nivel de significancia y la zona de rechazo

Si μ = 16, existe sólo un 2.5% de Si μ = 16, existe sólo un 2.5% de


oportunidad de que una media oportunidad de que una media
muestral produzca un valor de Z < muestral produzca un valor de Z >
-1.96 1.96

Existe un 95% de probabilidad de que los resultados muestrales


puedan caer entre ± 1.96 si la hipótesis nula es verdadera

Ing William León V


51
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
4. Calcular el estadístico de prueba a partir de los datos
muestrales considerando H0 como verdadera

Ing William León V


52
PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS

5. Decidir si H0 no se rechaza o se rechaza.


Y Concluir en términos del contexto del problema.

Ing William León V


53
Ejemplo 1.-
 El fabricante de una llanta especial para camiones afirma que la
duración media de la parte rodante de agarre es de 60,000 Km. La
desviación estándar del kilometraje es de 5,000 Km.
• Una empresa de transportes compró 48 llantas y halló que
la duración media para sus vehículos fue de 59,500 Km.
• ¿Es la experiencia, distinta de la expresada por el fabricante
al nivel de significación de 0.05?
Datos:  = 60,000 Km
σ = 5,000 Km
n = 48 llantas
a = 0.05
= 59,500 Km
x
Ing William León V
Solución:
Paso 1
Las hipótesis se expresan de la siguiente manera:

H0 :  = 60,000 Km

La duración de las llantas es de 60,000 Km

H1 :  60,000 Km

La duración de las llantas es distinta a 60,000 Km

Ing William León V


Solución:
Paso 2
El estadístico de prueba mas apropiado.
Teniendo en cuenta que se tiene una muestra de 48 llantas y se
conoce la desviación estándar de la población

n = 48 llantas

σ = 5,000 Km

Se utilizará la distribución Z

Ing William León V


Solución:
Paso 3
El nivel de significancia es de 0.05
Y por la hipótesis alternativa:
H1 :  60,000 Km Se trata de una prueba bilateral

En el siguiente paso vamos a obtener el valor de “Z” y para ello vamos


a apoyarnos en la gráfica siguiente:

*Se recurre a las tablas de la


distribución normal y en ellas
localizamos 0.475, que se ubica en
un valor de Z = 1.96

Ing William León V


* Este procedimiento va depender del tipo de tabla que se tenga
Solución:
Paso 4
Se Calculará el estadístico de prueba a partir de los datos muestrales
considerando H0 como verdadera

𝑥−𝜇 59,500  60,000


Z 
𝑍= 721.71
𝜎𝑥 Z  0.693
Donde: 𝜎
𝜎𝑥 =
𝑛
5000 5000
𝜎𝑥 = = =721.71
48 6.928

Ing William León V


Solución:
Paso 5
• Se va ha decidir si H0 no se rechaza o se rechaza.

Como -0.693 es menor que -1.96 no se rechaza la hipótesis nula


Es decir el z de los datos se encuentra en la zona de no rechazo

Entonces se concluye que la duración media de las llantas es muy cercana


a la que afirma el fabricante de 60,000 millas, con un nivel de
significancia de 0.05.

Ing William León V


Solución:
Desarrollando bajo el enfoque del intervalo de confianza:

• Primero, se va a calcular el error estándar de la media y para ello


emplearemos la expresión del error estándar: 
X

n 
Sustituyendo valores en ella, se tiene:
5,000 5,000
x  x  x  721.69 Km
48 6.9282

El Error Estándar de la media mide con cuánta precisión la media de la muestra estima la media
de la población y se utiliza para crear intervalos de confianza para la media de la población. Los
valores del Error Estándar de la Media más bajos indican con mayor precisión las estimaciones
de la media de la población
Ing William León V
Solución:

Se va a determinar los límites superior e inferior de confianza para el


intervalo de la media poblacional ya que se trata de una prueba de dos
extremos. Para ello aplicaremos la expresión siguiente:
Lc   H 0  Z x
Sustituyendo valores en ella, se tiene:
Lc = 60,000  1.96 (721.69)
Ls = 60,000 + 1,414.51 Ls = 61,414.51 Km.
Li = 60,000 – 1,414.51 Li = 58,585.49 Km
Entonces la media de la población fluctúa entre 58,585.49 y 61,414.51 millas en un
nivel de confianza del 95%.

Ing William León V


Solución:
Al regresar a la gráfica anterior se observa los límites de confianza y la
media muestral.
Con ello se analiza si no se rechaza la hipótesis nula además de verificar
si es verdadera o falsa.

Ing William León V


Solución:

La media muestral se ubica dentro de la zona de no rechazo, por lo


que podemos decir que la hipótesis nula es verdadera,

Entonces la media muestral se ubica en -0.693  = -0.693(721.69)


__
X

500.13  60,000-500 = 59,500


y se confirma que cae en la zona de no rechazo
Concluimos que la duración media de las llantas es muy cercana a la que afirma
el fabricante de 60,000 millas, con un nivel de significancia de 0.05.

Ing William León V


Ejemplo 2
Una cadena de restaurantes afirma que el tiempo medio de espera de
clientes por atender está distribuido normalmente con una media de 3
minutos y una desviación estándar de 1 minuto.
Su departamento de aseguramiento de la calidad halló en una muestra de
50 clientes en un cierto establecimiento que el tiempo medio de espera
era de 2.75 minutos. Al nivel de significación de 0.05,
¿Es dicho tiempo menor de 3 minutos?

Datos:  = 3 minutos.
σ= 1minuto.
n = 50 clientes.
a = 0.05
x = 2.75 minutos.

Ing William León V


Ejemplo 2.-
Paso 1
Las hipótesis se expresan de la siguiente manera:

Ho :  = 3
El tiempo promedio de espera es de 3 minutos.

H1 :   3
El tiempo promedio de espera es menor de 3 minutos.

Ing William León V


Solución:
Paso 2
El estadístico de prueba mas apropiado.
Teniendo en cuenta que se tiene una muestra de 50 clientes y se conoce la desviacion de la
población

n = 50 clientes

σ = 1 minuto

Entonces

Se utilizará la distribución Z

Ing William León V


Solución:
Paso 3
El nivel de significancia es de 0.05
Y por la hipótesis alternativa:
H1 :   3 Se trata de una prueba unilateral

En el siguiente paso vamos a obtener el valor de “Z” y para ello vamos a apoyarnos
en la gráfica siguiente:

*0.5 – 0.05 = 0.45 .


Se busca en las tablas de la
distribución normal 0.45, y se
encuentra que: Z= 1.64

Ing William León V


* Este procedimiento va depender del tipo de tabla que se tenga
Solución:
Paso 4
Se Calculará el estadístico de prueba a partir de los datos muestrales
considerando H0 como verdadera
𝑥−𝜇
𝑍=
Z 
2.75  3
Z 
 0.25
Z  1.77 𝜎𝑥
0.1414 0.1414

Ing William León V


Solución:
Paso 5
• Se va ha decidir si H0 no se rechaza o se rechaza.

Como -1.77 es mayor que -1.64 se rechaza la hipótesis nula


Es decir el z de los datos se encuentra en la zona de rechazo

Entonces se concluye que el tiempo medio de espera de clientes por


atender en este establecimiento es menor de 3 minutos.

Ing William León V


Ejemplo 2.-

Con un a = 0.05 y es una prueba de hipótesis para un extremo, en este caso, el


extremo izquierdo, entonces, el nivel de significancia está contenido en este
extremo, por lo que el nivel de confianza es 0.5 – 0.05 = 0.45 .
Se busca en las tablas de la distribución normal 0.45, y se encuentra que: Z= 1.64
El límite izquierdo del intervalo de confianza será:
Li = 3 – 1.64 (0.1414)
Li = 3 – 0.2319
Li = 2.768

Calcula el error estándar de la media:



1 1
X
 x  x  x  0.1414
n 50 7.07
Ing William León V
Ejemplo 2.-
Gráficamente se representa así:

Ing William León V


Ejemplo 2.-
• La media muestral 2.75, se localiza en la zona de rechazo, por lo que se
puede establecer que se rechaza la hipótesis nula y se acepta la
alternativa.
Comprobemos con : x
Z 
x
2.75  3  0.25
Z  Z  Z  1.77
0.1414 0.1414

Como se puede observar 1.77 está localizado más hacia la izquierda del límite de
confianza 1.64.
Se puede concluir que el tiempo medio de espera de clientes por atender en este
establecimiento es menor de 3 minutos.

Ing William León V


PRUEBA DE HIPÓTESIS DE 2 MEDIAS
POBLACIONALES
PRUEBA DE HIPÓTESIS DE 2 MEDIAS
POBLACIONALES
• Se tienen dos poblaciones y se toman muestras aleatorias independientes de
tamaños n 1 y n 2, se puede comparar el comportamiento de dichas
poblaciones a través de los promedios.
• Las muestras se obtienen de poblaciones con distribución normal
• El estadístico de trabajo depende de las características de las poblaciones y
del tamaño de las muestras.

Ing William León V


74
PRUEBA DE HIPÓTESIS DE 2 MEDIAS
POBLACIONALES
• Se puede plantear uno de los siguientes tres tipos de hipótesis:
• - Prueba de hipótesis a dos colas
H0 : µ1=µ2 ó H0 : µ1-µ2 = 0
H1 : µ1≠µ2 ó H1 : µ1-µ2 ≠ 0
• - Prueba de hipótesis a una cola superior
H0 : µ1=µ2 ó H0 : µ1-µ2 = 0
H1 : µ1>µ2 ó H1 : µ1-µ2 > 0
• - Prueba de hipótesis a una cola inferior
H0 : µ1=µ2 ó H0 : µ1-µ2 = 0
H1 : µ1<µ2 ó H1 : µ1-µ2 < 0
Ing William León V
75
PRUEBA DE HIPÓTESIS DE 2 MEDIAS
POBLACIONALES

PRUEBA DE HIPÓTESIS
DE 2 MEDIAS
POBLACIONALES
µ1 y µ2

Si las muestras son


Si las muestras son
mayores o iguales
menores a 30
de 30
n1 y n2>=30 n1 y n2<30

si las muestras se obtienen de poblaciones si las muestras se obtienen de poblaciones con


con distribución normal, con varianzas distribuciones diferentes a la normal, y
poblacionales conocidas varianzas poblacionales desconocidas,
σ2 conocidos σ2 desconocidos

Ing William León V


76
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas

•Se asume que hay dos poblaciones de interés X1 y X2,


•Además se asume que X1 tiene media desconocida y varianza conocida y
que X2 tiene media desconocida y varianza conocida .

Estaremos interesados en la prueba de


la hipótesis de que las medias µ1y µ2
sean iguales.

Ing William León V


77
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas
• Considérense primero las hipótesis alternativas de dos lados:
H0 : µ1=µ2 ó H0 : µ1-µ2 = 0
H1 : µ1≠µ2 ó H1 : µ1-µ2 ≠ 0

• Donde
• H0 = Hipótesis nula
• H1 = Hipótesis alternativa.
• μ1= media de la población 1
• μ2= media de la población 2
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas
• El procedimiento para probar es calcular la estadística de
prueba Z0 mediante la siguiente fórmula:
Donde:

X1  X 2 𝜇1 = media de la muestra 1
Z0  𝜇1 = media de la muestra 2
 21  22

n1 n2 𝜎1 2 = varianza de la población 1
𝜎2 2 = varianza de la población 2

𝑛1 = tamaño de la muestra 1
𝑛2 = tamaño de la muestra 2
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas

La hipótesis nula H0 se rechaza si:


𝑧0 > 𝑧𝛼 2
o
𝑧0 < 𝑧𝛼 2
Donde
Z0 = Valor calculado del estadístico de prueba
𝑍𝛼 2 = Valor obtenido de las tablas.
P. H. para la diferencia de medias, con varianzas
poblacionales conocidas
Las hipótesis alternativas de un lado se analizan de manera similar. Para probar
𝐻0 : 𝜇1 =𝜇2
𝐻1 : 𝜇1 > 𝜇2
Se calcula la estadística de prueba Z0 , y se rechaza 𝐻0 : 𝜇1 =𝜇2 si 𝑍0 >𝑍𝛼 .
Para probar las otras hipótesis alternativas de un lado
𝐻0 : 𝜇1 =𝜇2
𝐻1 : 𝜇1 < 𝜇2

Se utiliza la estadística de prueba Z0 y se rechaza 𝐻0 : 𝜇1 =𝜇2 si 𝑍0 <−𝑍𝛼


P. H. para la diferencia de medias, con varianzas
poblacionales desconocidas
•Se asume que hay dos poblaciones de interés X1 y X2,
•Además se asume que X1 tiene media desconocida y varianza
desconocida y que X2 tiene media desconocida y varianza desconocida .

Estaremos interesados en la prueba de


la hipótesis de que las medias µ1y µ2
sean iguales.

Ing William León V


82
P. H. para la diferencia de medias, con varianzas
poblacionales desconocidas
• El procedimiento para probar es calcular la estadística de
prueba Z0 mediante la siguiente fórmula:
Donde:

𝜇1 = media de la muestra 1
𝜇1 = media de la muestra 2

𝑆1 2 = varianza de la muestra 1
𝑆2 2 = varianza de la muestra 2

𝑛1 = tamaño de la muestra 1
𝑛2 = tamaño de la muestra 2
EJEMPLO 1

• El salario promedio mensual para una muestra de 30 empleados de una


empresa manufacturera es de $280.000, con desviación estándar de $14.000.
En otra empresa del mismo tipo, una muestra aleatoria de 40 empleados,
tiene un salario promedio de $270.000, con una desviación estándar de
$10.000.

No se suponen iguales las desviaciones


estándar de las poblaciones. Se requiere
probar la hipótesis de que no existe diferencia
entre los salarios promedios mensuales de las
dos empresas, utilizando un nivel de
significancia del 5%.
Ing William León V
84
EJEMPLO 1
POBLACION/ POBLACION/ DEFINICION
N1 N2
30 40 Elementos muestra
No No Media poblacional
14.000 10.000 Desviación estándar
280.000 270.000 Media de la muestra tomada

Ing William León V


85
EJEMPLO 1

PASO 01
1.- Establecer las hipótesis
• 𝐻0: 𝜇1 − 𝜇2 = 0, o que 𝐻0: 𝜇1 = 𝜇2
• 𝐻0: 𝜇1 − 𝜇2 ≠ 0, o que 𝐻0: 𝜇1 ≠ 𝜇2

Ing William León V


86
EJEMPLO 1
2.- Elegir el modelo probabilístico:
• Como n> 30
• Se utiliza la curva Z:

Ing William León V


87
EJEMPLO 1
3.- Establecer el criterio de contraste

α/2=0.025 REGION DE NO α/2=0.025


RECHAZO

Z1=-1.96 0 Z2=1.96
α=0.5

Para α/2 = 0.025, entonces 𝑍1 = −1.96 y 𝑍2 = 1.96.


El Intervalo de los Valores críticos de Z es:
−1.96 < 𝑍 < 1.96

Ing William León V


88
EJEMPLO 1
4.- Calcular el valor del estadístico de prueba
• La desviación estándar de cada una de las muestras es:
𝜎1 14000
𝜎1𝑥 = = = 2556.04
𝑛1 30

𝜎2 10000
𝜎2𝑥 = = = 1581.14
𝑛2 40
𝜎= 𝜎1𝑥 2 + 𝜎2𝑥 2 = 2556.04 2 + 1581.14 2 = 3005.53

Ing William León V


89
EJEMPLO 1

• Se calcula el valor del estadístico de prueba, en este caso Z*

𝑋1 − 𝑋2 280000 − 270000
𝑍= = = 3.33
𝜎 3005.55

Ing William León V


90
EJEMPLO 1

5.- Tomar una decisión e interpretar


• Como Z = 3.33 no se encuentra en
• El Intervalo critico de Z. −1.96 < 𝑍 < 1.96
• No se encuentra en la región de de NO RECHAZO según la grafica de la
Campana de Gauss.
• Por ello se rechaza la Hipótesis nula y se acepta la hipótesis alternativa
de que el salario promedio mensual de las dos empresas es diferente.

Ing William León V


91
EJEMPLO 2

Un analista de salarios consideraba que el salario promedio de la primera


empresa era mayor que en la segunda empresa. Con el objeto de someter su
posición a una prueba critica, le da el beneficio de la duda a la posibilidad
contraria y plantea la hipótesis nula de que el salario promedio de la primera
empresa es igual o menor que el de la segunda.

Se prueba la hipótesis, con el nivel de


significancia del 1%. Si se supone que las
desviaciones estándar de las dos poblaciones
son iguales.

Ing William León V


92
EJEMPLO 2

PASO 01
1.- Establecer las hipótesis
• 𝐻0: 𝜇1 = 𝜇2 o 𝜇1 − 𝜇2 = 0
• 𝐻1: 𝜇1 > 𝜇2 o 𝜇1 − 𝜇2 > 0

Ing William León V


93
EJEMPLO 2
2.- Elegir el modelo probabilístico:
• Como n> 30
• Se utiliza la curva Z:

Ing William León V


94
EJEMPLO 2
3.- Establecer el criterio de contraste

REGION DE NO
RECHAZO α=0.01

0 Z2=2.33
α=0.5

Como es para una cola, entonces el nivel de significancia


que se tiene es 𝛼 = 0.01 , el z para esta área según la tabla
es de Z= 2.33, porque el área es A=0.99.

Ing William León V


95
EJEMPLO 2

4.- Calcular el valor del estadístico de prueba


• Hallamos el z para comparar.

𝑋1 − 𝑋2 280000 − 270000
𝑍= = = 3.33
𝜎 3005.55

Ing William León V


96
EJEMPLO 2
5.- Tomar una decisión e interpretar
• Como z = 3.33 > z=2.33, entonces se rechaza la hipótesis nula y se
acepta la hipótesis alternativa de que el salario promedio de la primera
empresa es mayor que el salario promedio de la segunda empresa.
• Además podemos observar que el valor de Z = 3.33 queda en la región
de rechazo

Ing William León V


97
EJEMPLO 3

Se realizó un estudio con un nivel de significancia de .05 para investigar si la


prensa popular está más orientada hacia temas sexuales que la prensa
dirigida a la clase media. Se recogieron dos muestras representativas de 40
artículos publicados en ambos tipos de revistas.

Utilizando un índice que mide el contenido


sexual de los artículos, la muestra 1 (popular)
tuvo un puntaje medio de 3.5 con una
desviación estándar de 2, mientras que la
muestra 2 (clase media) tuvo una media de 3
con una desviación de 2.2.

Ing William León V


98
EJEMPLO 3
• 1.- Establecer las hipótesis
• Ho: µ1 = µ 2
• Ho: « La orientación hacia contenidos sexuales no es mayor en
la prensa popular que en la prensa de clase media »
• Ha: µ 1> µ 2
• Ha: « La orientación hacia contenidos sexuales es mayor en la
prensa popular que en la prensa de clase media ».

Ing William León V


99
EJEMPLO 3
• 2.- Elegir el modelo probabilístico:
• Como n> 30
• Se utiliza la curva Z:

Ing William León V


100
EJEMPLO 3
3.- Establecer el criterio de contraste
Como en este problema, la hipótesis alterna contiene el signo (>)
el problema es de una cola, es decir, la región crítica se ubica en
el extremo derecho de la curva. Para determinar que tipo de
distribución se utilizará:
• Si n1 + n2 - 2 > 30 entonces se busca en la tabla el valor de z
correspondiente a α/2.
• Si n1 + n2 – 2 ≤ 30 se busca en la tabla el valor t correspondiente
a φ= n1+n2-2 y α/2.
En este ejemplo, φ = n1 + n2 - 2 = 40 + 40 - 2 = 78 entonces n >
30 y por lo tanto se utiliza la distribución normal con α = .05

Ing William León V


101
EJEMPLO 3
• Luego se aplica la fórmula de interpolación:

0.05

Ing William León V


102
EJEMPLO 3
4.- Calcular el valor del estadístico de prueba
• Se calcula el error estándar de la diferencia de las medias

Ing William León V


103
EJEMPLO 3

• Se calcula el valor del estadístico de prueba, en este caso Z*

Ing William León V


104
EJEMPLO 3
• 5.- Tomar una decisión e interpretar

Ing William León V


105
EJEMPLO 3

• El estadístico de prueba queda localizado fuera de la zona crítica, entonces no


podemos rechazar la hipótesis nula ( Ho),
• Por lo tanto se concluye lo siguiente:
• No hay evidencia suficiente, con un nivel de significancia de .05, de que la
prensa popular tenga una mayor orientación al tema sexual que la prensa de
clase media

Ing William León V


106
FIN
wjleonv@yahoo.com
ESTADISTICA
INDUSTRIAL
TEMA 02

PRUEBA DE HIPOTESIS
PARA PROPORCIONES
Ing. William León Velásquez
CONTENIDO
 PRUEBA DE HIPÓTESIS PARA
UNA PROPORCION
 PRUEBA DE HIPÓTESIS PARA
DOS PROPORCIONES
PRUEBA PARA UNA
PROPORCIÓN

3
PRUEBA PARA UNA PROPORCIÓN

• Las pruebas de hipótesis con


proporciones son
necesarias en muchas áreas
del conocimiento y en
especial en la
administración e ingeniería.
• Se considerará el problema
de probar la hipótesis de
que la proporción de éxito
en un experimento
binomial sea igual a un
cierto valor especifico.

4
PRUEBA PARA UNA PROPORCIÓN
• Se probará que la hipótesis nula es:

p = p0
donde
• p es el parámetro de la distribución
binomial.
• po es el valor poblacional

5
PRUEBA PARA UNA PROPORCIÓN

 La información que frecuentemente se utilizará para la


estimación de una proporción real o verdadera
(porcentaje o probabilidad) es una proporción muestral.
 Que se calcula de la siguiente manera

𝑥
𝑝=
𝑛

 donde x es el número de veces


que ha ocurrido un evento en n
ensayos.
6
PRUEBA PARA UNA PROPORCIÓN
Ejemplo,
 Si una muestra aleatoria de 600 compras realizadas en
una tienda, 300 se realizan con tarjeta de crédito.

 Entonces se puede utilizar esa cifra


como estimación puntual de la
proporción real de compras
realizadas en ese negocio que se
abonaron a tarjetas de crédito.

300
𝑝=
600
7
PRUEBA PARA UNA PROPORCIÓN

• De la misma forma muchas


compañías podrían estimar
las proporciones de muchas
transacciones.
• La hipótesis alterna puede
ser una de las alternativas
usuales: unilateral o
bilateral
• Tales como:

p  p0 , p  p0 ,..o.. p  p0
8
PRUEBA PARA UNA PROPORCIÓN
• Un valor Zc calculado a partir de la
muestra se compara con un valor critico
de Z dados en las tablas.

• Zc se obtiene así:

p p
Zc 
p.q
n
x  np
 O también se puede Zc 
utilizar: npq
9
EJEMPLOS PARA PROBAR UNA
PROPORCIÓN
Ejemplos:
• Un político esta interesado en
conocer si ha habido un aumento en
la proporción (porcentaje) de votantes
que lo favorecen en las próximas
elecciones;
• Un productor de cereales puede
querer conocer si ha ocurrido o no una
baja en la proporción de clientes que
prefieren su marca de cereal;

• Un hospital desea confirmar la


afirmación de un fabricante de
medicamentos quien indica que su
producto cura al 80% de los usuarios.
10
EJEMPLOS PARA PROBAR UNA
PROPORCIÓN
• Estos ejemplos son algunas de las situaciones
donde nos interesa probar alguna afirmación
referente a una proporción.

• El procedimiento
para probar una
proporción en
una población
normal es casi
igual al usado
para las medias.
11
MÉTODOS PARA PROBAR UNA
PROPORCIÓN

Para probar
una
proporción

De la región Por el valor de


de rechazo p

12
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 1

Establecer las hipótesis.


Sea po es la proporción admitida o requerida.

Ho : p = po

H1 : p > po ó
p < po ó
p ≠ po

13
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

• Paso 2 Con el nivel de significancia (α) se


dibuja la región de rechazo en la curva normal
estándar (curva z) indicando el valor de Z
proveniente de la tabla Z.

αó
Z α/2

14
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 3
• Indicar el valor de Zc en el diagrama de la
región de rechazo (Paso 2).

Zc

15
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Paso 4 Calcular el valor zc para la
proporción muestral usando la
fórmula

𝑝 − 𝑝0
𝑥 𝑧𝑐
𝑝=
𝑛
𝜎𝑝

p0 (1  p0 )
p 
n
16
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

• Paso 5
• Si el valor Zc cae dentro de la región de rechazo
(sombreada), entonces se rechaza Ho.
Si cae fuera de la región sombreada, entonces no se
rechaza la Ho.

Escriba la conclusión de la prueba en términos de la Ha

17
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Ejemplo :
• Se desea probar si a habido una variación en la
proporción de 0.4 de mujeres en las carreras de
ingeniería.
• En el ultimo examen de admisión realizado se
selecciona una muestra de 200 ingresantes y se
obtiene una proporción de mujeres de 0.45.

• Utilice un nivel de
significancia del
0.01
𝑝 = 0.45, n = 200, y
α= 0.01.

18
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
• Solución:
Paso 1
• H0 : p = 0.4
La proporción de mujeres en las carreras de
ingeniería es de 0.4
• H1 : p ≠ 0.4
La proporción de mujeres en las carreras de
ingeniería es diferente de 0.4

19
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

• Paso 2
• Usando α= .01,
• como es de dos colas α/2= 0.005

Entonces Z= -2.575

20
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

Paso 2
• Usando α= .01,
• Z= -2.575 y como es de colas el otro Z=
2.575
• Entonces el diagrama de la región de
rechazo es:
005
. .005

-2.575 2.575

21
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)
Paso 3
• Calculando el valor z para la
proporción muestral
𝑝 = 0.45, po=0.4

0.4(1  0.4)
p   0.0346
200
• obtenemos:
0.45  0.4
• Z=  1.45
0.0346

22
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

Paso 4
• Dibujando z = 1.45 en el diagrama de la región de
rechazo (Paso 2) obtenemos:

1.45

.005 .005

-2.575 2.575

23
A. MÉTODO DE LA REGIÓN DE RECHAZO (MÉTODO 1)

Paso 5
• Como el valor z está fuera de la región de rechazo
(sombreada),
• Por lo tanto no se rechaza Ho.
• Conclusión:
• La proporción de mujeres en las carreras de
ingeniería no es diferente de 0.4.

24
B. MÉTODO DEL VALOR P (MÉTODO 2)

• Sea po es la proporción admitida o requerida.

• Paso 1 Se establece las hipótesis:


H0 : p = p0
H1 : p > p0 ó
p < p0 ó
p ≠ p0

25
B. MÉTODO DEL VALOR P (MÉTODO 2)

• Paso 2
• Calcular el valor de Zc para la proporción
muestral usando la fórmula:

𝑝 − 𝑝0
𝑧𝑐
𝜎𝑝
• donde

𝑥 p0 (1  p0 )
𝑝= p 
𝑛 n
26
B. MÉTODO DEL VALOR P (MÉTODO 2)

• Paso 3
• Utilizando la hipótesis alternativa dibujar la región bajo
la curva z que representa los valores extremos y con
el valor de Zc. Ir a la tabla y encontrar el valor de p

p o p/2
Zc

27
B. MÉTODO DEL VALOR P (MÉTODO 2)

• Paso 4
• El valor p = al área de la cola sombreada (s)
en el Paso 3.

28
B. MÉTODO DEL VALOR P (MÉTODO 2)

Paso 5
• Si el valor p< α, entonces se rechaza H0
• Si el valor p >= α, entonces no se rechaza H0.

• Escribir la conclusión de la prueba, en


términos de la Ha

29
B. MÉTODO DEL VALOR P (MÉTODO 2)

Ejemplo :
• Se desea probar si a habido una variación en la proporción
de 0.4 de mujeres en las carreras de ingeniería.
• Se selecciona una muestra de 200 ingresantes y se obtiene
una proporción de mujeres de 0.45.
• Utilice un nivel de significancia del 0.01
𝑝 = 0.45,
n = 200, y
α= 0.01.

30
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 1
• Formulación de la hipótesis
H0 : p = 0.4
La proporción de mujeres en las carreras de
ingeniería es de 0.4

H1 : p ≠ 0.4
La proporción de mujeres en las carreras de
ingeniería no es de 0.4

• Asuma que
• 𝑝 = 0.45,
• n = 200, y
α = 0.01.
31
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 2
o Calculo del valor z de 𝑝

0.4(1  0.4)
p   0.0346
o Se obtiene 200

0.45  0.4
Z=  1.45
0.0346

32
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 3
• El valor P= para una de las áreas.
• Z= 1.45
• =1.4 +0.05 =1.45

33
B. MÉTODO DEL VALOR P (MÉTODO 2)

Paso 3
• La región bajo la curva z que contiene los
valores extremos de es 0.0735 en ambos
lados de la curva

P/2 P/2

0.0735 0.0735

34
B. MÉTODO DEL VALOR P (MÉTODO 2)

Paso 4
• El valor p de una de las áreas es 0.0735 (p/2)
• Por lo tanto el valor total de los dos extremos para
poder comparar con el α es sumando las dos
regiones del Paso 3
p= 2(el área a la izquierda de 1.45)
p= 2(0.0735)
p= 0.147

35
B. MÉTODO DEL VALOR P (MÉTODO 2)
Paso 5
• Como alfa es 0.01
• Y sabemos que si el valor p >= α, entonces no se
rechaza H0
• Se tiene que 0.147 >=0.01 por lo tanto no se
rechaza la Ho

Conclusión:
La proporción de mujeres en las
carrera de ingeniería no es
diferente de 0.4.

36
EJEMPLO 1:
• Se afirma que, de todas los trabajadores que se contratan en
una empresa por lo menos el 30 % proviene del cono sur.
• Si una muestra de 600
contrataciones tomada al azar
de los registros de la oficina
de Recursos Humanos revela
que de las personas
contratadas 153 fueron del
cono sur.
• Se desea verificar tal
afirmación con un nivel de
significancia del 1%

37
EJEMPLO 1:
SOLUCIÓN:
• Para calcular la proporción p lo primero que se ha
de hacer es determinar la proporción muestral.

x  153  153
n  600,.. p   0.255,..
600
• Se probará la hipótesis nula p = 0.30 contra la
hipótesis alternativa p < 30 con un α=0.01

Para calcular el error estándar de la proporción

p  0.30,...    q  0.70,..

38
EJEMPLO 1:
1.- Hipótesis:
H 0 : p  0.30 Ho: El porcentaje de trabajadores que
proviene del cono sur es del 30%

H 1 : p  0.30 H1: El porcentaje de trabajadores que


proviene del cono sur es menor del 30%

39
EJEMPLO 1:
2.- Cálculo del valor critico
con un nivel de significancia del 1 %
para una prueba de una cola se tiene α=0.01.

Z  2.33, 40
EJEMPLO 1:

• Regla de decisión o Región crítica:

Se rechaza la Hipótesis nula si:



Z c  Z
 es decir, .

Z c  2.33

41
EJEMPLO 1:
3.- Cálculo del estadístico de prueba
Aplicando formula se tiene:

p  p 0.255  0.300 0.045 0.045


Zc      Z c  2.41
p.q 0.3 x0.7 0.00035 0.0187
n 600
O también Aplicando:

x  np 153  600(0.30) 153  180 27


Z     2.41
npq 600(0.30)(0.70) 126 11,225

42
EJEMPLO 1:
4.- Conclusión:
• Como Zc es menor que Z , se rechaza Ho
Zc
con un nivel de significancia de 0.01.
-2.41
Z c  2.41  2.33
Esto se observa en la grafica donde Zc cae fuera
del área de no rechazo .001 AREA DE
• El porcentaje de trabajadores NO
RECHAZO
que proviene del cono sur es
menor del 30% -2.33
• Por lo tanto, la afirmación de
que, de todas los trabajadores
que se contratan en una
empresa por lo menos el 30 %
proviene del cono sur, es falsa. 43
EJEMPLO 2:
• Se sabe que el 10 % de los fumadores prefieren la
marca de cigarrillo Malboro. Después de una campaña
publicitaria del cigarrillo Malboro, se entrevistaron a
200 fumadores para determinar la eficiencia de la
campaña publicitaria.
• El resultado de la muestra realizada detecto un total de
26 personas que fumaban Malboro.
• ¿Pueden considerarse que
esos datos presentan
evidencia suficiente para
indicar que hubo un aumento
en la aceptación del cigarrillo
Malboro. Utilice un nivel de
significancia del 5 %.
44
EJEMPLO 2:
• SOLUCIÓN:
• Se calcula la proporción muestral n  200.....x  26
p  0.10,.. p  26  0.13,..
• Para resolver el problema se plantea 200
una hipótesis alternativa unilateral por
la derecha.
• En la grafica se representara un 5 %
por la derecha .
• Para calcular el error estándar de la
proporción
p  0.10,..
q  0.90....
45
EJEMPLO 2:
1.- Hipótesis:
Ho: El porcentaje de fumadores que
H 0 : p  0.10 prefieren la marca de cigarrillo
Malboro es del 10%

H 1 : p  0.10 H1: El porcentaje de fumadores que


prefieren la marca de cigarrillo
Malboro es mayor del 10%

46
EJEMPLO 2:
2.-Cálculo del z critico
Por tabla se sabe que al 5 % por la derecha es decir un α=0.05

Z  1,645

47
EJEMPLO 2:

• Regla de decisión o Región crítica:


Se rechaza la Hipótesis nula si

Z Z
c 
 es decir,

Z c  1,645

48
EJEMPLO 2:
3.-Calculo el Z de los datos
Aplicando formula se tiene:

p  p 0.13  0.10
Zc   
p.q 0.1x0.9
n 200

0.03 0.03
   Z c  1.41
0.00045 0.02127

49
EJEMPLO 2:
4.- Conclusión:
• Como Z c es menor que Z  , es decir, Z c  1.41  1.96
• no se rechaza la Ho con un nivel de significancia de
0.05.
• Esto se podrá observar en una grafica en donde Z c 1.41

caerá dentro del área de no rechazo,

• El porcentaje de fumadores que


prefieren la marca de cigarrillo .005
Malboro no es mayor del 10% 1.96
• Lo que indica que la campaña
publicitaria no fue efectiva

50
EJEMPLO 3:
• Un fabricante de semiconductores produce controladores
que se emplean en el sistema eléctrico de vehículos.
• El cliente requiere que la proporción de controladores
defectuosos no sea mayor de 0.05, y que el fabricante
demuestre estas características del proceso de
fabricación con este nivel de calidad, con un nivel de
significancia del 5 %.
• El fabricante de semiconductores
toma una muestra aleatoria de
200 dispositivos y encuentra
que 4 de ellos son
defectuosos.
• ¿El fabricante puede demostrar
al cliente la calidad exigida?
51
Obtener sus conclusiones.
EJEMPLO 3:
SOLUCIÓN: n  200
• Calcular la proporción muestral
x  4,
p  4 200  0.02,.
• Para resolver el problema hay que plantear una hipótesis
alternativa unilateral de una cola por la izquierda
• Es decir, p< 0.05
• Para calcular el error estándar de la proporción:

p  0.05,
q  0.95,

52
EJEMPLO 3:
1.- Hipótesis:
Ho: La proporción de controladores
H 0 : p  0.05 defectuosos es 0.05

H1 : p  0.05 H1: La proporción de controladores


defectuosos es menor a 0.05

53
EJEMPLO 3:
2.-Cálculo del Z crítico
Por tabla se sabe que al 5 % por la cola izquierda es decir un σ=0.05

Z  1,645

54
EJEMPLO 3:
• Regla de decisión o Región crítica:
• Se rechaza la Hipótesis nula si

Z c   Z
• Es decir, Z c  1,645

55
EJEMPLO 3:
3.- Calculo el Z de los datos
Aplicando formula se tiene:

p  p 0.02  0.05
Zc   
p.q 0.05 x0.95
n 200

0.03 0.03
   Z c  1.95
0.0002375 0.0154

56
EJEMPLO 3:
4.- Conclusión:
• Como Z c es menor que Z , es decir, Z c  1.95  1.645
• , se rechaza Ho con un nivel de significancia de 0.05.
• Esto se podrá observar en una
grafica en donde Z c caerá -1.91
dentro del área de rechazo
• .005
• Por lo tanto La proporción de
controladores defectuosos es -1.645
menor a 0.05
• es decir
• El fabricante puede demostrar
al cliente la calidad exigida

57
EJEMPLO 4:
• Se ha afirmado que por lo menos el 60 % de los
estudiantes de primero y segundo semestre de una
Universidad prefieren estudiar a partir de las dos de la
madrugada.
• Si 4 de una muestra de 14 estudiantes de primero y
segundo semestre tomadas al azar, afirman que
estudian a partir de las dos de la madrugada,
• Pruebe con un nivel
de significancia del 5 %
si es cierta la
afirmación.

58
EJEMPLO 4:
SOLUCIÓN:
• Se calcula la proporción muestral
.n  14,..x  4
4
• 𝑝 = = 0.285
14
• Como 𝑝 < 𝑝
• La hipótesis nula será p=0.60 contra la hipótesis
alternativa p menor que 0.60
Para calcular el error estándar
de la proporción:
p  0.60,..q  0.40,.
59
EJEMPLO 4:
1.- Hipótesis: H 0 : p  0.60
H1 : p  0.60
Ho: El porcentaje de los estudiantes de primero y
segundo semestre de una Universidad que prefieren
estudiar a partir de las dos de la madrugada es del
60%
H1: El porcentaje de los estudiantes
de primero y segundo semestre
de una Universidad que prefieren
estudiar a partir de las dos de la
madrugada es menor del 60%

60
EJEMPLO 3:
2.-Cálculo del Z crítico
Por tabla se sabe que al 5 % por la cola izquierda es decir un α=0.05

Z  1,645

61
EJEMPLO 4:
Regla de decisión
• Región crítica:
• Se rechaza la Hipótesis nula si
Z c   Z
• ,es decir, . Z c  1,645
• se rechaza la Ho

62
EJEMPLO 4:
3.- Calcular el Z de los datos:
• Aplicando formula se tiene:

x  np 4  14(0.60)
Z  
npq 14(0.60)(0.40)
4  8.40 4.4
   2.40
3.36 1,833
63
EJEMPLO 4:
4.-Conclusión:
• Como Z es menor que Z  , es decir, Z  2.40  1,645
c c
• Se rechaza Ho y se acepta H1 con un nivel de
significancia de 0.05.
Z c  2.40
Esto se puede observar en una grafica
en donde Z c cae fuera del área de no
rechazo, por lo tanto, se acepta la Ha
.005
• Se concluye que la proporción
de estudiantes del primero y -1.645
segundo semestre que
prefieren estudiar a partir de
las dos de la madrugada es
menor del 60 %.
64
PRUEBA DE HIPOTESIS
PARA DOS PROPORCIONES

65
COMPARANDO DOS
PROPORCIONES
• En ciertos casos se esta interesado en comparar la
proporción de “éxito” en dos poblaciones
independientes.
• La proporción de semillas que germinan siendo
tratadas o no con un funguicida.
• El porcentaje de hombres y de mujeres que votan a
determinado candidato.

66
COMPARANDO DOS
PROPORCIONES
•Para efectuar esta comparación se requiere

 Una muestra aleatoria de tamaño n1 extraída


de la población 1 con parámetro p1
 Una muestra aleatoria de tamaño n2 extraída
de la población 2 con parámetro p2

67
COMPARANDO DOS
PROPORCIONES
• Comparamos las dos proporciones haciendo
inferencia sobre p1-p2, la diferencia entre las
dos proporciones poblacionales.
•Si las dos proporciones poblacionales son
iguales, entonces p1-p2 = 0.
•El mejor estimador de p1-p2 es la diferencia
entre las dos proporciones muestrales,
𝑥1 𝑥2
𝑝1 − 𝑝2 = −
𝑛1 𝑛2

68
DIFERENCIAS ENTRE PROPORCIONES
• Muestras Grandes 0 por Ho

• Aleatorias
• Independientes ( P1 – P2 )

H0: P1 = P2

H1: P1  P2

Proporción ponderada

69
.
EJEMPLO 1
La administración de una gran tienda cree, sobre la base de una
investigación, que el porcentaje de hombres que visitan sus tiendas 9
a más veces al mes (clientes frecuentes) es mayor que el porcentaje
de mujeres que hacen lo mismo.
Para probar esta información se toma una muestra de clientes
hombres y se identifica a 45 que visitan 9 a mas veces la tienda al
mes y representan un 58% del total, luego se toma una muestra de
mujeres y se encuentra que 71 so las clientes mas frecuentes y
representan el 42 % del total
Utilice un nivel de
significación de 0.05
Con los datos
proporcionados probar esta
hipótesis

70
.
EJEMPLO 1

La información proporcionada es:

𝑛𝐻 = 45 𝑛𝑀 = 71 Especifica el nivel de
significación de
𝑝𝐻 = 0.58 𝑝𝑀 = 0.42

𝑝𝐻 − 𝑝𝑀 = 0.58 − 0.42 = 0.16

71
EJEMPLO 1
1. Se formula las hipótesis:
Las especificaciones requeridas y el procedimiento
para probar esta hipótesis es la siguiente:
Las hipótesis nula y alternativa son las siguientes:

Ho: Ph – Pm = 0 la proporción de hombres que reportan 9


a más visitas por mes es la misma que la
proporción de mujeres que hacen lo
mismo.

H1: Ph – Pm >0 la proporción de hombres que reportan 9


a más visitas por mes es mayor a la
proporción de mujeres que hacen lo
mismo. 72
EJEMPLO 1
2. Especifica el nivel de significación de α = .05 .
El valor crítico para la prueba de una sola cola es de
1.64.

Z  1,645

73
73
EJEMPLO 1
4. Calculo del estadístico de la prueba:

a. Calculamos el P (la proporción ponderada)

𝑛𝐻 𝑝𝐻 + 𝑛𝑀 𝑝𝑀
𝑃= 74
𝑛𝐻 + 𝑛𝑀
𝑝𝐻 = proporción muestral de hombres (H)
𝑝𝑀 = proporción muestral de mujeres (M)
nH = tamaño de muestra hombres
nM = tamaño de muestra mujeres

Reemplazando se obtiene:

45(0.58)+71(0.42)
𝑃= =0.48
45+71
74
EJEMPLO 1
3. Calculo del estadístico de la prueba:
b. Se estima el error estándar de la diferencia de las
dos proporciones:
1 1
𝑆𝑝ℎ−𝑚 = 𝑃(1 − 𝑃) +
𝑛𝐻 𝑛𝑀

P=0.48 𝑃 = proporción ponderada


nH = tamaño de muestra hombres
Reemplazando se obtiene: nM = tamaño de muestra mujeres

1 1
𝑆𝑝ℎ−𝑚 = 0.48(1 − 0.48) + =0.1
45 71
EJEMPLO 1
4. Calculo del estadístico de la prueba:

c. Calculamos el Z de la muestra

76

Diferencias entre proporciones observadas= 𝑝𝐻 - 𝑝𝑀


𝑝𝐻 = proporción muestral de hombres (H)= 0.58
𝑝𝑀 = proporción muestral de mujeres (M)= 0.42
Sph-m=0.1
Reemplazando se obtiene:

0.58−0.42 −(0)
Z= =1.6
0.1
76
EJEMPLO 1
5.- La hipótesis nula no se
rechaza, porque el valor de la 1.6
Z calculada (1.60) es menor Zc
que el valor crítico Z. (1.64)
.005
Conclusión: 1.64
La administración no puede concluir con un nivel de
significancia del nivel de 0.05, que la proporción de
hombres que visita 9 a más veces a la gran tienda es
mayor que la proporción de mujeres que hacen lo
mismo.

77
EJEMPLO 02
• Se considera cierto cambio en un proceso de fabricación de
partes de componentes. Se toman muestras del
procedimiento existente y del nuevo, para determinar si
éste tiene como resultado una mejoría.
• Si se encuentra que 75 de 1500
artículos del procedimiento
actual son defectuosos y 80 de
2000 artículos del
procedimiento nuevo también
lo son.
• Encuentre un intervalo de
confianza de 95% para la
diferencia real en la fracción de
defectuosos entre el proceso
actual y el nuevo. 78
EJEMPLO 02
Solución:
• Sean P1 y P2 las proporciones reales de
defectuosos para los procesos actual y nuevo,
respectivamente.
• De aquí,

• 𝑝1 =75/1500 = 0.05 y
• 𝑝2 = 80/2000 = 0.04

79
EJEMPLO 02
1.- Formulación de la hipótesis:

Ho: Pa – Pn = 0
Ho: La proporción de defectuosos del proceso
existentes es igual al nuevo proceso
H1: Pa – Pn >0

Ho: La proporción de defectuosos del proceso


existentes es mayor al nuevo proceso

80
EJEMPLO 02
2. Obtención del valor crítico:
• Con el uso de la tabla encontramos que z para un nivel
de confianza del 95% (alfa=0.05)

Z  1,645

81
81
EJEMPLO 02
3.- Cálculo de los valores del intervalo

𝑝1 𝑞1 𝑝2 𝑞2
𝑃1 − 𝑃2 = (𝑝1 −𝑝2 ) + 𝑧 + =
𝑛1 𝑛2

(0.05)(0.95) (0.04)(0.96)
𝑃1 − 𝑃2 = 0.05 − 0.04 + 1.645 + =
1500 2000

p1-p2<0.0217

82
EJEMPLO 02
4.- Conclusión:
Como el intervalo contiene el valor de cero, no se
rechaza la hipótesis nula
Es decir
La proporción de defectuosos del proceso existentes no
es mayor al nuevo proceso con un nivel de significancia
del 5%
Por lo tanto
no hay razón para creer que el nuevo
procedimiento producirá una disminución
significativa en la proporción de artículos
defectuosos comparado con el método existente.

83
FIN
wjleonv@yahoo.com
ESTADISTICA
INDUSTRIAL
TEMA 03

PRUEBA DE HIPOTESIS PARA


MUESTRAS PEQUEÑAS
Ing. William León Velásquez
CONTENIDO
Distribución t de Student
Prueba de hipótesis para una muestra
pequeña
• Pruebas de hipótesis de dos muestras:
muestras dependientes
• Pruebas de hipótesis de dos muestras:
muestras independientes
• La distribución F

Ing William León Velásquez 2


Distribución t de
Student

3
Ing William León Velásquez
Distribución t de Student

• La distribución t de student fue


descubierta por William S. Gosset
en 1908.
• Gosset era un estadístico
empleado por la compañía de
cerveza Guinness con quien tenía
un contrato que estipulaba que no
podía usar su nombre en sus
publicaciones.
• Él recurrió al sobrenombre de
“Student” que es como ahora
conocemos el tipo de estadística
que desarrolló.

Ing William León Velásquez 4


Distribución t de Student
• Según el Teorema del Límite Central, la distribución
muestral de un estadístico (como la media de la muestra)
seguirá una distribución normal, siempre y cuando:
 El tamaño de la muestra sea suficientemente grande. o
 Cuando se conoce la desviación estándar de la
población
• Entonces se puede calcular un valor z y emplear la
distribución normal para evaluar probabilidades sobre la
media de la muestra.
• Si los tamaños de las muestras son muy pequeños, y no se
conoce la desviación estándar de la población, se utiliza
una distribución conocida como la “t de student” cuyos
valores están dados por:
𝑋−𝜇 Diferencia a probar
𝑡=
𝑆 Desviación estándar de la
𝑛 Ing William León Velásquez diferencia o Error Estándar 5
Distribución t de Student
• Se observa que la ecuación es
prácticamente igual a la que se utiliza para la
distribución muestral de medias para
muestras grandes.
• Solo se ha reemplazado la desviación
estándar de la población por la desviación
estándar de la muestra.

X 𝑋−𝜇
z 𝑡=
 𝑆
n 𝑛
Ing William León Velásquez 6
Distribución t de Student
• De forma similar como en la distribución muestral
de medias cuando n > 30, en donde se usa la
distribución normal, se encontrará la distribución
de los valores t de student para aquellos casos
para cuando n < 30.

• Existe una diferencia en su


aplicación y es que ahora se
utilizará una o más tablas
de valores t en lugar de la
tabla para valor Z.

Ing William León Velásquez 7


Diferencias de la Distribución t
y de la Z

• La varianza de t no es igual a 1 como en la de Z,


• Depende del tamaño de la de muestra y siempre es
mayor a uno.

• Solo cuando el tamaño


de la muestra tiende a
infinito las dos
distribuciones serán las
mismas.

Ing William León Velásquez 8


GRADOS DE LIBERTAD
• La forma de la distribución t de student depende de
un parámetro llamado el número de grados de
libertad.
• El número de grados de libertad es igual al tamaño de
la muestra (número de observaciones independientes)
menos 1.

gl= df= n –1

Nota: cuando se utiliza un software es posible que el número


de grados de libertad se denomine como df o DF (“degrees of
freedom”).
Ing William León Velásquez 9
GRADOS DE LIBERTAD
• El concepto de grados de libertad se puede visualizar haciendo
referencia a la varianza muestral que es igual a:

Esta fórmula puede verse como un promedio de las distancias a la


media sobre n-1 datos.
La terminología de grados de libertad resulta del hecho de que si
bien s2 considera n cantidades, sólo n –1 de ellas pueden
determinarse libremente.
Ejemplo:
Si tenemos 4 datos (n= 4) entonces tenemos cuatro diferencias:
Se sabe que la suma de ellas es = 0, por lo que si se conoce 3 de las
diferencias , la suma de las diferencias
entonces, la última diferencia queda definida porque
por lo tanto
Lo que indicaIngque
William sólo
León 3 de las diferencias (n–1= 4 –1 = 3) son
Velásquez 10
“libres” y la otra queda definida por las demás.
Propiedades de la distribución t
• Es simétrica.

• Más plana que la normal.


Hay una distribución t
diferente para cada tamaño
posible de muestra.

• Una distribución t es menor


en la media y mayor en las
colas que una distribución
normal.

Ing William León Velásquez 11


Propiedades de la distribución t

o Es unimodal, con media en 0


- o Es una familia de curvas, en
función de los llamados “grados
de libertad”. Es decir, hay una
distribución t de Student con 1
gl, una distribución t de Student
con 2 gl, etc.
o A medida que aumentan los
grados de libertad, la
distribución tiende más y más a
una distribución normal
estandarizada.

Ing William León Velásquez 12


TABLA DE LA DISTRIBUCIÓN t de
Student
• La tabla t es más compacta y muestra áreas y valores
de t sólo para algunos porcentajes.
• La tabla de la distribución t, no se concentra en la
probabilidad de que el parámetro de la población
que se está estimando se encuentre dentro del
intervalo de confianza.
• En lugar de ello, mide la
probabilidad de que este
parámetro NO esté dentro de
nuestro intervalo de confianza
(mide la probabilidad de que
esté fuera).
• En la tabla t debemos
especificar los grados de
libertad que se manejan.Ing William León Velásquez 13
Nivel de Significación para la prueba de una cola Nivel de Significación para la prueba de una cola
0,10 0,05 0,025 0,01 0,005 0,0005 0,10 0,05 0,025 0,01 0,005 0,0005
df df
Nivel de Significación para la prueba de dos colas Nivel de Significación para la prueba de dos colas
0,20 0,10 0,05 0,02 0,01 0,001 0,20 0,10 0,05 0,02 0,01 0,001
1 3,078 6,314 12,706 31,821 63,657 636,619 18 1,330 1,734 2,101 2,552 2,878 3,922
2 1,886 2,920 4,303 6,965 9,925 31,599 19 1,328 1,729 2,093 2,539 2,861 3,883
3 1,638 2,353 3,182 4,541 5,841 12,924 20 1,325 1,725 2,086 2,528 2,845 3,850
4 1,533 2,132 2,776 3,747 4,604 8,610 21 1,323 1,721 2,080 2,518 2,831 3,819
5 1,476 2,015 2,571 3,365 4,032 6,869 22 1,321 1,717 2,074 2,508 2,819 3,792
6 1,440 1,943 2,447 3,143 3,707 5,959 23 1,319 1,714 2,069 2,500 2,807 3,768
7 1,415 1,895 2,365 2,998 3,499 5,408 24 1,318 1,711 2,064 2,492 2,797 3,745
8 1,397 1,860 2,306 2,896 3,355 5,041 25 1,316 1,708 2,060 2,485 2,787 3,725
9 1,383 1,833 2,262 2,821 3,250 4,781 26 1,315 1,706 2,056 2,479 2,779 3,707
1
0 1,372 1,812 2,228 2,764 3,169 4,587 27 1,314 1,703 2,052 2,473 2,771 3,690
1
1 1,363 1,796 2,201 2,718 3,106 4,437 28 1,313 1,701 2,048 2,467 2,763 3,674
1
2 1,356 1,782 2,179 2,681 3,055 4,318 29 1,311 1,699 2,045 2,462 2,756 3,659
1
3 1,350 1,771 2,160 2,650 3,012 4,221 30 1,310 1,697 2,042 2,457 2,750 3,646
1
4 1,345 1,761 2,145 2,624 2,977 4,140 40 1,303 1,684 2,021 2,423 2,704 3,551
1
5 1,341 1,753 2,131 2,602 2,947 4,073 60 1,296 1,671 2,000 2,390 2,660 3,460
1
6 1,337 1,746 2,120 2,583 2,921 4,015 120 1,289 1,658 1,980 2,358 2,617 3,373
1 Ing William León Velásquez 14
7 1,333 1,740 2,110 2,567 2,898 3,965 ∞ 1,282 1,645 1,960 2,326 2,576 3,291
ESQUEMA

P H MEDIA

MUESTAS MUETRAS
GRANDES PEQUEÑAS

DIST RIB. T
1 MUESTRA 2 MUESTRAS
STUDENT
PRUEBA DE
HIPOTESIS PARA UNA
MUESTRA PEQUEÑA

16
Ing William León Velásquez
PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA. INTRODUCCIÓN
• En sesiones anteriores se
utilizo la distribución z,
siempre y cuando los
tamaños de las muestras
fueran mayores o iguales a
30 ó en muestras más
pequeñas si se conocen la
desviación estándar de la
población.

• En esta sesión se podrán utilizar muestras pequeñas


siempre y cuando la distribución de donde proviene la
muestra tenga un comportamiento normal.
Ing William León Velásquez 17
PRUEBA DE HIPÓTESIS PARA UNA MUESTRA
PEQUEÑA: Calculo del valor de t de la muestra
• Si de una población Normal con media  y
desviación estándar  se extrae una muestra
de tamaño n, entonces el estadístico es:

𝑋−𝜇
𝑡=
𝑆
𝑛
• Que se distribuye como una t de Student con
n-1 grados de libertad.

Ing William León Velásquez 18


PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA: Ejemplo 01
Un supervisor desea probar que el
promedio de calificaciones (media:
µ) en las escuelas de ingenierías
son menores a 12 pts.
Se selecciona una muestra aleatoria
de 25 escuelas y se obtiene una
media muestral 𝑋 = 11,916 y una
desviación estándar es de S = 1,40.
Se asume que la distribución de
calificaciones es aproximadamente
normal.
Con un α=0.05

Ing William León Velásquez 19 19


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA
PEQUEÑA: Pasos para solucionar

• Paso 1
• Se Definir el valor supuesto que se desea
probar: PROBLEMAS UTILIZANDO LA
– La Hipótesis Nula (H0) y
DISTRIBUCIÓN t
– La hipótesis alternativa (H1).

Ing William León Velásquez 20


PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA: Ejemplo 01
1.- Formulación de las hipótesis:
H0 : µ = 12
H1 : µ < 12

El promedio de calificaciones en las escuelas de


ingenierías son menores a 12 pts.

La H1 indica que se trata de


una prueba de una cola hacia
la izquierda

Ing William León Velásquez 21


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA
PEQUEÑA: Pasos para solucionar

 Paso 2:
Seleccionar el nivel de significación α y los grados de
libertad n-1.
Luego buscar el valor de tc utilizando estos datos:

Ing William León Velásquez 22


PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA: Ejemplo 01
2. Si se utiliza α = 0.05 y
25 - 1 = 24 grados de libertad,
El valor crítico de t tabulado para una cola
a)Según la Tabla “Distribución t de
Student”
b)Podemos encontrar +/-1.71 para t
de una cola, va depender de la
dirección expresada en la Ha.

Ing William León Velásquez 23


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA
PEQUEÑA: Pasos para solucionar

• Paso 3
Calcular el estadístico t aplicando la fórmula

𝑋−𝜇
𝑡=
𝑆
𝑛

Ing William León Velásquez 24


PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA: Ejemplo 01
3. Cálculo el estadístico t aplicando formula, utilizar
la calculadora
• Se tiene los siguientes datos:
N=25 𝑋−𝜇
𝑋=11.916 𝑡=
μ=12 𝑆
S=1.40 𝑛
• Reemplazando en la fórmula se obtiene:

• t=-0.3

Ing William León Velásquez 25


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA
PEQUEÑA: Pasos para solucionar

• Paso 4
Formular la regla de decisión y concluir
tomando y justificando la decisión:
rechazar o no rechazar la Hipótesis Nula
(H0 )

Ing William León Velásquez 26


PRUEBA DE HIPÓTESIS PARA UNA
MUESTRA PEQUEÑA: Ejemplo 01
4. Como el valor calculado del estadístico t =-0.3, es
menor que el valor de t tabulado t(0,05; 24) : -1.71,
Entonces no se rechaza la H0.
En otras palabras la calificación promedio de los
alumnos de ingeniería no es menor de12 puntos.
• Gráficamente se observa:

Zona de
no
5% rechazo
95%
-1,71 t = - 0,3
Ing William León Velásquez 27
No se rechaza la H0
PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
• Un ingeniero químico afirma que el rendimiento medio de
cierto proceso en lotes es 500 gramos por milímetro de
materia prima.
• Para verificar esta afirmación el fabricante
toma una muestra de 25 lotes cada mes.
• ¿A Qué conclusión se llegará con un nivel
de confianza del 90%; si la muestra
extraída tiene una media de 518 gramos
por milímetro y una desviación estándar
de 40 gramos?
• Suponer que la distribución de
rendimientos es aproximadamente
Ing William León Velásquez 28
PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
Solución:
1. Formulación de las hipótesis
• Ho: µ=500
• H1: µ ≠ 500
El rendimiento medio de cierto proceso en lotes es
DIFERENTE de 500 gramos por milímetro de materia
prima.

• De la hipótesis alternativa
observamos que se trata de una
prueba de dos colas

Ing William León Velásquez 29


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
2.- Con un α=0.01
prueba de dos colas
• De la tabla encontramos que t±0.05
para 24 grados de libertad es
±1.711.

• Regla de decisión: el fabricante quedará satisfecho


con esta afirmación si una muestra de 25 lotes rinde
un valor t entre –1.711 y 1.711.

Ing William León Velásquez 30


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
3.- Se procede a calcular el valor de t:

4.- Este valor de 2.25 es mayor de 1.711,


Entonces se rechaza la Ho

es decir el rendimiento
medio de cierto proceso en
lotes es diferente de 500 gramos por milímetro
de materia prima
Por lo tanto el fabricante concluye que no es cierta la afirmación
del ingeniero con un alfa de 0.10.

Ing William León Velásquez 31


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Ejemplo 02
• Gráficamente:

Ing William León Velásquez 32


PRUEBA DE HIPÓTESIS PARA UNA MUESTRA PEQUEÑA:
Alfa=0. Valor de
Ejemplo 02. Calculando el valor p 1 p≈0.02
• Para hallar la probabilidad de obtener
un valor de Tcalculado :2.25, con 24
grados de libertad
1. Se busca en la tabla la línea del grado
de libertad: 24
2. Se ubica un valor cercano a 2.25
3. Finalmente se ubica el valor de la
probabilidad en la parte superior de la
tabla
4. Como se observa es
aproximadamente 0.02 (valor de p).
• Como p<α (0.1)
• Se confirma el rechazo de la Ho
Ing William León Velásquez 2.25 33
ESQUEMA
P H MEDIA

MUESTAS MUETRAS
GRANDES PEQUEÑAS

DIST RIB. T
1 MUESTRA 2 MUESTRAS
STUDENT

DEPENDIENTES DISTRIB. F INDEPENDIENTE

VARIANZAS VARIANZAS
IGUALES DIFERENTES
PRUEBAS DE HIPÓTESIS DE
DOS MUESTRAS:
MUESTRAS DEPENDIENTES

35
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES

• Esta estrategia de la investigación


surge cuando cada observación
para un tratamiento está
apareada con otra observación
para el otro tratamiento.
• Este par está compuesto por las
mismas unidades experimentales
observadas dos veces en
distintos momentos de la
investigación, o por unidades
semejantes
Ing William León Velásquez 36
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES

• El procedimiento consiste
en buscar pares de unidades
experimentales con
características similares y
asignar aleatoriamente cada
unidad del par a cada uno
de los dos tratamientos en
estudio.

Ing William León Velásquez 37


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES

Ejemplo de aplicación:
• Se desea probar dos tipos
de alimentos en dos grupos
de terneros para ello se
forman pares de la misma
raza, edad, sexo, etc. y
después de un periodo, ver
si existe diferencia
significativa o no, entre los
promedios de ganancia de
peso de ambos grupos.
Ing William León Velásquez 38
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES

Ejemplo de aplicación:
• Se desea estudiar en dos
lotes de plantas del mismo
tipo, la aplicación de dos
tipos de herbicidas, y
comprobar si existen
diferencias en la resistencia
de ciertas plagas entre los
lotes de plantas).

Ing William León Velásquez 39


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
1.-
Se plantea las hipótesis :
• Ho: D=0 ó Ho: D=0 o D=0

• Ha: D≠0 ó Ha: D>0 o D<0

2.- Se obtiene tT
Con el α y como se establece una hipótesis de
un único parámetro poblacional (se podría
pensar en una sola muestra) ,
Y con el número de grados de libertad (n - 1)
Se obtiene el t n-1,0.05

Ing William León Velásquez 40


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
3.- Se calcula el tC

𝑑−𝐷
𝑡𝑐 =
𝑆𝑑
𝑛

Donde :
𝑑𝑖 𝑑𝑖 − 𝑑
2
𝑑= 𝑆𝑑 =
𝑛𝑖 𝑛−1

Ing William León Velásquez 41


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
4.- Luego se compara el
tc con tn -1 .

Las reglas de decisión son:


• No se rechaza H0 cuando -tc < t < tc
• Rechazar H0 si t < -tc ó t > tc

Ing William León Velásquez 42


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
MUESTRAS DEPENDIENTES
Ejemplo 01
• Se hizo un estudio para definirse si los
ejercicios aeróbicos reducen el ritmo
cardiaco de una persona durante el
descanso, Para ello se examina a diez
voluntarios antes y después de seguir un
programa de ese tipo durante seis meses,
Sus pulsaciones, en latidos por minuto, dieron los
siguientes registros:
Voluntario 1 2 3 4 5 6 7 8 9 10

Antes 73 77 68 62 72 80 76 64 70 72

Después 68 72 64 60 71 77 74 60 64 68
Ing William León Velásquez 43
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
• Usar α= 0.05 para calcular si los ejercicios
aeróbicos reducen el ritmo cardiaco durante el
reposo.
• Calcular
• Por la región crítica y
• Por el valor de P.

SOLUCIÓN
• α= 0.05
• GL: N-1 =10-1=9

Ing William León Velásquez 44


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
Método de la región crítica
1.- Formulación de la hipótesis:
Ho: µA-µD=0 o µA=µD
H1: µA-µD>0 o µA>µD
El ritmo cardiaco de una persona durante
el descanso antes del programa es mayor
al ritmo cardiaco después del programa

Ing William León Velásquez 45


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
2.- Cálculo del tT

Regla de decisión: tT=1.833


Si tR <=1.833 No se rechaza Ho
Si tR > 1.833 se rechaza Ho

Ing William León Velásquez 46


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
3.- Cálculos:
• Se procederá a calcular las diferencias de cada
par:

Voluntario 1 2 3 4 5 6 7 8 9 10

Antes 73 77 68 62 72 80 76 64 70 72

Después 68 72 64 60 71 77 74 60 64 68

Diferencia 5 5 4 2 1 3 2 4 6 4

Ing William León Velásquez 47


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES

• Al calcular la media de las diferencias nos da 3.6


con una sd = 1.58.

𝑑−𝐷 3.6−0
𝑡𝑐 =
𝑆𝑑 = 1.58 =7.20
𝑛 10

Ing William León Velásquez 48


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES

4.- Justificación y decisión:


• Como 7.20 es mayor que 1.833, se rechaza H0,
Entonces el ritmo cardiaco de una persona durante el
descanso antes del programa es mayor al ritmo
cardiaco después del programa
y se concluye con un nivel de
significancia de 0.05 que los
datos indican que los ejercicios
aeróbicos disminuyen
significativamente el ritmo
cardiaco durante el reposo.
Ing William León Velásquez 49
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 01 MUESTRAS DEPENDIENTES
Método por el valor de p:
3.6−0
• Para calcular el valor de P se busca el 7.20 𝑡𝑐 = 1.58 =7.20
en el renglón de 9 grados de libertad en la 10
tabla t,

y se observa que el valor mayor que aparece en dicha tabla es


4.781 al cual le corresponde una área a la derecha de 0.0005,
entonces se puede concluir que el valor de P es prácticamente
cero.
Ing William León Velásquez 50
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
Se realizó un estudio de 2 dietas a 11 perros
diabéticos insulino-dependientes. Se utilizó la glucosa
sérica como variables de respuesta.
• La dieta consistió en alta
(AF) y baja (BF) en fibra.
• Cada perro fue asignado
aleatoriamente para su
primera dieta donde se
mantuvo por 6 meses y
luego se le cambió a la
otra dieta por otros 6
meses.
Ing William León Velásquez 51
PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
• En la tabla siguiente se resumen los resultados
de glucosa pos-tratamiento.

 ¿Lasdietas propuestas ejercen algún efecto sobre el


nivel de glucosa sérica a un nivel de significación de
0,01?

Ing William León Velásquez 52


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES

1.- Formulación de la Hipótesis:

• Ho : D = 0
• H1 : D≠ 0
• el nivel de glucosa sérica con las dietas de alta fibra es diferentes
al nivel obtenido con la dieta de baja fibra

Ing William León Velásquez 53


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
2.- Cálculo del tc
• Con α=0.01 de dos colas
• Gl=11-1=10

• ttab=3.169

Si t > 3.169 o si t -3.169 se rechaza la Hose Rechaza la Ho

Ing William León Velásquez 54


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
3.- Se calcula el tC
Primero se calcula las diferencias
Id 1 2 3 4 5 6 7 8 9 10 11
Perro
AF 9.4 17.6 8.9 16.9 10.4 11.8 15.1 7.1 19.6 8.2 23.2

BF 9.3 8.7 6.3 12.7 6.7 7.3 15.4 5.6 11.9 5.1 17.3

Dife- 0.1 8.9 2.6 4.2 3.7 4.5 -0.3 1.5 7.7 3.1 5.9
rencia

Ing William León Velásquez 55


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
Los resultados de la muestra fueron:
• 𝑑 =3.81
• 𝑆𝑑 =2.90
• n=11
Se obtiene el estadístico de la prueba:

𝑑−𝐷 3.81−0
𝑡𝑐 =
𝑆𝑑 = 2.90 =4.35
𝑛 11

Ing William León Velásquez 56


PRUEBAS DE HIPÓTESIS DE DOS MUESTRAS:
Ejemplo 02 MUESTRAS DEPENDIENTES
4.- Interpretación y conclusión:
Como 4.35>3.17
• Se rechaza la Ho
• Se pueden concluir que existe
diferencias en las cantidades de
glucosa en los dos grupos
• Por lo tanto las dietas propuestas
ejercen algún efecto sobre el nivel
de glucosa sérica a un nivel de
significación de 0,01?

Ing William León Velásquez 57


PRUEBAS DE HIPÓTESIS DE DOS
MUESTRAS:
MUESTRAS INDEPENDIENTES

58
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.
• Meta: Prueba de Hipótesis o formar un intervalo de
confianza para la diferencia entre la media de las dos
poblaciones.

1.- Dos medias poblacionales, Muestras


independientes
• Diferentes fuentes de datos
• No relacionados
• Independientes
– Muestra seleccionada de una
población no tiene efecto sobre la
muestra seleccionada de otra
población.

Ing William León Velásquez 59


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.

2.- Formulación de las Hipótesis

Prueba Cola Inferior Prueba Cola Superior Prueba de dos Colas


Ho:μ1 = μ2 Ho:μ1 = μ2 Ho:μ1 = μ2
Ho:μ1 < μ2 Ho:μ1 > μ2 Ho:μ1 ≠ μ2
Equiv Equiv Equiv
Ho: μ1 - μ2=0 Ho: μ1 - μ2=0 Ho: μ1 - μ2=0
H1: μ1 - μ2<0 H1: μ1 - μ2>0 H1: μ1 - μ2≠0

Ing William León Velásquez 60


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.

2.- Formulación de las Hipótesis

Prueba Cola Inferior Prueba Cola Superior Prueba de dos Colas


Ho: μ1 - μ2=0 Ho: μ1 - μ2=0 Ho: μ1 - μ2=0
H1: μ1 - μ2<0 H1: μ1 - μ2>0 H1: μ1 - μ2≠0

Ing William León Velásquez 61


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.
3. Para calcular el estadístico de la muestra se
tiene dos opciones.
o Prueba “t” para dos muestras suponiendo
varianzas iguales. Es la prueba “t” donde se
compara los promedios de dos grupos
independientes, cuyas varianzas sean iguales u
homocedasticas.
o Prueba “t” para dos muestras suponiendo
varianzas desiguales. Es la prueba “t” donde se
compara los promedios de dos grupos
independientes, cuyas varianzas sean desiguales
o heterocedasticas.

Ing William León Velásquez 62


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES.
3. Para calcular el estadístico de la muestra se
tiene dos opciones.

• Se probará la
σ1 y σ2 igualdad de
desconocidos varianza
Se asumen • Se usará Sp para
iguales estimar σ
desconocidas

σ1 y σ2 • Se probará la
desconocidos igualdad de varianza
• Se usará S1 y S2
No se asumen para estimar σ1 y σ2
iguales desconocidas
Ing William León Velásquez 63
PRUEBAS DE HIPÓTESIS DE DOS
MUESTRAS:
MUESTRAS INDEPENDIENTES
Se asume Varianzas iguales

64
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
• Se asume:
• Las muestras son aleatorias e independientes
• Las Poblaciones son normalmente distribuidas o el
tamaño muestral de ambas muestra es por lo menos
30
• Varianzas poblacionales son asumidas iguales y
desconocidas
La varianza ponderada es: El estadístico de prueba es:

Donde tSTAT tiene d.f. = (n1 + n2 – 2)

Ing William León Velásquez 65


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales

• El intervalo de confianza para μ1 – μ2 es:

Donde tα/2 tiene d f = n1 + n2 – 2

Ing William León Velásquez 66


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 1
• Un analista financiero quiere saber si
existe una diferencia entre los
dividendos de dos depósitos tal como
se muestra en la tabla. (A y B)
• Los datos son los siguientes:
A B
Numero 21 25
Media muestral 3.27 2.53
Desv. Est. Muest. 1.30 1.16
Asumiendo que ambas poblaciones son normales
con varianzas iguales, existirá una diferencia entre
los dividendos(α = 0.05)?
Ing William León Velásquez 67
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 1
1.- Formulación de las Hipótesis:
H0: μ1 - μ2 = 0 i.e. (μ1 = μ2)
H1: μ1 - μ2 ≠ 0 i.e. (μ1 ≠ μ2)

2.- Cálculo del estadístico

Ing William León Velásquez 68


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 1
3. Hallando el valor crítico:
α = 0.05
df = 21 + 25 - 2 = 44
Valores Críticos: t = ±
2.0154

4.-Decisión y Conclusión:
Rechazar H0 con α = 0.05
Hay evidencia de una diferencia entre medias.
Ing William León Velásquez 69
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 1: Con Intervalo de confianza para μ1 - μ2
Como se rechaza la H0,
Establecer un 95% de intervalo de confianza de tal
manera que μA ≠μB? 𝑿𝟏 − 𝑿𝟐 =3.27 - 2.53=0.74
95% I.C. para μA - μB Tα/2 =2.0154
Error t m=0.3628

Se observa que O está fuera del intervalo de confianza,


Por lo tanto se puede concluir con 95% que μA ≠ μB

Ing William León Velásquez 70


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
• Se estudia la capacidad antioxidante de la lecha materna
versus la leche de fórmula.
• Para ello se selecciona un grupo de 22 niños que recibió leche
materna normal durante sus primeros 3 meses de vida. Y otro
grupo de 14 niños, que no pudieron ser amamantados por su
madre, y que recibió leche con una fórmula especial.

• A los tres meses de vida se mide la


capacidad antioxidante desarrollada en
los dos grupos de niños.
• En base a los resultados adjuntos,
realice una prueba de hipótesis
comparando las medias de la
capacidad antioxidante, para revisar
los supuestos (asuma normalidad).
Ing William León Velásquez 71
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
• Los datos recopilados se muestran en la tabla
adjunta:

Estadísticos de grupo

Desv iación Error típ. de


Tipo de leche N Media típ. la media
C. Antioxidante materna 22 80.33 8.144 1.736
f ormula 14 71.83 9.194 2.457

Ing William León Velásquez 72


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
Solución:
o Nos interesa comparar las medias de dos
grupos independientes
o Primero se debe revisar los supuestos:
1.Nos dicen que asuman normalidad
2.Se asume Homogeneidad de
varianzas

Ing William León Velásquez 73


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
1.- Formulación de la hipótesis:

Ho: μ1 - μ2=0
H1: μ1 - μ2≠0

• Se trata de una Prueba bilateral

Ing William León Velásquez 74


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
2.- Cálculo del estadístico de la prueba:

x1  x2 80,33 - 71,83 8,50


t    2,904 ~ t( 34 )
1 1 2,927 2,927
sc 
n1 n2

Ing William León Velásquez 75


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
3.- Obtención del valor de p
t=2.94
GL: n1+n2-2 = 22 + 14 – 2 = 34

• El valor p es de 0,006 (hipótesis bilateral) y es menor


que alfa 0,05

Ing William León Velásquez 76


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y asumidas iguales
Ejemplo 2 mediante el valor de p
4.- Conclusiones:
• Por lo tanto, se rechaza la Ho, y
• Se concluye que la capacidad antioxidante de la
leche materna y de la fórmula usada en este
estudio, son distintas, con un nivel de significación
del 5%.

Ing William León Velásquez 77


La distribución F

78
Ing William León Velásquez
Se denomina así en
honor a Sir Ronald
Fisher, uno de los
fundadores de la
ciencia estadística
moderna.

Ing William León Velásquez 79


Uso:
Para probar si dos muestras
provienen de poblaciones
con varianzas iguales.
Para comparar
simultáneamente varias
medias poblacionales
(ANOVA).
Para probar y comparar, las poblaciones deben
ser normales, y los datos, por lo menos deben
estar en nivel de intervalo
Ing William León Velásquez 80
La distribución F. Características

•Es continua
Esto significa que puede
tomar una cantidad
infinita de valores entre 0
y más infinito

Ing William León Velásquez 81


La distribución F. Características

•Es asintótica
Conforme los valores de
X aumentan, la curva de
la distribución F se
aproxima al eje X, pero
nunca lo toca. Es la
misma característica que
describe una distribución
normal.

Ing William León Velásquez 82


La distribución F. Características

•Sus valores no pueden


ser negativos

El menor valor que


puede asumir F es
cero

Ing William León Velásquez 83


La distribución F. Características
•Tiene sesgo positivo
La cola larga de la
distribución se encuentra a
la derecha. Conforme el
numero de grados de
libertad aumenta, tanto en
el numerador como en el
denominador, la
distribución se aproxima a
una distribución normal.

Ing William León Velásquez 84


La distribución F. Características

Existe una familia de


distribuciones F

Un miembro específico
de la familia queda
determinado por dos
parámetros: los grados
de libertad en el
numerador y los grados
de libertad en el
denominador.
Ing William León Velásquez 85
La distribución F. Uso 1

Comparación de dos varianzas


poblacionales

La distribución F se utiliza para probar la


hipótesis de que la varianza de una
población normal es igual a la varianza de
otra población normal.

86
Ing William León Velásquez
La distribución F. Uso 2

Prueba de medias de mas de dos


muestras a través de la
comparación de dos varianzas
poblacionales
Otro uso de la distribución F es el análisis de la
técnica de la varianza (ANOVA), en la cual se
comparan tres o más medias poblacionales para
determinar si pueden ser iguales.

Ing. William león Velásquez 87


La distribución F. Comparación de dos varianzas
poblacionales
Ejemplos de aplicación:
• El índice de rendimiento medio de
los dos tipos de acciones comunes
puede ser el mismo, pero quizás
haya más variación en el índice de
rendimiento en un tipo que en otro.
• Una muestra de 10 acciones
relacionadas con la tecnología y 10
acciones de compañías de servicios
presentan el mismo índice de
rendimiento medio, pero es probable
que haya más variación en las
acciones vinculadas a la tecnología.
88
Ing William León Velásquez
La distribución F. Comparación de dos
varianzas poblacionales
Ejemplos de aplicación :
• Un estudio del departamento
de marketing de un periódico
importante reveló que los
hombres y las mujeres utilizan
la misma cantidad de tiempo
navegando por la Web. Sin
embargo, en el mismo reporte
se indica que había casi el
doble de variación en el tiempo
pasado por día entre los
hombres que las mujeres.

89
Ing William León Velásquez
La distribución F. Procedimiento para realizar la
prueba

1.- Formulación de las hipótesis:

H0: σ12 = σ22


H1: σ12 ≠ σ22

Para realizar la prueba, se selecciona una muestra


aleatoria de n1 observaciones de una población y
una muestra de n2 observaciones de la segunda
población.

Ing William León Velásquez 90


La distribución F. Procedimiento para
realizar la prueba

2.- Cálculo del estadístico:


Para realizar la prueba, se selecciona una muestra
aleatoria de n1 observaciones de una población y una
muestra de n2 observaciones de la segunda
población.
El estadístico de prueba se define como:
2
𝑆 1
F0 = 2
𝑆 2

Ing William León Velásquez 91


La distribución F. Procedimiento para
realizar la prueba
3.- Obtención del FT
Con los grados de libertad de las dos muestras n1 y n2
y el nivel de significancia, Se va a las tablas y se obtiene
𝐹(𝑛1−1,𝑛2 −1)

Ing William León Velásquez 92


La distribución F. Procedimiento para
realizar la prueba

4.- Conclusión

Si F0 > 𝐹(𝑛1−1,𝑛2 −1) Se Rechazará la Ho

Ing William León Velásquez 93


La distribución F. Ejemplo 1
• Una empresa importadora tiene dos
rutas para llegar al aeropuerto.
Si se desea estudiar el tiempo en
conducir al aeropuerto por cada ruta
y luego comparar los resultados.
Se recopiló los siguientes datos
muestrales que aparecen en la tabla,
• Mediante el nivel de significancia
0.10, ¿hay alguna diferencia en la
variación en los tiempos de manejo
para las dos rutas?
Ruta
52 67 56 45 70 54 64
1
Ruta
59 60 61 51
Ing William León Velásquez 56 63 57 65 94
2
La distribución F. Ejemplo 1
Solo de Comparación de Varianza
Paso 1: Se establece la hipótesis nula (H0) y la
hipótesis alternativa H1
H0: σ12 = σ22
H1: σ12 ≠ σ22

Paso 2: Se selecciona un nivel de significancia


α = 0.05 como se menciona en el problema

Paso 3: Se selecciona el estadístico de prueba .


Su usa la distribución F
95
Ing William León Velásquez
La distribución F. Ejemplo 1
Solo de Comparación de Varianza
Paso 2: Se obtiene el Fc.

Tabla F
con α=0.05
n1=6
n2=7
F=3.866

Se formula la regla de decisión.


Se rechaza la H0 si F > F,v1,v2
F > F.05,7-1,8-1
Ing William León Velásquez
F > 3.866
96
La distribución F. Ejemplo 1
Solo de Comparación de Varianza

Paso 3: Se calcula el valor de F


Ruta 1

Ruta 2

Ing William León Velásquez 97


Ejemplo 1: Solo de Comparación
de Varianza
Paso 4: se toma una decisión

FT=3.866
F=4.23
La decisión es rechazar la hipótesis nula,
debido a que el valor F calculado es mayor que el
valor crítico

Se concluye que hay una diferencia en la variación de


los tiempos recorridos por las dos rutas.

Ing William León Velásquez 98


PRUEBAS DE HIPÓTESIS DE DOS
MUESTRAS:
MUESTRAS INDEPENDIENTES
Con verificación de igualdad de
varianzas

99
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Se debe verificar si se asume que son iguales

Varianzas
Poblacionales
desconocidas

Se asume Se asume
Varianzas Varianzas
iguales diferentes
Prueba de hipótesis sobre la diferencia de
medias. Muestras independientes, Varianzas
desconocidas pero se asume iguales
Ho: µ1 = µ2
Ho: µ1 ≠ µ2
Para probar Ho se debe calcular el estadístico t y compararlo
con el tC
𝑥1 − 𝑥2 − 𝜇1 − 𝜇2
𝑡= tc(𝑛1 + 𝑛2 − 2)
1 1
𝑆𝑝 +
𝑛1 𝑛2

𝑛1 − 1 𝑆 21 + 𝑛2 − 1 𝑆 2 2
𝑆2𝑝 =
𝑛1 + 𝑛2 − 2

101
Ing William León Velásquez
Prueba de hipótesis sobre la diferencia de
medias. Muestras independientes, Varianzas
desconocidas pero se asume diferentes
Ho: µ1 = µ2
Ho: µ1 ≠ µ2
Para probar Ho se debe calcular el estadístico t y compararlo
con el tC
𝑥1 − 𝑥2 − 𝜇1 − 𝜇2
𝑡= tc(glp)
𝑆21 𝑆22
+
𝑛1 𝑛2 2
𝑆 21 𝑆 2 2
𝑛1 + 𝑛2
𝑔𝑙𝑝 =
2 2
𝑆 21 𝑆22
𝑛1 𝑛2
+
𝑛1 − 1 𝑛2 − 1
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
• La cantidad de impurezas presente en un lote de sustancia química
utilizada como materia prima es determinante para evaluar la
calidad
• Un fabricante que usa dos líneas de producción 1 y 2, hizo un ligero
ajuste a la línea 2 con la esperanza de reducir tanto la variabilidad
como la cantidad promedio de impurezas en la sustancia química.
Muestras aleatorias en cada línea arrojaron las
siguientes mediciones
Línea n Promedio Varianza
1 16 3.2 1.04
2 16 3.0 0.51
¿Los datos aportan suficiente evidencia
para concluir que la variabilidad de
impurezas del proceso es menor para la
línea 2? Ing William León Velásquez 103
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
• Solución:

 Nos interesa comparar las medias de dos grupos


independientes

 Primero se debe revisar los supuestos:

1.Nos dicen que asuman normalidad

2.En este caso ya no se asume Homogeneidad de


varianzas, tenemos que probarla

Ing William León Velásquez 104


PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Fase 1: de Comparación de Varianzas
1.- Formulación de las hipótesis
• Ho:𝜎1 2 =𝜎2 2
• H1:𝜎1 2 > 𝜎2 2

Si el fo muestral es menor que 2.4. No rechazamos la hipótesis Ho


Si el fo muestral es mayor que 2.4. Rechazamos la hipótesis nula
Ing William León Velásquez 105
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1

2.40
2. 04
Con un nivel de significancia de 0.05, no se rechaza Ho, por
lo tanto se puede concluir que la variabilidad de las dos 106
líneas son iguales Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Fase 2: Prueba de Hip. Para muestras independientes.
Para probar la disminución de El estadístico de prueba teniendo en
impurezas se utiliza la cuenta que mediante la prueba F, se
siguiente prueba de hipótesis: concluyó que se asumen varianzas
iguales es:

Con un α=5% y con GL:30


De la tabla se tiene:
𝑡(0.05,30) = 1.6973
Si el to muestral es menor que 1.6973. No rechazamos la hipótesis Ho
Si el to muestral es mayor que 1.6973. Rechazamos la hipótesis nula Ho
107
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Paso 3: Cálculo de t de los datos:

108
Ing William León Velásquez
PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS
INDEPENDIENTES. Con σ1 y σ2 desconocidas y con verificación
Ejemplo 1
Paso 3: Cálculo de t de los datos:

=0.9

Paso 4: Decisión y conclusión:


A un nivel de significancia del 5% No se rechaza la Ho, por
lo tanto podemos concluir que la media de la línea 1 no
es mayor a la línea 2, lo que quiere decir que el ajuste no
109
produjo ninguna reducción
Ing William León Velásquez
FIN
wjleonv@yahoo.com
TEMA 04
ANALISIS DE LAS
VARIANZAS
Ing. William León Velásquez
Suposiciones en el análisis de la varianza (ANOVA)

Para emplear ANOVA se supone lo siguiente:


Las poblaciones siguen la distribución
normal.

Las poblaciones tienen desviaciones


estándar iguales (σ).

Las poblaciones son independientes.


4
Ing. William león Velásquez
El análisis de la varianza (ANOVA)
• ANOVA permite comparar las medias de tratamiento de
forma simultánea y evitar la acumulación del error tipo I.

• ANOVA se desarrolló para aplicaciones en agricultura, y aún


se emplean muchos de los términos relacionados con ese
contexto.
En particular, con el
término tratamiento
se identifican las
poblaciones diferentes
que se examinan.

5
Ing. William león Velásquez
EJEMPLO DIDACTICO

El gerente de un centro financiero, desea comparar la productividad, medida por


el número de clientes atendidos entre tres empleados.
Selecciona cuatro días en forma aleatoria y se registra el número de clientes
atendidos por cada empleado.
Los resultados son:

Walter Willy Kike


55 66 47
54 76 51
59 67 46
56 71 48

Ing. William león Velásquez 6


EJEMPLO DIDACTICO

¿Habrá alguna diferencia en el número de clientes atendidos?

En la siguiente gráfica se ilustrará cómo


pueden aparecer las poblaciones si hubiera
una diferencia en las medias del
tratamiento.

Ing. William león Velásquez 7


EJEMPLO DIDACTICO

Walter
Observe que las poblaciones en la gráfica de la
Kike
izquierda siguen la distribución normal y la
Willy variación en cada población es la misma. Sin
embargo, las medias no son iguales.
Servicio al cliente

Suponer que las poblaciones son iguales es Walter

decir que no hay diferencia en las medias


Kike
(tratamiento). Estos se muestra en la gráfica de
Willy
la derecha. Observe que las poblaciones siguen
la distribución normal y la variación en cada
población es la misma. Servicio al cliente

Ing. William león Velásquez 8


La prueba ANOVA

•Si se desea determinar si varias medias muestrales provienen


de una sola población o de poblaciones con medias diferentes.
Lo que se hace en realidad, es que estas medias muestrales se
comparan mediante sus varianzas.

•Una de las suposiciones para aplicar la prueba ANOVA es que


la desviación estándar de las diversas poblaciones normales
tienen que ser las mismas. Se aprovecha este requisito en la
prueba ANOVA.

9
Ing. William león Velásquez
La prueba ANOVA

• La estrategia es estimar la varianza de la población de dos formas y


después determinar la razón de dichos estimados.
• Si esta razón es aproximadamente 1, entonces por lógica los dos
estimados son iguales, y se concluye que las medias poblaciones
son iguales.

• La distribución F sirve como un árbitro al indicar en


que instancia la razón de las varianzas muestrales es
mucho mayor que 1 para haber ocurrido por
casualidad.

Ing. William león Velásquez 10


La prueba ANOVA
• Se definirá algunos conceptos que nos ayudaran a entender mejor en
problemas posteriores, a través del ejemplo planteado.

VARIACIÓN TOTAL (SS) Suma de las diferencias elevadas al


cuadrado entre cada observación y la media global

Ing. William león Velásquez 11


EJEMPLO DIDACTICO

La variación total del ejemplo:


• Se calcula la media global de las 12 observaciones:
• (55+54+59+56+66+76+67+71+47+51+46+48)/12 = 58

X G  58
Ing. William león Velásquez 12
EJEMPLO DIDACTICO

• Después, para cada una de las 12 observaciones se encuentra la


diferencia entre el valor particular y la media global. Cada una de
estas diferencias se eleva al cuadrado y estos cuadrados se suman,
este resultado es la variación total,
SS= (55-58)2+(54-58)2+(59-58)2+(56-58)2+
(66-58)2+(76-58)2+(67-58)2+(71-58)2+
(47-58)2+(51-58)2+(46-58)2+(48-58)2=
SS= 1082.

Ing. William león Velásquez 13


EJEMPLO DIDACTICO

Luego se divide esta variación total en dos componentes:


• la que se debe a los tratamientos y
• la que es aleatoria.
SS: Suma de cuadrados
SS = SST + SSE SST: Suma de cuadrados de los tratamientos
SSE: Suma de cuadrados del error

Para encontrar estas dos componentes, se determina la


media de cada tratamiento.
La primera fuente de variación se debe a los tratamientos.

Ing. William león Velásquez 14


La prueba ANOVA

VARIACIÓN DE TRATAMIENTO (SST) Suma de las diferencias elevadas al


cuadrado entre la media de cada tratamiento y la media global

15
Ing. William león Velásquez
EJEMPLO DIDACTICO
• En el ejemplo, la variación debida a los tratamientos es la suma de las diferencias
al cuadrado entre la media de cada empleado y la media global.

• Para calcularlo, primero se encuentra la media de cada uno de los tres


tratamientos.
La media de Walter es 56, determinada por:
(55 + 54 + 59 + 56)/4.
La media de Willy es son 70 determinada por:
(66 + 76 + 67 + 71)/4.
La media de Kike es 48 determinada por:
(47 + 51 + 46 + 48)/4.

16
Ing. William león Velásquez
EJEMPLO DIDACTICO

La suma de los cuadrados debida a los

tratamientos es:

(56 – 58)2 +(56 – 58)2 + … ..+ (48 – 58)2 + (48 – 58)2 =

=4(56 – 58)2 + 4(70 – 58)2 + 4(48 – 58)2 = 992 SST = 992

 Si existe una variación considerable entre las medias de los


tratamientos, es lógico que este término sea grande.
 El valor más bajo posible es cero. Esto ocurrirá cuando todas las
medias de los tratamientos sean iguales.

17
Ing. William león Velásquez
La prueba ANOVA
•La otra fuente de variación se le conoce como componente aleatoria o
componente de error.

VARIACIÓN ALEATORIA (SSE) Suma de las diferencias elevadas al cuadrado


entre cada observación y su media de tratamiento.

Ing. William león Velásquez 18


EJEMPLO DIDACTICO

Las medias de
cada empleado
Walter es 56
Willy es 70
Kike es 48

• En el ejemplo, este término es la suma de las diferencias al cuadrado


entre cada valor y la media para ese empleado en particular.
SSE=(55 – 56)2 +(54 – 56)2 + ……… + (46 – 48)2+ (48 – 48)2 = 90
La variación de error es de 90.
SSE = 90
Ing. William león Velásquez 19
EJEMPLO DIDACTICO
•En resumen:
La suma de la diferencia entre el valor particular y la media global elevado al
cuadrado es la variación total, y es igual 1082.
La suma de los cuadrados debida a los tratamientos es 992
 La variación de error es de 90.
Por lo tanto:
SS = SST + SSE
1082 = 992 + 90

= +

Ing. William león Velásquez 20


La prueba ANOVA

El estadístico de prueba, es la razón de los dos estimados de la varianza poblacional,


se determina a partir de la siguiente ecuación:

𝑀𝑆𝐴
𝐹=
𝑀𝑆𝐸𝑟𝑟𝑜𝑟
Ing. William león Velásquez 21
La prueba ANOVA

Diferencia entre grupos

𝑀𝑆𝐴 S 2T m  1
𝐹=
𝑀𝑆𝐸𝑟𝑟𝑜𝑟
F 2 m-1

S E nm

Diferencias dentro de cada


grupos
Ing. William león Velásquez n -m 22
EJEMPLO DIDACTICO

El primer estimado de la varianza poblacional


entre los tratamientos, es decir, de la diferencia
entre las medias.
Éste es 992/2.
¿Por qué se divide entre 2?
Recuerde que para encontrar una varianza muestral ,
se divide entre el número de observaciones menos Entre grupos
uno (n-1).
En este caso hay 3 tratamientos por lo que se divide
entre 2.
El primer estimado poblacional es 992/2.

Ing. William león Velásquez 23


EJEMPLO DIDACTICO

El estimado de la varianza dentro de los


tratamientos es la variación aleatoria dividida entre
el número total de observaciones menos el número
de tratamientos.
Es decir 90 / (12-3). Dentro de cada grupos
De aquí, el segundo estimado de la varianza
poblacional es 90/9.

Ing. William león Velásquez 24


EJEMPLO DIDACTICO
Por tanto

𝑀𝑆𝐴 S 2T m  1
𝐹= F 2 Entre grupos

𝑀𝑆𝐸𝑟𝑟𝑜𝑟 S E nm Dentro de cada grupos

Ing. William león Velásquez 25


EJEMPLO DIDACTICO

Como esta razón es muy distinta a 1, se concluye que las medias de los
tratamientos no son iguales.

Por lo tanto hay una diferencia en el número medio de clientes atendidos


por los tres empleados.

Al igual que en la prueba de hipótesis de dos muestras y una muestra se


sigue la regla de los cinco pasos.

Ing. William león Velásquez 26


Comparación de varias medias

Análisis de Varianza (ANOVA)

Es la relación entre una variable cualitativa


(con más de 2 categorías) y una variable
cuantitativa

Ing. William león Velásquez 27


El problema

•Se tiene varias medias muestrales y se desea


saber si realmente son evidencia de una
diferencia entre los diferentes grupos.
•Existe una variable cuanlitativa X que podría
explicar los cambios en una variable
cuantitativa Y

Ing. William león Velásquez 28


Esquema ANOVA

Variable Independiente o Variable dependiente o


Explicativa Respuesta
Cualitativa Cuantitativa

X Y

FACTOR que incluye varios Medición que puede


posibles tratamientos que RESPONDER a los varios
pueden influir en la posibles tratamientos del
respuesta factor estudiado
Ing. William león Velásquez 29
La Hipótesis
Ho: No hay relación entre X e Y
Ho: Las medias de Y en los diferentes grupos son
iguales
Ho: μ1 = μ2 = μ3

Ha: Si hay relación entre X e Y


Ha: Por lo menos una media de Y es diferente en los
grupos definidos por la variable X
Ha: No todas las medias poblacionales son iguales

Ing. William león Velásquez 30


Ilustración mediante un ejemplo

Se ha calculado la producción promedio de tres líneas de producción


de una empresa de productos electrónicos

Línea 1 Línea 2 Línea 3


Producción promedio 11.1 15.9 22.7
(unidades)

Desviación estándar 5.6 6.2 5.9


(unidades)

Base n 244 206 139

La muestra seleccionada permite ver que hay diferencias, pero esta


diferencia representa sólo en la muestra
Ing. William león Velásquez 31
Si se asume que Ho es cierta
(No hay relación)

Línea 1 Línea 2 Línea 3 Media


general

Producción 15.5 15.5 15.5 15.5


promedio

Base (n) 244 206 139 589

En la población las medias deberían ser iguales (Este es el supuesto de Ho)

Ing. William león Velásquez 32


Modelo de ANOVA de un factor

Media general
Efecto del tratamiento en el
Y= factor analizado

Error aleatorio

Ing. William león Velásquez 33


En el ejemplo
X es el factor analizado:
variable cualitativa

Y : cantidad producida

 El efecto sobre la cantidad producida de cada tratamiento (línea de


producción) en la muestra no tiene que ser el mismo.

 La hipótesis nula dice que no hay


diferencia en la producción en los
tratamientos.
 La hipótesis alternativa dice que por lo
menos uno de los tratamientos (línea de
producción) tiene efecto sobre la cantidad
comprada

Ing. William león Velásquez 34


Resultados de ANOVA
Efecto del factor Línea de Producción

Efecto del Error aleatorio


Como el valor de p es casi 0 se rechaza la Ho
Con lo cual se rechaza la hipótesis de igualdad de medias
Por lo tanto al menos una línea tiene una producción diferente
En otrasIng.palabras hay una relación el factor línea y la producción.
William león Velásquez 35
Supuestos de ANOVA

• La dispersión debe ser la misma en cada grupo


o categoría (igualdad de varianza)
• La distribución de las observaciones en cada
grupo debe ser normal

ANOVA es más sensible al primer supuesto que la segundo

En casos extremos hay que considerar alternativas no paramétricas

Ing. William león Velásquez 36


Ejemplo 1
• Una gran ciudad está dividida en cuatro distritos. El jefe de policía quiere
determinar si hay alguna diferencia en el número promedio de infracciones
cometidos en cada distrito.
• Se registró el número de infracciones reportados en cada distrito en una
muestra de seis días.
• Al nivel de significancia 0,05; puede el funcionario concluir que hay diferencia
en el número promedio de infracciones?

Distrito 01 Distrito 02 Distrito 03 Distrito 04

Ing. William león Velásquez 37


Ejemplo 1
a) Formulación de las hipótesis
Ho: μ1 = μ2 = μ3 = μ4
H1: Al menos una de las μi es diferente

b) Obtención del valor crítico:


Nivel de significancia=0.05
GL numerador: k-1 = 4-1=3
GL del denominador: n-k = 24-4 =20
Fcrítico= 3.098
Regla de decisión:
Se rechazará la Ho si F> 3.10

Ing. William león Velásquez 38


Ejemplo 1
c) Cálculo del valor del estadístico de la prueba:

Distrito 01 x2 Distrito 02 x2 Distrito 03 x2 Distrito 04 x2 total


13 169 21 441 12 144 16 256
15 225 13 169 14 196 17 289
14 196 18 324 15 225 18 324
15 225 19 361 13 169 15 225
14 196 18 324 12 144 20 400
15 225 19 361 15 225 18 324 ∑∑x
∑x (T) 86 108 81 104 379
n 6 6 6 6 ∑∑x2
∑ x2 1236 1980 1103 1818 6137

Ing. William león Velásquez 39


Ejemplo 1
𝑋 2
𝑇 2𝑗 𝑋 2
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 𝑋2 − 𝑆𝑆𝑇 = −
𝑛 𝑛𝑗 𝑁

𝟑𝟕𝟗 2 (86)2 (108)2 (81)2 (104)2 (379)2


𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 𝟔𝟏𝟑𝟕 − = 151.958 SST=------ + ------ + ------ + -------- - --------
24
6 6 6 6 24

SST= 1232.67 + 1944.00 + 1093.50 + 1802.67 - 5985.04 = 87.79

SSTotal= SST+ SSE SSE=SSTotal – SST

SSE=151.958 – 87.79 =64.188


Ing. William león Velásquez 40
Ejemplo 1
Suma de Media
F. Variación G.L. F
Cuadrados Cuadrado
Tratamientos 87.770 3 29.256 9.118
Error 64.188 20 3.2094
Total 151.958 23

d) Criterio de decisión
Se rechaza la Ho debido a que el valor del Fcalculado es 9.118 y es mayor al
valor del Fcrítico de 3.10.
Se concluye de que hay diferencia en el número promedio de infracciones
entre los distritos citados

Ing. William león Velásquez


41
Ejemplo 2
• Una egresada de ingeniería industrial tiene ofertas de trabajo de cuatro empresas.
Para examinar un poco más las propuestas, solicitó a un grupo de personas recién
ingresadas a dichas empresas, que le indiquen cuántos meses trabajaron cada una
para su compañía, antes de recibir un aumento de sueldo.
• La información muestral fueron lo siguiente:
Empresa1 Empresa2 Empresa3 Empresa4

12 14 18 12
10 12 12 14
14 10 16 16
12 10
Al nivel de significancia de 0,05; existe alguna diferencia entre las cuatro
empresas, en el número medio de meses antes de recibir un aumento de sueldo?
Ing. William león Velásquez 42
Ejemplo 2
a) Formulación de las hipótesis
Ho:μ1 = μ2 = μ3 = μ4
H1: Al menos una de las μi es diferente

b) Obtención del valor crítico:


Nivel de significancia=0.05
GL numerador: k-1 = 4-1=3
GL del denominador: n-k = 14-4 =10
Fcritico= 3.708
Regla de decisión:
Se rechazará la Ho si F> 3.71

Ing. William león Velásquez 43


Ejemplo 2

• C) Obtención del F de los datos de la muestra

Empresa 01 X2 Empresa 02 X2 Empresa 03 X2 Empresa 04 X2 Total

Ing. William león Velásquez 44


Ejemplo 2

SStotal   X
2

 X
2

  X 
2

SST   
2
T c n  
 c  n

Ing. William león Velásquez 45


Ejemplo 2

Como el valor Fcrítico 3.71 es mayor que el valor Fcalculado de 2.360 no se rechaza
la Ho, y se concluye que no existe alguna diferencia entre las cuatro empresas, en el
número medio de meses antes de recibir un aumento de sueldo

Ing. William león Velásquez 46


Ejemplo 3
 Los miembros de un equipo ciclista se dividen al azar en tres grupos que
entrenan con métodos diferentes.
 El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo
realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con
pesas y se ejercita en el pedaleo de alta frecuencia.

 Después de un mes de entrenamiento se


realiza un test de rendimiento consistente
en un recorrido cronometrado de 9 Km.

Ing. William león Velásquez 47


Ejemplo 3
Los tiempos empleados fueron los siguientes
Método I Método II Método III
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?

Ing. William león Velásquez 48


Ejemplo 3

Se calcula los totales y los cuadrados de los totales divididos por el numero de
observaciones

Ing. William león Velásquez 49


Ejemplo 3
X
2
 2984  X  2

 2940
n

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SStotal   X
2

 X
2
SC(total) = 2984 - 2940 = 44
n
   X 
2

SST    SC(entre) = 2966,8 – 2940 = 26,8


2
T c

 nc  n

SC(intra) = 2984 – 2966,8 = 17,2


SS = SST + SSE
SST = SS -SSE

Ing. William león Velásquez 50


Ejemplo 3
Los cuadrados medios serán:
𝑀𝑆𝐴 MSA= CM(entre) = 26,8/2 = 13,4
𝐹=
𝑀𝑆𝐸𝑟𝑟𝑜𝑟 MSerror= CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:

S m 1 2T
F 2 F = 13,4/ 1,43 = 9,37
S E nm
Ing. William león Velásquez 51
Ejemplo 3

El valor de la F teórica con 2 y 12 grados de libertad, a


un nivel de confianza del 95% es
3,89.
Por consiguiente se rechaza la hipótesis nula y
Se concluye que los tres métodos de
entrenamiento producen diferencias significativas.

Ing. William león Velásquez 52


Ejemplo 4
Un estudio muestra en la pantalla de cuatro computadores una lista de palabras
sin sentido con procedimientos diferentes, asignados aleatoriamente a un grupo
de personas.
Luego se les realiza una prueba de memoria de dichas palabras, obteniéndose los
siguientes resultados:

¿Qué conclusiones pueden obtenerse acerca de las cuatro formas de


presentación, con un nivel de significación del 5%?
Ing. William león Velásquez 53
Ejemplo 4
Solución:
Calcular los totales y los cuadrados de los totales divididos por el número de
observaciones:

Ing. William león Velásquez 54


Ejemplo 4
Luego calcular los cuadrados de las observaciones y su total

Ing. William león Velásquez 55


Ejemplo 4
A partir de estas cantidades básicas calcular las Sumas de Cuadrados:

𝑋 2
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 𝑋2 − SC(total) = 988 – 820 = 168
𝑛
𝑇 2𝑗 𝑋 2
𝑆𝑆𝑇 = −
𝑛𝑗 𝑁 SC(entre) = 902 – 820 = 82

Los cuadrados medios serán: SC(intra) = 988 – 902 = 86

CM(entre) = 82/3 = 27,3


CM(intra) = 86/22 = 3,9
Ing. William león Velásquez 56
Ejemplo 4
Por lo tanto el estadístico de prueba será:
27.3
𝐹= =7.0
3.9

Cálculo del F critico:


El valor de la F teórica con 3 y 22 grados de libertad, a un
nivel de confianza del 95% es 3.05.

Conclusión
Como el F calculado es mayor que el Fcritico se rechaza
la hipótesis nula y se concluye que los cuatro
procedimientos de presentación producen diferencias
significativas.

Ing. William león Velásquez 57


ANOVA de dos factores

◦ Se consideran los efectos de dos factores


simultáneamente

• Diseño de bloques aleatorios


◦ Cuando una característica puede afectar la
medición de la variable dependiente, se trata de
controlar o bloquear esta variable, de tal manera
que se pueda comparar mejor la influencia de un
determinado tratamiento

Ing. William león Velásquez 59


ANOVA de dos factores

Media general

Efecto del tratamiento


específico del primer factor

Y= Efecto del tratamiento


específico del segundo factor

Efecto de la interacción entre


tratamientos

Error aleatorio
Ing. William león Velásquez 60
Diseño de Bloques aleatorios

Media general

Efecto del tratamiento específico


del primer factor
Y=
Efecto del bloque

Error aleatorio

Ing. William león Velásquez 61


ANOVA – P.H. para probar la igualdad de medias de varias
poblaciones con dos factores

Se trata de probar si el efecto de un factor o Tratamiento en la respuesta


de un proceso o sistema es significativo, al realizar experimentos
variando los niveles de ese factor (Temp.1, Temp.2, etc.) por FILAS
Y Considerando los niveles de otro factor que se piensa que tiene
influencia en la prueba – FACTOR DE BLOQUEO por COLUMNA

Ing. William león Velásquez 62


ANOVA – P.H. para probar la igualdad de medias de varias
poblaciones con dos factores
Para el tratamiento – en filas

Ho : 1   2  3  .........   a
Ha : A lg unas. ' s.son.diferentes
Para el factor de bloqueo – en columnas

Ho :  '1   '2   '3  .........   'a


Ha : A lg unas. ' s.son.diferentes
Ing. William león Velásquez 63
ANOVA 2 Factores - Ejemplo

Experiencia en años de los operadores


Maquinas 1 2 3 4 5
Maq 1 27 31 42 38 45
Maq 2 21 33 39 41 46
Maq 3 25 35 39 37 45

Ing. William león Velásquez 64


ANOVA – Dos factores o direcciones

• La SCTot y SCTr (filas) se determina de la misma forma que para


la ANOVA de una dirección o factor
• En forma adicional se determina la suma de cuadrados del factor
de bloqueo (columnas) de forma similar a la de las filas
• La SCE = SCT – SCTr - SCBl

Ing. William león Velásquez 65


ANOVA de 2 factores –
Suma de cuadrados, gl. y Cuadrado medio para el factor de bloqueo (en cols)

b
SCBl   a( X
j 1
j  X) 2

gl.SCBl  b  1
CMBl  SCBl /( b  1)

Ing. William león Velásquez 66


ANOVA de 2 factores – Suma de cuadrados, gl. y
Cuadrado medio para el error

SCE  SCT  SCTr  SCBl


gl.SCE  ( n  a )(n  b)
CME  SCBl /( n  a )(n  b)

Ing. William león Velásquez 67


ANOVA – Cálculo del estadístico Fc y Ftabla

MCTr
Fc 
MCE
Ftabla  FALFA , g l. S CTr, g l. S CE

Ing. William león Velásquez 68


ANOVA de 2 factores – Cálculo del estadístico
Fcbl y Ftabla bloques (columnas)

MCBl
Fc 
MCE
Ftabla  FALFA , g l. S CBl, g l. S CE

Ing. William león Velásquez 69


Tabla final ANOVA 2 Factores

FUENTE DE VARIACIÓN SUMA DE GRADOS DE CUADRADO VALOR F


CUADRADOS LIBERTAD MEDIO

Entre muestras (tratam.) SCTR a-1 CMTR CMTR/CME

Entre Bloques (Factor Bl) SCBl b-1 CMBL CMBL/CME

Dentro de muestras (error) SCE (a-1)(b-1) CME

Variación total SCT n-1 CMT

Regla: No rechazar si la F de la muestra es menor que la F de tabla para una cierta alfa

Ing. William león Velásquez 70


ANOVA – 2 F. Toma de decisión

Distribución F
Ftabla

Alfa
Zona de no rechazo

Zona de no rechazo de Ho Zona de rechazo


O de no aceptar Ha De Ho o aceptar Ha
Fc: Tr o Bl
Ing. William león Velásquez 71
ANOVA – 2 F. Toma de decisión

Si Fc (Tr o Bl) es mayor que Ftabla se rechaza Ho


Aceptando Ha donde las medias son diferentes

O si el valor de p correspondiente a Fc (Tr o Bl) es


menor de Alfa se rechaza Ho

Ing. William león Velásquez 72


Ejemplo 1
• Se ha diseñado una prueba de vocabulario para detectar la afinidad
hacia la mecánica.
• La prueba consiste en un cierto número de palabras tomadas de una
lista de términos alusivos a la mecánica y a la maquinaria; y que la
calificación que una persona puede obtener en esa prueba es,
simplemente, el número de palabras que puede definir
correctamente.
• Supongamos que se quiere probar si
hay diferencias relativas a dos
características, sexo y lugar donde
viven, y también si se presentan
diferencias atribuibles a la combinación
de ambas.
Ing. William león Velásquez 73
Ejemplo 1
•Las calificaciones (cantidad de palabras bien definidas) de las personas
clasificadas de acuerdo a las dos variables fueron las siguientes:

Urbano Rural
Hombre Mujer Hombre Mujer
C p
a a 4 1 3 4
n l
t d a 9 4 7 4
i e b
d r
9 5 7 4
a a 10 6 7 8
d s

Ing. William león Velásquez 74


Ejemplo 1

• Es posible, llevar a efecto un análisis de varianza de una sola clasificación


con estos cuatro grupos de sujetos, sin embargo, si se encuentra una
diferencia significativa entre estos cuatro grupos, ¿Como saber si esas
diferencias deben atribuirse al sexo o al lugar donde viven o a una
combinación de ambos?
• Es por ello que en estos casos se utiliza el método de análisis de
varianza de doble clasificación.

Ing. William león Velásquez 75


Pasos

1.- Establecer Hipótesis


Se tiene que establecer hipótesis para cada uno de los tratamientos y para
la interacción de ambos:
a) Primer tratamiento:
Ho: “Con respecto al sexo no existe diferencia en las calificaciones
obtenidas, que mide la afinidad hacia la mecánica”
Ha: “Con respecto al sexo existe diferencia en las calificaciones
obtenidas, que mide la afinidad hacia la mecánica”

Ing. William león Velásquez 76


Ejemplo 1
1.- Establecer Hipótesis
b) Respecto al segundo tratamiento:
Ho: “Con respecto al lugar donde viven no existe diferencia en las
calificaciones obtenidas, que mide la afinidad hacia la mecánica”
Ha: “Con respecto al lugar donde viven existe diferencia en las
calificaciones obtenidas, que mide la afinidad hacia la mecánica”

Ing. William león Velásquez 77


Ejemplo 1

1.- Establecer Hipótesis


• c) Respecto a la interacción de los dos tratamientos
Ho:” La combinación de las circunstancias sexo y lugar de residencia no
afecta de manera significativa el tener más afinidad hacia la mecánica”
Ha:”La combinación de las circunstancias sexo y lugar de residencia
afecta de manera significativa el tener más afinidad hacia la mecánica”

Ing. William león Velásquez 78


Ejemplo 1
2.- Establecer el Criterio de Contraste
nivel de significancia de .05

a=2 b=2 n=16


Gl T1 =1
Gl SCE= 12
gl T1 a-1 1 F= 4 .75
gl T2 b-1 1
gl Iter (a-1)(b-1) 1
gl Tot n-1 15 Gl T2 =1
gl SCE glTot-gl T1 -gl T2 - gl Iter 12 Gl SCE= 12
F= 4 .75

Gl Iter =1
Gl SCE= 12
F= 4 .75

Ing. William león Velásquez 79


Ejemplo 1
3.- Calcular el Estadístico de Prueba
Sumatoria de los totales
Urbano Rural
Hombre x2 Mujer x2 Hombre x2 Mujer x2
4 16 1 1 3 9 4 16
9 81 4 16 7 49 4 16
9 81 5 25 7 49 4 16
10 100 6 36 7 49 8 64 ΣΣ
ΣX = 32 16 24 20 92
ΣX² = 278 78 156 112 624
n 4 4 4 4 16
Ing. William león Velásquez 80
Ejemplo 1
•Cálculo del Factor de corrección:
( X ) 2
FC 
 n

FC 
92 
2
 529
16
Ing. William león Velásquez 81
Ejemplo 1
•Cálculo de la Suma Total de Cuadrados

SCTotal = X 2 - FC
= ( 278 + 78 + 156 + 112) - 529 = 95
= 624 - 529 = 95

Ing. William león Velásquez 82


Ejemplo 1

•Calcular la suma de cuadrados por cada tipo de tratamiento


•SCT1 (por el lugar donde viven)

Ing. William león Velásquez 83


Ejemplo 1

•Calcular la suma de cuadrados por cada tipo de tratamiento


•SCT2 (por sexo)

Hombre Mujer

Ing. William león Velásquez 84


Ejemplo 1
•Calcular la suma de cuadrados por grupos

•*Este valor nos servirá para calcular el SCI y SCE


Ing. William león Velásquez 85
Ejemplo 1
• Calcular la suma de cuadrados de la interacción de los dos tratamientos
SCI = SCG – SCT1 – SCT2 =
= 35 – 1 – 25 = 9

• Calcular la suma de cuadrados del error


SCE = SCTOT – SCG =
= 95 – 35 = 60

Ing. William león Velásquez 86


Ejemplo 1
•Construir la Tabla ANOVA

FUENTE SC GL MC F
TRATAMIENTO 1 1.0 1 1 0.2
TRATAMIENTO 2 25.0 1 25 5
POR GRUPOS 35
INTERACCION 9.0 1 9 1.8
ERROR 60 12 5
TOTAL 95 15

Ing. William león Velásquez 87


Ejemplo 02
4.- Tomar Decisión y Conclusión
Decisión
FCRITICO FDATOS Conclusión
FT1= 4 .75 0.2 Se rechaza la Ho

FT2= 4 .75 5 No se rechaza la Ho


FCrítico
FINT= 4 .75 1.8 No se rechaza la Ho
Como los Estadísticos de Prueba, en los casos de las variables de localidad (F*1 = 0.2) y la
combinación de sexo y localidad (F*i =1.8) son mas pequeños que sus respectivos criterios de
contraste (F = 4.75), en estos casos no se rechaza la hipótesis nula,
Mientras que en el caso del sexo el Estadístico de Prueba (F*2 = 5.0) es mas grande que el
Criterio de Contraste (F = 4.75), entonces por lógica inferimos que F* queda dentro de la zona
crítica y por lo tanto se rechaza la hipótesis nula por lo tanto aceptamos la hipótesis alterna

Ing. William león Velásquez 88


Ejemplo 1
y la conclusión :

 “Hay evidencia suficiente, con un nivel de significancia de .05, para afirmar


que con respecto al sexo existe diferencia en las calificaciones
obtenidas que mide la afinidad hacia la mecánica”
 “Hay evidencia suficiente, con un nivel de significancia de .05, para afirmar
que con respecto al lugar de procedencia no existe diferencia en las
calificaciones que mide la afinidad hacia la mecánica”

 ni tampoco podemos afirmar que la combinación de ambas circunstancias


influya en la afinidad hacia la mecánica de las personas”.

Ing. William león Velásquez 89


Ejemplo 02

• El departamento de nutrición de cierta universidad


lleva a cabo un estudio para determinar si hay
diferencia o no en el contenido de ácido ascórbico
entre tres diferentes marcas de concentrado de jugo
de naranja.
• Se hacen cuatro pruebas de los tres tipos de
concentrado de jugo de naranja que fue congelado
durante tres periodos de tiempo diferentes (en días)

Ing. William león Velásquez 90


Ejemplo 02
• Los resultados, en miligramos de ácido ascórbico por litro, son los siguientes:
TIEMPO ( DÍAS )
MARCA 0 3 7
RICA 52.6 54.2 49.4 49.2 42.7 48.8
49.8 46.5 42.8 53.2 40.4 47.6
BUENA 56.0 48.0 48.8 44.0 49.2 44.0
49.6 48.4 44.0 42.4 42.0 43.2
BARATA 52.5 52.0 48.0 47.0 48.5 43.3
51.8 53.6 48.2 49.6 45.2 47.6
Utilice un nivel de significancia de .05 para probar la hipótesis que:
Los contenidos de ácido ascórbico por marca de jugo son diferentes
Los contenidos de ácido ascórbico por tiempo de congelamiento son diferentes
Los contenidos de ácido ascórbico son diferentes debido a la interacción de las dos variables.

Ing. William león Velásquez 91


Ejemplo 02
a) Planteamiento de las hipótesis:
Ho: Los contenidos de ácido ascórbico por marca de jugo son iguales
Ha: Los contenidos de ácido ascórbico por marca de jugo son diferentes

Ho: Los contenidos de ácido ascórbico por tiempo de congelamiento son iguales
Ha: Los contenidos de ácido ascórbico por tiempo de congelamiento son diferentes

• Ho: Los contenidos de ácido ascórbico son iguales debido a la interacción de las dos variables.
Ha: Los contenidos de ácido ascórbico son diferentes debido a la interacción de las dos
variables.

Ing. William león Velásquez 92


Ejemplo 2
2.- Establecer el Criterio de Contraste nivel de significancia de .05

Gl T1 =2
a b n Gl SCE= 27
3 3 36 F=3.35
3.35

gl T1 a-1 2 Gl T2 =2
gl T2 b-1 2 Gl SCE= 27
(a-1)(b-1) 4 F= 3.35
gl Iter
gl Tot n-1 35 3.35
gl SCE glTot-gl T1 -gl T2 - gl Iter 27 Gl Iter =4
Gl SCE= 27
F=2.73

2.73
Ing. William león Velásquez 93
Ejemplo 02
• Elaborar la tabla ANOVA
n
0 3 7
𝑥

52.6 54.2 49.4 49.2 42.7 48.8 12 577.2


RICA
49.8 46.5 42.8 53.2 40.4 47.6
56 48 48.8 44 49.2 44 12 559.6
BUENA
49.6 48.4 44 42.4 42 43.2
52.5 52 48 47 48.5 43.3 12 587.3
BARATA
51.8 53.6 48.2 49.6 45.2 47.6

𝑥 1724.1

𝑥 Tratamientos 615 566.6 542.5 𝑥 1724.1


n 12 12 12 36

Ing. William león Velásquez 94


Ejemplo 02
• 1- Cálculo del Factor de corrección

 X  2
 (1724.1) 2  2972520.81

( X )
2972520.81
2
FC
FC 
= ---------------- = 82570.0225

 n
36

Ing. William león Velásquez FC = 82570 95


Ejemplo 02
• 2- Cálculo de la Suma cuadrado de totales

SCTotales   X 2  FC
SCTotales= 83102.01 - 82570 = 531.9875
Ing. William león Velásquez 96
Ejemplo 02
• 3- Cálculos de los tratamientos
SCT1   
2
X
 FC
n

ΣX²/ n0 ΣX²/ n3 ΣX²/ n7

6152 566.6 2 542.52


SCT1     FC
12 12 12
TIEMPO SCT1 = 31518.75 + 26752.96 + 24525.52 - 82570.02

SCT1=
 X 2

 n  FC  82797.23  82570.02
SCT1= 82797.23 - 82570.02 = 227.212 97
Ejemplo 02
• 3- Cálculos de los tratamientos SCT2   
2
X
 FC
n

ΣX²/ nRICA ΣX²/ nBUENA ΣX²/ nBARATA - FC


2 2 2
577.2 559.66 587.3
SCT2     FC
12 12 12
MARCA SCT2 = 27763.32 + 26096.01 + 28743.44 - 82570.02

 X 2

 n  82602.77
SCT =
Ing. William león
2 Velásquez 82602.77 - 82570.02 = 32.752
Ejemplo 02

4- Calcular la suma de cuadrados por bloques

SGG  
 X
2

 FC
n X n=4

0 3 7

  X 2
203.1
2
41249.61 RICA 203.1 194.6 179.5
   10312.4 BUENA 202 179.2 178.4
n 4 4 BARATA 209.9 192.8 184.6

SCG = 10312.40 + 9467.29 + 8055.06 +


+ 10201 + 8028.16 + 7956.64 +
+ 11014.50 + 9292.96 + 8519.29 - 82570.02 = 277.29

Ing. William león Velásquez 99


Ejemplo 02
5- Calcular la suma de cuadrados de la interacción de los dos
tratamientos

SCI = SCG – SCT1 – SCT2 =

SCI = 277.29 - 227.212 - 32.752 = 17.322

Ing. William león Velásquez 100


Ejemplo 02
6- Calcular la suma de cuadrados del error

SCE = SCTOT – SCG

SCE = 531.9875 - 277.29 = 254.703

Ing. William león Velásquez 101


Ejemplo 02
•Construir la Tabla ANOVA

FUENTE SC GL MC F
TRATAMIENTO 1 227.21 2 113.606 12.0429

TRATAMIENTO 2 32.75 2 16.376 1.7359


POR GRUPOS 277.29
INTERACCION 17.32 4 4.330 0.4591
ERROR 254.70 27 9.433
TOTAL 531.99 35

Ing. William león Velásquez 102


Ejemplo 02
•Conclusión

FCRITICO FDATOS Conclusión


FT1= 3.35 12.0429 Se rechaza la Ho

FT2= 3.35 1.7359 No se rechaza la Ho

FINT= 2.73 0.4591 No se rechaza la Ho


FCrítico

Ing. William león Velásquez 103


Ejemplo 03
• Una empresa realiza una investigación para determinar el rendimiento en
millas por galón, característico de tres marcas de gasolina: Como cada
gasolina da rendimientos distintos en automóviles de marcas diferentes,

Se eligen cinco marcas de


automóviles que se tratan como
bloques en el experimento, es
decir el automóviles de cada
marca se prueba con los tres tipos
de gasolina.

Ing. William león Velásquez 104


Ejemplo 03
• Los resultados del experimento (en millas por galón) se presenta a
continuación:

MARCA DE GASOLINA
I II III
A 18 21 20
AUTOMOVILES B 24 26 27
C 30 29 34
D 22 25 24
E 20 23 24
Con un α= 0.05 ¿Existirá alguna diferencia entre los rendimientos medios en
miles por galón de los tres tipos de gasolina?
Ing. William león Velásquez 105
Ejemplo 03
• Utilice un nivel de significancia de .05 para probar la hipótesis de que:
• Los consumos de gasolina por marca de automóvil son diferentes
• Los consumos de gasolina por marca de gasolina son diferentes

• Como la relación entre la marca de gasolina y la marca de automóvil es de uno


a uno no existirá prueba de interacción entre las dos variables.

Ing. William león Velásquez 106


Ejemplo 3
2.- Establecer el Criterio de Contraste
nivel de significancia de .05
a b n
3 5 15 Gl T1 =2
Gl SCE= 8
F=4.459
gl T1 a-1 2
gl T2 b-1 4
Gl T2 =4
gl Tot n-1 14 Gl SCE= 8
F= 3.838
gl SCE glTot-gl T1 -gl T2 8
T1 T2

4.459 3.838 2.73


Ing. William león Velásquez 107
Ejemplo 02
• Elaborar la tabla ANOVA

I II III ∑X ∑X2 n
A 18 21 20 59 1165 3
B 24 26 27 77 1981 3
C 30 29 34 93 2897 3
D 22 25 24 71 1685 3
E 20 23 24 67 1505 3
∑X 114 124 129 367 ∑∑X
∑X2 2684 3112 3437 9233 ∑∑X2
n 5 5 5 15 ∑∑n

Ing. William león Velásquez 108


Ejemplo 02
• 1- Cálculo del Factor de corrección
( X ) 2

FC 
Factor de corrección

 n
(367)2
FC = ----------- = 8979.267
15

• 2- Cálculo de la Suma cuadrado de totales


SCTotales   X  FC 2

Suma total de
cuadrados

SSTot = 9233 - 8979.267 = 253.733

Ing. William león Velásquez 109


Ejemplo 03
• 3- Cálculos de los tratamientos
SCT  i
 X
 FC
2

n
Suma de cuadrados del
tratamiento 1
SST1 = (114)2 (124)2 (129)2
--------- + --------- + --------- - 8979.26667 = 23.3333
5 5 5

Suma de cuadrados del


tratamiento 2
SST2 = (59)2 (77)2 (93)2 (71)2 (67)2
--------- + --------- + --------- + --------- + --------- - 8979.26667 = 217.067
3 3 3 3 3
-

Suma de cuadrados del error


SSE = 253.7333 - 23.3333 - 217.067 = 13.3333333
Ing. William león Velásquez
Ejemplo 03
•Construir la Tabla ANOVA
FUENTE SS GL SM F
T1 23.33333 2 11.66667 7
T2 217.0667 4 54.26667 32.56
ERROR 13.33333 8 1.666667
TOTAL 253.7333 14

•Conclusión
FCRITICO FDATOS Conclusión
FT1= 4.459 7 Se rechaza la Ho

FT2= 3.838 32.56 Se rechaza la Ho


FCrítico
Ing. William león Velásquez 111
FIN
wjleonv@yahoo.com
ANALISIS DE
CORRELACIÓN LINEAL
Ing. William León Velásquez
wjleonv@yahoo.com
 Introducción
 Nubes de puntos
 Coeficiente de correlación.-
 Coeficiente de determinación.-
 Prueba de significancia del coeficiente de
correlación.-
 Aplicaciones.
 Modelo de regresión y ecuación de regresión.-
 Ecuación de regresión estimada.-
 Método de cuadrados mínimos.-

Ing. William león Velásquez 2


Coeficiente de correlación
Coeficiente de determinación
INTRODUCCIÓN
El análisis de correlación son un grupos de técnicas
enfocadas a dos variables que incluyen el graficado de
muestran de manera rápida la distribución de los datos y
las mediciones numéricas a través de coeficientes que
permiten medir de manera más precisa la relación entre
ambas variables.

Ing. William león Velásquez


4
DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS

• La gráfica de este tipo de variables es en


realidad semejante a la representación de
puntos en el plano, usando unos ejes de
coordenadas.
• Cada pareja de valores da lugar a un punto en el
plano y el conjunto de puntos que se obtiene se
denomina "diagrama de dispersión o nube de
puntos".

Ing. William Jaime León Velásquez 5


DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS

• Ejemplo 1.-
• Se realiza un estudio de la talla, medida
en cm. y el peso, medido en kg. de un
grupo de 10 personas,
• Los valores obtenidos figuran en la tabla
inferior:

Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)

Ing. William Jaime León Velásquez 6


DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS

Talla
(cms) 160 165 168 170 171 175 175 180 180 182

Peso
(kgs) 55 58 58 61 67 62 66 74 79 83

• Se puede llamar X a la talla e Y al peso.


• con lo que se obtiene la variable bidimensional (X, Y) que toma 10
valores, que son las 10 parejas de valores de la tabla anterior: (160,55),
(165,58), etc.

Ing. William Jaime León Velásquez 7


DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS

• En el ejemplo 1 la talla y el peso de 10 personas se obtendría el siguiente


diagrama de dispersión: (En el eje X se representa la talla en cm. y en el eje Y
el peso en kg.)
PESO

TALLA
Ing. William Jaime León Velásquez 8
DIAGRAMAS DE DISPERSIÓN O NUBES DE
PUNTOS
• Se puede ver en el primera figura que correspondía al diagrama de talla -
peso que la serie de puntos presenta una tendencia "ascendente" . Se dice
en este caso que existen entre las dos variables una "dependencia directa"
.

• En caso en que la tendencia sea "descendente" se diría que estaríamos


ante una " dependencia inversa "

• En caso en que no se pueda observar una tendencia clara estaríamos ante una
dependencia muy débil que no se puede observar mediante la nube de puntos

Ing. William Jaime León Velásquez 9


DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS

Ing. William Jaime León Velásquez 10


COVARIANZA

• La covarianza mide la forma en que varía


conjuntamente dos variables X e Y

• Es el estudio conjunto de dos variables, lo que nos


interesa principalmente es saber si existe algún tipo
de relación entre ellas.

Ing. William Jaime León Velásquez 11


COVARIANZA
• Sean (xi, yi ) pares de observaciones de
dos características X y Y, y sean 𝑋 𝑦 𝑌
sus respectivas medias.
La covarianza entre las dos variables se define
por :

 Donde xi e yi representan los pares de valores de la variable y el producto


𝑋 𝑌 corresponde al producto de las medias aritméticas de las variables X
e Y respectivamente.

Ing. William Jaime León Velásquez 12


COVARIANZA

Otras formas de expresar la covarianza:

Ing. William Jaime León Velásquez 13


COVARIANZA

Si Sxy >0 hay dependencia directa (positiva), es decir las


variaciones de las variables tienen el mismo
sentido
Si Sxy = 0 las variables están incorrelacionadas, es decir no
hay relación lineal, pero podría existir otro tipo de
relación.
Si Sxy < 0 hay dependencia inversa o negativa, es decir las
variaciones de las variables tienen sentido
opuesto.

Ing. William Jaime León Velásquez 14


COVARIANZA
• Gráficamente:

- La covarianza no es un parámetro acotado, y puede tomar cualquier valor real, por


lo que su magnitud no es importante; lo significativo es el signo que adopte la
misma.
Ing. William Jaime León Velásquez 15
CÁLCULO DE LA COVARIANZA DE UNA
SERIE DE EVENTOS

Paso 1: Se calcula Σxiyi , esto es la sumatoria de los productos de las


variables x y y; o sea:
• (x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que el numero de eventos o el numero de pares de
variables
 Paso 3: Se calcula 𝑋 𝑌, que es el producto de las medias de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en la formula y se obtiene
el resultado

Ing. William Jaime León Velásquez 16


EJEMPLO
Calcular la covarianza para el primer ejemplo correspondiente a las
variables talla - peso

Talla
(cms) 160 165 168 170 171 175 175 180 180 182

Peso
(kgs) 55 58 58 61 67 62 66 74 79 83

Ing. William Jaime León Velásquez 17


EJEMPLO

Paso 1:
 La suma de todos los productos de los valores de x (talla) por los de y (peso) sería:
∑ xi yi

160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 + 175 · 66 + 180 · 74 +


180 · 79 + 182 · 83 = 114987

Paso 2:
 Definir n como el numero de eventos en este caso es n=10
Y con el resultado anterior se divide entre n

Ing. William Jaime León Velásquez 18


EJEMPLO

Paso 3:
A este valor se debe restar el producto de las medias de ambas variables:
Media de x (talla): 172.6
Media de y (peso): 66.3

𝑋 𝑌 = 172.6 * 66.3 = 11443.38

De acuerdo ala formula tenemos que:


Sxy = (114987 / 10 ) – 11443.38
Sxy = 55.32
Se ha obtenido un valor positivo para la covarianza que corresponde a una
dependencia directa como ya habíamos intuido con la nube de puntos

Ing. William Jaime León Velásquez 19


EL COEFICIENTE DE CORRELACIÓN
DE PEARSON

• El coeficiente de correlación, creado por Karl


Pearson alrededor de 1900, describe la fuerza de la
relación entre dos conjuntos de variables .
• Se nombra con la letra r, y frecuentemente se le
conoce como r de Pearson y coeficiente de
correlación producto-momento.
• Puede adoptar cualquier valor de -1.00 a +1.00,
inclusive.
• Un coeficiente de correlación de -1.00 o bien de +1.00
indica una correlación perfecta.

Ing. William león Velásquez 20


EL COEFICIENTE DE CORRELACIÓN DE PEARSON
𝑆𝑥𝑦 𝑁
𝑖=1 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌
𝑟𝑥𝑦 = 𝑟𝑥𝑦 =
𝑆𝑥 𝑆𝑦 𝑁
𝑋𝑖 − 𝑋 2 𝑁
𝑌𝑖 − 𝑌 2
𝑖=1 𝑖=1

−1 ≤ 𝑟𝑥𝑦 ≤ +1
rxy = 0
9 12

25 8 rxy = 0.88 10
7
20 8
6

15 5 6
4

rxy = 1
10 4
3
2 2
5
1
0
0 0 0 2 4 6 8 10 12
0 2 4 6 8 10
0 2 4 6 8 10 12

0
0 2 4 6 8 10 12
-5
rxy = -1
rxy = -0.88
-10

-15 rxy = 0
-20 Ing. William león Velásquez
21
EL COEFICIENTE DE CORRELACIÓN DE PEARSON

El siguiente dibujo resume la fuerza y dirección del coeficiente de correlación.

Ing. William león Velásquez


22
EJEMPLO 1

• El director de recursos humanos de Ventas S.A.


está entrevistando y seleccionando nuevos
vendedores.
• El ha diseñado una prueba que le ayudará a
realizar la mejor selección posible para la fuerza
de ventas.
• Con el fin de probar la validez de la prueba para
predecir las ventas semanales, él eligió
vendedores experimentados y aplicó la prueba
a cada uno.

Ing. William león Velásquez 23


EJEMPLO 1

La calificación de cada vendedor fue entonces pareada con sus ventas


semanales.
Calificaciones y ventas semanales de 5 vendedores de Ventas
S.A.
Vendedor Calificación Ventas semanales

José Luis 4 5,000


Rufino 7 12,000
Frida 3 4,000
Diego 6 8,000
María 10 11,000

Ing. William león Velásquez 24


EJEMPLO 1

Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.

Calificación Ventas
Vendedor x2 xy y2
(x) (y)

José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
María 10 11 100 110 121
total 30 40 210 274 370

Ing. William león Velásquez 25


EJEMPLO 1
Calcular el coeficiente de correlación para el ejemplo que involucre las
ventas semanales y las calificaciones de los vendedores .

𝐧 𝐱𝐲 − 𝐱 𝐲
𝐫=
𝐧 𝐱𝟐 − 𝐱 𝟐 𝐧 𝐲𝟐 − 𝐲 𝟐

𝟓(𝟐𝟕𝟒) − (𝟑𝟎)(𝟒𝟎)
𝐫=
(𝟓) 𝟐𝟏𝟎 − (𝟑𝟎)𝟐 𝟓 𝟑𝟕𝟎 − (𝟒𝟎)𝟐

r=0.88
Ing. William león Velásquez 26
EJEMPLO 1

La práctica usual es redondear r a la centésima más próxima, en


este problema esto es 0.88, indicando una muy fuerte relación
entre las calificaciones y las ventas semanales de los vendedores.
Esto hace parecer que la prueba del director de recursos humanos
tiene potencial para predecir las ventas semanales.

Ing. William león Velásquez 27


Ejemplo 2

• Se realiza un estudio de la talla, medida


en cm. y el peso, medido en kg. de un
grupo de 10 personas,
• Los valores obtenidos figuran en la tabla
inferior:

Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
55 58 58 61 67 62 66 74 79 83
(kgs)

Calcular el coeficiente de correlación


Ing. William Jaime León Velásquez 28
CORRELACIÓN
Con los datos calculados:

Sxy = 55.32

Sx = 50.71
r = 55.32 / (50.71 * 752.81)
Sy = 752.81
r =0.0014

r se acerca a 0 la dependencia es débil y por tanto las predicciones


que se realicen a partir de la recta de regresión serán poco fiables
Ing. William Jaime León Velásquez 29
EL COEFICIENTE DE DETERMINACIÓN

En el ejemplo 1 sobre la relación entre las


calificaciones y las ventas semanales de
los vendedores el coeficiente de
correlación de 0.88 fue interpretado como
muy fuerte.
Los términos fuerte, moderado y débil, no
tienen un significado muy preciso.

Ing. William león Velásquez 30


EL COEFICIENTE DE DETERMINACIÓN

Una medida que da un significado más exacto es el coeficiente de


determinación.

Este es calculado elevando al cuadrado el coeficiente de


correlación.

En el ejemplo,
el coeficiente de determinación (r2) es de 0.77, encontrado por
(0.88)2.

Ing. William león Velásquez 31


EL COEFICIENTE DE DETERMINACIÓN
Este es una proporción o porcentaje, podemos decir que el 77% de la
variación en las ventas semanales es explicado por la variación en las
calificaciones de la prueba.

Coeficiente de determinación es la proporción de la variación total en la


variable dependiente Y que es explicada por la variación en la variable
independiente X.

El coeficiente de determinación es la cantidad de variación en y que está


explicada por la recta de regresión.

Y se calcula:
𝐕𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐞𝐱𝐩𝐥𝐢𝐜𝐚𝐝𝐚
𝐫𝟐 =
𝐯𝐚𝐫𝐢𝐚𝐜𝐢ó𝐧 𝐭𝐨𝐭𝐚𝐥
Ing. William león Velásquez 32
EL COEFICIENTE DE NO DETERMINACIÓN
El coeficiente de no determinación es la proporción de la variación
total en Y que no esta explicada por la variación en X.

Este coeficiente se calcula con 1 – r2.

En el problema del ejemplo es 1 – ( .88 )2 = .23. Esto significa que el


23% de la variación total en las ventas semanales no es explicado por
la variación en las calificaciones de las pruebas.

Los coeficientes de determinación y de no determinación pueden


solamente ser positivos y pueden asumir valores entre 0 y 1.00
inclusive.

Ing. William león Velásquez 33


Prueba de significancia
al coeficiente de correlación.
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Del ejemplo 1 la relación entre las calificaciones y las ventas
semanales de los vendedores el coeficiente de correlación de
0.88 , lo que indicaba una asociación fuerte entre ambas
variables.
Sin embargo, en la muestra había sólo 5 vendedores. ¿Puede
ser que la correlación entre la población sea 0?
Esto significaría que la correlación de 0.88 se debió a la
casualidad.
En este ejemplo, la población es todo el personal
de ventas de la empresa.

Ing. William león Velásquez 35


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Resolver este problema requiere una prueba para responder la
pregunta obvia:
¿puede haber una correlación cero entre la población de la
cual se seleccionó la muestra?
En otras palabras,
¿proviene el valor r calculado de una población de
observaciones pareadas con correlación cero?
Para continuar la convención de usar letras griegas para
representar un parámetro poblacional ρ, (se pronuncia “rho”)
representará la correlación entre la población.

Ing. William león Velásquez 36


VALIDACIÓN DEL COEFICIENTE DE
CORRELACIÓN

Formulación de la hipótesis

H0: ρ = 0 (No existe una correlación lineal).

H1: ρ ≠ 0 (Existe una correlación lineal).

Ing. William león Velásquez 37


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Método 1: El estadístico de prueba es t

𝒓 − 𝒖𝒓
𝒕= 𝒏−𝟐
𝟏 − 𝒓𝟐 𝒕=𝒓
𝒏−𝟐
𝟏 − 𝒓𝟐

donde μr denota el valor afirmado de la media de los valores


de r. Sea μr = 0 al probar la hipótesis nula de ρ = 0.

Ing. William león Velásquez 38


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Utilice la tabla tα con n -2 grados de libertad.

TABLA t

Ing. William león Velásquez


39
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Conclusión:.

Si 𝑡 > que el valor crítico de la tabla tα, se rechaza la H0 y


se concluye que existe una correlación lineal.

Si 𝑡 ≤ que el valor crítico de la tabla tα, no se rechaza la


H0; no hay evidencia suficiente para concluir que existe una
correlación lineal.

Ing. William león Velásquez


40
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Método 2: El estadístico de prueba es r
Estadístico de prueba: r

𝐧 𝐱𝐲 − 𝐱 𝐲
𝐫=
𝐧 𝐱𝟐 − 𝐱 𝟐 𝐧 𝐲𝟐 − 𝐲 𝟐

𝐗−𝐗 𝐘−𝐘
𝐫=
(𝐧 − 𝟏)𝐒𝐗 𝐒𝐘
Ing. William león Velásquez 41
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Valores críticos: Utilice la tabla
Con un nivel de significancia y tamaño n

Ing. William león Velásquez 42


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Conclusión:.

Si 𝑟 > que el valor crítico de la tabla r, se rechaza la H0 y


se concluye que existe una correlación lineal.

Si 𝑟 ≤ que el valor crítico de la tabla r, no se rechaza la H0;


no hay evidencia suficiente para concluir que existe una
correlación lineal.

Ing. William león Velásquez


43
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE
CORRELACIÓN
En base al ejemplo desarrollado, el director de recursos
humanos en Ventas S.A. diseñó una prueba para predecir las
ventas semanales.
El coeficiente de correlación entre las calificaciones de las
pruebas y las ventas fue calculado en 0.88, esto indica una
fuerte correlación entre las dos variables.

Sin embargo, solo fueron incluidos cinco vendedores en el


experimento. Por lo tanto, uno podría preguntarse si la
correlación de la población (todos los vendedores de la
compañía) puede ser de cero (sin correlación).
Ing. William león Velásquez 44
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE
DE CORRELACIÓN
Entonces se debe probar la hipótesis de que la población de
donde provienen las observaciones tiene correlación cero
(simbolizada con la letra griega ρ que se pronuncia rho ).

En el ejemplo las hipótesis serán:


Ho: ρ = 0 ( La correlación en la población es cero )
Ha: ρ <> 0 ( La correlación en la población es diferente de cero)

Para la forma de la hipótesis alterna sabemos que la prueba es de


dos colas.
Usando un nivel de significancia de α = 0.10.
45
PRUEBA DE SIGNIFICANCIA DE EL
COEFICIENTE DE CORRELACIÓN

Los grados de libertad se calculan Φ = n – 2 , en este ejemplo Φ= 5 – 2 = 3.

Se localiza el valor crítico en la tabla t de student:


.
tabla "t" α/2 = .05

Φ =n-2=3 tc = 2.35336

Entonces tc = 2.35336
46
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE DE
CORRELACIÓN
La fórmula para calcular t(el estadístico de prueba) es:
.
𝒏−𝟐
𝒕=𝒓
𝟏 − 𝒓𝟐
Entonces:

𝒏−𝟐 𝟓−𝟐
𝒕=𝒓 𝟐
= (𝟎. 𝟖𝟖) 𝟐
= 𝟑. 𝟐𝟏
𝟏−𝒓 𝟏 − 𝟎. 𝟖𝟖
47
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE
DE CORRELACIÓN
Se localizan en la gráfica los valores críticos y el valor del
estadístico de prueba.

48
PRUEBA DE SIGNIFICANCIA DE EL COEFICIENTE
DE CORRELACIÓN

El valor del estadístico de prueba ( t* = 3.21 ) cae dentro de la zona


crítica, por lo tanto se acepta la hipótesis alterna con un nivel de
significancia de a = 0.10.

Esto significa que la correlación no es cero.

Para un punto de vista práctico, esto indica al director de recursos


humanos que si hay correlación entre las calificaciones de las pruebas
y las ventas semanales de la población de vendedores.

49
EJEMPLO 3
Una gran empresa de ventas de artículos
electrónicos, quiere verificar si existe
relación entre las llamadas que realiza el
vendedor con las ventas de
computadoras que realiza.
Con tal motivo selecciona a 10 de sus
vendedores de manera aleatoria y se
registra su cantidad de llamadas y las
computadoras vendidas

llamadas x 20 40 20 30 10 10 20 20 20 30
ventas y 30 60 40 60 30 40 40 50 30 70
50
EJEMPLO 3
Se traza una recta vertical con los valores de datos en la media
de los valores X y una recta horizontal en la media de los valores Y.

Estas rectas pasan por el “centro”


de los datos y dividen el diagrama
de dispersión en cuatro cuadrantes.
Considere mover el origen de (0, 0)
a (22, 45)

De la gráfica se observa que los puntos se encuentran en el cuadrante


I y III. Por lo tanto, se espera que el coeficiente de correlación tenga un
valor positivo. 51
EJEMPLO 3
Obtenemos los datos para calcular el coeficiente r

52
EJEMPLO 3
Con los datos obtenidos calculamos r
𝐗−𝐗 𝐘−𝐘
𝐫=
(𝐧 − 𝟏)𝐒𝐗 𝐒𝐘
900
𝐫= r=0.759
9 9.1893658𝑥14.3372
¿Cómo se interpreta una correlación de 0.759?
Es positiva, por lo que se observa una relación directa entre el número de
llamadas de ventas y el número de computadoras vendidas
Esto confirma el razonamiento basado en el diagrama de dispersión.
El valor de 0.759 está muy cercano a 1.00, y por lo tanto se concluye que la
asociación es fuerte.
53
EJEMPLO 3
¿Recuerde que la gerente de ventas de la empresa determinó que la
correlación entre el número de llamadas de ventas y el número de
copiadoras vendidas era 0.759, lo que indicaba una asociación fuerte
entre ambas variables.

Sin embargo, en la muestra había sólo 10 vendedores.

¿Puede ser que la correlación entre la población sea 0? Esto significaría


que la correlación de 0.759 se debió a la casualidad.

En este ejemplo, la población es todo el personal de ventas de la


empresa.

54
Ejemplo 3
PRUEBA DE HIPÓTESIS DE CORRELACIÓN

Formulación de la hipótesis

H0: ρ = 0 (la correlación entre la población es cero).

H1: ρ ≠ 0 (La correlación entre la población es diferente de


cero).

Ing. William león Velásquez 55


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Método 1: El estadístico de prueba es t

𝒓 𝒏−𝟐 𝟎.𝟕𝟓𝟗 𝟏𝟎−𝟐


𝒕= 𝒕= =3.297
𝟏 − 𝒓𝟐 𝟏−𝟎.𝟕𝟓𝟗𝟐

donde μr denota el valor afirmado de la media de los valores


de r. Sea μr = 0 al probar la hipótesis nula de ρ = 0.

Ing. William león Velásquez 56


VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Estadístico de prueba:
Utilice la tabla tα con n -2 grados de libertad
Para ubicar el valor crítico de 2.306, para gl 10- 2= 8. y un
α/2=0.025

Ing. William león Velásquez


57
VALIDACIÓN DEL COEFICIENTE
DE CORRELACIÓN
Conclusión:.

la regla de decisión en este caso indica que si el valor


calculado de t se encuentra en el área entre 2.306 y 2.306
Si 3.297 > que el valor crítico de la tabla tα, se rechaza la
H0 y se concluye que existe una correlación lineal.

Esto indica a la gerente de ventas que hay una correlación entre


el número de llamadas de ventas y el número de copiadoras
vendidas en la población de vendedores, es decir en toda la
empresa

Ing. William león Velásquez


58
Modelo de regresión y ecuación de
regresión
INTRODUCCIÓN
• El término regresión fue utilizado por primera vez como un concepto
estadístico en 1877 por sir Francis Galton, quien llevó a cabo un estudio
que demostraba que la estatura de los niños nacidos de padres altos
tiende a retroceder o “regresar” hacia la estatura media de la población.
• Eligió la palabra regresión como el nombre del
proceso general de predecir una variable (la
estatura de los niños) a partir de otra (la
estatura del padre o de la madre).
• Posteriormente, los estadísticos acuñaron el
término regresión para describir el proceso
mediante el cual se utilizan una variable para
predecir otra. Sir Francis Galton
(Duddeston, 1822 - Haslemere, 1911)
Ing. William león Velásquez
Antropólogo y geógrafo inglés 60
INTRODUCCIÓN
• En el análisis de regresión, se desarrolla una ecuación de estimación, esto
es, una fórmula matemática que relaciona las variables conocidas con la
variable desconocida.

• Luego de conocer el patrón de esta relación, se


puede aplicar el análisis de correlación para
determinar el grado en el que las variables se
relacionan.
• El análisis de correlación, entonces, nos indica
qué tan bien la ecuación de estimación
describe realmente la relación.

Ing. William león Velásquez 61


INTRODUCCIÓN
• El análisis de regresión es una técnica para investigar y modelar la
relación entre variables.

• Aplicaciones de regresión son


numerosas y ocurren en casi todos los
campos, incluyendo ingeniería, la
física, ciencias económicas, ciencias
biológicas y de la salud, como
también ciencias sociales

Ing. William león Velásquez 62


OBJETIVO DEL MODELO DE
REGRESION SIMPLE
• Explicar el comportamiento de una variable cuantitativa de interés.
• Y (consumo de gasolina de un auto hibrido, temperatura del agua de mar) como
función de otra variable cuantitativa X observable (velocidad del auto en la
ciudad, profundidad a la que se observa la temperatura del agua).
Y = variable respuesta, endógena o dependiente
X = regresor, predictor, variable explicativa, exógena o independiente
• Se estudiará principalmente el modelo de regresión lineal simple, en el que se
expresa Y como función lineal de X.

Ing. William león Velásquez 63


EL MODELO
Diseño fijo y aleatorio
• En el diseño aleatorio se toma una muestra (x1; y1); ….; (xn; yn) de una
población (X;Y ) donde X es una variable aleatoria (los valores observados de X
no están prefijados de antemano).
(X; Y ) =(Estatura en cm, Peso en kg) de un estudiante universitario elegido
al azar.
(X; Y ) =(Nivel de un cierto contaminante, Mortalidad) en una ciudad
elegida al azar.
• En este caso el modelo de regresión establece una expresión para la función de
regresión E(Yj)= x.

Ing. William león Velásquez 64


EL MODELO

• Ejemplo 1: Se desea estudiar la relación que existe entre el ancho X (en mm.) y la
longitud Y (en mm.) de la concha de abanico de las costas.
• Se observan los datos:

Ing. William león Velásquez 65


EL MODELO
• En el diseño fijo prefijamos unos valores x1;…. ; xn de la variable X. Para cada xi
tomamos una o varias observaciones de Y .
(X; Y ) =(profundidad en m. del agua marina, temperatura en oC del agua a esa
profundidad)

• El modelo de regresión en este caso establece una expresión para E(Yi ), el valor
esperado de Y cuando el valor prefijado de X es xi .
• Si todos los xi están a la misma distancia entre sí se trata de un diseño fijo
equiespaciado.
• El tratamiento estadístico de ambos diseños es parecido, aunque la notación sea
diferente. A menudo, por simplicidad, utilizaremos la notación del diseño fijo
aunque el diseño del experimento sea aleatorio.
Ing. William león Velásquez 66
EL MODELO DE REGRESION LINEAL SIMPLE
• Diseño fijo: Diseño aleatorio:
• Yi = β0 + β1 xi + Ui (Y/X = xi ) = β0 + β1 xi + Ui
• donde β0 y β1 son respectivamente la ordenada en el origen y la pendiente de
la recta de regresión. Ui es un termino de perturbación o error experimental.
Interpretación de los parámetros de la regresión:
• β0 representa el valor medio de la respuesta Y cuando la variable explicativa X
vale 0.
• β1 representa la variación que experimenta en media la respuesta Y cuando la
variable explicativa X aumenta en una unidad.

Ing. William león Velásquez 67


HIPOTESIS BASICAS DEL MODELO:
a) E(Ui ) = 0, para cada i = 1; .....; n.
b) Var(Ui ) = σ2, para cada i = 1; .......; n.
c) E(Ui Uj ) = 0 , para todo i ≠ j .
d) Ui ~ Normal, para todo i .
• Además en el diseño aleatorio supondremos que X1; …..;Xn son independientes.
• Hipótesis equivalentes para diseño fijo:
• Y1; …..;Yn son observaciones independientes, con
Yi ~ N(β0 + β1 xi ; σ2):
• Hipótesis equivalentes para diseño aleatorio:
(X1;Y1); ….; (Xn;Yn) son independientes, con
Y /X = xi ~ N(β0 + β1 xi ; σ2)
Ing. William león Velásquez 68
¿ CÓMO SE ANALIZA UN MODELO DE
REGRESIÓN?
• Para analizar un modelo de regresión se
pueden establecer básicamente dos pasos.
• Paso 1. Estimar los parámetros del modelo de
regresión. Este proceso es llamado ajuste del
modelo a los datos.
• Paso 2. El siguiente paso de un análisis de
regresión es chequear que tan bueno es el
modelo ajustado. El resultado de este
chequeo puede indicar si el modelo es
razonable o si el ajuste original debe ser
modificado.

Ing. William león Velásquez 69


Estimación de parámetros por
mínimos cuadrados
INTRODUCCIÓN

En esta sección se tratará la estimación de


parámetros para el modelo de regresión
lineal simple; es decir, un modelo con un
solo regresor X que tiene una relación con
una respuesta Y y que es una línea recta.

El modelo lineal es dado por


Donde:

Ing. William león Velásquez


71
INTRODUCCIÓN

Donde
Yi es la i esima observación de la variable aleatoria dependiente Y.
Xi es la i esima observación de la variable fija dependiente X
βo es el intercepto y es una constante (parámetro)
β1 es llamado la pendiente y es una constante (parámetro)
ε es la componente aleatoria error

Para ε se hacen los siguientes supuestos:


 Los errores tienen media cero
 Los errores tienen varianza igual pero desconocida .
 Los errores no son correlacionados.
Ing. William león Velásquez
72
INTRODUCCIÓN
La no correlación de los errores significa que el valor de un error no
depende del valor de cualquier otro error.
Es de tener en cuenta que:
1. La variable regresora X es la controlada por el investigador y medida
con un error despreciable.
2. La variable respuesta Y es aleatoria. Esto es, existe una distribución de
probabilidad para Y en cada posible valor de X La media de la
distribución es
E(Y/X) = βo + β1 X
y la varianza es
V(Y/X)= V( βo + β1 X + ε ) = σ2

Ing. William león Velásquez


73
OBTENCIÓN DE LOS DATOS

Lo primero que se debe hacer antes de colectar


los datos es identificar la variable dependiente
y la variable independiente. seguido esto se
registran los pares de datos ya sea por medio
de:
 Experimentos controlados diseñado
específicamente para obtener los datos o
 Registros históricos existentes.

Ing. William león Velásquez


74
EJEMPLO DE EXPERIMENTOS CONTROLADOS
Y NO CONTROLADOS

Ejemplo 1
Se realizó un experimento el efecto de
incremento de la temperatura en la
efectividad de un antibiótico. Se
almacenaron tres porciones de una onza
del antibiótico durante el mismo lapso a
cada una de las siguientes temperaturas:
30º 50º 70º 90º.

Las lecturas de la efectividad observadas a la temperatura del periodo


experimental fueron:
Lecturas de la efectividad: 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21
Temperatura: 30º 50º 70º 90º
Ing. William león Velásquez
75
EJEMPLO DE EXPERIMENTOS CONTROLADOS
Y NO CONTROLADOS
Ejemplo 2
Los experimentos diseñados para medir valores LC50 en la
investigación de los efectos de cierto producto tóxico en
peces se efectúan con dos métodos diferentes:
Método 1: el agua fluye continuamente a través de los
tanques de laboratorio dinámico.
Método 2: condiciones de agua en reposo.
A fin de establecer los criterios para sustancias tóxicas, la Agencia para la protección ambiental (APA)
pretende ajustar todos los resultados a la condición dinámica. Por lo que se requiere de un modelo para
relacionar los dos tipos de observaciones. Las observaciones acerca de ciertos productos tóxicos en
ambas condiciones, estáticas y dinámica, dieron los siguientes resultados (las mediciones están en
partes por millón, ppm).
Producto tóxico 1 2 3 4 5 6 7 8 9 10
CL50 dinámico, 23 22.3 9.4 9.7 0.15 0.28 0.75 0.51 28 0.39
CL50 estático, 39 37.5 22.2 17.5 0.64 0.45 2.62 2.36 32 0.77
Ing. William león Velásquez
76
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Ejemplo
Se hace un estudio para saber si existe relación con el
promedio de las notas obtenidas en la universidad con
el sueldo que ganan después de dos años de
egresados.
Con la finalidad de estimar el sueldo que ganará,
teniendo como información su promedio obtenido.
Se ubican a nueve egresados y se recopila la siguiente
información

Promedio
obtenido 16 12 13 8 12 13 10 9 14
Sueldo
actual 3100 2500 2500 1900 2200 2800 1600 2200 2600
Ing. William león Velásquez
77
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO

Para el análisis de una situación de relación entre dos variables se debe:

1. Identificar la variable independendiente y la variable dependiente:


En este caso la variable dependiente es la sueldo actual (y) y la variable
independiente es promedio obtenido en al universidad (x ).

2. Determinar si existe una relación de dependencia razonable.


En la situación presentada puede observarse que en la realidad estas dos
características (sueldo actual y promedio obtenido) presentan una relación lógica. Se
va ha mostrar gráficamente para verificar.

Ing. William león Velásquez


78
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Para determinar de manera inicial la relación lineal entre las dos variables
se debe elaborar un diagrama de dispersión, como el que aparece en la
figura 3500
3000

De acuerdo al gráfico de
2500
dispersión se puede asumir
Sueldo actual

2000
que existe una relación
1500
y
Lineal (y)
lineal y se requiere la línea
1000
recta que mejor se ajuste a
los datos experimentales
500

0
0 2 4 6 8 10 12 14 16 18
Promedio obtenido

Ing. William león Velásquez


79
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
3. Determinar el modelo estadístico:
Como el sueldo actual parece aumentar a medida que aumenta el promedio obtenido
entonces se debe sugerir un modelo lineal dado por:

Donde
yi es el valor observado en este caso la sueldo actual para un valor de promedio
obtenido xi,
bo corresponde al intercepto de con la línea de regresión y
b1 representa el valor medio de sueldo actual para un valor determinado de promedio
obtenido llamada pendiente de la línea de regresión o coeficiente de regresión,
xi es el valor de los promedios obtenidos, que se asume, es medida sin error. Y

Ing. William león Velásquez


80
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO

4. Determinar la ecuación de regresión o modelo ajustado:


El modelo predicho o ecuación de regresión ajustada es una
expresión como la siguiente

Para obtenerla usted debe encontrar los valores estimados de


los parámetros: y . Éstos se obtienen aplicando el método de
mínimos cuadrados.

Ing. William león Velásquez


81
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO

El método de mínimos cuadrado trata de buscar cual es la recta que más se acerca a los
puntos; es decir busca la recta que haga que la distancia entre el valor real y el valor
obtenido por la recta ajustada sea la más pequeña y así, la suma de todas estas
distancias simbolizadas como:

sea la más pequeña.

Como la mejor recta está determinada por bo y b1 entonces matemáticamente, se desea


escoger los valores para bo y b1 que minimicen la suma de cuadrados del error

Ing. William león Velásquez


82
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO
Los estadísticos básicos x y
necesarios para la regresión 16 3100
lineal y la correlación son: 12 2500
13 2500
8 1900
12 2200
13 2800
10 1600
9 2200
14 2600
𝑋 𝑌
11.889 2377.778
SX SY
0.892 161.804
Ing. William león Velásquez
83
OBTENCIÓN DE LA ECUACIÓN DE REGRESIÓN
O MODELO AJUSTADO
x y (X - 𝑋)2 (Y - 𝑌)2 (X - 𝑋 ) (Y - 𝑌)
16 3100 16.901 521604.938 2969.136
12 2500 0.012 14938.272 13.580
13 2500 1.235 14938.272 135.802
8 1900 15.123 228271.605 1858.025
12 2200 0.012 31604.938 -19.753
13 2800 1.235 178271.605 469.136
10 1600 3.568 604938.272 1469.136
9 2200 8.346 31604.938 513.580
14 2600 4.457 49382.716 469.136
𝑋 𝑌 ∑(X - 𝑋)2 ∑(Y - 𝑌)2 ∑(X - 𝑋) (Y - 𝑌)
11.889 2377.778 50.889 1675555.556 7877.778
SSx SSy SPXY
SX SY SXY
Ing. William león Velásquez 0.892 161.804 984.722
84
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO

7877.778
𝑏1 = = 154.8035
50.889

𝑏0 = 2377.778 – 154.80.5 (11.889)= 537.336

𝑌= 537.336 + 154.8035 X
OBTENCIÓN DE LA ECUACIÓN DE
REGRESIÓN O MODELO AJUSTADO

Finalmente la ecuación resultante es:

𝑌= 537.336 + 154.8035 X

El valor de la pendiente significa que a medida que aumente en una unidad el


promedio obtenido, el sueldo actual promedio se incrementará en 154.8035
unidades.

Ing. William león Velásquez


86
EJEMPLO 2
• Se ha realizado un estudio sobre el efecto de la temperatura en el pH de
la leche descremada.
• La variable independiente será la temperatura en grado Celsius (X)
bajo diferentes condiciones experimentales
• Y la variable dependiente será el pH de la leche (Y).
• Los datos recopilados son:
Temperatura (x) 4 4 24 24 25 38 38 40
pH (y) 6,9 6,8 6,6 6,7 6,7 6,6 6,6 6,5

Temperatura (x) 45 50 55 56 60 67 70 78
pH (y) 6,5 6,5 6,4 6,4 6,4 6,3 6,3 6,3

x i  678 y i  104,5 x i yi  4369,5 x 2


i  36056 y 2
i  683,01
EJERCICIO
a) Encontrar la recta de regresión de mínimos cuadrados .
7. 0

6. 9

6. 8

6. 7

6. 6

6. 5

6. 4

6. 3
PH

6. 2
0 20 40 60 80

Temperatura
EJERCICIO
Sol: Para encontrar la recta de regresión tenemos que calcular los
coeficientes:

164369,5  678104,5  939


b   0,008
1636056  678
2
117212

104,5 678
a  (0,0080111251)  6,53125  0,3394714278
16 16

a  6,8707
Por lo tanto la recta de regresión es:

pHleche = 6.871 – 0.008 Temperatura


Puede comparar con salida de SPSS:
FIN
wjleonv@yahoo.com
ANALISIS DE REGRESIÓN
LINEAL
Ing. William León Velásquez
wjleonv@yahoo.com
 Ecuación de regresión
 Estimación de parámetros por mínimos cuadrados
 Intervalos de predicción
 Errores y residuales en estadística
 Independencia de los errores

Ing. William león Velásquez 2


Ecuación de regresión
MÉTODO DE MÍNIMOS CUADRADOS

• El método de mínimos cuadrados es la técnica utilizada para


encontrar la ecuación de regresión minimizando la suma de los
cuadrados de las desviaciones verticales alrededor de la línea.

•La forma general de la ecuación de regresión es:

Y′ = a + bX

Ing. William león Velásquez 4


MÉTODO DE MÍNIMOS CUADRADOS
Y′ = a + bX
donde:
• Y′ se lee Y prima, es el valor de la predicción de la variable Y dado un valor X .
• a es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la línea de
regresión cruza el eje de las Y.
• b es la pendiente de la línea, o la variación promedio en Y por cada variación
de una unidad en X.
• X es cualquier valor seleccionado de la variable independiente X .

Ing. William león Velásquez 5


MÉTODO DE MÍNIMOS CUADRADOS

•Los valores de a y b en la ecuación de regresión son conocidos


como coeficientes de regresión. Las fórmulas para calcularlos son:

n(ΣXY) – (ΣX)(ΣY)
b=
n(ΣX²) – (ΣX)²

ΣY ΣX
a= – b
n n
Ing. William león Velásquez 6
EJEMPLO 1

• En el ejemplo de las ventas semanales y las calificaciones de los


cinco vendedores las sumatorias son:

Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.

Vendedor Calificación ( X ) Ventas ( Y ) X2 XY Y2


José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
Maria 10 11 100 110 121
total 30 40 210 274 370

Ing. William león Velásquez 7


EJEMPLO 1

n(ΣXY) – (ΣX)(ΣY) 5 ( 274 ) – ( 30 )( 40 )

b= = 5 ( 210 ) – ( 30 )²
= 1.133
n(ΣX²) – (ΣX)²

ΣY ΣY 40 30
a= ─b = - 1.133 = 1.202
n n 5 5

Y′ = a + bX Y′ = 1.202 + 1.133 X ( ecuación de regresión )

Ing. William león Velásquez 8


EJEMPLO

• Para predecir las ventas semanales de un aspirante a


vendedor que obtuvo una calificación de 6 en la prueba
se aplica la ecuación de regresión:

Y′ = 1.202 + 1.133 ( 6 ) = 8 mil.

Ing. William león Velásquez 9


EJEMPLO
Trazo de la línea de regresión
• Para determinar los puntos de la línea de regresión se sustituyen
los valores de la variable independiente en la ecuación de
regresión:
predicción de
calificación ( X ) solución
ventas ( Y′ )
3 Y′ = 1.202 + 1.133 ( 3 ) 4.601
4 Y′ = 1.202 + 1.133 ( 4 ) 5.734
6 Y′ = 1.202 + 1.133 ( 6 ) 8.000
7 Y′ = 1.202 + 1.133 ( 7 ) 9.133
10 Y′ = 1.202 + 1.133 ( 10 ) 12.532

Ing. William león Velásquez 10


EJEMPLO
• En el diagrama de dispersión no todos los puntos coinciden con la línea de
regresión.

• Si todos los puntos estuvieran


sobre la línea no habría error al
predecir la variable
dependiente Y basándose en la
variable independiente X.

Ing. William león Velásquez


11
EL ERROR ESTÁNDAR DE
ESTIMACIÓN
 La predicción perfecta es prácticamente imposible, por lo tanto es
necesaria una medida que indique que tan precisa es una
predicción de Y basada en X.
 Esta medida es llamada el error estándar de estimación.
 El error estándar de estimación, simbolizado Syx, tiene el mismo
concepto de la desviación estándar.
 La desviación estándar mide la dispersión alrededor de la media
 El error estándar de estimación mide la dispersión alrededor de la
línea de regresión.

Ing. William león Velásquez 12


EL ERROR ESTÁNDAR DE
ESTIMACIÓN
 El error estándar de estimación se calcula con la siguiente fórmula.
𝑆𝐸𝐸
𝑆𝑦𝑥 =
𝑛−2
2
𝑌−𝑌
𝑆𝑦𝑥 =
𝑛−2

𝑌2 − 𝑎 𝑌 − 𝑏 𝑋𝑌
𝑆𝑦𝑥 =
𝑛−2
Ing. William león Velásquez 13
EJEMPLO
En el caso de las calificaciones y ventas semanales de 5
vendedores de Ventas S.A.
Calculo del error estándar de estimación
Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.
Calificaci Ventas
Vendedor X2 XY Y2
ón ( X ) (Y)
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
Maria 10 11 100 110 121
total 30 40 210 274 370

Ing. William león Velásquez 14


EJEMPLO

En el caso de las calificaciones y ventas semanales de 5


vendedores de Ventas S.A. Calcule el error estándar de estimación

𝑌2 − 𝑎 𝑌 − 𝑏( 𝑋𝑌) 370 − 1.202 40 − 1.133(274)


𝑆𝑦𝑥 = =
𝑛−2 5−2
𝑆𝑦𝑥 = 1.955

 La cantidad de 1.955 es en realidad 1955 porque las ventas


están en miles de dólares.
Ing. William león Velásquez 15
INTERVALOS DE PREDICCIÓN

Existen varias razones para construir una regresión lineal.


• Predecir los valores de respuesta de la variable dependiente Y’
a un valor de la variable independiente X.
• Hay dos tipos de intervalos de predicción:
1. El intervalo de predicción del valor medio de Y para un valor
dado de X.
2. El intervalo de predicción del valor individual de Y para un
valor dado de X

Ing. William león Velásquez 16


INTERVALOS DE CONFIANZA

El intervalo de confianza del valor medio de Y ( μY )


• Para determinar el intervalo de confianza del valor medio de Y, que
se simboliza μy para un valor dado de X, la fórmula es:

1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛

Ing. William león Velásquez 17


INTERVALOS DE CONFIANZA

•Donde:
Y’ es la predicción del valor de Y ′
1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ± 𝑡 𝑆𝑦𝑥 +
𝑛 2 ( 𝑋)2
para un valor dado de X 𝑋 − 𝑛

X es el valor dado de X
𝑋 es la media de los valores de X
n es el número de observaciones
Sxy es el error estándar de estimación
t es el valor de t, para α / 2, y Φ = n - 2

Ing. William león Velásquez 18


EJEMPLO
• Calcular el intervalo de confianza para el valor medio de Y del 95
%, para un valor dado de X = 6, en el ejemplo de las ventas y las
calificaciones de los cinco vendedores de Ventas S.A.

1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛

Ing. William león Velásquez 19


EJEMPLO
1 (6 − 6)2
𝜇𝑦 = 8 ± (3.18245)(1.955) +
5 (30)2
210 −
5

μy = 8 ± 2.782
P (5.217 ≤ μy ≤ 10.782) = 0.95

• Para un grupo de aspirantes que obtuvieron calificaciones exactamente de 6,


hay una probabilidad del 95% de que sus ventas semanales promedio se
localizarán en un intervalo entre $ 5,217 y $ 10,782.
Este intervalo es muy grande, para hacerlo mas pequeño se puede reducir
el nivel de confianza de 0.95 a 0.90, o mejor, incrementar el tamaño de la
muestra.
Ing. William león Velásquez 20
INTERVALOS DE PREDICCIÓN

Intervalo de predicción para el valor individual de Y


• Para determinar el intervalo de predicción del valor individual de
Y, que se simboliza μy para un valor dado de X, la fórmula es:

1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 1+ + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛

Ing. William león Velásquez 21


EJEMPLO
• Calcular el intervalo de predicción para el valor individual de Y
del 95 %, para un valor dado de X = 7, en el ejemplo de las
ventas y las calificaciones de los cinco vendedores de Ventas
S.A.

1 (𝑋 − 𝑋)2
𝜇𝑦 = 𝑌 ′ ± 𝑡 𝑆𝑦𝑥 1+ + 2
𝑛 ( 𝑋)
𝑋2 −
𝑛

Ing. William león Velásquez 22


EJEMPLO
1 (7 − 6)2
𝜇𝑦 = 9.133 ± (3.18245)(1.955) 1 + +
5 (30)2
210 −
5
Yo =9.133 ± 6.908
P ( 2.225 ≤ Yo ≤ 16.041 ) = .95

• Se concluye que hay una probabilidad de 0.95 de que las


ventas semanales de alguien que obtuvo un 7 de calificación
serán entre $ 2,225 y $ 16,041.

Este intervalo es muy grande, para hacerlo mas pequeño se puede reducir
el nivel de confianza de 0.95 a 0.90, o mejor, incrementar el tamaño de la
muestra.
Ing. William león Velásquez 23
EJEMPLO

Es importante distinguir entre los dos tipos de intervalos de predicción.

• En el intervalo de confianza para el valor medio de Y,


se esta interesado en predecir las ventas promedio de
todos los vendedores que obtienen una determinada
calificación.
• En el intervalo de predicción para un valor individual
de Y, nos interesa estimar un intervalo de las ventas de
un particular vendedor que obtuvo cierta calificación.

Ing. William león Velásquez 24


ESTIMACIÓN DE PARÁMETROS POR MÍNIMOS
CUADRADOS
EJEMPLO 2 X Y
Concentración Densidad óptica
• En una curva de calibración, la densidad (mM) (%Trasmitancia)
óptica varía dependiendo de la
1 4
concentración de biomasa, como se
muestra en la tabla. 2 9
4 18
5 20
8 35
10 41
12 47
15 60
Ing. William león Velásquez 25
ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
• Para el análisis de una situación de relación entre dos variables se debe:
1. Identificar la variable independendiente y la variable dependiente: En este
caso la variable dependiente es la densidad óptica ( Y ) y la variable
independiente es concentración (X ).
2. Determinar si existe una relación de dependencia razonable. En la situación
presentada puede observarse que en la realidad estas dos características
(concentración de biomasa y densidad óptica) presentan una relación lógica. Se
ha encontrado que la densidad óptica depende de la concentración de
biomasa.

Ing. William león Velásquez 26


ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
• Para determinar de manera
inicial la relación lineal entre las
dos variables se debe elaborar
un diagrama de dispersión,
como el que aparece en la figura

Gráfico de dispersión para los valores observados y


pronosticados
de acuerdo al gráfico de dispersión se puede asumir que existe una relación lineal y
se requiere la línea recta que mejor se ajuste a los datos experimentales
Ing. William león Velásquez 27
ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
3. Determinar el modelo estadístico: Como la densidad óptica parece aumentar a
medida que aumenta la concentración entonces se debe sugerir un modelo
lineal dado por:

Donde:
yi es el valor observado en este caso la densidad óptica para un valor de concentración X,
βo corresponde al intercepto de Y con la línea de regresión y
β1 representa el valor medio de la densidad óptica para un valor determinado de concentración
llamada pendiente de la línea de regresión o coeficiente de regresión,
Xi es el valor de la concentración, que se asume, es medida sin error y
εij es la variable aleatoria del error
Ing. William león Velásquez 28
ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
Para poder utilizar este modelo , se asume que las variables error cumplen
los siguientes supuestos:
• Son normales con media cero
• Son independientes
• Tienen igual varianza σ2 .
Estos supuesto deben cumplirse para que el análisis de los datos sea
válido.

Ing. William león Velásquez 29


ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
4. Determinar la ecuación de regresión o modelo ajustado: El modelo
predicho o ecuación de regresión ajustada es una expresión como la
siguiente

Para obtenerla usted debe encontrar los valores estimados de los


.
parámetros: b0 y b1
Éstos se obtienen aplicando el método de mínimos cuadrados.

Ing. William león Velásquez 30


ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
• 4. Determinar la ecuación de regresión o modelo ajustado:
Concentración Densidad óptica
( X) (Y ) X-𝑋 Y-𝑌 X-𝑋* Y-𝑌 (X-𝑋 )2
(mM) (%Trasmitancia)
1 4 -6,125 -25,25 154,65625 37,515625
2 9 -5,125 -20,25 103,78125 26,265625
4 18 -3,125 -11,25 35,15625 9,765625
5 20 -2,125 -9,25 19,65625 4,515625
8 35 0,875 5,75 5,03125 0,765625
10 41 2,875 11,75 33,78125 8,265625
.
12 47 4,875 17,75 86,53125 23,765625
15 60 7,875 30,75 242,15625 62,015625
∑ 57 234 680,75 172,875
media 7,125 29,25

Ing. William león Velásquez 31


ESTIMACIÓN DE PARÁMETROS POR
MÍNIMOS CUADRADOS
• 4. Determinar la ecuación de regresión o modelo ajustado:
b1 680.75
𝑏1 = b1=3.938
172.875

𝑏0 =29.25 -3.938(7.125) b0=193


.

Y = 1.193 + 3.938 X
Ing. William león Velásquez 32
EJEMPLO 3
• Una empresa que se dedica a la
venta de pizas a domicilio desea
determinar si existe una relación
entre los gastos de publicidad y
las ventas semanales
• La tabla muestra la información
de las ultimas ocho semanas

Gastos en
Publicidad 0 100 250 350 450 500 600 700
ventas
semanales 120 350 500 550 550 650 800 1100

Ing. William león Velásquez 33


SOLUCIÓN

• El primer paso para la determinación del modelo es verificar el tipo de relación


existente entre las dos variables de estudios
• Examinar el grafico de dispersion
1200 Se observa un patrón creciente entre las
1000 variables, es decir que ha medida que
aumenta los gastos en publicidad aumentas
Vntas semanales

800

600
las ventas semanales de pizas
400
Por lo tanto el modelo poblacional que se
200

0
propone es un modelo lineal:
0 100 200 300 400 500 600 700 800
Gastos de publicidad

Ventas = βo + β1 * gastos de publicidad + ε


Ing. William león Velásquez 34
SOLUCIÓN
ventas Gastos en

• Estimación de los parámetros: semanales


y
Publicidad
x XY X2
120 0 0 0
350 100 35000 10000
500 250 125000 62500
550 350 192500 122500
^ n X iYi   X i  Yi 550 450 247500 202500
1 
n X i   X i 
2 650 500 325000 250000
2
800 600 480000 360000
1100 700 770000 490000
∑ 4620 2950 2175000 1497500
media 577.5 368.75
8(2175000)  2950(4620) 3771000
𝛽1    1.150572
8(1497500)  8702500 3277500

 0  Y  1Y = 577.5 – 1.150572(368.75) = 153.226538


La ecuación de regresión estimada es = Ventas= 153.2265 + 1.15057 * gastos de publicidad
Ing. William león Velásquez 35
SOLUCIÓN
• Estimación de los parámetros:

La ecuación de regresión estimada es


Ventas= 153.2265 + 1.15057 * gastos de publicidad
Interpretación:
• El promedio de las ventas semanales de pizzas son de 153
unidades cuando no hay gastos en publicidad.
• Cuando los gastos en publicidad aumentan en $ 1, las
ventas aumentan en promedio 1.15 pizzas

Ing. William león Velásquez 36


SOLUCIÓN
Varianza de los estimadores β0 β1

𝜎2𝑒 2 𝜎𝑒 2
𝑉 𝛽0 = +𝑋 𝑛 2 Desv estándar 𝛽0 = 𝑉 𝛽0
𝑛 𝑋
𝑖=1 𝑖 − 𝑋

𝜎𝑒 2
𝑉 𝛽1 = 𝑛 2 Desv estándar 𝛽1 = 𝑉 𝛽1
𝑖=1 𝑋𝑖 −𝑋

Ing. William león Velásquez 37


SOLUCIÓN
Varianza de los estimadores β0 β1
La ecuación de regresión estimada es
Ventas = 𝒀= 153.2265 + 1.15057 * gastos de publicidad
ventas Gastos en
semanales Publicidad 𝑒𝑖 = 𝑌𝑖 − 𝑌𝑖
Y X 𝑌 ei e 2i X2
120 0 153.2265 -33.2265 1104.0003 0
350 100 268.2835 81.7165 6677.58637 10000
500 250 440.869 59.131 3496.47516 62500
550 350 555.926 -5.926 35.117476 122500
550 450 670.983 -120.983 14636.8863 202500
650 500 728.5115 -78.5115 6164.05563 250000
800 600 843.5685 -43.5685 1898.21419 360000
1100 700 958.6255 141.3745 19986.7493 490000
∑ 53999.0847 1497500
Ing. William león Velásquez 38
SOLUCIÓN
Varianza de los estimadores β0 β1
𝑛 53999.08
𝑒𝑖 2
2
𝑆𝑒 = 𝑖=1 𝑆𝑒 2 = = 8999.8467
𝑛−2 6
ventas
2 1 𝑋2 semanal Gastos en
𝑉 𝛽0 =𝑆𝑒 + 𝑛 2 es Publicidad
𝑛 𝑖=1 𝑋𝑖 − 𝑋 y x 𝑋𝑖 − 𝑋 (𝑋𝑖 − 𝑋 )2
120 0 -368.75 135976.563
1 135976.56
𝑉 𝛽0 =8.999.8467 + 350 100 -268.75 72226.5625
8 409687.5 500 250 -118.75 14101.5625
550 350 -18.75 351.5625
Desv estándar 𝛽0 = 4112.058048 550 450 81.25 6601.5625
650 500 131.25 17226.5625
800 600 231.25 53476.5625
S 𝛽0 = 64.125331 1100 700 331.25 109726.563
∑y 4620 ∑X 2950 ∑ 𝑋𝑖 − 𝑋 2 409687.5
𝑌 577.5 𝑋 368.75
𝑋 2 135976.563
Ing. William león Velásquez 39
SOLUCIÓN
Varianza de los estimadores β0 β1
X2
53999.08
𝑆𝑒 2 = = 8999.8467 0
6
10000
62500
2
𝑆𝑒 122500
𝑉 𝛽1 = 𝑛 2 2 202500
𝑖=1 𝑋𝑖 −𝑛𝑋 250000
360000
8999.8467
𝑉 𝛽1 = 490000
1497500−8∗368.752 ∑=1497500

8999.8467 Desv estándar 𝛽1 = 0.021968


𝑉 𝛽1 = = 0.021968
409687.5
S 𝛽1 =0.148215
Ing. William león Velásquez 40
SOLUCIÓN
Intervalo de confianza para los parámetros

Intervalo de confianza para el intercepto


𝛽0 𝜖 𝛽0 ∓ 𝑡 1−𝛼 2,𝑛−2 𝑆 𝛽0

𝛽0 𝜖 153.226538 ∓ 𝑡 0.975,6 64.125331


𝛽0 𝜖 −3.682376, 310.135452
Intervalo de confianza para la pendiente
𝛽1 𝜖 𝛽1 ∓ 𝑡 1−𝛼 2,𝑛−2 𝑆 𝛽1

𝛽1 𝜖 1.150572 ∓ 𝑡 0.975,6 0.148215

𝛽1 𝜖 0.7879.3, 1.51324
Ing. William león Velásquez 41
EJEMPLO
• Una gran empresa desea realizar cambios en su politica de empleos , para
ello se desea predecir el ausentismo laboral Y (en horas al año) a partir del
salario X (en euros semanales).
X 150 200 175 160 210 895
Y 300 406 442 330 422 1900
Calculando para obtener las sumatorias
X Y XY x2
150 300 45000 22500
200 406 81200 40000
175 442 77350 30625
160 330 52800 25600
210 422 88620 44100
Sumas 895 1900 344970 162825
EJEMPLO
• Realizando los cálculos de la tabla y reemplazando en la fórmula:
EJEMPLO
• Para calcular el coeficiente a
EJEMPLO
• Calculando el Y estimado y el error
X Y y' E
150 300 326.06 -26.06
200 406 419.06 -13.06
175 442 372.56 69.44
160 330 344.66 -14.66
210 422 437.66 -15.66
Sumas 895 1900 0
𝐸=0
EJEMPLO
• Gráficamente se obtiene
Contraste sobre β
• Objetivo: Comprobar si hay relación lineal, y de que tipo es esta,
entre X e Y.
1. Hipótesis Bilateral:
• H0: β = 0 (no hay relación lineal, son linealmente independientes)
• H1: β ≠ 0 (hay relación lineal)
• Unilateral derecho:
• H0: β =0 (no hay relación lineal)
• H1: β > 0 (hay relación lineal positiva)
• Unilateral izquierdo:
• H0: β = 0 (no hay relación lineal)
• H1: β < 0 (hay relación lineal negativa)
2. Supuestos
•Independencia
•Normalidad
•Homocedasticidad
Contraste sobre β
3. Estadístico de contraste

• Cuya distribución es tn-2


4. Zona crítica
• Bilatéral: T ≤ α/2tn-2 y T ≥ 1-α/2tn-2
• Unilateral derecho: T ≥ 1-αtn-2
• Unilateral izquierdo: T ≤ αtn-2
EJEMPLO
• Probar si al aumentar el salario (X) aumenta el ausentismo (Y) con
• α=0,01.
• 1. Hipótesis
• H0: β = 0
• H1: β > 0
2. Supuestos: normalidad, independencia, homocedasticidad.
3. Estadístico de contraste
EJEMPLO
4. Zona crítica
• Unilateral derecho: 0,99t3 = 4,541
5. Decisión
• No se rechaza la hipótesis nula H0
• Por lo tanto no hay suficiente respaldo en sustentar que si al aumentar el
salario (X) aumenta el ausentismo (Y)
ERRORES Y RESIDUALES
EN ESTADÍSTICA
ERRORES Y RESIDUALES EN
ESTADÍSTICA

• Un error estadístico es la diferencia entre


los datos en la muestra y la diferencia con
la media de la población

• Un residual es la diferencia entre los datos


de la muestra y la diferencia de la media
de la muestra.

27/04/2015 52
ANÁLISIS DE LOS RESIDUALES

El residual esta dado por:

Los cuales contienen dentro de ellos información


sobre el porque el modelo no se ajusta a los datos.

Por ello es necesario realizar un análisis de los


residuales para obtener cualquier peculiaridad que el
ajuste de regresión pueda tener.

27/04/2015 53
ANÁLISIS DE LOS RESIDUALES

Si se propone un modelo para el ajuste de los


datos se debe establecer unos supuestos sobre
la variable error:
 Independencia de los errores
 Los errores se distribuyen normal con
media cero
 Los errores son independientes
 Los errores tienen varianza constante

27/04/2015 54
ANÁLISIS DE LOS RESIDUALES

Cuando se ajusta el modelo se espera que los


residuales exhiban el cumplimiento de los
anteriores supuestos sobre la variable error.

Después de examinar los residuales sólo se


podrá decir que los supuestos parecen ser
incumplidos o los supuestos parecen no ser
incumplidos.

27/04/2015 55
ANÁLISIS DE LOS RESIDUALES
Es decir:
No significa que los supuestos se
cumplan;

Si no que sobre la base de los datos se ha


visto que no hay razón para decir que
los supuestos no se cumplen.

27/04/2015 56
RESIDUALES EN LA REGRESIÓN
Definición

◦ Esla diferencia entre el punto


Observado y el predicho por el
modelo de la regresión

(Y - Yˆ )
RESIDUALES EN LA REGRESIÓN

Interpretaciones (formas de verlo)

• Es aquello que no es explicado por el


modelo de regresión.
• Son considerados el error de
observación es por eso que se llama el
error en el ANOVA.
ANÁLISIS RESIDUAL EN LA REGRESIÓN SIMPLE
Gráficas de residuos
Se elaboran gráficas de residuos contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los datos han
sido observados (para series de tiempo)
ANÁLISIS RESIDUAL EN LA REGRESIÓN
SIMPLE
40

35

30

25

20
^
15 (Y – Y)
10

0
10 12 14 16 18 20 22
PROPIEDADES DE LOS RESIDUALES

•Σ Ri = 0
•Ri ~ N (0,σ2)

• Pero si esto último no se da entonces los


residuales manifiestan situaciones
particulares en la que NO se cumplen
algunos de los supuestos
FORMA DE ANÁLISIS

• El análisis de residuales se puede


llevar a cabo gráficamente o en
forma analítica.
 Distribución Normal
 Igualdad de las varianzas
 Independencia de las
observaciones.
NORMALIDAD DE LOS RESIDUALES

Usualmente se asume que

y que todos los errores son independientes uno del


otro, pero sus estimados, los residuales no pueden
ser independientes.
Los gráficos utilizados son: el histograma, el gráfico
de probabilidad normal entre otros.
.

27/04/2015 63
NORMALIDAD DE LOS RESIDUALES

HISTOGRAMA DE FRECUENCIAS
RELATIVAS.

Se realiza un histograma con los datos y se


observa si la forma de la gráfica es simétrica.
.

27/04/2015 64
NORMALIDAD DE LOS RESIDUALES

GRAFICO DE PROBABILIDAD NORMAL

Si los puntos parecen ajustarse a una línea recta,


puede decirse que parece indicar que los datos
provienen de una distribución normal, pero tenga
en cuenta que en algunos casos, aunque los puntos
se ajusten a una línea recta puede que los datos no
provengan de una distribución normal; por ello se
recomienda utilizar métodos objetivos.

27/04/2015 65
EJEMPLO:
Percentil Densidad Óptica

6,25 4
18,75 9
31,25 18
43,75 20
56,25 35
68,75 41
81,25 47
93,75 60
27/04/2015 66
EJEMPLO:

Gráfico de probabilidad normal para los residuos de la densidad


óptica
27/04/2015 67
INDEPENDENCIA DE LOS
ERRORES

El supuesto de independencia de las


variables aleatorias error εij , se puede
chequear gráficamente por medio de un
diagrama de dispersión entre los
residuales (eje X) y el orden en que se
tomaron las observaciones (si se tiene)
(eje Y).

27/04/2015 68
EJEMPLO:
Análisis de los residuales
X Y 𝑌
Concentración Densidad óptica Pron Densidad Residual Resi Est
1 4 5.1309 -1.1309 -0.909195353
2 9 9.0687 -0.0687 -0.055288499
4 18 16.9443 1.0557 0.848621185
5 20 20.8821 -0.8821 -0.709184032
8 35 32.6955 2.3045 1.85253653
10 41 40.5711 0.4289 0.344734143
12 47 48.4467 -1.4467 -1.163068244
15 60 60.2601 -0.2601 -0.209155729
234 0.0006

Media Residual 0.000075 Resi. Est=


Residuos= Y-𝑌
D.E. residuos 1.243929587
27/04/2015 69
EJEMPLO:
• Densidad óptica: corresponde al número de la observación de la
variable
• Pronóstico Densidad Óptica: corresponde al valor pronosticado por
la ecuación de regresión para la variable .
• Residual: corresponde a la diferencia obtenida entre el valor
verdadero y el pronosticado.
• Residuos estándares: corresponde a

27/04/2015 70
INDEPENDENCIA DE LOS
ERRORES
Para los datos del ejemplo, el
gráfico de la derecha se
muestra lo siguiente.
No se observa un patrón
característico, por lo tanto,
parece indicar que los
residuos se encuentran
independientes o
aleatoriamente distribuidos. Gráfico de residuales vs orden para la densidad óptica

27/04/2015 71
PRUEBA DE DURBIN-WATSON

• El estadístico de Durbin-Watson, desarrollado por el


reputado economista Watson, es un estadístico de
prueba que se utiliza para detectar la presencia de
autocorrelación en los residuos (errores de predicción)
de un análisis de la regresión.

• Hay autocorrelación cuando existe una relación


entre los valores separados el uno del otro por un
intervalo de tiempo dado

27/04/2015 72
PRUEBA DE DURBIN-WATSON

• Para ejecutar esta prueba objetiva


sobre la independencia de los errores
se asume que las observaciones y así
los residuales tienen un orden natural
tal como el tiempo o espacio.

27/04/2015 73
CÁLCULO E INTERPRETACIÓN DEL
ESTADÍSTICO DE DURBIN-WATSON

• Si et es el residual asociado a la observación en el tiempo t,


entonces la prueba estadística es:

Donde T es el número de observaciones.

27/04/2015
74
CÁLCULO E INTERPRETACIÓN DEL
ESTADÍSTICO DE DURBIN-WATSON
Puesto que d es aproximadamente igual a 2(1 − r), donde r es la autocorrelación de la muestra
de los residuos d = 2 indica que no hay autocorrelación.
El valor de d siempre está entre -1 y 1,5.

Si el estadístico de Durbin-Watson es sustancialmente menor que 0,5, hay evidencia de


correlación serial positiva.
Como regla general:
Si Durbin-Watson es inferior a 1,0 aunque lo óptimos es que sea menor que 0, puede ser causa
de alarma.
Los valores pequeños de d indican los términos de error sucesivos son, en promedio, cerca del
valor de los otros, o correlacionados positivamente.
Si d> 2, los términos de error sucesivas son, en promedio, muy diferente en valor el uno del
otro, es decir, correlacionada negativamente.
En las regresiones, esto puede implicar una subestimación del nivel de significación
estadística.

27/04/2015
75
PRUEBA DE DURBIN-WATSON

•Se puede demostrar que:


1. El valor de d esta siempre en el intervalo

2. Si los residuales son positivamente


correlacionados, entonces d será
cercano a 0 y los residuales tienden a ser
parecidos.

27/04/2015 76
PRUEBA DE DURBIN-WATSON

•También se puede demostrar que:


3. Si los residuales son negativamente
correlacionados, entonces d será
cercano a 4 y así será ………
cercano a 0. Además los residuales
tienden a ser muy diferentes.

4. La distribución de d es simétrica
alrededor de 2.

27/04/2015 77
PRUEBA DE DURBIN-WATSON

27/04/2015 78
EJEMPLO
• Se ha estimado por MCO un modelo lineal entre las variable y y
x, utilizando 10 observaciones.
• La serie de residuos MCO obtenidas es:
t 1 2 3 4 5 6 7 8 9 10
Ut -0.76 -0.57 -0.24 -0.16 0.24 0.66 0.89 0.53 0.15 -0.74

27/04/2015 79
EJEMPLO

Se pide:
1. Obtener una estimación consistente de la función de auto correlación
muestral de los residuos.
2. Obtener el valor exacto del estadístico de Durbin-Watson, y resuelva el
contraste correspondiente.
3. De los resultados anteriores identifique, razonando la respuesta, que
error se ha cometido en la especificación del modelo.

27/04/2015 80
EJEMPLO

•Solución
1. La estimación consistente de cada uno de los elementos que integran la
función de autocorrelación muestral de los residuos viene dada por la
siguiente expresión:

27/04/2015 81
EJEMPLO

En este caso solo vamos a calcular los tres primeros elementos de


dicha función.

27/04/2015 82
EJEMPLO
A partir de esta información y
reemplazando los valores en la
fórmula se obtiene:

27/04/2015 83
EJEMPLO
2. El valor exacto del estadístico de Durbin-Watson viene dado
por:

Atendiendo a los resultados se obtiene:

Como DW = 0,5147 < dL = 0,6


⇒ se rechaza la H0: ρ = 0, al nivel de significación del 5%, y hay evidencia
para pensar que existe auto correlación positiva de primer27/04/2015
orden. 84
EJEMPLO

3. Dado que existe un problema de auto correlación


sabemos que ello viene provocado por un error de
especificación bien en la forma funcional, o en la
determinación de otros elementos de la parte
sistemática del modelo.
Si representamos los residuos en función del tiempo
resulta la típica estructura curvilínea que refleja
claramente un error en la forma funcional del
modelo.

27/04/2015 85
FIN
wjleonv@yahoo.com
ANALISIS DE REGRESIÓN
MULTIPLE
Ing. William León Velásquez
wjleonv@yahoo.com
INTRODUCCIÓN

• El procedimiento de Regresión Lineal permite utilizar más


de una variable independiente y permite llevar a cabo
análisis de regresión múltiple

• En el análisis de regresión múltiple la


ecuación ya no define una recta en el
plano, sino un hiperplano en un espacio
multidimensional
INTRODUCCIÓN
• En el caso de una variable dependiente y dos independientes…

…necesitamos tres ejes para poder representar el diagrama de


dispersión
INTRODUCCIÓN
Si en lugar de dos variables independientes utilizáramos
tres…

…sería necesario un espacio de cuatro dimensiones para poder construir el


diagrama de dispersión

Con más de dos variables independientes, la


representación gráfica de las relaciones presentes
en un modelo de regresión resulta poco intuitiva,
POR TANTO muy complicada y nada útil
INTRODUCCIÓN

Es más fácil y práctico partir de la ecuación del modelo de


regresión lineal:

Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε


 La variable dependiente Y se interpreta como una combinación lineal de un conjunto de K
variables independientes, cada una de las cuales va acompañada de un coeficiente β, que indica el
peso relativo de esa variable en la ecuación

 La ecuación incluye un componente aleatorio (los residuos ε) que recoge todo lo que las
variables independientes no son capaces de explicar
DATOS PARA REGRESIÓN MÚLTIPLE

• Los datos para regresión lineal simple consisten en pares de observaciones


(xi, yi) de dos variables cuantitativas. Ahora se tiene múltiples variables
explicativas, por lo que la notación será más elaborada.

Se llamará xij el valor de la j-ésima 1 x11 x12 ... x1p y1


variable del i-ésimo sujeto o unidad
(i=1,2,...,n ; j=1,2,...,p).
2 x21 x22 ... x2p y2
Los datos se pueden organizar de la :
siguiente forma en una base: N xn1 xn2 ... xnp yn

Donde n es el número de casos o tamaño muestral y p es el número de variables


explicatorias. Esta es una forma de organizar la base de datos, no importa el orden de
las variables.
Ing. William león Velásquez
MODELO DE REGRESIÓN LINEAL MÚLTIPLE:
• El modelo estadístico de regresión lineal múltiple es:
yi   0  1 xi1   2 xi 2     p xip   i
para i= 1, 2, ...,n
• La respuesta media es una función lineal de las variables explicatorias:
 y   0  1 x1   2 x2     p x p
• Las desviaciones son independientes y normalmente distribuidas con media
0 y desviación estándar :
 i ~ N (0,  )
2

• Los parámetros del modelo son: y , los coeficiente de regresión y la


estimación de la variabilidad, es decir son en total (p + 2) parámetros.
Ing. William león Velásquez
MODELO DE REGRESIÓN LINEAL MÚLTIPLE:

• Si se supone que la respuesta media está relacionada con los parámetros


a través de la ecuación:

 y   0  1 x1   2 x2     p x p
• esto quiere decir que se puede estimar la media de la variable respuesta
a través de la estimación de los parámetros de regresión.
• Si esta ecuación se ajusta a la realidad entonces tenemos una forma de
describir cómo la media de la variable respuesta y varía con las variables
explicatorias .
x1 , x2 ,, x p
Ing. William león Velásquez
ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE.
• En regresión lineal simple se usa el método de mínimos cuadrados para
obtener estimadores del intercepto y de la pendiente.
• En regresión lineal múltiple el principio es el mismo, pero se necesita
estimar más parámetros.

b0 , b1 ,, b p
• Se llamará  0 , 1 ,,  p a los estimadores de los parámetros

Ing. William león Velásquez


ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE

• La respuesta estimada por el modelo para la i-ésima observación es:


• yˆ i  b0  b1 xi1  b2 xi 2    b p xip
• El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha:

• residuo = ei  yi  yˆ i y observado  yˆ estimado


• El i-ésimo residuo =ei  yi  b0  b1 xi1  b2 xi 2    b p xip 

Ing. William león Velásquez


ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE
• El método mínimos cuadrados elige los valores de los estimadores óptimos,
es decir, que hacen la suma de cuadrados de los residuos menor posible.
• Es decir, los parámetros estimados minimizan la diferencia entre la respuesta
observada y la respuesta estimada, lo que equivale a minimizar:

(𝑦𝑖 − 𝑦𝑖 )2

• La fórmula de los estimadores de mínimos cuadrados para regresión


múltiple se complica porque se necesita notación matricial, sin embargo lo
importante es que se entienda el concepto y se deja a los software hacer
los cálculos.
Ing. William león Velásquez
ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE

• El parámetro σ2 mide la variabilidad de la respuesta alrededor de la ecuación


de regresión en la población. Como en regresión lineal simple estimamos σ2
como el promedio de los residuos al cuadrado:

 ˆ   e 2
(𝑦𝑖 − 𝑦𝑖 )2
s y2 x 2 i

n  p 1
=
𝑛−𝑝−1

Ing. William león Velásquez


ESTIMACIÓN DE LOS PARÁMETROS DE
REGRESIÓN MÚLTIPLE

• La cantidad (n-p-1) son los grados de libertad asociados con la estimación de


la variabilidad: S2y/x
• S2y/x es entonces el estimador de la variabilidad de la respuesta y, tomando
en cuenta las variables explicatorias xj.
2 (𝑦𝑖 − 𝑦𝑖 )2
𝑆
• Lo distinguimos de 𝑦 = 𝑛−𝑝−1 que es la variabilidad de y sin tomar
en cuenta las variables explicativas xj.

Ing. William león Velásquez


DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE
Enunciado del ejemplo didáctico
• Existen seis ejecuciones que fueron hechas
a varias condiciones de saturación X1 y de
isomería geométrica(X2) .
• La variable respuesta es el indicador SCI, y
se listada como Y para los
correspondientes niveles de X1 y X2.

Ing. William león Velásquez


DESARROLLO DEL MODELO DE
REGRESIÓN MÚLTIPLE

• El gráfico para los datos del ejemplo esta dado en la siguiente figura.
• Sólo los modelos de regresión múltiple con dos variables independientes
pueden ser graficados.

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• El método de mínimos cuadrados es utilizado para estimar los
parámetros en el modelo de regresión lineal múltiple

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• Suponga que se tienen n >k observaciones.
• Se asume que E(ε) =0 y V(ε) =σ2 y que los errores son no
correlacionados.
• El método de mínimos cuadrados minimiza la suma de cuadrados

• con respecto a cada uno de los parámetros del modelo β0 β1 …..βk


Ing. William león Velásquez
METODO DELOSMÍNIMOS CUADRADOS
• Luego las ecuaciones normales son:

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• En esta notación el modelo se expresa como

Y= X β + ε
• con

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS

Y= X β + ε
• donde
• Y es el vector de observaciones
• X es una matriz de n x p niveles de la variable regresora
• β es un vector p x 1 de coeficientes de regresión
• ε es el vector aleatorio error de orden p x 1 .
• Es importante recordar que p=k+1 ecuaciones. Para obtener la
solución es conveniente utilizar notación matricial.
Ing. William león Velásquez
METODO DELOSMÍNIMOS CUADRADOS

• La suma de cuadrados del error es dada por

• y de manera análoga a la presentada en la notación matricial para


regresión simple se obtiene que las ecuaciones normales son

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• la cual es similar a las obtenidas anteriormente

• Para solucionar las ecuaciones normales se requiere que exista la


inversa de la matriz . Esta existe siempre que las variables regresoras
sean linealmente independientes. Así, la solución de mínimos
cuadrados de vector parámetrico β es

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• para los datos del ejemplo tratado el vector Y y la matriz X son
respectivamente

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• La matriz X´X es

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• Y el vector X´Y es

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• El estimador de mínimos cuadrados de β es

Ing. William león Velásquez


METODO DELOSMÍNIMOS CUADRADOS
• Luego el modelo ajustado por mínimos cuadrados es

Ing. William león Velásquez


SELECCIÓN DE LAS VARIABLES DE REGRESIÓN

El control sobre las variables utilizadas para construir el modelo de


regresión recae sobre el propio analista

Es el analista quien decide qué variables independientes desea incluir en la


ecuación de regresión seleccionándolas él mismo de la lista de variables
independientes que tiene

v. independiente 1 v.
independiente 2 v.
independiente 3 ….. ecuación de
analista
regresión
SELECCIÓN DE LAS VARIABLES DE REGRESIÓN

 No existe una teoría o un trabajo previo que oriente


Son frecuentes situaciones al analista en la elección de las variables relevantes
en las que…
 El número de variables independientes es muy
elevado
Para afrontar estas situaciones existen procedimientos diseñados
para seleccionar, entre una gran cantidad de variables, sólo
aquellas que permiten obtener el mejor ajuste posible
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

Las variables se incorporan al modelo de regresión una a una


2 Método hacia atrás

PRIMER PASO: se selecciona la variable independiente que, además de superar


3 Pasos sucesivoslos criterios de entrada, más alto correlaciona (positiva o negativamente) con la
dependiente
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

SIGUIENTES PASOS: se utiliza como criterio de selección el coeficiente de


2 Método hacia atrás
correlación parcial.
Van siendo seleccionadas una a una las variables que poseen el coeficiente de
correlación parcial más alto en valor absoluto
3 Pasos sucesivos

La selección de variables se detiene cuando no quedan variables que superen el


criterio de entrada
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

2 Método hacia atrás

Comienza incluyendo en el modelo todas las variables independientes, para


luego proceder a eliminarlas una a una
3 Pasos sucesivos

PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios
de salida, posee el coeficiente de regresión más bajo en valor absoluto
MÉTODOS DE SELECCIÓN DE VARIABLES

Los métodos de selección más utilizados son:

1 Método hacia delante

2 Método hacia atrás

SIGUIENTES PASOS: Se van eliminando las variables con coeficientes de


regresión no significativos
3 Pasos sucesivos

La eliminación de variables se detiene cuando no quedan variables en el modelo


que cumplan los criterios de salida
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

2 Método hacia atrás

3 Pasos sucesivos

Mezcla de los dos métodos anteriores


MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

2 Método hacia atrás

3 Pasos sucesivos
Comienza al igual que el método hacia delante, seleccionando en el primer paso la
variable independiente que además de superar los criterios de entrada más altos
correlaciona con la variable dependiente
MÉTODOS DE SELECCIÓN DE VARIABLES
Los métodos de selección más utilizados son:

1 Método hacia delante

2 Método hacia atrás

3 Pasos sucesivos

A continuación se selecciona la variable independiente


EJEMPLO 1 Enunciado
• El director de recursos humanos de Ventas
S.A. está entrevistando y seleccionando
nuevos vendedores.
• El ha diseñado una prueba que le ayudará a
realizar la mejor selección posible para la
fuerza de ventas.
• Con el fin de probar la validez de la prueba
para predecir las ventas semanales, él eligió
vendedores experimentados y aplicó la prueba
a cada uno. La calificación de cada vendedor
fue entonces pareada con sus ventas
semanales.

Ing. William león Velásquez


EJEMPLO 1 Tabla de datos

Calificaciones y ventas semanales de 5 vendedores de Ventas


S.A.
Ventas Calificación
Vendedor Calificación
semanales archivada
Luis 4 5,000 2
Rufino 7 12,000 5
Frida 3 4,000 1
Diego 6 8,000 4
José 10 11,000 6
Ing. William león Velásquez
EJEMPLO 1. Análisis de regresión múltiple

• La ecuación de regresión simple que tiene una sola variable independiente


tiene la forma general de y' = a + bx.
• En el caso de la regresión múltiple la ecuación tiene varias variables
independientes:

y' = a + b1x1 + b2x2 + ... + bkxk


donde:
X1, X2, ... Xk son las variables independientes.
a es el punto donde la línea de regresión cruza el eje de las Y.
b1, b2, ... bk son los coeficientes de regresión.
Ing. William león Velásquez
EJEMPLO 1. Análisis de regresión múltiple

• Para encontrar las valores de los


coeficientes de la ecuación de
regresión ( a, b1, b2, ... bk ) se utiliza el
método de mínimos cuadrados que
consiste en resolver el siguiente
sistema de ecuaciones simultaneas.

Ing. William león Velásquez


EJEMPLO 1. Análisis de regresión múltiple

Σy = an + b1Σx1 + b2Σx2 + ... + bkΣxk


Σx1y = aΣx1 + b1Σx1x1 + b2Σx1x2 + ... + bkΣx1xk
Σx2x = aΣx2 + b1Σx2x1 + b2Σx2x2 + ... + bkΣx2xk
... ... ... ...
Σxky = aΣxk + b1Σxkx1 + b2Σxk x2 + ... + bkΣxkxk

Ing. William león Velásquez


EJEMPLO 1. Análisis de regresión múltiple

• Las ventas semanales se representan con y,


• La calificación de la prueba con x1, y
• Las calificaciones archivadas con x2.

• Con estos datos completamos la siguiente tabla:

Ing. William león Velásquez


EJEMPLO 1. Análisis de regresión múltiple

Calificaciones y ventas semanales de 5 vendedores de Ventas


S.A.
Vendedor Y X1 X2 X12 X22 X1Y X2Y X1X2
Luis 5 4 2 16 4 20 10 8
Rufino 12 7 5 49 25 84 60 35
Frida 4 3 1 9 1 12 4 3
Diego 8 6 4 36 16 48 32 24
José 11 10 6 100 36 110 66 60
Σ 40 30 18 210 82 274 172 130
Ing. William león Velásquez
EJEMPLO 1. Análisis de regresión múltiple

• Después de sustituir estas sumatorias en las fórmulas de las


ecuaciones, el sistema de ecuaciones de la siguiente forma:

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión

• En base al sistema de ecuaciones, se procede a resolverlo con el


método de nuestra preferencia. En este caso vamos a utilizar el
método de Gauss-Jordan

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión
• El método de Gauss-Jordan consiste en convertir la matriz
de coeficientes en una matriz identidad, donde todos los
elementos son nulos salvo los de la diagonal principal que
son 1.

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión

• En la columna de los términos independientes quedarán los


valores de los coeficientes de la ecuación de regresión.

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión

• 1. Expresamos el sistema de ecuaciones como una matriz


aumentada:

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión
2. Para convertir el elemento (1,1) en 1, se divide el primer renglón
entre 5.
• Para convertir el elemento (2,1) en cero, se multiplica el renglón 1
por (-30) y se suma al renglón 2.
• Para convertir el elemento (3,1) en cero, se multiplica el renglón 1
por (-18) y se suma al renglón 3.

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión
3. Para convertir el elemento (2,2) en 1, se divide el segundo renglón
entre 30.
• Para convertir el elemento (1,2) en cero, se multiplica el renglón 2
por (-6) y se suma al renglón 1.
• Para convertir el elemento (3,2) en cero, se multiplica el renglón 2
por (-22) y se suma al renglón 3.

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión
4. Para convertir el elemento (3,3) en 1, se divide el tercer
renglón entre 32/30.
• Para convertir el elemento (1,3) en cero, se multiplica el
renglón 3 por (4/5) y se suma al renglón 1.
• Para convertir el elemento (2,3) en cero, se multiplica el
renglón 3 por (-22/30) y se suma al renglón 2.

Ing. William león Velásquez


EJEMPLO 1. Estimación de los coeficientes de
regresión
• Los valores que están en la columna de la derecha
corresponden a los valores de los coeficientes de la ecuación de
regresión, de tal forma que:
• a = 560/160 = 3.5
• b1 = -936/960 = -.975
• b2 = 92/32 = 2.875

• La ecuación de regresión queda:
• y' = 3.5 - .975x1 + 2.875x2
Ing. William león Velásquez
Análisis de correlación múltiple

• Los mismos tres coeficientes utilizados en el análisis de correlación


simple para describir la relación entre la variable dependiente una
variable independiente son usados en el análisis de correlación
múltiple.

Estos coeficientes son


• el coeficiente de correlación múltiple,
• el coeficiente de determinación múltiple, y
• el coeficiente de no determinación múltiple
Ing. William león Velásquez
Análisis de correlación múltiple

• El coeficiente de correlación múltiple es una medida de la fuerza


de la asociación entre la variable dependiente y dos o mas
variables independientes.
• El coeficiente de correlación múltiple solo puede tener valores
entre 0 y + 1.00 inclusive y se representa con la letra R.
• Un coeficiente cercano a + 1.00 indica una muy fuerte correlación
entre la variable dependiente y las variables independientes.
• Un coeficiente cercano a 0 revela una débil correlación.
Ing. William león Velásquez
Análisis de correlación múltiple

• El coeficiente de correlación múltiple se calcula de la siguiente


manera:

Ing. William león Velásquez


Análisis de correlación múltiple

• Es la proporción de la variación total en la variable dependiente ( Y )


que es explicada por la serie de variables independientes.

• El coeficiente de determinación múltiple es una medida mas


significativa y precisa para medir la asociación la variable dependiente
y la s variables independientes.

• Se simboliza con R². Lógicamente, el coeficiente de no determinación


múltiple mide la proporción de la variación en la variable dependiente
que no es explicada por las variables independientes.

Ing. William león Velásquez


EJEMPLO 1. Análisis de correlación múltiple
• En el ejemplo de los cinco vendedores de Ventas S.A. para calcular el
coeficiente de correlación múltiple utilizamos la siguiente tabla:

y' = 3.5 - .975X1 + 2.875X2


Vendedor y x1 x2 y' y - y' ( y - y’ )2 y- ( y - )2
José Luis 5 4 2 5.35 -.35 .1225 -3 9
Rufino 12 7 5 11.05 .95 .9025 4 16
Frida 4 3 1 3.45 .55 .3025 -4 16
Diego 8 6 4 9.15 -1.15 1.3225 0 0
José Clemente 11 10 6 11 0 0 3 9
Σ 2.65 50
Ing. William león Velásquez
EJEMPLO 1. Coeficiente de determinación
múltiple.

• Se calculan los coeficientes de correlación y determinación múltiple.

Ing. William león Velásquez


EJEMPLO 1. INTERPRETACIÓN

• Podemos concluir que hay una fuerte correlación entre las


ventas y las dos variables independientes, las calificaciones de
la prueba y las calificaciones archivadas.

• Un 94.7% de la variación de las ventas semanales se explican


por la variación de las calificaciones de la prueba y la variación
de las calificaciones archivadas.

Ing. William león Velásquez


PRUEBAS DE SIGNIFICANCIA E INTERVALOS DE
CONFIANZA PARA LOS COEFICIENTES DE REGRESIÓN

• Se puede obtener intervalos de confianza y prueba de hipótesis para


cada uno de los coeficientes de regresión como se hizo en la regresión
simple.
• Los errores estándar de los estadísticos muestrales tienen fórmulas más
complicadas, por lo general se dejará a un programa de software para
que realice los cálculos respectivos

Ing. William león Velásquez


PRUEBAS DE SIGNIFICANCIA E INTERVALOS DE
CONFIANZA PARA LOS COEFICIENTES DE REGRESIÓN
• Prueba de hipótesis para :

• Para probar la hipótesis se usa el test t:


H0 :  j  0
H1 :  j  0
bj
t ~ t (n  p  1)
EE(b j )
• Donde EE(bj) es el error estándar de bj

Ing. William león Velásquez


PRUEBAS DE SIGNIFICANCIA E INTERVALOS DE
CONFIANZA PARA LOS COEFICIENTES DE
REGRESIÓN

• EE(bj) es el error estándar de bj

Notas:
• Se va a dejar al software el cálculo del error estándar de bj
• Se tendrá entonces una prueba de hipótesis asociado a cada
variable explicatoria en el modelo.
• Se puede realizar hipótesis de una cola, donde H1: βj < 0 o H1:
βj >0 , pero lo usual es hacer una prueba bilateral.
Ing. William león Velásquez
INTERVALO DE CONFIANZA PARA βj

• Un intervalo de confianza ( 1 - α)*100% para βj está dado por:


bj  t  (n  p  1) EE (b j )
1
2

• Donde t1  es el percentil apropiado de la distribución t con (n-p-1) grados


2
de libertad, EE(bj) es el error estándar de bj

Ing. William león Velásquez


TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE
• La tabla de análisis de varianza para la regresión múltiple es la
siguiente:

gl SC CM
Fuente de variación Grados de libertad Suma de Cuadrados Medios
Cuadrados

Modelo p SCMod   ( yˆ  y ) 2 SCM od


p

n-p-1 SC Re s   ( y i  yˆ i ) 2 SC Re s
Residuo i 1 n  p 1
n

n-1 SCT   y  y
2
i
Total i 1

Ing. William león Velásquez


TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE

• La tabla ANOVA es similar a la de regresión simple.


• Los grados de libertad del modelo son ahora p en vez de 1, lo que refleja que
ahora tenemos p variables explicatorias en vez de sólo una.
• Las sumas de cuadrados representan las fuentes de variación.
• Recuerde que la suma de cuadrados total es igual a la suma de los cuadrados
del modelo de regresión más la suma de los cuadrados del residuo:
SCT = SCMod + SCRes

Ing. William león Velásquez


Tabla de ANOVA para regresión múltiple

• El estimador de la varianza σ2 de nuestro modelo está dado por la


media cuadrática residual
𝑆𝐶𝑅𝑒𝑠
𝑀𝐶𝑅𝑒𝑠 =
(𝑛 − 𝑝 − 1)

Ing. William león Velásquez


Tabla de ANOVA para regresión múltiple

Estadístico F
• La razón entre el cuadrado medio del modelo y el residuo
𝑀𝐶𝑀𝑜𝑑
𝐹=
𝑀𝐶𝑅𝑒𝑠
permite estimar si la relación entre las variables explicatorias y la respuesta
es significativa.
• La hipótesis que prueba el test F es:
H 0 : 1   2     p  0
H 1 : al menos un  j no es cero
Ing. William león Velásquez
TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE
• La hipótesis nula dice que ninguna de las variables explicatorias son
predictores de la variable respuesta.
• La hipótesis alternativa dice que al menos una de las variables
explicatorias está linealmente relacionada con la respuesta.
• Como en regresión simple, valores grandes de F nos dan evidencia en
contra de hipótesis nula.
• Cuando H0 es verdadera, el estadístico F tiene distribución F de Fisher
con (p, n-p-1) grados de libertad.
• Los grados de libertad están asociados a los grados de libertad del
modelo y del residuo en la tabla ANOVA.

Ing. William león Velásquez


TABLA DE ANOVA PARA REGRESIÓN
MÚLTIPLE

• Recuerde que en regresión lineal simple la prueba F de la


tabla ANOVA es equivalente a la prueba bilateral para la
hipótesis de que la pendiente es cero.
• Ahora, la prueba F de regresión múltiple prueba la
hipótesis de que todos los coeficientes de regresión (con
excepción del intercepto) son cero, hipótesis que no es
de mucho interés.
• En el problema de regresión múltiple interesan más las
hipótesis individuales para cada parámetro asociado a cada
variable explicitaría.
Ing. William león Velásquez
COEFICIENTE DE DETERMINACIÓN (R2)

• En regresión lineal simple se vio que el cuadrado del coeficiente


SCReg
de correlación era r 2

SCTotal
• y se podía interpretar como la proporción de la variabilidad de y
que podía ser explicada por x.
• Un coeficiente similar se calcula en regresión múltiple:
R 2

SCM od

 ( yˆ  y ) 2

y  y
2
SCTotal i
Ing. William león Velásquez
COEFICIENTE DE DETERMINACIÓN (R2)

R 2

SCM od

 ( yˆ  y ) 2

y  y
2
SCTotal i

• Donde R2 es la proporción de la variabilidad de la variable respuesta y


que es explicada por las variables explicatorias en la regresión lineal
múltiple.
• A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raíz
cuadrada de R2 es el coeficiente de correlación múltiple, es la correlación
entre las observaciones yi y los valores predichos ŷ.
i

Ing. William león Velásquez


COEFICIENTE DE DETERMINACIÓN (R2)
AJUSTADO

• Cuando se evalúa un modelo de regresión lineal múltiple nos interesa decidir


si una variable dada mejora la capacidad para predecir la respuesta
comparando el R2 de un modelo que contiene la variable, con el R2 del
modelo sin la variable.
• El modelo con mejor R2 debería ser el mejor modelo.
• Pero se debe ser cuidadoso cuando se compara los coeficientes de
determinación de dos modelos diferentes.
• La inclusión de una variable adicional en el modelo nunca provoca la
reducción de R2.
Ing. William león Velásquez
COEFICIENTE DE DETERMINACIÓN (R2)
AJUSTADO

• Para manejar este problema, se puede utilizar el R2 ajustado, que ajusta


por el número de variables que hay en el modelo.
• El R2 ajustado es:

n 1
R  12
a
n  ( p  1)
1 R 2
 

Ing. William león Velásquez


COMO SE INTERPRETA LOS RESULTADOS
• Como parte de un estudio para investigar la relación entre la tensión
nerviosa (estrés) y otras variables (tamaño de la
• empresa, número de años en la posición actual, salario anual en miles de
dólares, edad en años),
• se reunieron los siguientes
datos a partir de una muestra
aleatoria simple de quince
ejecutivos de una empresa.

Ing. William león Velásquez


COMO SE INTERPRETA LOS RESULTADOS

a) Escriba la recta de regresión múltiple estimada a partir de estos datos.


Interprete los coeficientes de regresión.
b) ¿Cuál es el valor del coeficiente de determinación que usaría para describir la
bondad de ajuste del modelo? Interprételo en términos del problema de
regresión
c) Examine los tests t de los coeficientes de regresión. ¿Le parece que es este un
modelo adecuado para describir el estrés o propone otro?
d) Qué supuestos se deben cumplir para la utilización de este modelo.
e) Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere esta
medida de variabilidad?
Ing William León Velásquez 75
COMO SE INTERPRETA LOS RESULTADOS

• Solución 1 (a):
• La recta de regresión es:
• Estrés= −126,505+0,176Tamaño−1,563Años+1,575Salario+1,629Edad
• Interpretación de los coeficientes de regresión:
• Intercepto=-126,505 Si el tamaño de la empresa, el número de años, el salario y la
edad fueran cero, es decir, si todas las variables explicativas fueran cero, el puntaje
de estrés del ejecutivo sería menos 126,505
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS

• Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la empresa, el estrés del
ejecutivo aumenta en 0,176 unidades.
• Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo disminuye en 1,563
puntos.
• Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés del ejecutivo
aumenta en 1,575 puntos.
• Pendiente de
Ing. William leónla edad: por cada año de edad, el estrés del ejecutivo aumenta en 1,629 puntos.
Velásquez
COMO SE INTERPRETA LOS RESULTADOS

• Solución 1 (b):
• El coeficiente de determinación que se usa en regresión lineal múltiple es el
R2 ajustado, que en este caso es de 0,779.
• Este coeficiente nos indica que las variables usadas en el modelo explican en
un 77,9% la variabilidad total del estrés.
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS

• Solución 1 (c):
• Los test t de los coeficientes de regresión sirven para probar la hipótesis:
• Ho:βj = 0
• H1: βj ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4).
Ing. William león Velásquez
COMO SE INTERPRETA LOS RESULTADOS

• Al examinar los valores p correspondientes a cada uno de los tests nos damos cuenta que
casi todas las pendientes son significativas (distintas de cero), salvo la de la variable Años
en posición actual, cuyo valor p es 0,455, por lo tanto aceptamos la hipótesis nula, y
concluimos que la pendiente es igual a cero.
• Por lo tanto este no sería un modelo adecuado para describir el estrés de los ejecutivos,
deberíamos ajustar otro modelo sin la variable "Años en posición actual".

Ing. William león Velásquez


COMO SE INTERPRETA LOS RESULTADOS

• Solución 1 (d):
• Los supuestos que debe cumplir el modelo son:
1) Linealidad: La relación entre la variable respuesta y las explicativas debe ser
lineal
2) Nocolinealidad: las variables explicativas no deben estar correlacionadas entre

3) Normalidad de los residuos
4) Homocedasticidad de los residuos (varianza constante).

Ing. William león Velásquez


COMO SE INTERPRETA LOS RESULTADOS

• Solución 1 (e):
• El estimador de la desviación estándar poblacional es 24,031 o la raíz de la media cuadrática
residual: raíz de 577,493= 24,03
• Este es un estimador de la variabilidad del estrés considerando las variables explicativas del
modelo, y lo podemos contrastar con el estimador de la variabilidad del estrés de 51,164 que es la
desviación estándar del estrés sin tomar en cuenta estas variables.

Ing. William león Velásquez


COMO SE INTERPRETA LOS RESULTADOS

• Este es un estimador de la variabilidad del estrés considerando las


variables explicativas del modelo, y lo podemos contrastar con el estimador
de la variabilidad del estrés de 51,164 que es la desviación estándar del
estrés sin tomar en cuenta estas variables.

Ing. William león Velásquez


EJEMPLO 2:

El propietario de la cadena de cines CINE


PLANET desea estimar el ingreso
semanal neto en función de los gastos
de publicidad.

Los datos históricos de una muestra de 8


semanas son los siguientes:

Ing. William león Velásquez


EJEMPLO 2:

Ingresos Brutos semanales Anuncios en TV Anuncios en periódicos


(en miles de dólares) (en miles de dólares) (en miles de dólares)

96 5.0 1.5

90 2.0 2.0

95 4.0 1.5

92 2.5 2.5

95 3.0 3.3

94 3.5 2.3

94 2.5 4.2

94
Ing. William león Velásquez 3.0 2.5
EJEMPLO 2:
Planteando matricialmente los datos

1 5.0 1.5
96
90 1 2.0 2.0
 
95
b 0  1 4.0 1.5
  
  b 
X 1 2.5 2.5
92
y
95
 
1
 1 3.0 3.3
94
94

b 2

 3 x1 1 3.5 2.3
  1 2.5 4.2

94
 8 x1
1 3.0 2.5

Ing. William león Velásquez


8x3
EJEMPLO 2:
Determinando la ecuación de regresión
•El modelo es: ˆ b bx b x
y 0 1 1 2 2
 Entonces primero resolvemos las matrices para encontrar los parámetros:

  ( X X ) X y
 1

5,9989 -1,0389 -1,0353


750  83.2301  b0 
  -1,0389 0,2239 0,1313 2401  2.2902  b 
   1

-1,0353 0,1313 0,2491   
1856  1.3010  b2 

( X X ) 1
X y
Ing. William león Velásquez
EJEMPLO 2:
Finalmente la ecuación es:
ˆ  83.2301  2.2902 X 1  1.3010 X 2
y

Coefi cientesa

Coef icientes
Coef icientes no est andarizad Interv alo de conf ianza para
est andarizados os B al 95%
Lí mite
Modelo B Error t íp. Beta t Sig. Lí mite inf erior superior
1 (Constante) 83. 230 1. 574 52. 882 .000 79. 184 87. 276
Anunc ios en TV (en
2. 290 .304 1. 153 7. 532 .001 1. 509 3. 072
miles de dólares)
Anunc ios en periódicos
1. 301 .321 .621 4. 057 .010 .477 2. 125
(en miles de dólares)
a. Variable dependiente: Ingres os Brutos semanales (en miles de dólares)

Ing. William león Velásquez


EJEMPLO 2:
INTERPRETACIÓN

• Interpretemos los parámetros estimados de las variables


independientes:
• Para b1: Cuando los gastos de anunciar en televisión varían una
unidad y los gastos de anunciar en periódicos se mantienen
constantes, los ingresos brutos semanales se incrementarán en
2.2902 miles de dólares.
• Para b2: Cuando los gastos de anunciar en televisión se mantienen
constantes y los gastos de anunciar en periódicos varían una unidad,
los ingresos brutos semanales se incrementarán en 1.3010 miles de
dólares

Ing. William león Velásquez


EJEMPLO 2:
Hallando el error estándar de estimación
•Para lo cual usaremos la fórmula abreviada para dos variables
independientes la cual se deriva de la forma general presentada en
las fórmulas a utilizar. La fórmula es la siguiente:

S y. X X 
 y b  y b X y b X y
2
0 1 1 2 2
1 2
n3

Ing. William león Velásquez


EJEMPLO 2:
Hallando el error estándar de estimación
Reemplazando los valores previamente encontrados y tomando el
denominador al valor 3 por ser el número de parámetros q
intervienen en la ecuación:
Resumen del modelo

R c uadrado Error t íp. de la


Modelo R R c uadrado corregida est imac ión
1 .959 a .919 .887 .64259
S y. X X
1 2
 0.64
a. Variables predict oras: (Cons tant e), Anuncios en periódicos
(en m iles de dólares), Anuncios en TV (en miles de dólares)

Interpretación: La distancia promedio de los valores observados


alrededor de la ecuación de regresión es de 0.64. Es decir la
dispersión de los valores observados es 0.64.
Ing. William león Velásquez
EJEMPLO 2:
Hallando el Coeficiente de Determinación
• Elevamos al cuadrado el coeficiente de correlación y encontraremos el
coeficiente de determinación:
Resumen del modelo

Modelo R R c uadrado
R c uadrado
corregida
Error t íp. de la
est imac ión
r  0.959
1 .959a .919 .887 .64259
a. Variables predict oras: (Cons tant
r  0.959
e), Anuncios en periódicos
r 2  0.919
(en m iles de dólares), Anuncios en TV (en miles de dólares)
r 2  0.919
Interpretación: Aproximadamente el 91.9% de los cambios
producidos en los ingresos brutos semanales son explicados por los
cambios producidos en los gastos de publicidad (en televisión y
periódicos)
Ing. William león Velásquez
EJEMPLO 2:
COEFICIENTE DE DETERMINACION CORREGIDO

SCE
R2Y.12...p= ----------- Coeficiente de
SCTO Determinación
Múltiple
R2Corr.= 1- ((1- R2Y.12.. k ) ---------- n-1
n-k-1

Representa la porción de la
Necesario cuando se variación en Y que se puede
comparan 2 o + modelos de explicar por Xi
regresión que predicen Y, pero
con diferente Nº de Xi

Ing. William león Velásquez


EJEMPLO 2:
MATRIZ DE CORRELACION
Co r relaci on es

Ingres os
Brut os Anunc ios en
sem anales Anunc ios en periódicos
(en m iles de TV (en m iles (en m iles de
dólares) de dólares) dólares)
Correlac ión de Pears on Ingres os Brutos
sem anales (en 1. 000 .808 -. 021
m iles de dólares)
Anunc ios en TV (en
.808 1. 000 -. 556
m iles de dólares)
Anunc ios en periódicos
-. 021 -. 556 1. 000
(en m iles de dólares)
Sig. (unilat eral) Ingres os Brutos
sem anales (en . .008 .481
m iles de dólares)
Anunc ios en TV (en
.008 . .076
m iles de dólares)
Anunc ios en periódicos
.481 .076 .
(en m iles de dólares)
N Ingres os Brutos
sem anales (en 8 8 8
m iles de dólares)
Anunc ios en TV (en
8 8 8
m iles de dólares)
Anunc ios en periódicos
8 8 8
(en m iles de dólares)
Ing. William león Velásquez
EJEMPLO 2: ANOVA
H 0 : 1   2   3  ...   k  0
H1 : Por lo menos un i  0
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrát ica F Sig.
1 Regresión 23. 435 2 11. 718 28. 378 .002a
Res idual 2. 065 5 .413
Tot al 25. 500 7
a. Variables predict oras : (Const ante), Anuncios en periódicos (en miles de dólares),
Anunc ios en TV (en m iles de dólares)
b. Variable dependiente: Ingresos Brut os s emanales (en miles de dólares)

En este caso p = 0.002 < 0.05, por lo que se rechaza Ho, lo que
ratifica la relación entre las variables.
Ing. William león Velásquez
EJEMPLO 3

La Facultad de una Universidad quiere


entender los factores de aprendizaje
de los alumnos que cursan la
asignatura de Gestión de Proyectos,
para lo cual se escoge al azar una
muestra de 7 alumnos y ellos registran
notas promedios en las asignaturas de
Contabilidad Básica, Doctrina Contable
y Macroeconomía como se muestran
en el siguiente cuadro.

Ing. William león Velásquez


EJEMPLO 3
Determinar la dependencia que exista de aprendizaje reflejada en las notas de la
asignatura de Gestión de Proyectos, conociendo las notas de las asignaturas
Contabilidad Básica, Doctrina Contable II y Macroeconomía, con un nivel de
significancia del 5%

Gestión de Contabilidad Doctrina


Alumno Macroeconomía
Proyectos Básica Contable
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12
Ing. William león Velásquez
13 15 11
EJEMPLO 3

Calculamos los coeficientes de regresión utilizando las


fórmulas de las ecuaciones o mediante un programa

Coeficientesa

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.140 2.529 1.241 .303
Contabilidad Basica .054 .309 .088 .175 .872
Doctrina Cont able .189 .189 .248 .999 .391
Macroeconom ia .501 .390 .739 1.284 .289
a. Variable dependient e: Metodos Cuantitativ os

Ing. William león Velásquez


EJEMPLO 3

Por lo tanto podemos construir la ecuación de regresión que


buscamos:

Ŷ = 3.140 + 0.054 X1 + 0.189 X2 + 0.501 X3

En el análisis de regresión múltiple la constante es el valor


de la ecuación de regresión de la variable dependiente Y
dado que todas las variables independientes sean iguales a
cero.

Ing. William león Velásquez


EJEMPLO 3
En los resultados del programas se llama error típico y para explicar
la relación del aprendizaje de Métodos Cuantitativos que se viene
desarrollando es de 0.529

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .967a .935 .869 .529
a. Variables predictoras: (Constante), Macroeconomia,
Doctrina Contable, Contabilidad Basica

Ing. William león Velásquez


EJEMPLO 3

Calculando el coeficiente de Determinación en el


ejercicio (con variable independiente).
𝑆𝐶𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛
2
𝑟 =
𝑆𝐶𝑇𝑜𝑡𝑎𝑙

12.018 = 0.934
12.857

r = ……; Interprete
Ing. William león Velásquez
EJEMPLO 3
Trabajando con el ejemplo del curso de Gestión de
Proyectos, veremos que aplicando SPSS, nos saldría como
resultado:

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 12.018 3 4.006 14.314 .028a
Residual .840 3 .280
Total 12.857 6
a. Variables predictoras: (Constante), Macroeconomia, Doctrina Contable,
Contabilidad Basica
b. Variable dependient e: Metodos Cuantitativ os

¿A que conclusión podemos llegar al 3% de error?


Ing. William león Velásquez
FIN
wjleonv@yahoo.com
ANALISIS DE REGRESIÓN
MULTIPLE II
Ing. William León Velásquez
wjleonv@yahoo.com
VARIANZA RESIDUAL

• Al igual que en el caso de regresión lineal simple, se va a descomponer la variabilidad de


la variable dependiente Y en dos componentes o fuentes de variabilidad:
• Un componente va a representar la variabilidad explicada por el modelo de regresión y
• Un componente va a representar la variabilidad no explicada por el modelo y, por tanto,
atribuida a factores aleatorios.

Ing William León Velásquez 2


VARIANZA RESIDUAL
• Se va ha considerar la variabilidad de la variable dependiente como:

• Es decir, la variabilidad de Y es la suma cuadrática de los valores que toma la


variable respecto a la media de la variable.

Ing William León Velásquez 3


VARIANZA RESIDUAL
• Sumando y restando el valor pronosticado por el modelo de regresión se obtiene la
siguiente expresión:

• Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede


descomponer en términos de la varianza residual.
• De esta expresión se deduce que “la distancia de Y a su media se descompone como
la distancia de Y a su estimación más la distancia de su estimación a la media”.

Ing William León Velásquez 4


VARIANZA RESIDUAL
• Teniendo en cuenta que el último término representa la varianza no
explicada, se tiene:
VT=VE + VNE
• Gráficamente es fácil ver la relación:

Ing William León Velásquez 5


VARIANZA RESIDUAL

• Dividiendo la variabilidad total entre sus grados de libertad


obtenemos la varianza de la variable dependiente Y :

Ing William León Velásquez 6


VARIANZA RESIDUAL

• Dividiendo la variabilidad no explicada entre sus grados de libertad


obtenemos la varianza residual de la variable dependiente Y :

Ing William León Velásquez 7


VARIANZA RESIDUAL

• Tabla resumen

Ing William León Velásquez 8


CONTRASTE DE REGRESIÓN

• Como se esta cando conclusiones de una muestra de un conjunto mucho más


amplio de datos, a veces este conjunto será infinito, es obvio que distintas
muestras van a dar distintos valores de los parámetros.
• Un caso de especial interés es asignar una medida de probabilidad a la siguiente
afirmación o hipótesis:
H0: b1=b2=b3=………………….bk=0
• La afirmación contraria sería:
H1: ∃𝑏𝑗 ≠ 0

Ing William León Velásquez 9


CONTRASTE DE REGRESIÓN

• La hipótesis nula es que todos los coeficientes menos b0 son nulos y la


hipótesis alternativa o complementaria es que existe al menos uno que es
distinto de 0, puede haber varios que sean nulos, pero al menos existe uno
distinto de cero.

• Se denomina contraste de regresión al estudio de la posibilidad de que el


modelo de regresión sea nulo, es decir, los valores de las variables
explicativas X no van a influir en la variable dependiente.

Ing William León Velásquez 10


CONTRASTE DE REGRESIÓN
Construcción del contraste
• Si los residuos siguen una distribución normal y b1=b2=….bk=0, tenemos que:

Ing William León Velásquez 11


CONTRASTE
• Por tanto:
DE REGRESIÓN

• Es decir, el cociente entre la varianza explicada y la varianza no explicada será


aproximadamente 1.
• Además, al seguir una distribución F, podemos asignar una medida de
probabilidad (p-value) a la hipótesis de que la varianza explicada es igual a la
varianza no explicada.
• En caso contrario la varianza no explicada será muy inferior a la varianza
explicada y, por lo tanto, este cociente tendrá un valor muy superior a 1.
Ing William León Velásquez 12
CONTRASTE DE REGRESIÓN

• En general si el p-value es menor de 0.05 se acepta que el modelo de regresión


es significativo; en caso contrario no podemos hablar de regresión, pues el
modelo sería nulo.

• Si aceptamos que el modelo de regresión es significativo, es habitual mostrar el


p-value;

Ing William León Velásquez 13


Coeficiente de determinación R2

• Se construirá un coeficiente (estadístico) que mida la bondad del ajuste del


modelo. Si bien la varianza residual (𝑆𝑅 2 ) nos indica cómo están de cerca las
estimaciones respecto de los puntos, esta varianza está influida por la varianza de
la variable dependiente, la cual, a su vez, está influida por su unidad de medida.
• Por lo tanto, una medida adecuada es la proporción de la varianza explicada (VE)
entre la varianza total (VT); de este modo, definimos el coeficiente de
determinación R2:

Ing William León Velásquez 14


Coeficiente de determinación R2
• Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo.
• Si todos los puntos están sobre la recta de regresión, la varianza no explicada
será 0, y por lo tanto:

• Este coeficiente es muy importante pues determina qué porcentaje (en


tantos por uno) de la varianza de la variable dependiente es explicado por el
modelo de regresión.

Ing William León Velásquez 15


Coeficiente de determinación R2

• En general, se pueden clasificar los valores de R2 de la siguiente manera:


Muy bueno

• Además, a diferencia de la varianza residual, este coeficiente es adimensional;


esto quiere decir que no está afectado por transformaciones lineales de las
variables; por ello, si cambiamos las unidades de medida, el coeficiente de
determinación permanecerá invariante.

Ing William León Velásquez 16


Diagnostico y validación de un modelo de
regresión lineal múltiple

• Una de las hipótesis del modelo de regresión lineal múltiple establece que no
existe relación lineal exacta entre los regresores, o, en otras palabras, establece
que no existe multicolinealidad perfecta en el modelo.
• Esta hipótesis es necesaria para el cálculo del vector de estimadores mínimo
cuadráticos, ya que en caso contrario la matriz X'X será no singular

Ing William León Velásquez 17


Diagnostico y validación de un modelo de
regresión lineal múltiple

• La multicolinealidad perfecta no se suele presentar en la práctica, salvo que


se diseñe mal el modelo. En cambio, sí es frecuente que entre los regresores
exista una relación aproximadamente lineal, en cuyo caso los estimadores
que se obtengan serán en general poco precisos, aunque siguen conservando
la propiedad de lineales, insesgados y óptimos.
• En otras palabras, la relación entre regresores hace que sea difícil cuantificar
con precisión el efecto que cada regresor ejerce sobre el regresando, lo que
determina que las varianzas de los estimadores sean elevadas.

Ing William León Velásquez 18


Diagnostico y validación de un modelo de
regresión lineal múltiple

• Cuando se presenta una relación aproximadamente lineal entre los regresores,


se dice que existe multicolinealidad no perfecta.
• Es importante señalar que el problema de multicolinealidad, en mayor o menor
grado, se plantea porque no existe información suficiente para conseguir una
estimación precisa de los parámetros del modelo.
• El problema de la multicolinealidad hace referencia, en concreto, a la
existencia de relaciones aproximadamente lineales entre los regresores del
modelo, cuando los estimadores obtenidos y la precisión de éstos se ven
seriamente afectados.

Ing William León Velásquez 19


Diagnostico y validación de un modelo
de regresión lineal múltiple
Multicolinealidad
• Si las variables explicativas se pueden expresar como una combinación lineal:

• Se dice que tenemos un problema de multicolinealidad.

• En general, este problema va a afectar incrementando la varianza de los


estimadores.
Ing William León Velásquez 20
Diagnostico y validación de un modelo
de regresión lineal múltiple

• Este problema se detecta fácilmente:


• Solicitando el determinante de la matriz de varianzas-covarianzas, que
estará cercano a cero.
• Calculando el cociente entre el primer y último autovalor de la matriz de
varianzas-covarianzas que será mayor de 50.
• Calculando para cada variable el coeficiente de determinación (R2) de dicha
variable con el resto.

Ing William León Velásquez 21


Diagnostico y validación de un modelo
de regresión lineal múltiple
• La solución es eliminar del modelo aquellas variables explicativas que
dependen unas de otras.
• En general, los métodos de selección de variables solucionan
automáticamente este problema.
• Se muestra la salida de un determinado problema:

Ing William León Velásquez 22


Diagnostico y validación de un modelo
de regresión lineal múltiple

• En esta tabla se muestra el valor de los estimadores del hiperplano de regresión.


• La columna denominada tolerancia es:
1− R2
• Donde la variable correspondiente entra como variable dependiente y el resto de las variables
explicativas actúan como regresoras.
Ing William León Velásquez 23
Diagnostico y validación de un modelo
de regresión lineal múltiple

• A la vista de estos resultados, la variable estatura esta provocando


problemas de multicolinealidad.
• Es interesante observar que si bien el contraste de regresión es
significativo, ninguna de las variables explicativas lo es.

Ing William León Velásquez 24


Diagnostico y validación de un modelo de
regresión lineal múltiple

Análisis de residuos
• Definimos como residuo del i-esimo caso a:

• Los residuos son variables aleatorias que siguen (¿?) una distribución normal.
Los residuos tienen unidades de medida y, por tanto no se puede determinar
si es grande o pequeño a simple vista.

Ing William León Velásquez 25


Diagnostico y validación de un modelo de
regresión lineal múltiple
• Análisis de residuos
• Para solucionar este problema se define el residuo estandarizado como:
• Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en
valor absoluto.

Ing William León Velásquez 26


Diagnostico y validación de un modelo
de regresión lineal múltiple
• Análisis de residuos

• Para evitar la dependencia entre numerador y denominador de la expresión


anterior, también se utilizan los residuos estudentizados.

Ing William León Velásquez 27


Diagnostico y validación de un modelo
de regresión lineal múltiple
• Análisis de residuos

• El análisis descriptivo y el histograma de los residuos nos indicarán si existen


casos que no se adapten bien al modelo lineal.

Ing William León Velásquez 28


Diagnostico y validación de un modelo
de regresión lineal múltiple
• Análisis de residuos

• Se puede observar que hay un caso que tiene un residuo anormal, pues su
valorIngtipificado es 3.49.
William León Velásquez 29
Diagnostico y validación de un modelo
de regresión lineal múltiple

• Valores de influencia (leverage)

• Se considera que una observación es influyente a priori si su inclusión en el


análisis modifica sustancialmente el sentido del mismo.

Ing William León Velásquez 30


Diagnostico y validación de un modelo
de regresión lineal múltiple
• Valores de influencia (leverage)
• Una observación puede ser influyente si es un outlayer respecto a alguna de
las variables explicativas:

Ing William León Velásquez 31


Diagnostico y validación de un modelo
de regresión lineal múltiple
• Valores de influencia (leverage)
• Para detectar estos problemas se utiliza la medida de Leverage:

• Este estadístico mide la distancia de un punto a la media de la distribución.


• Valores cercanos a 2/n indican casos que pueden influir negativamente en la
estimación del modelo introduciendo un fuerte sesgo en el valor de los
estimadores.
Ing William León Velásquez 32
CONTRASTANDO LAS HIPÓTESIS
BÁSICAS
• Normalidad de los residuos.
• Para verificar esta hipótesis se suele utilizar el histograma de los residuos y en
caso necesario el test de Kolgomorov Smirnov.

Ing William León Velásquez 33


CONTRASTANDO LAS HIPÓTESIS
BÁSICAS
• Normalidad de los residuos.
• En este caso no se detecta falta de normalidad, el pvalue del test KS es de
0.852, por lo tanto se concluye que:

• No se encuentran diferencias estadísticamente significativas para rechazar


la hipótesis de normalidad.

Ing William León Velásquez 34


HOMOCEDASTICIDAD
• En estadísticas se dice que un modelo
predictivo presenta homocedasticidad
cuando la varianza del error de la variable
endógena se mantiene a lo largo de las
observaciones. En otras palabras, la varianza
de los errores es constante.
• Un modelo estadístico relaciona el valor de
una variable a predecir con el de otras. Si el
modelo es insesgado, el valor predicho es la
media de la variable a predecir. En cualquier
caso, el modelo da una idea del valor que
tomará la variable a prededir.
Ing William León Velásquez 35
HOMOCEDASTICIDAD
• La hipótesis de homocedasticidad establece que la variabilidad de los
residuos es independiente de las variables explicativas.
• En general, la variabilidad de los residuos estará en función de las variables
explicativas, pero como las variables explicativas están fuertemente
correlacionadas con la variable dependiente, bastara con examinar el
gráfico de valores pronosticados versus residuos al cuadrado.

Ing William León Velásquez 36


HOMOCEDASTICIDAD

• Este es un claro ejemplo de falta de homocedasticidad.


Ing William León Velásquez 37
HOMOCEDASTICIDAD
• Existe una familia de transformaciones denominada Box-CCOS que se
realizan sobre la variable dependiente encaminadas a conseguir
homocedasticidad. La transformación más habitual para conseguir
homocedasticidad es:

• En cualquier caso, es conveniente examinar detenidamente las


implicaciones de realizar este tipo de transformaciones, pues en muchas
ocasiones es peor el remedio que la enfermedad, ya que la variable
dependiente puede llegar a perder el sentido.

Ing William León Velásquez 38


Errores que deben de evitarse
• Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal
múltiple son los siguientes:
• No controlar el factor tamaño.
• Si hay un factor de ponderación, no tenerlo en cuenta.
• Al calcular los grados de libertad en los contrastes de hipótesis.
• No incluir una variable relevante en el modelo.
• Incluir una variable irrelevante.
• Especificar una relación lineal que no lo es.

Ing William León Velásquez 39


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Los procedimientos para seleccionar las variables regresoras son los
siguientes:
• Eliminación progresiva.
• Introducción progresiva.
• Regresión paso a paso (Stepwise Regression).
• Este último método es una combinación de los procedimientos anteriores.
Parte del modelo sin ninguna variable regresora y en cada etapa se introduce
la más significativa, pero en cada etapa examina si todas las variables
introducidas en el modelo deben de permanecer. Termina el algoritmo cuando
ninguna variable entra o sale del modelo.
Ing William León Velásquez 40
SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Ejemplo 1

Ing William León Velásquez 41


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Ejemplo 1

Ing William León Velásquez 42


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Ejemplo 1

Ing William León Velásquez 43


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Ejemplo 1

Ing William León Velásquez 44


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• Ejemplo 1

Ing William León Velásquez 45


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• El mismo análisis pero utilizando un algoritmo de selección de variables.

Ing William León Velásquez 46


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• El mismo análisis pero utilizando un algoritmo de selección de variables.

Ing William León Velásquez 47


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• El mismo análisis pero utilizando un algoritmo de selección de variables.

Ing William León Velásquez 48


SELECCIÓN DE LAS VARIABLES
REGRESORAS
• El mismo análisis pero utilizando un algoritmo de selección de variables.

Ing William León Velásquez 49


FIN
wjleonv@yahoo.com
MODELO DE REGRESION NO
LINEAL
Ing. William León Velásquez
wjleonv@yahoo.com
REGRESIÓN NO LINEAL
• En la practica ocurre que al representar gráficamente los datos de una distribución
bidimensional, se obtiene la figura 1c.

• Se observa una clara relación entre


las dos variables, pero claramente
no lineal.
• Por tanto, se deberá buscar la
función que ha de describir la
dependencia entre las dos
variables.

Ing. William león Velásquez 2


REGRESIÓN NO LINEAL

• Esta sesión se limitarán al estudio de las más utilizadas:


• La función parabólica,
• La función hiperbólica,
• La función logarítmica,
• La función exponencial y
• La función potencial.
Ing. William león Velásquez 3
PARÁBOLA DE REGRESIÓN

• En muchos casos, es una función de segundo grado la que se ajusta lo


suficiente a la situación real dada.

• La expresión general de un polinomio de


segundo grado es:

donde a , b y c son los parámetros.

Ing. William león Velásquez 4


PARÁBOLA DE REGRESIÓN
• El problema consiste, por tanto, en determinar dichos parámetros para
una distribución dada.
• Se sigue para ello, un razonamiento similar al que se hace en el caso del
modelo de regresión lineal simple, utilizando el procedimiento de ajuste
de los mínimos cuadrados, es decir, haciendo que la suma de los
cuadrados de las desviaciones con respecto a la curva de regresión sea
mínima:

Ing. William león Velásquez 5


PARÁBOLA DE REGRESIÓN

• Por tanto, D se puede escribir de la forma:

• Para encontrar los valores de a , b y c que hacen mínima la expresión anterior, se


igualarán las derivadas parciales de D con respecto a dichos parámetros a cero y
se resolverá el sistema resultante.

Ing. William león Velásquez 6


PARÁBOLA DE REGRESIÓN
• Las ecuaciones que forman dicho sistema se conocen, igual
que en el caso de la regresión lineal simple, como ecuaciones
normales de Gauss.

Ing. William león Velásquez 7


REGRESIÓN HIPERBÓLICA

• Cuando la dependencia entre las variables X e Y es de forma hiperbólica,


interesa ajustar a la nube de puntos una función del tipo:

• La función a minimizar será:

• Por tanto,

Ing. William león Velásquez 8


REGRESIÓN HIPERBÓLICA

• Para minimizar la expresión, se calculan las derivadas parciales respecto


a los parámetros a y b, igualando a cero:

Ing. William león Velásquez 9


REGRESIÓN HIPERBÓLICA
• En consecuencia, las ecuaciones normales serán:

Ing. William león Velásquez 10


FUNCIÓN EXPONENCIAL, POTENCIAL, Y
LOGARÍTMICA
• El problema de ajustar un modelo potencial, de la forma Y = A Xb y uno
exponencial Y = A BX se reduce al de la función lineal, con solo tomar
logaritmos.

Ing. William león Velásquez 11


MODELO POTENCIAL
• Si en la expresión de la función potencial se toman logaritmos, se
obtiene:
logY = log A + b log X
• que es la ecuación de una recta Y = a +b X , donde ahora a =log A .
• El problema se reduce a transformar
• Y en logY y X en log X y ajustar una recta a los valores transformados.
• El parámetro b del modelo potencial coincide con el coeficiente de
regresión de la recta ajustada a los datos transformados y A se obtiene
mediante antilog (a) .

Ing. William león Velásquez 12


MODELO EXPONENCIAL

• En determinados experimentos, en su mayoría biológicos, la


dependencia entre las variables X e Y es de forma exponencial, en cuyo
caso interesa ajustar a la nube de puntos una función del tipo:
y =exp(a +b x) .
• Mediante una transformación lineal, tomando logaritmos neperianos, se
convierte el problema en una cuestión de regresión lineal.
• Es decir, tomando logaritmos neperianos:
ln y = a + b x
• Y llamando Y =ln y se tiene Y = a + b x (regresión lineal).

Ing. William león Velásquez 13


MODELO EXPONENCIAL

• Para simplificar, descartando multiplicidades y suponiendo que cada par


se repite una sola vez, las ecuaciones normales serán:

• Calculando los parámetros a y b se tiene la ecuación de la función exponencial:


y = exp(a +b x) .
Ing. William león Velásquez 14
MODELO LOGARÍTMICO

• La curva logarítmica Y = a +blog X es


también una recta, pero en lugar de
estar referida a las variables
originales X e Y , está referida a log
XyaY.

Ing. William león Velásquez 15


EJEMPLOS DE REGRESIÓN NO LINEAL

• Ajuste de una función parabólica: Y* = a + b X + c X2

Ing. William león Velásquez 16


EJEMPLOS DE REGRESIÓN NO LINEAL

• Aplicando el método de los mínimos cuadrados se obtiene el siguiente


sistema de ecuaciones:

Ing. William león Velásquez 17


EJEMPLOS DE REGRESIÓN NO LINEAL

• Resolviendo este sistema se obtiene:

Ing. William león Velásquez 18


EJEMPLOS DE REGRESIÓN NO LINEAL

• Bondad del ajuste


• Coeficiente de determinación:

Ing. William león Velásquez 19


EJEMPLOS DE REGRESIÓN NO LINEAL
• Ajuste de una función potencial: Y* = a Xb
• Linealizando:
• lnY* = ln a + b ln X … ⇒ V* = A+bU

Ing. William león Velásquez 20


EJEMPLOS DE REGRESIÓN NO LINEAL

• Se deshace el cambio efectuado:


• a = anti ln A = anti ln 0,2277 = 1,2557
• De modo que el ajuste efectuado es:
• Y* = 1,2557 X 1,9902
Ing. William león Velásquez 21
EJEMPLOS DE REGRESIÓN NO LINEAL

• Bondad del ajuste

• Nótese que al haber transformado la variable dependiente ya no se minimiza


Σe 2 sino
• Σ (lnY − lnY* )2 de ahí que Σe ≠ 0 .

Ing. William león Velásquez 22


EJEMPLOS DE REGRESIÓN NO LINEAL
• Ajuste de una función exponencial: Y* = a bX
• Linealizando:
• lnY* = ln a + X ln b… ⇒ V* = A+ B X

Ing. William león Velásquez 23


EJEMPLOS DE REGRESIÓN NO LINEAL

• Deshaciendo los cambios efectuados:

• Por lo que el ajuste efectuado es:


• Y* = 0,819 2,176 X
Ing. William león Velásquez 24
EJEMPLOS DE REGRESIÓN NO LINEAL

• Bondad del ajuste:

• La comparación de la bondad de modelos de regresión mediante el


coeficiente de determinación sólo es correcta cuando la variable dependiente
no ha sido sometida a transformaciones no lineales (por ejemplo, una
transformación logarítmica). En este ejercicio, mediante R2 sólo se puede
comparar la regresión lineal y la parabólica. Por eso, para comparar los cuatro
ajustes efectuados se utiliza el error cuadrático medio (ECM). El mejor ajuste
resulta ser el parabólico puesto que presenta el menor valor para el ECM.
Ing. William león Velásquez 25
VARIABLES FICTICIAS (DUMMY)
• Supongamos que tenemos una muestra de 40 observaciones
correspondientes al siguiente modelo

• Conocemos que en la muestra existen datos correspondientes a mujeres y datos


correspondientes a hombres , una vez estimado el modelo nos preguntamos si
seria posible que el modelo no se comportase igual con los hombres que con las
mujeres , es decir si se les tienen mas en cuenta a unos que a otros la
experiencia laboral (β3), o si se valora de distinto modo el nivel de estudios
(β2), o quizás el sueldo base (β1) , es decir el de aquellas personas que no
tienenIng.ningún nivel de estudios (X2t ) ni ninguna experiencia laboral(X3t ). 26
William león Velásquez
FIN
wjleonv@yahoo.com
PRUEBA DEL
CHI-CUADRADO
Ing. William León Velásquez
wjleonv@yahoo.com
TABLA DE CONTENIDO

INTRODUCCIÓN
PRUEBA DE BODAD DE AJUSTE
PRUEBA DE INDEPENDENCIA
PRUEBA DE HOMOGENIDAD
INTRODUCCIÓN
OBJETIVO

Comprender las dos técnicas estadísticas empleadas para analizar datos


categóricos*, con lo cual se podrá:
• Comprender la prueba Chi cuadrado de
bondad de ajuste y cómo usarla.
• Analizar datos usando la prueba de Chi
cuadrado de independencia y para
homogeneidad

Los datos categóricos son variables que mide en una escala en un número
limitado de grupos. Por ejemplo, una encuesta donde se recoge información
sobre variables como sexo, estado civil y afiliación política. También a la
variable categórica se le llama cualitativa 3
INTRODUCCIÓN
ESTRUCTURA

4
INTRODUCCIÓN

Muchos estudios resultan en datos que son categóricos o cualitativos antes que
cuantitativos y que admiten más de dos resultados posibles:
• Nuevos Obreros clasificados según evolución (mejora, sin cambios, empeora)
• Trabajadores clasificados según su desempeño (regulares, buenos, excelentes)
• Votantes clasificados según intención de voto

Estos datos tienen las características de un experimento multinomial

5
EJEMPLO: grupos sanguíneos

• La distribución en la ciudad de Lima de los grupos


sanguíneos es de un 35%, 10%, 6% y un 49% para
los grupos A, B, AB y O respectivamente.
• Se desea saber si la distribución de los grupos
sanguíneos en el distrito de San Martin de Porres
difiere de toda la ciudad de Lima

6
EL EXPERIMENTO MULTINOMIAL

• El experimento consiste de n ensayos idénticos


• El resultado de cada repetición es una de k categorías
• La probabilidad de que el resultado sea una determinada categoría i se
denomina pi y permanece constante de ensayo en ensayo
• La suma de las k probabilidades: p1+ p2+.. + pk = 1
• Los ensayos son independientes

7
EL EXPERIMENTO BINOMIAL

• Es un caso especial del experimento multinomial con k = 2


• Las 2 categorías se denominan éxito y fracaso
• p1 y p2 son p y q
• Se hace inferencia sobre p y q=1-p
• En un experimento multinomial hacemos inferencia sobre todas las
probabilidades, p1, p2, …, pk

8
PRUEBAS DE BONDAD DE AJUSTE

• Se mide una única variable categórica, por lo tanto cada


elemento de la población se asigna a una y sólo una de varias
categorías k
• Para cada categoría se posee un
valor preconcebido o supuesto o
histórico de pi y usamos
información muestral para
determinar si dichos valores son
correctos

9
EJEMPLO: grupos sanguíneos

• Para determinar saber si la distribución de los grupos sanguíneos en el distrito de


San Martin difiere de toda la ciudad de Lima se extrajo una muestra aleatoria de
200 pobladores del distrito de san Martin de Porres y se les determinó el grupo
sanguíneo.
• Los resultados fueron: frecuencias
observadas FO
Grupo A Grupo B Grupo AB Grupo 0

61 15 6 118

• En este caso, la población es multinomial: cada poblador se clasifica según su


grupo sanguíneo en 4 categorías (k= 4)
10
¿LA DISTRIBUCIÓN DIFIERE?
• Dado que se cuenta solo con una muestra y se desea inferir sobre toda la
población, la pregunta se resuelve mediante una prueba de hipótesis
• Las hipótesis puestas a prueba son:

Ho: Las proporciones de cada grupo sanguíneo en el distrito de San Martín de


Porres no difieren de toda la ciudad capital;
p1=0.35, p2= 0.10, p3=0.06, p4=0.49
H1: Las proporciones sí difieren; al menos una pi cambia

• ¿Cómo se resuelve?
• Se contrastan frecuencias observadas FOi en la muestra con las frecuencias
que se esperaría observar FEi si las proporciones no cambiasen (es decir si Ho
fuera verdadera) 11
¿La distribución difiere?
• Se calculan las frecuencias esperadas: Ei  npi
Grupo A Grupo B Grupo AB Grupo 0 TOTAL

FOi 61 15 6 118 200

Pi 0.35 0.10 0.06 0.49 1

FEi

• ¿Las diferencias son lo suficientemente grandes como para afirmar que las
preferencias en la población han cambiado? ( = 0.05)

12
ESTADÍSTICO CHI-CUADRADO
• Para cuantificar las diferencias en un único número se utiliza el estadístico

 2

FOi  FEi  2

muestral
FEi

• Cuando Ho es verdadera, las diferencias entre FOi y FEi serán pequeñas, pero
cuando Ho es falsa, serán grandes
• Para determinar si la discrepancia entre FO y FE es lo suficientemente grande,
se utiliza la distribución chi-cuadrado con cierta cantidad de grados de libertad
• Sin embargo este estadístico tiene una distribución que se aproxima a la chi-
cuadrado

13
GRADOS DE LIBERTAD
• Varían según la aplicación
• Se comienza con el número de categorías o celdas k
• Se le resta un GL por cada restricción sobre las probabilidades (siempre se
perderá un GL ya que p1 + p2 + … +pk = 1)
• Se pierde un GL por cada parámetro que se debe estimar para calcular FEi
• Es decir
GL= k-m-1

Siendo k = cantidad de categorías


m= números de parámetros estimados
14
EN EL EJEMPLO:
GL= 4-0-1=3

Siendo k = 4, cantidad de categorías


m=0 porque no esta estimando ningún
parámetro

( = 0.05)

χ2 = 7.8147

χ2 = 7.8147
15
DATOS MUESTRALES
Grupo A Grupo B Grupo AB Grupo 0 TOTAL

FOi 61 15 6 118 200

FEi 70 20 12 98 200

 muestral
2

FOi  FEi 2
FEi

16
EN EL EJEMPLO:
fo fe (fo-fe)2 (fo-fe)2/fe
61 70 81 1.15714286
15 20 25 1.25
6 12 36 3
118 98 400 4.08163265
 200 200 9.48877551

 muestral
2

FOi  FEi 2
FEi
χ2 muestral = 9.488

χ2 muestral = 9.488

17
COMENTARIOS
Conclusión:

χ2 muestral > χ2

9.488 > 7.8147

• Se rechaza la Ho
• Por lo tanto la distribución de los grupos sanguíneos en el distrito de San Martin
de Porres difiere de toda la ciudad de Lima

18
EN EL EJEMPLO:
Conclusión:
• Para que las conclusiones sean válidas:
• La muestra debe ser aleatoria y su tamaño n debe ser 50
• Las observaciones deben ser independientes
• Las FEi deben ser > 0. Y se admite solo un 20% de casillas con FEi < 5. Si esto no se
cumple, puede solucionarse agrupando categorías.
• La distribución del estadístico es aproximada, pero si el tamaño de la muestra es
grande (FE > 10) la aproximación es muy buena

19
COMENTARIOS
• A diferencia de las pruebas anteriores, la Ho indica que existe buen ajuste a un
modelo o a ciertas proporciones supuestas:

Ho: el modelo es correcto, hay buen ajuste a las proporciones


supuestas
H1: el modelo no es correcto, hay mal ajuste

20
OTRAS APLICACIONES
• Las pruebas de bondad de ajuste pueden utilizarse para
determinar si una variable ajusta a una determinada distribución
de probabilidades, como por ejemplo:
• Normal
• Binomial
• Poisson
• En estos casos se deben estimar algunos parámetros a partir de la
muestra:
• Normal: el promedio  y el desvío estándar 
• Binomial: la probabilidad de éxito p
• Poisson: la cantidad esperada de eventos en un continuo 
21
PRUEBA DE BONDAD DE AJUSTE

Los procedimientos de prueba de hipótesis que se han estudiado hasta ahora,


están diseñados para problemas en los que se conoce la población o la
distribución de probabilidad, y la hipótesis involucra los parámetros de la
distribución.
Existe otra clase de hipótesis: no se sabe cuál es la distribución de la población,
y se desea probar la hipótesis de que una distribución en particular será un
modelo satisfactorio de la población.

Por ejemplo:
Probar la hipótesis de que la población tiene comportamiento normal, Poisson,
exponencial etc.

22
LA PRUEBA DE BONDAD DE AJUSTE
Se utiliza para la comparación de la
distribución de una muestra con alguna
distribución teórica que se supone describe a
la población de la cual se extrajo.

Ho : La variable tiene comportamiento normal

H1 : La variable no tiene comportamiento


normal

23
LA PRUEBA DE BONDAD DE AJUSTE

• Es considerada como una prueba


no paramétrica que mide la
discrepancia entre una distribución
observada y otra teórica, indicando
en qué medida las diferencias
existentes entre ambas, de
haberlas, se deben al azar.

24
LA PRUEBA DE BONDAD DE AJUSTE
• La fórmula que da el estadístico es la siguiente:

k f  f ei 
2

  
2 oi

i 1 f ei

Oi = Valor observado en la i-ésimo dato.


ei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.
m = Parámetros estimados sobre la base de los datos de la muestra
25
LA PRUEBA DE BONDAD DE AJUSTE
 Los grados de libertad vienen dados por :
gl= K-m-1.
 Criterio de decisión es el siguiente:
 Se rechaza H0 cuando . En
   t2; K 1
2

caso contrario no se rechaza.

 Donde t representa el valor proporcionado


por las tablas, según el nivel de
significación elegido.

Cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas


están ambas distribuciones.
26
EJEMPLO 1:

• Un ingeniero de control de calidad toma una


muestra de 10 neumáticos que salen de una
línea de ensamblaje y se desea verificar sobre
la base de los datos que siguen, la cantidad de
llantas con defectos observados en 200 días, y
comprobar si es cierto que el 5% de todos los
neumáticos tienen defecto.

• Teniendo conocimiento que la muestra proviene de una


población binomial con n = 10 y p = 0.05

27
Datos

REPORTE DE UNIDADES DEFECTUOSAS


Número de unidades con Número de muestras
defecto
0 138
1 53
2 ó más 9

28
El estadístico de prueba

k f  f ei 
2

  
2 oi

i 1 f ei
fOi = Valor observado en la i-ésimo dato.
fei = Valor esperado en la i-ésimo dato.
K = Categorías o celdas.

29
Definir el nivel de significancia y la zona de
rechazo

g.l= k-m-1- = 3 –0- 1 =2

30
CALCULO DEL ESTADÍSTICO DE PRUEBA

• Para poder calcular las frecuencias esperadas tenemos que


calcular las probabilidades utilizaremos la formula de la
binomial

y la probabilidad de 2 ó más = 1.0 -0.599 -0 .315 = 0.086


31
Cálculo de las frecuencias esperadas:

200 (0.599) = 119.8


200(0.315) = 63
200 (0.086) = 17.2

Número de unidades Número de muestras Valor


con defecto Observadas Esperado

0 138 119,8
1 53 63
2 ó más 9 17,2
Total 200 200
32
Al aplicar la formula se tiene:

Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de
significancia de 0.05.

Conclusión
Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.

33
El procedimiento general para realizar
la prueba es:

1.- Formulación de la hipótesis


Ho: Los datos de la muestra se ajustan a la
distribución teórica escogida
H1: Los datos de la muestra no se ajustan a la
distribución teórica escogida

2.- Fijar el nivel de significación

34
El procedimiento general para
realizar la prueba es:
3.- La estadística de prueba donde:
Ei = npi
Oi = observado
p = número de parámetros estimados a partir de
la muestra
K = número de categorías o clases
pi = probabilidad

(Oi  Ei )
k 2
 2

i 1 Ei
35
El procedimiento general para
realizar la prueba es:
4.- Determinar la región crítica:
rechazar Ho si:
caso contrario no se rechaza

 2
calc   2
1 , k  p 1

5.- Decisión y conclusión


Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar
esa clase, Y sumar la frecuencia observada a una clase contigua.

36
Ejemplo 2:
Un distribuidor de equipos electrónicos a
subdividido su región en cuatro zonas.
A un posible comprador de los equipos se le
asegura que las ventas de los equipos están
distribuidos de manera aproximadamente igual en
las cuatro zonas.
Se extrae una muestra de los archivos de la empresa
de 40 ventas realizadas el año pasado y encuentra
que el numero de ventas por zona son: 6, 12, 14, 8
respectivamente.
Realice la prueba de bondad de ajuste.

37
Ejemplo 2:

Ho : las ventas están igualmente distribuidas.


Ha: las ventas no están igualmente distribuidas

Alfa = 0.05 gl = k-m-1 = 4-0-1 = 3


El Ch² critico = 7.81 Según Tabla

Ch² observado=

38
Ejemplo 2:

Elaborar la tabla de fo y fe y calcular el Ch².

Zonas
A B C D
Frecuencia
observada (fo) 6 12 14 8 40
Frecuencia esperada
(fe) 10 10 10 10 40
Ch² 1.6 0.4 1.6 0.4 4
39
Ejemplo 2:

La decisión:

Como: Ch² observado es menor que Ch² critico ,entonces no


rechazamos Ho.
Es decir que la Ho de que las ventas se encuentran igualmente
distribuidas en las cuatro zonas no se puede rechazar para un nivel
de significancia de 5%.

40
Ejemplo 3:
Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se
observó el número de caras de cada serie. El número de series en los que se
presentaron 0, 1, 1, 3, 4 y 5 caras se muestra en la siguiente tabla.
Ajustar una distribución binomial a los datos con un = 0.05.

Número de series
Número de caras (frecuencia observada)
0 38
144
1
2 342
3 287
4 164
5 25
Total 1000

41
Ejemplo 3:

Solución:
H0; Los datos se ajustan a una distribución
binomial.

H1; Los datos no se ajustan a una distribución


binomial

42
Ejemplo 3:

Para obtener los valores esperados se tiene que utilizar la


formula de la distribución binomial: ,
donde n en este ejemplo vale 5, p y q son las probabilidades
respectivas de cara y sello en un solo lanzamiento de la
moneda.

Para calcular el valor de p, se sabe que μ = np en una distribución binomial,


por lo que μ = 5p.
43
Ejemplo 3:

Para la distribución de frecuencias observada, la media del


número de caras es:

Como μ = 5p
Entonces:
p=2.47/5 =0.492
44
Ejemplo 3:

Por lo tanto .

Así pues, la distribución binomial ajustada viene dada por

45
Ejemplo 3:
Al seguir esta fórmula se calcula la probabilidad de obtener
caras, según el valor de la variable aleatoria.
La probabilidad multiplicada por 1000 nos dará el valor
esperado. Se resumen los resultados en la tabla siguiente:

Número de Frecuencia Frecuencia


caras (x) P(x caras) esperada observada
0 0.0332 33.2 38
1 0.1619 161.9 144
2 0.3162 316.2 342
3 0.3087 308.7 287
4 0.1507 150.7 164
5 0.0294 29.4 25
46
Ejemplo 3:
Para los grados de libertad el valor de m será uno, ya que se tuvo
que estimar la media de la población para poder obtener el valor
de p y así poder calcular los valores esperados.
Grados de libertad: k-1-m = 6-1-1 = 4

47
Ejemplo 3:
Regla de decisión:
Si X2R <=9.49 no se rechaza Ho.
Si X2R >9.49 se rechaza Ho.
Cálculos:

48
Ejemplo 3:

Justificación y decisión:

Como el 7.54 no es mayor a 9.49,


no se rechaza H0
y se concluye con un
α= 0.05 que el ajuste de los datos a una distribución binomial es
bueno.

49
Ejemplo 4:
Se tiene los pesos de 253 peses y se desea saber si sus pesos tienen un
comportamiento normal. Los datos se han organizado en una tabla de frecuencia
Límites Frecuencias
Clase Inferior Punto Medio Superior Absolutas Relativas
1 2 57 112 0 0.0
2 112 167 222 3 1.2
3 222 277 332 4 1.6
4 332 387 442 10 4.0
5 442 497 552 18 7.1
6 552 607 662 29 11.5
7 662 717 772 37 14.6
8 772 827 882 54 21.3
9 882 937 992 44 17.4
10 992 1047 1102 26 10.3
11 1102 1157 1212 16 6.3
12 1212 1267 1322 7 2.8
13 1322 1377 1432 3 1.2
14 1432 1487 1542 2 0.8
15 1542 1597 1652 0 0.0
50
Sumas 253 100
Ejemplo 4:

Ho : los pesos de los peses tienen un comportamiento normal.


Ha: los pesos no tienen un comportamiento normal

Alfa = 0.05

Ing. William león Velásquez 51


Ejemplo 4:

Ing. William león Velásquez 52


Ejemplo 4:

Ing. William león Velásquez 53


Ejemplo 4:

Ing. William león Velásquez 54


Ejemplo 4:

Para los grados de libertad el valor


de m será uno, ya que se tuvo que
estimar la media de la población
para poder obtener el valor de p y así
poder calcular los valores esperados.
Grados de libertad:
15-1-m = 15-1-1 = 13

Alfa = 0.05

55
Ejemplo 4:

X2=22.36

Justificación y decisión:

Como el 7.17 no es mayor a 22.36,


no se rechaza H0
y se concluye con un
α=Ing.0.05 que el ajuste de los datos a una distribución normal es bueno.
William león Velásquez 56
TABLAS DE CONTINGENCIA

• INDEPENDENCIA
• Experimento multinomial con clasificación con 2 criterios (2 factores).
Los datos se pueden resumir en una tabla de 2 vías (dimensiones).
• (Ejemplo número de animales enfermos por condición corporal).

o La Ho indica que 2 variables o criterios


de clasificación son independientes
cuando se aplican a un conjunto de
individuos (unidades de observación)
o Totales Marginales Aleatorios

57
TABLAS DE CONTINGENCIA

 HOMOGENEIDAD
Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio de
clasificación. (Ejemplo prevalencia de enfermos por región)
Un conjunto de Totales Marginales Son Fijos mientras que los otros
marginales son Aleatorios.

58
PRUEBA DE INDEPENDENCIA,

• Consiste en comprobar si dos características


cualitativas están relacionadas entre sí (por ejemplo:
¿el color de ojos está relacionado con el color de los
cabellos?).
• Este tipo de contrastes se aplica cuando deseamos
comparar una variable en dos situaciones o poblaciones
diferentes, es decir, deseamos estudiar si existen
diferencias en las dos poblaciones respecto a la variable
de estudio.

59
Prueba de Independencia

Se usa para analizar la frecuencia de dos variables con categorías


múltiples para determinar si las dos variables son independientes o no.

Ejemplo:
¿El tipo de refresco preferido por un consumidor es independiente de su
grupo etáreo?
¿El estado nutricional esta asociado con el desempeño académico?
¿determinar si la región geográfica es independiente del tipo de
inversión financiera?

60
Prueba de Independencia

La prueba Chi cuadrado de independencia es


particularmente útil para analizar datos de variables
cualitativas nominales.

61
Tabla de contingencia
Los datos de variables cualitativa o categóricas representan
atributos o categorías y se organizan en tablas llamadas tablas
de contingencia o tablas de clasificación cruzada.
Una Tabla de contingencia con r filas y c columnas tiene la siguiente
forma:

62
Tabla de contingencia

Donde:
Oi j : es el número de sujetos que tienen las características Ai y Bj a la vez.

Ri : (i = 1,…,r) es la suma de la i-ésima fila de la tabla. Es decir, es el total


de sujetos que poseen la característica Ai.

Cj :(j = 1,…,c) es la suma de la j-ésima columna de la tabla. Es decir, es el


total de sujetos que poseen la característica Bj.

n : representa el total de observaciones tomadas. 63


Tabla de contingencia
La pregunta es:

¿Existirá o no relación entre las variables A y B?, es decir, si A y B son o no


independientes.

Formulación de hipótesis:

Hipótesis nula (H0) : Las variables X e Y son independientes, ( X e Y no


están relacionadas)

Hipótesis alternativa (H1) : Las variables X e Y no son independientes, (X


e Y están relacionadas)

64
Pruebas de Independencia
El estadístico Ji-Cuadrado esta dado por:
r c (O ij  E ij ) 2
2   E ij
i 1 j1

donde
Oij : es la frecuencia observada de la celda que está en la fila i,
columna j,

Eij 
Ri * C j
es la frecuencia esperada de la celda (i, j).
n

65
Pruebas de independencia
La frecuencia esperada es aquella que debe ocurrir para que la hipótesis nula
sea aceptada.

La prueba estadística se distribuye como una Ji-Cuadrado con (r-1)*(c-1)


grados de libertad.

La hipótesis Nula se rechaza si ,  2


ca lc   2
1

o equivalentemente si el “p-value” es menor que α (prefijado)

66
HOMOGENEIDAD
Se extraen Muestras Independientes de varias poblaciones y
se prueban para ver si son homogéneas con respecto a algún
criterio de clasificación.
Un conjunto de Totales Marginales Son Fijos mientras que
los otros marginales son Aleatorios.

67
EJEMPLO

Un analista supone que el uso


de cinturón de seguridad, en
los conductores, está
relacionado con el género.

• H0: El uso del cinturón de seguridad es independiente del género.


• H1: El uso del cinturón de seguridad no es independiente del género.

68
EJEMPLO

• Para calcular todos y cada uno de los valores de la tabla de


frecuencias esperadas se realiza:

Total Columna  Para dicha celda  x Total Fila  Para dicha celda 
Fe 
Suma Total

69
EJEMPLO

TABLA DE FRECUENCIAS ESPERADAS


REALIZAR UNA TABLA CON LOS VALORES DE LA TABLA DE CONTINGENCIA Y AÑADIR
UNA FILA EN LA PARTE INFERIOR Y UNA COLUMNA EN LA PARTE DERECHA.

SI NO

F
50 25

M 40 45

70
EJEMPLO

REALIZAR LAS SUMAS POR FILAS, POR COLUMNAS Y LA SUMA TOTAL

SI NO

F
50 25 75

M 40 45 85
SUMA DE FILAS
FRECUENCIAS DE
VALORES OBSERVADOS
90 70 160

SUMA DE COLUMNAS SUMA TOTAL 71


EJEMPLO

Usar la fórmula para obtener las frecuencias esperadas.

SI NO

90  75  F 70  75 
42.1875 32.8125
160 160

90  85  M 70  85 
47.8125 37.1875
160 160

FRECUENCIAS DE VALORES ESPERADOS


72
EJEMPLO

CHI – CUADRADO CALCULADO

• Para obtener el valor de Chi-Cuadrado Calculado se tiene la fórmula

 calc
2

 f0  fe 
2

fe
f 0 : Frecuencia del valor observado.
f e : Frecuencia del valor esperado.

73
EJEMPLO

TABLA DE VALORES OBSERVADOS TABLA DE VALORES ESPERADOS


SI NO SI NO

F 50 25 F 42.1875 32.8125

M
40 45 M 47.8125 37.1875

 calc
2

 f0  fe 
2

fe

 calc
2

 50  42.1875 
2

 25  32.8125 
2

 40  47.8125 
2

 45  37.1875 
2

42.1875 32.8125 47.8125 37.1875


 calc
2
 1.4468  1.8601  1.2766  1.6413  6.2248 74
EJEMPLO

GRADO DE LIBERTAD v
• Para calcular el grado de libertad (v) se realiza:

v   Cantidad de filas  1 Cantidad de columnas  1

75
EJEMPLO

TABLA DE VALORES OBSERVADOS

SI NO

F
50 25

M 40 45

v   2  1 2  1
v  11  1
76
EJEMPLO

NIVEL DE SIGNIFICANCIA

Es el error que se puede cometer al rechazar la hipótesis nula siendo


verdadera.

Por lo general se trabaja con un nivel de significancia de 0.05, que indica


que hay una probabilidad del 0.95 de que la hipótesis nula sea verdadera.

77
EJEMPLO
Una conductora supone que el uso de cinturón de seguridad, en los
conductores, está relacionado con el género. Los datos se muestran en la
tabla inferior. La conductora realiza la prueba de su conjetura usando chi-
cuadrado con un nivel de significancia del 1%.
USO DE CINTURÓN DE SEGURIDAD

GÉNERO SÍ NO
FEMENINO 50 25
MASCULINO 40 45

Entonces se tiene un nivel de significancia del 0.01.

78
EJEMPLO

VALOR DEL PARÁMETRO p

• Para calcular el valor de p se realiza:


p  1  Nivel de significancia

• Ejemplo:
p  1  0.01  0.99

79
TABLA PARA VALORES DE CHI-CUADRADO CRÍTICO

80
EJEMPLO

81
COMPARACIÓN ENTRE LOS VALORES DEL CHI-
CUADRADO CALCULADO Y EL CRÍTICO

Si el valor del chi-cuadrado calculado es menor o igual que el chi-


cuadrado crítico entonces no se rechaza la hipótesis nula, caso
contrario se rechaza.

Ejemplo:
calc
2
 Valor crítico
6.2248  6.635

Entonces no se rechaza la hipótesis nula, la cual es “El uso del cinturón


de seguridad es independiente del género”.
82
EJEMPLO 2 :

Se tiene la siguiente tabla de contingencia que


corresponde a la cantidad de clientes que
visitan en una tienda en función al sexo y a la
edad. hacer la prueba de independencia para las
variables al 1% de significancia

Edad Hombre Mujer Total


Menos de 25 60 50 110
Mas de 25 80 10 90
Total 140 60 200

83
EJEMPLO 2 :
SOLUCIÓN
Ho: El sexo y la edad de los clientes son independientes.
Ha : El sexo y la edad son dependientes.

Gl= (m-1)(n-1) = (2-1)(2-1)= 1

Las frecuencias esperadas se calculan con:

84
EJEMPLO 2 :
Solución: Tabla de frecuencias esperadas

Sexo
Edad Hombre Mujer Total

Menos de 25 77 33 110

Mas de 25 63 27 90

140 60 200

85
EJEMPLO 2 :
Tabla de los Ch² individuales

Hombre Mujer
Menor de 25
3.75 8.76
Mayor de 25
4.59 10.70
27.80

Ch2 observado

86
EJEMPLO 2 :

Ch2 critico = 6.63


Ch2 observado = 27.80

Como el observado es mayor que el critico ,rechazamos la Ho.


Para un nivel del 1% esta relación no se puede atribuir ala causalidad .

87
EJEMPLO 3 :
Se tiene interés en estudiar la fiabilidad de
cierto componente informático con relación
al distribuidor que nos lo suministra. Para
realizar esto, se toma una muestra de 100
componentes de cada uno de los 3
distribuidores que nos sirven el producto
comprobando el número de defectuosos en
cada lote.
La siguiente tabla muestra el número de defectuosos en para cada uno de los
distribuidores.

88
EJEMPLO 3 :
SOLUCIÓN:
Debemos realizar un contraste de homogeneidad para concluir si entre
los distribuidores existen diferencias de fiabilidad referente al mismo
componente.

Ho: existe homogeneidad entre las distribuciones


H1: No existe homogenidad

89
EJEMPLO 3 :
Se calcula las frecuencias esperadas

Las frecuencias esperadas bajo homogeneidad


son las representadas entre paréntesis.

90
EJEMPLO 3 :
El estadístico del contraste será:

91
EJEMPLO 3 :

Este valor del estadístico Ji-cuadrado (8.96) es mayor que el valor para el
nivel de significación del 5% y GL:2, (5.99) por lo tanto debemos concluir
que no existe homogeneidad y por lo tanto que hay diferencias entre los
tres distribuidores.
92
Ejemplo 4:
Se toma una muestra aleatoria de 2200
familias y se les clasifica en una tabla de
doble entrada según su nivel de ingresos
(alto, medio o bajo) y el tipo de colegio a
la que envían sus hijos.
La siguiente tabla muestra los resultados
obtenidos:
TIPO DE COLEGIO TOTAL
INGRESOS PRIVADO PÚBLICO
Alto 506 494 1000
Medio 438 162 600
Bajo 215 385 600
TOTAL 1159 1041 2200

¿A un nivel de significancia del 1% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes? 93
Ejemplo 4:

Primero: ingresar los datos: ya tabulados de la siguiente manera

Nivel de ingreso Tipo de colegio frecuencia


1 1 506
1 2 494
2 1 438
2 2 162
3 1 215
3 2 385

94
Ejemplo 4:
Solución:
Las hipótesis a plantearse son las siguientes:
Ho: No hay relación entre el ingreso y el tipo de colegio
H1: Si hay relación entre el ingreso y el tipo de colegio.
Tabla de contingencia Tipo_Col * Clase_soc

Clase_soc
1.00 2.00 3.00 Total
Tipo_Col 1.00 Recuento 506 438 215 1159
Frecuencia esperada 526.8 316.1 316.1 1159.0
2.00 Recuento 494 162 385 1041
Frecuencia esperada 473.2 283.9 283.9 1041.0
Total Recuento 1000 600 600 2200
Frecuencia esperada 1000.0 600.0 600.0 2200.0

95
Ejemplo 4:
Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral )
Chi-cuadrado de P earson 169.429 a 2 .000
Corrección por cont inuidad
Razón de verosimili tudes 174.511 2 .000
Asociación lineal por lineal 16.917 1 .000
N de casos váli dos 2200
a. 0 casi llas (.0%) ti enen una frecuencia esperada inferi or a 5. L a
frecuencia mínima esperada es 283.91.

Interpretación: Como el “P-value” es menor que 0.01 se puede


concluir que hay relación entre el nivel de ingreso y el tipo de colegio.

96
Ejemplo 5
El uso de bebida ordenado con alimentos en
un restaurante ¿es independiente de la edad
del consumidor? Se toma una muestra
aleatoria de 309 clientes del restaurante de
donde resulta el siguiente cuadro de valores
observados. Utilice alfa = 0.01 para
determinar si las dos variedades son
independientes.º

Edad Café/té Refresco Leche


21-34 26 95 18
35-35 41 40 20
>55 24 13 32
97
Ejemplo 5
Solución

1.- Planteamiento de hipótesis


Ho : El tipo de bebida preferida es independiente de la edad
H1 : El tipo de bebida preferida esta relacionada con la edad

 o
( f  f e ) 2

2.- Estadístico de Prueba 2 


fe

3.- Nivel de significación: 


= 0.01

98
Ejemplo 5

Tabla de contingencia Edad * Bebida

Bebida
Caf é/Té Ref resco Leche Total
Edad 21-34 Recuent o 26 95 18 139
Frecuencia esperada 43.8 71.2 24.0 139.0
35-45 Recuent o 41 40 20 101
Frecuencia esperada 31.8 51.7 17.5 101.0
>=55 Recuent o 24 13 12 49
Frecuencia esperada 15.4 25.1 8.5 49.0
Total Recuent o 91 148 50 289
Frecuencia esperada 91.0 148.0 50.0 289.0

99
Ejemplo 5

Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 34.438a 4 .000
Razón de v erosimilitudes 35.441 4 .000
Asociación lineal por
3.745 1 .053
lineal
N de casos v álidos 289
a. 0 casillas (.0%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 8.48.

100
Ejemplo 5

Decisión

Las dos variables, bebida preferida y edad, no son


independientes. El tipo de bebida que un cliente ordena con
alimentos está relacionada con la edad y depende de está.

101
Ejemplo 6
Con el fin de probar la efectividad de una vacuna
contra cierta enfermedad, se realizo un
experimento observando a 200 personas, 110 de
ellas vacunadas y las otras 90 sin vacunar.
Presentan los datos evidencia suficiente como
para indicar que la proporción de personas
vacunadas que contrajeron la enfermedad no es
la misma que la proporción de personas que no
se vacunaron y que contrajeron la enfermedad
Los resultados obtenidos se muestran en el
siguiente cuadro.
Datos
Contrajeron Enf. No contrajeron la enf.
Vacunados 9 101
No vacunados 4 86
102
Ejemplo 6

1.- Planteamiento de hipótesis


Ho: P1 = P2
H1 : P1 diferente de P2
donde:
P1 = Proporción de vacunados que contraen la enfermedad
P2 = Proporción de no vacunados que contraen la enfermedad

103
Ejemplo 6

Resultados

Tabla de con ting encia Vacunad os * Enferm

Enf erm
Contrajo No contrajo Total
Vacunados Si Recuento 9 101 110
Frecuencia esperada 7.2 102.9 110.0
No Recuento 4 86 90
Frecuencia esperada 5.9 84.2 90.0
Total Recuento 13 187 200
Frecuencia esperada 13.0 187.0 200.0

104
Ejemplo 6

Resultados
Pruebas de chi-cu adrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson 1.138b 1 .286
Corrección por
a .606 1 .436
continuidad
Razón de v erosimilitudes 1.175 1 .278
Estadíst ico exacto de
.391 .220
Fisher
Asociación lineal por
1.132 1 .287
lineal
N de casos v álidos 200
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (. 0%) tienen una f recuencia esperada inf erior a 5. La f recuencia mínima esperada
es 5.85.

105
Ejemplo 6

Decisión

Como p-valor =0.286 es mayor que 0.05 (alfa) podemos


indicar que no existe suficiente evidencia para aceptar
que hay diferencias entre las proporciones P1 y P2

106
FIN
wjleonv@yahoo.com
UNMSM ESTADISTICA
FII INDUSTRIAL

TEMA 11
METODOS NO PARAMETRICOS
PARTE I

Por William León Velásquez


CONTENIDO
INTRODUCCIÓN
LA ESTADISTICA NO PARAMETRICA
PRUEBA DE LOS SIGNOS
PRUEBA DE SIGNOS DE LA MEDIANA PARA
OBSERVACIONES PAREADAS
PRUEBA DE WILCOXON
INTRODUCCIÓN

• En las investigaciones que


se realiza siempre se
cuenta con una muestra
que permite extraer
(medir) datos para luego
afirmar (o negar) alguna
característica que
posteriormente se hará
extensiva a la población.
• De esta manera se puede
hacer una afirmación.
INTRODUCCIÓN

Ejemplo:
• El 70% de los empresarios leen El Comercio.
• Esta afirmación se basa en un estudio y análisis
donde la muestra debe tener ciertos requerimientos,
en especial cuando estas son cuantitativas.
INTRODUCCIÓN

• Pero que pasa cuando


• El tamaño de la muestra que se quiere
analizar es pequeña, como cuando se quiere
analizar a los trabajadores de una pequeña
empresa.
INTRODUCCIÓN

Por otro lado:


• Que pasa cuando se quiere medir ya no unos datos
cuantitativo sino cualitativo,
• como sexo: masculino o femenino.
• o alternativas como: bueno, regular y malo,
• o un grado: superior, intermedio e inferior;
• o nivel socioeconómico: bajo, medio o alto.
LA ESTADÍSTICA NO PARAMÉTRICA

1.- Por lo general, son fáciles de usar y entender.


2.- Eliminan la necesidad de suposiciones
restrictivas de las pruebas paramétricas.

3.- Se pueden usar con


muestras pequeñas.
4.- Se pueden usar con
datos cualitativos.
LA ESTADÍSTICA NO PARAMÉTRICA

• Muchas aplicaciones de negocios involucran


opiniones o sentimientos y esos datos se
usan de manera cualitativa.
• La Estadística no paramétrica nos facilita el
estudio de estos casos.
LA ESTADÍSTICA NO PARAMÉTRICA

• Las pruebas no
paramétricas son
pruebas
estadísticas que
no hacen
suposiciones sobre
la naturaleza
(medidas de
centralización,
dispersión, etc) de
los datos de la
población.
LA ESTADÍSTICA NO PARAMÉTRICA

Por lo general:
Las pruebas paramétricas
son mas poderosas que
las pruebas no
paramétricas y deben
usarse siempre que sea
posible.
LA ESTADÍSTICA NO PARAMÉTRICA

• Es importante observar:
• Que aunque las pruebas no paramétricas no
hacen suposiciones sobre la distribución de la
población que se muestrea, muchas veces se
apoyan en distribuciones muestrales como la
normal o la ji cuadrada.
LA ESTADÍSTICA NO PARAMÉTRICA

1.- A veces, ignoran, desaprovechan o pierden


información.
2.- No son tan eficientes como las
paramétricas.
3.- Llevan a una mayor probabilidad de no
rechazar una hipótesis nula falsa
(incurriendo en un error de tipo II).
Ventajas de los métodos NO
PARAMETRICOS
1.- No requieren la suposición de que una población esta distribuida
en forma de curva normal u otra forma especifica.
2.- Generalmente, es mas sencillo realizarlas y entenderlas, la mayor
parte de las pruebas no paramétricas no exigen de cálculos
laboriosos a menudo necesarios, por ejm. Para calcular una
desviación estándar.
3.- Algunas veces ni siquiera se requiere un
ordenamiento o clasificación formal. Muchas
veces lo que podemos hacer es describir un
resultado como mejor que otro. Cuando esto
ocurre, o cuando nuestras mediciones no son tan
exactas como es necesario para las pruebas
paramétricas, podemos usar métodos no
paramétricos.
14

Desventajas de los METODOS Ing. William león


Velásquez

NO PARAMETRICOS
1.- Ignoran cierta cantidad de información.
2.- A menudo no son tan eficientes o claras como las
pruebas paramétricas. Cuando se hacen pruebas
no paramétricas perdemos agudeza en la
estimación de intervalos, pero ganamos la
posibilidad de usar menos información y calcular
con mayor rapidez.
Conversión de valores paramétricos a rangos no paramétricos.
Valor paramétrico 113.45 189.42 76.50 13.33 101.79
Valor no paramétricos 4 5 2 1 3
15

PRUEBAS DEL
SIGNO

Ing William León


Velásquez
PRUEBA DEL SIGNO

• Es una de las pruebas no


paramétricas más simples y la
más antigua de todas,
• Está reportada en la literatura
desde 1710 por John Arbuthnott,
• Hizo uso de este procedimiento,
por primera vez, para demostrar
que la proporción de varones
nacidos en Londres en un
determinado período de tiempo
era significativamente mayor que
la proporción de mujeres
PRUEBA DEL SIGNO

• Se basa en los signos que


generan la diferencia de
comparar los datos en una
población con respecto a su
media, mediana o con
respecto a otros datos
tomados de la misma
población
• Se presentan dos casos:
• Con una muestra sencilla
(una sola muestra) y
• Con una muestra en pares.
PRUEBA DEL SIGNO

• Se usa para hacer pruebas de hipótesis


acerca de la mediana de una población
de una variable continua.
• Esta prueba estadística está basada en
la distribución Binomial con
probabilidad de éxito p=½, puesto
que la probabilidad de que un dato sea
mayor o menor que la mediana es ½.

Dada una muestra .a simple de tamaño n definida


por (X1,..,Xn) extraída de una población con
distribución continua, se quiere contrastar si su
mediana es igual a cierto valor Me
PRUEBA DEL SIGNO

• La mediana de una distribución


es un valor de la variable
aleatoria X tal que la
probabilidad de que un valor
observado de X sea menor o
igual, o mayor o igual, que la
mediana es 0.5.
• Por lo tanto
P(X ≤ Me) = P(X ≥ Me)= 0.5
PRUEBA DEL SIGNO

• Cuando la distribución normal es


simétrica, la media de una
distribución normal es igual a la
mediana.
• Por consiguiente, la prueba del
signo puede emplearse para probar
hipótesis sobre la media de una
población normal.
• Suponer que las hipótesis son:

Ho : Me = Meo H1 : Me < Meo


PRUEBA DEL SIGNO
• Si la hipótesis nula Ho : Me = Meo es verdadera,
cualquier diferencia Xi – Meo tiene la misma
probabilidad de ser negativa o positiva.
• Un estadístico de prueba apropiado es el número de
estas diferencias que son positivas, por ejemplo R+.
• Entonces, la prueba de la hipótesis nula es en realidad
una prueba de que el número de signos positivos es un
valor de una variable aleatoria binomial con parámetro
P = ½.
• Se puede calcularse un valor P para el número
observado de signos positivos r+ directamente de la
distribución binomial
PRUEBA DEL SIGNO

• Para probar la otra hipótesis unilateral

Ho : Me = Meo H1 : Me > Meo


 se rechaza H0 en favor de H1 sólo si el número
observado de signos más, r+, es grande o,
 De manera equivalente: Cada vez que la fracción
observada de signos positivos es significativamente
mayor que ½.
 En consecuencia, si el valor P calculado P =
P(R+ r+ cuando p = 1/2) es menor que α,
entonces H0 se rechaza y se concluye que H1 es
verdadera.
PRUEBA DEL SIGNO

• Para probar la alternativa bilateral.

• Si las hipótesis son:

Ho : Me = Meo H1 : Me ≠ Meo

 se rechaza H0 si la proporción de signos positivos difiere


de manera significativa de ½ (ya sea por encima o por
debajo).
24

Para muestras pequeñas (n<20) Ing. William león


Velásquez

tenemos
a) Cuando:
• T(número de diferencias positivas) >T(-) (número
de diferencias negativas) , entonces el "p-valor" se
calcula por :

Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al
valor Me asumido.
25

Para muestras pequeñas (n<20) Ing. William león


Velásquez

tenemos
b) Cuando:
T(número de diferencias positivas) <>T(-) (número de
diferencias negativas) , entonces el "p-valor" se calcula
por :

Donde:
c: número de diferencias positivas.
n: número de datos menos la cantidad de datos iguales al
valor Me asumido.
Ejemplo 01:

• Un artículo informa acerca de un


estudio en el que se modela el
motor de una maquina reuniendo
el combustible y la mezcla de
encendido dentro de un
contenedor metálico.
• Una característica importante es
la resistencia al esfuerzo cortante
de la unión entre los dos tipos de
sustancias.
Ejemplo 01:
Resistencia al Resistencia
Observ esfuerzo Observa al esfuerzo

• En la siguiente a ción cortante ción cortante

xi xi
tabla se muestran
los resultados 1 2158.70 11 2165.20

obtenidos al probar
2 1678.15 12 2399.55

3 2316.00 13 1779.80
20 motores 4 2061.30 14 2336.75
seleccionados al 5 2207.50 15 1765.30
azar. 6 1708.30 16 2053.50

7 1784.70 17 2414.40

8 2575.10 18 2200.50

9 2357.90 19 2654.20

10 2256.70 20 1753.70
Ejemplo 01:

• Se desea probar la hipótesis de que la mediana


de la resistencia al esfuerzo cortante es 2000
psi, utilizando α= 0.05.

• Solución:
• La hipótesis planteada será

Ho : Me = 2000 psi

H1 : Me ≠ 2000 psi
Ejemplo 01:

Se coloca los
signos con
respecto a la
mediana.

Se observa
que el
estadístico
de prueba
r+ = 14.
Ejemplo 01:
Regla de decisión:
• Si el valor de p correspondiente a r+=14 es
menor o igual que α=0.05 se rechaza H0.
Cálculos:
• Puesto que r+=14 es mayor que n/2 =>
20/2=10,
• El valor de p se calcula de

p=2 P(R+14 cuando p = ½)


Ejemplo 01:
• La p se calcula con la fórmula de la
distribución binomial:
p=2 P(R+14 cuando p = ½)

Con Minitab
P( x>=14) = 1 - P (x<=13)

Función de distribución acumulada

Binomial con n = 20 y p = 0.5

x P( X <= x )
13 0.942341

1 - 0.942341 = 0.057659
2 * 0.057659 = 0.115318
32

Ing. William león

Ejemplo 01: Velásquez

Con una tabla binomial


P( x>=14) = 1 - P (x<=13)
Función de distribución acumulada

Binomial con n = 20, x = 13


y p = 0.5

x P( X <= x )
13 0.942341

1 - 0.9423 = 0.0577
2 * 0.0577 = 0.1154
Ejemplo 01:

Conclusión:
• Como p=0.1153 no es menor
= 0.05,
• No es posible rechazar la
hipótesis nula de que la
mediana de la resistencia al
esfuerzo constante es 2000
psi.
Para muestra grande (n>=20).
Aproximación normal:
• Cuando p=0.5, la distribución
binomial esta bien aproximada
por la distribución normal
cuando n es al menos 10.
• Por tanto, dado que la media de
la distribución binomial es np y
la varianza es npq, la
distribución de R+ es
aproximadamente normal con
media 0.5n y varianza 0.25n,
cada vez que n es
moderadamente grande.
Para muestra grande (n>=20).
Aproximación normal:
• Las reglas de decisión se
establecerán como cualquier
ensayo en una distribución
muestral en donde se utiliza la
distribución normal.
• Para resolver el problema
anterior:
Ho : µo = 2000 psi

H1 : µo ≠ 2000 psi
Para muestra grande (n>=20).
Aproximación normal:
• Como la muestra es mayor que 10 se utilizará la
aproximación normal
Para muestra grande (n>=20).
Aproximación normal:

• Regla de Decisión:
• Si –1.96 ≤ ZR ≤ 1.96
No se rechaza Ho

• Si ZR < -1.96 ó si ZR > 1.96


Se rechaza Ho
Para muestra grande (n>=20).
Aproximación normal:

• Cálculos:
Para muestra grande (n>=20).
Aproximación normal:
• Decisión y Conclusión:
• Como 1.789 esta entre –1.96 y
1.96, no se rechaza H0 y
• Se concluye con un α=0.05 que la
mediana es de 2000 psi.
40

Prueba de Signos de la Mediana


Para observaciones pareadas
La prueba de los signos también puede servir como
alternativa no paramétrica a la prueba t de muestra
pareada o a la correspondiente prueba de muestra
grande.
En tales problemas, cada par de valores muéstrales se
remplaza por un signo además si el primer valor es
menor que el segundo, por un signo de menos si el
primer valor es menor que el segundo, o bien se
descarta si los dos valores son iguales.
41

Prueba de Signos de la Mediana


Para observaciones pareadas
Ejemplo 1
Se desea comparar la forma en que
los consumidores califican (en escala
de 1 a 10) a dos limpiadores para
ventanas.
Se selecciona al azar 6 amas de casa
de un grupo de consumidoras para
que cada una de ellas califique una
ventana tratada con el limpiador A y
otra con el limpiador B.
Se ha usado un experimento de diferencias pareadas
(diseño aleatorizado en bloques) para efectuar la
comparación.
42
Prueba de Signos de la Mediana
Para observaciones pareadas
Ejemplo 1
Los limpiadores A y B son Ama Limpiador
tratamientos. Casa A B
Los bloques corresponden a las
1 10 7
amas de casa y su objeto es
eliminar la variabilidad entre amas 2 7 5
de casa. 3 8 7
Los datos del experimento 4 5 2
aparecen en la tabla.
5 7 6
¿Presentan los datos la suficiente
evidencia que indique una 6 9 6
diferencia en la preferencia de los
consumidores por los limpiadores?
43

Prueba de Signos de la Mediana


Para observaciones pareadas
Ejemplo 1
Calificaciones de amas de casa a dos limpiadores de ventanas:
Ho: p = 0.5 no hay preferencia de A sobre B
Ha: p<>0.5
Ama Limpiador
Casa A B A-B
¿Hay evidencia que
1 10 7 + indique cierta
2 7 5 + preferencia de las
3 8 7 + amas de casa por uno
de los limpiadores?
4 5 2 +
5 7 6 +
6 9 6 +
44
Prueba de Signos de la Mediana
Para observaciones pareadas
Ejemplo 1
Para contestar la pregunta, no se necesita
efectuar una prueba estadística
complicada.
Se necesita efectuar una prueba del
signo, que es muy fácil de aplicar.
Del cuadro anterior se nota que la
calificación para el limpiador A excede a la
B en los seis casos (por lo que los signos de
las diferencias son todos positivos).
45

Prueba de Signos de la Mediana


Para observaciones pareadas
Ejemplo 1
Suponiendo que no existe diferencia entren los
limpiadores, el resultado es equivalente a lanzar
una moneda balanceada seis veces y observar seis
caras(o cruces).
La probabilidad de dicho evento, (½)6 + (½)6
=1/32, = 0.03125 es demasiada pequeña.

Por lo tanto, se rechazaría la hipótesis de que las


distribuciones de las calificaciones de los
limpiadores son idénticas.
46

Prueba de Signos de la Mediana


Para observaciones pareadas
Ejemplo 2
Se quiere probar el efecto de un
somnífero en 15 personas, para
ello se mide las horas que
duermen tomando y sin tomar el
somnífero.
Los tiempos se muestran en la
tabla

Ho: No existen diferencias en el tiempo de sueño


H1: Existen diferencias en el tiempo de sueño
47

Prueba de Signos de la Mediana


Ejemplo 2

N1 (+) = 10 ; N2 (-) = 3 ; N = 10 + 3 = 13 ;


Entonces: x = 10 , N=13

Aplicando la fórmula:
Z= (2*10 – 13)/ √13 = 1.941
48

Prueba de Signos de la Mediana


Ejemplo 2

De la tabla de t - student


t(12, 0.05/2)=2.179
Como
1.941< 2.179
Por tanto no se puede
rechazar H0.
No se han encontrado
diferencias.
49

Prueba de Signos de la Mediana


Ejemplo 3
Se quiere investigar si una publicidad de un
producto puede cambiar la preferencia de las
personas de la población que tenia sobre ese
producto X.
Para ello estudia una muestra de 100 adultos
que han visto la publicidad.
Los resultados de las pregunta si ha cambiado
su preferencia son:.
15 dicen que siguen viendo al producto
igual,
59 los ven con más ventajas al producto y
26 dicen que los ven de menor calidad que
su producto actual
 ¿Cual es la conclusión?
50

Prueba de Signos de la Mediana


Ejemplo 3
 Se puede aplicar la prueba de los signos, porque se tiene una
opinión después de ver la publicidad, que se prueba con la que
tenían antes de verla.
 Como se observa nos proporcionan los signos ya calculados.
 Y tenemos como resultados:
59→ + , 26→ - , 15 → 0
 Entonces N1= 59 , N2= 26 y N=85
(los 15 que piensan igual no cuentan).
X = 59
 Ho = no hay cambios de opinión con respecto al producto
 H1 = si hay cambios de opinión con respecto al producto
51

Prueba de Signos de la Mediana


Ejemplo 3

 Por tanto N1= 59 , N2= 26


 y N=85

X = 59

Aplicando la fórmula:
•Z = (2 * 59 - 85) / √85 = 3.58
52

Prueba de Signos de la Mediana


Ejemplo 3
•Con un α=0.01
•Zc0.01/2 = 3.30

•Como: 3.58 > 3.30

Se rechaza H0 a un nivel de significación de 0.01.


Por tanto la opinión sobre este asunto ha cambiado
significativamente, sobre todo en una mayor preferencia,
pero también, aunque menos, en sentido contrario.
53

Prueba de Wilcoxon

Ing William León


Velásquez
54

Prueba de Wilcoxon de rangos señalados y


pares igualados para dos muestras
dependientes
 El prueba de Wilcoxon puede ser utilizado para comparar
datos por parejas.
 Si la distribución de las diferencias es simétrica, y nuestro
propósito es probar la hipótesis nula de que dicha
distribución está centrada en 0.
 Se elimina aquellos pares para los cuales la diferencia es 0
se calculan los rangos en orden creciente de magnitud de los
valores absolutos de las restantes diferencias.
 Se calculan las sumas de los rangos positivos y negativos, y
la menor de estas sumas es el estadístico de Wilcoxon.
55

DEFINICIÓN

• La hipótesis nula será rechazada si


W es menor o igual que el valor
correspondiente.
• Si el número n de diferencias no
nulas es grande y W es el valor
observado del estadístico de
Wilcoxon los siguientes contrastes
tienen nivel de significación α.
56

PRUEBA DE WILCOXON

• Este modelo estadístico corresponde


a un equivalente de la prueba t de
Student,
• Pero se aplica en mediciones en
escala ordinal para muestras
dependientes.
57

PRUEBA DE WILCOXON

• El método es aplicable a muestras


pequeñas, siempre y cuando sean
mayores que 6 y menores que 25.

• Las muestras grandes deben ser


mayores a 25 y éste se debe
transformar en valor de Z, para
conocer la probabilidad de que
aquella sea o no significativa.
58

PRUEBA DE WILCOXON

• Esta prueba estadística


consiste en sumar los rangos
de signo frecuente; por ello,
no se tiene una ecuación o
fórmula, como se observa en
otras pruebas estadísticas.
59

PRUEBA DE WILCOXON

Se utiliza cuando:
Trabaja con datos de tipo ordinal.

Establece diferencias de
magnitudes
(+ y -).
60

Prueba de Wilcoxon
•Dirección.

Prueba de dos colas: No se sabe en que


dirección se pueden dar las diferencias.
Prueba de una cola: Si sabemos en que
dirección están las diferencias
61

Prueba de Wilcoxon
Dos muestras pareadas.
• Establece las diferencias .
• Con muestras grandes (> 25)
se intenta lograr la
distribución normal (se utiliza
la prueba Z).
62

Pasos:
1. Arreglar las observaciones
pareadas y obtener las
diferencias de cada pareja.
2. Arreglar las diferencias en
función de rangos como
valores absolutos, sin
importar el signo, pero de
manera que los rangos
conserven el signo
correspondiente a la
diferencia.
63

Pasos:
3. Obtener la sumatoria de los rangos
cuyo signo es el menos frecuente, por
ejemplo: si el signo es +, se
considerará para efectuar sumatorias;
sin embargo, la sumatoria mencionada
finalmente pierde el signo.
4. Si se trata de muestras pequeñas,
comparar el valor obtenido con los
valores críticos de la tabla de
Wilcoxon.
64

Pasos:
5. Distribuir las muestras mayores
que 25 bajo la curva normal y, por
tanto, calcular el valor Z, en
referencia al cual se debe consultar
la probabilidad de diferir con
respecto al promedio en la tabla de
probabilidades asociadas.
6. Decidir si se acepta o rechaza la
hipótesis.
65

PRUEBA DE WILCOXON PARA MUESTRAS PEQUEÑAS


EJEMPLO 1
Utilizando la prueba de dos colas:

• Un investigador desea comparar el


grado de hiperactividad en obesos
cuando están en un programa para
bajar de peso (dieta) y sin programa
para bajar de peso.
• Elección de la prueba estadística.
Se tienen dos muestras
dependientes y, por el tipo de
medición, es posible listarlas en una
escala ordinal.
66

EJEMPLO 1

Planteamiento de la hipótesis.
• Hipótesis nula (Ho). No existe diferencia significativa
entre el grado de hiperactividad en obesos cuando están
en un programa de dieta y sin el programa de dieta, esto
es debido al azar.

• Hipótesis alterna (Ha). Existe diferencia significativa


entre el grado de hiperactividad en obesos cuando están
en un programa de dieta y sin el programa de dieta.
67

EJEMPLO 1

• Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05,
se rechaza Ho y se acepta Ha.
• Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, no se
rechaza Ho y se rechaza Ha.
68

EJEMPLO 1
• Aplicación de la prueba estadística.
Se obtienen las diferencias observadas en los incrementos de
hiperactividad en obesos, estando en un programa de dieta o no.
• Estos valores podrán tener signos positivos y negativos, los cuales
quedarían abolidos al ordenarse los rangos y éstos los adoptan.

*
***
*

S+: 39.5
** S-: 15.5
***
**
** Se elije el menor
**
* Existen dos 1 sin considerar el signo por lo tanto: (1+2)/2=1.5 Sumatoria
** Existen cuatro 2 por lo tanto: (3+4+5+6)/4=4.5
***Existen dos 3 por lo tanto: (7+8)/2=7.5 de W = 15.5
Existen dos4 por lo tanto (9+10)= 9.5
69

EJEMPLO 1
• El valor T de la prueba de Wilcoxon obtenido se compara
con los valores críticos de la tabla T en pruebas de rangos
señalados de pares iguales de Wilcoxon.
• tc = 15.5

Para dos colas = α = 0.05


N= 10
Entonces tt = 8

• Si tc <= tt se rechaza Ho
70

EJEMPLO 1

• Decisión.

• Como 15.5 no es <= 8 no se rechaza Ho y se rechaza la


Ha.
• Interpretación.
Las diferencias en el incremento o disminución de la
hiperactividad en personas obesas con dieta o sin dieta,
no son significativas. Estadísticamente resultan iguales,
en razón de que pueden ser diferencias dadas al azar.
71

PRUEBA DE WILCOXON PARA MUESTRAS


GRANDES
• Las muestras grandes
que deben ser mayores a
25 se les debe
transformar en valor Z.
72

Prueba de Wilcoxon para muestras


grandes
La fórmula es:

𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇
• Donde:
ZT = valor Z de la T de Wilcoxon.
W = valor estadístico de Wilcoxon.
T = promedio de la T de Wilcoxon.

sT = desviación estándar de la T de Wilcoxon.


73

Prueba de Wilcoxon para muestras


grandes
Cálculos previos:
:

• Donde:
N = tamaño de la muestra
74

PRUEBA DE WILCOXON PARA MUESTRAS GRANDES


EJEMPLO 2
• Un investigador desea comparar el nivel de
C.I. en jóvenes universitarios del 1er
semestre con el C.I. del los mismos
universitarios cuando estén en 6to
semestre. Se seleccionó al azar a 30 jóvenes
75

PRUEBA DE WILCOXON PARA MUESTRAS GRANDES


EJEMPLO 2
• Elección de la prueba estadística.
El modelo experimental tiene dos
muestras dependientes.
• Las mediciones no tienen una escala de
intervalo, por lo que su ordenamiento se
hace en escala ordinal
76

EJEMPLO 2

• Planteamiento de la hipótesis.
• Hipótesis nula (Ho). No habrá diferencia en el
nivel de C.I. de los jóvenes universitarios
estando en 1er semestre y cuando estén en 6to
semestre.
• Hipótesis alterna (Ha). El nivel de C.I. de los
jóvenes universitarios estando en 1er semestre
es menor al que adquieren al estar en 6to
semestre.
77

EJEMPLO 2

• Nivel de significación.
Para todo valor de probabilidad igual o
menor que 0.05, se rechaza Ho y se acepta
Ha.
• Zona de rechazo.
Para todo valor de probabilidad mayor que
0.05, no se rechaza Ho y se rechaza Ha.
78

EJEMPLO 2
• Aplicación de la
prueba
estadística.
Efectuar las
diferencias entre
los datos sobre le
C.I. antes y
después, elaborar
los rangos de las
diferencias y
hacer la
sumatoria de los
rangos de signo
de menor
frecuencia.
79

EJEMPLO 2
• La sumatoria del valor W de Wilcoxon es igual a 201.5 y,
como se especificó en los pasos, éste se debe transformar en
valor de Z, para conocer la probabilidad de que aquella sea o
no significativa. Para ello debemos calcular primero el
promedio y la desviación estándar de la T de Wilcoxon.
80

EJEMPLO 2

• Una vez calculados el promedio y la desviación estándar del


valor T de Wilcoxon, calculamos el valor Z.

𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇
81

EJEMPLO 2
• El valor ZT calculado se
localiza entre los valores Z de
la distribución normal de la
tabla de probabilidades
asociadas en valores
extremos como los de 2 en la
distribución normal.
• En la intersección de la
hilera donde se encuentra el
0.6 y la columna 0.03, se
puede observar la cifra
0.2643, la cual indica la
probabilidad de que la
magnitud de ZT difiera de T.
82

EJEMPLO 2

Decisión.
La probabilidad de 0.2644 es mayor que 0.05,
por lo cual no se rechaza la Ho y se rechaza Ha.

0.2644 > 0.05 se rechaza Ha

Interpretación.
No existe diferencia estadísticamente
significativa entre el C.I. en jóvenes estando en
1er semestre y cuando están en 6to semestre.
EJEMPLO 03
Las puntuaciones
correspondientes a 15 obreros
en destreza de manejo de un
equipo, antes y después de
realizar una capacitación son
las siguientes :

Antes :
5,6,6,8,7,5,4,3,7,5,6,6,3,5,5

Después :
6,6,7,9,6,4,6,3,8,8,4,7,2,7,8
EJEMPLO 03
Las hipótesis en la prueba de wilcoxon se pueden
enunciar de la manera siguiente:

H0 W(+) = W(-)


Ha W(+) ≠ W(-)
•H0 = las puntuaciones entre los 15 obreros antes y
después de realizar la capacitación son iguales
•Ha = las puntuaciones entre los 15 obreros antes y
después de realizar la capacitación son diferentes
EJEMPLO 03

PASOS

La prueba consiste en calcular las diferencias entre


los valores y ordenarlas de menor a mayor por valor
absoluto
EJEMPLO 03

Una vez ordenadas las diferencias, se numeran de 1 a n,


siendo n el número de elementos de la muestra; al
número asignado se le denomina rango.
EJEMPLO 03
1+
36
2
---- =4.5
3
8
4
1 5
6
7
8
---
36
9+ 30
2 10 ---- =10
11 3
----
30

El rango 1 se asigna a la mínima diferencia observada en valor absoluto, y


así sucesivamente hasta n, cuyo rango corresponde a la máxima
diferencia. Si hay empate, se asigna a cada diferencia empatada la media
de los rangos implicados en el empate
EJEMPLO 03

Se asigna el signo menos a las diferencias negativas y el signo más a las diferencias
positivas. El signo (-), en este caso, significa que la puntuación ha aumentado, puesto
que al restar ANTES-DESPUÉS las puntuaciones que han aumentado tienen
diferencia negativa. El signo en esta prueba es un símbolo diferenciador y debe
tenerse cuidado con su interpretación
EJEMPLO 03

W+ = 23.5

W  = 67.5

.
Una vez ordenados los datos, se suman los rangos de las diferencias
positivas, W+, y negativas, W-, y se elige el menor de los dos. Los
casos en los que la diferencia es cero se ignoran.
EJEMPLO 03

• W+ = 23,5 y los
negativos W- = 67,5.
• Como valor W se
considera el menor, es
decir, 23,5.
• n = 15
• El punto crítico para una
significación de ( 0,05)
es 25,
EJEMPLO 03

• El punto crítico para una significación de (


0,05) es 25, como el valor W obtenido' es 23,5
que es menor se rechaza la hipótesis nula y
• Se concluye que hay diferencias
estadísticamente significativas entre las dos
variables y, consecuentemente, la capacitacion
ha tenido influencia en las puntuaciones.
92

EJEMPLO 04

 Se ha realizado un estudio sobre la


salud mental de la población activa
de sujetos de 60 años, con una
prueba de desajuste emocional (X)
cuya mediana es de 80
 Un psicólogo cree que tras la
jubilación esta población sufre un
aumento de sus desajustes
emocionales.
 Con el fin de verificarlo, se selecciona
al azar una muestra de personas
jubiladas, y se les realiza la prueba de
desajuste
93

EJEMPLO 04

 Los resultados obtenidos son


los siguientes:

•X: 69 70 75 79 83 86 88
89 90 93 96 97 98 99

 ¿Se puede concluir, con un nivel de significación de


0,05, que tras la jubilación aumenta el promedio de
desajuste emocional en estas personas?
94

EJEMPLO 04

SOLUCION:
1) Hipótesis
• H0: Me = 80  La población no
incrementa su promedio de
desajuste.

• H1: Me > 80  La población


aumenta su nivel de desajuste tras
la jubilación.
95

EJEMPLO 04

2.- Supuestos:

• La muestra es aleatoria
• La variable es continua y
• El nivel de medida es de
intervalo.
96

EJEMPLO 04

3.-Cálculos
Aunque la muestra es pequeña
se va ha utilizar los dos
estadísticos:

a) Averigüemos Di = X – 80 y
ordenemos las | Di |:
EJEMPLO 04

Pun 70 75 79 83 86 88
Dif -11 -10 -5 -1 3 6 8
Ord 9 7.5 3 1 2 4 5

Pun 89 90 93 96 97 98 99
Dif 9 10 13 16 17 18 19
Ord 6 7.5 10 11 12 13 14

W= ∑Oi = 9+7,5+3+1 = 20,5


98

EJEMPLO 04

3.-Cálculos

b) Hallamos z

𝑊− 𝑋𝑇
Z𝑇 = 𝜎𝑇

(20,5 + 0,5) – (14)(15)/4 21 – 52,5


ZT = ------------------------------------- = --------------- =-
1,98
√(14)(15)(28 + 1)/24 15,93
99

EJEMPLO 04

4.- Regla de decisión:

Puesto que
• α = 0,05:
• W14,0,05 = 21 > 20,5,
• por lo que rechazamos H0.

• Z0.05 = -1,64 > -1,98,


• por lo que se rechaza H0.
100

EJEMPLO 04

4.-Desición y conclusión

• Hay evidencia suficiente para concluir


que tras la jubilación, aumenta el nivel de
desajuste, medido por X.
101

EJEMPLO 05

• Se quiere investigar qué tipo de


avisos le prestan más atención
los adolescentes.
• Para ello se observan a 11
adolecentes, de los cuales a 6 se
les muestra avisos sobre comida
y a los 5 restantes se les muestra
avisos sobre bebidas. Todos los
avisos tienen duración similar. Se
registra el tiempo de atención (en
segundos) de los 11 adolecentes.
102

EJEMPLO 05
a) Establecer las hipótesis de interés
• Como no se tiene ninguna información anterior sobre
cuál de los dos tipos de avisos son los preferidos, se
planteara una hipótesis bilateral y saber si hay o no
diferencias entre ellos.

• Ho: la distribución del tiempo de atención que prestan


los adolescentes a avisos sobre comida es igual a la
distribución de los avisos de bebidas
• H1: la distribución del tiempo de atención que prestan
los adolescentes a avisos sobre comida es distinta a la
distribución de los avisos de bebidas
103

EJEMPLO 05
a) Establezca las hipótesis de interés
• Ho: mediana del tiempo de atención que prestan los
adolescentes a avisos sobre comida es igual a la mediana
de los avisos de bebidas
• H1: mediana del tiempo de atención que prestan los
adolescentes a avisos sobre comida es distinta a la
mediana de los avisos de bebidas
104

EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
• Para probar la hipótesis de interés usamos el test de
Wilcoxon para muestras independientes es decir el "Test
de suma de rangos de Wilcoxon".
• Primero ordenamos los datos, sin importar el grupo:
105

EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
𝑁1 (𝑁+1)
• El estadístico W de Wilcoxon, será la µw =
2
suma menor de los rangos en este caso
19 que corresponde a la suma de los
rangos de las bebidas.
• Es test estadístico aproximado Z se σW = 𝑁1 𝑁2 (𝑁+1)
12
construye a partir de W, la media y la
desviación estándar:
106

EJEMPLO 05
b) Cálculos del estadístico W de Wilcoxon
• El resultado es igual al de la tabla ya que en
este caso no hay empates y no es necesario
hacer corrección.
• La sig. asintótica (bilateral ) es el valor p
bilateral aproximado 0,045 y sale de las
tablas de la distribución normal.
• .Como 0.045 < 0.05 se rechazaría Ho
• Pero la aproximación Normal funciona
bien si el tamaño de la muestra es grande,
pero en general los métodos no
paramétricos son usados para tamaños
muestrales pequeños.
107

EJEMPLO 05
c) Informe su análisis y conclusión
• Para validar la hipótesis en (a) usamos
el test de suma de rangos de Wilcoxon
(test para muestras independientes).
• Para resolver el test nos basamos en la
distribución exacta del estadístico
W=19, y el de la tabla Wilcoxon W11,
0.05 nos da 10
• Este valor estadístico W es mayor que
el W tabla, por lo tanto no se rechaza
Ho y concluimos que no tenemos
suficiente evidencia para decir que hay
diferencias significativas en la atención
de avisos publicitarios.
FIN
wjleonv@yahoo.com
UNMSM ESTADISTICA
FII INDUSTRIAL

TEMA 12
METODOS NO PARAMETRICOS
PARTE II

Por William León Velásquez


CONTENIDO
PRUEBA de Mann-Whitney
PRUEBA de Kruskal-Wallis
3

Prueba de Mann-Whitney
• La prueba U de Mann-Whitney
(también llamada de Mann-Whitney-
Wilcoxon, prueba de suma de
rangos Wilcoxon, o prueba de
Wilcoxon-Mann-Whitney) es una
prueba no paramétrica aplicada a
dos muestras independientes.
• Es, la versión no paramétrica de la
prueba t de Student.
4

Prueba de Mann-Whitney
• Fue propuesto inicialmente en 1945
por Frank Wilcoxon para muestras de
igual tamaños y extendido a
muestras de tamaño arbitrario
como en otros sentidos por
Henry B. Mann y D. R. Whitney
en 1947.
• Consiste en ordenar las (n1+ n 2 )
observaciones de acuerdo con su
magnitud y contar el número de
observaciones de la muestra A, por
ejemplo, que preceden a cada
observación de la B, así resulta el Henry B. Mann y D. R. Whitney
estadístico U que es la suma de estas
enumeraciones.
5

Prueba de Mann-Whitney
Muestras pequeñas (n1 y n2 20)
U R i1 Hay tablas para este
(U es la suma de los rangos caso de muestras
asignados a la muestra 1) pequeñas;
Muestras grandes
Si la muestra es
= relativamente grande,
se puede efectuar la
aproximación a la
distribución normal
La hipótesis nula es que no existe
diferencias entre los dos grupos
6

Procedimiento para realizar la


Prueba de Mann-Whitney
Paso 1:
Determinar el tamaño de las
muestras (n1 y n2).
Si n1 + n2 son menores o iguales que
20, se consideran muestras
pequeñas,
Pero si son mayores que 20, se
consideran muestras grandes.
7

Prueba de Mann-Whitney
Paso 2:

Arreglar los datos en rangos del menor al


mayor valor.
En caso de que existan ligas o empates de
rangos iguales, se deberán detectar para un
ajuste posterior.
8

Prueba de Mann-Whitney
Paso 3:
Calcular los valores de U1 y U2, de modo que se
elija el más pequeño para comparar con los
valores críticos de U Mann-Whitney de la tabla
de probabilidades asociadas con valores
pequeños como los de U en la prueba de Mann-
Whitney.

En caso de muestras grandes, calcular el valor Z,


pues en estas condiciones se distribuye
normalmente.
9

Prueba de Mann-Whitney
Paso 4:
Decidir si no se rechaza o se rechaza la
hipótesis nula.
10

Prueba de Mann-Whitney
muestras pequeñas
La fórmula es la siguiente:

U1 y U2 = valores del estadístico de U Mann-Whitney


n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
∑R1 = sumatoria de los rangos del grupo 1.
∑R2 = sumatoria de los rangos del grupo 2.
Ejemplo11 1

Prueba de Mann-Whitney
EJEMPLO 1

Se llevó a cabo un estudio


que analiza la frecuencia del
pulso en dos grupos de
personas de edades
diferentes, después de diez
minutos de ejercicios
aeróbicos.
Ejemplo 1

Prueba de Mann-Whitney
Los datos resultantes se muestran a continuación.
Edad 40-44 Edad 16-20
140 130
135 166
150 128
140 126
144 140
154 136
160 132
144 128
136 124
148
¿Tuvieron diferencias significativas las frecuencias de pulso
12
de ambos grupos?
13 1
Ejemplo

Prueba de Mann-Whitney
Formulación de las hipótesis:

Ho: Las distribuciones de frecuencias relativas de las


poblaciones A y B son iguales
Ha: Las distribuciones de frecuencias relativas
poblacionales no son iguales

Ho: Me1 = Me2


Ha: Me1 Me2
Me1, Me2 = Medianas de las poblaciones
14 1
Ejemplo

Prueba de Mann-Whitney
Ordenando los datos y asignándoles el (rango) de su posición relativa se tiene
:

∑R1y ∑R2
Se promedia suma de
las rangos
posiciones
para el caso ∑R1
de que sean
iguales

∑R2
15 1
Ejemplo

Prueba de Mann-Whitney
Como n1 = 10 y n2 = 9 => 10+9= 19<=20 Muestra pequeña

∑R1= 130.5 ∑R2= 55.5

Ua = 10*9 + (10) * (10 + 1) /2 - ∑R1


Ub = 10*9 + (9) * (9 + 1) /2 – ∑R2
Ua = 90+55- ∑R1
Ub = 90+45- ∑R2
Ua = 90 + 55 - 130.5 = 14.5

Ub = 90 + 45 - 55.5 = 79.5

El menor de los dos es Ua.


16 1
Ejemplo

Prueba de Mann-Whitney
Cálculo del valor crítico de Uo
Con un alfa = 0.05
n1=10 y n2= 9
De la tabla de Mann-Whitney

El valor de la tabla es:76

Calculando Uo
Uo= n1(n1+n2+1)/2 - TL
- Uo= 10(10+9+1)/2 - 76= 24
17 1
Ejemplo

Prueba de Mann-Whitney
Para alfa = 0.05 el valor de Uo = 24
Si Ua < Uo se rechaza la Ho
Como Ua < 24  14.5 < 24
se rechaza la Hipótesis Ho de que las medianas
son iguales.

Estadísticamente existe una diferencia significativa


entre los dos grupos de edad.
18

Prueba de Mann-Whitney
muestras grandes
La fórmula es la siguiente:
=
U1 y U2 = valores estadísticos de U Mann-Whitney

= Des. Estándar de Mann-Whitney


19

Prueba de Mann-Whitney Ejemplo 2

EJEMPLO 2
• De una universidad se ha seleccionado dos muestra de 10
estudiantes de dos facultades diferentes y se quiere saber
si las edades de ambos grupos son iguales
• Se conoce la sumatoria de los dos rangos
• Ua = 14.5 Ub = 79.5
Ho: Las distribuciones de frecuencias
relativas poblaciones de las edades
de las A y B son iguales
Ha: Las distribuciones de frecuencias
relativas poblacionales de las edades
no son iguales
20

Prueba de Mann-Whitney Ejemplo 2

Ua = 14.5 Ub = 79.5

= =μU= n1* n2 / 2 = (10*10)/2 = 50

DS= σU= Raiz (n1 * n2 * (n1 + n2 + 1) / 12


DS= σU=Raiz(10 *10 * 21/12) = 13.23
21

Prueba de Mann-Whitney Ejemplo 2

Utilizando el estadístico Z y la distribución normal se tiene:

=
Con Ua y Ub se tiene:

Za = (14.5 - 50) / 13.23 = - 2.68 P(Za) = 0.003681


0.012874
Zb = (79.5 -50) / 13.23 = 2.23 P(Zb) = 0.012874

P(total) = 2 * 0.012874 = 0.025748 menor = 0.05

Dado que p < 0.05, rechazamos la hipótesis nula.


Estadísticamente existe una diferencia significativa entre los dos
grupos de edad.
22

Prueba de Mann-Whitney Ejemplo 3

EJEMPLO 03

Para determinar si la asistencia a un curso de ofimática


modifica el estilo cognitivo, se seleccionan dos grupos de 10
alumnos, uno de los cuales siguió el curso (grupo
experimental) mientras que al otro no se le aplicó ningún
tratamiento (grupo control).

Tras la realización del curso, mediante


una escala adecuada se midió el estilo
cognitivo de-ambos grupos,-variable
que-no se distribuye normalmente en
la población.
23

Prueba de Mann-Whitney Ejemplo 3

Los datos se muestran en la tabla

¿Podemos afirmar que los dos grupos son diferentes


en cuanto a estilo cognitivo después de haber
finalizado el curso?
24

Prueba de Mann-Whitney Ejemplo 3

• Por el enunciado, los datos no siguen una distribución


normal por lo que se utilizará una prueba no
paramétrica.
• Las dos muestras son independientes, la prueba más
adecuada es la prueba de Mann-Whitney.
Formulación de la hipótesis:
H0: No existen diferencias entre el grupo
experimental y el grupo control.
H1: Existen diferencias significativas entre el
grupo experimental y el grupo control.
• Nivel de significación (0.05)
25

Prueba de Mann-Whitney Ejemplo 3



Se va ha calcular los estadísticos T :
26

Prueba de Mann-Whitney Ejemplo 3

Cálculo de los estadísticos U:

La suma de rangos de la primera muestra o estadístico ∑A es 72.

- 72 = 83
La suma de rangos de la segunda muestra o estadístico ∑B es 138.

- 138 = 17
27

Prueba de Mann-Whitney
Ejemplo 3

Para calcular el U de la tabla


Para alfa = 0.05 n1= 10 y n2=10
De la tabla de Mann-Whitney

Uo= n1(n1+n2+1)/2 - TL
Uo= 10(10+10+1)/2 - 79= 26
28

Prueba de Mann-Whitney Ejemplo 3

Para alfa = 0.05 el valor de Uo = 26 y un Ua=17

Si Ua < Uo se rechaza la Ho

Como Ua < 26  17 < 26

se rechaza la Hipótesis Ho de que las medianas son iguales, es


decir los grupos son diferentes en estilo cognitivo.
29

Prueba de Mann-Whitney Ejemplo 4

EJEMPLO 04
• Los adultos obesos que acuden a un
centro de control de peso de una gran
ciudad, son sometidos a uno de dos
tratamientos para reducir de peso: plan
de alimentación dirigido y plan de
alimentación dirigido combinado con un
plan de actividad física.
• Determinar si el peso perdido a los 6
meses después de iniciado el tratamiento
de reducción de peso, difiere
significativamente entre los dos tipos de
tratamientos.
30

Prueba de Mann-Whitney Ejemplo 4

Los datos recopilados se encuentran a continuación:


Tratamiento de reducción Peso perdido en 6 meses (kg)
de peso
Plan de alimentación dirigida 2 8 10 7 12 20
(Plan 1)
Plan de alimentación dirigida 28 16 14 15 9 15
+Plan de AF (Plan 2)
Consideraciones:
• VI: Tratamientos para reducción de peso.
• 2 grupos independientes: (1) Obesos que llevan a cabo un plan de
alimentación dirigido; (2) Obesos que siguen un plan de
alimentación combinado con un plan de actividad física.
• VD: Peso perdido a los 6 meses después de iniciada la intervención
(en Kg)
31

Prueba de Mann-Whitney Ejemplo 4

Planteamiento de la hipótesis:
Ho: El peso perdido a los 6 meses no es
significativamente diferente entre los obesos que
llevan a cabo un plan de alimentación dirigido y
aquellos que siguen un plan de alimentación
combinado con un plan de actividad física.
HA: El peso perdido a los 6 meses es significativamente
diferente entre los obesos que llevan a cabo un plan
de alimentación dirigido y aquellos que siguen un
plan de alimentación combinado con un plan de
actividad física.

• Regla de decisión: Si p ≤ 0.05 se rechaza Ho


32

Prueba de Mann-Whitney Ejemplo 4

• Determinar tamaño de muestras


• n1 = 6
• n2 = 6
• Ordenar observaciones en rangos de menor a mayor
33

Prueba de Mann-Whitney Ejemplo 4

• Cálculo del estadístico U

• Donde:
U1 y U2 = valores estadísticos de U Mann-Whitney.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
∑R1 = sumatoria de los rangos del grupo 1.
∑R2 = sumatoria de los rangos del grupo 2.
34

Prueba de Mann-Whitney Ejemplo 4

• De los dos valores de U calculados, se elige el más


pequeño (7) y se compara con los valores críticos de U
Mann-Whitney de la tabla de probabilidades.
35

Prueba de Mann-Whitney Ejemplo 4

Valor de probabilidad:
• 0.047 (unilateral) x 2 = 0.09
Decisión
• Como valor de la probabilidad (0.09) > 0.05, no se
rechaza la H0.
• Se evidencia que el peso perdido a los 6 meses no es
significativamente diferente entre los obesos que siguen
sólo un plan de alimentación dirigido y los que siguen el
plan de alimentación combinado con un plan de
actividad física, con un nivel de significancia de 0.05
36

Ing. William león


Velásquez

PRUEBA de
Kruskal-Wallis
OBJETIVO /
Esta prueba permite decidir si puede aceptarse la
hipótesis de que “r” muestras independientes
proceden de la misma población o de poblaciones
idénticas con la misma mediana. William Kruskal – Wilson Wallis
37

Ing. William león

PRUEBA NO PARAMÉTRICA Kruskal-Wallis


Velásquez

La prueba de Kruskal-Wallis es un Método


noparamétrico para:
1. Probar si un grupo de datos proviene de la
misma población.
2.Se emplea cuando se quieren comparar
/
tres o más poblaciones.
3. Es el equivalente a un análisis de varianza
de una sola vía.
4. No requiere supuesto de normalidad.
5.No requiere supuesto de varianzas iguales
(homogeneidad de varianzas).
6. Compara esencialmente los rangos
promedios observados para las “r”
muestras, con los esperados bajo Ho
38

Ing. William león

PLANTEAMIENTO DE HIPÓTESIS
Velásquez

H0: Las poblaciones de las que proceden las tres “r” muestras
son idénticas (idéntica mediana)

Ho : Me1=Me2= …..=Mei
/
H1: Hay al menos dos poblaciones distintas (medianas
diferentes)*

*No implica que un grupo en concreto sea superior que otro.


39

Ing. William león


Velásquez

ESTADÍSTICO DE PRUEBA
Donde:
N=total de datos de las muestras.
Ri=sumatoria de rangos de cada
muestra.
ni=número de datos de cada muestra

Regla de decisión
40

Ing. William león

PROCEDIMIENTO
Velásquez

1. Planteamiento de hipótesis.
2. Se ordenan las “n” observaciones de
menor a mayor, y se les asignan rangos
desde 1 hasta “n”.
/
3. Se obtiene la suma de los rangos
correspondientes a los elementos de cada
muestra “Ri” y se halla el rango
promedio.
4. Calcular estadístico de prueba.
5. Buscar H en la Tabla de Chi cuadrado.
6. Conclusiones.
41

Ing. William león


Velásquez

EJEMPLO 1
Una empresa manufacturera desea
contratar personal para su equipo
gerencial.
Realiza una convocatoria y se
presentan 20 postulantes, se realizan
/
las evaluaciones y se dispone de los
resultados de las calificaciones de
desempeño identificando que
provienen de 3 escuelas diferentes,
que se va ha considerar como
muestras independientes para saber si
existe alguna diferencia en la
preparación de sus estudiantes.
42

Ing. William león

EJEMPLO 1
Velásquez

Se han obtenido las calificaciones de 7 empleados de la


escuela A, 6 empleados de la escuela B y 7 empleados de
la escuela C.
La calificación de cada postulante está en escala de 0 a
100.
/ A B C
25 30 40
60 60 90
50 85 90
70 15 35
20 80 70
70 95 80
60 75
43

Ing. William león

PLANTEAMIENTO DE HIPÓTESIS
Velásquez

Ho: Las Escuelas son idénticas en términos de las


evaluaciones de desempeño.

H1: Por lo menos una de las Escuelas no es idéntica en


términos de las evaluaciones de desempeño.
/

Con un grado de significancia del 5%.


44

ORDEN DE DATOS Ing. William león


Velásquez

Se ordenan las “n“ observaciones de menor a mayor, y


se les asignan rangos desde 1 hasta “n”

Se Ubicar los
ordenan rangos
las “n” asignados de
observacio /
acuerdo a la
nes clasificación
original
(escuelas)
45

Ing. William león

SUMA DE RANGOS
Velásquez

Se obtiene la suma de los rangos (a,b,c)


correspondientes a los elementos de cada muestra Ri

/
46

Ing. William león

CALCULAR ESTADÍSTICO DE PRUEBAPRUEBA


Velásquez

H= 0.02857 ( 2304.982 )-63

H=2.853
47

Ing. William león

ENCONTRAR EL ESTADÍSTICO DE LA TABLA


Velásquez

Al buscar en la tabla Chi-cuadrado con un grado de


significancia de 5%, se tiene:
48

Ing. William león

ENCONTRAR EL ESTADÍSTICO DE LA TABLA


Velásquez

Al buscar en la tabla Chi-cuadrado con un grado de


significancia de 5%, se tiene:

2,0.05=5.991
2 2
r-1,α=
49

Ing. William león

CONCLUSIONES
Velásquez

Regla de decisión

Se rechaza la hipótesis nula

No se rechaza la hipótesis nula

Y como H=3.21 entonces:

2.853 <= 5.991


Por tanto, no se rechaza la H0, es decir, las
poblaciones son idénticas en términos de las
evaluaciones de desempeño.
50

Ing. William león


Velásquez

EJEMPLO 2
En tres empresas se esta determinando el
grado (%) de propensión al ahorro de sus
trabajadores. Para verificar si la disposición
al ahorro es similar en dichas empresas, se
obtiene una muestra en cada una de las
empresas, cuyos resultados son los
siguientes:
Empresa 1 Empresa 2 Empresa 2
0.251 0.140 0.112
0.326 0.204 0.306
Propensión
0.146 0.318 0.241
al ahorro
0.093 0.109
0.172
51

Ing. William león


Velásquez

PLANTEAMIENTO DE HIPÓTESIS

Ho: El grado de propensión al ahorro es el


mismo en las tres empresas.
H1: Por lo menos una empresa no es idéntica
en términos de propensión al ahorro.

Con un grado de significancia del 5%.


52

ORDEN DE DATOS
Ing. William león
Velásquez

Se ordenan las “n“ observaciones de menor a mayor, y se les


asignan rangos desde 1 hasta “n”
Ubicar los rangos asignados de acuerdo a
Se ordenan las “n” observaciones la clasificación original (empresas)
Empresa
Empresa
53

SUMA DE RANGOS
Ing. William león
Velásquez

Se obtiene la suma de los rangos (R1,R2,R3) correspondientes


a los elementos de cada muestra Ri y se halla el rango
promedio.
Empresa Empresa

Empresa
54

Ing. William león


Velásquez

CALCULAR ESTADÍSTICO DE PRUEBA


55

Ing. William león


Velásquez

CONCLUSIONES

Al buscar en la tabla Chi-cuadrado con un grado de


significancia de 5%, se tiene:
56

Ing. William león


Velásquez

CONCLUSIONES

Y como H=1.44 entonces:


1.44<= 5.991

Por tanto, no se rechaza la H0, es decir, las poblaciones


son idénticas en términos de propensión al ahorro.
57

Ejemplo 3
• Se ha registrado el tamaño de los centros
acogidos a tres programas de experimentación,
que cuentan con la participación de 4, 3 y 4
centros respectivamente.
• Si el número de unidades de cada uno de estos
centros es el que se muestran a continuación,
¿podemos afirmar que el tamaño no marca
diferencias entre los centros implicados en los
tres programas? (α = 0.05)
58

PLANTEAMIENTO DE HIPÓTESIS

• Dado que el número de casos es muy pequeño, la prueba


idónea será una prueba no paramétrica. Puesto que
tenemos que tres muestras cuyos datos no se encuentran
relacionados, la prueba a utilizar será la de Kruskal-Wallis.
Las hipótesis a contrastar son las siguientes:
• H0: No existen diferencias entre los k grupos.
• H1: Existen diferencias significativas entre los k grupos.
• Para calcular el estadístico de contraste, debemos ordenar
las puntuaciones, como si fueran una sola muestra:
59

ORDEN DE DATOS

20 19 16 21 24 22 28 23 15 18 26
A A A A B B B C C C C
5 4 2 6 9 7 11 8 1 3 10
60

SUMA DE RANGOS

• Y calculamos la suma de rangos para cada una de las


muestras:
• R1 = 5 + 4 + 2 + 6 = 17
• R2 = 9 + 7 + 11 = 27
• R3 = 8 + 1 + 3 + 10 = 22
61

CALCULAR ESTADÍSTICO DE PRUEBA

• La expresión del estadístico U es la siguiente:

Sustituyendo, obtenemos que U es:


62

CONCLUSIONES Ing. William león


Velásquez

Buscamos en la tabla correspondiente


la probabilidad asociada para χ0.95, 3-1,
y encontramos que es 5.991.
63

CONCLUSION

Y como H=3.66 entonces:


5.991>= 3.66
Y como H=3.66 entonces:
3.66<= 5.991

3.66 5.991

Por tanto, no se rechaza la H0, por lo tanto no existen


diferencias entre los k grupos.
64

Ejemplo 4
• Un investigador estudia el efecto benéfico
de cuatro sustancias anticonvulsionantes
(a1, a2, a3 y a4), para proteger contra la
muerte producida por un convulsionante, la
cual se manifiesta después de una crisis
• El investigador elige al azar a 24 ratones de
la misma edad y peso y les inyecta
anticonvulsionante previamente al
suministro del convulsionante
• A partir de este momento, inicia la cuenta en
tiempo, hasta que mueren los ratones;
además mide las observaciones en horas
de tiempo transcurrido.
65

ANALISIS
• Elección de la prueba estadística.
Las mediciones se realizan en horas, por lo
que la variable puede ser continua y, en
consecuencia, una escala de intervalo; sin
embargo, algunos ratones no murieron y el
tiempo está calificado nominalmente como
infinito.
• Este obstáculo impide concederle la
calificación de escala de intervalo, por lo cual
se elige una escala de tipo ordinal.
66

Planteamiento de la hipótesis
• .
• Hipótesis nula (Ho). Las diferencias observadas
en los cuatro grupos de fármacos
anticonvulsionantes, para evitar la muerte
producida por el convulsionante, se deben al
azar.
• Hipótesis alterna (Ha). La protección de la
muerte por drogas anticonvulsionante contra el
fármaco convulsionante, se muestra diferente
entre los cuatro grupos, y hay mejor protección
por unos de ellos.
67

Nivel de significación. Ejemplo 4

• Para todo valor de probabilidad igual o menor que 0.05, se


acepta Ha y se rechaza Ho.
• Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta
Ho y se rechaza Ha.
• Tiempo en horas que tarda el fármaco en causar la muerte
en ratones.
A1 A2 A3 A4
2 0.5 ∞ 4
4 1 ∞ 3
6 6 8 5
4 6 9 1
2 0.3 ∞ 6
1 0.4 8 3
68

Ejemplo 4
 Aplicación de la prueba
estadística.
De acuerdo con los pasos,
se inicia con el
ordenamiento de todas las
observaciones a partir del
valor más pequeño hasta el
mayor y la detección de las
ligas o empates.

 Arreglo de los datos para


asignar rangos y detectar
las ligas o empates.
69

Ejemplo 4
 Una vez efectuado el ordenamiento en rangos de las
observaciones, se hacen las sumatorias de los rangos.
Para facilitar esta tarea, elabórese una tabla en la que
sustituyan los datos.
 Sustitución por rangos. Observaciones de la primera
tabla.
a1 a2 a3 a4
70

Ejemplo 4
• Se calcula el valor de ajuste por empates con la
siguiente fórmula
71

Ejemplo 4

• Con el ajuste de L, se procede a calcular el valor


estadístico de la prueba de Kruskal-Wallis
72

Ejemplo 4
 Calculamos los grados de libertad.
 gl = K grupos - 1 = 4 - 1 = 3
 El estadístico H calculado de 15.4, se
compara con los valores críticos de χ 2.
 En seguida se busca en esa hilera la cifra
de grados de libertad (3) hasta el nivel de
significancia de 0.05 y se observa el valor
7.82, hasta los críticos 11.34 y 16.27,
donde se encuentra el calculado. Esto
quiere decir que la probabilidad de que
exista una diferencia se halla a una
probabilidad de error entre 0.01 y 0.001.
73

Ejemplo 4
 Decisión.
Como el valor estadístico H tiene una probabilidad
menor que 0.01 y éste es menor que el nivel de
significancia, se acepta Ha y se rechaza Ho.
 Interpretación.
Entre las drogas anticonvulsionantes, existe diferencia
significativa en cuanto a la protección de muerte a los
ratones cuando se les inyecta el fármaco
74

Ejemplo 5
• Se quiere estudiar si el pH de cuatro
lagunas situadas sobre sustratos
diferentes. Para ello se obtuvieron 8
muestras de agua procedentes de
cada una de las lagunas, midiéndose
el pH en cada una de ellas.
• Los datos de pH se ordenaron de
forma ascendente para cada laguna.
(Una muestra de agua de la laguna nº
3 se perdió, de forma que n3=7; pero
el test no requiere igualdad en el
número de datos de cada grupo). Los
rangos se muestran entre paréntesis.
75

Ejemplo 5

• Variable dependiente: pH (cuantitativa)


• Variable independiente: tipo de sustrato sobre el
que cada laguna (cualitativa)
• H0= el pH es el mismo en las cuatro lagunas
• H1= el pH no es el mismo en las cuatro charcas
76

Ejemplo 5
Laguna1 laguna 2 Laguna3 Laguna4
7.68 (1) 7.71 (6*) 7.74 (13.5*) 7.71 (6*)
7.69 (2) 7.73 (10*) 7.75 (16) 7.71 (6*)
7.70 (3.5*) 7.74 (13.5*) 7.77 (18) 7.74 (13.5*)
7.70 (3.5*) 7.74 (13.5*) 7.78 (20*) 7.79 (22)
7.72 (8) 7.78 (20*) 7.80 (23.5*) 7.81 (26*)
7.73 (10*) 7.78 (20*) 7.81 (26*) 7.85 (29)
7.73 (10*) 7.80 (23.5*) 7.84 (28) 7.87 (30)
7.76 (17) 7.81 (26*) 7.91 (31)
n1=8 n2=8 n3=7 n4=8
R1=55 R2=132.5 R3=145 R4=163.5
* Rangos ligados
77

Ejemplo 5
78

Ejemplo 5

El pH no es el mismo en todas las lagunas


FIN
wjleonv@yahoo.com
UNMSM ESTADISTICA
FII INDUSTRIAL

TEMA 13
SERIE DE TIEMPO

Por William León Velásquez


CONTENIDO
INTRODUCCIÓN
OBJETIVOS
SERIE DE TIEMPO
COMPONENTES DE UNA SERIE DE
TIEMPO
ANALISIS
3

INTRODUCCIÓN
Ing. William león
Velásquez

• En Estadística se le llama así a un


conjunto de valores observados
durante una serie de períodos
temporales secuencialmente
ordenada, tales períodos pueden ser
semanales, mensuales, trimestrales o
anuales
4

INTRODUCCIÓN
Ing. William león
Velásquez

• Se representa por medio de una gráfica de líneas


sobre cuyo eje horizontal se representan los
períodos y en cuyo eje vertical se representan los
valores de la serie de tiempo.
5

Ing. William león

OBJETIVOS
Velásquez

Analizar una serie de tiempo tiene como objetivos,


entre otros:
 Determinar si se presentan ciertos
patrones o pautas no aleatorias
Aislar y entonces estudiar sus
componentes a fin de proporcionar claves
para movimientos futuros
 Hace posible pronosticar los
movimientos futuros así como otros
aspectos que estén sincronizados
6

Ing. William león


Velásquez

SERIES DE TIEMPO
• Por serie de tiempo se refiere a los datos
estadísticos que se recopilan, observan o
registran en intervalos de tiempo regulares
(diario, semanal, semestral, anual, entre otros).
• El término serie de tiempo se
aplica por ejemplo a datos
registrados en forma
periódica que muestran, las
ventas anuales totales de
almacenes, el valor trimestral
total de contratos de
construcción otorgados, el
valor trimestral del PBI.
7

Ing. William león

SERIES DE TIEMPO
Velásquez

• Para llevar a cabo un


análisis de este tipo se
necesita:
Identificar los
componentes de la serie
de tiempo.
Aplicar las técnicas
estadísticas para su
análisis.
Hacer las proyecciones o
pronósticos de eventos
futuros
8

Ing. William león

SERIES DE TIEMPO
Velásquez

• El análisis de series de tiempo es el


procedimiento por el cual se identifican y aíslan
los factores relacionados con el tiempo que
influyen en los valores observados en las series
de tiempo para que una vez identificados.
• Estos factores puedan contribuir a la
interpretación de valores históricos de series de
tiempo y hasta entonces pronosticar valores
futuros de series de tiempo.
9

COMPONENTES DE UNA Ing. William león


Velásquez

SERIE DE TIEMPO
• El método clásico identifica cuatro influencias o
componentes:
• Tendencia (T)
• Fluctuaciones cíclicas (C)
• Variaciones estacionales (E)
• Variaciones irregulares (I)
10

Ing. William león

COMPONENTES DE UNA
Velásquez

SERIE DE TIEMPO
• Existe una relación multiplicativa que dan forma
al modelo clásico de series de tiempo,
• Para cualquier período designado en la serie de
tiempo, el valor de la variable está determinado
por los cuatro componentes en la siguiente
forma:

Y=TxCxExI
11

COMPONENTES DE UNA
Ing. William león
Velásquez

SERIE DE TIEMPO
• Las características son las siguientes:

Nombre y forma Ejemplos Otros datos Técnica a


utilizar
TENDENCIA (T) Ventas a largo -Se miden en Mínimos
Es el movimiento plazo. años cuadrados
general a largo plazo de Oferta de empleo. -Algunas se
los valores de la serie Precios de acciones mueven
de tiempo (Y) sobre un continuamente
extenso periodo de hacia arriba
años
12

COMPONENTES DE UNA Ing. William león


Velásquez

SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
FLUCTUACIONES Empleo -Se mide en años Valores cíclicos
CICLICAS (C) La -Ascenso y descanso relativos
Movimientos producción en periodos mayores
ascendentes y El precio de de un año
descendentes recurrentes las acciones -Periodos de
respecto a la tendencia prosperidad seguidos
con una duración de de recesión,
varios años depresión y luego
recuperación
13

COMPONENTES DE UNA
Ing. William león
Velásquez

SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
VARIACIONES Ventas altas -Solo se aprecian si Promedios móviles
ESTACIONALES (E) en navidad y se tiene datos
Movimientos bajas trimestrales o
ascendentes y después. mensuales.
descendentes respecto de Consumos -Patrones de cambio
la tendencia que se relacionados dentro de un mismo
consuman dentro de un con las año. Tales patrones
año y se repiten estaciones del se repiten cada año
anualmente. Se año
identifican mas en
periodos trimestrales
14

COMPONENTES DE UNA Ing. William león


Velásquez

SERIE DE TIEMPO
• Las características son las siguientes:
Nombre y forma Ejemplos Otros datos Técnica a
utilizar
VARIACIONES Guerras -No se pueden No existe técnica
IRREGULARES (I) Huelgas predecir, ni medir.
Variaciones erráticas Desastres
respecto de la tendencia naturales
que no pueden atribuirse
a influencias cíclicas o
estacionales
15

Ing. William león

ANÁLISIS DE TENDENCIA
Velásquez

• La tendencia secular o tendencia a largo plazo de una serie


es por lo común el resultado de factores a largo plazo.
• En términos intuitivos: la tendencia de una serie de tiempo
caracteriza el patrón gradual y consistente de las
variaciones de la propia serie, que se consideran
consecuencias de fuerzas persistentes que afectan el
crecimiento o la reducción de la misma.
Tales como:
• cambios en la población, en
las características
demográficas de la misma,
• cambios en los ingresos, en la
salud, en el nivel de
educación y tecnología.
16

Ing. William león

ANÁLISIS DE TENDENCIA
Velásquez

• Ejemplo de cómo se observan las tendencias:


• Observe el Gráfico donde se visualiza una tendencia en cuanto
al crecimiento de usuarios de internet en México que va de
2005 a 2010

• Observe que existe un


patrón del
comportamiento de esta
serie de tiempo;
• Ahora sólo faltaría
analizar detalladamente
con el método de
mínimos cuadrados.
17

Ing. William león

ANÁLISIS DE TENDENCIA
Velásquez

• Para el caso de tendencias a largo plazo, su comportamiento se


ajusta a una línea recta, llamada por esta razón línea de
tendencia, es decir, se aproxima a una ecuación de recta, que
recibe el nombre de ecuación de tendencia
• Es de la forma:
y = a + bt
18

ANÁLISIS DE TENDENCIA
Ing. William león
Velásquez

• Los coeficientes se calculan con ayuda del


método de mínimos cuadrados tratados
anteriormente con las siguientes fórmulas:
19

Ejemplo: Cálculo de la Tendencia a Ing. William león


Velásquez

través de Mínimos Cuadrados


• En la siguiente tabla se encuentran los datos de
las ventas de los últimos cinco años de una
empresa del ramo de alimentos:
20

Ejemplo: Cálculo de la Tendencia a Ing. William león


Velásquez

través de Mínimos Cuadrados


a) Graficar los datos.
b) Determinar la ecuación de tendencia e
interpretarla.
c) Trazar la recta de tendencia.
d) Pronosticar las ventas para los siguientes
dos años e interpretar el resultado.
21

Ing. William león


Velásquez

Solución
a) Con los datos que se tienen se obtiene la
siguiente gráfica:
22

Ing. William león


Velásquez

Solución
b) Para determinar los coeficientes de la
ecuación se debe construir una tabla con
los datos necesarios:
23

Ing. William león


Velásquez

Solución
• Se sustituyen los valores en las fórmulas
respectivas:
24

Ing. William león


Velásquez

Solución
• Calculado los coeficientes, se tiene la
siguiente Ecuación de Tendencia:
y = 6.1 + 1.3t
• La interpretación será:
• Las ventas se expresan en millones de
pesos, el origen o año 0, es 2003 y t
aumenta una unidad por año.
• El valor 1.3 indica que las ventas
aumentan a razón de 1.3 millones de
pesos por año. El valor 6.1 es el de las
ventas estimadas cuando t = 0.
• Es decir, el monto de las ventas
estimadas para el año 2003 es igual a
6.1 millones de pesos.
25

Ing. William león

Solución
Velásquez

c) Para trazar la recta, se deben tener dos


puntos, para el primero de ellos se puede
utilizar el valor 6.1 de la ecuación anterior
y el segundo se puede obtener asignando
un valor cualquiera a x, dentro del rango
del intervalo del que se dispone, por
ejemplo 4 (año 2006) para obtener el
valor de y, es decir:
y = 6.1 + 1.3t = 6.1+ 1.3(4)
=11.3
26

Solución Ing. William león


Velásquez

• Se puede trazar la Recta de Tendencia


27

Ing. William león


Velásquez

Solución
d)Los dos años siguientes son 2008 y 2009, que en
términos de los cálculos que estamos haciendo
son 6 y 7, respectivamente.
Sustituyendo en la Ecuación de Tendencia, se
obtienen los pronósticos requeridos, es decir:
y = 6.1 + 1.3t = 6.1+ 1.3(6) = 13.9
y = 6.1 + 1.3t = 6.1+ 1.3(7) = 15.2
28

Solución
Ing. William león
Velásquez

• Se interpreta de la siguiente manera:


• Con base en las ventas anteriores, la
estimación o pronóstico para los años
2008 y 2009, es 13.9 y 15.2 millones de
pesos, respectivamente.
29

Análisis de Variaciones Cíclicas


Ing. William león
Velásquez

Variación cíclica:
• Con frecuencia las series de tiempo presentan
secuencias alternas de puntos abajo y arriba de la
línea de tendencia que duran más de un año, esta
variación se mantiene después de que se han
eliminado las variaciones o tendencias estacional e
irregular.
30

Análisis de Variaciones Cíclicas


Ing. William león
Velásquez

Ejemplo de este tipo de variación:


• Los ciclos comerciales cuyos
períodos recurrentes dependen de
la prosperidad, recesión, depresión
y recuperación
• No dependen de factores como el
clima o las costumbres sociales.
31

Análisis de Variaciones Cíclicas


Ing. William león
Velásquez

• Estos dos componentes, el de tendencia y el


cíclico, solamente se aplica para datos anuales.
• El componente cíclico puede identificarse como
el, que persistiría en los datos luego de eliminada
la influencia del componente de tendencia.
• Esta eliminación se realiza dividiendo cada uno
de los valores observados entre su valor de
tendencia correspondiente, mediante la siguiente
fórmula:
32

Análisis de Variaciones Cíclicas


Ing. William león
Velásquez

• El resultado de este cociente se multiplica


por 100 a fin de que el promedio de estas
variaciones cíclicas relativas sea de 100%.
• De esta forma, un valor cíclico relativo de 100
indicaría la ausencia de toda influencia
cíclica en el valor de la serie de tiempo anual.
• Se puede elaborar una gráfica de ciclos, en
la que se describen los ciclos relativos para
cada año, esta permite facilitar la
interpretación de los relativos cíclicos ya que
hacen más evidentes las cumbres y valles que
se presentan.
33

Ejemplo: Cálculo de análisis de Ing. William león


Velásquez

variaciones cíclicas
• Para los datos del ejemplo anterior:
• a) estima sus ciclos relativos
• b) construye su gráfica de ciclos
• c) interpreta los resultados
34

Ing. William león

Ejemplo
Velásquez

a) Para estimar los ciclo relativos, construir


una tabla con los cálculos necesarios:
35

Ing. William león

Ejemplo
Velásquez

• Con los datos anteriores se construye la


siguiente gráfica:
36

Ejemplo
Ing. William león
Velásquez

b) La cual se interpreta de la siguiente


manera:
• Los años 1(2003), 3(2005) y 4(2006)
tienen menor influencia cíclica que los
años 2(2004) y 5(2007) que tienen una
mayor influencia cíclica
37

Ejemplo
Ing. William león
Velásquez

• Es muy común que se encuentre el tipo de


gráficos que se muestra en la siguiente
diapositiva,

• En temas como los ciclos económicos, los


indicadores financieros, y demás aspectos que
tienen constantemente patrones de inicio,
desarrollo, clímax y descenso; y eso se va
repitiendo con el tiempo.
38

Ejemplo
Ing. William león
Velásquez
39

Análisis de Variaciones Ing. William león


Velásquez

Estacionales
• Variación estacional: El componente de la
serie de tiempo que representa la variabilidad en
los datos debida a influencias de las estaciones,
se llama componente estacional.
• Esta variación corresponde a los movimientos de
la serie que recurren año tras año en los mismos
meses (o en los mismos trimestres) del año poco
más o menos con la misma intensidad.
40

Análisis de Variaciones
Ing. William león
Velásquez

Estacionales
• De este modo, las ventas de automóviles, ropa,
consumo de juguetes, entre otros, pueden ser
ejemplos de ello.
• Es evidente entonces, que estos
comportamientos solamente pueden ser
apreciados cuando se trata de datos mensuales o
trimestrales, ya que en datos anuales o
semestrales queda ocultos.
41

Análisis de Variaciones Ing. William león


Velásquez

Estacionales
• Observe la gráfica sobre la Producción de
Autos en México de forma semestre y su
relación con las ventas
se observa que en
los meses de Julio
de los primeros 5 se
observa como el
punto más bajo en
cuanto a producción
que va aumentado
hasta tener su
máximo en los
periodos
Decembrinos.
42

Análisis de Variaciones Ing. William león


Velásquez

Estacionales
Este análisis es muy importante porque
permite, por ejemplo:
• Programar los suministros de
materias primas para cubrir la
demanda estacional variable.
43

Ing. William león

Ejemplo
Velásquez

• Una empresa de refrescos debe estimar sus niveles


de inventario para las diferentes épocas del año,
tales como envases o ingredientes de su fórmula,
esto le permitirá calcular sus necesidades de espacio,
y otras decisiones importantes, entre las cuales
también estaría la contratación de personal eventual.
44

Ejemplo
Ing. William león
Velásquez

Entonces:
• Cada mes es diferente uno del otro, este análisis
trata de identificar un número índice estacional
asociada a cada mes (o trimestre del año) o, en
otras palabras, un conjunto de índices mensuales
que consiste en 12 índices que son
representativos de los datos para un período de
12 meses o, cuatro índices si se trata de
trimestres.
• Cada uno de estos índices es un porcentaje, con
un promedio anual del 100%, es decir, el índice
mensual indica el nivel de ventas o de
producción, según se trate, en relación con el
promedio anual del 100%
45

Ejemplo
Ing. William león
Velásquez

De esta forma:
• Un índice estacional del 94% para el
mes de marzo, indica que las ventas
en ese mes están, por lo general, 6%
abajo del promedio anual
• Un índice mensual del 108.2% para
el mes de diciembre, indica que las
ventas de ese mes se espera que
estén 8.2% arriba del promedio
anual
46

Ing. William león


Velásquez

Método de razón a promedio móvil


• El método usado para determinar estos
índices se llama método de razón a
promedio móvil y elimina las
componentes de tendencia, cíclica e irregular
y está descrito en el ejemplo siguiente.
• Los índices obtenidos por este método se
utilizan para ajustar los datos originales con
lo que se obtienen los valores
desestacionalizados o datos ajustados
estacionalmente a partir de las cuales se
procede a obtener pronósticos para los
trimestres futuros.
47

Ejemplo: Cálculo de análisis de


Ing. William león
Velásquez

variaciones estacionales
• Los datos siguientes representan las ventas
trimestrales en millones de pesos de la
empresa de confección, especializada en la
venta de ropa infantil ubicada en la zona
centro de una gran ciudad :
48

Ejemplo: Cálculo de análisis de Ing. William león


Velásquez

variaciones estacionales
a) Construir gráfica de la serie de tiempo e
interpretar los datos
b) Obtener los índices estacionales trimestrales
c) Interpretar los resultados
d) Calcular el valor con ajuste estacional de las
ventas trimestrales. Construir gráfica e
Interpretar los resultados
e) Obtener la ecuación de tendencia e
interpretar el resultado
f) Pronosticar las ventas para los cuatro
trimestres del próximo año
49

Ing. William león


Velásquez

Procedimiento:
a) Como puede apreciarse, en cada año, las ventas
del cuarto trimestre son las más altas y las del
segundo las más bajas. También puede apreciarse
un incremento en las ventas de un año a otro.
50

Procedimiento:
Ing. William león
Velásquez

b) Para llegar al índice estacional


trimestral se deben construir dos
tablas, la primera de ellas, se calcula
como sigue:
• Columna (1). Son los datos
originales
• Columna (2). Total móvil de cuatro
trimestres, por ejemplo: 6.7 + 4.6 +
10.0 + 12.7 = 34 que se coloca al centro
de cuatro cuatrimestres que se suman.
• Enseguida la suma se va «moviendo»
un trimestre, es decir, el siguiente es:
4.6 + 10.0 + 12.7 + 6.5 = 33.8y así,
sucesivamente.
51

Procedimiento:
Ing. William león
Velásquez

• Columna (3).
• Promedio móvil de
cuatro trimestres,
• Dividir los totales
anteriores entre 4 y
colocar el resultado
frente a su
correspondiente.
• Por ejemplo:
34/4 = 8.500
33.8/4=8.450
, etcétera.
52

Procedimiento:
Ing. William león
Velásquez

• Columna (4).
• Promedio móvil centrado,
• Se centran los promedios
móviles, es decir, se suman los
dos promedios móviles y se
dividen entre 2, el resultado de
esto se centra entre los dos
valores sumados quedando
centrado con el trimestre
correspondiente,
• Ejemplo:
• (8.500 + 8450)/2 = 8.475 que
queda centrado con el trimestre
3 del año 2002, el segundo sería
(8.450 + 8.450)/2 = 8.450 que
queda centrado con el trimestre
cuatro del año 2002.
53

Ing. William león

Procedimiento:
Velásquez

• Columna (5).
• Valor estacional
específico.-
• Se calcula dividiendo las
ventas originales
(columna 1) entre el
promedio móvil
centrado (columna 4),
• Ejemplo:
10.0/8.475 = 1.180,
el segundo es 12.7/8.450 =
1.503, etcétera.
54

Procedimiento:
Ing. William león
Velásquez

La segunda tabla se construye de la siguiente


forma:
Se acomodan en un cuadro los valores
estacionales específicos obtenidos antes, para
enseguida:
• Calcular la media modificada de cada
trimestre, esta se obtiene sumando los valores
obtenidos pero sin considerar los valores más
El mas bajo
alto y más bajo,
El mas alto
Ejemplo:
(0.772 + 0.775 + 0.753)/3 = 0.766
55

Ing. William león


Velásquez

Procedimiento:
• Obtener el índice estacional multiplicando la
media obtenida por el factor de corrección o
ajuste que se calcula con la fórmula que
aparece al pie del cuadro siguiente:
56

Ing. William león


Velásquez

Procedimiento:
c) Estos índices calculados implican que:
• Para el trimestre 1, cuyo índice es 76.466 significa que
las ventas en este trimestre estarán (100 – 76.466 = )
23.534% por abajo del promedio típico,
• Para el trimestre 2, cuyo índice es 57.300 significa que
las ventas en este trimestre estarán (100 – 57.300 =)
42.700% por abajo del promedio típico
• Para el trimestre 3, cuyo índice es 113.601 significa que
las ventas en este trimestre estarán (113.601 – 100 =)
13.601% por arriba del promedio típico
• Para el trimestre 4, cuyo índice es 152.633 significa que
las ventas en este trimestre estarán (152.633 – 100 =)
52.633% por arriba del promedio típico
57

Ing. William león

Procedimiento:
Velásquez

• En resumen:
• Como puede apreciarse el período
con mayor actividad en las ventas es
el cuarto trimestre mientras que
para el primer y segundo trimestre
del año tal actividad baja
drásticamente.
58

Ing. William león

Procedimiento:
Velásquez

d) Para calcular el valor ajustado por el índice


estacional ya solo hay que dividir los valores
originales desestacionalizados entre su
respectivo índice estacional trimestral, por
ejemplo para el trimestre 1 del año 2002:
(6.7/76.466)*100 = 8.76, es decir:
59

Ing. William león

Procedimiento:
Velásquez

• Su gráfica quedaría como sigue.

Como puede apreciarse, la diferencia entre las ventas de un


trimestre a otro en realidad no son tan marcadas como lo
reflejan las ventas originales, aquí puede notarse que
efectivamente de un año a otro las ventas aumentan pero, sin
embargo entre un trimestre y otro, en el mismo año, no tienen
lugar grandes incrementos.
60

Ing. William león

Procedimiento:
Velásquez

e) La tabla siguiente muestra


los cálculos necesarios para
obtener la ecuación de
tendencia:
61

Procedimiento:
Ing. William león
Velásquez

• al sustituir estos valores en la fórmula, se


obtiene:

Con lo que la Ecuación de Tendencia queda


como sigue:

y = 8.1791 + 0.0880x
62

Ing. William león

Procedimiento:
Velásquez

• Esto quiere decir que la pendiente es


0.0880, es decir, que en los últimos 24
trimestres, las ventas desestacionalizadas
aumentaron a razón de 0.0880 (millones
de pesos) por trimestre.
• El valor 8.1791 corresponde a la
intercepción en el eje y de la línea de
tendencia.
63

Ing. William león

Procedimiento:
Velásquez

f) Para calcular los pronósticos de los cuatro


trimestres del 2008, se estiman dichos valores
aplicando la ecuación de tendencia para
finalmente ajustarlos estacionalmente mediante
la multiplicación por el índice respectivo según
el trimestre del que se trate, de esta forma:
• Pronóstico para el primer trimestre de
2008:
• y = 8.1791 + 0.0880(25) = 10.3791 *
0.765 = 7.94 millones de pesos
64

Ing. William león

Procedimiento:
Velásquez

• Pronóstico para el segundo trimestre


de 2008:
• y = 8.1791 + 0.0880(26) = 10.4671 *
0.573 = 5.99 millones de pesos
• Pronóstico para el tercer trimestre de
2008:
• y = 8.1791 + 0.0880(27) = 10.5551 *
1.136 = 11.99 millones de pesos
• Pronóstico para el tercer trimestre de
2008:
• y = 8.1791 + 0.0880(28) = 10.6431 *
1.526 = 16.24 millones de pesos
65

Procedimiento:
Ing. William león
Velásquez

• Como puedes observar la importancia del desarrollo y


análisis de las series de tiempo va desde interpretar
los gráficos que se te presenten en diversos estudios,
en informes financieros, en reportes
gubernamentales, en proyecciones de planes a futuro
de la empresa, en estudios de mercado, en análisis de
ventas; es decir que tiene un sinnúmero de
aplicaciones;
• Así mismo realizar los análisis para que la
información de la empresa o departamento donde
trabajes puedan utilizar dichos cálculos para tener
una mejor comprensión de las variables que afectan
positiva o negativamente a un producto y/o servicio
ya sea público o privado.
FIN
wjleonv@yahoo.com

S-ar putea să vă placă și