Sunteți pe pagina 1din 23

BIOESTADISTICA MEDICINA HUMANA

TABLAS DE CONTINGENCIA
Hasta ahora hemos descrito las variables categóricas mediante la proporción de veces que se ha dado
cada una de sus posibles respuestas (frecuencias relativas) independientemente de los valores que
toman otras variables. A esta distribución de la respuesta, que ignora el valor de otras variables, le
llamamos distribución marginal de la variable.

Una tabla de contingencia describe de forma simultánea dos variables cualitativas (escala nominal). En
dicha tabla cada fila y cada columna representan las categorías de cada una de las dos variables que
estamos resumiendo, y en cada casilla de la tabla de contingencia disponemos del número de veces que
hemos observado la correspondiente combinación de ambas variables en nuestra muestra.

Ejemplos.
a) Si existe relación entre las complicaciones tras una intervención quirúrgica y el sexo del paciente
en el hospital en él que se lleva a cabo la intervención.
b) Supongamos el estudio sobre la relación de migrañas y el nivel de exposición el tabaco en 300
jóvenes menores de 25 años.
c) Una encuesta de 150 adultos clasificados según su género y la cantidad de películas que vieron
películas en el cine el mes pasado. Cada entrevistado se clasifica de acuerdo con dos criterios: la
cantidad de películas que ha visto y el género.

Género
Películas Hombres Mujeres Total
vistas
0 20 40 60
1 40 30 70
2 o más 10 10 20
Total 70 80 150

En este caso todas las técnicas de inferencia vistas hasta ahora para variables cuantitativas no son
aplicables, y para ello utilizaremos una prueba de hipótesis basado en el estadístico Chi cuadrado 𝜒 2
que nos permitirá evaluar si dos variables cualitativas son dependientes (están relacionados) o
independientes.

Distribución Chi- Cuadrado


La distribución 𝜒 2 es una distribución asimétrica y con una única cola ya que únicamente toma valores
superiores a 0. Esta distribución puede tomar las siguientes formas:

En el gráfico anterior observamos varias distribuciones, y es que la distribución Chi cuadrado al igual
que la distribución t tiene como parámetro los grados de libertad. Así observamos que cuanto mayor es
el número de grados de libertad la distribución Chi cuadrado admite valores mayores, es decir una
variable Chi cuadrado con un número de grados de libertad bajo tomará valores bajos mientras que una
variable con un número alto de grados de libertad en su distribución tomará valores más altos con mayor
probabilidad.

1
BIOESTADISTICA MEDICINA HUMANA

I Prueba de Independencia. Mediante el cual el investigador pretende estudiar la relación entre dos
variables cualitativas en una población.

1. Establecer las hipótesis nula y alterna

H0 : Las variables son independientes (No existe relación entre ellas).

H1 : Las variables No son independientes (existe relación entre ellas).

2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias
observadas.

3. Calcular las frecuencias esperadas de cada celda de la tabla de contingencia bajo el supuesto de
independencia.

(Total de la fila 𝑖)(Total de la columna 𝑗)


𝐸𝑖𝑗 =
Tamaño de la muestra
4. Calcular el estadístico de prueba
𝑘 𝑘 2
2
(𝑂𝑖𝑗 − 𝐸𝑖𝑗 )
𝒳 = ∑∑
𝐸𝑖𝑗
𝑖 𝑗

Donde:

𝑘: Es el número de categorías.

𝑂𝑖𝑗 : Es la frecuencia observada en la categoría de la fila i columna j de la tabla de contingencia.

𝐸𝑖𝑗 : Es la frecuencia esperada en la categoría de la fila i columna j de la tabla de contingencia, basada


en la suposición de independencia.

Nota: Si una tabla de contingencia tiene n filas y m columnas, el estadístico de prueba tienen
distribución chi-cuadrada con (𝑛 − 1) ∗ (𝑚 − 1) grados de libertad, siempre y cuando en todas la
categorías las frecuencias esperadas sean 5 o más.

5. Regla de rechazo

Se rechaza la 𝐻0 si 𝒳 2 ≥ 𝒳[2(𝑛−1)∗(𝑚−1);𝛼]

Donde 𝛼 es el nivel de significancia, y las n filas y las m columnas dan los (𝑛 − 1) ∗ (𝑚 − 1) grados de
libertad.

2
BIOESTADISTICA MEDICINA HUMANA

 La prueba de independencia siempre es una prueba de una cola, en la que la región de rechazo
se encuentra en la cola superior de la distribución chi-cuadrada.
 Las frecuencias esperadas en cada celda de la tabla de contingencia debe ser 5 o más.

Ejemplo 1. Una empresa produce y distribuye 3 tipos de cerveza: Ligera, Clara y Oscura. Al analizar
los segmentos de mercado de las tres cervezas, el grupo de investigación de mercado de la empresa se
pregunta si las preferencias de los consumidores por estos tipos de cerveza difieren entre hombres y
mujeres. Los resultados muéstrale se muestran en la tabla siguiente.

Cerveza preferida
Género Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150

 En caso de que las preferencias fueran independientes del género del consumidor, la empresa
iniciará una campaña publicitaria para todas las cervezas.
 Si las preferencias por los distintos tipos de cerveza dependen del género del consumidor, la
empresa ajustaría sus promociones a los mercados.
Con nivel de significancia 𝛼 = 5%, responder la pregunta de los investigadores.

Solución
Para determinar si la preferencia por un tipo de cerveza (ligera, clara u oscura) es independiente del
género del consumidor (hombre o mujer) usaremos una prueba de independencia. Las hipótesis para
esta prueba de independencia son las siguientes:

1. Pruebas de Hipótesis
H0 : La preferencia por un tipo de cerveza es independiente del genero del consumidor.
H1 : La preferencia por un tipo de creveza No es independiente del género del consumidor.

2. Tabla de Frecuencias observadas

Cerveza preferida
Género Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
3. Tabla de frecuencias esperadas

(Total de la fila 𝑖)(Total de la columna 𝑗)


𝐸𝑖𝑗 =
Tamaño de la muestra

3
BIOESTADISTICA MEDICINA HUMANA
(80)(50) 4000 (80)(70) 5600
𝐸11 = 150
= 150
= 26.67 𝐸12 = 150
= 150
= 37.33

(80)(30) 2400
𝐸13 = = = 16
150 150
(70)(50) 3500 (70)(70) 4900
𝐸21 = 150
= 150
= 23.33 𝐸22 = 150
= 150
= 32.67

(70)(30) 2100
𝐸33 = = = 14
150 150
Primero se supone que la hipótesis nula es verdadera, es decir, que la cerveza preferida es independiente
del género del consumidor.
Se observa que en la muestra de 150 consumidores de cerveza:
50 prefirieron la cerveza ligera, 70 prefirieron la cerveza clara, y 30 prefirieron la cerveza oscura.
En términos de proporciones se concluye que:
50⁄ 1
150 = ⁄3 de los consumidores prefirió la cerveza ligera,
70⁄ 7
150 = ⁄15 Prefirieron la cerveza clara y
30⁄ 1
150 = ⁄5 prefirió la cerveza oscura.
Si la suposición de independencia es correcta, estas proporciones serán las que se observen tanto entre
los hombres como entre las mujeres. Por consiguiente, bajo la suposición de independencia, es de
esperarse que en la muestra de 80 consumidores del sexo masculino,
(1⁄3) ∗ 80 = 26.67 prefieran la cerveza ligera,
(7⁄15) ∗ 80 = 37.33 prefieran la cerveza clara y
(1⁄5) ∗ 80 = 16 prefieran la cerveza oscura.
Aplicando las proporciones correspondientes a los 70 consumidores del sexo femenino,
(1⁄3) ∗ 70 = 23.33 prefieran la cerveza ligera,
(7⁄15) ∗ 70 = 32.67 prefieran la cerveza clara y
(1⁄5) ∗ 70 = 14 prefieran la cerveza oscura.

Genero Cerveza Frecuencia Frecuencia Diferencia Diferencia (𝟎𝒊 − 𝑬𝒊 )𝟐


preferida Observada 𝟎𝒊 Esperada (𝟎𝒊 − 𝑬𝒊 ) al 𝑬𝒊
𝑬𝒊 cuadrado
(𝟎𝒊 − 𝑬𝒊 )𝟐

Hombre Ligera 20 26.67 -6.67 44.44 1.67


Hombre Clara 40 37.33 2.67 7.11 0.19
Hombre Oscura 20 16 4.00 16.00 1.00
Mujer Ligera 30 23.33 6.67 44.44 1.90
Mujer Clara 30 32.67 -2.67 7.11 0.22
Mujer Oscura 10 14 -4.00 16.00 1.14
Total 2
ᵡ = 6.12

𝜒[2(𝑛−1)∗(𝑚−1);𝛼] = 𝜒[2(2−1)∗(3−1);0.05] = 𝜒[22; 0.05] = 5.99

4. Calcular el estadístico de prueba


𝑘 𝑘 2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 )
𝜒 = ∑∑ = 6.12
𝑒𝑖𝑗
𝑖 𝑗

5. Regla de rechazo

Se rechaza la 𝐻0 si 𝜒 2 ≥ 𝜒[2(𝑛−1)∗(𝑚−1);𝛼]

Como 𝜒 2 = 6.12 ≥ 𝜒[22; 0.05] = 5.99 entonces se rechaza la Ho.

4
BIOESTADISTICA MEDICINA HUMANA
6. Conclusión.- Por lo tanto la preferencia por un tipo de cerveza dependen del género del consumidor.

Ejemplo 2. Supongamos que el estudio sobre la relación de migrañas y nivel de exposición al tabaco
hemos recogido información sobre 300 jóvenes menores de 25 años. A continuación mostramos cómo
quedará la tabla de contingencia

Fumadores Fumadores pasivos No fumadores Total


No migrañas 39 43 188 270
Si migrañas 11 7 12 30
Total 50 50 200 300

SOLUCIÓN

1. Establecer las hipótesis nula y alterna

H0 : Las variables son independientes (No existe relación entre ellas).

H1 : Las variables No son independientes (existe relación entre ellas).

2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias
observadas.

Fumadores Fumadores pasivos No fumadores Total


o11=39 o12=43 o13=188 270
No migrañas
E11 =45 E12 =45 E13 =180
o21 =11 o22 =7 o23 =12 30
Si migrañas
E21 =5 E22 =5 E23 =20
Total 50 50 200 300

(Total de la fila 𝑖)(Total de la columna 𝑗)


𝐸𝑖𝑗 =
Tamaño de la muestra
(270)(50)
𝐸11 = = 45
300
(270)(50)
𝐸12 = = 45
300
(300)(200)
𝐸13 = = 180
300
(30)(50)
𝐸21 = =5
300
(30)(50)
𝐸22 = =5
300
(30)(200)
𝐸23 = = 20
300
2
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )
4. Calcular el estadístico de prueba: 𝒳 2 = ∑𝑘𝑖 ∑𝑘𝑗 𝐸𝑖𝑗

𝑘 𝑘 2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 ) (39 − 43)2 (43 − 45)2 (188 − 180)2 (11 − 5)2 (7 − 5)2 (12 − 20)2
𝜒 = ∑∑ = + + + + +
𝑒𝑖𝑗 45 45 180 5 5 20
𝑖 𝑗

𝜒 2 = 0.8 + 0.089 + 0.356 + 7.2 + 0.8 + 3.2 = 12.445

5. Regla de rechazo: Se rechaza la 𝐻0 si 𝜒 2 ≥ 𝜒[2(𝑛−1)∗(𝑚−1);𝛼]

5
BIOESTADISTICA MEDICINA HUMANA
𝜒[2(𝑛−1)∗(𝑚−1);𝛼] = 𝜒[2(2−1)∗(3−1);0.05]

= 𝜒[2(1)∗(2);0.05]

= 𝜒[22 ; 0.05]

= 5.99

Como 𝜒 2 = 12.44 > 𝜒[22 ; 0.05] = 5.99

Se rechaza la Ho

Conclusión: Existe relación de migrañas con el nivel de exposición al tabaco.

6
BIOESTADISTICA MEDICINA HUMANA
EJERCICIOS PROPUESTOS 1 – TABLAS DE CONTINGENCIA
NOMBRE:………………………………………………………………………………………………
I. Ejercicio 8.1. En una empresa que utilizaba para la fabricación de pinturas cierto producto químico se
detectó que algunos empleados comenzaron a tener ciertos problemas de salud relacionados con
alteraciones respiratorias. Se estaba contemplando la posibilidad de que el producto químico pudiera
tener algo que ver con los problemas respiratorios. Para valorar esta hipótesis se seleccionó al azar a
500 empleados de la empresa, los cuales fueron clasificados en base a su nivel de exposición al producto
y si tengan o no los síntomas de tales alteraciones respiratorias. Los resultados se presentan en la
siguiente tabla:

¿Tenemos evidencias que indiquen, a nivel de significación 0.05, la existencia de relación entre el nivel
de exposición y la presencia de síntomas de alteraciones respiratorias entre los empleados? Plantea y
resuelve el contraste de hipótesis. Explica las conclusiones obtenidas.

7
BIOESTADISTICA MEDICINA HUMANA
II. Ejercicio 8.2. Un estudio realizado por logopedas tenía como objetivo valorar la relación del grupo
socioeconómico de las familias de los niños y la presencia o ausencia de cierto defecto en la pronunciación.
Para valorar esta relación seleccionó aleatoriamente a 500 niños de escuela primaria, los cuales fueron
clasificados con el grupo socioeconómico de sus familias (como Alto, Medio-Alto, Medio-Bajo, Bajo y la
presencia o ausencia del defecto en la pronunciación. Los resultados fueron los siguientes:

¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación no está relacionado
con el estado socioeconómico (𝛼= 0.05)?. Plantea y resuelve el contraste de hipótesis adecuado para
responder a esta pregunta.

8
BIOESTADISTICA MEDICINA HUMANA
ANALISIS DE VARIANZA DE UN FACTOR (ANOVA)
Diseño de Experimentos.- Los modelos de diseño de experimentos son modelos estadísticos clásicos
cuyo objetivo es averiguar si unos determinados factores influyen en una variable de interés y, si existe
influencia de algún factor, cuantificar dicha influencia.
Ejemplos
1. Supongamos que estamos interesados en comprobar si existen diferencias significativas en el nivel
medio de hemoglobina (Hb) en tres tratamientos diferentes para personas con cierto tipo de
anemia diagnosticada.
2. Una compañía telefónica está interesada en conocer la influencia de varios factores en la variable
duración de una llamada telefónica. Los factores son los siguientes: hora a la que se produce la
llamada; día de la semana en que se realiza la llamada y sexo del que realiza la llamada.
Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de experimento los
factores cuantitativos son tratados como cualitativos y sus niveles son elegidos y son codificados. Por lo
general, un factor no suele tener más de cuatro niveles.

Conceptos Generales
Unidades experimentales: (personas, elementos físicos, ···)
Factor: Variable controlable por el experimentador
Tratamiento: Niveles del factor (o combinaciones de los niveles del factor).
Variable de interés: Variable Respuesta.
Error experimental o perturbación: Resulta de las variables no controlables por el experimentador.
Tamaño del experimento: número total de observaciones.

Ejemplo. Supongamos que estamos interesados en comprobar si existen diferencias significativas en el


nivel medio de hemoglobina (Hb) en tres tratamientos diferentes para personas con cierto tipo de anemia
diagnosticada. Con el fin de realizar la comparación correspondiente se toman 45 pacientes con este tipo
de anemia diagnosticada y se reparten al azar entre los tres tratamientos (15 en cada grupo).
Unidades experimentales: Personas con cierto tipo de anemia diagnosticada.
Factor: tratamientos diferentes (tres)
Tratamiento: Tratamiento 1 (ingesta de suplementos de hierro), tratamiento 2 (Inyecciones de B-12) y
tratamiento 3 (Transfusiones de sangre).
Variable de interés: Nivel medio de hemoglobina (Hb)
Tamaño del experimento: 45
Variable no controlable: Ejemplo (tiempo de experiencia del encargado de realizar la prueba de
hemoglobina)

ANALISIS DE VARIANZA CON UN FACTOR


Se denomina modelo factorial con un factor o ANOVA con un factor al modelo lineal en el que la variable
analizada depende de un sólo factor de tal manera que las causas de su variabilidad son englobadas en
una componente aleatoria que se denomina error experimental. El análisis de varianza se usa para
probar la igualdad de k medias poblacionales en un diseño completamente aleatorizado. La forma
general de esta prueba de hipótesis es:
1) Todos los tratamientos tienen la misma media.
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 = 𝜇
𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 por lo menos para algun par (𝑖, 𝑗)

O equivalentemente
2) Todos los tratamientos tienen el mismo efecto.
𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 𝜇
𝐻1 : 𝜏𝑖 ≠ 𝜏𝑗 por lo menos para algun par (𝑖, 𝑗)

9
BIOESTADISTICA MEDICINA HUMANA
Donde 𝜇𝑗 : media de la j_esima población.
Se supone que para cada una de las k tratamientos se toma una muestra aleatoria simple de tamaño
𝑛𝑗 . Para los datos muestrales, sean

MODELO ESTADÍSTICO
𝒚𝒊𝒋 = 𝝁 + 𝝉𝒋 + 𝒆𝒊𝒋
Donde
𝜇: La media global
𝜏𝑗 : Efecto del 𝑗_esimo tratamiento
𝑦𝑖𝑗 : Variable respuesta.
𝑒𝑖𝑗 : Error aleatorio
Las fórmulas para la media muestral y la varianza muestral del tratamiento j son las siguientes:

Tratamientos
1 2 … k
𝑦11 𝑦12 𝑦1𝑘
𝑦21 𝑦22 𝑦2𝑘
𝑦31 𝑦32 𝑦3𝑘

𝑦𝑛1 1 𝑦𝑛2 2 𝑦𝑛𝑘 𝑘


𝑛1 𝑛2 𝑛𝑘
Totales
𝑇.1 = ∑ 𝑦𝑖1 𝑇.2 = ∑ 𝑦𝑖2 𝑇.𝑘 = ∑ 𝑦𝑖𝑘
𝑖=1 𝑖=1 𝑖=1
Promedio ∑𝑛𝑖=1
1
𝑦𝑖1 ∑𝑛𝑖=1
2
𝑦𝑖2 ∑𝑛𝑖=1
𝑘
𝑦𝑖𝑘
𝑦̅.1 = 𝑦̅.2 = 𝑦̅.𝑘 =
𝑛1 𝑛2 𝑛𝑘
𝑛1 𝑛2 𝑛𝑘
Varianza ∑ (𝑦𝑖1 − 𝑦̅.1 )2 ∑ (𝑦𝑖2 − 𝑦̅.2 )2 ∑ (𝑦𝑖𝑘 − 𝑦̅.𝑘 )2
𝑆12 = 𝑖=1 𝑆22 = 𝑖=1 𝑆𝑘2 = 𝑖=1
𝑛1 − 1 𝑛2 − 1 𝑛𝑘 − 1

𝑛 2
∑𝑘𝑗=1 ∑𝑖=1
𝑗
(𝑦𝑖𝑗 − 𝑦̅)
2
𝑆 = , varianza total
𝑁−1
𝑘

𝑁 = ∑ 𝑛𝑗. numero total de observaciones.


𝑗=1
𝑛
∑𝑘𝑗=1 ∑𝑖=1
𝑗
𝑦𝑖𝑗
𝑦̅ = media muestral de todas las observaciones.
𝑁
𝑘 𝑛𝑗

𝑌.. = ∑ ∑ 𝑦𝑖𝑗
𝑗=1 𝑖=1
𝑛 2
(∑𝑘𝑗=1 ∑𝑖=1
𝑗
𝑦𝑖𝑗 ) 𝑌..2
𝐶= =
𝑁
𝑛
𝑁 𝑛𝑗
𝑘 𝑗 𝑘
2 2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = suma de cuadrados totales
𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑛𝑗
𝑇.𝑗2
𝑆𝐶𝑇𝑟𝑎 = ∑ − 𝐶, suma de cuadrados de tratamientos
𝑛𝑗
𝑗=1
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎, suma de cuardrados de errores.

𝑘 𝑛𝑗 𝑘 𝑘 𝑛𝑗
2 2 2
∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ 𝑛𝑗 (𝑦̅.𝑗 − 𝑦̅) + ∑ ∑(𝑦𝑖𝑗 − 𝑦̅.𝑗 )
𝑗=1 𝑖=1 𝑗=1 𝑗=1 𝑖=1

SUPUESTOS DEL ANÁLISIS DE VARIANZA CON UN FACTOR


El análisis de varianza requiere que se cumplan algunos supuestos:
1. Muestreo aleatorio.- Todos los individuos que componen las observaciones de cada uno de los
grupos deben haber sido elegidos de la población y asignados aleatoriamente a cada uno de ellos.

10
BIOESTADISTICA MEDICINA HUMANA
2. Normalidad.- Los valores de la variable se distribuyen normalmente (o siguen una distribución
Normal) en cada uno de los grupos definidos por el factor, es decir, para cada grupo i, Yij ∼
N(𝜇𝑖 ; 𝜎 2 ). El no cumplimiento de este supuesto no afecta mucho a las conclusiones del análisis de
la varianza si el tamaño de las muestras de cada grupo es relativamente grande (por ejemplo más
de 30 datos por grupo).
3. Homocedasticidad.- La Homocedasticidad, o lo que es lo mismo, la Homogeneidad de varianzas,
asume que las varianzas de todos los grupos a comparar son homogéneas (es decir, que no se
detectan diferencias significativas entre las varianzas de los grupos a comparar). El no
cumplimiento de esta hipótesis impide asumir como correctos los resultados que de este análisis
se deriven, y por tanto impiden la utilización de ANOVA. Las poblaciones estudiadas tienen la
misma varianza.

TABLA: Análisis de Varianza (ANOVA)


FUENTES DE VARIACION GRADOS DE SUMA DE CUADRADO F Valor
LIBERTAD CUADRADOS MEDIO de p
Tratamientos (Entre grupos) 𝑘−1 SCTR 𝑆𝐶𝑇𝑅 𝐶𝑀𝑇𝑅
𝐶𝑀𝑇𝑅 = 𝐹=
𝑘−1 𝐶𝑀𝐸
Error (Dentro de grupos) 𝑁−𝑘 SCE 𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑁−𝑘
Total 𝑁−1 SCT

PRUEBA DE HIPÓTESIS
1. Prueba de hipótesis para la igualdad de medias

𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝑢𝐾

𝐻1 : No todas las medias poblacionales son iguales.

2. Nivel de significancia: 𝜶

3. Estadístico de prueba
𝐶𝑀𝑇𝑅
𝐹=
𝐶𝑀𝐸
4. Regla de rechazo

Usando valor de p : Rechazar la Ho si 𝒑 ≤ 𝜶; 𝜶 por lo general es 0.05

Valor crítico: Rechazar la Ho si 𝐹 ≥ 𝐹(𝑘−1, 𝑁−𝑘; 𝛼) .

Donde el valor de 𝐹𝛼 está basado en una distribución F con (𝑘 − 1) grados de libertad en el


numerador y (𝑁 − 𝑘) grados de libertad en el denominador.

5. Conclusión

11
BIOESTADISTICA MEDICINA HUMANA
Observación
Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadístico será
precisamente el estudio de la variabilidad de la variable de interés. Teóricamente es posible dividir la
variabilidad de la variable que se estudia en dos partes:
1. La originada por el factor en cuestión.
2. La producida por los factores restantes que entran en juego, conocidos o no, controlables o no,
que se conocen con el nombre de error experimental.

Ejemplo 1. Se desea saber si el grado de ansiedad es el mismo, en tres enfermedades distintas. Para
ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades, pasándole
a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en la
tabla adjunta.
Enfermedad Grado de ansiedad
A 4 6 5 5 6 3 3 2 6 5
B 2 1 5 5 4 6 4 4 4 3 3 2
C 7 5 8 7 9 3 4 4

¿Qué puede concluirse de los datos? Use 𝛼 = 5%

Solución
Número de Enfermedad
observaciones A B C
1 4 2 7
2 6 1 5
3 5 5 8
4 5 5 7
5 6 4 9
6 3 6 3
7 3 4 4
8 2 4 4
9 6 4
10 5 3
11 3
12 2
Totales 45 38 47 𝑌.. =130
Promedios 4.5 3.17 5.88
Varianzas 2.06 2.08 4.69
n 10 12 8

1. PRUEBA DE IGUALDAD DE K MEDIAS POBLACIONALES

H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶
𝐻1 : No todas las medias poblacionales son iguales.
2. 𝛼 = 0.05

3. ESTADISTICO DE PRUEBA

Suma de cuadrados totales

𝑁 = 10 + 12 + 8 = 30
𝑌..2 (130)2
𝐶= = = 563.333
𝑁 30
𝑘 𝑛𝑗
2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = 𝟒𝟐 + 𝟔𝟐 + 𝟓𝟐 + 𝟓𝟐 + 𝟔𝟐 + 𝟑𝟐 + 𝟑𝟐 + 𝟐𝟐 + 𝟔𝟐 + 𝟓𝟐 + 22 + 12 + 52 + 52 + 42 + 62
𝑗=1 𝑖=1
+ 42 +42 + 42 + 32 + 32 + 22 + 𝟕𝟐 + 𝟓𝟐 + 𝟖𝟐 + 𝟕𝟐 + 𝟗𝟐 + 𝟑𝟐 + 𝟒𝟐 + 42 − 563.33
= 707 − 563.333 = 143.667

12
BIOESTADISTICA MEDICINA HUMANA
Suma de cuadrados de tratamientos
𝑛𝑗
𝑇.𝑗2 452 382 472
𝑆𝐶𝑇𝑟𝑎 = ∑ −𝐶 = [ + + ] − 563.33 = 598.958 − 563.333 = 35.625
𝑛𝑗 10 12 8
𝑗=1
Suma de cuadrados de errores

𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎 = 143.667 − 35.625 = 108.042

Tabla ANOVA
FUENTES DE VARIACION GRADOS DE SUMA DE CUADRADO F
LIBERTAD CUADRADOS MEDIO
Tratamientos (Entre grupos) 3−1 = 2 35.625 15.812 3.951

Error (Dentro de grupos) 30 − 3 = 27 108.042 4.002

Total 30 − 1 = 29 143.667

4. Región de rechazo
𝐹(3−1, 30−3; 𝛼) = 𝐹(2,27; 0.05) = 3.3541

Como 𝐹 = 3.951 > 𝐹(2,27; 0.05) = 3.3541entonces se rechaza la Ho.

5. Conclusión.- Existe diferencia del nivel de ansiedad de los tres tipos de enfermedades.

Ejemplo 2.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de
producción:
Método
A B C
58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
Solución

Método
A B C
58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
Totales 310 330 260 900
Promedios 62 66 52
Varianzas 27.5 46.5 156
nj 5 5 5

1. PRUEBA DE IGUALDAD DE K MEDIAS POBLACIONALES

H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶
𝐻1 : No todas las medias poblacionales son iguales.

2. 𝛼 = 0.05

13
BIOESTADISTICA MEDICINA HUMANA
3. ESTADISTICO DE PRUEBA
𝑛 2
(∑𝑘𝑗=1 ∑𝑖=1 (900)2 810000
𝑗
𝑦𝑖𝑗 )
𝐶= = = = 54000
𝑁 15 15
𝑘 𝑛𝑗
2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000
𝑗=1 𝑖=1
𝑆𝐶𝑇 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000 = 54860 − 54000 = 860
𝑛𝑗
𝑇.𝑗2 (310)2 (330)2 (260)2
𝑆𝐶𝑇𝑟𝑎 = ∑ −𝐶 = + + − 54000 = 54520 − 54000 = 520
𝑛𝑗 5 5 5
𝑗=1
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎 = 860 − 520 = 340

FUENTES DE VARIACION SUMA DE GRADOS DE CUADRADO F


CUADRADOS LIBERTAD MEDIO
Tratamientos (Entre grupos) 520 2 260 9.1775

Error (Dentro de grupos) 340 12 28.33

Total 860 14

𝐹(𝑘−1, 𝑁−𝑘; 𝛼) = 𝐹(2,12; 0.05) = 3.885


Como 𝐹 = 9.1775 > 𝐹(2,12; 0.05) = 3.885 entonces se rechaza la Ho.
Conclusión.- Existe algún método de producción (nivel del factor) que afecta en la producción de los
trabajadores.

COMPARACIONES MULTIPLES
Una vez contrastado el que existen diferencias significativas mediante el análisis de la varianza, nos
interesa conocer que niveles del factor o tratamientos son los que han influido más para que se de este
resultado. Técnicas cuyo objeto es identificar:
 Qué tratamientos son diferentes (estadísticamente) y
 En cuánto oscila el valor de esas diferencias.
Comparar entre sí las medias de tratamientos o grupos de ellas. Se comparan por parejas los efectos de
los tratamientos, bajo las siguientes hipótesis.
𝐻0 : 𝜇𝑖 = 𝜇𝑗
𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗
Existen varios métodos para comparar los efectos de los tratamientos
Metodo LSD
Metodo de Tukey o método HSD
Metodo de rango multiple de Duncan
Metodo de Bonferroni

Contraste de la Mínima Diferencia Significativa


Este procedimiento fue sugerido por Fisher en 1935 y es el primer método de comparaciones múltiples
que vamos a utilizar. Dicho procedimiento consiste en una prueba de hipótesis por parejas basada en la
distribución t.
Este método debe aplicarse cuando previamente se haya rechazado la hipótesis nula del test F del
análisis de la varianza. Se comparan por parejas los efectos de los tratamientos.
Las siguientes hipótesis.
𝐻0 : 𝜇𝑖 = 𝜇𝑗 , 𝑖, 𝑗 = 1,2,3, … , 𝑘
𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗
Lo que corresponde a los ya conocidos contrastes de la t de Student, que tienen en este caso como
estadístico de prueba a (de nuevo suponiendo la homocedasticidad en todas las muestras):
𝑦̅𝑖. − 𝑦̅𝑗.
𝑇= ~𝑡(𝑁−𝑘)
1 1
√𝐶𝑀𝐸 (𝑛 + 𝑛 )
𝑖 𝑗

14
BIOESTADISTICA MEDICINA HUMANA
Por lo tanto, se concluye que la pareja de medias 𝜇𝑖 y 𝜇𝑗 son estadísticamente diferentes si
|𝑦̅𝑖. − 𝑦̅𝑗. | > 𝐿𝑆𝐷
Donde 𝐿𝑆𝐷, se denomina mínima diferencia significativa, viene dada por:
1 1
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √𝐶𝑀𝐸 ( + )
2 𝑛𝑖 𝑛𝑗
Siendo 𝑛𝑖 𝑦 𝑛𝑗 el número de observaciones que corresponde a cada media.
(𝑁 − 𝑘) el número de grados de libertad del error o varianza residual.
𝑡(𝑁−𝑘; 𝛼⁄ ) el valor crítico de la distribución t-student con N-k grados de libertad, con probabilidad 𝛼⁄2.
2

Si el diseño es balanceado (todos los tratamientos tienen el mismo número de observaciones), entonces
el valor de LSD se reduce a
2
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸
2 𝑛
Además proporciona también intervalos de confianza para diferencias de medias. Dichos intervalos son
de la forma:
((𝑦̅𝑖. − 𝑦̅𝑗. ) − 𝐿𝑆𝐷; (𝑦̅𝑖. − 𝑦̅𝑗. ) + 𝐿𝑆𝐷)

Ejemplo 3.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de
producción. Realizar las comparaciones múltiples usando LSD.
A B C
Promedios 62 66 52

2 2 2
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸 = 𝑡(12; 0.05⁄ ) √( ) 28.33 = 𝑡(12; 0.025) √( ) 28.33 = 2.178√11.332 = 7.331
2 𝑛 2 5 5
|𝑦̅𝐴 − 𝑦̅𝐵 | = |62 − 66| = 4 < 7.33 Se acepta la Ho, por lo tanto las medias de los tratamientos son iguales.
|𝑦̅𝐴 − 𝑦̅𝐶 | = |62 − 52| = 10 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son
diferentes.
|𝑦̅𝐵 − 𝑦̅𝐶 | = |66 − 52| = 14 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son
diferentes.

Prueba de Tukey
Tukey propuso una procedimiento para probar H0 : μi = μj contra H1 : μi ≠ μj para todos los p pares
posible de medias, en el que el nivel de significación global es exactamente αg para tamaños de muestras
iguales y es, a lo sumo, αg para tamaños de muestras diferentes. En este procedimiento se utiliza el
estadístico de rango estudentizado q.
𝑌̅𝑚𝑎𝑥 − 𝑌̅𝑚𝑖𝑛
𝑞=
√𝐶𝑀𝐸
𝑛
Donde 𝑌̅𝑚𝑎𝑥 y 𝑌̅𝑚𝑖𝑛 son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de
p medias muestrales.

Para una prueba de dos colas, el criterio de rechazo para cada par de medias sería:

15
BIOESTADISTICA MEDICINA HUMANA

16
BIOESTADISTICA MEDICINA HUMANA
EJERCICIOS PROPUESTOS 2 – ANALISIS DE VARIANZA
NOMBRE:………………………………………………………………………………………………
I. Ejemplo 3.- En un colectivo de 5 individuos se aplican 3 fármacos para estudiar su influencia sobre
sus movimientos respiratorios (número de inspiraciones por minuto). Los valores obtenidos para cada
individuo vienen expresados en la tabla:
Estudie si el efecto de estos fármacos en la variación respiratoria producida puede considerarse o no el
mismo. Realice las comparaciones múltiples. Use 𝛼 = 0.05

Individuos
1 2 3 4 5
Antes del tratamiento 14 16 18 15 20
Después de I fármaco 16 17 21 16 24
Después de II fármaco 15 14 18 15 22
Después de III fármaco 17 16 20 13 18

17
BIOESTADISTICA MEDICINA HUMANA
II. Para evaluar la influencia del tipo de acidosis del recién nacido en los niveles de glucemia medidos
en el cordón umbilical del mismo, se obtuvieron los datos de la siguiente tabla:

Obtener conclusiones a partir de los resultados de esas muestras. Use 𝛼 = 0.05

18
BIOESTADISTICA MEDICINA HUMANA
ANALISIS DE REGRESION LINEAL MULTIPLE
El análisis de regresión lineal múltiple estudia la relación de una variable dependiente con dos o más
variables independientes. Para denotar el número de variables independientes usaremos 𝑝.

Modelo de regresión lineal múltiple.- El modelo de regresión múltiple toma la forma:

𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + ⋯ +𝜷𝒑 𝒙𝒊𝒌 + 𝒆𝒊 ; 𝒑𝒂𝒓𝒂 𝒊 = 𝟏, 𝟐, 𝟑, 𝟒, … . . , 𝒏


Donde
n: es el tamaño de la muestra.
𝒚: Es la variable dependiente (variable respuesta, var. explicada)
𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 Son variables independientes.
𝛽0 ; 𝛽1 ; … ; 𝛽𝑘 Son los parámetros del modelo.
𝒆𝒊 : Termino error

Su forma matricial

Donde
𝒀 = 𝑿𝜷 + 𝒆
𝒀: Es un vector columna n dimensional.
𝑿: Es una matriz de dimensión 𝑛 × (𝑘 + 1)
𝜷: Es el vector de coeficientes de regresión a ser estimados, de dimensión (𝑘 + 1)
𝒆: Es un vector columna aleatorio de dimensión 𝒏 × 𝟏

ECUACIÓN DE REGRESIÓN MULTIPLE ESTIMADA


Los valores de los parámetros 𝛽0 ; 𝛽1 ; … ; 𝛽𝑝 por lo general no se conocen, por lo que es necesario estimarlos
a partir de los datos muestrales. Para calcular os valores de los estadísticos muestrales 𝑏0 ; 𝑏1 ; … ; 𝑏𝑝 ,
quienes se usan como estimadores puntuales de los parámetros 𝛽0 ; 𝛽1 ; … ; 𝛽𝑝 se emplea una muestra
aleatoria simple.

̂ = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ +𝒃𝒑 𝒙𝒌
𝒚

Estimación de los parámetros 𝜷𝒊 por el Método de Mínimos Cuadrados.- Este método se usa
para obtener la ecuación de regresión múltiple estimada. El criterio de los mínimos cuadrados es el
siguiente:

𝑚𝑖𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖 )2

Dónde:
𝑖 Error aleatorio para la observación 𝑖.
𝑒𝑖 = 𝑦𝑖 − 𝑦̂:
𝑦𝑖 : Valor observado de la variable dependiente en la observación i.
𝑖 Valor estimado para la variable dependiente en la observación i.
𝑦̂:

Su forma matricial es: ∑𝑛𝑖=1 𝑒𝑖2 = 𝐞´ 𝐞 = (𝐘 − 𝐗𝛃)´ (𝐘 − 𝐗𝛃)

19
BIOESTADISTICA MEDICINA HUMANA
Derivando la ecuación anterior con respecto al vector de parámetros 𝛃 se obtiene la siguiente ecuación:
̂ = (𝐗 ´ 𝐗)−𝟏 𝐗 ´ 𝐘
𝛃
−𝟏
Donde (𝐗 ´ 𝐗) representa la matriz inversa de (𝐗 ´ 𝐗). Note que (𝐗 ´ 𝐗) es simétrica, pues su transpuesta
da la misma matriz.

INTERPRETACIÓN DE LOS ESTIMADORES PUNTUALES 𝒃𝒊


𝑏𝑖 : Representa la estimación del cambio en 𝑦 debido a un cambio en una unidad en 𝑥𝑖 mientras todas
las demás variables independientes permanecen constantes.
𝑏0 : Cuando todas las variables independientes todos son cero entonces la variable dependiente 𝑦 = 𝑏0 .

SUPUESTOS DEL MODELO DE REGRESION MULTIPLE


Sea el modelo 𝒚 = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ +𝜷𝒌 𝒙𝒌 + 𝒆𝒊
Las suposiciones acerca del término del error 𝒆𝒊 en el modelo de regresión múltiple son análogas a las
suposiciones en el modelo de regresión lineal simple.
1. El termino error 𝒆𝒊 es una variable aleatoria cuya media o valor esperado es cero, esto es 𝜇 =
𝐸(𝒆𝒊 ) = 0. En consecuencia el valor esperado de 𝑦 es:
𝑬(𝒚) = 𝜷𝟎 + 𝜷𝟏 𝒙𝟏 + 𝜷𝟐 𝒙𝟐 + ⋯ +𝜷𝒌 𝒙𝒌
2. La varianza del termino error 𝒆𝒊 se denota por 𝜎 2 y es la misma la todos los valores de las
variables independientes 𝑥1 ; 𝑥2 ; … ; 𝑥𝑘 . Por consiguiente la varianza de 𝑦 respecto a la línea de
regresión es 𝜎 2 .
3. Los valores del término 𝒆𝒊 son independientes.
4. Los valores del término𝒆𝒊 es una variable aleatoria distribuida normalmente, es decir 𝒆𝒊 ~𝑁(𝜇, 𝜎 2 ).
Por lo que la variable dependiente 𝑦~𝑁(𝜇, 𝜎 2 ).

Análisis de Varianza en la regresión múltiple.- Puede efectuarse un análisis de varianza que arroje
luz sobre la calidad de la ecuación de regresión. Una hipótesis que sirve para determinar si el modelo
explica una cantidad significativa de variación, es la siguiente:

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0

𝐻1 : 𝛽𝑖 ≠ 𝛽𝑗

20
BIOESTADISTICA MEDICINA HUMANA
FUENTES DE GRADOS DE SUMA DE CUADRADO F Valor
VARIACION LIBERTAD CUADRADOS MEDIO de P
Regresión 𝑘 SCR 𝑆𝐶𝑅 𝐶𝑀𝑅
𝐶𝑀𝑅 = 𝐹=
𝑘 𝐶𝑀𝐸
Error 𝑛 − (𝑘 + 1) SCE 𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛 − (𝑘 + 1)
Total 𝑛−1 SCT

Se trata de una prueba de cola superior. El rechazo de 𝐻0 significa que la ecuación de regresión
difiere de una constante. Es decir, al menos una variable regresora (𝒙𝒊 ) es importante.

Prueba de hipótesis t- student individuales para la selección de variables


La prueba t -student que se utiliza con más frecuencia en la regresión múltiple es aquella que prueba la
importancia de los coeficientes individuales, es
𝐻0 : 𝛽𝑗 = 0
𝐻1 : 𝛽𝑗 ≠ 0
Con frecuencia estas pruebas contribuyen a lo que se denomina selección de variables, con la cual el
analista intenta llegar al modelo más útil, es decir, a la elección de cual regresor (𝒙𝒊 ) utilizar.

Ejemplo 1. El dueño de Showtime Movie Theater, Inc., desea estimar el ingreso bruto semanal en
función de los gastos en publicidad. A continuación se presentan los datos históricos de 10 semanas.

Ingreso semanal Publicidad en tv Publicidad en periódico


(en miles de dólares) Y (en miles de dólares) X1 (en miles de dólares) X2
96 5 1.5
90 2 2
95 4 1.5
92 2.5 2.5
95 3 3.3
94 3.5 2.3
94 2.5 4.2
94 3 2.5

a) Obtenga una ecuación de regresión estimada en la que los montos gastados en publicidad en
televisión y en periódicos sean las variables independientes.
Resultados en Minitab

Análisis de regresión: Ingreso sema vs. Publicidad e, Publicidad e


La ecuación de regresión es
Ingreso semanal = 83.2 + 2.29 Publicidad en tv + 1.30 Publicidad en periódico
Predictor Coef de EE T P
Constante 83.230 1.574 52.88 0.000
Publicidad en tv 2.2902 0.3041 7.53 0.001
Publicidad en periódico 1.3010 0.3207 4.06 0.010

̂ = 𝟖𝟑. 𝟐𝟑 + 𝟐. 𝟐𝟗𝒙𝟏 + 𝟏. 𝟑𝟎𝒙𝟐


𝒚
b) Interprete los coeficientes de la ecuación estimada.
𝑏1 = 2.29: Cuando la publicidad en TV aumenta en 1000 dólares entonces el ingreso semanal
bruto aumenta en 2.29 dólares, mientras las demás variables independientes permanecen
constantes.
𝑏2 = 1.30: Cuando la publicidad en Periódico aumenta en 1000 dólares entonces el ingreso
semanal bruto aumenta en 1.30 dólares, mientras las demás variables independientes
permanecen constantes.
c) ¿Cuál es el ingreso semanal bruto en una semana en la que se gastan $3500 en publicidad en
televisión y $1800 en publicidad en periódicos?
𝑦̂ = 83.23 2.29𝑥1 + 1.30𝑥2
𝑦̂ = 83.23 + 2.29(3500) + 1.30(1800) = 10438.23 dolares

21
BIOESTADISTICA MEDICINA HUMANA
Ejemplo 2. Salsberry vende casas en la costa este de Estados Unidos. Una de las preguntas más
frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en calefacción
durante el invierno?
Al departamento de investigación de Salsberry se le pidió desarrollar algunas directrices respecto de los
costos de calefacción de casas unifamiliares. Se considera que tres variables se relacionan con los costos
de calefacción: la temperatura externa diaria media, el número de pulgadas de aislamiento en el ático
y la antigüedad en anos del calentador. Para el estudio, el departamento de investigación de Salsberry
seleccionó una muestra aleatoria de 20 casas de venta reciente. Determinó el costo de calefacción de
cada casa en enero pasado, así como la temperatura externa en enero en la región, el número de pulgadas
de aislamiento en el ático y la edad del calentador. La información muestral se reporta en la tabla

Costo de Temperatura externa Aislamiento del Antigüedad del


calefacción ($) media (°F) ático (pulgadas) calentador (años)
250 35 3 6
360 29 4 10
165 36 7 3
43 60 6 9
92 65 5 6
200 30 5 5
355 10 6 7
290 7 10 10
230 21 9 11
120 55 2 5
73 54 12 4
205 48 5 1
400 20 5 15
320 39 4 7
72 60 8 6
272 20 5 8
94 58 7 3
190 40 8 11
235 27 9 8
139 30 7 5

a) Tabla ANOVA
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 3 171220 57073 21.90 0.000
Temperatura externa media (°F) 1 91751 91751 35.21 0.000
Aislamiento del ático (pulgadas 1 25357 25357 9.73 0.007
Antigüedad del calentador (años 1 6026 6026 2.31 0.148
Error 16 41695 2606
Total 19 212916

 Como el valor de p para la regresión es menor que 0.05 entonces se rechaza la Ho, por lo que
alguna variable independiente influye el costo de calefacción.

b) Obtenga una ecuación de regresión estimada en la temperatura, aislamiento y antigüedad del


calentador sean las variables independientes.

Análisis de regresión: Costo de cal vs. Temperatura , Aislamiento , ...


La ecuación de regresión es
Costo de calefacción = 427 - 4.58 Temperatura externa media - 14.8 Aislamiento del ático
+ 6.10 Antigüedad del calentador

22
BIOESTADISTICA MEDICINA HUMANA
Prueba de Hipótesis individual para cada coeficiente 𝒃𝒊
Coef.
Predictor Coef de EE T P
Constante 427.19 59.60 7.17 0.000
Temperatura externa media -4.5827 0.7723 -5.93 0.000
Aislamiento del ático -14.831 4.754 -3.12 0.007
Antigüedad del calentador 6.101 4.012 1.52 0.148

S = 51.0486 R-cuad. = 80.4% R-cuad.(ajustado) = 76.7%

̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖𝒙𝟏 − 𝟏𝟒. 𝟖𝟑𝒙𝟐 + 𝟔. 𝟏𝟎𝒙𝟑


𝒚
c) Interprete los coeficientes de la ecuación estimada.
𝑏1 = −𝟒. 𝟓𝟖. Cuando temperatura aumenta en 1°F entonces el costo de calefacción disminuye en
4.58 dólares, mientras las demás variables independientes permanecen constantes.
𝑏2 = −𝟏𝟒. 𝟖𝟑. Cuando el aislamiento aumenta en 1 pulgada entonces el costo de calefacción
disminuye en -14.83 dólares, mientras las demás variables independientes permanecen
constantes.
𝑏3 = 6. 𝟏𝟎. Cuando la antigüedad aumenta en 1 año entonces el costo de calefacción aumenta en
6.10 dólares, mientras las demás variables independientes permanecen constantes.

d) ¿Cuál es el costo de calefacción cuando la temperatura es 30 °F, aislamiento es 5 pulgadas y la


antigüedad es de 5 años?
̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖𝒙𝟏 − 𝟏𝟒. 𝟖𝟑𝒙𝟐 + 𝟔. 𝟏𝟎𝒙𝟑
𝒚
̂ = 𝟒𝟐𝟕. 𝟏𝟗 − 𝟒. 𝟓𝟖(𝟑𝟎) − 𝟏𝟒. 𝟖𝟑(𝟓) + 𝟔. 𝟏𝟎(𝟓) = 𝟐𝟒𝟔. 𝟏𝟒
𝒚

23

S-ar putea să vă placă și