Trabajo de Estadisitica Final

República Bolivariana de Venezuela
Universidad Centroccidental Lisandro Alvarado

Decanato de Ciencia y Tecnologías
Trabajo de Estadística Matemática

(Anova, Regresión)
Integrantes:
22.097.260 Arrieche, Yessika
24.143.631 Terán, Yohander
23.833.426 Almao, Betzabeth
24.680.221 Virguez, Grency
Barquisimeto, enero del 2019
Página 1
Índice
Pág.
Introducción……………………………………………………………………………. 3
Anova……………………………………………………………………………………… 4
Problema 1……………………………………………………………………………… 4
Problema 2…………………………………………………………………………….. 10
Regresión……………………………………………………………………………….. 13
Problema 1……………………………………………………………………………… 13
Problema 2……………………………………………………………………………… 23
Página 2
Introducción
En el mundo moderno que vivimos hoy en día muchos problemas presentan
incertidumbre que no sabemos a ciencia exacta que va a ocurrir, muchas empresas
utilizan la estadística como ciencia para predecir en base a cálculos matemáticos
que es lo que mejor les conviene para poder tomar las mejores decisiones y de
esta forma mejorar la calidad del producto o servicio que prestan.
Para el presente trabajo estudiaremos los ejercicios planteados a través de la

regresión lineal simple y múltiple así como el análisis de la varianza (ANOVA),
con el propósito de asociar una probabilidad a la conclusión de que la media de un
grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
Como futuros ingenieros en informática nos apoyamos en las herramientas que
nos proporciona la tecnología Para ello utilizamos como herramienta Excel para
apoyarnos en el análisis de datos y gráficos.
Recordemos que siempre surgirán problemas en donde deberemos determinar si

dos o más grupos son iguales, si dos o más cursos de acción arrojan resultados
similares o si dos o más conjuntos de observaciones son parecidos, por lo que
utilizando el análisis de varianza (ANOVA) el cual nos brinda las herramientas
para evaluar la importancia de uno o más factores al comparar las medias de la
variable de respuesta en los diferentes niveles de los factores.
Otro modelo para estudiar este tipo de problemas es la regresión, está nos permite
conocer que tan relacionadas están dos variables y la influencia que puede tener
una sobre la otra para este caso existe la regresión lineal simple que estudia el
comportamiento de una variable independiente y de otra dependiente.
Página 3
Anova
Problema 1.
La rapidez de desplazamiento en la pantalla es una consideración importante en el

desarrollo de tarjetas gráficas a color. Se emprende un estudio para comparar el
tiempo, en segundos, necesario para desplazarse una pantalla en documentos
Microsoft Word con cinco tarjetas gráficas a color distintas en monitores de 24
pulgadas. La prueba emprendida es la de rendimiento Hydra Quick Draw. Se
obtienen los datos siguientes (basado en la información de“Gauging Video
Speed”, MAC WORDL, junio de 1993, p.28):
Tarjeta gráfica
TIPO A TIPO B TIPO C TIPO D TIPO E

30.5 48.3 79.2 51.6 79.0
32.4 42.1 84.7 59.4 85.3
27.2 43.5 85.0 57.3 86.2
26.3 40.6 88.2 59.0 82.0
25.1 38.6 76.3 58.7 87.2
38.2 32.1 83.1 68.1 81.7
30.6 41.6 92.6 64.8 93.5
33.7 38.8 88.5 55.5 89.1
Solución:
Página 4
Diseño del experimento
Unidad Experimental
El ejercicio dispone de una colección de 40 unidades experimentales, con las

cuales estudiaremos el efecto de un único factor, las tarjetas gráficas de color con
5 tipos de variantes sobre la media de la variable respuesta.
Variable de interés
Rapidez de desplazamiento en la pantalla.
Factor
Tarjetas gráficas. Es un factor de efectos fijos ya que viene decidido que niveles
concretos se van a utilizar.
Niveles del factor
Tamaño del experimento
El número de observaciones es de 40 unidades experimentales.
Es de modelo unifactorial de efectos fijos equilibrados.
Objetivo
Verificar si existen diferencias entre la rapidez del desplazamiento medida entre

los tiempo, en segundos, necesario para desplazar una pantalla en documentos
Microsoft Word, con tarjetas gráficas a color distintas en monitores de 24
pulgadas.
Página 5
Estimación de los efectos de los tratamientos y contrastes de las hipótesis
𝑯𝟎 𝒗𝒔 𝑯𝟏
I=5.
𝐻0 = µ1= µ2= µ3= µ4= µ5
𝐻1 =Al menos dos de las medias µ𝑖 son distintas.
Con un nivel de significancia α=0,01.
𝐻0 , Será verdadera si las cincos µ𝑖 son idénticas.
𝐻1 , Será verdadera si al menos dos de las cincos µ𝑖 son distintas o si las cincos
µ𝑖 difieren de la otra.
Página 6
Análisis.
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Columna 1 8 244 30,5 18,6914286
Columna 2 8 326 40,75 21,66
Columna 3 8 677,6 84,7 27,5085714
Columna 4 8 474 59,25 25,9457143
Columna 5 8 684 85,5 21,3314286
ANÁLISIS DE
VARIANZA
Origen de las Suma de Grados de Valor crítico
variaciones cuadrados libertad Promedio de los cuadrados F Probabilidad para F
Entre grupos 20012,936 4 5003,234 217,272805 3,455E-24 3,90824093
Dentro de los grupos 805,96 35 23,02742857
Total 20818,896 39
Página 7
𝐹 = 217,272805 > 𝐹(4,35) (0,01) = 3,908 Como el valor 𝐹 > 𝐹𝑘−1,𝑘(𝑛−1) (𝛼),
con un nivel de significancia del 1%, Rechazamos 𝐻0 , y por tanto existe evidencia
estadística para pensar que si hay diferencian entre la rapidez desplazamiento
entre los tiempo, en segundos, necesario para desplazarse en la pantalla, pero solo
podemos decir que hay diferencia de una manera general, sin llegar a saber con
exactitud cuales poblaciones difieren realmente entre sí. En términos de nuestro
problema, al menos dos de la cinco tarjetas grafica afectan la rapidez de
desplazamiento en la pantalla (es decir existe relación entre las variables).Por esta
razón, realizamos una comparación entre grupos.
 Comparación de medias entre los grupos
Como ya indicamos en el estudio de las hipótesis solo podemos decir si hay

diferencia o no entre las medias de una manera general. Para determinar quienes
difieren entre si planteamos las siguientes hipótesis.
𝐻0 = 𝜇𝐴 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐵
𝐻0 = 𝜇𝐴 = 𝜇𝐶 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐶
𝐻0 = 𝜇𝐴 = 𝜇𝐷 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐷
𝐻0 = 𝜇𝐴 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐸
𝐻0 = 𝜇𝐵 = 𝜇𝐶 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐶
𝐻0 = 𝜇𝐵 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐵
𝐻0 = 𝜇𝐵 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐸
𝐻0 = 𝜇𝐶 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐶 ≠ 𝜇𝐵
𝐻0 = 𝜇𝐶 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐶 ≠ 𝜇𝐸
𝐻0 = 𝜇𝐷 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐷 ≠ 𝜇𝐸
Es decir.
Página 8
𝐻0 , Será verdadera si 𝜇𝑖 son idénticas, es decir las medias de las tarjetas sean
iguales.
𝐻1 , Será verdadera si 𝜇𝑖 son distintas, es decir las medias de las tarjetas sean
distintas.
Con i= A,B,C,D,E.
Utilizando el método de las diferencias significativas
Con α=0,01 y tα/2,n-k= t0,005,35=2,7238 procedemos hacer la estimación:
1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐵 | = 10,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐶 | = 54,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐷 | = 28,8 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐸 | = 55 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐶 | = 44 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐷 | = 18,6 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐸 | = 44,8 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
Página 9
1 1
̅̅̅
|𝑇 ̅̅̅
𝐶 − 𝑇𝐷 | = 25,4 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
1 1
̅̅̅
|𝑇 ̅̅̅
𝐶 − 𝑇𝐸 | = 0,8 < (2,7238)√(23,0274286)√8 + 8 = 6,53 Tarjeta C y E se
comportan similares.
1 1
̅̅̅
|𝑇 ̅̅̅
𝐷 − 𝑇𝐸 | = 26,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8
Al ser similares ̅̅̅

𝑇𝐶 𝑦 ̅̅̅
𝑇𝐸 podemos concluir que dichas tarjetas se comportan
similares debido a lo aproximado de sus medias la rapidez con que se desplazan
son similares
Página 10
Problema 2. La tabla que se presenta al final del enunciado muestra las
mediciones de la elasticidad de cuatro grupos de revestimiento cuando son
expuestos a distintas intensidades de luz. Durante el un periodo de 5 meses. Las
mediciones son tomadas en el último día de los siguientes cinco meses y se
registran en,
Tipo de Revestimiento MES 1 MES 2 MES 3 MES 4 MES 5

REVESTIMIENTO A 1,21 1,32 1,44 1,38 1,26
REVESTIMIENTO B 0,89 1,11 1,26 1,05 0,82
REVESTIMIENTO C 3,67 4,69 4,88 4,33 4,02
REVESTIMIENTO D 2,22 2,36 2,58 2,46 2,13
Evalué si hay efectos significativos en la elasticidad promedio, debido al tipo de
revestimiento y/o al tiempo de exposición a la luz.
Solución:
Diseño del experimento
Unidad experimental
El ejercicio dispone de una colección de 20 unidades experimentales, con las

cuales estudiaremos el efecto de dos factores con una sola muestra por grupo, la
elasticidad promedio, debido al tipo de revestimiento y/o al tiempo de exposición
a la luz, durante el periodo de 5 meses.
Variable de interés
La elasticidad.
Factor Principal
Tipo de Revestimiento.
Factor Secundario
Tiempo de exposición a la luz.
Página 11
Niveles del factor principal
Tamaño del experimento
El número de observaciones es de 20 unidades experimentales.
Objetivo
Verificar si existen diferencias entre la elasticidad entre los grupos de

revestimiento cuando son expuestos a distintas intensidades de luz, durante un
periodo de 5 meses.
Definimos los factores
Factor A: Tipo de Revestimiento
Factor B: Tiempo de exposición a la luz.
Estimación de los efectos de los tratamientos y contrastes de las hipótesis

𝑯𝟎 𝒗𝒔 𝑯𝒂
Hipótesis Nula (factor A): el factor A no tiene influencia.
𝐻0𝐴 = 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Hipótesis Nula (factor B): el factor B no tiene influencia.
𝐻0𝐵 = 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Página 12
Análisis:
𝐹𝐴 = 301,095028 > 𝐹(3,12) (0,01) =5,95 Rechazamos la hipótesis nula con un nivel de
significación del 1%. El factor A (Tipo de revestimiento) aparentemente si influye en la
elasticidad promedio.
𝐹𝐵 = 5,49799524 > 𝐹(4,12) (0,01) =5,41 Rechazamos la hipótesis nula con un nivel de
significación del 1%. El Factor B(tiempo de exposición a la luz) aparentemente si influye
en la elasticidad promedio.
Página 13
Regresión
Problema 1.
Un ingeniero eléctrico tiene interés en predecir la demanda de electricidad en

relación con la temperatura del día. Ello permitiría que la compañía adquiera y
transfiera electricidad con base en las predicciones climatológicas de corto plazo
y, de tal suerte, se reduzcan o eviten los cortes de energía (apagones). Se prepara
una escala de demanda de 0 a 10, donde 0, indica demanda muy baja y 10,
demanda máxima. Se obtiene una muestra aleatoria de 40 días de los 365 días del
año, la cual arroja los datos siguientes:
Página 14
a. Piensa que un modelo de regresión lineal ajusta satisfactoriamente la
demanda (variable respuesta) en función de la temperatura (variable
explicativa).
Observando el diagrama de dispersión notamos que los datos NO se comportan

de una forma lineal, es decir si existe una relación entre la demanda y la
temperatura, se cree que a menor temperatura la demanda disminuye, pero
también se puede observar que cuando la temperatura aumenta la demanda
también aumenta, ya que el grafico muestra que no es lineal, es decir no es
constante, por lo que consideramos que ajusta mejor a ún modelo de regresión
polinomio cuadrático.
b. Separe los datos en dos subgrupos. Uno en el que se incluyan los datos
correspondientes a temperaturas inferiores o iguales a los 60º, y un segundo conjunto
de datos que incluya temperaturas superiores a los 60º. Ajuste un modelo de
regresión lineal para cada grupo por separado. Considera que el considerar dos
modelos de regresión por separado para dicho conjunto de datos resulta idóneo?
Página 15
Solución:
Subgrupo 1.
Se incluyeron solo los datos correspondientes a temperaturas inferiores o iguales a

los 60º.
 De donde obtenemos el siguiente gráfico:
Relación entre Temperatura y Demanda

con temperaturas inferiores o iguales a y = -0.1211x + 7.0517
60. R² = 0.9004
D 9
8
e
7
m
6
a
5
n 4
d 3
2
1 Series1
0
-1 0 20 40 60 80
Temperatura
Página 16
Con el siguiente Análisis:
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,94890245
Coeficiente de determinación
R^2 0,90041586
R^2 ajustado 0,89517459
Error típico 0,79606501
Observaciones 21
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 1 108,868853 108,868853 171,793443 5,7567E-11
Residuos 19 12,0406704 0,63371949
Total 20 120,909524
Superior Inferior Superior

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 0,05% 0,05%
Intercepción 7,05167081 0,33079544 21,3173156 9,9571E-15 6,359308 7,74403363 7,05146077 7,05188085
-
Temperatura -0,12107045 0,00923708 -13,1069998 5,7567E-11 -0,14040389 0,10173701 -0,12107631 -0,12106458
Página 17
Como estamos hablando de un modelo de relación lineal debemos identificar
cuáles son las variables dependiente e independiente
Definición de las variables:
X=Temperatura (variable independiente)
Y=Demanda (variable dependiente)
Es decir Y/X.
 Bondad del ajuste (prueba del modelo).

Ajuste lineal.
Coeficiente de Correlación múltiple
Con un valor de 0,94890245 el coeficiente obtenido es alto lo que indica que

las variables están inversamente relacionadas (esto es debido al sentido negativo
del gráfico) mientras las temperaturas del día inferior a 60 aumentan puede que la
demanda de electricidad disminuya.
Coeficiente de determinación 𝑹𝟐
Representa el porcentaje de variabilidad de la demanda eléctrica explicada por

la regresión a través de la temperatura podemos decir que con un 90% la demanda
eléctrica depende de las temperaturas inferiores a 60 dado que nos dio un valor
alto es confiable y se puede predecir de acuerdo a la temperatura del día que tanto
habrá de demanda eléctrica y le permita adquirir a la compañía la electricidad
suficiente para transferir y así evitar cortes de electricidad (apagones)
𝑹𝟐 − Ajustado
Con un valor de 0,89517459 el modelo planteado es aceptable.
Página 18
 Análisis de los parámetros estimados.
𝑦 = 𝑎0 + 𝑎1 𝑋1
Para esto usamos contraste de hipótesis.
𝐻0 : a1=0 vs 𝐻1 : a1≠0
T=-13,1069998 𝑡38 (0,025)= 2.0244
Como |T| > 𝑡38 (0,025) se rechaza 𝐻0 ; es decir la variable temperatura está
aportando información significativa al modelo hasta ahora planteado.
 Análisis del modelo Anova.
El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de

varianza (ANOVA). Consideremos:
𝐻0 : b0 = b1 = 0 vs 𝐻1 : b1≠ 0 o b0≠0
𝐹1,19 (0,05)= 4,381 F= 171,793443
Como se puede observar F> 𝐹1,19 (0,05) y por tanto se rechaza 𝐻0 , es decir
que el modelo planteado hasta ahora es el adecuado.
Subgrupo.2
Se incluyeron solo los datos correspondientes a temperaturas mayores a los 60º.
Página 19
Relación entre Demanda eléctrica y
Temperatuas superiores a los 60.
y = 0,0916x - 5,2913
R² = 0,7991
6
D
e 5
m
a 4 Series1
n
d Linear (Series1)
3
a
2
0
0 20 40 60 80 100 120
Temperatura
Página 20
Análisis:
R^2 0,79914333
R^2 ajustado 0,78732823
Observaciones 19
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 1 29,8130934 29,8130934 67,6374673 2,5002E-07
Residuos 17 7,49322243 0,44077779
Total 18 37,3063158

-
Intercepción -5,29126162 1,00251314 -5,27799727 6,1511E-05 -7,40637946 3,17614378 -5,29189915 -5,29062409
Temperatura 0,09156355 0,01113343 8,2242001 2,5002E-07 0,06807407 0,11505304 0,09155647 0,09157063
Página 21
 Bondad del ajuste (prueba del modelo).
Ajuste lineal .
Coeficiente de Correlación múltiple
Con un valor de 0,89394817 el coeficiente obtenido es alto lo que indica que las
variables están directamente relacionadas mientras la temperatura del día es
superior a los 60 puede que la demanda de electricidad aumente.
Coeficiente de determinación 𝑹𝟐
Representa el porcentaje de variabilidad de la demanda eléctrica explicada por la

regresión a través de la temperatura con un valor obtenido de 79,91% nos da una
alta confiabilidad en poder predecir que la demanda eléctrica se verá afectada por
temperaturas superiores a los 60 dicha información es importante para la
compañía, para poder adquirir y trasferir la electricidad que se demande.
𝑹𝟐 - ajustado
Con un valor de 0,78732823 el modelo planteado es aceptable.
𝑦 = 𝑎0 + 𝑎1 𝑋1
Utilizamos contraste de hipótesis.
𝐻0 : a1=0 vs 𝐻1 : a1≠0
T=8,2242001 𝑡38 (0,025)= 2.0244
Como T> 𝑡38 (0,025) se rechaza 𝐻0 ; es decir la variable temperatura está

aportando información significativa al modelo hasta ahora planteado.
Página 22
 Análisis del modelo Anova.
El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de

varianza (ANOVA). Consideremos:
𝐻0 : b0 = b1 = 0 vs H1 : b1≠ 0 o b0≠0
𝐹1,17 (0,05)= 4,451 F= 67,6374673
Como se puede observar F> 𝐹1,17 (0,05) y por tanto se rechaza 𝐻0 , es decir que el
modelo planteado hasta ahora es el adecuado.
Considera que el considerar dos modelos de regresión por separado para

dicho conjunto de datos resulta idóneo?
Según lo observado si resulta idóneo plantear dos modelos por separado, en el

primer modelo con temperaturas inferiores o iguales a 60 pudimos observar que a
menor temperatura la demanda disminuye esto es debido al grafico que nos dio
negativo donde si la temperatura aumenta hasta 60 los niveles de demanda
disminuye debido a que las temperaturas son más bajas.
En el segundo modelo ocurrió lo contrario el grafico nos dio positivo donde si

la variable temperatura aumenta a niveles mayor o igual a 60 la demanda de
electricidad también puede que aumente, ambos modelos son importantes de
considerar para poder predecir qué tan preparada debe estar la Compañía de
electricidad cuando haya temperaturas inferiores a 60 o superiores a los 60.
Página 23
Problema 2.
Los tres elementos básicos de un sistema de procesamiento de datos son los archivos,
flujos y procesos. Los archivos son conjuntos de registros permanentes en el sistema; los
flujos, interfaces de datos entre el sistema y su entorno, y los procesos, manipulaciones
lógicas de los datos, definidas funcionalmente. Se emprende una investigación del costo
de desarrollo de software en lo relativo a archivos, flujos y procesos. El estudio revela los
datos siguientes:
Costo unitario (Y) Archivos Flujos Procesos

(En unidades de 1000) 𝑿𝟏 𝑿𝟐 𝑿𝟑
22,6 4 44 18
15 2 33 15
78,1 20 80 80
28 6 24 21
80,5 6 277 50
24,5 3 20 18
20,5 4 41 13
147,5 16 187 137
4,2 4 19 15
48,2 6 50 21
20,5 5 48 17
Ajuste un modelo de regresión múltiple y haga un análisis completo del mismo. Emita las
conclusiones pertinentes del caso.
Solución:
Para descubrir el costo del desarrollo de software en función de los tres (3) elementos
principales, usaremos regresión lineal múltiple con la modalidad Stepwise hacia
adelante.
El Stepwise hacia adelante nos permite ir paso a paso, introduciendo las variables
independientes en el modelo de regresión lineal, hasta completar el mejor modelo
posible.
Página 24
Sea 𝐹(𝑥) la manera de predecir el costo del desarrollo del software, suponiendo que
𝐹(𝑥) es lineal; nos queda:
𝐹(𝑥) = 𝑎0 + 𝑎1 𝑋1 + ⋯ . . +𝑎𝑖 𝑋𝑗
𝑦 = 𝑎0 + 𝑎1 𝑋1 + ⋯ . . +𝑎𝑖 𝑋𝑗
Definición de las variables:
Y: costo unitario del software.

𝑋1 : Archivos.
𝑋2 :: Flujos.
𝑋3 :: Procesos.
Siendo y la variable dependiente, y las variables independientes 𝑋1 , 𝑋2 , 𝑋3 .
Página 25
Estudiamos a 𝑿𝟏 = Archivos
Resumen
Coeficiente de correlación múltiple 0,778546122
Coeficiente de determinación R^2 0,606134064
R^2 ajustado 0,562371182
Observaciones 11
Promedio de los
Grados de libertad Suma de cuadrados cuadrados F Valor crítico de F
Regresión 1 10816,97704 10816,97704 13,8504148 0,004758732
Residuos 9 7028,872054 780,9857837
Total 10 17845,84909

Intercepción 4,643984331 13,6286787 0,340750885 0,74111041 -26,18622881 35,4741975 -26,1862288 35,474197
Variable X 1 5,769949636 1,550388837 3,721614539 0,00475873 2,262726423 9,27717285 2,26272642 9,2771728
Página 26
 Estudiemos la Bondad del ajuste del modelo.
-Ajuste lineal:
R= 0,778546122.
Esto nos indica que Y y 𝑋1 tienen una buena relación lineal; es decir que posiblemente
mientras más archivos tenga el software el precio de este subirá.
𝑅 2= 0,606134064
Esto nos indica que 𝑋1 : Archivos, tienen un 60% de efecto sobre el precio del software.
𝑅 2-ajustado= 0,562371182.
Esto nos indica que el modelo hasta ahora planteado es aceptable pero se puede
mejorar.
𝑦 = 𝑎0 + 𝑎1 𝑋1
Utilizamos el contraste de hipótesis.
𝐻𝑜 : a1=0 vs 𝐻1 : a1≠0
T= 3,72161453855876. 𝑡9 (0,025)=2,262.
Entonces como T>𝑡9 (0,025) rechazamos 𝐻𝑜 ; es decir que 𝑋1 si esta aportado

información significativa al modelo hasta ahora planteado.
 Analizamos el modelo mediante contraste de hipótesis.
P-valor= 0,00475873.
Como podemos observar P-valor< 0,05 rechazamos 𝐻𝑜 ; es decir que el modelo hasta
ahora planteado es el adecuado.
Así la función de costo nos queda de la siguiente manera:
𝑦 = 4,64398433 + 5,76994964𝑋1
Página 27
Estudiamos a 𝑿𝟐 = Flujos
Resumen
Coeficiente de correlación múltiple 0,943260856
Coeficiente de determinación R^2 0,889741043
R^2 ajustado 0,862176303
Observaciones 11
Promedio de los Valor crítico de
Grados de libertad Suma de cuadrados cuadrados F F
Regresión 2 15878,18438 7939,092188 32,2782317 0,000147794
Residuos 8 1967,664714 245,9580893
Total 10 17845,84909
Superior Inferior Sup

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95
Intercepción -6,579820714 8,038521133 -0,818536221 0,43675223 -25,11668369 11,9570423 -25,1166837 11,9
Variable X 1 0,36018568 0,079401724 4,536245071 0,00190861 0,177084976 0,54328639 0,17708498 0,54
Variable X 2 3,730980222 0,979306747 3,809817745 0,00516397 1,472694814 5,98926563 1,47269481 5,98
Página 28
-Ajuste lineal:
R= 0,943260856.
Esto nos indica que Y e 𝑋1 , 𝑋2 tienen una buena relación lineal; es decir que es posible
que mientras más archivos y flujos tenga el software el precio de este subirá.
𝑅 2= 0,889741043.
Esto nos indica que 𝑋1 : Archivos y 𝑋2 : Flujos, tienen un 88% de efecto sobre el precio del
software.
𝑅 2-ajustado= 0,862176303.
Esto nos indica que el modelo hasta ahora planteado ha mejorado considerablemente
en comparación con el anterior.
𝑦 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2
Utilizamos el contraste de hipótesis.
Para 𝑿𝟏
𝐻0 : a1=0 vs 𝐻1 : a1≠0
T=4,06291541. 𝑡9 (0,025)=2,262.
Entonces como T>𝑡9 (0,025) rechazamos 𝐻0 ; es decir que 𝑋1 si esta aportado

Para 𝑿𝟐
𝐻0 : a2=0 vs 𝐻1 : a2≠0
T=3,81172129. 𝑡9 (0,025)=2,262.

Página 29
De acuerdo a este análisis podemos de decir que tanto los archivos como los flujos son
necesarios para predecir un buen precio del software.
𝐹2,8 (0,05)=4,46. F= 25,3504506.
Como podemos observar F>𝐹2,8 (0,05) rechazamos 𝐻0 ; es decir que el modelo hasta
𝑦 = −4,48247956 + 4,19243138𝑋1 + 0,27784612𝑋2
Página 30
Estudiamos a a 𝑿𝟑 =Procesos
Resumen
R^2 0,961430359
R^2 ajustado 0,944900512
Observaciones 11
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 3 17157,54109 5719,180364 58,1632969 2,58384E-05
Residuos 7 688,3079993 98,32971419
Total 10 17845,84909
Superior Inferior Supe

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95,
Intercepción 1,960250892 5,607012646 0,349607004 0,73691548 -11,29822719 15,218729 -11,2982272 15,2
Variable X 1 0,176923434 0,071426784 2,476990054 0,04239661 0,008025928 0,34582094 0,00802593 0,345
Variable X 2 0,123082116 1,176381068 0,10462776 0,919606 -2,658617087 2,90478132 -2,65861709 2,904
Variable X 3 0,794867123 0,220364228 3,607060595 0,008658 0,273788526 1,31594572 0,27378853 1,315
Página 31
-Ajuste lineal:
R= 0,980525552.
Esto nos indica que Y y 𝑋1 , 𝑋2 , 𝑋3 , tienen una buena relación lineal; es decir que es
posible que mientras más archivos, flujos y procesos tenga el software el precio de este
subirá.
𝑅 2= 0,961430359.
Esto nos indica que 𝑋1 : Archivos, 𝑋2 : Flujos y 𝑋3 : Procesos tienen un 96% de efecto
sobre el precio del software.
𝑅 2-ajustado= 0,944900512
Esto nos indica que el modelo hasta ahora planteado ha mejorado considerablemente
en comparación con el anterior que se planteó.
𝑦 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2 + 𝑎3 𝑋3
Utilizamos contraste de hipótesis.
Para 𝑿𝟏
𝐻0 : a1=0 vs 𝐻1 : a1≠0
T=0,06330973. 𝑡9 (0,025)=2,262.
Entonces como T<𝑡9 (0,025) aceptamos 𝐻0 ; es decir que 𝑋1 para este modelo no está
aportado información significativa
Para 𝑿𝟐
Página 32
𝐻0 : a2=0 vs 𝐻1 : a2≠0
T=2,39670869. 𝑡9 (0,025)=2,262.

Para 𝑿𝟑
𝐻0 : a3=0 vs 𝐻1 : a3≠0
T=4,08605987. 𝑡9 (0,025)=2,262.

De acuerdo a este análisis podemos de decir que para este modelo se tendrá que
descartar a 𝑋1 .
𝐹3,7 (0,05)=4,35. F= 55,6237425.
Como podemos observar F>𝐹2 , 8(0,05) rechazamos 𝐻0 ; es decir que el modelo hasta
𝑦 = 2,698462578 + 0,074244422𝑋1 + 0,132544267𝑋2 + 0,852688624𝑋3
Página 33

Trabajo de Estadisitica Final

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Trabajo de Estadisitica Final

Încărcat de

Drepturi de autor:

Formate disponibile

República Bolivariana de Venezuela

Universidad Centroccidental Lisandro Alvarado

Trabajo de Estadística Matemática

Para el presente trabajo estudiaremos los ejercicios planteados a través de la

Recordemos que siempre surgirán problemas en donde deberemos determinar si

La rapidez de desplazamiento en la pantalla es una consideración importante en el

TIPO A TIPO B TIPO C TIPO D TIPO E

El ejercicio dispone de una colección de 40 unidades experimentales, con las

Rapidez de desplazamiento en la pantalla.

Niveles del factor

Tamaño del experimento

El número de observaciones es de 40 unidades experimentales.

Es de modelo unifactorial de efectos fijos equilibrados.

Verificar si existen diferencias entre la rapidez del desplazamiento medida entre

𝐻0 = µ1= µ2= µ3= µ4= µ5

𝐻1 =Al menos dos de las medias µ𝑖 son distintas.

Con un nivel de significancia α=0,01.

𝐻0 , Será verdadera si las cincos µ𝑖 son idénticas.

 Comparación de medias entre los grupos

Como ya indicamos en el estudio de las hipótesis solo podemos decir si hay

Utilizando el método de las diferencias significativas

Con α=0,01 y tα/2,n-k= t0,005,35=2,7238 procedemos hacer la estimación:

Al ser similares ̅̅̅

Tipo de Revestimiento MES 1 MES 2 MES 3 MES 4 MES 5

Diseño del experimento

El ejercicio dispone de una colección de 20 unidades experimentales, con las

Tiempo de exposición a la luz.

Tamaño del experimento

El número de observaciones es de 20 unidades experimentales.

Verificar si existen diferencias entre la elasticidad entre los grupos de

Definimos los factores

Factor A: Tipo de Revestimiento

Factor B: Tiempo de exposición a la luz.

Estimación de los efectos de los tratamientos y contrastes de las hipótesis

Hipótesis Nula (factor B): el factor B no tiene influencia.

Un ingeniero eléctrico tiene interés en predecir la demanda de electricidad en

Observando el diagrama de dispersión notamos que los datos NO se comportan

Se incluyeron solo los datos correspondientes a temperaturas inferiores o iguales a

 De donde obtenemos el siguiente gráfico:

Relación entre Temperatura y Demanda

Superior Inferior Superior

Definición de las variables:

X=Temperatura (variable independiente)

Y=Demanda (variable dependiente)

 Bondad del ajuste (prueba del modelo).

Coeficiente de Correlación múltiple

Con un valor de 0,94890245 el coeficiente obtenido es alto lo que indica que

Representa el porcentaje de variabilidad de la demanda eléctrica explicada por

Con un valor de 0,89517459 el modelo planteado es aceptable.

Para esto usamos contraste de hipótesis.

T=-13,1069998 𝑡38 (0,025)= 2.0244

 Análisis del modelo Anova.

El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de

𝐹1,19 (0,05)= 4,381 F= 171,793443

Se incluyeron solo los datos correspondientes a temperaturas mayores a los 60º.

Superior Inferior Superior

Coeficiente de Correlación múltiple

Representa el porcentaje de variabilidad de la demanda eléctrica explicada por la

Con un valor de 0,78732823 el modelo planteado es aceptable.

 Análisis de los parámetros estimados.

Utilizamos contraste de hipótesis.

T=8,2242001 𝑡38 (0,025)= 2.0244

Como T> 𝑡38 (0,025) se rechaza 𝐻0 ; es decir la variable temperatura está

El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de