Sunteți pe pagina 1din 33

República Bolivariana de Venezuela

Universidad Centroccidental Lisandro Alvarado


Decanato de Ciencia y Tecnologías

Trabajo de Estadística Matemática


(Anova, Regresión)

Integrantes:
22.097.260 Arrieche, Yessika
24.143.631 Terán, Yohander
23.833.426 Almao, Betzabeth
24.680.221 Virguez, Grency
Barquisimeto, enero del 2019

Página 1
Índice

Pág.

Introducción……………………………………………………………………………. 3

Anova……………………………………………………………………………………… 4

Problema 1……………………………………………………………………………… 4

Problema 2…………………………………………………………………………….. 10

Regresión……………………………………………………………………………….. 13

Problema 1……………………………………………………………………………… 13

Problema 2……………………………………………………………………………… 23

Página 2
Introducción
En el mundo moderno que vivimos hoy en día muchos problemas presentan
incertidumbre que no sabemos a ciencia exacta que va a ocurrir, muchas empresas
utilizan la estadística como ciencia para predecir en base a cálculos matemáticos
que es lo que mejor les conviene para poder tomar las mejores decisiones y de
esta forma mejorar la calidad del producto o servicio que prestan.

Para el presente trabajo estudiaremos los ejercicios planteados a través de la


regresión lineal simple y múltiple así como el análisis de la varianza (ANOVA),
con el propósito de asociar una probabilidad a la conclusión de que la media de un
grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
Como futuros ingenieros en informática nos apoyamos en las herramientas que
nos proporciona la tecnología Para ello utilizamos como herramienta Excel para
apoyarnos en el análisis de datos y gráficos.

Recordemos que siempre surgirán problemas en donde deberemos determinar si


dos o más grupos son iguales, si dos o más cursos de acción arrojan resultados
similares o si dos o más conjuntos de observaciones son parecidos, por lo que
utilizando el análisis de varianza (ANOVA) el cual nos brinda las herramientas
para evaluar la importancia de uno o más factores al comparar las medias de la
variable de respuesta en los diferentes niveles de los factores.

Otro modelo para estudiar este tipo de problemas es la regresión, está nos permite
conocer que tan relacionadas están dos variables y la influencia que puede tener
una sobre la otra para este caso existe la regresión lineal simple que estudia el
comportamiento de una variable independiente y de otra dependiente.

Página 3
Anova

Problema 1.

La rapidez de desplazamiento en la pantalla es una consideración importante en el


desarrollo de tarjetas gráficas a color. Se emprende un estudio para comparar el
tiempo, en segundos, necesario para desplazarse una pantalla en documentos
Microsoft Word con cinco tarjetas gráficas a color distintas en monitores de 24
pulgadas. La prueba emprendida es la de rendimiento Hydra Quick Draw. Se
obtienen los datos siguientes (basado en la información de“Gauging Video
Speed”, MAC WORDL, junio de 1993, p.28):

Tarjeta gráfica

TIPO A TIPO B TIPO C TIPO D TIPO E


30.5 48.3 79.2 51.6 79.0
32.4 42.1 84.7 59.4 85.3
27.2 43.5 85.0 57.3 86.2
26.3 40.6 88.2 59.0 82.0
25.1 38.6 76.3 58.7 87.2
38.2 32.1 83.1 68.1 81.7
30.6 41.6 92.6 64.8 93.5
33.7 38.8 88.5 55.5 89.1
Solución:

Página 4
Diseño del experimento

Unidad Experimental

El ejercicio dispone de una colección de 40 unidades experimentales, con las


cuales estudiaremos el efecto de un único factor, las tarjetas gráficas de color con
5 tipos de variantes sobre la media de la variable respuesta.

Variable de interés

Rapidez de desplazamiento en la pantalla.

Factor

Tarjetas gráficas. Es un factor de efectos fijos ya que viene decidido que niveles
concretos se van a utilizar.

Niveles del factor

Tamaño del experimento

El número de observaciones es de 40 unidades experimentales.

Es de modelo unifactorial de efectos fijos equilibrados.

Objetivo

Verificar si existen diferencias entre la rapidez del desplazamiento medida entre


los tiempo, en segundos, necesario para desplazar una pantalla en documentos
Microsoft Word, con tarjetas gráficas a color distintas en monitores de 24
pulgadas.

Página 5
Estimación de los efectos de los tratamientos y contrastes de las hipótesis
𝑯𝟎 𝒗𝒔 𝑯𝟏
I=5.

𝐻0 = µ1= µ2= µ3= µ4= µ5

𝐻1 =Al menos dos de las medias µ𝑖 son distintas.

Con un nivel de significancia α=0,01.

𝐻0 , Será verdadera si las cincos µ𝑖 son idénticas.

𝐻1 , Será verdadera si al menos dos de las cincos µ𝑖 son distintas o si las cincos
µ𝑖 difieren de la otra.

Página 6
Análisis.

RESUMEN
Grupos Cuenta Suma Promedio Varianza
Columna 1 8 244 30,5 18,6914286
Columna 2 8 326 40,75 21,66
Columna 3 8 677,6 84,7 27,5085714
Columna 4 8 474 59,25 25,9457143
Columna 5 8 684 85,5 21,3314286

ANÁLISIS DE
VARIANZA
Origen de las Suma de Grados de Valor crítico
variaciones cuadrados libertad Promedio de los cuadrados F Probabilidad para F
Entre grupos 20012,936 4 5003,234 217,272805 3,455E-24 3,90824093
Dentro de los grupos 805,96 35 23,02742857

Total 20818,896 39

Página 7
𝐹 = 217,272805 > 𝐹(4,35) (0,01) = 3,908 Como el valor 𝐹 > 𝐹𝑘−1,𝑘(𝑛−1) (𝛼),
con un nivel de significancia del 1%, Rechazamos 𝐻0 , y por tanto existe evidencia
estadística para pensar que si hay diferencian entre la rapidez desplazamiento
entre los tiempo, en segundos, necesario para desplazarse en la pantalla, pero solo
podemos decir que hay diferencia de una manera general, sin llegar a saber con
exactitud cuales poblaciones difieren realmente entre sí. En términos de nuestro
problema, al menos dos de la cinco tarjetas grafica afectan la rapidez de
desplazamiento en la pantalla (es decir existe relación entre las variables).Por esta
razón, realizamos una comparación entre grupos.

 Comparación de medias entre los grupos

Como ya indicamos en el estudio de las hipótesis solo podemos decir si hay


diferencia o no entre las medias de una manera general. Para determinar quienes
difieren entre si planteamos las siguientes hipótesis.

𝐻0 = 𝜇𝐴 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐵

𝐻0 = 𝜇𝐴 = 𝜇𝐶 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐶

𝐻0 = 𝜇𝐴 = 𝜇𝐷 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐷

𝐻0 = 𝜇𝐴 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐴 ≠ 𝜇𝐸

𝐻0 = 𝜇𝐵 = 𝜇𝐶 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐶

𝐻0 = 𝜇𝐵 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐵

𝐻0 = 𝜇𝐵 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐵 ≠ 𝜇𝐸

𝐻0 = 𝜇𝐶 = 𝜇𝐵 vs 𝐻1 = 𝜇𝐶 ≠ 𝜇𝐵

𝐻0 = 𝜇𝐶 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐶 ≠ 𝜇𝐸

𝐻0 = 𝜇𝐷 = 𝜇𝐸 vs 𝐻1 = 𝜇𝐷 ≠ 𝜇𝐸

Es decir.

Página 8
𝐻0 , Será verdadera si 𝜇𝑖 son idénticas, es decir las medias de las tarjetas sean
iguales.

𝐻1 , Será verdadera si 𝜇𝑖 son distintas, es decir las medias de las tarjetas sean
distintas.

Con i= A,B,C,D,E.

Utilizando el método de las diferencias significativas

Con α=0,01 y tα/2,n-k= t0,005,35=2,7238 procedemos hacer la estimación:

1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐵 | = 10,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐶 | = 54,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐷 | = 28,8 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐴 − 𝑇𝐸 | = 55 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐶 | = 44 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐷 | = 18,6 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐵 − 𝑇𝐸 | = 44,8 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

Página 9
1 1
̅̅̅
|𝑇 ̅̅̅
𝐶 − 𝑇𝐷 | = 25,4 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

1 1
̅̅̅
|𝑇 ̅̅̅
𝐶 − 𝑇𝐸 | = 0,8 < (2,7238)√(23,0274286)√8 + 8 = 6,53 Tarjeta C y E se

comportan similares.

1 1
̅̅̅
|𝑇 ̅̅̅
𝐷 − 𝑇𝐸 | = 26,2 > (2,7238)√(23,0274286)√ + = 6,53 𝑅𝐻0
8 8

Al ser similares ̅̅̅


𝑇𝐶 𝑦 ̅̅̅
𝑇𝐸 podemos concluir que dichas tarjetas se comportan
similares debido a lo aproximado de sus medias la rapidez con que se desplazan
son similares

Página 10
Problema 2. La tabla que se presenta al final del enunciado muestra las
mediciones de la elasticidad de cuatro grupos de revestimiento cuando son
expuestos a distintas intensidades de luz. Durante el un periodo de 5 meses. Las
mediciones son tomadas en el último día de los siguientes cinco meses y se
registran en,

Tipo de Revestimiento MES 1 MES 2 MES 3 MES 4 MES 5


REVESTIMIENTO A 1,21 1,32 1,44 1,38 1,26
REVESTIMIENTO B 0,89 1,11 1,26 1,05 0,82
REVESTIMIENTO C 3,67 4,69 4,88 4,33 4,02
REVESTIMIENTO D 2,22 2,36 2,58 2,46 2,13
Evalué si hay efectos significativos en la elasticidad promedio, debido al tipo de
revestimiento y/o al tiempo de exposición a la luz.

Solución:

Diseño del experimento

Unidad experimental

El ejercicio dispone de una colección de 20 unidades experimentales, con las


cuales estudiaremos el efecto de dos factores con una sola muestra por grupo, la
elasticidad promedio, debido al tipo de revestimiento y/o al tiempo de exposición
a la luz, durante el periodo de 5 meses.

Variable de interés

La elasticidad.

Factor Principal

Tipo de Revestimiento.

Factor Secundario

Tiempo de exposición a la luz.

Página 11
Niveles del factor principal

Tamaño del experimento

El número de observaciones es de 20 unidades experimentales.

Objetivo

Verificar si existen diferencias entre la elasticidad entre los grupos de


revestimiento cuando son expuestos a distintas intensidades de luz, durante un
periodo de 5 meses.

Definimos los factores

Factor A: Tipo de Revestimiento

Factor B: Tiempo de exposición a la luz.

Estimación de los efectos de los tratamientos y contrastes de las hipótesis


𝑯𝟎 𝒗𝒔 𝑯𝒂
Hipótesis Nula (factor A): el factor A no tiene influencia.

𝐻0𝐴 = 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5

Hipótesis Nula (factor B): el factor B no tiene influencia.

𝐻0𝐵 = 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5

Página 12
Análisis:

𝐹𝐴 = 301,095028 > 𝐹(3,12) (0,01) =5,95 Rechazamos la hipótesis nula con un nivel de
significación del 1%. El factor A (Tipo de revestimiento) aparentemente si influye en la
elasticidad promedio.

𝐹𝐵 = 5,49799524 > 𝐹(4,12) (0,01) =5,41 Rechazamos la hipótesis nula con un nivel de
significación del 1%. El Factor B(tiempo de exposición a la luz) aparentemente si influye
en la elasticidad promedio.

Página 13
Regresión

Problema 1.

Un ingeniero eléctrico tiene interés en predecir la demanda de electricidad en


relación con la temperatura del día. Ello permitiría que la compañía adquiera y
transfiera electricidad con base en las predicciones climatológicas de corto plazo
y, de tal suerte, se reduzcan o eviten los cortes de energía (apagones). Se prepara
una escala de demanda de 0 a 10, donde 0, indica demanda muy baja y 10,
demanda máxima. Se obtiene una muestra aleatoria de 40 días de los 365 días del
año, la cual arroja los datos siguientes:

Página 14
a. Piensa que un modelo de regresión lineal ajusta satisfactoriamente la
demanda (variable respuesta) en función de la temperatura (variable
explicativa).

Observando el diagrama de dispersión notamos que los datos NO se comportan


de una forma lineal, es decir si existe una relación entre la demanda y la
temperatura, se cree que a menor temperatura la demanda disminuye, pero
también se puede observar que cuando la temperatura aumenta la demanda
también aumenta, ya que el grafico muestra que no es lineal, es decir no es
constante, por lo que consideramos que ajusta mejor a ún modelo de regresión
polinomio cuadrático.

b. Separe los datos en dos subgrupos. Uno en el que se incluyan los datos
correspondientes a temperaturas inferiores o iguales a los 60º, y un segundo conjunto
de datos que incluya temperaturas superiores a los 60º. Ajuste un modelo de
regresión lineal para cada grupo por separado. Considera que el considerar dos
modelos de regresión por separado para dicho conjunto de datos resulta idóneo?

Página 15
Solución:

Subgrupo 1.

Se incluyeron solo los datos correspondientes a temperaturas inferiores o iguales a


los 60º.

 De donde obtenemos el siguiente gráfico:

Relación entre Temperatura y Demanda


con temperaturas inferiores o iguales a y = -0.1211x + 7.0517
60. R² = 0.9004

D 9
8
e
7
m
6
a
5
n 4
d 3
2
1 Series1
0
-1 0 20 40 60 80
Temperatura

Página 16
Con el siguiente Análisis:

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,94890245
Coeficiente de determinación
R^2 0,90041586
R^2 ajustado 0,89517459
Error típico 0,79606501
Observaciones 21

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 1 108,868853 108,868853 171,793443 5,7567E-11
Residuos 19 12,0406704 0,63371949
Total 20 120,909524

Superior Inferior Superior


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 0,05% 0,05%
Intercepción 7,05167081 0,33079544 21,3173156 9,9571E-15 6,359308 7,74403363 7,05146077 7,05188085
-
Temperatura -0,12107045 0,00923708 -13,1069998 5,7567E-11 -0,14040389 0,10173701 -0,12107631 -0,12106458

Página 17
Como estamos hablando de un modelo de relación lineal debemos identificar
cuáles son las variables dependiente e independiente

Definición de las variables:

X=Temperatura (variable independiente)

Y=Demanda (variable dependiente)

Es decir Y/X.

 Bondad del ajuste (prueba del modelo).


Ajuste lineal.

Coeficiente de Correlación múltiple

Con un valor de 0,94890245 el coeficiente obtenido es alto lo que indica que


las variables están inversamente relacionadas (esto es debido al sentido negativo
del gráfico) mientras las temperaturas del día inferior a 60 aumentan puede que la
demanda de electricidad disminuya.

Coeficiente de determinación 𝑹𝟐

Representa el porcentaje de variabilidad de la demanda eléctrica explicada por


la regresión a través de la temperatura podemos decir que con un 90% la demanda
eléctrica depende de las temperaturas inferiores a 60 dado que nos dio un valor
alto es confiable y se puede predecir de acuerdo a la temperatura del día que tanto
habrá de demanda eléctrica y le permita adquirir a la compañía la electricidad
suficiente para transferir y así evitar cortes de electricidad (apagones)

𝑹𝟐 − Ajustado

Con un valor de 0,89517459 el modelo planteado es aceptable.

Página 18
 Análisis de los parámetros estimados.

𝑦 = 𝑎0 + 𝑎1 𝑋1

Para esto usamos contraste de hipótesis.

𝐻0 : a1=0 vs 𝐻1 : a1≠0

T=-13,1069998 𝑡38 (0,025)= 2.0244

Como |T| > 𝑡38 (0,025) se rechaza 𝐻0 ; es decir la variable temperatura está
aportando información significativa al modelo hasta ahora planteado.

 Análisis del modelo Anova.

El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de


varianza (ANOVA). Consideremos:

𝐻0 : b0 = b1 = 0 vs 𝐻1 : b1≠ 0 o b0≠0

𝐹1,19 (0,05)= 4,381 F= 171,793443

Como se puede observar F> 𝐹1,19 (0,05) y por tanto se rechaza 𝐻0 , es decir
que el modelo planteado hasta ahora es el adecuado.

Subgrupo.2

Se incluyeron solo los datos correspondientes a temperaturas mayores a los 60º.

Página 19
Relación entre Demanda eléctrica y
Temperatuas superiores a los 60.
y = 0,0916x - 5,2913
R² = 0,7991
6
D
e 5
m
a 4 Series1
n
d Linear (Series1)
3
a
2

0
0 20 40 60 80 100 120
Temperatura

Página 20
Análisis:

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,89394817
Coeficiente de determinación
R^2 0,79914333
R^2 ajustado 0,78732823
Error típico 0,66391098
Observaciones 19

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico de
libertad cuadrados cuadrados F F
Regresión 1 29,8130934 29,8130934 67,6374673 2,5002E-07
Residuos 17 7,49322243 0,44077779
Total 18 37,3063158

Superior Inferior Superior


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 0,05% 0,05%
-
Intercepción -5,29126162 1,00251314 -5,27799727 6,1511E-05 -7,40637946 3,17614378 -5,29189915 -5,29062409
Temperatura 0,09156355 0,01113343 8,2242001 2,5002E-07 0,06807407 0,11505304 0,09155647 0,09157063

Página 21
 Bondad del ajuste (prueba del modelo).

Ajuste lineal .

Coeficiente de Correlación múltiple

Con un valor de 0,89394817 el coeficiente obtenido es alto lo que indica que las
variables están directamente relacionadas mientras la temperatura del día es
superior a los 60 puede que la demanda de electricidad aumente.

Coeficiente de determinación 𝑹𝟐

Representa el porcentaje de variabilidad de la demanda eléctrica explicada por la


regresión a través de la temperatura con un valor obtenido de 79,91% nos da una
alta confiabilidad en poder predecir que la demanda eléctrica se verá afectada por
temperaturas superiores a los 60 dicha información es importante para la
compañía, para poder adquirir y trasferir la electricidad que se demande.

𝑹𝟐 - ajustado

Con un valor de 0,78732823 el modelo planteado es aceptable.

 Análisis de los parámetros estimados.

𝑦 = 𝑎0 + 𝑎1 𝑋1

Utilizamos contraste de hipótesis.

𝐻0 : a1=0 vs 𝐻1 : a1≠0

T=8,2242001 𝑡38 (0,025)= 2.0244

Como T> 𝑡38 (0,025) se rechaza 𝐻0 ; es decir la variable temperatura está


aportando información significativa al modelo hasta ahora planteado.

Página 22
 Análisis del modelo Anova.

El análisis del modelo en su conjunto se lleva acabo aplicando el análisis de


varianza (ANOVA). Consideremos:

𝐻0 : b0 = b1 = 0 vs H1 : b1≠ 0 o b0≠0

𝐹1,17 (0,05)= 4,451 F= 67,6374673

Como se puede observar F> 𝐹1,17 (0,05) y por tanto se rechaza 𝐻0 , es decir que el
modelo planteado hasta ahora es el adecuado.

Considera que el considerar dos modelos de regresión por separado para


dicho conjunto de datos resulta idóneo?

Según lo observado si resulta idóneo plantear dos modelos por separado, en el


primer modelo con temperaturas inferiores o iguales a 60 pudimos observar que a
menor temperatura la demanda disminuye esto es debido al grafico que nos dio
negativo donde si la temperatura aumenta hasta 60 los niveles de demanda
disminuye debido a que las temperaturas son más bajas.

En el segundo modelo ocurrió lo contrario el grafico nos dio positivo donde si


la variable temperatura aumenta a niveles mayor o igual a 60 la demanda de
electricidad también puede que aumente, ambos modelos son importantes de
considerar para poder predecir qué tan preparada debe estar la Compañía de
electricidad cuando haya temperaturas inferiores a 60 o superiores a los 60.

Página 23
Problema 2.

Los tres elementos básicos de un sistema de procesamiento de datos son los archivos,
flujos y procesos. Los archivos son conjuntos de registros permanentes en el sistema; los
flujos, interfaces de datos entre el sistema y su entorno, y los procesos, manipulaciones
lógicas de los datos, definidas funcionalmente. Se emprende una investigación del costo
de desarrollo de software en lo relativo a archivos, flujos y procesos. El estudio revela los
datos siguientes:

Costo unitario (Y) Archivos Flujos Procesos


(En unidades de 1000) 𝑿𝟏 𝑿𝟐 𝑿𝟑
22,6 4 44 18
15 2 33 15
78,1 20 80 80
28 6 24 21
80,5 6 277 50
24,5 3 20 18
20,5 4 41 13
147,5 16 187 137
4,2 4 19 15
48,2 6 50 21
20,5 5 48 17
Ajuste un modelo de regresión múltiple y haga un análisis completo del mismo. Emita las
conclusiones pertinentes del caso.

Solución:
Para descubrir el costo del desarrollo de software en función de los tres (3) elementos
principales, usaremos regresión lineal múltiple con la modalidad Stepwise hacia
adelante.

El Stepwise hacia adelante nos permite ir paso a paso, introduciendo las variables
independientes en el modelo de regresión lineal, hasta completar el mejor modelo
posible.

Página 24
Sea 𝐹(𝑥) la manera de predecir el costo del desarrollo del software, suponiendo que
𝐹(𝑥) es lineal; nos queda:

𝐹(𝑥) = 𝑎0 + 𝑎1 𝑋1 + ⋯ . . +𝑎𝑖 𝑋𝑗

𝑦 = 𝑎0 + 𝑎1 𝑋1 + ⋯ . . +𝑎𝑖 𝑋𝑗

Definición de las variables:

Y: costo unitario del software.


𝑋1 : Archivos.
𝑋2 :: Flujos.
𝑋3 :: Procesos.
Siendo y la variable dependiente, y las variables independientes 𝑋1 , 𝑋2 , 𝑋3 .

Página 25
Estudiamos a 𝑿𝟏 = Archivos

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,778546122
Coeficiente de determinación R^2 0,606134064
R^2 ajustado 0,562371182
Error típico 27,94612288
Observaciones 11

ANÁLISIS DE VARIANZA
Promedio de los
Grados de libertad Suma de cuadrados cuadrados F Valor crítico de F
Regresión 1 10816,97704 10816,97704 13,8504148 0,004758732
Residuos 9 7028,872054 780,9857837
Total 10 17845,84909

Superior Inferior Superior


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95,0%
Intercepción 4,643984331 13,6286787 0,340750885 0,74111041 -26,18622881 35,4741975 -26,1862288 35,474197
Variable X 1 5,769949636 1,550388837 3,721614539 0,00475873 2,262726423 9,27717285 2,26272642 9,2771728

Página 26
 Estudiemos la Bondad del ajuste del modelo.

-Ajuste lineal:

R= 0,778546122.

Esto nos indica que Y y 𝑋1 tienen una buena relación lineal; es decir que posiblemente
mientras más archivos tenga el software el precio de este subirá.

𝑅 2= 0,606134064

Esto nos indica que 𝑋1 : Archivos, tienen un 60% de efecto sobre el precio del software.

𝑅 2-ajustado= 0,562371182.

Esto nos indica que el modelo hasta ahora planteado es aceptable pero se puede
mejorar.

 Análisis de los parámetros estimados.

𝑦 = 𝑎0 + 𝑎1 𝑋1

Utilizamos el contraste de hipótesis.

𝐻𝑜 : a1=0 vs 𝐻1 : a1≠0

T= 3,72161453855876. 𝑡9 (0,025)=2,262.

Entonces como T>𝑡9 (0,025) rechazamos 𝐻𝑜 ; es decir que 𝑋1 si esta aportado


información significativa al modelo hasta ahora planteado.

 Analizamos el modelo mediante contraste de hipótesis.

P-valor= 0,00475873.

Como podemos observar P-valor< 0,05 rechazamos 𝐻𝑜 ; es decir que el modelo hasta
ahora planteado es el adecuado.

Así la función de costo nos queda de la siguiente manera:

𝑦 = 4,64398433 + 5,76994964𝑋1

Página 27
Estudiamos a 𝑿𝟐 = Flujos

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,943260856
Coeficiente de determinación R^2 0,889741043
R^2 ajustado 0,862176303
Error típico 15,68305102
Observaciones 11

ANÁLISIS DE VARIANZA
Promedio de los Valor crítico de
Grados de libertad Suma de cuadrados cuadrados F F
Regresión 2 15878,18438 7939,092188 32,2782317 0,000147794
Residuos 8 1967,664714 245,9580893
Total 10 17845,84909

Superior Inferior Sup


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95
Intercepción -6,579820714 8,038521133 -0,818536221 0,43675223 -25,11668369 11,9570423 -25,1166837 11,9
Variable X 1 0,36018568 0,079401724 4,536245071 0,00190861 0,177084976 0,54328639 0,17708498 0,54
Variable X 2 3,730980222 0,979306747 3,809817745 0,00516397 1,472694814 5,98926563 1,47269481 5,98

Página 28
 Estudiemos la Bondad del ajuste del modelo.

-Ajuste lineal:

R= 0,943260856.

Esto nos indica que Y e 𝑋1 , 𝑋2 tienen una buena relación lineal; es decir que es posible
que mientras más archivos y flujos tenga el software el precio de este subirá.

𝑅 2= 0,889741043.

Esto nos indica que 𝑋1 : Archivos y 𝑋2 : Flujos, tienen un 88% de efecto sobre el precio del
software.

𝑅 2-ajustado= 0,862176303.

Esto nos indica que el modelo hasta ahora planteado ha mejorado considerablemente
en comparación con el anterior.

 Análisis de los parámetros estimados.

𝑦 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2

Utilizamos el contraste de hipótesis.

Para 𝑿𝟏

𝐻0 : a1=0 vs 𝐻1 : a1≠0

T=4,06291541. 𝑡9 (0,025)=2,262.

Entonces como T>𝑡9 (0,025) rechazamos 𝐻0 ; es decir que 𝑋1 si esta aportado


información significativa al modelo hasta ahora planteado.

Para 𝑿𝟐

𝐻0 : a2=0 vs 𝐻1 : a2≠0

T=3,81172129. 𝑡9 (0,025)=2,262.

Entonces como T>𝑡9 (0,025) rechazamos 𝐻0 ; es decir que 𝑋2 si esta aportado


información significativa al modelo hasta ahora planteado.

Página 29
De acuerdo a este análisis podemos de decir que tanto los archivos como los flujos son
necesarios para predecir un buen precio del software.

 Analizamos el modelo mediante contraste de hipótesis.

𝐹2,8 (0,05)=4,46. F= 25,3504506.

Como podemos observar F>𝐹2,8 (0,05) rechazamos 𝐻0 ; es decir que el modelo hasta
ahora planteado es el adecuado.

Así la función de costo nos queda de la siguiente manera:

𝑦 = −4,48247956 + 4,19243138𝑋1 + 0,27784612𝑋2

Página 30
Estudiamos a a 𝑿𝟑 =Procesos

Resumen

Estadísticas de la regresión
Coeficiente de correlación
múltiple 0,980525552
Coeficiente de determinación
R^2 0,961430359
R^2 ajustado 0,944900512
Error típico 9,916134034
Observaciones 11

ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 3 17157,54109 5719,180364 58,1632969 2,58384E-05
Residuos 7 688,3079993 98,32971419
Total 10 17845,84909

Superior Inferior Supe


Coeficientes Error típico Estadístico t Probabilidad Inferior 95% 95% 95,0% 95,
Intercepción 1,960250892 5,607012646 0,349607004 0,73691548 -11,29822719 15,218729 -11,2982272 15,2
Variable X 1 0,176923434 0,071426784 2,476990054 0,04239661 0,008025928 0,34582094 0,00802593 0,345
Variable X 2 0,123082116 1,176381068 0,10462776 0,919606 -2,658617087 2,90478132 -2,65861709 2,904
Variable X 3 0,794867123 0,220364228 3,607060595 0,008658 0,273788526 1,31594572 0,27378853 1,315

Página 31
 Estudiemos la Bondad del ajuste del modelo.

-Ajuste lineal:

R= 0,980525552.

Esto nos indica que Y y 𝑋1 , 𝑋2 , 𝑋3 , tienen una buena relación lineal; es decir que es
posible que mientras más archivos, flujos y procesos tenga el software el precio de este
subirá.

𝑅 2= 0,961430359.

Esto nos indica que 𝑋1 : Archivos, 𝑋2 : Flujos y 𝑋3 : Procesos tienen un 96% de efecto
sobre el precio del software.

𝑅 2-ajustado= 0,944900512

Esto nos indica que el modelo hasta ahora planteado ha mejorado considerablemente
en comparación con el anterior que se planteó.

 Análisis de los parámetros estimados.

𝑦 = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2 + 𝑎3 𝑋3

Utilizamos contraste de hipótesis.

Para 𝑿𝟏

𝐻0 : a1=0 vs 𝐻1 : a1≠0

T=0,06330973. 𝑡9 (0,025)=2,262.

Entonces como T<𝑡9 (0,025) aceptamos 𝐻0 ; es decir que 𝑋1 para este modelo no está
aportado información significativa

Para 𝑿𝟐

Página 32
𝐻0 : a2=0 vs 𝐻1 : a2≠0

T=2,39670869. 𝑡9 (0,025)=2,262.

Entonces como T>𝑡9 (0,025) rechazamos 𝐻0 ; es decir que 𝑋2 si esta aportado


información significativa al modelo hasta ahora planteado.

Para 𝑿𝟑

𝐻0 : a3=0 vs 𝐻1 : a3≠0

T=4,08605987. 𝑡9 (0,025)=2,262.

Entonces como T>𝑡9 (0,025) rechazamos 𝐻0 ; es decir que 𝑋3 si esta aportado


información significativa al modelo hasta ahora planteado.

De acuerdo a este análisis podemos de decir que para este modelo se tendrá que
descartar a 𝑋1 .

 Analizamos el modelo mediante contraste de hipótesis.

𝐹3,7 (0,05)=4,35. F= 55,6237425.

Como podemos observar F>𝐹2 , 8(0,05) rechazamos 𝐻0 ; es decir que el modelo hasta
ahora planteado es el adecuado.

Así la función de costo nos queda de la siguiente manera:

𝑦 = 2,698462578 + 0,074244422𝑋1 + 0,132544267𝑋2 + 0,852688624𝑋3

Página 33

S-ar putea să vă placă și