Sunteți pe pagina 1din 20

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE INGENIERIA INDUSTRIAL

ESCUELA PROFESIONAL DE INGENIERIA INFORMATICA

TEMA:

REGRESION SIMPLE LINEAL

INTEGRANTES:

• Alfaro Nunura Aaron Jesús

• Ancajima Cruz Miguel Ángel

• Chumacero Lopez Cristhian Omar

• Ibáñez Valladolid Noe German

• Sandoval Valencia Edwin Joel

CURSO:

Estadística

DOCENTE:

MGs. Darwin M. P. Llacsahuanche Calle

CICLO:

2019-02
Tabla de contenido
I. INTRODUCCION ...................................................................................................................... 3
II. MARCO TEORICO .................................................................................................................... 4
2.1. REGRESION LINEAL SIMPLE ........................................................................................ 4
2.1.1. Modelo de Regresión Lineal Simple ........................................................................... 4
2.1.2. Ecuación de regresión lineal simple: ........................................................................... 5
2.1.3. Métodos de mínimos cuadrados .................................................................................. 6
2.1.4. El coeficiente de correlación lineal ............................................................................. 8
2.1.5. EL coeficiente de determinación ................................................................................. 9
III. APLICACIÓN ........................................................................................................................... 16
IV. CONCLUCIONES .................................................................................................................... 19
V. REFERENCIAS BIBLIOGRAFICAS ...................................................................................... 20
I. INTRODUCCION

En este capítulo comentamos un tipo de problema. El llamado regresión, implica necesariamente el


desarrollo de una ecuación mediante la cual pueda estimarse el valor medio de una variable aleatoria
desde el conocimiento de los valores tomados por una o más variables.

En un problema de regresión, estamos principalmente interesados en una variable aleatoria simple Y.


Se supone que el valor tomado por esta variable aleatoria depende o está influenciado por los valores
tomados por una o más variables diferentes. La variable aleatoria Y se denomina variable dependiente
o respuesta; las variables que influencian a Y se denominan variables independientes, variables
predictoras o regresores. Al realizar estimaciones o predicciones, los regresores no se tratan como
variables aleatorias. Por el contrario, son entidades que pueden asumir valores diferentes pero cuyos
valores en el momento en que debe hacerse la predicción no se determinan al azar.
II. MARCO TEORICO

2.1. REGRESION LINEAL SIMPLE

Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia


entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables
pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable
a partir de otra. Por ejemplo, supongamos que la altura de los padres influye
significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media
de los hijos cuyos padres presentan una determinada estatura.

La finalidad de una ecuación de regresión es estimar los valores de una variable con base en
los valores conocidos de la otra. Otra forma de emplear una ecuación de regresión es para
explicar los valores de una variable en términos de otra. El análisis de regresión únicamente
indica qué relación matemática podría haber, de existir una.

2.1.1. Modelo de Regresión Lineal Simple

𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜀

Donde:

 y es una variable dependiente de x.


 Β0 y β1 son los parámetros del modelo.
 ε es una variable aleatoria, llamada error, que explica la variabilidad en y que no se
puede explicar con la relación lineal entre x y y.

Los errores, ε, se consideran variables aleatorias independientes distribuidas normalmente


con media cero y desviación estándar σ. Esto implica que el valor medio o valor esperado de
y, denotado por E(Y/x), es igual a Β0 y β1 x.

𝐸(𝑦/𝑥) = 𝛽0 + 𝛽1 𝑥
2.1.2. Ecuación de regresión lineal simple:

Dos características importantes de una ecuación lineal:

o La independencia de la recta
o La localización de la recta en algún punto. Una ecuación lineal tiene la forma:

Forma general de la ecuación de regresión lineal simple

𝐸(𝑦/𝑥) = 𝛽0 + 𝛽1 𝑥

Los parámetros, β y β1, del modelo se estiman por los estadísticos muestrales b0 y b1, los
cuales se calculan usando el método de mínimos cuadrados.
̂
Y = b0 + b1 X

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión


estimada. ŷ es el valor estimado de y para un valor específico de x.

La ecuación estimada de regresión lineal simple es:

𝑦̂ = b0 + b1 x

Donde:

o 𝑦̂ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado


de x.
o b0 es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y
cuando
X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de
regresión cruza el eje Y, cuando X = 0.
o b1 es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio
(incremento o decremento) en la variable independiente X.
o x es cualquier valor seleccionado de la variable independiente.

Con esta expresión se hace referencia al proceso matemático que sirve para ajustar una línea
recta a través de un conjunto de datos bivariables asentados en una gráfica de dispersión.
Dicha línea se conoce como línea de regresión simple.

2.1.3. Métodos de mínimos cuadrados

Es el procedimiento más utilizado por adaptar una recta aun conjunto de punto se le que
conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica
importantes:

• Es nula la suma de desviaciones verticales en los puntos a partir de la recta

• Es mínima la suma de los cuadrados de dichas desviaciones Para un valor dado de X, por
ejemplo, X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la curva C.
Esta diferencia se denota por D1, que se conoce como desviación, error o residuo.

De todas las curvas de aproximación a una serie de datos puntuales la curva que tiene la
propiedad de que: D21+ D22 + . . . + D2N Se conoce como Mejor curva de ajuste
El método de mínimos cuadrados consiste en hallar los valores b0 y b1que hacen mínima la
suma de los cuadrados de las desviaciones entre los valores observados de la variable
dependiente, yi, y los valores estimados de la misma, ŷi. Es decir, se minimiza la suma:

𝛴 (𝑦𝑖 – ŷ𝑖)2

Al aplicar el método se llega al siguiente sistema de ecuaciones simultáneas (llamadas


ecuaciones normales de la recta de regresión de y en x), cuya solución da los valores de b0 y
b1:

∑ 𝑦𝑖 = 𝑛𝑏0 + (∑ 𝑥𝑖 ) 𝑏1
{
∑ 𝑥𝑖 𝑦𝑖 = (∑ 𝑥𝑖 )𝑏0 + (∑ 𝑥𝑖2 )𝑏1

Las ecuaciones son las siguientes:

∑𝑥𝑖 𝛴𝑦𝑖 ̅ )(𝑦𝑖 −𝑦


∑(𝑥𝑖 −𝑥 ̅)
∑𝑥𝑖 𝑦𝑖 − ∑(𝑥𝑖 −𝑥̅ )(𝑦𝑖 −𝑦̅) 𝑆𝑋𝑌
𝑛 𝑛−1
𝑏1 = 2 que también es 𝑏1 = = 2 = 2
(𝛴𝑥 ) ∑(𝑥𝑖 −𝑥̅ )2 ∑(𝑥𝑖 −𝑥 ̅) 𝑆𝑋
∑𝑥𝑖2 − 𝑖
𝑛 𝑛−1

Y 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅

De donde obtenemos:
b0 es la constante de dicha recta y b1 es el coeficiente de regresión.

̂ = b0 + b1 X
Y

La recta de regresión pasa siempre por el centro de gravedad de la nube de puntos, es decir por el
punto 𝑋̅, 𝑌̅)

El coeficiente de regresión nos da información sobre el comportamiento de la variable Y frente a la


variable X, de manera que:

a) Si b1 =0 , para cualquier valor de X la variable Y es constante (es decir, no cambia).

b) Si b1 >0 , esto nos indica que al aumentar el valor de X, también aumenta el valor de Y.

c) Si b1 <0 , esto nos indica que al aumentar el valor de X, el valor de Y disminuye.

2.1.4. El coeficiente de correlación lineal

El coeficiente de correlación lineal entre X e Y viene dado por:

𝑆𝑋𝑌
𝑟= ,
𝑆𝑋 𝑆𝑌

y trata de medir la dependencia lineal que existe entre las dos variables. Su cuadrado se denomina
coeficiente de determinación, r2 .

Propiedades del coeficiente de correlación:

a) No tiene dimensión, y siempre toma valores en [-1,1].

b) Si las variables son independientes, entonces r=0, pero el inverso no tiene por qué ser cierto.

c) Si existe una relación lineal exacta entre X e Y, entonces r valdría 1 (relación directa) ó -1
(relación inversa).

d) Si r>0, esto indica una relación directa entre las variables (es decir, que si aumentamos X,
también aumenta Y).

e) Si r<0, la correlación entre las variables es inversa(si aumentamos una, la otra disminuye).
2.1.5. EL coeficiente de determinación
El coeficiente de determinación en la regresión lineal simple (r2)es una medida de la bondad
de ajuste de la recta estimada a los datos reales.

El coeficiente de determinación puede interpretarse como la proporción de variabilidad de Y que es


explicada por X. Mide la proximidad de la recta ajustada a los valores observados de Y.

Suma de cuadrados debida al error: 𝑆𝐶𝐸 = 𝛴(𝑦𝑖 – ŷ𝑖 )2

Suma de cuadrados total: 𝑆𝐶𝑇 = 𝛴(𝑦𝑖 – 𝑦̅ ) 2

Suma de cuadrados debida a la regresión: 𝑆𝐶𝑅 = 𝛴(ŷ𝑖 − 𝑦̅ ) 2

Relación entre SCT, SCR y SCE: 𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

𝑆𝐶𝑅 𝑆𝐶𝑇 − 𝑆𝐶𝐸 𝑆𝐶𝐸


𝑟2 = = = 1−
𝑆𝐶𝑇 𝑆𝐶𝑇 𝑆𝐶𝑇
2.2. REGRESION LINEAL SIMPLE EN EXCEL
Para realizar la regresión simple en Excel, previamente instalaremos un
complemento de la siguiente manera:
Primeramente la simple.
Paso 1:
Nos iremos a archivo, y después a opciones y nos saldrá este recuadro:

Le darem os clic a “Complementos ”;


Y después marcaremos “Herramienta para el análisis” y le daremos “Ir”
A continuación ya instalado nuestro complemento que se añadirá a la pestaña de
“Datos” Como “Análisis de Datos”, procederemos a realizar nuestros análisis.
Paso 2:
Aquí ya con nuestro complemento, le damos clic y nos arroja un cuadro de
dialogo, en el cual daremos clic a la “Regresión”:

Paso 3:
Ya dando clic tenemos otro cuadro de dialogo, en el que nos pide un rango en
“Y” y un rango en “X”.
Procedemos a seleccionar estas columnas, incluyendo su nombre, ya que en
ocasiones Excel no nos lee todos los datos.

EN “Y” EN “X”

Paso 4:
Damos aceptar, y marcamos “Rótulos”, “Nivel de Confianza a 95%” Y “Grafico
de Probabilidad normal”.
Y Finalmente nos arroja nuestros resultados en una nueva hoja:

Podemos observar cómo nos arroja todos los estadísticos de la regresión, este
ejemplo cuenta con:
Estadísticas de la regresión

Coeficiente de correlación múltiple 0.964432318


Coeficiente de determinación R^2 0.930129695
R^2 ajustado 0.92430717
Error típico 3.876481166
Observaciones 14

De acuerdo a estos el modelo es viable. Supera el 70%.


Y un modelo de:

𝒀^ = 𝟏𝟑𝟎. 𝟔𝟕𝟒 + 𝟏. 𝟔𝟐𝟒(𝒙)

Ahora veremos otro ejemplo de la simple mediante los siguientes datos:


Ya aplicando los pasos anteriores tenemos que en esta regresión simple:

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.95514173


Coeficiente de determinación R^2 0.91229572
R^2 ajustado 0.90742326
Error típico 50.7688067
Observaciones 20

De acuerdo a estos el modelo es viable. Supera el 70%.


Y un modelo de:

𝒀^ = 230.86 + 0.886(X)

III. APLICACIÓN

En el ejemplo, cada restaurante está asociado con un valor de x (población estudiantil en miles de
estudiantes) y un valor correspondiente de y (ventas trimestrales en miles de $). La ecuación que
describe cómo se relaciona y con x y con un término de error se llama modelo de regresión. Éste
usado en la regresión lineal simple es el siguiente:

restaurante Poblac. estudiantil Ventas trimestrales


(en miles) (miles de $)
xi yi
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

A esto puntos los trazamos en un diagrama de dispersión y trazamos una recta que parce lo mas
cerca posible de los puntos:
Diagrama de Disperción
250

200
Axis Title

150

100 Valores Y
Linear (Valores Y)
50

0
0 5 10 15 20 25 30
Axis Title

Con dichos datos hallamos la sumatorias

xi yi xiyi xi2
2 58 116 4
6 105 630 36
8 88 704 64
8 118 944 64
12 117 1404 144
16 137 2192 256
20 157 3140 400
20 169 3380 400
22 149 3278 484
26 202 5252 676
21040 2528
Para encontrar la recta
̂ = b0 + b1 X
Y
Hallamos los valores de:
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) 𝑛−1 𝑆𝑋𝑌
𝑏1 = = 2 = 2 =5
∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑥𝑖 − 𝑥̅ ) 𝑆𝑋
𝑛−1
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ = 60
̂ = 60 + 5X
Y
Luego calculamos cálculo de SCE y SCT
xi Yi ŷi = 60 + 5 xi Residuales (yi – ŷi)2
restauran te (poblac. (ventas yi – ŷi
estud) yi – y (yi – y )2
trimest.)
= =
(yi –130) (yi –130)2
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
TOTALES 140 1,300 SCE=1,530 SCT=15,730

La suma de cuadrados debida a la regresión se calcula por diferencia: SCR = SCT –


SCE = 15,730 – 1,530 = 14,200
El coeficiente de determinación es entonces:

𝑆𝐶𝑅
𝑟2 = = = 14,200/15,730 = 0.9027
𝑆𝐶𝑇
El 90.27% de la variación en las ventas se puede explicar con la relación lineal entre la población
estudiantil y las ventas.
IV. CONCLUCIONES

El análisis de regresión lineal constituye métodos que se emplean para conocer las relaciones y
significación entre series de datos. Lo anterior, es de suma importancia para la industria ya que es
aquí en donde se presentan variables de respuesta e independientes las cuales interactúan para
originar las características de un proceso en particular y por ende; analizar, predecir valores de la
variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables.

La regresión lineal simple , analiza la relación de dos variables continuas, cuando analiza dos
variables a esta se el conoce como variable bivariantes que pueden corresponder a variables
cualitativas. La finalidad de una ecuación de regresión es la de estimar los valores de una variable
con base en los valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica
los valores de una variable en términos de otra. Es decir, se puede intuir una relación de causa y
efecto entre dos o más variables. El análisis de regresión únicamente indica qué relación
matemática podría haber, de existir una.

Estas técnicas estadísticas constituyen una herramienta útil para el análisis delas variables de un
proceso ya que, a través de la aplicación de éstas, es posible conocer el modelo que siguen y la
fuerza con que se encuentran relacionadas.

Asimismo, es posible explicar la relación que guardan dos o más causas de un posible defecto.

Damos como una breve conclusión que la inclusión del software en este tipo de análisis estadísticos
nos proporciona una gran herramienta y el incluirlo en el desarrollo de esta materia es un plus para
el entendimiento de ella. Existe la ventaja de que Excel nos proporciona una forma un tanto más
eficiente desde un punto de vista personal.
V. REFERENCIAS BIBLIOGRAFICAS

 Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA Sexta


Edición. 1998.
 William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON
APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana.
 Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE
CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México.
 Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE
EXPERIMENTOS, McGraw-Hill, México.
 ESTADISTICA PARA BIOLOGIA Y CIENCIAS DE LA SALUD(2007)

S-ar putea să vă placă și