Sunteți pe pagina 1din 17

PROBABILIDAD Y ESTADISCA

REGRESIN LINEAL SIMPLE Y MLTIPLE

Regresin Lineal Simple Introduccin


La regresin y los anlisis de correlacin nos muestran como determinar tanto la naturaleza como la fuerza de una relacin entre dos variables En el anlisis de regresin desarrollaremos una ecuacin de estimacin, esto es, una formula matemtica que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el anlisis de correlacin para determinar el grado de en el que estn relacionadas las variables. El anlisis de correlacin, entonces, nos dice qu tan bien estn relacionadas las variables. El anlisis de correlacin, entonces, nos dice que tan bien la ecuacin de estimacin realmente describe la relacin Si sabemos que existe una relacin entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una combinacin de valores de las independientes. La dependencia a la que hacemos referencia es relacional matemtica y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin en la cual para cada valor de la variable independiente le corresponde uno y slo un valor de la variable dependiente.

Modelo De regresin Lineal

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.

La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple. Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.

En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X)

La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama regresando variable de respuesta. La variable Independiente X se le denomina variable explicativa regresor y se le utiliza para EXPLICAR Y. Anlisis estadstico: regresin lineal simple En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+e Donde: a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) e es el error Suposiciones de la regresin lineal Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) Las variancias de las subpoblaciones Y son todas iguales. Todas las medias de las subpoblaciones de Y estn sobre la recta. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

ESTIMACIN DE LA ECUACIN DE REGRESIN muestral Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuacin de regresin muestral estimada es

Lneas de tendencia Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo.8 Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.

El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta). 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. 3. Si la covarianza es positiva, la correlacin es directa. 4. Si la covarianza es negativa, la correlacin es inversa. 5. Si la covarianza es nula, no existe correlacin. 6. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1. 7. 1 r 1Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 8. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 9. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 10. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

El coeficiente de determinacin o coeficiente de correlacin mltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresin y la variabilidad total, esto es:

algunas otras formas de presentar el coeficiente de determinacin son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostracin de

Ejemplo Para los datos del ejemplo se tiene que

Lo cual significa que el el valor de es

de la variabilidad total es explicada por el modelo. Ahora

Regresin Lineal Mltiple Introduccin


La complejidad de la mayora de lo mecanismo cientficos es tal que, con objeto de estar en condiciones de pronosticar una respuesta importante se necesita un modelo de regresin mltiple cuando este el lineal en los coeficientes recibe el nombre de modelo de regresin lineal mltiple para el caso k variables independientes x1,x2,,xk la media de Y x1,x2,,xk est dada por el modelo de regresin lineal mltiple. Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin de la otra variable llamndose Regresin Lineal y una variable en relacin a otras variables llamndose Regresin mltiple. Casi constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas. Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple. Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, , xk, cules son las que ms influyen en la variable dependiente Y.

Modelo De regresin Mltiple


Se define como un procedimiento mediante el cual se trata de determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o ms variables dependientes. La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias sea ajustada a una lnea recta o curva. La regresin mltiple se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z). El valor que el modelo estimado predice para la observacin i-sima es: = 0 + 1x1 + 2x2 + + kxk + Donde: = Variable respuesta 0= Intercepto 1= Pendiente del predictor X1 2= Pendiente del predictor X2 k =Pendiente del predictor Xk =Parte de la variabilidad de la respuesta correspondiente Y el error cometido en esa prediccin es: Los residuales del modelo. Hemos descompuesto as el valor observado en dos partes, el valor esperado (o ajustado) sobre el hiperplano de regresin y i que representa la parte controlada por el modelo y el residual ei que representa la parte no controlada. En forma matricial y = X, e = y - X.

Anlisis de regresin mltiple


El anlisis de regresin mltiple es una tcnica de anlisis multivariable en el que se establece una relacin funcional entre una variable dependiente o a explicar y una serie de variables independientes o explicativas, en la que se estiman los coeficientes de regresin que determinan el efecto que las variaciones de las variables independientes tienen sobre el comportamiento de la variable dependiente. Debido a la complejidad de los clculos, estos procedimientos casi siempre se ponen en prctica con un programa de regresin. E (y)= 0 + 1x1 + 2x2 + + kxk

Mtodo de mnimos cuadrados


Mnimos cuadrados es una tcnica de anlisis numrico enmarcada dentro de la optimizacin matemtica, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente, y una familia de funciones, se intenta encontrar la funcin, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error cuadrtico. El objetivo del mtodo de mnimos cuadrados es estimar el vector de parmetros . Adems, el mtodo permite evaluar la bondad con la que la funcin (x,) ajusta los datos experimentales. Si se denota el valor ajustado o de pronstico para y por entonces la ecuacin de pronstico o prediccin es: = b0 + b1x1 + b2x2 + + bkxk

Estimacin de los coeficientes por el mtodo de mnimos cuadrados Los estimadores de mnimos cuadrados de los parmetros 0, 1, 2,,, k ajustado en el modelo de regresin lineal mltiple: Yx1, x2, x3,, xk= 0+ 1x1+ 2x2 +3x3++ kxk A los puntos de los datos {(x1i, x2i xki, yi), i=1, 2,3,, n y n > k}. Donde yi= es la respuesta observada para los valores x1i, x2i,, xki, de las k variables independientes x 1, x2,, xk. Cada observacin (x1i, x2i xki, yi) satisface la siguiente ecuacin: yi= 0+ 1ix1i+ 2ix2i ++ kixki+ i O de igual forma, yi = + ei = b0 + b1x1i + b2x2i ++bkxki + ei Donde: i y ei = son errores aleatorios y residual, respectivamente, asociados con la respuesta yi y con el valor ajustado . Al utilizar el concepto de mnimos cuadrados para llegar a los estimadores de b0, b1,, bk se minimiza la expresin: ei2 = (yi b0 b1x1i b2x2i bkxki)2

SSE =

Diferenciando a SSE cada vez con respecto a b0, b1,, bk e igualando a cero, se genera el conjunto de k+1 ecuaciones normales.

Estas ecuaciones se pueden resolver para b0, b1,, bk por cualquier mtodo apropiado para resolver sistemas de ecuaciones lineales.

Ejercicio 1
Los Datos que se muestran Adelante se colectaron durante un experimento para determinar el cambio en la eficiencia de empuje (porcentaje)(y) cuando cambia el ngulo de divergencia de una boquilla de cohete(x)

X 4.0 4.0 4.0 5.0 5.0 6.0 6.5 6.5 6.75 7.0 7.1 7.3

Y 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67

i 1 2 3 4 5 6 7 8 9 10 11 12

X 4.0 4.0 4.0 5.0 5.0 6.0 6.5 6.5 6.75 7.0 7.1 7.3

Y 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67 SOLUCIN

x 4.0 4.0 4.0 5.0 5.0 6.0 6.5 6.5 6.75 7.0 7.1 7.3 69.15

y 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67 653.58

x2 16.0 16.0 16.0 25.0 25.0 36.0 42.25 42.25 45.56 49 50.41 53.29 416.76

x3 64 64 64 125 125 216 274.625 274.625 307.546875 343 357.911 389.017 2604.72488

x4 256 256 256 625 625 1296 1785.0625 1785.0625 2075.94141 2401 2541.1681 2839.8241 16742.0586

x2 y 393.6 395.36 382.4 987.5 990 2056.32 2835.3975 2840.89 3059.354 3815.63 4038.3451 4512.0643 26306.8609

xy 98.4 98.84 95.6 197.5 198 342.72 436.215 437.06 453.2625 545.09 568.781 618.091 4089.5595

x = 69.15

y = 653.58

x2 y= 26306.8609 xy=4089.5595 x4 = 16742.0586 n=12

x2 = 416.76 x3 = 2604.72488

Las tres ecuaciones de mnimos cuadrados queda de la siguiente manera: nb0 + b1 x + b2 x2 = yi

b0 x + b1 x2 + b2 x3 = xi yi b0 x2 + b1 x3 + b2 x4 = x2yi

Sustituyendo valores en las ecuaciones anteriores, se obtiene las siguientes ecuaciones 12.00 b0 + 69.15 b1 + 416.76 b2 = 653.58 69.15 b0 + 416.76 b1 + 2604.7248 b2 = 4089.5595 416.76 b0 + 2604.724 b1+ 16742.058 b2 = 26306.8609

n=12
YI 24.60 24.71 23.90 39.50 39.60 57.12 67.11 67.24 67.15 77.87 80.11 84.67 YI-Y-29.865833 -29.755833 -30.565833 -14.965833 -14.865833 2.654167 12.644167 12.774167 12.684167 23.404167 25.644167 30.204167 (YI-Y-)2 891.967981 885.409598 934.270147 223.976157 220.992991 7.04460246 159.874959 163.179343 160.888092 547.755033 657.623301 912.291704 5765.2739 Con los datos Anteriores se sustituye en la formula: Suma de los cuadrados tiene k=1 grados de libertad al haber un solo variable regresora (YI-Y-)2=5765.2739 Y-=54.465833

SSE= ei 2 = (YI-Y-)2

S2=

S2=

S2=

S2=

Sacando raz para obtener S:

S=

S=

Ejercicio 2
El gerente general de una planta de produccin de materiales de construccin considera que la demanda de embarques de aglomerado puede estar relacionado con el nmero de permisos de construccin emitidos en el municipio durante el trimestre anterior. El gerente ha recolectado los datos que se muestran en la tabla.

Permisos de construccin (X) 15 9 40 20 25 25 15 35

Embarques de conglomerado (Y) 6 4 16 6 13 9 10 16

Si se pide determinar una estimacin de los embarques cuando el nmero de permisos de construccin es 30.

En el siguiente diagrama de dispersin se puede ver que los datos no son perfectamente lineales; sin embargo, se puede hacer un enfoque lineal sobre este periodo corto.

Embarques de conglomerado

18 16 14 Embarques Y 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 45 Permisos X
Embarques de conglomerado (Y)

tabla

n 1 2 3 4 5 6 7 8 Totales

X 15 9 40 20 25 25 15 35 184

Y 6 4 16 6 13 9 10 16 80

XY 90 36 640 120 325 225 150 560 2146

X2 225 81 1600 400 625 625 225 1225 5006

Y2 36 16 256 36 169 81 100 256 950

Se calcula las medias aritmticas de X y Y


X 23 Y 10

Se calculan los valores de la pendiente b y la interseccin a:


b xy n XY

nX

2146 8(23)(10) 5006 8(23)(23)

b=
a Y bx

0.395

a = 10 0.395(23)

a=

0.915

Se plantea la ecuacin de la regresin Y = a + bx Y = 0.915 + 0.395X


El nmero de embarques ser de 13 aproximadamente Por lo tanto, la desviacin estndar de la regresin es

S y. X

a Y b XY n2

SY . X

950 (0.91)(80) (0.396)(2146) 82

SY . X

2.2 embarques

S-ar putea să vă placă și