Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCION
Existen dos formas distintas pero relacionadas del estudio de la asociación entre variables
a partir de una muestra aleatoria.
La segunda forma de estudio de asociación entre variables es, medir la magnitud relación
entre ellas, mediante un coeficiente o índice. A esta técnica se denomina análisis de
correlación.
Por el tipo de función matemática que se puede ajustar a los datos, la asociación de las
variables puede ser lineal o no lineal como: parábola, polinomio, exponencial hiperbólica,
etc.
REGRESION LINEAL SIMPLE
Ana variable dependiente Y con una sola variable independiente X. Representamos una
muestra aleatoria de tamaño n de (X, Y) por el conjunto de pares de datos: {(x,y) /i =1.2,…,n}.
2) INDEPENDENCIA
3) LINEALIDAD
Se supone que la relación de Y con X es lineal, es decir todas las medias uy/xi deben estar en
una línea recta denominada línea de regresión poblacional, cuya ecuación es:
Uy/x = α+ βX
Se supone que cada variable aleatoria dependiente Yi tiene distribución normal con media
µ y/xi y varianza σ2 . En consecuencia. La distribución de cada variable Ei es normal con media
0 y varianza σ2 .
DIAGRAMA DE DISPERSION
El primer paso de análisis de regresión, es construir una gráfica de los datos muéstrales en el
plano coordenado XY. Esta grafica es denominada diagrama de dispersión.
y y
x x
y y
Si se trata de la ecuación de regresión poblacional µy/x = α+ βX. Cada dato ( Xi , Yi) satisface la
ecuación : Yi = α+ βi + £i en donde ei es el valor de £i cuando Yi toma el valor de yi.
Esta ecuación puede considerarse como el modelo para una sola observación Yi
Yi= a+bxi+ei
Ŷ = a+bX
Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores
de a y b de manera que hagan mínima, la suma:
SCE= ∑𝑛
𝑖=1[ yi − (a + bxi )]
2
Estas ecuaciones se obtienen de igualar a cero las derivas de SCE con respecto a α y con
respecto a b respectivamente consideradas como variables ya que ( xi , yi) son
datos observados.
𝑛 ∑𝑛
𝑖=1 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏=
𝑛(∑ 𝑥𝑖)2
a = ӯ-bẋ
Donde ẋ e ӯ son las medias de X e Y respectivamente.
Observe que :
EJEMPLO
SOLUCION
a) El diagrama de dispersión de la muestra de ingresos (x) y gastos (y) semanales
Ŷ = 6.38 + 0.6991X
Esta ecuación puede ser obtenida usando una calculadora o un paquete de computo (por
ejemplo, el MCEST)
∑ 𝑥 = 458, ∑ 𝑦= 384
∑ 𝑥𝑦 = 19.550 ∑𝑥 2 = 23.784
ẋ = 45.8 ӯ = 38.4
𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
b= =
𝑛 ∑𝑥 2−(∑𝑥)2
c)el valor 0.6991 de la pendiente indica que para una aumento de $1 en los salarios semanales
corresponde un gasto promedio de 0.6991 $ en los gastos semanales . asi mismo un aumento
de $10 en los ingresos , corresponde un gato promedio de 0.6991x10$ = 6.99$ en los gastos
semanlaes.
Y = 6.38+0.6991x90 = $69.299
Una vez hallada la línea recta de regresion muestral Y = a+bX nos interesa saber su utilidad . la
utilidad principal es predesir valores de Y para valres determinados de X
Si se hace una predicción nos interesa saber , ¿ que tan buena o confiable es esta preiccion? .
la respuesta a esta pregunta depende de la variabilidad de los valores de Y con respcto a la
recta de reresion
Una media que indica el grado de variablidad o dispersión ( o concentración en torno a
la línea de regresion es la varianza de la regresion poblacinal que se denota por σ2 o
por σ2 y/x Y se define por :
Mientras mas pequeño sea el valor del error estándar de estimación s ( o de la varianza s 2) ,
mas cercanos a la línea de regresion estarán los valores Y.
ii)si se traza una línea paralela de regresion 2σ y/x unidades mas arriba y otra paralela 2 σ y/x
unidades mas abajo , entonces aproximadamente el 95% de los puntos del digrama de
dispersión caerán entre los vaores 2 σ y/x . es decir, aproximadamente el 95% de los residuos
son menores σ y/x
iii)si sse traza una línea paralela a la línea de regresion 3 σ y/x unidades mas arriba y otra
paralela 3 σ y/x unidades mas abajo, enotnses aproximadamente el 100% de los puntos del
diagrama de dispersión caerán residuos de 3 σ y/x
ejemplo 2
continuando co el ejemplo 1
b)determine los residuales muestrales.¿que porcentaje de estos residuales son menores que
SOLUCION
b) la tabla que sigue muestra los valores observados , los valores predecidos y los residuales
Como se observa el 70% de los residuales de la muestra son menores que el error de
estimación 2.51
Las inferencias acerca del parámetro carece de importancia pues α es la ordenada en el origen
y representa intersección de Y cuando X = 0
Nos referimos a las inferencias acerca del parámetro β la pendiente de la línea de regresion en
la población
Antes de utilizar la ecuación de regresion lineal muestral para realizar predicciones de Y a
partir de X , se debe primero determinar si el valor de la pendiente de la ecuación lineal
calculada de la muestra es significativa o no.
La estadística b se puede escribir como una combinación lineal de las variables aleatorias
independientes yi . esto es :
Tambien la media de la estadística b , denotada por ub o por E (b) es igual β , esto es:
E(b) = β
Asimismo se dice que la varianza de b denotada por σ2 o por V(b) esta dada por la
expresión :
INTERVAÑO DE CONFIANZA DE β
El valor t0 = t1- α/2.n -2 se busca en la tabla t.student con grados de libertad : n-2
Ejemplo 3
Continuando con ejemplo 1 desarrollle un intervalo para el parámetro β con nivel de
confianza 0.095. ¿ se puede concluir β = o?
Solución