Regresión lineal para predecir temperatura del agua

Estadística y Probabilidad
Dra. Sara Adelina Arana López
ESTADISTICA Y PROBABILIDAD
ANALISISI DE REGRESION
Dra. SARA ADELINA ARANA LOPEZ
LIMA, 2019
1
ANALISIS DE REGRESION CON DOS VARIABLES
En esta sección se analizaran dos problemas. El primero, denominado Regresión, implica

necesariamente el desarrollo de una ecuación mediante la cual pueda estimarse el valor
medio de una variable aleatoria desde el conocimiento de los valores tomados por una o
más variables. El segundo, denominado Correlación, consistente en medir la fuerza de la
relación lineal entre dos variables aleatorias.
INTRODUCCION AL ANALISIS DE REGRESION
Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o está influenciada por los valores tomados por una o
más variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la predicción no se determinan al azar.
Supongamos que deseamos desarrollar una ecuación para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposición de que la profundidad del agua se conoce de
antemano con precisión. La temperatura del agua es la respuesta; la profundidad del agua
es el único regresor considerado.
Incluso si la profundidad del agua está fijada en algún valor x, la temperatura del agua
variará debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarán. Por esta razón, debemos admitir que para una x dada,
2
estamos realmente tratando con una variable aleatoria “condicional”, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante  Y/ x . Resulta obvio que la temperatura media del agua del océano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prácticas, estos valores deberían representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relación entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la
ecuación de regresión, se dice que el estudio está controlado. A menudo los valores X
utilizados para desarrollar la ecuación se eligen mediante algún mecanismo aleatorio. Por
ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua de lluvia, nos
veremos forzados a seleccionar una muestra de días, anotar la lectura de la calidad del
aire de ese día y medir el pH del agua de lluvia. En este caso, los valores de X utilizados
para desarrollar la ecuación de regresión no están preseleccionados por el investigador.
Representan un conjunto de valores de X típicos. Los estudios de este tipo se denominan
estudios observacionales. Veamos.
EJEMPLO. Un Farmacéutico quiere predecir la concentración de un determinado fármaco

en la corriente sanguínea, cinco minutos después de su administración (Y), en base al
conocimiento del tamaño de la dosis inicial (X). En este caso, la variable aleatoria Y es la
variable dependiente; X es la variable independiente. En un experimento controlado en
laboratorio, el experimentador selecciona los valores tomados por X. Por ejemplo,
podríamos elegir experimentar con dosis de 0.05, 0.10, 0.20 y 0.30 ml. Puesto que la
elección de las dosis experimentales está en manos del investigador, este es un estudio
controlado.
3
Independientemente de si el estudio es controlado u observacional, el objeto del análisis

de regresión es encontrar una ecuación de predicción o regresión razonable.
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o más
variables. La ecuación o función matemática constituye la función o línea de regresión.
Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.
DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)
Si tenemos n observaciones bidimensionales, cada par de datos (X, Y) puede

representarse en un sistema de eje de coordenadas cartesianas. Cada pareja de
observaciones se representa por un punto sobre el plano y la totalidad de puntos
registrados se denomina diagrama de dispersión o, para casos de equipos, gráficas de
calibración.
NOTA: una buena estimación de un parámetro dependerá del grado de asociación que
exista entre las variables X, Y y de que la función elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.
CORRELACION
Es el análisis del grado de asociación o de afinidad entre las variables expresada a través
de la función o modelo de regresión. Para que exista correlación es necesario dos
variables, es decir, dos medidas que vayan cambiando valores.
MODELO LINEAL BIDIMENSIONAL
4
Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hipótesis sobre el tipo de relación que
hay entre ellas y sobre la capacidad de predicción. Tal relación o modelo queda definido
por:
Yi  1  2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relación lineal exacta de la ecuación debe ser modificada para incluir un término de
perturbación aleatoria, llamado también error o término estocástico  . Así tenemos:
Y i  1  2 X i   i
Yi: variable dependiente.

Xi: variable independiente.
 1: int ercepto;  2 : pendiente de la recta; : perturbaciones aleatorias.
El propósito básico del análisis de regresión es estimar los parámetros estructurales, es

decir, el intercepto y la pendiente de la recta respectivamente.
Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la

concentración de un analito (X) nos propondremos calcular la “mejor” línea recta que pasa
a través de los puntos de la gráfica de calibración, cada uno de los cuales está sujeto a un
error experimental.
HIPOTESIS RELATIVAS A LAS PERTURBACIONES
1. Toda perturbación aleatoria tiene Media cero
 
E i  0 para i  1, 2, 3, ... , n
5
2. Todas las perturbaciones aleatorias tienen la misma Variancia. Homocedasticidad.
 
E  2i   2 para i  1,2,3,..., n
3. Las perturbaciones son independientes entre si. Covariancia.

E i  j   0 i j
4. Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 . Además
son independientes del valor x. La función de distribución de probabilidad de  i es:
xi2

f  , P 
1 2 2
exp
  2
La estimación de estos parámetros estructurales se lleva a cabo mediante el método de
los Mínimos Cuadrados, que busca determinar los estimadores b1 y b2 .
CALCULO DE LOS ESTIMADORES
Suponiendo: yi  b1  b2 xi  ei
Los estimadores se determinan mediante las siguientes relaciones
 x y   n ( x * y )
b1 
i i
n x  n x 2
i
2
n  xi yi  xi  yi 
b1 
n xi2  xi 
2
o también b0  yb1 x
CALCULO DE LA VARIANCIA DE LOS ESTIMADORES
6
Asumiendo la siguiente proposición:
  s
2 2

 e  y2
i
2
b1  yb1  x y
n2 n2
e
Entonces
 2
Varb1  S b21
  x x 
2
i
 2  xi2
Varb0  Sb20
  x x 
2
i
INTERVALOS DE CONFIANZA DE LOSPARAMETROS
Por definición
bi   i
t es decir  i  bi  t Sb
Sb i
i
con (n - 2) grados de libertad (g de l) y un % de significancia.
Índice de Determinación R2 e Índice de Correlación R.


b  xi 
2 2
 xi  
2

1


n 

R2 
  y  
 y i2   i
2



n 

VERIFICACION
Variation Total = Variación Explicada + Variación No Explicada
CT = SCR + SCE
  y i  y   y  y   y i  y i 
2 2 2
 
7
PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F
Variancia Explicada b  i
 x x 
2
2
FCALCULADA   1
Variancia NoExplicada Se2
se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5% de

significancia o 1% de significancia estadística.
PRUEBA DE COHERENCIA DE LOS ESTIMADORES. Prueba t
bi
t CALCULADO 
Sb i
se compara con un ttabulado en tablas con (n - 2) grados de libertad y una significancia

estadística dada del 1% o del 5%.
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a múltiples experimentos, existen también problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relación entre las
precipitaciones pluviales y la producción de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de análisis de
correlación. El coeficiente de correlación de una población queda definido por la
relación
8
2
 2
 1 
 22
donde
2 es una medida de la variación de las Y cuando X se conoce.
 22 Es una medida de la variación de las Y cuando la X no es conocida
 22   2 es una medida de la variación de las Y que se explica por la relación

lineal entre X
 2 nos indica qué proporción de la variación de las Y puede atribuirse a la relación lineal
de X
Estos mismos argumentos se aplica también a R 2, el cuadrado del coeficiente de
correlación muestral, que es definido por
R 
  X  X  Y  Y 
  X  X  Y  Y 
2 2
9
REGRESIÓN LINEAL Y ANALISIS DE VARIANZA
La variabilidad de la variable respuesta en variabilidad explicada por el modelo más

variabilidad no explicada o residual, esto permitirá contrastar si el modelo es significativo
o no. Bajo la hipótesis de que existe una relación lineal entre la variable respuesta y la
regresora, se quiere realizar el siguiente contraste de hipótesis,
Frente a la alternativa
Por tanto, si se acepta H0, la variable regresora no influye y no hay relación lineal entre
ambas variables. En caso contrario, si existe una dependencia lineal de la variable
respuesta respecto a la regresora.
Para todos los datos muestrales se hace la siguiente descomposición
Elevando al cuadrado y sumando se obtiene,
10
En base a la ortagonalidad de los vectores se obtiene que los productos cruzados son
cero, de donde se sigue la siguiente igualdad (Teorema de Pitágoras) que permite
descomponer
la variabilidad de la variable respuesta en la variabilidad explicada por la

recta
de regresión más la variabilidad residual o no explicada por el modelo
ajustado ,
11
CONSTRUIR LA TABLA DEL MODELO DE REGRESIÓN SIMPLE Y ANOVA
ANOVA
Varianzas Relación
Fuente de Suma de Grados de
Cuadrados F
Variación Cuadrados Libertad
Medios
SCE
Regresión SCR = n 2 k CMR  CMR
F
i=1
1
CME
SCE
Error SCE = n 2 n – K-1 CME 
n2
i=1
SCT
Total SCT = n 2 n-1 CMT 
n 1
i=1
Si H0 es cierta (la variable X no influye), la recta de regresión es aproximadamente

horizontal y se verifica que aproximadamente i , y por tanto scE 0. Pero scE es
una medida con dimensiones y no puede utilizarse como medida de discrepancia, para
resolver este inconveniente se divide por la varianza residual y como estadístico del
contraste de regresión se utiliza el siguiente
CMR
F
CME
Por la hipótesis de normalidad y bajo H0 se deduce que el estadístico R sigue una
distribución F (Contraste de la F) con 1 y n - 2 grados de libertad.
(6.14)
CMR
F F (1, n  2 ) bajo Ho
CME
Sí el p - valor = P es grande (mayor que ) se acepta H0.

El Contraste de la F es un contraste unilateral (de una cola) pero en este modelo
proporciona exactamente el mismo resultado que se obtiene por el contraste individual de
12
la t relativo al coeficiente de regresión 1 (Contraste de la t) estudiado en el apartado

anterior.
El contraste de linealidad.
Si para cada valor de la variable explicativa se dispone de varios valores de la

variable respuesta (algo normal en los modelos de regresión de diseño fijo) la muestra es
de la siguiente forma , que se puede ordenar como
en la tabla adjunta
X1 X2 ... Xk
Y11 Y21 ... Yk1

Y12 Y22 ... Yk2
Y1n1 Y2n2 ... Yknk
El tamaño muestral es n1 + n2 + ... + nk = n, y para cada valor de X = xi, i = 1,2,...,k se

puede calcular la media condicionada muestral de la variable respuesta:
lo que permite descomponer los residuos de la siguiente forma
Un razonamiento análogo al realizado anteriormente permite descomponer la variabilidad

no explicada como sigue.
Ahora la descomposición de la variabilidad total es la siguiente,

En base a esta igualdad se puede construir la siguiente tabla ANOVA, más completa que
la anterior,
13
MODELO DE REGRESIÓN SIMPLE Y ANOVA

ANOVA
Fuente de Grados Cuadrados Medios
Suma de Cuadrados
variación de Libertad Varianzas
SCR SCR = k
i = 1 ni
2 1 2
e =
2
k 2 R,1 =
SCE(1) SCE (1) = i = 1 ni k-2
SCE(2) k n 2 n-k
SCE (2) = i=1 j=1 i 2
R,2 =
SCE SCE = k n 2 n-2
i=1 j=1 i
2
R =
SCT n 2 n-1
SCT i=1 2
Y =
A partir de esta tabla ANOVA se puede contrastar la hipótesis de que la función de

regresión es lineal frente a la alternativa de que no es lineal, esto es,
Frente a la alternativa
Si H0 es cierto, las medias condicionadas estarán próximas a la recta de

k 2
regresión: i i, y la scR(1) = i= 1 ni 0. De nuevo esta medida tiene
dimensiones y no es válida para utilizar como medida de discrepancia, para resolver el
2
problema se compara con R,2 y el cociente de ambas cantidades se utiliza como
estadístico del contraste en estudio.
Bajo la hipótesis de normalidad y H0 (hipótesis de linealidad) se deduce que L sigue

una distribución Fk - 2, n - k (Contraste de la F).
14
Este contraste de linealidad de la F es unilateral. Si el p-valor = P es

grande (mayor que ) se acepta que la curva de regresión es lineal.
CASO PRÁCTICO 1:
En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia (Y) de

soluciones estándares de glucosas, cuyas concentraciones medidas en miliMoles (mM) y
asumidas como variables independientes genera la siguiente tabla
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
Se requiere desarrollar un análisis de regresión.
SOLUCION
1. ELABORACION DEL DIAGRAMA DE DISPERSION

(Gráfica de calibración)
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
15
2. CALCULO DE LOS ESTIMADORES
a) Desarrollamos la siguiente tabla
n Yi Xi (Y Y ) ( X X ) ( X X ) (Y Y ) ( X X ) 2
1 40 6 -17 -12 204 144

2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576
Debemos hallar :

Y i  b 0  b 1 X i  i
n = 10, Media (X) = 18; Media (Y) = 57
  x i  x  y i  y  956;   x i  x   y i  y
2 2
 576;  1634
Cálculo de Estimadores:
16
b 1 
 X i  XYi  Y
956
  X i  X   166
2 .
576
b 0  Y  b 1 X  57  1. 66 *  18   27. 12
La recta de la regresión será:


Y  27. 12  1. 66 X i
i
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
PROBA BILIDAD OBSERVA DA A CUMULA DA
3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS

Hacemos uso de la siguiente tabla
n Yi Xi Yi ei e2 i X2 i ( Xi – X)2 (Yi – Y)2

1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634
17
a) Cálculo de la Variancia No Explicada

 2
S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132
b) Cálculo de las Variancias y Desviaciones Estándares de los Estimadores
Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92

Sb1 = 1.98
Sb21 = 47.3056 / (10- 2) 576 = 0.01

Sb2 = 0.1
c) Prueba de Coherencia de los estimadores

Estimador Intercepto
Hipótesis Nula Ho : b 0 = 0 (No existe coherencia)

Hipótesis Alternante H 1 : b 0 = 0 (Existe Coherencia)
b 0  b 0 b 0 27. 12
tC     13. 7
S b0 S b0 1. 98
t TABULADO = t (0.05, 8 g de l) = 2.306
Asimismo. Estimador Pendiente
Hipótesis Nula Ho : b 1 = 0 (No existe coherencia)
Hipótesis Alternante H 1 : b 1 = 0 (Existe Coherencia)
18
b 1  b1 b 1 1. 66
tC     2. 306
S b1 S b1 0. 1
H 1 : b1  0 t T   2.306 con 8 g. l. y   0.05
t TABULADO = t (0.05, 8 g de l) = 2.306
Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si influye

significativamente sobre Yi.
Entonces b 0 yb 0 son estadísticamente significativos a un nivel de significación

del 5%.
4. Prueba de Bondad de Ajuste ( R2 ) y de Correlación ( R )
b 1   X i  X Yi  Y   9. 56 
R 2
 1. 66    0.971212
Yi  Y 2  1634 
Es decir, la ecuación de regresión explica alrededor del 97.12% de la variación total
Asimismo R = 0.9854, es decir, 98.54%, lo cual es un alto índice de correlación lineal.
5. Prueba de Confiabilidad del Modelo (Tabla F)
Hipótesis Nula Ho :El modelo no tiene la confianza estadística del 95%

Hipótesis Alternante H 1 :El modelo si tiene la confianza estadística del 95%
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
19
  X i  X 1. 66 2 576

2
 
FC  b
2
S 2e

 47. 3056 
 268. 421
 
 10  2 
FTABULADO = F [ 0.05; 1 y (n - 2) g de l] = F ( 0.05: 1 y 8 g de l ) = 5.32
Se acepta la hipótesis alternante
6. Predicción Puntual de Yi si Xi = 40.
Como la Ecuación de la Recta de Regresión es:   27. 12  1. 66 X

Yi i
  27. 12  1. 66 X  27. 12  .1. 66 *  40  93. 52
Reemplazando valores tenemos: Y i i
NOTA SOBRE EL ERROR ESTANDAR DE ESTIMACION O VARIANCIA NO

EXPLICADA
Al observar la siguiente gráfica podemos notar que
X
El error estándar de estimación es una medida de esparcimiento alrededor de una línea
de regresión. Es la desviación estándar de los valores observados Yi con respecto a los
valores de Y estimados ( Y i ) por la línea de regresión.
20
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede ser menor
o mayor en la medida que los n puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.
El error estándar de estimación o de regresión cumple las mismas propiedades de la

desviación estándar. La diferencia está en que el error estándar de regresión mide las
dispersiones de los valores alrededor de la línea de regresión y la desviación estándar
alrededor de la media.
CASO PRÁCTICO 2:
Las ventas de una empresa durante los 12 trimestres se muestran en la siguiente tabla
Ventas 133 292 283 283 302 400 505 608 667 783 785 799
Trimestres 1 2 3 4 5 6 7 8 9 10 11 12
a. Según el caso práctico 1, desarrollar el análisis de regresión y realizar los pronósticos

para Y y para los siguientes 4 trimestres (usar resultados ítem b)
SOLUCIÓN
Tiempo Demanda
X Y XY X2 Y2 Pronóstico
1 133 133 1 17689
2 292 584 4 85264
3 283 849 9 80089
4 283 1132 16 80089
5 302 1510 25 91204
6 400 2400 36 160000
7 505 3535 49 255025
8 608 4864 64 369664
9 667 6003 81 444889
10 783 7830 100 613089
11 785 8635 121 616225
12 799 9588 144 638401
6.5 486.7 47063 650 3451628
21
b. Analizar, comprobar e interpretar, según los resultados que se muestran a

continuación
Estadísticos descriptivos
Media Desviación N
típica
Demand 486,666 235,39033 12
a 7
Tiempo 6,5000 3,60555 12
Resumen del modelob

Mod R R R Error típ. Estadísticos de cambio
elo cuadra cuadrado de la Cambio Cambio gl1 gl2 Sig.
do corregida estimació en R en F Cambio
n cuadrado en F
1 ,975a ,951 ,946 54,79222 ,951 193,017 1 10 ,000
a. Variables predictoras: (Constante), Tiempo
b. Variable dependiente: Demanda
ANOVAa
22
Modelo Suma de gl Media F Sig.

cuadrados cuadrática
Regresión 579472,790 1 579472,790 193,017 ,000b
1 Residual 30021,876 10 3002,188
Total 609494,667 11
a. Variable dependiente: Demanda
b. Variables predictoras: (Constante), Tiempo
Coeficientesa
Modelo Coeficient Coefi t Sig. Intervalo de Correlaciones Estadísticos de
es no ciente confianza de colinealidad
estandariz s 95,0% para
ados tipific B
ados
B Erro Beta Límit Límite Ord Parci Se Toleran FIV
r típ. e superi en al mip cia
inferi or cero arci
or al
(Consta 72,8 33,7 2,16 ,056 - 148,0
nte) 94 22 2 2,244 32
1
63,6 4,58 ,975 13,8 ,000 53,44 73,86 ,975 ,975 ,97 1,000 1,000
Tiempo
57 2 93 8 7 5
Diagnósticos de colinealidada
Modelo Dimensión Autovalore Índice de Proporciones de la
s condición varianza
(Constante Tiempo
)
1 1,883 1,000 ,06 ,06
1
2 ,117 4,015 ,94 ,94
23
Estadísticos sobre los residuosa

Mínimo Máximo Media Desviación N
típica
Valor pronosticado 136,5513 836,7820 486,6667 229,51981 12
Valor pronosticado tip. -1,525 1,525 ,000 1,000 12
Error típico de valor 15,982 29,753 21,837 5,064 12
pronosticado
Valor pronosticado 138,0364 852,5818 485,4223 232,28659 12
corregido
- 91,79137 ,00000 52,24233 12
Residual
89,18066
Residuo típ. -1,628 1,675 ,000 ,953 12
Residuo estud. -1,715 1,903 ,011 1,042 12
- 118,4315 1,24439 62,61044 12
Residuo eliminado
98,98706 8
Residuo eliminado -1,936 2,260 ,028 1,147 12
estud.
Dist. de Mahalanobis ,019 2,327 ,917 ,847 12
Distancia de Cook ,001 ,525 ,101 ,152 12
Valor de influencia ,002 ,212 ,083 ,077 12
centrado
24
25
PRACTICA
REGRESIÓN LINEAL
Propuesta Nº1
El profesor Isaac Asimov fue uno de los escritores más prolíficos de todos los
tiempos. Para cuando murió (1992) había escrito casi 500 libros a lo largo de una
carrera de 40 años. De hecho, a medida que avanzaba en su profesión se volvió
más productivo en términos de la cantidad de libros escritos en un lapso dado. Estos
datos son los tiempos que requería para escribir sus libros, en incrementos de 100:
Número de libros 100 200 300 400 490

Tiempo (en meses) 237 350 419 465 507
Realice el análisis de regresión
26
Propuesta Nº2
La materia prima que se usa en la elaboración de una fibra sintética sealmacena en un

local que no tiene control de humedad. Las mediciones de lahumedad relativa en el local
y del contenido de humedad de una muestra de la
Número de libros 100 200 300 400 490

Tiempo (en meses) 237 350 419 465 507
Propuesta Nº3
Para la economía española, disponemos de los datos anuales redondeados sobre

consumo final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X),
tomados de la Contabilidad Nacional de España base 1995 del INE , para el período
1995-2002, ambos expresados en miles de millones de euros:
Año 1995 1996 1997 1998 1999 2000 2001 2002

Yt 2582,6 273,6 289,7 308,9 331,0 355,0 377,1 400,4
Xt 381,7 402,2 426,5 454,3 486,5 520,2 553,3 590,0
Considerando que el consumo se puede expresar como función lineal de la renta

(Yt=a+b·Xt),
determine:
a. Los parámetros a y b de la recta de regresión.

b. La varianza de la variable consumo y su descomposición en varianza explicada y no
explicada
c. por el modelo.
d. El coeficiente de determinación de dicha regresión.
e. La predicción del valor que tomará el consumo para una renta de 650.000 millones de
euros.
27
Propuesta Nº4
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un
país y la producción interna de dicho país. En el caso de España, tenemos los datos
anuales (expresados en miles de millones de pesetas) para tales variables
correspondientes al quinquenio 1992-96 en la
siguiente tabla:
Años Producción Exportaciones

1992 52.654 10.420
1993 53.972 11.841
1994 57.383 14.443
1995 61.829 16.732
1995 65.381 18.760
Con la información, y considerando como válida dicha relación lineal, se pide:
a. Si la producción para el año 1997 fue de 2.210.6100 millones de pesetas, ¿cual

sería la
predicción de las exportaciones para este año? y ¿Qué grado de precisión tendría
dicha predicción?
b. Si sabemos que las exportaciones para 1997 fueron de 69.045.704 millones de
pesetas, ¿cuál sería la producción interna aproximada para ese año? ¿Qué grado
de confianza daría usted a esta predicción?
c. ¿Qué tanto por ciento de la varianza de las exportaciones no vienen explicadas
por la producción interna, y se debe a otro tipo de variables?
Propuesta Nº5
De una distribución de dos variables se conocen los siguientes datos:
Rxy= 0,9; sx= 1,2; sy= 2,1; promedio X =5; promedio y =10
28
A partir de los mismos, obténganse las rectas de regresión mínimo cuadráticas de X sobre
Y y de
Y sobre X.
Propuesta Nº6
Para un mismo grupo de observaciones de las variables X e Y, hemos obtenido las dos
rectas de regresión siguientes:
3x + 2y = 26
6x + 2y = 32
En función de las mismas, responda a las siguientes cuestiones:

a. ¿Qué valores tomarían las medias de X e Y?
b. Represente gráficamente ambas rectas de regresión.
c. Determine el valor del coeficiente de correlación lineal rxy.
d. ¿Porqué la regresión de Y sobre X y la de X sobre Y no coinciden?
Propuesta Nº7
A partir de un conjunto de valores de las variables X e Y, se ha determinado la regresión
de Y sobre X, obteniéndose la siguiente recta:
Y*=10+0,45X; R2 =0,9; Promedio X = 20
Se pide que, a partir de la definición de la anterior recta, determine los parámetros de la

recta de Regresión de X sobre Y.
Propuesta Nº8
En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se
ha considerado que era interesante ir anotando periódicamente el tiempo medio (medido
en minutos) que se utiliza para realizar una pieza (variable Y) y el número de días desde
que empezó dicho proceso de fabricación (variable X). Con ello, se pretende analizar
cómo los operarios van adaptándose al nuevo proceso, mejorando paulatinamente su
ritmo de producción conforme van adquiriendo más experiencia en él. A partir de las cifras
29
recogidas, que aparecen en la tabla adjunta, se decide ajustar una función exponencial
que explique el tiempo de fabricación en función del número de días que se lleva
trabajando con ese método.
X 10 20 30 40 50 60 70
Y 35 28 23 20 18 15 13
Desde el correspondiente ajuste propuesto, se pide que determine:

a. ¿Qué tiempo se predeciría para la fabricación del artículo cuando se lleven 100 días?
b. ¿Qué tiempo transcurriría hasta que el tiempo de fabricación que se prediga sea de 10
c. minutos?
d. ¿Qué porcentaje de tiempo se reduce por cada día que pasa?
Propuesta Nº9
Un estudiante de la Escuela Universitaria de Estudios Empresariales de la Universidad de
Sevilla, para poder pagarse sus estudios, debe trabajar como camarero en un bar de
copas de su localidad. A este establecimiento, suelen acudir todos los jóvenes de la zona.
Este año, con los conocimientos aprendidos, decide por fin estudiar la relación existente
entre la cantidad de sal de las galletas saladas y el consumo de bebidas, ya que es
costumbre dar al cliente este aperitivo cuando pide una consumición. Se sabe que las
galletas no pueden tener una concentración de sal superior a 3'5 gramos por cada 1000
galletas y, por ello, decide ir variando a partir de 1 gramo la concentración de 0'5 en 0'5
gramos cada semana e ir anotando el incremento en caja semanalmente, obteniendo la
siguiente tabla:
Gramos de sal 1000 1 1.5 2 2.5 3

galletas
Ingreso (en pesetas) 140300 150000 165000 175000 200000
A partir de tales cifras, se quiere conocer:
30
a. ¿Considera justificado el planteamiento de un modelo lineal para expresar la relación

entre las variables?
b. Si el propietario desea unos ingresos de 160.000 pesetas, ¿qué cantidad de sal
debería aportar por cada 1000 galletas? Si aporta el máximo permitido de sal, ¿cuál
sería el ingreso en caja? Explicar cuál de las dos predicciones le merece mayor
confianza.
c. ¿Cuál sería la variación porcentual de los ingresos cuando la cantidad de sal aumenta
en un 1%
sobre el último valor de la tabla? Si aumentamos en 1gr. la sal por cada 1000 galletas,
¿cuánto
variarán los ingresos?
Propuesta Nº10
En una muestra de familias se han analizado las variables ahorro anual (Y) y renta anual
(X),
medidas ambas en miles de euros. Los datos obtenidos han sido los siguientes:
Ahorro 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3 2,7 3,0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
A partir de tales datos, realizar:

a. Obtener el modelo lineal que explica el ahorro de las familias en función de su
renta.
b. ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese
incrementada en un 5%, la familia que tiene la menor renta de entre todas o la que
posee la mayor renta?
c. ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su renta
anual en 500 ¼?
d. ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable
renta a través del modelo lineal planteado?
31
Propuesta Nº11
Con los datos:
a. Realizar el análisis de regresión
32

Regresión lineal para predecir temperatura del agua

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresión lineal para predecir temperatura del agua

Încărcat de

Drepturi de autor:

Formate disponibile

Estadística y Probabilidad

Dra. Sara Adelina Arana López

Dra. SARA ADELINA ARANA LOPEZ

ANALISIS DE REGRESION CON DOS VARIABLES

En esta sección se analizaran dos problemas. El primero, denominado Regresión, implica

INTRODUCCION AL ANALISIS DE REGRESION

EJEMPLO. Un Farmacéutico quiere predecir la concentración de un determinado fármaco

Independientemente de si el estudio es controlado u observacional, el objeto del análisis

DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)

Si tenemos n observaciones bidimensionales, cada par de datos (X, Y) puede

MODELO LINEAL BIDIMENSIONAL

Yi: variable dependiente.

 1: int ercepto;  2 : pendiente de la recta; : perturbaciones aleatorias.

El propósito básico del análisis de regresión es estimar los parámetros estructurales, es

Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la

HIPOTESIS RELATIVAS A LAS PERTURBACIONES

1. Toda perturbación aleatoria tiene Media cero

2. Todas las perturbaciones aleatorias tienen la misma Variancia. Homocedasticidad.

4. Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 . Además

son independientes del valor x. La función de distribución de probabilidad de  i es:

CALCULO DE LOS ESTIMADORES

Los estimadores se determinan mediante las siguientes relaciones

CALCULO DE LA VARIANCIA DE LOS ESTIMADORES

Asumiendo la siguiente proposición:

INTERVALOS DE CONFIANZA DE LOSPARAMETROS

con (n - 2) grados de libertad (g de l) y un % de significancia.

Índice de Determinación R2 e Índice de Correlación R.

Variation Total = Variación Explicada + Variación No Explicada

PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F

se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5% de

PRUEBA DE COHERENCIA DE LOS ESTIMADORES. Prueba t

se compara con un ttabulado en tablas con (n - 2) grados de libertad y una significancia

2 es una medida de la variación de las Y cuando X se conoce.

 22 Es una medida de la variación de las Y cuando la X no es conocida

 22   2 es una medida de la variación de las Y que se explica por la relación

REGRESIÓN LINEAL Y ANALISIS DE VARIANZA

La variabilidad de la variable respuesta en variabilidad explicada por el modelo más

Para todos los datos muestrales se hace la siguiente descomposición

Elevando al cuadrado y sumando se obtiene,

la variabilidad de la variable respuesta en la variabilidad explicada por la

de regresión más la variabilidad residual o no explicada por el modelo

CONSTRUIR LA TABLA DEL MODELO DE REGRESIÓN SIMPLE Y ANOVA

Si H0 es cierta (la variable X no influye), la recta de regresión es aproximadamente

Sí el p - valor = P es grande (mayor que ) se acepta H0.

la t relativo al coeficiente de regresión 1 (Contraste de la t) estudiado en el apartado

Si para cada valor de la variable explicativa se dispone de varios valores de la

Y11 Y21 ... Yk1

Y1n1 Y2n2 ... Yknk

El tamaño muestral es n1 + n2 + ... + nk = n, y para cada valor de X = xi, i = 1,2,...,k se

lo que permite descomponer los residuos de la siguiente forma

Un razonamiento análogo al realizado anteriormente permite descomponer la variabilidad

Ahora la descomposición de la variabilidad total es la siguiente,

MODELO DE REGRESIÓN SIMPLE Y ANOVA

A partir de esta tabla ANOVA se puede contrastar la hipótesis de que la función de

Si H0 es cierto, las medias condicionadas estarán próximas a la recta de

Bajo la hipótesis de normalidad y H0 (hipótesis de linealidad) se deduce que L sigue

Este contraste de linealidad de la F es unilateral. Si el p-valor = P es

En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia (Y) de

Se requiere desarrollar un análisis de regresión.

1. ELABORACION DEL DIAGRAMA DE DISPERSION

2. CALCULO DE LOS ESTIMADORES

a) Desarrollamos la siguiente tabla

1 40 6 -17 -12 204 144