Documente Academic
Documente Profesional
Documente Cultură
ESTADISTICA Y PROBABILIDAD
ANALISISI DE REGRESION
LIMA, 2019
1
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o está influenciada por los valores tomados por una o
más variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la predicción no se determinan al azar.
Supongamos que deseamos desarrollar una ecuación para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposición de que la profundidad del agua se conoce de
antemano con precisión. La temperatura del agua es la respuesta; la profundidad del agua
es el único regresor considerado.
Incluso si la profundidad del agua está fijada en algún valor x, la temperatura del agua
variará debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarán. Por esta razón, debemos admitir que para una x dada,
2
Estadística y Probabilidad
Dra. Sara Adelina Arana López
estamos realmente tratando con una variable aleatoria “condicional”, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante Y/ x . Resulta obvio que la temperatura media del agua del océano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prácticas, estos valores deberían representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relación entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la
ecuación de regresión, se dice que el estudio está controlado. A menudo los valores X
utilizados para desarrollar la ecuación se eligen mediante algún mecanismo aleatorio. Por
ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua de lluvia, nos
veremos forzados a seleccionar una muestra de días, anotar la lectura de la calidad del
aire de ese día y medir el pH del agua de lluvia. En este caso, los valores de X utilizados
para desarrollar la ecuación de regresión no están preseleccionados por el investigador.
Representan un conjunto de valores de X típicos. Los estudios de este tipo se denominan
estudios observacionales. Veamos.
3
Estadística y Probabilidad
Dra. Sara Adelina Arana López
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o más
variables. La ecuación o función matemática constituye la función o línea de regresión.
Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.
NOTA: una buena estimación de un parámetro dependerá del grado de asociación que
exista entre las variables X, Y y de que la función elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.
CORRELACION
Es el análisis del grado de asociación o de afinidad entre las variables expresada a través
de la función o modelo de regresión. Para que exista correlación es necesario dos
variables, es decir, dos medidas que vayan cambiando valores.
4
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hipótesis sobre el tipo de relación que
hay entre ellas y sobre la capacidad de predicción. Tal relación o modelo queda definido
por:
Yi 1 2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relación lineal exacta de la ecuación debe ser modificada para incluir un término de
perturbación aleatoria, llamado también error o término estocástico . Así tenemos:
Y i 1 2 X i i
E i 0 para i 1, 2, 3, ... , n
5
Estadística y Probabilidad
Dra. Sara Adelina Arana López
E 2i 2 para i 1,2,3,..., n
3. Las perturbaciones son independientes entre si. Covariancia.
E i j 0 i j
xi2
f , P
1 2 2
exp
2
La estimación de estos parámetros estructurales se lleva a cabo mediante el método de
los Mínimos Cuadrados, que busca determinar los estimadores b1 y b2 .
Suponiendo: yi b1 b2 xi ei
x y n ( x * y )
b1
i i
n x n x 2
i
2
n xi yi xi yi
b1
n xi2 xi
2
o también b0 yb1 x
6
Estadística y Probabilidad
Dra. Sara Adelina Arana López
s
2 2
e y2
i
2
b1 yb1 x y
n2 n2
e
Entonces
2
Varb1 S b21
x x
2
i
2 xi2
Varb0 Sb20
x x
2
i
Por definición
bi i
t es decir i bi t Sb
Sb i
i
1
n
R2
y
y i2 i
2
n
VERIFICACION
CT = SCR + SCE
y i y y y y i y i
2 2 2
7
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Variancia Explicada b i
x x
2
2
FCALCULADA 1
Variancia NoExplicada Se2
bi
t CALCULADO
Sb i
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a múltiples experimentos, existen también problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relación entre las
precipitaciones pluviales y la producción de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de análisis de
correlación. El coeficiente de correlación de una población queda definido por la
relación
8
Estadística y Probabilidad
Dra. Sara Adelina Arana López
2
2
1
22
donde
2 nos indica qué proporción de la variación de las Y puede atribuirse a la relación lineal
de X
Estos mismos argumentos se aplica también a R 2, el cuadrado del coeficiente de
correlación muestral, que es definido por
R
X X Y Y
X X Y Y
2 2
9
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Frente a la alternativa
Por tanto, si se acepta H0, la variable regresora no influye y no hay relación lineal entre
ambas variables. En caso contrario, si existe una dependencia lineal de la variable
respuesta respecto a la regresora.
10
Estadística y Probabilidad
Dra. Sara Adelina Arana López
En base a la ortagonalidad de los vectores se obtiene que los productos cruzados son
cero, de donde se sigue la siguiente igualdad (Teorema de Pitágoras) que permite
descomponer
ajustado ,
11
Estadística y Probabilidad
Dra. Sara Adelina Arana López
ANOVA
Varianzas Relación
Fuente de Suma de Grados de
Cuadrados F
Variación Cuadrados Libertad
Medios
SCE
Regresión SCR = n 2 k CMR CMR
F
i=1
1
CME
SCE
Error SCE = n 2 n – K-1 CME
n2
i=1
SCT
Total SCT = n 2 n-1 CMT
n 1
i=1
(6.14)
CMR
F F (1, n 2 ) bajo Ho
CME
12
Estadística y Probabilidad
Dra. Sara Adelina Arana López
El contraste de linealidad.
X1 X2 ... Xk
13
Estadística y Probabilidad
Dra. Sara Adelina Arana López
SCR SCR = k
i = 1 ni
2 1 2
e =
2
k 2 R,1 =
SCE(1) SCE (1) = i = 1 ni k-2
SCE(2) k n 2 n-k
SCE (2) = i=1 j=1 i 2
R,2 =
SCE SCE = k n 2 n-2
i=1 j=1 i
2
R =
SCT n 2 n-1
SCT i=1 2
Y =
Frente a la alternativa
14
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
SOLUCION
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
15
Estadística y Probabilidad
Dra. Sara Adelina Arana López
n Yi Xi (Y Y ) ( X X ) ( X X ) (Y Y ) ( X X ) 2
Debemos hallar :
Y i b 0 b 1 X i i
x i x y i y 956; x i x y i y
2 2
576; 1634
Cálculo de Estimadores:
16
Estadística y Probabilidad
Dra. Sara Adelina Arana López
b 1
X i XYi Y
956
X i X 166
2 .
576
b 0 Y b 1 X 57 1. 66 * 18 27. 12
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
17
Estadística y Probabilidad
Dra. Sara Adelina Arana López
b 0 b 0 b 0 27. 12
tC 13. 7
S b0 S b0 1. 98
18
Estadística y Probabilidad
Dra. Sara Adelina Arana López
b 1 b1 b 1 1. 66
tC 2. 306
S b1 S b1 0. 1
b 1 X i X Yi Y 9. 56
R 2
1. 66 0.971212
Yi Y 2 1634
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
19
Estadística y Probabilidad
Dra. Sara Adelina Arana López
FC b
2
S 2e
47. 3056
268. 421
10 2
X
El error estándar de estimación es una medida de esparcimiento alrededor de una línea
de regresión. Es la desviación estándar de los valores observados Yi con respecto a los
valores de Y estimados ( Y i ) por la línea de regresión.
20
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede ser menor
o mayor en la medida que los n puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.
Ventas 133 292 283 283 302 400 505 608 667 783 785 799
Trimestres 1 2 3 4 5 6 7 8 9 10 11 12
SOLUCIÓN
Tiempo Demanda
X Y XY X2 Y2 Pronóstico
1 133 133 1 17689
2 292 584 4 85264
3 283 849 9 80089
4 283 1132 16 80089
5 302 1510 25 91204
6 400 2400 36 160000
7 505 3535 49 255025
8 608 4864 64 369664
9 667 6003 81 444889
10 783 7830 100 613089
11 785 8635 121 616225
12 799 9588 144 638401
6.5 486.7 47063 650 3451628
21
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Estadísticos descriptivos
Media Desviación N
típica
Demand 486,666 235,39033 12
a 7
Tiempo 6,5000 3,60555 12
ANOVAa
22
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Coeficientesa
Modelo Coeficient Coefi t Sig. Intervalo de Correlaciones Estadísticos de
es no ciente confianza de colinealidad
estandariz s 95,0% para
ados tipific B
ados
B Erro Beta Límit Límite Ord Parci Se Toleran FIV
r típ. e superi en al mip cia
inferi or cero arci
or al
(Consta 72,8 33,7 2,16 ,056 - 148,0
nte) 94 22 2 2,244 32
1
63,6 4,58 ,975 13,8 ,000 53,44 73,86 ,975 ,975 ,97 1,000 1,000
Tiempo
57 2 93 8 7 5
a. Variable dependiente: Demanda
Diagnósticos de colinealidada
Modelo Dimensión Autovalore Índice de Proporciones de la
s condición varianza
(Constante Tiempo
)
1 1,883 1,000 ,06 ,06
1
2 ,117 4,015 ,94 ,94
23
Estadística y Probabilidad
Dra. Sara Adelina Arana López
24
Estadística y Probabilidad
Dra. Sara Adelina Arana López
25
Estadística y Probabilidad
Dra. Sara Adelina Arana López
PRACTICA
REGRESIÓN LINEAL
Propuesta Nº1
El profesor Isaac Asimov fue uno de los escritores más prolíficos de todos los
tiempos. Para cuando murió (1992) había escrito casi 500 libros a lo largo de una
carrera de 40 años. De hecho, a medida que avanzaba en su profesión se volvió
más productivo en términos de la cantidad de libros escritos en un lapso dado. Estos
datos son los tiempos que requería para escribir sus libros, en incrementos de 100:
26
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Propuesta Nº2
Propuesta Nº3
27
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Propuesta Nº4
Se supone que se puede establecer cierta relación lineal entre las exportaciones de un
país y la producción interna de dicho país. En el caso de España, tenemos los datos
anuales (expresados en miles de millones de pesetas) para tales variables
correspondientes al quinquenio 1992-96 en la
siguiente tabla:
Propuesta Nº5
De una distribución de dos variables se conocen los siguientes datos:
Rxy= 0,9; sx= 1,2; sy= 2,1; promedio X =5; promedio y =10
28
Estadística y Probabilidad
Dra. Sara Adelina Arana López
A partir de los mismos, obténganse las rectas de regresión mínimo cuadráticas de X sobre
Y y de
Y sobre X.
Propuesta Nº6
Para un mismo grupo de observaciones de las variables X e Y, hemos obtenido las dos
rectas de regresión siguientes:
3x + 2y = 26
6x + 2y = 32
Propuesta Nº8
En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se
ha considerado que era interesante ir anotando periódicamente el tiempo medio (medido
en minutos) que se utiliza para realizar una pieza (variable Y) y el número de días desde
que empezó dicho proceso de fabricación (variable X). Con ello, se pretende analizar
cómo los operarios van adaptándose al nuevo proceso, mejorando paulatinamente su
ritmo de producción conforme van adquiriendo más experiencia en él. A partir de las cifras
29
Estadística y Probabilidad
Dra. Sara Adelina Arana López
recogidas, que aparecen en la tabla adjunta, se decide ajustar una función exponencial
que explique el tiempo de fabricación en función del número de días que se lleva
trabajando con ese método.
X 10 20 30 40 50 60 70
Y 35 28 23 20 18 15 13
Propuesta Nº9
Un estudiante de la Escuela Universitaria de Estudios Empresariales de la Universidad de
Sevilla, para poder pagarse sus estudios, debe trabajar como camarero en un bar de
copas de su localidad. A este establecimiento, suelen acudir todos los jóvenes de la zona.
Este año, con los conocimientos aprendidos, decide por fin estudiar la relación existente
entre la cantidad de sal de las galletas saladas y el consumo de bebidas, ya que es
costumbre dar al cliente este aperitivo cuando pide una consumición. Se sabe que las
galletas no pueden tener una concentración de sal superior a 3'5 gramos por cada 1000
galletas y, por ello, decide ir variando a partir de 1 gramo la concentración de 0'5 en 0'5
gramos cada semana e ir anotando el incremento en caja semanalmente, obteniendo la
siguiente tabla:
30
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Propuesta Nº10
En una muestra de familias se han analizado las variables ahorro anual (Y) y renta anual
(X),
medidas ambas en miles de euros. Los datos obtenidos han sido los siguientes:
Ahorro 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3 2,7 3,0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
31
Estadística y Probabilidad
Dra. Sara Adelina Arana López
Propuesta Nº11
32