Sunteți pe pagina 1din 21

Departamento de Ciencias Exactas

Ingeniera en Biotecnologa
Estadstica I

Trabajo Tercer Parcial


Tema: Tipos de Regresiones Lineales

Ing. Carlos Balseca


NRC: 2186

Sasha Sigenza
Camila Velandia
Mayra Valverde
1

Regresin lineal simple


(x 1 , y 1) , ( x 2 , y 2 ) , , ( xn , y n )
Dados n pares de valores

de una variable

bidimensional (X,Y). La regresin lineal simple de Y con respecto a X,


consiste en determinar la ecuacin de la reta:
Y =a+bX
que mejor se ajuste a los valores de la
muestra, con el fin de poder preceder
o estimar Y (variable dependiente), a
partir de X (variable independiente),
este proceso se denomina regresin.
Hallar la funcin lineal de

Y =a+bX ,

consiste en determinar los valores de


a y de b a partir de los datos de la
muestra.
Otra
notacin
es
^
y i=a+ bxi , si
muetra entonces

x 1 es un valor de la

(x i , ^
y i ) , es un punto de la recta de la regresin

Y =a+bX

. Fig 1
Fig1. Desviaciones de valores ajustados y observados.
Cuando la funcin, es lineal

a= y b x , donde el coeficiente de

es la

pendiente o el coeficiente o el coeficiente de la regresin lineal. La constante


a es la ordenada en el origen.
b>0 , entonces la tendencia lineal es creciente o positiva , es decir

Si

a mayores valores de X corresponden mayores valores de Y, y


viceversa.
Si b<0 , entonces la tendencia lineal es decreciente o negativa , es

decir a mayores valores de X corresponden menores valores de Y. y


viceversa.
Si b=0 , entonces Y = a . Luego Y, permanece estacionario para
cualquier valor de X. En este caso se dice que, no hay regresin.
1

Medidas de dependencia lineal:

La covarianza:

Una medida de la dependencia lineal es la covarianza cuya formal es:


n

( x ix ) ( y i y )

cov ( x , y )= i=1

n1

Si hay relacin lineal positiva, la covarianza ser positiva y


grande.
Si hay relacin lineal negativa, la covarianza ser negativa y
grande en valor absoluto.
Si no hay relacin entre las variables o la relacin es marcada no
lineal, la covarianza ser prxima a cero.
Pero la covarianza depende de las unidades de medida de
las variables.

El coeficiente de correlacin lineal:

Es una medida de dependencia lineal que no depende de las unidades


de la medida en el coeficiente de correlacin lineal.
cov ( x , y )
cor ( x , y )=
,donde :
SX SY
x i x 2

y i y 2

i=1

i=1
2
x

S =
2

-1

cor ( x , y ) ) 1

cor ( x , y )=cor ( y , x )

cor ( ax+ b , cy+ d)=

cor ( x , y ) ) para cualesquier valores de

a , b , c ,d

Hiptesis del modelo de regresin lineal simple:


Linealidad: La relacin existente entre X e Y es lineal.
o Los datos deben ser razonablemente rectos.

o Si no hay regresin los datos no representan las estructura


necesaria.

Homogeneidad: El valor promedio del error es cero.


Homocedasticidad: La varianza de los errores es constante. La
dispersin de los datos deben ser constante para que los datos sean
homocedsticos, caso contrario son heterocedsticos.

Datos homocedsticos

Datos heterocedsticos

Independencia: Las observaciones son independientes , para q esto se


cumpla sebe darse lo siguiente:
3

o Los datos deben ser independientes.


o Una observacin no debe dar informacin sobre las dems.
o Habitualmente, se sabe por el tipo de datos si son adecuados o
no para el anlisis.
o En general, las series temporales no cumplen la hiptesis de
independencia.
Normalidad: Los errores siguen una distribucin normal.

Estimadores de mnimos cuadrados:


Se denomina error o residuo a cada diferencia,
y1

observado

y del valor pronosticado

^
yi

d i= y i ^
yi

del valor

. Un mtodo para determinar

eta recta que mejor se ajuste a los n datos de la muestra

(x i , y i ) , es el

mtodo de los mnimos cuadrados.

Recta de regresin de los mnimos cuadrados


La recta de regresin de lo mnimos cuadrados de Y en X es aquella que hace
mnima la suma de los cuadrados de errores y cuya expresin es:
yi abx i 2

( y i ^
y i )2=
i=1

d 2i =
i=1

i=1

Para determinar una recta de regresin de lo mnimos cuadrados consisten


hallar los valores de a y b de manera que hagan mnima, la suma:

[ y i(a+ bxi )]

i=1

Este requisito se cumple de acuerdo con el teorema de Gass- Markow,


obteniendo la siguiente ecuacin: a= y b x , donde puede ser expresado de
la siguiente manera

^ 0= y 1 x
.

Estimadores de mnimos cuadrados


2

x i x

i=1

( xi x )( yi y )
1=

i=1

^ 0= y 1 x
.
y = ^ 0 + 1 x .
n

Covarianza

( x i x ) ( y i y )

S XY = i=1

xi 2

Varianza X

i=1
n

S XX = X 2i
i=1

Y i 2

Varianza Y

i=1
n

S YY = Y 2i
i=1

Propiedades de los estimadores de mnimos cuadrados


Para estimar la varianza de los errores, 2 , podemos utilizar,
n

e2i

2= i=1
n

que es el estimador mximo verosmil de


sesgado. Un estimador insesgado de

, pero es un estimador

es la varianza residual,

y i y

e 2i

s 2R = i=1 , donde e 2i =
n2
i=1
Inferencias sobre el modelo de regresin

o Usando intervalos de confianza podemos obtener una medida de la


precisin de dichas estimaciones.
o
Usando contrastes de hiptesis podemos comprobar si un
determinado valor puede ser el autentico valor del parmetro.
Inferencia para la pendiente

El estimador

sigue una distribucin normal porque es una combinacin

lineal de normales,
6

( x ix )

i=1

(n1) S2x

1=

yi= 0+ 1 xi+ui

donde
1

yi

es un estimador insesgado de
n

( x ix )

i=1

(n1)S x

E [ 1 ]=

yi N ( 0+ 1 xi , 2 )

, que cumple que

. Adems,

1.

E [ y i ]= 1

y su varianza es,
n

Var [ 1 ]=

(
i=1

( x i x )
(n1) S2x

Por tanto,
1

1,

(n1)S2x

Intervalo de confianza para la pendiente

Queremos ahora obtener el intervalo de confianza para


2 es desconocida, la estimamos con

Como

de nivel 1 .

S 2R . El resultado bsico

cuando la varianza es desconocida es:


^ 1 + 1

2
R

S
(n1) S2x

t n2

que nos permite obtener el intervalo de confianza para


^ 1 t n2, /2

S2R
2

( n1)S x

La longitud del intervalo disminuir si:


o Aumenta el tamao de la muestra.
o Aumenta la varianza de las x i .
o Disminuye la varianza residual.

Contrastes sobre la pendiente


Usando el resultado anterior podemos resolver contrastes sobre 1. En
1
particular, si el verdadero valor de
es cero entonces Y no depende
linealmente de X. Por tanto, es de especial inters el contraste:
H 0 : 1=0
H 1: 1 0
La regin de rechazo de la hiptesis nula es:

| |
1

S 2R

>t n2,/2

(n1) S2x

Equivalentemente, si el cero esta fuera del intervalo de confianza para

de nivel 1 , rechazamos la hiptesis nula a ese nivel. El p-valor del


contraste es:

| |
1

pvalor=t n 2 >

S 2R

(n1)S 2x

Inferencia para el interceptor

El estimador

^ 0

sigue una distribucin normal porque es una combinacin

lineal de normales,
n

^ 0= 1 x w i y i
i=1 n

w i=( xi x )/n S 2x y

donde

y i N ( 0 + 1 xi , )
n

y i= O + 1 x 1 +ui

donde

. Adems,

que

cumple

es un estimador insesgado de

que
,

1
E [ ^ 0 ]= x wi E [ y i ]= 0
i=1 n

y su varianza es,
n

1
1
x
Var [ ^0 ]= x w i Var [ y i ]= 2 +
n (n1)S 2x
i=1 n

y por tanto,

( (

x 2
^ 0 N 0 , 2 1 +
n (n1) S 2x

))

Intervalo de confianza para el intercepto

Queremos ahora obtener el intervalo de confianza para


Como

es desconocida, la estimamos con

SR

de nivel 1 .

. El resultado basico

cuando la varianza es desconocida es:


^0 + 0

1
x 2
S2R +
n (n1)S 2x

t n2

que nos permite obtener el intervalo de confianza para

x 2
^ 0 t n2,/2 S 2R 1 +
n (n1) S2x

0:

La longitud del intervalo disminuir si:


o Aumenta el tamao de la muestra.
o Aumenta la varianza de las xi .
9

o Disminuye la varianza residual.


o Disminuye la media de las xi .
Contrastes sobre el intercepto

Usando el resultado anterior podemos resolver contrastes sobre


particular, si el verdadero valor de

. En

es cero entonces la recta de

regresin pasa por el origen. Por tanto, es de especial inters el contraste:


H 0 : 0 =0
H 1 : 0 0
La regin de rechazo de la hiptesis nula es:

| (
S2R

^ 0
2

1
x
+
n (n1)S 2x

>t n2,/ 2

Equivalentemente, si el cero esta fuera del intervalo de confianza para

de nivel 1 , rechazamos la hiptesis nula a ese nivel. El p-valor es:

( | (

pvalor=2 Pr t n2 >

SR

^0
2

1
x
+
n (n1)S 2x

|)

Prediccin de una nueva respuesta

La varianza de la prediccin de una nueva respuesta es el error cuadrtico


medio de la prediccin:
Teniendo en cuenta que:

1
x
x 0x 2 Var ( ^ 1 )= 2 +
n (n1)S 2x

Var ( ^
y 0 )=Var ( y ) +
El intervalo de confianza para la respuesta promedio es
10

(
2

^y 0 t n2,/2 S R

1
x 2
+
n ( n1)S2x

Prediccin de una nueva respuesta


El intervalo de confianza para la prediccin de una nueva respuesta es:
x

0x 2
((n1)S 2x )
1
1+ +
n
2
SR
^y 0 t n2,/2
La longitud de este intervalo es mayor que la del anterior (menos precisin)
porque no corresponde a un valor medio sino a uno especfico.

Resolucin de ejercicios
Ejercicio 1: Los datos de la produccin de trigo en toneladas (X) y el

precio del kilo de harina en pesetas (Y ) en la dcada de los 80 en


Espaa fueron:
Producci
n de
trigo
Precio de
la harina

30

28

32

25

25

25

22

24

35

25

30

27

40

42

40

50

45

30

40
25

10

x i y in x y

^
1= i=110

x i2 n x2
i=1

97341028,635,4
^
1=
=1,3537
84681028,62
^
0= y ^
1 x

11

^
0=35,4+1,353728,6
^
0=74,116
La recta de regresin es:
y=74,1161,3537 x
Ejercicio2: Una empresa de mensajera de entrega puerta a puerta,

con el fin de mejorar la prestacin del servicio desea establecer la


relacin que puede existir entre el tiempo empleado y la distancia
recorrida para la entrega de un determinado producto
a) Realice un diagrama de dispersin a partir de los datos
obtenidos
b) Determine la mejor ecuacin que se ajuste a los datos
Distancia
(Km)
Tiempo(Dias
)
a) Diagrama de

82
5
3,5

21
5
1,0

107
0
4,0

55
0
2,0

48
0
1,0

92
0
3,0

135
0
4,5

32
5
1,5

67
0
3,0

121
5
5,0

dispersion

Distancia vs Tiempo
f(x) = 0x + 0.01
R = 1

tiempo
0

2000 4000 6000 8000 10000


Distancia

b) Tablas con la que se calcul ya ecuacin de regresin lineal


x
825
215
1070

Y
3,5
1
4

x*y
2887,5
215
4280

550
480

2
1

1100
480

x^2
680625
46225
114490
0
302500
230400

y^2
12,25
1
16
4
1
12

920
1350

3
4,5

2760
6075

846400
9
182250
20,25
0
325
1,5
487,5
105625
2,25
670
3
2010
448900
9
1215
5
6075
147622
25
5
7620
28,5
217170 580644
812,25
00
Ejercicio 3: Se han medido en cm, los dimetro x, de cien rboles
a1,30m del suelo, es decir, los dimetros normales y las alturas y
en metros de estos rboles, los resultados obtenidos despus de
agrupar en clases son:

5,7

7,9

9,11

11,13

13,15

15,17

17,19

10

14

13

15

Calcular
a)
b)
c)
d)

La medias y desviaciones
Covarianza
Los coeficientes de correlacin
Ecuacin de la recta de regresin lineal
Resolucin
a) En primer lugar se determinan las marcas de clase y las frecuencias
marginales.
2

xi

ni

ui

ui ni

ui ni

25

8
13

35

25

25

25

45

44

55

23

23

23

65

12

24

Totales

n=100

80

Para la variable x:
x i45
u
=
= x i=45+10 ui
i
Siendo
10
5

ui ni

u = i=0

6
=0,06
100

x =45+ 10 u =45,6 cm
5

ui2 ni

S u2= i=0

u2 =

80
2
( 0,06 ) =0,7964= S u= 0,7964
100

S u=0,8924
S x 2=10 2 Su2=79,64

S x =10 Su =8,924

Anlogamente para y;
v j=

Siendo

v j12
= y i=12+2 v j
2

v j nj

v = j=1

16
=0,16
100

y =12+2 v =11,68 cm

14

v j2 n j

S v 2= j=1

v 2=

164
2
(0,16 ) =1,6144= S v = 1,6144
100

S u=0,8924
S y 2=22 S v 2=6,4576

S y =2 Sv =2,5412

b) Para hallar la covarianza


yj

10

12

14

16

18
7

xi
2
5
3
5
4
5
5
5
6
5

-3

-2

-1

v j n ij

-2

1,-3

1,-2

0,0

0,0

0,0

0,0

0,0

-5

10

-1

2,-6

10,20

8,-8

5,0

0,0

0,0

0,0

-34

34

0,0

1,-2

14,14

13,
0

15,1
5

1,2

0,0

0,0

0,0

3,-3

9,0

6,6

5,1
0

0,0

13

13

0,0

0,0

0,0

1,0

2,2

2,4

1,3

18

ui {v j

j=1

Total
5

j=1

75

ui v j nij

S uv = i=1

ui v j nij

j=1

u v =

75
( 0,06 ) (0,16 )=0,7596
100

S xy =20 S uv =15,1920
c) La ecuacin de la recta de regresin lineal de y sobre x es:
15,1920
y11,68=
( x 45,6)
79,64
y11,68=0,1908( x45,6)

d) El coeficiente de correlacin

15

r xy =

15,1920
=0,669
(8,924)(2,5412)

r uv =

0,7596
=0,6699=r xy
(0,8924)(1,2706)

Ejercicio 4: Una ecuacin para la relacin lineal entre Xi e Yi se

evala por el mtodo de los mnimos cuadrados.


Xi
0,80
1,65
2,70
3,80
4,75
5,35

Yi
3,1
9,8
15,4
19,5
24,5
31,0

a. Evaluar la pendiente, b y la ordenada en el origen, 0, para la


recta.
b. Escribir la ecuacin para la recta.
c. Calcular la desviacin estndar para la pendiente, Sb y para
los residuos, Sr de esta recta.
d. Calcular el valor de X cuando Y=14,23. Calcular la desviacin
estndar absoluta y relativa del resultado, donde 14,23
representa la media de 4 medidas.
Tabla de clculos:
Muestras

Xi

Yi

( Xi)2

(Yi)2

XiYi

1
2
3
4
5
6
Total

0,8
1,65
2,7
3,8
4,75
5,35
19,05

3,1
9,8
15,4
19,5
24,5
31
103,3

0,64
2,7225
7,29
14,44
22,5625
28,6225
76,2775

9,61
96,04
237,16
380,25
600,25
961
2284,31

2,48
16,17
41,58
74,1
116,375
165,85
416,555

Xi 2

Yi 2

Sxx = X i 2

Syy = Y i2

16

19,05 2

Sxx =76,2775

103,3 2

Syy =2284,31

Sxx =15 ,7 9

Syy =505 , 8283

Sxy = XiYi

Xi Yi

Sxy =416,555

19,05103,3
6

Sxy =430 , 591666 7

Xi
X =
N

Yi
Y =
N

430,59
m=
15,79

19,05
X =
6

103,3
Y =
6

m=27 , 269 9

X =3,175

Y =17,216

m=

Sxy
Sxx

b=Y m X

b=17,21627,26993,175
b=69,3659325

Ecuacin lineal es:


y=mx +b
y=27 , 27 x69 , 3 7
Desviacin estndar de la
regresin:
Sr =

Syym2Sxx
N2

Desviacin estndar de la
pendiente:

Sm=

Sr 2
Sxx

505,83(27,27)215,79
62

Sm=

Sr =53 , 0010596 4

Sm=13,337 8

Desviacin estndar de la
interseccin:

Desviacin estndar de los


resultados obtenidos de la curva de
calibracin:

Sr =

(53)2
15,79

17

i
X 2

X i2

N
1

Sb=Sr

Sb=

2
Sr
1 1 ( Y c Y )

+ + 2
m
M N m Sxx

M: muestras desconocidas.
N: puntos.
X es igual a 3,065639 cuando Y=14,23.

19,05

76,28

6
1

Sb=53
Sb=47 ,54759 8

Ejercicio 5: La resistencia del papel utilizado en la manufactura de

cajas de cartn ( Y ) se relaciona con el porcentaje de


concentracin de madera dura en la pulpa original ( X ).
condiciones controladas, una planta piloto manufactura
muestras, cada una de diferentes lotes de pulpa, y se mide
resistencia a la tensin. Los datos son los siguientes.
X 1.0
Y 101.
4

1.5
117.
4

1.5
117.
1

1.5
106.
2

2.0
131.
9

2.0
146.
9

2.2
146.
8

2.4
133.
9

2.5
111.
3

2.5
123.
0

2.8
125.
1

2.8
145.
2

3.0
134.
3

3.0
144.
5

la
En
16
la
3.2
143.
7

I. Ajuste un modelo de regresin lineal simple a los datos.


n=16
X Y
Sxy = XY
n
Sxy
1=
Sxx
X =37.2
(37.2 x 2075.6)
112.2
Sxy =4937.97
1=
16
7.17
X 2=93.66
18

3.3
146.
9

Y =2075.6

Sxy =112.2

Y 2=272908.02

X
2

2
X
Sxx =

X Y =4937.97

1=15.6485
0=Y 1 X
0=129.725 (15.6485 )( 2.325 )
0=93.3422

37.2 2

Sxx =93.66
Sxx =7.17
Y =93.3422+15.6485 X

Tabla de contenido
Regresin lineal simple............................................................................................... 1
Medidas de dependencia lineal:..............................................................................2

La covarianza:................................................................................................ 2

El coeficiente de correlacin lineal:................................................................2

Hiptesis del modelo de regresin lineal simple:....................................................2

Linealidad:..................................................................................................... 2

Homogeneidad:.............................................................................................. 3

Homocedasticidad:........................................................................................ 3

Independencia:.............................................................................................. 3

Normalidad:................................................................................................... 3

Estimadores de mnimos cuadrados:.......................................................................3


Recta de regresin de los mnimos cuadrados........................................................3
Propiedades de los estimadores de mnimos cuadrados.........................................5
Inferencias sobre el modelo de regresin.............................................................5
19

Inferencia para la pendiente................................................................................ 5


Intervalo de confianza para la pendiente.............................................................6
Contrastes sobre la pendiente................................................................................. 6
Inferencia para el interceptor...............................................................................7
Intervalo de confianza para el intercepto.............................................................7
Contrastes sobre el intercepto............................................................................. 8
Prediccin de una nueva respuesta......................................................................8
Resolucin de ejercicios.......................................................................................... 9

20

S-ar putea să vă placă și