Sunteți pe pagina 1din 60

INSTITUTO TECNOLGICO

SUPERIOR DE CENTLA

ASIGNATURA: ESTADSTICA INFERENCIAL II


IINVESTIGACIN: UNIDAD I
ASESOR: M. I. I. MARCO ANTONIO ZRATE
CARRERA: INGENIERA EN GESTIN EMPRESARIAL
FECHA DE ENTREGA:

Contenido
I N T R O D U C C I N.......................................................................................... 1
ESTADSTICA INFERENCIAL II............................................................................... 2
UNIDAD I.............................................................................................................. 3
1 REGRESIN LINEAL SIMPLE Y CORRELACIN................................................3
1.1 MODELO DE REGRESIN SIMPLE................................................................3
1.2 SUPUESTOS................................................................................................ 6
1.3 DETERMINACIN DE LA ECUACIN DE REGRESIN.....................................7
1.4 MEDIDAS DE VARIACION............................................................................17
1.5 CLCULO DE LOS COEFICIENTES DE CORRELACIN Y DETERMINACIN...23
1.6 ANLISIS DE RESIDUOS............................................................................. 35
1.7 INFERENCIAS ACERCA DE LA PENDIENTE..................................................46
1.8 APLICACIONES.......................................................................................... 50
REFERENCIAS................................................................................................... 53
C O N C L U S I N............................................................................................. 54
GLOSARIO......................................................................................................... 55

INTRODUCCIN
En esta investigacin de la primera unidad de la materia Estadstica
inferencial 2 aprenderemos a utilizar el modelo de regresin lineal y correlacin y
para esto debemos conocer primeramente los conceptos bsicos, los cuales
describiremos brevemente. Comencemos por el correlacin, lo cual es un conjunto
de tcnicas que se utilizan para conocer la similitud entre dos variables, conocer el
grado de intensidad entre estas dos variables y para esto se utiliza un diagrama
de dispersin que es una grfica donde se representa la similitud de las dos
variables.
Tambin durante el estudio nos encontraremos con dos tipos de variables:
Dependientes, que es la variable que se predice y la variable Independiente,
esta ltima es la variable que nos sirve para el clculo.
Siguiendo con los conceptos bsicos tambin se describen los siguientes:
El coeficiente de correlacin (r de Pearson) nos indica el grado de relacin entre
dos variables de nivel de intervalo (o razn) y se puede tomar un valor entre -1 y
+1. Si como resultado nos da -1 o +1 se dice que tiene una correlacin
perfecta. En otro caso si el coeficiente de correlacin nos da cero no existe
ninguna relacin entre las dos variables. El coeficiente de determinacin se calcula
elevando al cuadrado el coeficiente de correlacin. Este coeficiente nos indica
una porcin de la variacin total en la variable dependiente Y, y la variacin en la
variable independiente X.
El anlisis de regresin es la tcnica empleada para desarrollar la ecuacin y dar
las estimaciones.

Sin ms se ha buscado informacin con ejemplos a manera de hacer ms


comprensible el contenido de la investigacin y la utilidad de los mtodos que se
presentan.

ESTADSTICA INFERENCIAL II

UNIDAD I
1 REGRESIN LINEAL SIMPLE Y CORRELACIN
1.1 MODELO DE REGRESIN SIMPLE
El modelo de pronstico de regresin lineal permite hallar el valor esperado
de una variable aleatoria a cuando b toma un valor especfico. La aplicacin de
este mtodo implica un supuesto de linealidad cuando la demanda presenta un
comportamiento creciente o decreciente, por tal razn, se hace indispensable que
previo a la seleccin de este mtodo exista un anlisis de regresin que determine
la intensidad de las relaciones entre las variables que componen el modelo.
El pronstico de regresin lineal simple es un modelo ptimo para patrones de
demanda con tendencia (creciente o decreciente), es decir, patrones que
presenten una relacin de linealidad entre la demanda y el tiempo. (Lpez., 2016)

Existen medidas de la intensidad de la relacin que presentan las variables que


son fundamentales para determinar en qu momento es conveniente utilizar
regresin lineal.
Coeficiente de correlacin [r]
El coeficiente de correlacin, comnmente identificado como r o R, es una medida
de asociacin entre las variables aleatorias X y Y, cuyo valor vara entre -1 y +1.

El clculo del coeficiente de correlacin se efecta de la siguiente manera:

Dnde t hace referencia a variable tiempo y x a la variable demanda.

Frmulas:

= Pronstico del perodo t


= Interseccin de la lnea con el eje

= Pendiente (positiva o negativa)

= Perodo de tiempo
Donde:

Promedio de la variable dependiente (Ventas o Demanda)


Promedio de la variable independiente (Tiempo)
Donde:

(Lpez., 2016)

CORRELACIN
El anlisis de correlacin se encuentra estrechamente vinculado con el
anlisis de regresin y ambos pueden ser considerados de hecho como dos
aspectos de un mismo problema.
La correlacin entre dos variables es - otra vez puesto en los trminos ms
simples - el grado de asociacin entre las mismas. Este es expresado por un nico
valor llamado coeficiente de correlacin (r), el cual puede tener valores que oscilan
entre -1 y +1. Cuando r es negativo, ello significa que una variable (ya sea x o
y) tiende a decrecer cuando la otra aumenta (se trata entonces de una
correlacin negativa, correspondiente a un valor negativo de b en el anlisis de
regresin). Cuando r es positivo, en cambio, esto significa que una variable se
incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de b
en el anlisis de regresin).

1.2 SUPUESTOS
Las cuatro suposiciones de regresin (conocidas por el acrnimo LINE, en
ingls) son las siguientes:

Linealidad
Independencia de errores
Normalidad
Igual varianza (tambin llamada homoscedasticidad)

La primera suposicin linealidad establece que la relacin entre variables es


lineal. Si no se tiene linealidad se dice que se tiene un error de especificacin. En
el caso de que sean varias variables independientes, la opcin Analizar-Regresin
Lineal-Grficos-Generar todos los grficos parciales nos dan los diagramas de
dispersin parcial para cada variable independiente. En ellos se ha eliminado el
efecto proveniente de las otras variables y as la relacin que muestran es la
relacin neta entre las variables representadas.
La segunda suposicin independencia de errores, requiere que los errores (E,
S) sean independientes unos de otros. Esta suposicin es de vital importancia
cuando se recolectan los datos a lo largo de un periodo de tiempo. En tales
situaciones, los errores para un periodo especfico a menudo se correlacionan con
aquellos del periodo previo.
La tercera suposicin, normalidad requiere que los errores (E,S) se
distribuyan normalmente en cada valor de X.
Podemos contrastarla mediante: La prueba de Kolmogorff-Smirnov, con grficos
de normalidad de tipo Q-Q (cuartiles) o P-P (proporciones) (ver explorar)
grficamente en Analizar-Regresin-Lineal-Grficos. La opcin Histograma: aade
una curva N (0,1) Grfico de Probabilidad Normal de tipo P-P: Representa las
proporciones acumuladas de la variable esperada respecto a las proporciones
acumuladas de la variable observada.
La cuarta suposicin, igual varianza u homoscedasticidad, requiere que la
varianza de los errores (E,S) sea constante para todos los valores de X. En otras
palabras, la variabilidad de los valores de Y ser la misma cuando X es un valor
bajo que cuando X es un valor alto.
El supuesto de homoscedasticidad implica que la variacin de los residuos sea
uniforme en todo el rango de valores de los pronsticos (grfico sin pautas de
asociacin).(David M. Levine, 2006)

1.3 DETERMINACIN DE LA ECUACIN DE REGRESIN


Frmulas bsicas en la regresin lineal simple
Como ejemplo de anlisis de regresin, describiremos el caso de Pizzera
Armand, cadena de restaurantes de comida italiana. Los lugares donde sus
establecimientos han tenido ms xito estn cercanos a establecimientos de
educacin superior. Se cree que las ventas trimestrales (representadas por y) en
esos restaurantes, se relacionan en forma positiva con la poblacin estudiantil
(representada por x). Es decir, que los restaurantes cercanos a centros escolares
con gran poblacin tienden a generar ms ventas que los que estn cerca de
centros con poblacin pequea. Aplicando el anlisis de regresin podremos
plantear una ecuacin que muestre cmo se relaciona la variable dependiente y
con la variable independiente x.
El modelo de regresin y la ecuacin de regresin
En el ejemplo, cada restaurante est asociado con un valor de x (poblacin
estudiantil en miles de estudiantes) y un valor correspondiente de y (ventas
trimestrales en miles de $). La ecuacin que describe cmo se relaciona y con x y
con un trmino de error se llama modelo de regresin. ste usado en la regresin
lineal simple es el siguiente:

Modelo de regresin lineal simple: y = 0 + 1 x + 0


0 y 1 son los parmetros del modelo. es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relacin lineal
entre x y y.
Los errores, , se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviacin estndar . Esto implica que el valor
medio o valor esperado de y, denotado por E(Y/x), es igual a 0 + 1 x.

Ecuacin de regresin lineal simple: E(y/x) = 0 + 1 x ( Y/x=E(Y/x) )

La ecuacin estimada de regresin (lineal simple)


Los parmetros, 0 y 1, del modelo se estiman por los estadsticos mustrales b0
y b1, los cuales se calculan usando el mtodo de mnimos cuadrados.
Ecuacin Estimada de regresin lineal simple: = b0 + b1 x
En la regresin lineal simple, la grfica de la ecuacin de regresin se llama lnea
de regresin estimada. es el valor estimado de y para un valor especfico de x.
Datos de poblacin estudiantil y ventas trimestrales para una muestra de 10
restaurantes:

El mtodo de mnimos cuadrados consiste en hallar los valores b0 y b1 que hacen


mnima la suma de los cuadrados de las desviaciones entre los valores
observados de la variable dependiente, yi, y los valores estimados de la misma, i.
Es decir se minimiza la suma: (yi i)2.

Al aplicar el mtodo se llega al siguiente sistema de ecuaciones simultneas


(llamadas ecuaciones normales de la recta de regresin de y en x), cuya solucin
da los valores de b0 y b1:
Las soluciones son las siguientes:

Determine la ecuacin de regresin con los datos dados.

El coeficiente de determinacin (r2)


El coeficiente de determinacin en la regresin lineal simple es una medida de la
bondad de ajuste de la recta estimada a los datos reales.

Expresado r2 en porcentaje, se puede interpretar como el porcentaje de la


variabilidad total de Y que se puede explicar aplicando la ecuacin de regresin.

La suma de cuadrados debida a la regresin se calcula por diferencia:

SCR = SCT SCE = 15,730 1,530 = 14,200

El 90.27% de la variacin en las ventas se puede explicar con la relacin lineal


entre la poblacin estudiantil y las ventas.
El coeficiente de correlacin lineal (r)
Es una medida descriptiva que mide la intensidad de asociacin lineal entre las
dos variables, x y y. Los valores del coeficiente de correlacin lineal siempre estn
entre 1 y +1. 1 significa una relacin lineal negativa perfecta, +1 significa una
relacin lineal positiva perfecta. Los valores cercanos a cero indican que las
variables x y y no tiene relacin lineal. El coeficiente de correlacin lineal se
relaciona con el coeficiente de determinacin as:

b1 es la pendiente la recta de regresin de y en x.


El coeficiente de determinacin es ms general que el coeficiente de correlacin
lineal.
Pruebas de Significacin para la Regresin Lineal
La ecuacin de regresin lineal simple indica que el valor medio o valor
esperado de y es una funcin lineal de x: E(y/x) = 0 + 1 x. Si 1=0 entonces
E(y/x) = 0 y en este caso el valor medio no depende del valor de x, y concluimos
que x y y,no tienen relacin lineal. En forma alternativa, si el valor 1 0 llegamos
a la conclusin que las dos variables se relacionan (ms especficamente, que hay
una componente lineal en el modelo). Existen dos pruebas, por lo menos, que se
pueden utilizar para tal fin. En ambas se requiere una estimacin de 2, la
varianza de

en el modelo de regresin.

Cuadrados medios del error CME (es una estimacin de)


S2 = CME = SCE/(n-2) n-2 son los grados de libertad asociados a SCE. 2 son los
parmetros estimados en la regresin lineal (0 y 1) y n es el nmero de pares
de datos.

Uso de la ecuacin de regresin lineal para evaluar y predecir.


El modelo de regresin lineal simple es un supuesto acerca de la relacin entre x y
y, Si los resultados tienen una relacin estadsticamente significativa entre x y y, y
si el ajuste que proporciona la ecuacin de regresin parece bueno, sta podra
utilizarse para estimaciones y predicciones.
Intervalo de confianza para estimar la media de y para un valor dado xp de x.

Intervalo de prediccin para estimar un valor individual de Y para un valor dado xp


de x:

1.4 MEDIDAS DE VARIACION


VARIANZA Y DESVIACIN TPICA
VARIANZA:

EJEMPLO:
X

x2

-8

64

10

-2

12

14

20

64
S=136

No tiene sentido comparar varianzas halladas sobre variables distintas


Desviacin tpica:

Permite medir la variabilidad usando una aproximacin a las unidades originales.

DISTANCIA O DIFERENCIA PROMEDIO.


En ese sentido tenemos la desviacin media (dm):

CLCULO Y PROPIEDADES DE LA VARIANZA

Otras frmulas para el clculo de la varianza:


Cuando la media es un valor decimal, para evitar trabajar con diferencias
decimales:

Con distribuciones de frecuencias:


Datos no agrupados:

ni : frecuencia absoluta de la puntuacin xi


DATOS AGRUPADOS:

ni : frecuencia absoluta del intervalo con punto medio X i

PROPIEDADES:

1.

Sx 0

Sx 0

2. SI Yi = Xi + a
ENTONCES
3. SI Yi = k Xi
ENTONCES
2
SY

2
SX

2
SY

2
SX

SY k SX

Media (ponderada) de las varianzas + varianza (ponderada) de las medias

OTRAS MEDIDAS DE VARIACION


Amplitud total, rango o recorrido (at):
Rango excluyente (variables discretas):

AT = Xmx - Xmn
Rango incluyente (variables continuas):

AT = Xmx - Xmn + 2 (0,5) I


Desventajas:
Muy sensible a valores extremos.
- depende del tamao de la muestra.

Desviacin media (dm):

No transforma las unidades y diferencias originales


Inconveniente: No es cmodo trabajar con valores absolutos. Por ello, no hay
tcnicas estadsticas basadas en ellos.

Amplitud semi-intercuartil (q):

til para eliminar algn valor extremo que pudiera distorsionar la representatividad
de la varianza.
Coeficiente de variacin (cv):

Para comparar la variabilidad de grupos con medias muy distintas.


cv como ndice de representatividad de la media:
a mayor cv, menor representatividad

3. Representacin grfica de la variabilidad.

REPRESENTACION DE CAJA Y BIGOTES:


70

60

50

40

30

20
N=

50

EDAD

1. Se construye una "regla" que incluya los valores x mx y xmn.


2. Con los tres cuartiles (q1 q2 q3) se construye la caja.
3. xmx y xmn se unen a los bordes de la caja.

Representacin de medias y desviaciones tpicas de varios grupos:


1. situar las medias en el eje de coordenadas.
2. unir los puntos que representan las medias.
3. sobre cada punto dibujar un segmento vertical que equivalga a 1 s x.

1.5 CLCULO DE LOS COEFICIENTES DE CORRELACIN Y


DETERMINACIN
Una vez ajustada la recta de regresin a la nube de observaciones es
importante disponer de una medida que mida la bondad del ajuste realizado y que
permita decidir si el ajuste lineal es suficiente o se deben buscar modelos
alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de
determinacin, definido como sigue:

(6.15)

o bien

Como scE <scG, se verifica que 0 <R2<1.


El coeficiente de determinacin mide la proporcin de variabilidad total de la
variable dependiente

respecto a su media que es explicada por el modelo de

regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por
cien.
Por otra parte, teniendo en cuenta que i- =

, se obtiene:

(6.16)
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por

(6.17)
Donde

representa la desviacin tpica de la variable X (anlogamente para

). Un buen estimador de este parmetro es el coeficiente de correlacin lineal


muestral (o coeficiente de correlacin de Pearson), definido por
(6.18)
Por tanto, r

. Este coeficiente es una buena medida de la bondad del ajuste

de la recta de regresin. Evidentemente, existe una estrecha relacin entre r y


aunque estos estimadores proporcionan diferentes interpretaciones del modelo:

* res una medida de la relacin lineal entre las variables X e Y.


*

mide el cambio producido en la variable Y al realizarse un cambio de una

unidad en la variable X.
De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que


el modelo de regresin lineal es significativo. Desafortunadamente la distribucin
de r es complicada pero para tamaos muestrales mayores que 30 su desviacin
tpica es

1/

, y puede utilizarse la siguiente regla

En la interpretacin del coeficiente de correlacin se debe tener en cuenta que:


r = 1 indica una relacin lineal exacta positiva (creciente) o negativa
(decreciente),

r = 0 indica la no existencia de relacin lineal estocstica, pero no indica


independencia de las variables ya que puede existir una relacin no lineal incluso
exacta,
valores intermedios de r (0 < r <1 -1 < r <0) indican la existencia de una
relacin lineal estocstica, ms fuerte cuanto ms prximo a +1 ( -1) sea el valor
de r.
Para poder interpretar con mayor facilidad el coeficiente de correlacin muestral se
exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn sobre
la recta de regresin. r = R2 = 1, recta de regresin: y = x.

Figura 6.7. Dependencia funcional lineal.


Figura 6.8. La relacin lineal entre las variables es muy pequea y no parece que
exista otro tipo de relacin entre ellas, la nube de puntos indica que las variables
son casi independientes.
r = 0'192, R2= 0'037, recta de regresin: y = 6'317 + 0'086x.
Contraste de regresin:

= 0'687

F1,18 p - valor = 0'418. Se acepta la no

influencia de la variable regresora en Y.

Figura 6.8. Observaciones casi independientes.

Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de
tipo lineal, por tanto la correlacin es muy pequea
r = 0'391, R2= 0'153, recta de regresin: y = 32'534 - 1'889x.
Contraste de regresin:

= 3'252 F1,18 p-valor = 0'088. Se acepta que no existe

relacin lineal con = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del
tipo parablico Y = 0+ 1x + 2x2.

Figura 6.9. Existe una relacin cuadrtica.

Figura 6.10. La nube de datos se ajusta razonablemente a una recta con


pendiente positiva.
r = 0'641, R2= 0'410, recta de regresin: y = -3'963 + -1'749x.
Contraste de regresin:

= 12'522

influencia lineal de la variable x.

F1,18 p - valor = 0'002. Se rechaza la no

Figura 6.10. Relacin estocstica lineal.


Figura 6.11. Existe una fuerte dependencia lineal negativa entre las dos variables y
la correlacin es muy alta (prxima a 1).
r = 0'924, R2= 0'846, recta de regresin: y = -2'528 - 2'267x
Contraste de regresin:

= 105'193

existencia de una relacin lineal.

F1,18 p - valor = 0'000. Se acepta la

Figura 6.11. Fuerte relacin estocstica lineal.


http://dm.udc.es/asignaturas/estadistica2/sec6_8.html

CORRELACIN
La correlacin es la forma numrica en la que la estadstica ha podido
evaluar la relacin de dos o ms variables, es decir, mide la dependencia de una
variable con respecto de otra variable independiente.
edad

peso

15

60

30

75

18

67

42

80

Para poder entender esta relacin tendremos


que analizarlo en forma grfica: Si tenemos los datos
que se presentan en la tabla y consideramos que la
edad determina el peso de las personas entonces
podremos observar la siguiente grfica:

Donde los puntos representan cada uno de los pares ordenados y la lnea podra
ser una recta que represente la tendencia de los datos, que en otras palabras
podra decirse que se observa que a mayor edad mayor peso.

La correlacin se puede explicar con la pendiente de esa recta estimada y de esta


forma nos podemos dar cuenta que tambin
100

existe el caso en el que al crecer la variable


decrezca

la

variable

pesos

independiente

80

dependiente. En aquellas rectas estimadas

60
40
20

cuya pendiente sea cero entonces podremos

0
0

decir que no existe correlacin.

20

40

60

edades

As en estadstica podremos calcular la correlacin para datos no agrupados con


la siguiente formula.
n

R
N

i 1

i 1

En donde:

n xi y i x i * y i

i 1

n xi2 xi n y i2
i 1 i 1

i 1
n

= coeficiente de correlacin

y
i

i 1

nmero

de

pares

ordenados

X = variable independiente
Y = variable independiente
Ejemplo:

n
n
n
n x y x * y
i 1 i i i 1 i i 1 i

n 2 n 2 n 2 n 2
n x x n y y
i 1 i i 1 i i 1 i i 1 i

7 * 13483 (183 * 499)


0.65638606
7 * 5319 (183)2 7 * 36403 ( 499)2

Supngase que deseamos obtener la correlacin de los datos de la tabla anterior:


Ahora podemos observar que:
X2

Y2

Edad (x)

Peso (y)

X* Y

15

60

225

3600

900

30

75

900

5625

2250

18

67

324

4489

1206

42

80

1764

6400

3360

28

60

784

3600

1680

19

65

361

4225

1235

Se debe aclarar que el coeficiente de correlacin slo puede variar de la siguiente


manera:

1 r 1

y que para entenderlo mejor se debe obtener el coeficiente de

determinacin que se obtiene con r cuadrada, ya que este representa el


porcentaje que se explica y mediante los datos de x .

En nuestro ejemplo decimos que la correlacin es casi perfecta, ya que, esta muy
cerca de 1 y que el porcentaje de datos que explican a y es (0.65638606) 2=
0.430842 o sea el 43.08 %
En el caso de que fueran datos agrupados tendremos lo siguiente:
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribucin de frecuencias y por ello nuestros clculos
sern ms laboriosos, por lo que les recomiendo el uso de una hoja de clculo o al
menos una calculadora con regresin para datos agrupados.
De cualquier forma aqu tambin estamos evaluando numricamente si existe
relacin entre dos variables y lo haremos con la siguiente ecuacin.
k

i 1

i 1

n f xi y i fx xi * fy y i

j 1 i 1

2
l
k
k

n fx x fx xi n fy y i fy y i
i 1
i 1
i 1

i 1
l

2
i

En donde podemos encontrar k como el nmero de clases para la variable "y" y l


para el nmero de clases de "x".
Tambin podemos observar que hay varios tipos de "f" es decir, la que se
encuentra sola (sin subndice) que nos habla de las frecuencias celdares (cada
una de las frecuencias que se encuentran en la interseccin entre una columna y
un rengln) y las "f" con subndices que representan las frecuencias de cada una
de las variables.

Para entender el uso de esta frmula usaremos un ejemplo:


Los resultados que se presentan en la siguiente tabla representan los pesos y las
estaturas de 48 alumnos entrevistados el "da Anhuac"

Marcas de clase de "x"


1.44 1.54 1.64 1.745 1.845 1.94 fy
5

44.5

marcas 54.5

fx y

fx y^2

178

7921

19

1035.5

56434.7

5
de clase 64.5

580.5

37442.2
5

de "Y"

74.5

521.5

38851.7
5

84.5

422.5

35701.2
5

94.5
fx

fx x 0

12

17

378

35721

48

3116

212072

13.9 19.7 29.66 12.915 5.83 82.06

05
fx

21.4 32.4 51.76 23.828 11.3 140.898

x^2

832 723 5425 175

490 2

25

75

fxy

5380.77

Correlacin= 0.695

La sustitucin de la frmula es la siguiente:


k

i 1

i 1

n f x i y i fx x i * fy y i
j 1 i 1

2
l
k
k

n f x x fx x i n f y y i fy y i
i 1
i 1
i 1
i 1

2
i

48 * 5380.77 - (82.06 * 3116)


((48 * 140.8982) - 82.06 2 ) * (( 48 * 212072) - 3116 2 )

0.695

Al interpretar nuestro resultado podemos concluir que si existe relacin entre el


peso y la estatura, es decir, que a mayor estatura mayor peso.
En muchas ocasiones el resultado de la correlacin es negativo y lo que debemos
pensar es que la relacin de las variables involucradas en el clculo es inverso es
decir que en la medida que crece la variable independiente la variable dependiente
demanda

decrece:
150
1698
100 2045
1348
50
1268
0
1000

47
15
100
120
1500

2000

1.6 ANLISIS DE RESIDUOS


Como se ha indicado anteriormente, el anlisis de los residuos es bsico
para chequear si se verifican las hiptesis del modelo de regresin. Por ello, a
continuacin se exponen las propiedades matemticas de los mismos.
Considrese el modelo de regresin lineal mltiple

Los residuos mnimo-cuadrticos vienen dados por

o en forma matricial

Como

= H , siendo H = X

-1

Xt la matriz de proyeccin ortogonal. Es fcil

probar que la matriz H es idempotente

y simtrica

. En base a

esto
= - = -H =
=
= X + -HX -H =
,
Donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, ei es una variable aleatoria con distribucin

Donde hii es el valor de influencia de

.
i

(9.9)
que mide la distancia estadstica de i.a

. Un residuo grande indica que la observacin est lejos del modelo estimado y,
por tanto, la prediccin de esta observacin es mala. Las observaciones con
residuos grandes se denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y), normalmente se tipifican

(9.10)
Los residuos tipificados siguen una distribucin normal estndar, pero como
desconocido, se sustituye por su estimador, la varianza residual
los residuos estandarizados, definidos como

2
R

es

y se obtienen

(9.11)
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin
t con n-

grados de libertad. Como ya se indic en el estudio del modelo de

regresin lineal simple, en el clculo de r i existe el problema de que hay una


relacin de dependencia entre el numerador y el denominador de r i. Para evitar
esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el
estimador

R,

, la varianza residual del modelo de regresin obtenido a partir de la

muestra en la que se ha eliminado la observacin

. Ahora se definen

los residuos estudentizados como


(9.12)
Los residuos estudentizados siguen una distribucin t con
libertad. Si el tamao muestral

grados de

es grande, los residuos estandarizados y los

estudentizados son casi iguales y muy informativos, pudindose considerar


grandes los residuos estandarizados tales que

> 2.

Con los residuos estandarizados o estudentizados se pueden construir los


siguientes grficos de inters, muchos de los cuales ya han sido comentados,

El grfico de dispersin matricial, de todas las variables del modelo (respuesta y


regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer
grfico que se debe observar. Proporciona una primera idea de la existencia de
relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da
una idea de posibles relaciones lineales entre las variables regresoras, lo que
crea problemas de multicolinealidad.
El grfico de dispersin matricial para los datos del Ejemplo 7.1. Se representa en
la Figura 9.2.

Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.

El histograma de los residuos, que sirve para observar la existencia de


normalidad, simetra y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que
permite contrastar la normalidad (simetra) de la distribucin de los residuos.
El grfico de residuos

frente a las predicciones

, que permite detectar

diferentes problemas:

Heterocedasticidad, la varianza no es constante y se deben de transformar los


datos (la variable Y) o aplicar mnimos cuadrados ponderados.
Error en el anlisis, se ha realizado mal el ajuste y se verifica que los residuos
negativos se corresponden con los valores pequeos

y los errores positivos

se corresponden con los valores grandes de i, o al revs.


El modelo es inadecuado por falta de linealidad y se deben de transformar los
datos o introducir nuevas variables que pueden ser cuadrados de las
existentes o productos de las mismas. O bien se deben introducir nuevas
variables explicativas.
Existencia de observaciones atpicas o puntos extremos.
Tener en cuenta que se debe utilizar el grfico de residuos
predicciones

en lugar del grfico de residuos

observaciones

porque las variables e

variables e

frente a las
frente a las

estn correladas, mientras que las

no lo estn.

El grfico de residuos

frente a una variable explicativa

, permite deducir

si la existencia de heterocedasticidad o la falta de linealidad en el modelo son


debidas a la variable explicativa representada.
Grficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la
primera de ellas se observa que la relacin con la variable x j no es lineal y,
probablemente, un ajuste cuadrtico sea adecuado, tambin se tendran dudas
acerca de la homocedasticidad del modelo.

Figura 9.3. Grfico de residuos frente a variable regresora. Ajuste no lineal.


En la Figura 9.3 se observa que el modelo es heterocedstico y la causa de este
problema puede ser la variable explicativa x j. Por ello, la solucin se basa en
transformar el modelo teniendo en cuenta este hecho.

Figura 9.4. Grfico de residuos frente a variable regresora. Heterocedasticidad.


El grfico de residuos

frente a una variable omitida, permite valorar si esta

variable influye en el modelo y por lo tanto se debe incluir como una nueva
variable regresora.
En la Figura 9.5. de residuos frente a una variable omitida

se observa que

existe una relacin lineal con esta variable y por tanto se mejora el ajuste si se
incluye la variable xomit.

Figura 9.5. Grfico de residuos frente a variable omitida.


Una situacin frecuente se produce cuando se tienen observaciones de
diferentes poblaciones y se debe de incluir una variable de clasificacin en el
modelo de regresin. Esto se puede observar en el grfico de residuos frente a
predicciones como se puede ver en la Figura 9.6.

Figura 9.6. Necesidad de una variable de clasificacin.


El grfico de los residuos frente a la variable de clasificacin omitida se presenta
en la Figura 9.7.

Figura 9.7. Residuos frente a variable de clasificacin omitida.


El grfico parcial de residuos, es til para valorar la influencia real de una
variable regresora, esto es, conocer la informacin nueva que aporta la variable
regresora en estudio y que no aportan las otras variables regresoras.

Segn el paquete estadstico que se utilice los grficos parciales de residuos se


pueden construir de diferentes formas.
Tipo 1.
Si se tienen k variables regresoras

y se desea obtener el grfico

parcial de residuos respecto a la variable x k, se procede de la siguiente forma:


1. se calcula el modelo de regresin respecto a las restantes

variables

regresoras,

2. Se calculan los residuos

Que representan la parte de Y no explicada por las variables x 1,x2,...,xk-1.


3. Por tanto, la grfica de los residuos parciales e k* frente a la variable xk
permite valorar la importancia real de esta variable.
Tipo 2.
Un grfico muy parecido y ms fcil de calcular se obtiene de la siguiente forma.
Calcular
*

= +

= Se obtiene un nuevo grfico parcial representando los residuos parciales


frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los


estimadores

*
i

, i = 1,...,k - 1, sern muy prximos y, por tanto, tambin lo

son los vectores ek* y

. Lo que hace que los dos grficos de residuos

parciales sean casi iguales en este caso.


Grficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos
se observa que existe una relacin lineal entre las variables regresoras y la
variable de inters.

Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (altura)

Figura 9.9. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)
Tipo 3.
Otro grfico parcial de inters que proporcionan algunos paquetes estadsticos
es el siguiente (se quiere calcular el grfico parcial respecto a x k):
Se calculan los modelos de regresin de las variables Y y x k respecto a las
restantes

variables regresoras,

Ahora se representa el grfico de residuos de e k* frente a los residuos e ,k. Esto


es, el grfico de los pares. Este grfico da una idea de la relacin entre la
variable Y y la variable xk una vez que se ha eliminado la influencia de las otras
variables regresoras.
Utilizando los datos del ejemplo 7.1. se obtienen los siguientes grficos
parciales:

Figura 9.10. Grfico parcial respecto a altura.

Figura 9.11. Grfico parcial respecto a dimetro.

El grfico de residuos

frente al ndice (tiempo = i), proporciona informacin

acerca de la hiptesis de independencia de los residuos. En este grfico se


pueden observar algunas caractersticas que indican falta de independencia,
tales como una correlacin positiva o negativa, la existencia de tendencias,

saltos estructurales, rachas,....,etc.


En este grfico tambin se puede observar si existe una relacin lineal con el
ndice y ste debe de incluirse en el modelo de regresin como variable
explicativa.
Como ya se indic anteriormente al realizar estos grficos, una alta variabilidad en
los residuos (

grande) puede esconder una pauta de comportamiento de los

mismos y, en este caso, es conveniente filtrar o suavizar los residuos utilizando


la tcnica de medias mviles o medianas mviles u otro anlogo. Asi el filtro de
medianas mviles de orden tres a partir de los residuos originales
una nueva sucesin de residuos

t=2

n-1

t=1

genera

ms suave.

Para t = 2,...,n- 1. Si se considera que la sucesin resultante no est


suficientemente suavizada se puede repetir el procedimiento de suavizacin

1.7 INFERENCIAS ACERCA DE LA PENDIENTE


Intentaremos construir un intervalo de confianza y un test para 1. Bajo los
supuestos del modelo lineal (normalidad, homogeneidad de varianzas, linealidad e
independencia) el estimador 1 de la pendiente.
Recordemos que SE (1 ) es un estimador de la desviacin estndar de la
distribucin de muestreo de 1 . Notemos que la varianza de 1 disminuye (la
estimacin es ms precisa) cuando: (1) La varianza 2 disminuye
(2) La varianza de la variable regresora aumenta Mientras ms amplio el rango
de valores de la variable, mayor la precisin en la estimacin.
(3) El tamao de muestra aumenta.

Inferencia en Regresin Lineal Simple


Modelo de regresin lineal simple:
Se tienen n observaciones de una variable explicativa x y de una variable
respuesta y,

x1 , y1 , x 2 , y 2 , ..., xn , y n
El modelo estadstico de regresin lineal simple es:
y i x i ei
Donde

y E (Y ) x
Es la respuesta promedio para cada x.

Representa el intercepto de la funcin lineal que usa todos los valores de la

poblacin y

Representa la pendiente de la funcin lineal que usa todos los valores de la

poblacin.

son parmetros

El modelo estadstico de regresin lineal simple asume que para cada valor
de x, los valores de la respuesta y son normales con media (que depende de x) y
desviacin estndar que no depende de x. Esta desviacin estndar es la
desviacin estndar de todos los valores de y en la poblacin para un mismo valor
de x.

Y ~ N ( y , )

Estos supuestos se pueden resumir como: Para cada x,

donde

y E (Y ) x

Podemos visualizar el modelo con la siguiente figura:

Los datos nos darn estimadores puntuales de los parmetros poblacionales.


Estimadores de los parmetros de regresin:
E (Y ) y a bx

El estimador de la respuesta media est dado por

El estimador del intercepto es:

a
b

El estimador de la pendiente es:


El estimador de la desviacin estndar est dado por:
SCRes
n2

ei

Donde

SCRes

es la suma de cuadrados de los residuos

y i

r
El coeficiente de correlacin muestra l

es un estimador puntual de la

correlacin poblacional

Probando la hiptesis acerca de la existencia de relacin lineal

E (Y ) x

En el modelo de regresin lineal simple =>

. Si

entonces las

variables x e y no estn asociadas linealmente y la respuesta es una constante E


(Y) =

E (Y) =

Es decir, conocer el valor de x no nos va a ayudar a conocer y.


Para decimar la significancia de la relacin lineal realizamos el test de hiptesis:

Ho:

= 0 (la pendiente de la recta de regresin en la poblacin es cero)

H1:

Existen hiptesis de una cola, donde H1:

<0

H1:

> 0, pero lo usual es

hacer el test bilateral.

Para decimar la hiptesis podemos usar el test t:


t

estimador puntual valor hipottico


error estndar del estimador

El estimador puntual de

es b, y el valor hipottico es 0. El error estndar de b

es:
EE (b)

El estadstico para decimar la hiptesis acerca de la pendiente de la poblacin es:


t

b0
~ t ( n 2)
EE (b)

Intervalo de confianza para la pendiente:

Un intervalo de confianza (

)*100% para la pendiente est dado por:

2
b t1-n
[ EE (b)]
2

t1-n2
2

Donde

es el percentil apropiado de la distribucin t con (n-2) grados de

libertad.
Suponga que se rechaza al 5% la hiptesis nula del test t:

Ho:

=0

H1:

El intervalo de 95% de confianza para la verdadera pendiente

contiene el

cero?

1.8 APLICACIONES
La metodologa estadstica se emplea en muchos campos. Se ha visto que
la estadstica es una disciplina que ayuda a disear el esquema de bsqueda y
registro de informacin para describirla y analizarla con facilidad y mediante
estimaciones, obtener conclusiones que enriquecen el conocimiento de la realidad.

La estadstica da a da gana terreno en su aplicacin en toda actividad


humana por simple que sta sea. La estadstica se aplica en los programas de
Gobierno, Ingeniera, Agronoma, Economa, Medicina, Biologa, Psicologa,
Pedagoga, Sociologa, Fsica, etctera; no hay alguna ciencia que no la use o
profesin que no la aplique. Algunos ejemplos del uso de la estadstica son:

1) En las agencias gubernamentales, tanto federales como estatales utilizan la


estadstica para realizar planes y programas para el futuro.
2) En el campo de la ingeniera se aplica en muchas de sus actividades tales
como: a) La planeacin de la produccin. b) El control de calidad. c) Las ventas. d)
El almacn, etctera.
3) En el campo econmico su uso es fundamental para informar el desarrollo
econmico de una empresa o de un pas que da a conocer los ndices econmicos
relativos a la produccin, a la mano de obra, ndices de precios para el
consumidor, las fluctuaciones del mercado burstil, las tasas de inters, el ndice
de inflacin, el costo de la vida, etctera. Todos estos aspectos que se estudian,
se reportan e informan, no solamente describen el estado actual de la economa
sino que trazan y predicen el camino de las futuras tendencias. As mismo sirve a
los encargados de las agencias, para tomar decisiones acertadas en sus
operaciones.
5) En el campo demogrfico la Estadstica se aplica en los registros de los hechos
de la vida diaria, tales como:
Nacimientos. Defunciones. Matrimonios. Adopciones.
En materia de poblacin los datos aportan una buena ayuda para fijar la poltica de
estmulos al control de la natalidad, dirigir la inmigracin o emigracin, establecer
los planes de lucha contra las enfermedades epidmicas o plagas que azotan los
campos, etctera.
6) En el campo educativo la Estadstica contribuye al conocimiento de las
condiciones fisiolgicas, psicolgicas y sociales de los alumnos y de los
profesores. Al perfeccionamiento de los mtodos de enseanza y de evaluacin.
Las decisiones sobre las tasas tributarias, los programas sociales, el gasto de
defensa y muchos otros asuntos pueden hacerse de manera inteligente tan slo
con la ayuda del anlisis estadstico. Los hombres y mujeres de negocios, en su
eterna bsqueda de la rentabilidad, consideran que la estadstica es esencial en el

proceso de toma de decisiones. Los esfuerzos en control de calidad, minimizacin


de costos, combinacin de productos e inventarios, y una gran cantidad de otros
asuntos empresariales, pueden manejarse efectivamente a travs del uso de
procedimientos estadsticos comprobados, La estadstica tambin es muy til para
evaluar las oportunidades de inversin 4 por parte de asesores financieros. Los
contadores, los jefes de personal, y los fabricantes encuentran oportunidades
ilimitadas de beneficiarse con el uso del anlisis estadstico. Incluso un
investigador en el campo de la medicina, interesado en la efectividad de un nuevo
medicamento, considera la estadstica una aliada imprescindible.

REFERENCIAS
David M. Levine, M. L. (2006). Estadstica para administracin. Pearson
Educacin.
ftp://ftp.utalca.cl/profesores/gicaza/.../10%20inferencia%20regresion
%20simple.doc. (s.f.).
http://www.conevyt.org.mx/bachillerato/material_bachilleres/cb6/5sempdf/edin
1/edin1_f1.pdf. (s.f.).
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion
%20simple.pdf. (s.f.).
http://www.uaeh.edu.mx/docencia/VI_Lectura/licenciatura/documentos/LEC5.pdf
. (s.f.).
Lpez., B. S. (2016). http://www.ingenieriaindustrialonline.com. Licencia
Creative Commons Atribucin-NoComercial-CompartirIgual 3.0 Unported.

CONCLUSIN

En base a la investigacin realizada hemos concluido que el mtodo de regresin


lineal simple se utiliza cuando se quiere explicar una variable cuantitativa en
funcin de una variable explicativa cuantitativa tambin llamada variable
independiente, variable regresora o variable predictora.
Aprendimos que la finalidad de una ecuacin de regresin es la de estimar los
valores de una variable con base en los valores conocidos de la otra. Del mismo
modo, una ecuacin de regresin explica los valores de una variable en trminos
de otra. Esto quiere decir que se puede intuir una relacin de causa y efecto entre
dos o ms variables.
Finalmente podemos decir que el mtodo de regresin nos indica qu relacin
matemtica podra haber, en caso de existir una; ya que se concluye que el
mtodo de correlacin produce un nmero que resume el grado de la fuerza de
relacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin
matemtica que describe dicha relacin.

GLOSARIO
A
Amplitud semi - intercuartil
til para eliminar algn valor extremo que pudiera distorsionar la representatividad de la
varianza............................................................................................................................... 22

C
Coeficiente de variacin
Para comparar la variabilidad de grupos con medias muy distintas.........................................22

D
Desviacin tpica
Permite medir la variabilidad usando aproximacin a las unidades originales.........................18

E
El coeficiente de determinacin en la regresin lineal simple
Es una medida de la bondad de ajuste de la rcta estimada a los datos reales.........................11

H
Heterocedasticidad
La varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar
mnimos cuadrados ponderados.......................................................................................... 37
homoscedasticidad........................................................................................................................... 7
En estadsticas se dice que un modelo predictivo presenta homocedasticidad cuando la
varianza del error de la variable endgena se mantiene a lo largo de las observaciones. En
otras palabras, la varianza de los errores es constante. Un modelo estadstico relaciona el
valor de una variable a predecir con el de otras.................................................................... 7

M
multicolinealidad............................................................................................................................. 37
Multicolinealidad
Etimolgicamente, por cierto, la palabra deriva de hetero (distinto) y el verbo griego
skedanime........................................................................................................................ 37

R
regresin linealsimple
Es un modelo ptimo para patrones de demanda con tendencia (creciente o decreciente).......3

S
supuesto de linealidad
Cuando la demanda presenta un comportamiento creciente o decreciente...............................3

S-ar putea să vă placă și