Documente Academic
Documente Profesional
Documente Cultură
SUPERIOR DE CENTLA
Contenido
I N T R O D U C C I N.......................................................................................... 1
ESTADSTICA INFERENCIAL II............................................................................... 2
UNIDAD I.............................................................................................................. 3
1 REGRESIN LINEAL SIMPLE Y CORRELACIN................................................3
1.1 MODELO DE REGRESIN SIMPLE................................................................3
1.2 SUPUESTOS................................................................................................ 6
1.3 DETERMINACIN DE LA ECUACIN DE REGRESIN.....................................7
1.4 MEDIDAS DE VARIACION............................................................................17
1.5 CLCULO DE LOS COEFICIENTES DE CORRELACIN Y DETERMINACIN...23
1.6 ANLISIS DE RESIDUOS............................................................................. 35
1.7 INFERENCIAS ACERCA DE LA PENDIENTE..................................................46
1.8 APLICACIONES.......................................................................................... 50
REFERENCIAS................................................................................................... 53
C O N C L U S I N............................................................................................. 54
GLOSARIO......................................................................................................... 55
INTRODUCCIN
En esta investigacin de la primera unidad de la materia Estadstica
inferencial 2 aprenderemos a utilizar el modelo de regresin lineal y correlacin y
para esto debemos conocer primeramente los conceptos bsicos, los cuales
describiremos brevemente. Comencemos por el correlacin, lo cual es un conjunto
de tcnicas que se utilizan para conocer la similitud entre dos variables, conocer el
grado de intensidad entre estas dos variables y para esto se utiliza un diagrama
de dispersin que es una grfica donde se representa la similitud de las dos
variables.
Tambin durante el estudio nos encontraremos con dos tipos de variables:
Dependientes, que es la variable que se predice y la variable Independiente,
esta ltima es la variable que nos sirve para el clculo.
Siguiendo con los conceptos bsicos tambin se describen los siguientes:
El coeficiente de correlacin (r de Pearson) nos indica el grado de relacin entre
dos variables de nivel de intervalo (o razn) y se puede tomar un valor entre -1 y
+1. Si como resultado nos da -1 o +1 se dice que tiene una correlacin
perfecta. En otro caso si el coeficiente de correlacin nos da cero no existe
ninguna relacin entre las dos variables. El coeficiente de determinacin se calcula
elevando al cuadrado el coeficiente de correlacin. Este coeficiente nos indica
una porcin de la variacin total en la variable dependiente Y, y la variacin en la
variable independiente X.
El anlisis de regresin es la tcnica empleada para desarrollar la ecuacin y dar
las estimaciones.
ESTADSTICA INFERENCIAL II
UNIDAD I
1 REGRESIN LINEAL SIMPLE Y CORRELACIN
1.1 MODELO DE REGRESIN SIMPLE
El modelo de pronstico de regresin lineal permite hallar el valor esperado
de una variable aleatoria a cuando b toma un valor especfico. La aplicacin de
este mtodo implica un supuesto de linealidad cuando la demanda presenta un
comportamiento creciente o decreciente, por tal razn, se hace indispensable que
previo a la seleccin de este mtodo exista un anlisis de regresin que determine
la intensidad de las relaciones entre las variables que componen el modelo.
El pronstico de regresin lineal simple es un modelo ptimo para patrones de
demanda con tendencia (creciente o decreciente), es decir, patrones que
presenten una relacin de linealidad entre la demanda y el tiempo. (Lpez., 2016)
Frmulas:
= Perodo de tiempo
Donde:
(Lpez., 2016)
CORRELACIN
El anlisis de correlacin se encuentra estrechamente vinculado con el
anlisis de regresin y ambos pueden ser considerados de hecho como dos
aspectos de un mismo problema.
La correlacin entre dos variables es - otra vez puesto en los trminos ms
simples - el grado de asociacin entre las mismas. Este es expresado por un nico
valor llamado coeficiente de correlacin (r), el cual puede tener valores que oscilan
entre -1 y +1. Cuando r es negativo, ello significa que una variable (ya sea x o
y) tiende a decrecer cuando la otra aumenta (se trata entonces de una
correlacin negativa, correspondiente a un valor negativo de b en el anlisis de
regresin). Cuando r es positivo, en cambio, esto significa que una variable se
incrementa al hacerse mayor la otra (lo cual corresponde a un valor positivo de b
en el anlisis de regresin).
1.2 SUPUESTOS
Las cuatro suposiciones de regresin (conocidas por el acrnimo LINE, en
ingls) son las siguientes:
Linealidad
Independencia de errores
Normalidad
Igual varianza (tambin llamada homoscedasticidad)
en el modelo de regresin.
EJEMPLO:
X
x2
-8
64
10
-2
12
14
20
64
S=136
PROPIEDADES:
1.
Sx 0
Sx 0
2. SI Yi = Xi + a
ENTONCES
3. SI Yi = k Xi
ENTONCES
2
SY
2
SX
2
SY
2
SX
SY k SX
AT = Xmx - Xmn
Rango incluyente (variables continuas):
til para eliminar algn valor extremo que pudiera distorsionar la representatividad
de la varianza.
Coeficiente de variacin (cv):
60
50
40
30
20
N=
50
EDAD
(6.15)
o bien
regresin. Es usual expresar esta medida en tanto por ciento, multiplicndola por
cien.
Por otra parte, teniendo en cuenta que i- =
, se obtiene:
(6.16)
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relacin
lineal que hay entre ambas variables es el coeficiente de correlacin definido por
(6.17)
Donde
unidad en la variable X.
De las definiciones anteriores se deduce que:
1/
Figura 6.7. Existe una dependencia funcional lineal, las observaciones estn sobre
la recta de regresin. r = R2 = 1, recta de regresin: y = x.
= 0'687
Figura 6.9. Existe una dependencia funcional entre las observaciones pero no de
tipo lineal, por tanto la correlacin es muy pequea
r = 0'391, R2= 0'153, recta de regresin: y = 32'534 - 1'889x.
Contraste de regresin:
relacin lineal con = 0'05. En base a la Figura 6.6. se debe de hacer un ajuste del
tipo parablico Y = 0+ 1x + 2x2.
= 12'522
= 105'193
CORRELACIN
La correlacin es la forma numrica en la que la estadstica ha podido
evaluar la relacin de dos o ms variables, es decir, mide la dependencia de una
variable con respecto de otra variable independiente.
edad
peso
15
60
30
75
18
67
42
80
Donde los puntos representan cada uno de los pares ordenados y la lnea podra
ser una recta que represente la tendencia de los datos, que en otras palabras
podra decirse que se observa que a mayor edad mayor peso.
la
variable
pesos
independiente
80
60
40
20
0
0
20
40
60
edades
R
N
i 1
i 1
En donde:
n xi y i x i * y i
i 1
n xi2 xi n y i2
i 1 i 1
i 1
n
= coeficiente de correlacin
y
i
i 1
nmero
de
pares
ordenados
X = variable independiente
Y = variable independiente
Ejemplo:
n
n
n
n x y x * y
i 1 i i i 1 i i 1 i
n 2 n 2 n 2 n 2
n x x n y y
i 1 i i 1 i i 1 i i 1 i
Y2
Edad (x)
Peso (y)
X* Y
15
60
225
3600
900
30
75
900
5625
2250
18
67
324
4489
1206
42
80
1764
6400
3360
28
60
784
3600
1680
19
65
361
4225
1235
1 r 1
En nuestro ejemplo decimos que la correlacin es casi perfecta, ya que, esta muy
cerca de 1 y que el porcentaje de datos que explican a y es (0.65638606) 2=
0.430842 o sea el 43.08 %
En el caso de que fueran datos agrupados tendremos lo siguiente:
Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos
juntando dos tablas de distribucin de frecuencias y por ello nuestros clculos
sern ms laboriosos, por lo que les recomiendo el uso de una hoja de clculo o al
menos una calculadora con regresin para datos agrupados.
De cualquier forma aqu tambin estamos evaluando numricamente si existe
relacin entre dos variables y lo haremos con la siguiente ecuacin.
k
i 1
i 1
n f xi y i fx xi * fy y i
j 1 i 1
2
l
k
k
n fx x fx xi n fy y i fy y i
i 1
i 1
i 1
i 1
l
2
i
44.5
marcas 54.5
fx y
fx y^2
178
7921
19
1035.5
56434.7
5
de clase 64.5
580.5
37442.2
5
de "Y"
74.5
521.5
38851.7
5
84.5
422.5
35701.2
5
94.5
fx
fx x 0
12
17
378
35721
48
3116
212072
05
fx
x^2
490 2
25
75
fxy
5380.77
Correlacin= 0.695
i 1
i 1
n f x i y i fx x i * fy y i
j 1 i 1
2
l
k
k
n f x x fx x i n f y y i fy y i
i 1
i 1
i 1
i 1
2
i
0.695
decrece:
150
1698
100 2045
1348
50
1268
0
1000
47
15
100
120
1500
2000
o en forma matricial
Como
= H , siendo H = X
-1
y simtrica
. En base a
esto
= - = -H =
=
= X + -HX -H =
,
Donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,
.
i
(9.9)
que mide la distancia estadstica de i.a
. Un residuo grande indica que la observacin est lejos del modelo estimado y,
por tanto, la prediccin de esta observacin es mala. Las observaciones con
residuos grandes se denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y), normalmente se tipifican
(9.10)
Los residuos tipificados siguen una distribucin normal estndar, pero como
desconocido, se sustituye por su estimador, la varianza residual
los residuos estandarizados, definidos como
2
R
es
y se obtienen
(9.11)
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin
t con n-
R,
. Ahora se definen
grados de
> 2.
Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.
diferentes problemas:
observaciones
variables e
frente a las
frente a las
no lo estn.
El grfico de residuos
, permite deducir
variable influye en el modelo y por lo tanto se debe incluir como una nueva
variable regresora.
En la Figura 9.5. de residuos frente a una variable omitida
se observa que
existe una relacin lineal con esta variable y por tanto se mejora el ajuste si se
incluye la variable xomit.
variables
regresoras,
= +
*
i
Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (altura)
Figura 9.9. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)
Tipo 3.
Otro grfico parcial de inters que proporcionan algunos paquetes estadsticos
es el siguiente (se quiere calcular el grfico parcial respecto a x k):
Se calculan los modelos de regresin de las variables Y y x k respecto a las
restantes
variables regresoras,
El grfico de residuos
t=2
n-1
t=1
genera
ms suave.
x1 , y1 , x 2 , y 2 , ..., xn , y n
El modelo estadstico de regresin lineal simple es:
y i x i ei
Donde
y E (Y ) x
Es la respuesta promedio para cada x.
poblacin y
poblacin.
son parmetros
El modelo estadstico de regresin lineal simple asume que para cada valor
de x, los valores de la respuesta y son normales con media (que depende de x) y
desviacin estndar que no depende de x. Esta desviacin estndar es la
desviacin estndar de todos los valores de y en la poblacin para un mismo valor
de x.
Y ~ N ( y , )
donde
y E (Y ) x
a
b
ei
Donde
SCRes
y i
r
El coeficiente de correlacin muestra l
es un estimador puntual de la
correlacin poblacional
E (Y ) x
. Si
entonces las
E (Y) =
Ho:
H1:
<0
H1:
El estimador puntual de
es:
EE (b)
b0
~ t ( n 2)
EE (b)
Un intervalo de confianza (
2
b t1-n
[ EE (b)]
2
t1-n2
2
Donde
libertad.
Suponga que se rechaza al 5% la hiptesis nula del test t:
Ho:
=0
H1:
contiene el
cero?
1.8 APLICACIONES
La metodologa estadstica se emplea en muchos campos. Se ha visto que
la estadstica es una disciplina que ayuda a disear el esquema de bsqueda y
registro de informacin para describirla y analizarla con facilidad y mediante
estimaciones, obtener conclusiones que enriquecen el conocimiento de la realidad.
REFERENCIAS
David M. Levine, M. L. (2006). Estadstica para administracin. Pearson
Educacin.
ftp://ftp.utalca.cl/profesores/gicaza/.../10%20inferencia%20regresion
%20simple.doc. (s.f.).
http://www.conevyt.org.mx/bachillerato/material_bachilleres/cb6/5sempdf/edin
1/edin1_f1.pdf. (s.f.).
http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion
%20simple.pdf. (s.f.).
http://www.uaeh.edu.mx/docencia/VI_Lectura/licenciatura/documentos/LEC5.pdf
. (s.f.).
Lpez., B. S. (2016). http://www.ingenieriaindustrialonline.com. Licencia
Creative Commons Atribucin-NoComercial-CompartirIgual 3.0 Unported.
CONCLUSIN
GLOSARIO
A
Amplitud semi - intercuartil
til para eliminar algn valor extremo que pudiera distorsionar la representatividad de la
varianza............................................................................................................................... 22
C
Coeficiente de variacin
Para comparar la variabilidad de grupos con medias muy distintas.........................................22
D
Desviacin tpica
Permite medir la variabilidad usando aproximacin a las unidades originales.........................18
E
El coeficiente de determinacin en la regresin lineal simple
Es una medida de la bondad de ajuste de la rcta estimada a los datos reales.........................11
H
Heterocedasticidad
La varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar
mnimos cuadrados ponderados.......................................................................................... 37
homoscedasticidad........................................................................................................................... 7
En estadsticas se dice que un modelo predictivo presenta homocedasticidad cuando la
varianza del error de la variable endgena se mantiene a lo largo de las observaciones. En
otras palabras, la varianza de los errores es constante. Un modelo estadstico relaciona el
valor de una variable a predecir con el de otras.................................................................... 7
M
multicolinealidad............................................................................................................................. 37
Multicolinealidad
Etimolgicamente, por cierto, la palabra deriva de hetero (distinto) y el verbo griego
skedanime........................................................................................................................ 37
R
regresin linealsimple
Es un modelo ptimo para patrones de demanda con tendencia (creciente o decreciente).......3
S
supuesto de linealidad
Cuando la demanda presenta un comportamiento creciente o decreciente...............................3