Sunteți pe pagina 1din 35

Mapa conceptual

Estadística Descriptiva Teoría de las probabilidades

Muestreo - Inferencia Estadística


Análisis Bivariado
Variables
Cuantitativas Cualitativas
Regresión y Correlación Prueba de Homogeneidad e
Independencia
Análisis de
Regresión y Correlación
Introducción

En general uno desea conocer la relación existente entre las


variables y cuantificarla.
Debemos registrar la información de las variables sobre la
misma unidad de observación.
X Y
X1 Y1
… …
Xn Yn

La representación gráfica es eficaz para obtener una


información intuitiva sobre la relación entre variables.

Diagrama de Dispersión: Es un gráfico que muestra la


intensidad y el sentido de la relación entre dos variables de
interés.
Diagrama de dispersión

Los diagramas de dispersión no sólo muestran la


relación existente entre variables, sino también resaltan
las observaciones individuales que se desvían de la
relación general. Estas observaciones son conocidas
como outliers o valores inusitados, que son puntos de
los datos que aparecen separados del resto.
Técnicas a aplicar

• Análisis de Correlación: Un grupo de


técnicas estadísticas usadas para medir la
intensidad de la relación entre dos
variables
• Análisis de Regresión: Es un
procedimiento estadístico que estudia la
relación funcional entre variables. Con el
objeto de predecir una en función de la/s
otra/s.
Conceptos básicos

• Variable dependiente (Y): es la variable que se desea


predecir o estimar (cuantitativa)
• Variables independientes (Xi ). Son las variables que
proveen las bases para estimar.
• Regresión simple: interviene una sola variable
independiente
• Regresión múltiple: intervienen dos o más variables
independientes.
• Regresión lineal: la función es una combinación lineal
de los parámetros.
• Regresión no lineal: la función que relaciona los
parámetros no es una combinación lineal
Coeficiente de correlación lineal

• Coeficiente de Correlación () requiere variables


medidas en escala de intervalos o de proporciones
· Varía entre -1.00 y 1.00.
· Valores de -1.00 o 1.00 indican correlación
perfecta.
· Valor igual a 0.0 indica ausencia de correlación.
· Valores negativos indican una relación lineal
inversa y valores positivos indican una relación
lineal directa
Posibles situaciones
Coeficiente de correlación muestral (r) Pearson

Covariancia ( xy )
r
Var( x) *Var( y )

 (x i  x ) ( yi  y )
r i 1
n n

 (x
i 1
i  x ) *  (y i  y )
2

i 1
2
Ejemplo

• Un negocio de ventas por internet de artículos para computadoras personales, software y hardware,
tiene un almacén centralizado para la distribución de los productos que se le ordenan. La administración
examina el proceso de distribución desde el almacén y está interesado en estudiar los factores que
afecten los costos de distribución. En la actualidad, se agrega un pequeño cargo por envío
independiente del monto de la orden. Se recolectan datos durante los últimos 24 meses que indican los
costos de distribución y el número de órdenes recibidas. Los resultados son los siguientes
Mes Costo de Distribución Cantidad de ordenes
1 529500 4015
2 716600 3806
3 855800 5308
4 636900 4262
5 728100 4269
6 684400 4097
7 524600 3213
8 707700 4809 7000
9 820300 5237
6000
10 743900 4732

Costo de Distribución
11 708400 4413 5000
12 540800 2291
4000
13 629800 3977
14 723000 4428 3000
15 589900 3964
2000
16 793800 4582
17 944400 5582 1000
18 597400 3450
0
19 905000 5079
0 200000 400000 600000 800000 1000000
20 932400 5735
Cantidad de ordenes
21 693300 4269
22 537100 3708
23 891800 5387
24 668000 4161 Coeficiente de correlación= 0,89140076
Correlaciones espurias
Modelo de Regresión

Un modelo de regresión, es una manera de


expresar dos ingredientes esenciales de una
relación estadística:
• Una tendencia de la variable dependiente Y
a variar conjuntamente con la variación de
la o las X de una manera sistemática
• Una dispersión de las observaciones
alrededor de la curva de relación
estadística
Modelo de Regresión

Estas dos características están implícitas en


un modelo de regresión, postulando que:
• En la población de observaciones
asociadas con el proceso que fue
muestreado, hay una distribución de
probabilidades de Y para cada nivel de X.
• Las medias de estas distribuciones varían
de manera sistemática al variar X.
Representación gráfica del modelo de Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades


de Y para distintos valores de X
Análisis de Regresión

• Objetivo: determinar la ecuación de regresión


para predecir los valores de la variable
dependiente (Y) en base a la variable
independiente (X).
• Procedimiento: seleccionar una muestra a
partir de la población, listar pares de datos
para cada observación; dibujar un diagrama de
puntos para dar una imagen visual de la
relación; determinar la ecuación de regresión.
Proceso de estimación de la regresión lineal simple

Modelo de regresión Datos de la muestra


x y
yi=0+1xi+ x1 y1
Ecuación de regresión x2 y2
E(yi)=0+1xi . .
. .
Parámetros desconocidos
. .
0.1 xn yn

Ecuación estimada de
b0 y b1 regresión
yi=b0+b1xi
proporcionan estimados Estadísticos de la muestra
0 y 1 b0.b1
Gráficamente

1000000

900000

800000

700000
Costo de Distribución

600000

500000

400000

300000

200000

100000

0
0 1000 2000 3000 4000 5000 6000 7000
Cantidad de ordenes
Método de Mínimos Cuadrados

• Considera la desviación de yi con respecto a su


valor esperado: yi – (0 + 1·xi)
• Se considera la suma de n desviaciones elevadas al
cuadrado. Este criterio se denota como:
n
Q   Yi   0   1  X i 
2

i 1

• Los estimadores de 0 y 1 son b0 y b1 que se


obtienen minimizando las ecuaciones normales
 Yi  n  b0  b1   X i

 X iYi  b0   X i  b1   X i
2
Estimación de la ecuación de Regresión

• ŷi = b0 + b1xi, donde:


• ŷi es el valor estimado de y para distintos x.
• b0 es la intersección o el valor estimado de y
cuando x=0
• b1 es la pendiente de la línea, o el cambio promedio
de y para cada cambio en una unidad de x
• el principio de mínimos cuadrados es usado para
obtener b0 y b1 :
n( xy )  ( x)( y )
b1 
n( x 2 )  ( x ) 2

b0   y b x
1
n n
Analiticamente

1000000

900000

800000

700000
Costo de Distribución

600000

500000

400000

300000

200000

100000

0
0 1000 2000 3000 4000 5000 6000 7000
Cantidad de ordenes
Interpretación gráfica de coeficientes de regresión

1000000

y = 144,01x + 83955
900000

800000

700000

144,01
Costo de Distribución

600000

Aumenta 1
500000 unidad

400000

300000

200000

100000

83955
0
0 1000 2000 3000 4000 5000 6000 7000
Cantidad de ordenes
Modelo de Regresión

Un modelo de regresión, es una manera de


expresar dos ingredientes esenciales de una
relación estadística:
• Una tendencia de la variable dependiente Y
a variar conjuntamente con la variación de
la o las X de una manera sistemática
• Una dispersión de las observaciones
alrededor de la curva de relación
estadística
Estimación de la variancia de los términos del error (2)

Debe ser estimada por varios motivos


• Para tener una indicación de la variabilidad
de las distribuciones de probabilidad de Y.
• Para realizar inferencias con respecto a la
función de regresión y la predicción de Y.
• La lógica del desarrollo de un estimador de
2 para el modelo de regresión es la misma
que cuando se muestrea una sola población
• La variancia de cada observación Yi es 2, la
misma que la de cada término del error
Estimación de la variancia de los términos del error (2)

Dado que los Yi provienen de diferentes distribuciones de


probabilidades con medias diferentes que dependen del
nivel de X, la desviación de una observación Yi debe ser
calculada con respecto a su propia media estimada Yˆi
Por tanto, las desviaciones son los residuales

Yi - Ŷi = e i
Y la suma de cuadrados es:
n n n
SCe   (Yi  Yˆi ) 2   (Yi  b0  b1 X 1 ) 2   ei2
i 1 i 1 i 1
Estimación de la variancia de los términos del error (2)

La suma de cuadrados del error, tiene n-(k+1)


grados de libertad asociados con ella, ya que se
tuvieron que estimar k parámetros.
Por lo tanto, las desviaciones al cuadrado dividido
por los grados de libertad, se denomina cuadrados
medios n 2

SCe
e
CM e   i 1 i
n  (k  1) n  (k  1)
Donde CM es el Cuadrado medio del error o
cuadrado medio residual. Es un estimador
insesgado de 2
Análisis de Variancia en el análisis de regresión

• El enfoque desde el análisis de variancia se basa


en la partición de sumas de cuadrados y grados
de libertad asociados con la variable respuesta Y.
• La variación de los Yi se mide convencionalmente
en términos de las desviaciones
(Yi  Yi )
• La medida de la variación total SCtot, es la suma
de las desviaciones al cuadrado
 (Y  Y )
2
i i
Variación Total
Desarrollo formal de la partición

Consideremos la desviación
(Yi  Yi )
Podemos descomponerla en

Y  Y   (Ŷ  Y)  (Y  Ŷ )
i i i i
T R E
(T): desviación total
(R): es la desviación del valor ajustado por la
regresión con respecto a la media general
(E): es la desviación de la observación con respecto a
la línea de regresión
Partición de la variación total
Desarrollo formal de la partición

Si consideremos todas las observaciones y elevamos al


cuadrado para que los desvíos no se anulen

 Y  Y    (Ŷ  Y)   (Y  Ŷ )
2 2 2

i i i i

SCtot SCreg SCer


(SCtot): Suma de cuadrados total
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se
obtienen los cuadrados medios del análisis de variancia.
Prueba de Hipótesis Global

• La prueba global es usada para investigar


si la combinación lineal de variables
independientes es significativa.
• Las hipótesis son :
H0: 1  2  3 ...  k  0
Ha : Al menos un coeficiente de regresión
es distinto de cero.
La distribución estadística F es usada en esta prueba
,con k (número de variables independientes) y n-(k+1)
grados de libertad , donde n es el tamaño de muestra.
Prueba de Hipótesis Parciales

• La prueba “t” de Student es utilizada para


determinar cual variable independiente tiene
coeficientes de de regresión distinto de cero. Son
llamadas pruebas parciales.
• Las variables con coeficiente de regresión cero son
eliminadas.
• La estadística “t” se utiliza en este caso con n -
(k+1) grados de libertad.
Coeficiente de Determinación

• Coeficiente de Determinación, R2 - es la proporción


de la variación total en la variable dependiente Y
que es explicada o contabilizada por la variación en
la variable independiente X.
· El coeficiente de determinación es cuadrado del
coeficiente de correlación, y varia entre 0 y 1.
Para calcular el R2 se utilizó la siguiente fórmula:

R 2
  ( yˆ c  y) 2

(y o  y) 2
Salida de Excel de la regresión

Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,891400758
Coeficiente de determinación R^2 0,794595312
R^2 ajustado 0,785258735
Error típico 59916,90498
Observaciones 24

ANÁLISIS DE VARIANZA Prueba Global


Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 3,05532E+11 3,05532E+11 85,10563707 5,12705E-09
Residuos 22 78980781055 3590035502
Total 23 3,84513E+11

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


Intercepción 83954,5261 69234,93405 1,21260354 0,23814267 -59629,93897 227538,9912
Cantidad de ordenes 144,0051098 15,60985033 9,225271653 5,12705E-09 111,6322616 176,377958

Prueba Parcial I.C.

S-ar putea să vă placă și