Sunteți pe pagina 1din 26

1

INDICE

COMETENCIA ESPECÍFICA A DESARROLLAR ...................................................................................... 3


INTRODUCCIÓN ............................................................................................................................................. 4
INVESTIGACION CONCEPTUAL ................................................................................................................ 5
I. La regresión lineal simple .................................................................................................................. 5
II. Una definición formal de la R.S.L. .................................................................................................... 7
Se refiere a encontrar la línea recta que mejor se ajuste a los datos. El mejor ajuste puede definirse
de varias maneras. Quizá la más sencilla sea encontrar la línea recta para la cual las diferencias
entre los valores reales y los valores pronosticados a partir de la recta ajustada de regresión sean
tan pequeñas como sea posible. Sin embargo, como estas diferencias son positivas para algunas
observaciones y negativas para otras, en términos matemáticos se minimiza la suma de los
cuadrados de las diferencias. ........................................................................................................................ 7
III. El diagrama de dispersión ............................................................................................................. 8
El diagrama de dispersión es una gráfica en la que cada punto trazado representa un par de
valores observados por las variables independiente y dependiente. El valor de la variable
independiente X, se traza en relación con el eje horizontal y el valor de la variable dependiente Y,
en relación con el eje vertical. La naturaleza de la relación entre dos variables puede tomar muchas
formas, que van desde algunas funciones matemáticas sencillas a otras en extremo complicadas.
La relación más elemental consiste en una línea recta o relación lineal. ............................................... 8
IV. Tipos de modelo de dispersión. ................................................................................................... 8
............................................................................................................................................................................ 8
V. Determinación de la ecuación de R.L.S. ....................................................................................... 10
.......................................................................................................................................................................... 10
ÇÇÇ ................................................................................................................................................................. 10
VI. Interpretación de la pendiente del modelo. ............................................................................. 14
VII. Suposiciones en la R.L.S. ............................................................................................................ 14
XIV. Error estándar de estimación ...................................................................................................... 14
. ......................................................................................................................................................................... 15
XV. Inferencias en la R.L.S. ................................................................................................................. 15
XVI. Evaluación de la adecuación del modelo de regresión ....................................................... 20
XVII. El coeficiente de determinación ............................................................................................. 22
XXI. El análisis de correlación ............................................................................................................. 24
BIBLIOGRAFÍA y VIDEOS.......................................................................................................................... 26

2
COMETENCIA ESPECÍFICA A DESARROLLAR
Aplica, desarrolla y analiza las técnicas de regresión lineal simple para
hacer predicciones de sucesos futuros en el ramo empresarial.

3
INTRODUCCIÓN

En la práctica, es frecuente que se requiera resolver problemas que implican


conjuntos de variables de las cuales se sabe que tienen alguna relación inherente
entre sí. Por ejemplo, en una situación industrial quizá se sepa que el contenido de
alquitrán en la corriente de salida de un proceso químico está relacionado con la
temperatura en la entrada. Podría ser de interés desarrollar un método de
pronóstico, es decir, un procedimiento para estimar el contenido de alquitrán de
varios combustibles de la temperatura de entrada, a partir de información
experimental. Pero, por supuesto, es muy probable que para muchos ejemplos
concretos en los que la temperatura de entrada sea la misma, por ejemplo 130 ◦C,
el contenido de alquitrán a la salida no sea el mismo. Esto se parece mucho a lo
que ocurre cuando se estudian varios automóviles con el mismo volumen en su
motor. No todos recorrerán la misma distancia por unidad de gasolina. Si se
consideraran viviendas en la misma parte del país que tuvieran la misma superfi
cie habitable, no signifi caría que todas se venderían al mismo precio. El contenido
de alquitrán, las millas por unidad de gasolina (mpg), y el precio de las casas (en
miles de dólares) son variables dependientes naturales o respuestas en los tres
escenarios. La temperatura en la entrada, el volumen del motor (pies cúbicos) y
los pies cuadrados de área habitable son, respectivamente, variables
independientes naturales o regresores. Una forma razonable de relación entre la
respuesta Y y el regresor x es la relación lineal

Y = α + βx,

donde, por supuesto, α es la intersección y β es la pendiente

4
INVESTIGACION CONCEPTUAL
I. La regresión lineal simple

Antecedentes

El primero en desarrollar el análisis de regresión fue el científico inglés Sir. Francis


Galton (1822-1911). Sus primeros experimentos con regresión comenzaron con un
intento de analizar los patrones de crecimientos hereditarios de los guisantes.
Animado por los resultados. Sir Francis extendió su estudio para incluir los

5
patrones hereditarios en la estatura de las personas adultas. Descubrio que os
niños que tienen padres padres altos o bajos tendian a “regresar” a la estatura
promedio de la población adulta. Con ese modesto inicio el uso del análisis de
regresión se dio a conocer convirtiéndose en una de las herramientas estadísticas
más poderosas que se encuentran disponibles actualmente.

Mediciones univaribles, bivariables y multivariables en


estadística
Se debe diferenciar entre la regresión simple y la regresión múltiple. En la
regresión simple, se establece que Y es una función de solo una variable
independiente. Con frecuencia se le denomina regresión bivariada porque solo
hay dos variables, una dependiente y una independiente, y la regresión simple se
representa con la formula. En un modelo de regresión múltiple. Y es una función
de dos o más variables independientes. Un modelo de regresión con k variables
independientes se puede expresar así:

También es necesario hacer una distinción entre la regresión lineal y la regresión


curvilineal (no lineal). En modelo de regresión lineal, la relación entre X y Y
puede representarse por medio de una línea recta. Sostiene que a medida que X
cambia. Y cambia en cantidad constante. La regresión curvilineal utiliza una curva
para expresar la relación entre X y Y. Es habitual colocar la variable independiente
en el eje horizontal. La siguiente figura11.1 (a) sugiere una relación positiva y
lineal entre X y Y. Es positiva porque X y Y parecen moverse en la misma
dirección. A medida que X aumenta (disminuye).Y aumenta (disminuye).

Es lineal por que la relación puede identificarse mediante una línea recta que se
dibuje entre los puntos. La figura 11.1 (b) muestra una relación lineal y negativa
entre X y Y porque las dos variables parecen moverse en direcciones opuestas.
Las figuras 11.1 (c) y 11.1 (d) indican relaciones curvilineales. El patrón de los

6
puntos de dispersión no se describe bien con la línea recta, pero se define de
manera más exacta con la curva que proporciona un mejor ajuste. Finalmente, es
difícil observar toda relación entre X y Y en la figura 11.1 (c). La ausencia de todo
patrón detectable sugiere que no existe ninguna relación entre X y Y.

Relaciones lineales y curvilíneas. Si X y Y se relacionan en forma lineal, entonces


a medida que X cambia, Y cambia en una cantidad constante. Si existe una
relación curvilínea, Y cambiará en una cantidad diferente a medida que X cambia.

Mediciones univariables

Como se ha visto, los métodos de análisis univariable se utilizan para estudiar el


comportamiento de las variables de forma individual.

Mediciones bivariables

Los métodos de análisis bivariable se utilizan para estudiar las relaciones que hay
entre variables tomadas de dos en dos.

Mediciones multivariables

El análisis multivariante no es fácil de definir. En un sentido amplio, se refiere a


todos los métodos estadísticos que analizan simultáneamente medidas múltiples
de cada individuo u objeto sometido a investigación. Cualquier análisis simultáneo
de más de dos variables puede ser considerado aproximadamente como un
análisis multivariante.

II. Una definición formal de la R.S.L.


Se refiere a encontrar la línea recta que mejor se ajuste a los
datos. El mejor ajuste puede definirse de varias maneras. Quizá
la más sencilla sea encontrar la línea recta para la cual las
diferencias entre los valores reales y los valores pronosticados a
partir de la recta ajustada de regresión sean tan pequeñas como

7
sea posible. Sin embargo, como estas diferencias son positivas
para algunas observaciones y negativas para otras, en términos
matemáticos se minimiza la suma de los cuadrados de las
diferencias.
III. El diagrama de dispersión

El diagrama de dispersión es una gráfica en la que cada punto


trazado representa un par de valores observados por las
variables independiente y dependiente. El valor de la variable
independiente X, se traza en relación con el eje horizontal y el
valor de la variable dependiente Y, en relación con el eje vertical.
La naturaleza de la relación entre dos variables puede tomar
muchas formas, que van desde algunas funciones matemáticas
sencillas a otras en extremo complicadas. La relación más
elemental consiste en una línea recta o relación lineal.

IV. Tipos de modelo de dispersión.

8
 En la gráfica A se observa que los valores de Y, en general, aumentan en
forma lineal cuando se incrementa X.
 En la gráfica B es un ejemplo de una relación lineal negativa. Cuando crece
X, se observa que los valores de Y decrecen. Un ejemplo de este tipo de
relación puede ser el precio de un producto específico y la cantidad de
ventas.
 En la gráfica C se muestra un conjunto de datos en el que existe muy poca
o ninguna relación entre X y Y. Para cada valor de X aparecen valores
altos y bajos de Y.
 En la gráfica D muestran una relación curvilínea entre X y Y. Los valores de
Y aumentan cuando crece, pero el incremento disminuye para valores altos
de X . un ejemplo de esta relación curvilínea puede ser la edad y el costo
de mantenimiento de una máquina. Cuando la máquina tiene muchos años,
el costo de mantenimiento se eleva con rapidez al principio, pero después
de cierto número de años se nivela.
 En la grafica E muestra una relación parabólica o en forma de U entre X y
Y. Conforme X aumenta, al principio Y disminuye; pero si X aumenta más,
Y no sólo deja de disminuir sino que aumenta después de su valor mínimo.
Un ejemplo tipo de relación puede ser el número de errores por hora en una
tarea y número de horas trabajadas.
 Por ultimo en la gráfica F indica una relación exponencial o curvilínea
negativa entre X y Y. en este caso, Y disminuye con rapidez al principio del

9
incremento de X pero después, cuando X aumenta más, la velocidad de
disminución es mucho menor. Un ejemplo de esta relación exponencial
puede ser el valor de reventa de un tipo dado de automóvil y los años que
tiene. El primer año el valor baja en forma drástica respeto a su precio
original; sin embargo, la disminución es mucho más lenta en los años
subsecuentes.

V. Determinación de la ecuación de R.L.S.

ÇÇÇ

A la ecuación que describe la relación entre el valor esperado de y, que se denota


E(x), y x se le llama ecuación de regresión. La siguiente es la ecuación de regre-
sión para la regresión lineal simple.

La gráfica de la ecuación de regresión lineal simple es una línea recta: 𝛽0 es la


intersección de la recta de regresión con el eje y, 𝛽1 es la pendiente E(y) es la
media o valor esperado de y para un valor dado de x.

- Método de mínimos cuadrados

Se deben encontrar los valores de a y b, estimadores de α y β, de


manera que la suma de los cuadrados de los residuos sea
mínima. La suma residual de los cuadrados con frecuencia se
denomina suma de cuadrados de los errores respecto de la recta
de regresión, y se denota como SSE. Este procedimiento de
minimización para estimar los parámetros se llama método de los
mínimos cuadrados. Así, deben encontrarse a y b de modo que
se minimice
-

10
-

- Al diferenciar sse con respecto a a y b, se obtiene


-
-

- Al igualar a cero las derivadas parciales y reacomodar los


términos, obtenemos las ecuaciones siguientes (llamadas
ecuaciones normales).
-
-
-

- que se resuelven simultáneamente para obtener fórmulas de


cálculo para a y b.

- Determinación de los coeficientes b0 y b1

Se puede usar cálculos diferenciales para demostrar que los valores de b 0 y b1


que minimiza la expresión se pueden encontrar usando las ecuaciones (14.6) y
(14.7).

11
Donde

X¡=valor de la variable independiente en la observación ¡

Y¡= valor de la variable dependiente en la observación ¡

𝑥̅ = media de la variable independiente

𝑦̅= media de la variable dependiente

n=número total de observaciones

- Ajustes e interpretación de la recta.

La recta de regresión, tiene carácter de línea media, como ya se ha señalado con


anterioridad, tratando por lo tanto de resumir o sintetizar la información
suministrada por los datos.

Si tiene carácter de línea media (de promedio, en definitiva), deberá ir


acompañada siempre de una medida que nos hable de su representatividad, es
decir, de lo buena que es la recta, ya que el haber obtenido la mejor de todas no
da garantías de que sea buena.

Necesitamos, por tanto, una medida de dispersión, que tenga en cuenta la


dispersión de cada observación con respecto a la recta, es decir, lo alejado que se
encuentra cada punto de la recta.

12
Es decir, deberemos evaluar esas distancias verticales a la recta, es decir, los
errores o residuales.

Si las dispersiones son pequeñas, la recta será un buen representante de la nube


de puntos, o lo que es lo mismo, la bondad de ajuste del modelo será alta. Si la
dispersión es grande, la bondad de ajuste será baja.

Una forma de medir dicha bondad de ajuste es precisamente evaluando la suma


de los cuadrados de los errores. Por tanto, llamaremos Varianza residual a la
expresión:

Si la varianza residual es grande, el modelo será malo, es decir, la recta no


explicará el comportamiento general de la nube.

La fórmula práctica para el cálculo de la varianza residual, si el procedimiento de


ajuste es el de los mínimos cuadrados es la siguiente:

La cota máxima de la varianza residual es la varianza que tratamos de explicar


mediante el modelo de regresión, es decir, la varianza de la variable dependiente.
Por tanto, sin más que hacer relativa la varianza residual respecto de su máximo
valor, y multiplicando por 100, obtendremos el porcentaje de variaciones no
explicado por el modelo:

13
Ahora, ya es fácil obtener una media que nos indique el porcentaje de variaciones
controladas o explicadas mediante el modelo, que se conoce como Coeficiente de
Determinación, que denotaremos con R2. Su expresión en tantos por 1, será:

Como puede observarse, a partir de la expresión anterior: 0< R² <1. Por tanto:

Si R²=1, entonces no hay residuos, habrá una dependencia funcional. Cuanto más
se acerque dicho valor a la unidad, mayor poder explicativo tendrá el modelo de
regresión.

Si R²=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de


modo que o bien el modelo es inadecuado, o bien las variables son
independientes. Cuanto más cercano a 0 esté dicho valor, menor poder
explicativo.

VI. Interpretación de la pendiente del modelo.


VII. Suposiciones en la R.L.S.

VIII. Los valores de la variable independiente X son fijos, medidos sin


error.
IX. La variable Y es aleatoria
X. Para cada valor de X, existe una distribución normal de valores
de Y (subpoblaciones Y)
XI. Las variancias de las subpoblaciones Y son todas iguales.
XII. Todas las medias de las subpoblaciones de Y están sobre la
recta.
XIII. Los valores de Y están normalmente distribuidos y son
estadísticamente independientes.

XIV. Error estándar de estimación

El error estándar se calcula de la misma forma que la regresión simple.

14
En donde n-k-1 es el número de grados de libertad y k es el número de variables a
la derecha. El numerador bajo el radical de la formula (12.4) es la suma de los
errores elevada al cuadrado y se minimizará de acuerdo con el concepto de
mínimo cuadrados ordinarios. La pantalla 12.2 muestra una impresión en Minitab
de los valores reales para los pasajeros (Y1), el valor proyectado para los
pasajeros (𝑌̂), y el error (Y- 𝑌̂), y el error al cuadrado (Y- 𝑌̂)2. La suma de esta
última columna es la suma de los errores al cuadrado y se tiene que es 8.1016. El
error estándar entonces será:

XV. Inferencias en la R.L.S.


Además de tan solo estimar la relación lineal entre x y Y para
fines de predicción, el experimentador podría estar interesado en
hacer ciertas inferencias acerca de la pendiente y la intersección.
Debe estarse dispuesto a hacer la suposición adicional de que
cada ϵi, i = 1, 2, . . . , n, tiene distribución normal, con la finalidad
de permitir la prueba de hipótesis y la construcción de intervalos
de confianza sobre α y β. Esta suposición implica que Y1, Y2, . . .
, Yn también están distribuidas en forma normal, cada una con
una distribución de probabilidad n(yi; α + βxi, σ). Como A y B son
funciones lineales de variables normales independientes, del
teorema 7.11 se deduce que A y B tienen distribución normal con
distribuciones de probabilidad n(a; α, σA) y n(b; β, σA),
respectivamente.
Se ve que la suposición de normalidad, un resultado mucho más
análogo al dado en el teorema 8.4, permite concluir que (n − 2) S2/σ2 es
una variable chi-cuadrada con n − 2 grados de libertad, independiente
de la variable aleatoria B.
Entonces, el teorema 8.5 garantiza que el estadístico

15
tenga una distribución t con n − 2 grados de libertad . El
estadístico T se usa para construir un intervalo de confianza de (1
− α) 100% para el coeficiente β.

– error estándar de la estimación

El error estándar se calcula de la misma forma que la regresión simple.

En donde n-k-1 es el número de grados de libertad y k es el número de variables a


la derecha. El numerador bajo el radical de la formula (12.4) es la suma de los
errores elevada al cuadrado y se minimizará de acuerdo con el concepto de
mínimo cuadrados ordinarios. La pantalla 12.2 muestra una impresión en Minitab
de los valores reales para los pasajeros (Y1), el valor proyectado para los
pasajeros (𝑌̂), y el error (Y- 𝑌̂), y el error al cuadrado (Y- 𝑌̂)2. La suma de esta
última columna es la suma de los errores al cuadrado y se tiene que es 8.1016. El
error estándar entonces será:

Prueba “t” de independencia entre las variables (significación de


la regresión).
El modelo de regresión lineal simple es y = 𝛽 0 + 𝛽 1 x + ϵ. Si x y y están
relacionadas linealmente, Entonces 𝛽 1 ≠ 0. El objetivo de la prueba t es
determinar si se puede concluir que 𝛽 1 ≠0. Para probar la hipótesis siguiente
acerca del parámetro 𝛽 1 se emplearán los datos muestrales.
H0: 𝛽 1 =0

16
Ha ∶ 𝛽 1≠ 0

Si se rechaza H0, se concluirá que b1 0 y que entre las dos variables existe una
relación estadísticamente significante. La base para esta prueba de hipótesis la
proporcionan las propiedades de la distribución muestral de b1, el estimador de
𝛽1, obtenido mediante el método de mínimos cuadrados.
Primero, considérese que es lo que ocurriría si para el mismo estudio de regresión
se usara otra muestra aleatoria simple. Supóngase, por ejemplo, que Armand’s
Pizza Parlors usa una muestra de las ventas de otros 10 restaurantes. El análisis
de regresión de esta otra muestra dará como resultado una ecuación de regresión
parecida a la ecuación de regresión anterior 𝑌̂ = 60 + 5x. Sin embargo, no puede
esperarse que se obtenga exactamente la misma ecuación (una ecuación en la
que la intersección con el eje y sea exactamente 60 y la pendiente sea
exactamente 5). Los estimadores b0 y b1, obtenidos por el método de mínimos
cuadrados, son estadísticos muestrales que tienen su propia distribución muestral.
A continuación se presentan las propiedades de la distribución muestral de b1.

Obsérvese que el valor esperado de b1 es 𝛽1, por lo que b1 es un estimador


insesgado de 𝛽 1.
Como no se conoce el valor de σ, se obtiene una estimación de σ𝑏1 , que se
denota S𝑏1 , estimandoσ mediante s en la ecuación (14.17). De esta manera se
obtiene el estimador siguiente de σ𝑏1 .

17
- I. de C. para y pendiente y ordenada del
modelo)
- Para el intervalo de confianza de la pendiente β 1 se utiliza la
distribución t de student con n-2 grados de libertad ya que se
desconoce la varianza de la población 𝜎2𝛽 ; el estimador de
esta varianza se define por:

-
- Por lo tanto el estadístico de prueba se define como:

-
- En el intervalo de confianza de nivel 1-α estab dado por :

-
- Una prueba muy sensilla y util es la prueba de independencia
entre variables. Si la hipotesis nula H0: B1=0 es aceptada, Y

18
no depende linealmente de X, en caso contrario, se dice que
Y depende de X.

- I. de C. para la media y, x

A veces es conveniente estimar el valor medio o separado de Y para el un valor


dado de X, tal estimación se hace con el intervalo de confianza:

Al calcular los límites de confianza para los valores de medios, estos se obtiene
para cada valor de Xo; tales limites serán más estrechos a medida que se
aproximan a la medida de la variable independiente y más amplios a medida que
se alejan de ella, por esta razón se obtienen limites llamados bandas de confianza
dentro de las cuales queda comprendida la recta verdadera para un nivel de
significación a.

Para trazar las bandas de confianza se elegirán cuando menos 3 valores de X0


dos valores extremos y uno intermedio, y se harán las estimaciones por intervalo.
Estos intervalos se dibujan sobre los diagramas de dispersión uniendo todos los
puntos generados por los límites inferiores y por otro lado, todos los
correspondientes a los límites superiores.

- I. DE C. de predicción para una observación futura Yi


- Como las bandas de confianza se abren a medida que Xo se
aleja de la media X, resulta aventurado hacer predicciones
sobre Y para valores fuera de la escala de valores de X
empleada para establecer la ecuación de regresión de la
19
muestra. A menos de que este razonablemente seguro que
existe la misma función de regresión sobre un amplio rango
de valores de X, por haberse experimentado en una muestra,
se podrá usar valores de Xo alejados de la media X para
predecir valores de Y.
- Cuando se hacen predicciones, estas, más que ser sobre

valores medios de Y, son para valores individuales,

por lo tanto el error debido al azar (error de estimación


) es una fuente adicional de variación, por ello la varianza se
ve aumentada y el intervalo de confianza para un valor de

predicción es más amplio que el de

XVI. Evaluación de la adecuación del modelo de regresión


Los valores del error residual o estimado (ei) se definen como la
diferencia entre los valores observados (Yi) y los predichos (𝑌̂1 ) de
la variable dependiente para valores dados que Xi. por tanto
𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖
Podemos evaluar lo adecuado del modelo de regresión ajustado
mediante la graficacion de los residuos del eje vertical con
respecto a los correspondientes valores de Xi de la variable
independiente del eje horizontal. Si el modelo ajustado es
adecuado para los datos, no deberá aparecer ingun patrón
evidente en esta grafica de los residuos contra Xi. sin embargo, si
el modelo ajustado no es adecuado, habrá una relación entre los
valores de Xi y los residuos ei.
tal patrón puede observarse en la figura 17.8.

20
en la figura 17.8(a) se presenta una situación en la que existe una significativa
relación lineal simple entre X y Y. sin embargo, parece mas apropiado tener un
modelo curvilíneo entre las dos variables. Este efecto se resalta en la figura 17.8
(b), que es la grafica residual de ei contra Xi. aquí se tiene un efecto curvilíneo
obvio entre Xi y ei. al graficar los residuos hemos dejado fuera o eliminado la
tendencia lineal de X con Y, exponiendo, en consecuencia, la falta de ajuste en el
modelo lineal simple. Así pues, de (a) y (b) podemos llegar a concluir que el
modelo curvilíneo puede ser un mejor ajuste y deberia evaluarse en lugar del
modelo lineal simple.

los residuos estandarizados representan a cada residuo dividido


entre su error estándar. El residuo estandarizado se expresa de
la siguiente manera:
𝑒𝑖
𝑆𝑅𝑖 =
𝑆𝑌𝑋 √1 − ℎ𝑖

1 (𝑋𝑖 −𝑋̅)2
En la que ℎ𝑖 = 𝑛 + ∑𝑛 2 ̅2
𝑖=1 𝑋1 −𝑛𝑋

Los valores estandarizados nos permiten tomar en cuenta la magnitud


de los residuos en unidades que reflejen la variación estandarizada
alreedor de la línea de regresión. En la figura 17.9, los residuos
estandarizados fueron graficados en función de la variable
independiente (número de clientes). De esta podemos observar que, a
pesar de que existe una dispersión amplia en la grafica de residuos, no
existe un patrón evidente o a una relación entre los residuos
estandarizados y Xi. los residuos parecen estar equitativamente
distribuidos por arriba y por debajo de 0, para diferenciar valores de X .
así pues, podemos llegar a la conclusión, con respecto a los datos de la
tienda departamental, que el modelo ajustado parece ser adecuado.

21
- Análisis residual (gráfico y numérico)

El análisis residual es la herramienta principal para determinar si el modelo de


regresión empleado es apropiado.
Como ya se indicó, el residual de la observación i es la diferencia entre el valor observado de la
variable dependiente (yi) y el valor estimado de la variable dependiente (yˆ )

donde

y¡ es el valor observado de la variable dependiente

𝑦̂ es el valor estimado de la variable dependiente.

XVII. El coeficiente de determinación

La intensidad de una relación entre dos variables de una población por


lo general se mide mediante el coeficiente de correlación p, cuyos
valores van desde -1, correspondiente a una correlación perfectamente
negativa, hasta +1, correspondiente a una correlación perfectamente
positiva. En la figura 17.6 se ilustran estas tres diferentes clases de
asociación entre variables. En el panel A de esta figura presentamos
una relación lineal negativa prefecta entre X y Y, de modo que Y
disminuirá de una manera perfectamente predecible en la medida que X
aumenta. En el panel B se tiene un ejemplo en el que no hay relación

22
entre X y Y. a medida que X no se da ningún cambio en Y, de modo que
no hay ninguna asociación entre los valores de X y los de Y. por el
contrario, en el panel C se presenta una correlación perfectamente
positiva entre las dos variables. En este caso, Y aumenta de una
manera perfectamente predecible conforme se incrementa X.
Para problemas orientados a la regresión, el coeficiente de correlación
de muestra (r) puede obtenerse de la siguiente manera:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑆𝑆𝑅


𝑟2 = =
𝑠𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑆𝑆𝑇

De modo que
XVIII. 𝑟 = √𝑟 2

En casos de regresión lineal simple, r toma el signo de b1; si este es


positivo, r es positivo; si b1 es negativo, r es negativo; y si b1 es cero, r
es cero.
La regresión y la correlación son dos técnicas separadas: la regresión
tiene que ver con la predicción y la correlación con la asociación. En
muchas aplicaciones solamente nos interesa la medición de la
asociación entre variables, y no con el uso de una variable para predecir
otra.

Si únicamente se lleva a cabo un análisis de correlación de un conjunto


de datos, el coeficiente de correlación de muestra r, puede calcularse
directamente utilizando la siguiente fórmula:

∑𝑛 ̅ ̅
𝑖=1(𝑋1 −𝑋 )(𝑌1 −𝑌)
XIX. 𝑟=
√∑𝑛 ̅ 2 √∑𝑛
𝑖=1(𝑋1 −𝑋)
̅ 2
𝑖=1(𝑌1 −𝑌)

Alternativamente, con la fórmula del “calculador”:

23
∑𝑛 ̅̅
𝑖=1 𝑋1 𝑌1 −𝑛𝑋𝑌
XX. 𝑟=
√∑𝑛 2 ̅2 𝑛 2 ̅2
𝑖=1 𝑋1 −𝑛𝑋 √∑𝑖=1 𝑌1 −𝑛𝑌

XXI. El análisis de correlación

Al cociente de la variación explicada entre la variación total se le llama


coeficiente de determinación. Si hay cero variación explicada (es decir,
si la variación total es sólo variación no explicada), este cociente es 0. Si
hay 0 variación no explicada (es decir, si la variación total es sólo
variación explicada), este cociente es 1. En los demás casos, este
cociente se encuentra entre 0 y 1; como siempre es no negativo, se
denota r2. A la cantidad r se le llama coeficiente de correlación; está
dado por

y varía entre −1 y +1. Los signos + y − se usan para correlación lineal


positiva y correlación lineal negativa, respectivamente.
Obsérvese que r es una cantidad adimensional; es decir, no depende de
las unidades que se empleen.
Utilizando las ecuaciones (8) y (11) y el hecho de que la desviación
estándar de Y es

se encuentra que la ecuación (12) puede expresarse, sin hacer caso del
signo, como

Si se intercambian X y Y se obtienen ecuaciones similares.

24
En el caso de la correlación lineal, la cantidad r es la misma, ya sea que
se considere a X o a Y como la variable independiente. Por lo tanto r es
una muy buena medida de la correlación lineal entre dos variables.

25
BIBLIOGRAFÍA.

file:///G:/BOCOS%205to%20SEM/4%20Libros%20de%20
Dise%C3%B1o%20de%20experimentos%20(MG-
5)/Estadistica%20para%20admin.%20y%20economia%20
-%20Anderson%2010%20th.pdf

file:///G:/BOCOS%205to%20SEM/4%20Libros%20de%20
Dise%C3%B1o%20de%20experimentos%20(MG-
5)/ESTADISTICA%20INFERENCIAL%20II%20-
%20LIBRO%20DEL%20CURSO%20Ing.%20Ind..pdf

file:///G:/BOCOS%205to%20SEM/4%20Libros%20de%20
Dise%C3%B1o%20de%20experimentos%20(MG-
5)/Probabilidad%20y%20Estadistica%20para%20ing.%20
-%20Walpole%208%C2%AA%20ed.pdf

VIDEOS
https://youtu.be/z2Ev6JmMrA (Regresión lineal simple)

https://youtu.be/p747mbpgB8U (Introducción 1-
Regresión lineal simpe y multiple)

26