Analisis de Correlacionn

Dos medidas que Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el
describen la correla- coeficiente de determinación y el coeficiente de correlación. Presentar estas dos medidas de asocia-
ción ción es el objetivo de esta sección.
El coeficiente de determinación
Desarrollo del coefi- El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de
ciente de determina- la asociación que existe entre dos variables, X y Y. Debido a que usamos una muestra de puntos pa-
ción muestral ra desarrollar rectas de regresión, nos referimos a esta medida como el coeficiente de determinación
muestral.
El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación: la
variación de los valores Y en un conjunto de datos alrededor de
1. la recta de regresión ajustada;
2. su propia media.
El término variación en estos dos casos se utiliza en su sentido estadístico usual para expresar “la
suma de los cuadrados de un grupo de desviaciones”. Usando esta definición, entonces, es razona-
ble expresar la variación de los valores Y alrededor de la recta de regresión con esta ecuación:
Variación de los valores de Y alrededor de la recta de regresión
Variación de los valores de Y alrededor de la recta de regresión (Y Ŷ)2 [12-8]
La segunda variación, la de los valores de Y alrededor de su propia media, está determinada por:
Variación de los valores de Y alrededor de su propia media
Variación de los valores de Y alrededor de su propia media (Y

Y)2 [12-9]
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación muestral, que se
denota por r 2:
Coeficiente de determinación muestral
(Y Ŷ )2
r 1 2
2
[12-10]
(Y Y )
Las siguientes dos secciones mostrarán que r 2, según la definición de la ecuación 12-10, es una me-
dida del grado de asociación lineal entre X y Y.
Una interpretación intuitiva de r 2

Considere las dos formas extremas en las que las variables X y Y pueden relacionarse. En la tabla
12-13, cada valor observado de Y cae en la línea de estimación, como puede verse en la figura 12-13.
Ésta es una correlación perfecta.
Ecuación de estima- La ecuación de estimación apropiada para estos datos es fácil de determinar. Dado que la recta de
ción apropiada para regresión pasa por el origen, sabemos que la ordenada Y es cero; como Y se incrementa en 4 cada
un ejemplo de corre- vez que X se incrementa en 1, la pendiente debe ser igual a 4. Por tanto, la recta de regresión es:
lación perfecta
Ŷ 4X
536 Capítulo 12 Regresión simple y correlación
Tabla 12-13 Punto de datos Valor de X Valor de Y
Ilustración de una corre- 1st 1 4

lación perfecta entre dos 2nd 2 8
variables, X y Y 3rd 3 12
4th 4 16
5th 5 20
144
6th 6 24 Y 18 ← Media de los valores de Y
8
7th 7 28
8th 8 032
Y 144
32
28 ^
Y = 4X
24
20
Y = 18
16
12
FIGURA 12-13
Correlación perfec- 8
ta entre X y Y:
4
todos los puntos
caen en la recta 0 X
de regresión 0 1 2 3 4 5 6 7 8
Desarrollo del coefi- Ahora, para establecer el coeficiente de determinación de la muestra para la recta de regresión de
ciente de determina- la figura 12-13, primero calculamos el numerador de la fracción en la ecuación 12-10:
ción de la muestra pa-
ra el ejemplo de una Variación de los valores de Y alrededor de la recta de regresión (Y Ŷ)2 [12-8]
correlación perfecta
(0)2
0
Como cada valor de Y está sobre
la recta de regresión, la diferencia
entre Y y Ŷ es cero en cada caso
Entonces podemos encontrar el denominador de la fracción:

Variación de los valores de Y alrededor
de su propia media (Y Y)2 [12-9]
(14 18) (14) 196
2 2
(18 18)2 (10)2 100

(12 18)2 (16)2 136
(16 18)2 (12)2 194
(20 18)2 (12)2 194
(24 18)2 (16)2 136
(28 18)2 (10)2 100
(32 18)2 (14)2 196

672 ← (Y – Y )2
12.3 Análisis de correlación 537

Tabla 12-14 Dato puntual Valor de X Valor de Y
Ilustración de la corre- 1° 1 6
lación cero entre dos 2° 1 12
variables, X y Y 3° 3 6
4° 3 12
5° 5 6
6° 5 12
7° 7 6
8° 7 12
Y 72
72
Y
8
9← Media de los valores de Y
12
10
8 ^
Y=9
6 Y=9
FIGURA 12-14
Correlación cero 4
entre X y Y: los
mismos valores 2
de Y aparecen
para distintos valo- X
res de X 1 2 3 4 5 6 7 8
Al sustituir estos valores en la ecuación 12-10, podemos encontrar que el coeficiente de determina-
ción de la muestra es igual a 1:
(Y Ŷ)2
r 2 1 [12-10]
(Y Y)2
0
1
672
10
1 ← Coeficiente de determinación de la
muestra cuando hay una correlación perfecta
De hecho, r es igual a l siempre que la recta de regresión sea un estimador perfecto.

2
Una segunda forma extrema en que las variables X y Y pueden relacionarse es aquella donde los
puntos podrían caer a distancias iguales en ambos lados de una línea de regresión horizontal, como se
ve en la figura 12-14. Este conjunto de datos consiste en los ocho puntos registrados en la tabla 12-14.
En la figura 12-14, podemos ver que la recta de regresión de mínimos cuadrados apropiada para
estos datos está dada por la ecuación Ŷ 9. La pendiente de la recta es cero, porque los mismos va-
lores de Y aparecen para todos los valores de X. Tanto la ordenada Y como la media de los valores de
Y son iguales a 9.
Cálculo del coeficiente Ahora calcularemos las dos variaciones usando las ecuaciones 12-8 y 12-9, para poder calcular
de determinación de el coeficiente de determinación de la muestra para esta recta de regresión. Primero calculamos la va-
la muestra para la riación de los valores de Y alrededor de la línea de estimación Ŷ 9:
correlación cero

de la recta de regresión (Y Ŷ)2 [12-8]
(16 9)2 (3)2 9
(12 9)2 (3)2 9
(16 9)2 (3)2 9
(12 9)2 (3)2 9
(16 9)2 (3)2 9
(12 9)2 (3)2 9
(16 9)2 (3)2 9
(12 9)2 (3)2 9
← (Y Ŷ )2
72
de su propia media (Y Ŷ)2 [12-9]
(16 9) (3) 9
2 2
(12 9)2 (3)2 9

(16 9)2 (3)2 9
(12 9)2 (3)2 9
(16 9)2 (3)2 9
(12 9)2 (3)2 9
(16 9)2 (3)2 9
(12 9)2 (3)2 9

72 ← (Y Y )2
Sustituyendo estos dos valores en la ecuación 12-10, vemos que el coeficiente de determinación de
la muestra es 0:
(Y Ŷ)2
r2 1 [12-10]
(Y Y)2
72
1
72
11
0 ← coeficiente de determinación de la
muestra cuando no hay correlación
Por tanto, el valor de r 2 es cero cuando no hay correlación.

Interpretación de En los problemas con que se topa la mayoría de los responsables de la toma de decisiones, r 2 cae-
los valores r 2 rá en alguna parte entre estos dos extremos de 1 y 0. Recuerde, no obstante, que r 2 cercana a 1 indica
una fuerte correlación entre X y Y, mientras que r 2 cercana a 0 significa que existe poca correlación
entre estas dos variables.
Un punto que debemos resaltar es que r 2 mide sólo la fuerza de una relación lineal entre dos
variables. Por ejemplo, si tuviéramos muchos puntos X y Y, y todos cayeran en la circunferencia de
un círculo, aunque dispersos aleatoriamente, claramente habría una relación entre estos puntos (to-
dos están en el mismo círculo). Pero en este caso, si calculáramos r 2, resultaría estar cerca de cero,
porque los puntos no tienen una relación lineal entre ellos.
Otra interpretación de r 2
Otra forma de inter- Los estadísticos también interpretan el coeficiente de determinación de la muestra viendo la canti-
pretar el coeficiente dad de la variación en Y que se explica por la recta de regresión. Para entender este significado de
de determinación de r 2, consideremos la recta de regresión de la figura 12-15. Aquí, separamos un valor observado de Y,
la muestra
mostrado como el círculo negro superior. Si usamos la media de los valores de Y, Y, para estimar este

Desviación explicada valor de Y, del círculo negro, entonces la desviación total de esta Y lejos de su media sería (Y Y ).
y no explicada
Observe que si usamos la recta de regresión para estimar este valor de Y del círculo negro, obtendríamos
una mejor estimación. Sin embargo, aun cuando la recta de regresión justifica, o explica (Ŷ Y) de
la desviación total, la porción restante de la desviación total (Y Ŷ) sigue sin explicarse.
Pero consideremos un conjunto completo de valores Y observados en vez de un solo valor. La va-
riación total, esto es, la suma de los cuadrados de las desviaciones totales, de estos puntos alrededor
de su media sería:
(Y Y)2 [12-9]
Variación explicada y la porción explicada de la variación total, o la suma de los cuadrados de las desviaciones explica-
y no explicada das de estos puntos alrededor de su media, sería:
(Ŷ Y)2
La porción no explicada de la variación total (la suma de los cuadrados de las desviaciones no ex-
plicadas) de estos puntos respecto a su recta de regresión sería:
(Y Ŷ)2 [12-8]
Si deseamos expresar la fracción de la variación total que queda no explicada, dividiríamos la varia-
ción no explicada, (Y Ŷ)2, entre la variación total, (Y Y)2, de la siguiente manera:
(Y Ŷ)2
2 ← Fracción de la variación total no explicada
(Y Y)
y, finalmente, si restamos de 1 la fracción de la variación total que sigue no explicada, tendremos la
fórmula para encontrar la fracción de la variación total de Y que es explicada por la recta de regre-
sión. Esa fórmula es:
(Y Ŷ)2
r2 1 2 [12-10]
(Y Y)
la misma ecuación que usamos para calcular r2. Es en este sentido que r2 mide qué tan bien X expli-
ca Y, esto es, el grado de asociación entre X y Y.
Método abreviado Una observación final respecto al cálculo de r2. Para obtener r2 usando las ecuaciones 12-8, 12-9
para calcular r2 y 12-10, se requiere una serie de cálculos tediosos; para evitarlos, los estadísticos han desarrollado
una versión abreviada, usando valores que habríamos determinado de antemano en el análisis de re-
gresión. La fórmula es:
Método abreviado para obtener el coeficiente de determinación de la muestra

aY bXY nY
2
r 2 calculada por el método corto ⎯⎯→ r2 [12-11]
Y 2 nY
2
Y
Un valor observado de la variable
dependiente (Y )
Desviación no explicada
de esta Y, de su media Y
Desviación total de esta (Y – Y^ )
Y de su media Y
(Y – Y ) ^
(Y )
r e sión Desviación explicada de
FIGURA 12-15 re g esta Y, de su media Y
a de
Líne (Y^ – Y )
Desviación total, Y
desviación expli-
Valor estimado de esta Y
cada y desviación ^
por la recta de regresión (Y )
no explicada para
un valor observado
de Y X

Tabla 12-15 Ganacia
Año Gastos de anual
Cálculo de los datos (n 6) ID (X) (Y) XY X2 Y2
para la ecuación 12-11
(1) (2) (3) (2) (3) (2)2 (3)2
1995 5 31 155 25 961

1994 11 40 440 121 1,600
1993 4 30 120 16 900
1992 5 34 170 25 1,156
1991 3 25 75 9 625
1990 02 020 0,040 004 0 ,400
X 30 Y 180 XY 1,000 X 2 200 Y 2 5,642
180
Y
6
30 ← Media de los valores de la variable dependiente
donde,
• r coeficiente de determinación de la muestra

2
• a ordenada Y
• b pendiente de la línea de estimación de mejor ajuste
• n número de puntos de datos
• X valores de la variable independiente
• Y valores de la variable dependiente
• Y media de los valores observados de la variable dependiente
Aplicación del Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión que re-
método abreviado laciona los gastos de investigación y desarrollo con las ganancias. En la tabla 12-15, repetimos las
columnas de la tabla 12-9, añadiendo una columna Y 2. Recuerde que cuando encontramos los valo-
res para a y b, la recta de regresión para este problema era:
Ŷ 20 2X
Usando esta recta y la información de la tabla 12-15, podemos calcular r 2 de la siguiente manera:
aY bXY nY 2

r2 [12-11]
Y2 nY2
(20)(180) (2)(1,000) (6)(30)2

5,642 (6)(30)2
3,600 2,000 5,400

5,642 5,400
200

242
0.826 ← Coeficiente de determinación de la muestra
Interpretación de r 2 Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable inde-
pendiente X) explica el 82.6% de la variación en las ganancias anuales (la variable dependiente Y).

El coeficiente de correlación
Coeficiente de corre- El coeficiente de correlación es la segunda medida que podemos usar para describir qué tan bien ex-
lación de la muestra plica una variable a otra. Cuando tratamos con muestras, el coeficiente de correlación de la muestra
se denota por r y es la raíz cuadrada del coeficiente de determinación de muestra:
Coeficiente de correlación de la muestra
r r2 [12-12]
Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva, pero si

b es negativa, r es la raíz cuadrada negativa. Entonces, el signo de r indica la dirección de la rela-
ción entre las dos variables X y Y. Si existe una relación inversa —esto es, si Y disminuye al au-
mentar X—, entonces r caerá entre 0 y 1. De manera similar, si existe una relación directa (si Y
aumenta al aumentar X), entonces r será un valor en el intervalo de 0 a 1. La figura 12-16 ilustra es-
tas características de r.
Interpretación de r El coeficiente de correlación es más difícil de interpretar que r2. ¿Qué significa r 0.9? Para res-
ponder esta pregunta, debemos recordar que r 0.9 es lo mismo que r2 0.81. Esto último nos dice
que el 81% de la variación en Y es explicada por la recta de regresión. De esta forma, vemos que r
es sólo la raíz cuadrada de r2, y su significado es qué tanto se relacionan las variables x y y. Por lo
que r 0.9 significa que el 90% de los datos se relacionan entre sí.
Cálculo de r para el Ahora encontremos el coeficiente de correlación del problema que relaciona gastos de investiga-
problema de investi- ción y desarrollo con ganancias anuales. En la sección anterior, encontramos que el coeficiente de
gación y desarrollo determinación de la muestra es r2 0.826, de manera que podemos sustituir este valor en la ecua-
ción 12-12 y encontrar que
r r2 [12-12]
0.8
26
0.909 ← Coeficiente de correlación de la muestra
La relación entre las dos variables es directa y la pendiente es positiva; por tanto, el signo de r es po-
sitivo.
(a) r 2 = 1 y r = 1 (b) r 2 = 1 y r = –1
Y Y
La pendiente es positiva
La pendiente es negativa
X X
(c) r 2 = 0.81 y r = 0.9 (d) r 2 = 0.81 y r = – 0.9 (e) r 2 = 0 y r = 0

Y Y Y
La pendiente es positiva La pendiente es negativa Pendiente = 0

FIGURA 12-16
Y=Y
Varias caracterís-
ticas de r, el coefi-
ciente de correla-
ción de la muestra X X X

Analisis de Correlacionn

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Correlacionn

Încărcat de

Drepturi de autor:

Formate disponibile

Dos medidas que Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el

Variación de los valores de Y alrededor de la recta de regresión

Variación de los valores de Y alrededor de la recta de regresión (Y  Ŷ)2 [12-8]

Variación de los valores de Y alrededor de su propia media

Variación de los valores de Y alrededor de su propia media (Y 

Coeficiente de determinación muestral

Una interpretación intuitiva de r 2

Ilustración de una corre- 1st 1 4

Entonces podemos encontrar el denominador de la fracción:

(18  18)2 (10)2 100

12.3 Análisis de correlación 537

De hecho, r es igual a l siempre que la recta de regresión sea un estimador perfecto.

538 Capítulo 12 Regresión simple y correlación

(12  9)2 (3)2 9

Por tanto, el valor de r 2 es cero cuando no hay correlación.

12.3 Análisis de correlación 539

Método abreviado para obtener el coeficiente de determinación de la muestra

540 Capítulo 12 Regresión simple y correlación

1995 5 31 155 25 961

• r coeficiente de determinación de la muestra

aY bXY  nY 2

(20)(180) (2)(1,000)  (6)(30)2

3,600 2,000  5,400

12.3 Análisis de correlación 541

Coeficiente de correlación de la muestra

Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva, pero si

(c) r 2 = 0.81 y r = 0.9 (d) r 2 = 0.81 y r = – 0.9 (e) r 2 = 0 y r = 0

La pendiente es positiva La pendiente es negativa Pendiente = 0

542 Capítulo 12 Regresión simple y correlación

S-ar putea să vă placă și

Variación de los valores de Y alrededor de la recta de regresión (Y Ŷ)2 [12-8]

Variación de los valores de Y alrededor de su propia media (Y

(18 18)2 (10)2 100

(12 9)2 (3)2 9

aY bXY nY 2

(20)(180) (2)(1,000) (6)(30)2

3,600 2,000 5,400