Documente Academic
Documente Profesional
Documente Cultură
describen la correla- coeficiente de determinación y el coeficiente de correlación. Presentar estas dos medidas de asocia-
ción ción es el objetivo de esta sección.
El coeficiente de determinación
Desarrollo del coefi- El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de
ciente de determina- la asociación que existe entre dos variables, X y Y. Debido a que usamos una muestra de puntos pa-
ción muestral ra desarrollar rectas de regresión, nos referimos a esta medida como el coeficiente de determinación
muestral.
El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación: la
variación de los valores Y en un conjunto de datos alrededor de
1. la recta de regresión ajustada;
2. su propia media.
El término variación en estos dos casos se utiliza en su sentido estadístico usual para expresar “la
suma de los cuadrados de un grupo de desviaciones”. Usando esta definición, entonces, es razona-
ble expresar la variación de los valores Y alrededor de la recta de regresión con esta ecuación:
La segunda variación, la de los valores de Y alrededor de su propia media, está determinada por:
Uno menos la razón entre estas dos variaciones es el coeficiente de determinación muestral, que se
denota por r 2:
(Y Ŷ )2
r 1 2
2
[12-10]
(Y Y )
Las siguientes dos secciones mostrarán que r 2, según la definición de la ecuación 12-10, es una me-
dida del grado de asociación lineal entre X y Y.
32
28 ^
Y = 4X
24
20
Y = 18
16
12
FIGURA 12-13
Correlación perfec- 8
ta entre X y Y:
4
todos los puntos
caen en la recta 0 X
de regresión 0 1 2 3 4 5 6 7 8
Desarrollo del coefi- Ahora, para establecer el coeficiente de determinación de la muestra para la recta de regresión de
ciente de determina- la figura 12-13, primero calculamos el numerador de la fracción en la ecuación 12-10:
ción de la muestra pa-
ra el ejemplo de una Variación de los valores de Y alrededor de la recta de regresión (Y Ŷ)2 [12-8]
correlación perfecta
(0)2
0
Como cada valor de Y está sobre
la recta de regresión, la diferencia
entre Y y Ŷ es cero en cada caso
Ilustración de la corre- 1° 1 6
lación cero entre dos 2° 1 12
variables, X y Y 3° 3 6
4° 3 12
5° 5 6
6° 5 12
7° 7 6
8° 7 12
Y 72
72
Y
8
9← Media de los valores de Y
12
10
8 ^
Y=9
6 Y=9
FIGURA 12-14
Correlación cero 4
entre X y Y: los
mismos valores 2
de Y aparecen
para distintos valo- X
res de X 1 2 3 4 5 6 7 8
Al sustituir estos valores en la ecuación 12-10, podemos encontrar que el coeficiente de determina-
ción de la muestra es igual a 1:
(Y Ŷ)2
r 2 1 [12-10]
(Y Y)2
0
1
672
10
1 ← Coeficiente de determinación de la
muestra cuando hay una correlación perfecta
Una segunda forma extrema en que las variables X y Y pueden relacionarse es aquella donde los
puntos podrían caer a distancias iguales en ambos lados de una línea de regresión horizontal, como se
ve en la figura 12-14. Este conjunto de datos consiste en los ocho puntos registrados en la tabla 12-14.
En la figura 12-14, podemos ver que la recta de regresión de mínimos cuadrados apropiada para
estos datos está dada por la ecuación Ŷ 9. La pendiente de la recta es cero, porque los mismos va-
lores de Y aparecen para todos los valores de X. Tanto la ordenada Y como la media de los valores de
Y son iguales a 9.
Cálculo del coeficiente Ahora calcularemos las dos variaciones usando las ecuaciones 12-8 y 12-9, para poder calcular
de determinación de el coeficiente de determinación de la muestra para esta recta de regresión. Primero calculamos la va-
la muestra para la riación de los valores de Y alrededor de la línea de estimación Ŷ 9:
correlación cero
Otra interpretación de r 2
Otra forma de inter- Los estadísticos también interpretan el coeficiente de determinación de la muestra viendo la canti-
pretar el coeficiente dad de la variación en Y que se explica por la recta de regresión. Para entender este significado de
de determinación de r 2, consideremos la recta de regresión de la figura 12-15. Aquí, separamos un valor observado de Y,
la muestra
mostrado como el círculo negro superior. Si usamos la media de los valores de Y, Y, para estimar este
Desviación no explicada
de esta Y, de su media Y
Desviación total de esta (Y – Y^ )
Y de su media Y
(Y – Y ) ^
(Y )
r e sión Desviación explicada de
FIGURA 12-15 re g esta Y, de su media Y
a de
Líne (Y^ – Y )
Desviación total, Y
desviación expli-
Valor estimado de esta Y
cada y desviación ^
por la recta de regresión (Y )
no explicada para
un valor observado
de Y X
donde,
• a ordenada Y
• b pendiente de la línea de estimación de mejor ajuste
• n número de puntos de datos
• X valores de la variable independiente
• Y valores de la variable dependiente
• Y media de los valores observados de la variable dependiente
Aplicación del Para ver por qué esta fórmula constituye un método abreviado, la aplicaremos a la regresión que re-
método abreviado laciona los gastos de investigación y desarrollo con las ganancias. En la tabla 12-15, repetimos las
columnas de la tabla 12-9, añadiendo una columna Y 2. Recuerde que cuando encontramos los valo-
res para a y b, la recta de regresión para este problema era:
Ŷ 20 2X
Usando esta recta y la información de la tabla 12-15, podemos calcular r 2 de la siguiente manera:
200
242
0.826 ← Coeficiente de determinación de la muestra
Interpretación de r 2 Así, podemos concluir que la variación en los gastos de investigación y desarrollo (la variable inde-
pendiente X) explica el 82.6% de la variación en las ganancias anuales (la variable dependiente Y).
r r2 [12-12]
r r2 [12-12]
0.8
26
0.909 ← Coeficiente de correlación de la muestra
La relación entre las dos variables es directa y la pendiente es positiva; por tanto, el signo de r es po-
sitivo.
(a) r 2 = 1 y r = 1 (b) r 2 = 1 y r = –1
Y Y
La pendiente es positiva
La pendiente es negativa
X X