Documente Academic
Documente Profesional
Documente Cultură
Las
relaciones
pueden
ser
inversas en vez de directas. En
estos
casos,
la
variable
dependiente
disminuye
al
aumentar
la
variable
independiente.
El
gobierno
supone que existe una asociacin
inversa entre un mayor gasto
anual de una compaa en
dispositivos anticontaminantes y
menores emisiones contaminantes. La grfica (b) de la figura ilustra este tipo de relacin,
que se caracteriza por una pendiente negativa (la variable dependiente Y disminuye al
aumentar la variable independiente X).
A menudo encontramos una relacin causal entre variables, esto es, la variable
independiente causa cambios en la variable dependiente. ste es el caso en el
ejemplo de la contaminacin. Pero en muchos casos, otros factores ocasionan los
cambios tanto en las variables dependientes como en las independientes. Podramos
predecir las ventas de aretes de diamantes observando las de Cadillacs nuevos, pero no
podramos decir que una origina a la otra. Ms bien, nos damos cuenta que otro factor,
como el nivel de ingresos disponibles, es la causa de los niveles de ventas tanto de
Cadillacs como de aretes de diamantes.
Por esta razn, es importante considerar que las relaciones encontradas por la
regresin son relaciones de asociacin, pero no necesariamente de causa y
efecto. A menos que tenga razones especficas para creer que los valores de la
variable dependiente se originan por los valores de las variables
independientes, no infiera causalidad en las relaciones encontradas por la
regresin
Diagramas de dispersin
El primer paso para determinar si existe una relacin entre dos variables es examinar la
grfica de los datos observados (o conocidos). Esta grfica, o dibujo, se llama diagrama
de dispersin
Calificaciones de estudiantes en exmenes de admisin y promedios de generales
acumulados al graduarse
Estudiante
74
2.6
69
2.2
85
3.4
63
2.3
82
3.1
60
2.1
79
3.2
91
3.8
En este caso, la lnea trazada a travs de los puntos representa una relacin directa,
porque Y se incrementa al aumentar X. Como los puntos estn relativamente cerca de
esta lnea, podemos decir que existe un alto grado de asociacin entre las calificaciones
de exmenes y el promedio de calificaciones acumulativo. En la figura de las
calificaciones, podemos ver que la relacin descrita por los puntos est bien descrita por
una lnea recta. Por tanto, podemos decir que es una relacin lineal.
La relacin entre las variables X y Y tambin puede tomar la forma de una curva. Los
especialistas en estadstica la llaman relacin curvilnea. Los empleados de muchas
industrias, por ejemplo, experimentan lo que se denomina curva de aprendizaje, es
decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se
reduce en alguna proporcin fija al duplicarse el nmero total de unidades. Una industria
de este tipo es la aviacin. El tiempo de fabricacin por unidad de una nueva aeronave
tiende a disminuir un 20% cada vez que se duplica el nmero de nuevos aviones
terminados. La figura anterior ilustra la relacin curvilnea de este fenmeno de curva de
aprendizaje. La direccin de la curva puede indicar si la relacin curvilnea es directa o
inversa. La curva de la figura anterior describe una relacin inversa porque Y disminuye
al aumentar X.
Para repasar las relaciones posibles en un diagrama de dispersin, examinemos las
grficas de la siguiente figura. Las grficas (a) y (b) muestran relaciones lineales directas
e inversas. Las grficas (c) y (d) son ejemplos de relaciones curvilneas que indican
asociaciones directas e inversas entre variables, respectivamente. La grfica (e) ilustra
una relacin lineal inversa con un patrn de puntos ampliamente disperso. Esta mayor
dispersin indica que existe menor grado de asociacin entre las variables independiente
y dependiente que el existente en la grfica (b). El patrn de puntos en la grfica (f)
parece indicar que no existe relacin entre las dos variables; por tanto, conocer el pasado
referente a una variable no nos permitir pronosticar ocurrencias futuras de la otra.
Anlisis de correlacin
El anlisis de correlacin es la herramienta estadstica que podemos usar para
describir el grado en el que una variable est linealmente relacionada con otra.
Con frecuencia, el anlisis de correlacin se utiliza junto con el de regresin para medir
qu tan bien la lnea de regresin explica los cambios de la variable dependiente, Y. Sin
embargo, la correlacin tambin se puede usar sola para medir el grado de asociacin
entre dos variables.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable:
Formula:
2
x
n ( x 2)
y 2
n ( y 2 )
n ( xy ) ( x ) ( y)
r=
Donde:
n: Nmero de pares u observaciones
x: es la suma de la variable x
y: es la suma de la variable y
x2: es la suma de los cuadrados variable x
y2: es la suma de los cuadrados variable y
Diagrama de dispersin
llamad
as
20
40
20
20
10
10
20
20
20
30
210
Copiador
as
30
60
40
60
30
40
40
50
30
70
Coeficiente de correlacin
representa
nte
de
ventas
1
2
3
4
5
6
7
8
9
10
xy
X2
Y2
20
40
20
30
10
10
20
20
20
30
220
30
60
40
60
30
40
40
50
30
70
450
600
2400
800
1800
300
400
800
1000
600
2100
10800
400
1600
400
900
100
100
400
400
400
900
5600
900
3600
1600
3600
900
1600
1600
2500
900
4900
22100
Clculos:
suma de x
220
suma de y
media de x
media de y
suma xy
suma x al cuadrado
suma y al cuadrado
media de x al cuadrado
media de y al cuadrado
450
22
45
10800
5600
22100
484
2025
x 2
n ( x 2 )
y 2
n ( y 2)
n ( xy ) ( x ) ( y )
r=
220 2
10 ( 5600 )
450 2
10 ( 22100 )
9000
9000
=
=0.759
( 7600 ) ( 18500 ) 11857.4870
Interpretacin: primero es positiva por lo que vemos que existe una relacin directa entre
el nmero de llamadas realizadas y el nmero de copiadoras vendidas. Esto confirma
nuestro razonamiento basado en el diagrama de dispersin.
El valor 0.759 est bastante cerca de 1, por lo que concluimos que la relacin entre las
variable es fuerte. Dicho de otra manera un aumento en un 25% de las llamadas
posiblemente aumente un 25% las ventas.
El coeficiente de determinacin
r 2=r
Coeficiente de correlacin:
0.576
suma de x
suma de y
media de x
media de y
suma xy
suma x al cuadrado
suma y al cuadrado
Xy
Y2
20
40
20
30
10
10
20
20
20
30
220
30
60
40
60
30
40
40
50
30
70
450
600
2400
800
1800
300
400
800
1000
600
2100
10800
900
3600
1600
3600
900
1600
1600
2500
900
4900
22100
220
450
22
45
10800
5600
22100
media de x al cuadrado
media de y al cuadrado
valor de b
484
2025
1.184210
53
valor de a
18.94736
84
r =0.759 =0.576
r=
18.94450+1.184210800102025 1,062.36
=
=0.5757
22100102025
1085
Ventas
(y)
33
38
24
61
52
45
65
82
29
Xy
266
144
366
520
540
780
1066
348
X2
99 9
49
36
36
100
144
144
169
144
Y2
1089
1444
576
3721
2704
2025
4225
6724
841
13
14
15
123
63
50
79
621
819
700
1185
6833
169
196
225
1421
3969
2500
6241
36059
40
20
0
2
10
Nmero de seccin
x 2
n ( x 2 )
y 2
n ( y 2)
n ( xy ) ( x ) ( y )
r=
12
14
16
123 2
12 (1,421 )
2
621
12 (36,059 )
5,613
5,613
=
=0.5899
9,513.66
( 1,923 ) ( 47,067 )
Interpretacin: primero es positiva por lo que vemos que existe una relacin directa entre
el nmero de secciones que reciben estadstica y el nmero de libros vendidos. Esto
confirma nuestro razonamiento basado en el diagrama de dispersin.
El valor 0.5899 est cerca de la mitad, por lo que concluimos que la relacin entre las
variable es moderada. Por lo que, aunque est relacionada, la venta de libros no esta
totalmente basada en el numero de secciones.
c. Calcule el coeficiente de determinacin
r 2=0.5899 2=0.3481
Conclusin el coeficiente de determinacin es de 0.3481 que equivale a 34.81 % por lo
que podemos decir que el 34.81 % de las variables en el nmero de libros vendidos se
explica o se debe a la variacin en el nmero de secciones que estn estudiando
estadstica.
Correlaciones Espurias
Cuando existe una relacin fuerte supongamos 0.94 entre 2 variables, podemos pensar
que un incremento o una disminucin en una variable causa un cambio en la otra
variable, por ejemplo:
Se puede mostrar que el consumo de manas y el consumo de aspirinas estn
fuertemente relacionados, sin embargo esto no indica que un aumento en el consumo de
manas cause tambin un incremento en el consumo de aspirinas.
Prueba de significancia del coeficiente de correlacin
Recordando el ejercicio de Printer, S. A. se encontr que la correlacin entre el nmero de
llamadas y el nmero de copiadoras vendidas era de 0.759 esto indica una fuerte
relacin entre las dos variables, sin embargo en la muestra nicamente se tomaron 10
vendedores podra ser que el coeficiente de correlacin fuera cero?
Esto significara que el coeficiente de correlacin de 0.759 fuera producto de la
casualidad.
La poblacin en este ejemplo son todas las personas empleadas en la empresa, para
resolver este problema necesita una prueba para contestar a la siguiente pregunta:
Podra tener la poblacin de la cual se tomo la muestra una correlacin de cero?
Para confirmar esta correlacin formularemos las siguientes hiptesis
Ho = p = 0 la correlacin en la poblacin es cero
H2 p = 0 la correlacin en la poblacin es diferente de cero
Por la manera como planteamos la hiptesis nula, sabemos que se trata de una prueba
de dos colas la frmula para t es =
t=
r n2
1r 2
Regin de
rechazo
Regin de
rechazo
t=
0.759 8 2.146776188
=
=3.297
10.576 0.651090623
Conclusin:
Para una prueba de significancia de 0.02 el valor crtico es de 2.896 y el valor crtico para
un nivel de significancia de 0.01 es de 0.355
1.00
0.82
0.76
0.74
0.73
0.72
0.71
0.71
0.70
0.70
0.70
0.70
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.25
0
2.41
1.60
1.42
1.34
1.30
1.27
1.25
1.24
1.23
1.22
1.21
1.21
1.20
1.20
1.20
1.19
1.19
1.19
1.19
1.18
1.18
1.18
1.18
1.18
1.18
1.18
1.18
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
0.12
5
3.08
6.31
1.89
2.92
1.64
2.35
1.53
2.13
1.48
2.02
1.44
1.94
1.41
1.89
1.40
1.86
1.38
1.83
1.37
1.81
1.36
1.80
1.36
1.78
1.35
1.77
1.35
1.76
1.34
1.75
1.34
1.75
1.33
1.74
1.33
1.73
1.33
1.73
1.33
1.72
1.32
1.72
1.32
1.72
1.32
1.71
1.32
1.71
1.32
1.71
1.31
1.71
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.69
1.31
1.69
1.31
1.69
1.31
1.69
1.31
1.69
1.30
1.69
1.30
1.69
1.30
1.68
1.30
1.68
0.10
0.05
0
0
Niveles de
COLA
12.71 25.45
4.30
6.21
3.18
4.18
2.78
3.50
2.57
3.16
2.45
2.97
2.36
2.84
2.31
2.75
2.26
2.69
2.23
2.63
2.20
2.59
2.18
2.56
2.16
2.53
2.14
2.51
2.13
2.49
2.12
2.47
2.11
2.46
2.10
2.45
2.09
2.43
2.09
2.42
2.08
2.41
2.07
2.41
2.07
2.40
2.06
2.39
2.06
2.38
2.06
2.38
2.05
2.37
2.05
2.37
2.05
2.36
2.04
2.36
2.04
2.36
2.04
2.35
2.03
2.35
2.03
2.35
2.03
2.34
2.03
2.34
2.03
2.34
2.02
2.33
2.02
2.33
2.02
2.33
0.02
0.01
5
3
Significancia
31.82
6.96
4.54
3.75
3.36
3.14
3.00
2.90
2.82
2.76
2.72
2.68
2.65
2.62
2.60
2.58
2.57
2.55
2.54
2.53
2.52
2.51
2.50
2.49
2.49
2.48
2.47
2.47
2.46
2.46
2.45
2.45
2.44
2.44
2.44
2.43
2.43
2.43
2.43
2.42
0.010
UNA
0.01
0
63.66
9.92
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.05
3.01
2.98
2.95
2.92
2.90
2.88
2.86
2.85
2.83
2.82
2.81
2.80
2.79
2.78
2.77
2.76
2.76
2.75
2.74
2.74
2.73
2.73
2.72
2.72
2.72
2.71
2.71
2.70
0.00
5
0.00
5
127.3
2
14.09
7.45
5.60
4.77
4.32
4.03
3.83
3.69
3.58
3.50
3.43
3.37
3.33
3.29
3.25
3.22
3.20
3.17
3.15
3.14
3.12
3.10
3.09
3.08
3.07
3.06
3.05
3.04
3.03
3.02
3.01
3.01
3.00
3.00
2.99
2.99
2.98
2.98
2.97
0.00
3
b=
75 2
= =2 pendiente de larecta
21 1
2 x 1
36 3
= =3
10 1
y 2 y
b=
1
y=a+bc
y=6+ (3 ) x
y=63 x
Suponga que deseamos encontrar el valor de la variable dependiente que corresponde a
X = 2.
Y= 6 3(2)
Y = 6 -6
Y= 0
Por tanto, cuando X = 2, Y debe ser igual a 0. Si consultamos la lnea de la siguiente
figura, podemos ver que el punto (2, 0) s est en la recta.
A continuacin tenemos dos lneas de estimacin que se han ajustado al mismo conjunto
de tres puntos. Estos tres puntos dados, u observados, se muestran en negro. Se han
trazado dos lneas muy diferentes para describir la relacin entre las dos variables.
Obviamente, necesitamos una forma de decidir cul de estas lneas nos proporciona un
mejor ajuste.
Una forma en que podemos medir el error de nuestra lnea de estimacin es sumando
todas las diferencias, o errores, individuales entre los puntos estimados mostrados en
crculo y los puntos observados mostrados en negro. En la primera tabla, calculamos las
diferencias individuales entre las Y correspondientes y Y, y luego encontramos la suma de
estas diferencias.
Grfica(a)
Suma
de
Y - Y
errores de las
dos lneas de 8 - 6 = 2
estimacin de 1 - 5 = -4
la
figura 6 - 4 = 2
anterior
0 Error total
Suma de los
valores
absolutos
del
error de las
dos lneas de
estimacin de
la
figura
anterior
Grfica (a)
|Y - Y |
Grfica(b)
Y - Y
8-2= 6
1 - 5 = -4
6 - 8 = -2
Error total
Grfica (b)
|Y - Y |
|8 - 6| = 2
|1 - 5| = 4
|6 - 4| = 2
|8 - 2| = 6
|1 - 5| = 4
|6 - 8| = 2
8 = Error absoluto total
Error absoluto total
12 =
Un rpido examen visual de las dos lneas de estimacin de la grafica revela que la lnea
de la grfica (a) se ajusta a los tres puntos de datos mejor que la lnea de la grfica (b) .*
Sin embargo, nuestro proceso de suma de las diferencias individuales de la primera tabla,
indica que ambas lneas describen los datos igualmente bien (el error total en ambos
casos es cero). Por tanto, debemos concluir que el proceso de suma de las diferencias
individuales para calcular el error no es una forma confiable de juzgar la bondad de
ajuste de una lnea de estimacin.
El problema al sumar los errores individuales es el efecto de cancelacin de los valores
positivos y negativos. De esto, podramos deducir que el criterio adecuado para juzgar la
bondad del ajuste sera sumar los valores absolutos (los valores sin los signos
algebraicos) de cada error. Hemos hecho esto en la segunda tabla (El smbolo del valor
absoluto son dos lneas verticales paralelas, ||.) Como el error absoluto en la grfica (a) es
menor que el error absoluto en la grfica (b), dado que buscamos el mnimo error
absoluto, confirmamos nuestra impresin intuitiva de que la lnea de estimacin de la
grfica (a) es el mejor ajuste.
Con base en este xito, podramos concluir que la minimizacin de la suma de los valores
absolutos de los errores es el mejor criterio para encontrar un buen ajuste. Pero antes de
sentirnos demasiado cmodos con l, debemos examinar una situacin distinta.
Podemos
razonar que esto es as al observar que mientras ambas lneas de estimacin se separan
del segundo y tercer punto (de izquierda a derecha) una distancia igual, la lnea de la
grfica (a) se separa del primer punto una distancia mucho menor que la lnea de la
grfica (b)
La figura anterior nuevamente presenta dos diagramas de dispersin idnticos con dos
lneas de estimacin diferentes ajustadas a los tres datos puntuales. En la tabla anterior,
sumamos los valores absolutos de los errores y encontramos que la lnea de estimacin
de la grfica (a) es un mejor ajuste que la de la grfica (b).
Intuitivamente, sin embargo, pareciera que la lnea de la grfica (b) es la mejor lnea de
ajuste, porque se ha movido verticalmente para tomar el punto medio en consideracin.
La grfica (a), por otra parte, parece ignorar completamente el punto medio. As que tal
vez descartaramos este segundo criterio para encontrar el mejor ajuste. Por qu?
La suma de los valores absolutos no hace hincapi en la magnitud del error.
Parece razonable que mientras ms lejos est un punto de la lnea de estimacin, ms
serio es el error. Preferiramos tener varios errores absolutos pequeos que uno grande,
como vimos en el ejemplo anterior. En efecto, deseamos encontrar una forma de
penalizar errores absolutos grandes, para poder evitarlos. Podemos lograr
esto si elevamos al cuadrado los errores individuales antes de sumarlos. Los
cuadrados de cada trmino logran dos objetivos:
1. Magnifica, o penaliza, los errores ms grandes.
2. Cancela el efecto de los valores positivos y negativos (un error negativo al
cuadrado sigue siendo positivo).
Como estamos buscando la lnea de estimacin que minimiza la suma de los cuadrados
de los errores, a esto le llamamos mtodo de mnimos cuadrados
Apliquemos el criterio de mnimos cuadrados al problema de la figura anterior. Una vez
que organizamos los datos y sumamos los cuadrados de la segunda tabla, vemos que, tal
como lo pensamos, la lnea de estimacin en la grfica (b) es el mejor ajuste.
Usando el criterio de los mnimos cuadrados, podemos determinar si una lnea de
estimacin es mejor ajuste que otro. Pero para un conjunto de puntos a travs de los
los
ablos
las
de
Grfica (a)
Grfica (b)
|Y - Y |
|Y - Y |
|4 - 4| = 0
|4 - 5| = 1
|7 - 3| = 4
|7 - 4| = 3
|2 - 2| = 0
|2 - 3| = 1
4 Error absoluto total
absoluto total
Grfica (a)
(b)
Aplicacin del
(Y - Y )2
criterio
de
Y )2
mnimos
(4 - 4)2 = (0)2 = 0
cuadrados
a
2
las lneas de 1) = 1
estimacin
(7 - 3)2 = (4)2 = 16
5 Error
Grfica
(Y (4 - 5)2 = ((7 - 4)2 = (
3)2 = 9
(2 - 2)2 = (0)2 = 0
(2- 3)2 = (-
Los estadsticos han desarrollado dos ecuaciones que podemos utilizar para encontrar la
pendiente y la ordenada Y de la recta de regresin de mejor ajuste. La primera frmula
calcula la pendiente:
Donde,
b_ pendiente de la lnea de estimacin de mejor ajuste
X = valores de la variable independiente
Y = valores de la variable dependiente
X = media de los valores de la variable independiente
Y = media de los valores de la variable dependiente
n = nmero de puntos (es decir, el nmero de pares de valores de las variables
independiente y dependiente)
La segunda frmula calcula la ordenada Y de la recta cuya pendiente calculamos usando
la ecuacin anterior
Donde,
a = ordenada Y
b = pendiente de la ecuacin
Y_ _ media de los valores de la variable dependiente
X_ _ media de los valores de la variable independiente
Con estas dos ecuaciones, podemos encontrar la recta de regresin de mejor ajuste para
cualquier conjunto de puntos para dos variables.
Uso del mtodo de mnimos cuadrados
Suponga que la directora del Departamento de Salubridad de Chapel Hill est interesada
en la relacin que existe entre la antigedad de un camin de basura y los gastos
anuales de reparacin que debe esperar. Con el fin de determinar esta relacin, la
directora ha reunido informacin de cuatro de los camiones de la ciudad
El primer paso para calcular la recta de regresin de este problema es organizar los datos
como se resumen en la tabla. Esto nos permite sustituirlos directamente en las
ecuaciones para encontrar la pendiente y la ordenada Y de la recta de regresin de mejor
ajuste. La pendiente es:
2
44( 4 )
xyn x y 78( 4 )( 3 ) ( 6)
b=
=
2
2
x n x
Y la ordenada y es:
^y =a+bx=3.75+0.75 x
Nmero
camin
101
102
103
104
del
Antigedad
del camin en
aos (x)
5
3
3
1
Gastos
de
rep. Durante
el ltimo ao
en
cientos
de dlares
7
7
6
4
Xy
X2
35
21
18
4
25
9
9
1
Sumas
12
24
x =
12
=3 media de los valores de lavariable independiente
4
y =
24
=6 media de los valores de la variable dependiente
4
78
44
Utilizando esta ecuacin de estimacin (que podramos graficar como una recta de
regresin si as lo deseramos), la directora del Departamento de Salubridad puede
estimar los gastos anuales de reparacin, dada la antigedad de su equipo. Si, por
ejemplo, la ciudad tiene un camin de 4 aos de antigedad, la directora podra usar la
ecuacin para predecir los gastos anuales de reparacin para este camin de la siguiente
manera:
Error
individu
al
3.75+(0.75)
(5)
3.75+(0.75)
(3)
3.75+(0.75)
(3)
3.75+(0.75)
(1)
7.5
-0.5
0.25
4.5
-0.5
0.25
1.5
( y ^y2 )
S e=
n2
1.50
Donde,
X = valores de la variable independiente
Y = valores de la variable dependiente
a = ordenada Y de la ecuacin 12-5
b = pendiente de la ecuacin de estimacin de la ecuacin 12-4
n = nmero de puntos
Esta ecuacin es un atajo, porque al organizar primero los datos de este problema para
calcular la pendiente y la ordena y, determinamos cada valor que necesitamos para la
ecuacin
Camion
es
101
102
103
104
Sumas
xy
X2
y2
5
3
3
1
12
7
7
6
4
24
35
21
18
4
78
25
9
9
1
44
49
49
36
16
150
se=
Donde
Y =valor estimado correspondiente a la variable dependiente
a = ordenada Y
X1 y X2 = valores de las dos variables independientes
b1 y b2 = pendientes asociadas con X1 y X2, respectivamente. En cuanto b1 es el
cambio en y por cada cambio en una unidad de x1, permaneciendo x2 constantes se le
llama coeficiente de regresin parcial, coeficiente de regresin neto o simplemente
coeficiente de regresin
Y b2 es el cambio neto en y por cada cambio de una unidad en x2, permaneciendo x1
constante.
Para ilustrar la interpretacin de a y de los coeficientes de regresin suponga que:
La cantidad de millas que recorre un coche por galn de gasolina est directamente
relacionada con el octanaje de los galos que se use (x) e inversamente relacionadas con
el peso del automvil (x2) y que la ecuacin de regresin mltiple es:
Ejemplo:
Un automvil que tenga en el tanque gasolina de 92 octanos y que pese 2,000 libras
Cuntas millas en promedio por galn puede recorrer?
)=6.3+18.42=22.7
y=6.3+ 0.2 ( 92 ) + (0.0012000
Conclusin: podr recorrer 22.7 millas en promedio con los datos estimados.
Correlacin de Rango
ste es una medida de la correlacin que existe entre los dos conjuntos de
rangos, una medida del grado de asociacin entre las variables que no
podramos calcular de otra manera.
Una segunda razn para aprender el mtodo de correlacin de rango es la posibilidad de
simplificar el proceso de clculo de un coeficiente de correlacin a partir de un conjunto
de datos muy grande para cada una de las dos variables.
Donde:
d = diferencia entre los rangos para cada pareja de observaciones que esta dado
por:
o
Ejemplo:
Una empresa desea determinar si las personas que en el momento de ser contratas se
consideraban con un buen potencial de ser buenos vendedores, ahora que ya tienen el
empleo, presentan los mejores historiales de ventas.
Para investigar este asunto el vicepresidente del personal repaso con cuidado los
resmenes de entrevistas de contratacin, las calificaciones acadmicas y las cartas de
recomendacin, para 10 individuos en funcin de su potencia de xito, basando la
evaluacin solo en la informacin disponible al momento de la contratacin.
A continuacin formo una lista de la cantidad de unidades que cada vendedor, vendi en
sus primeros dos aos. Asimismo con base en el desempeo real como vendedor se hizo
una segunda clasificacin de los 10 vendedores.
Vendedor
A
B
C
D
E
F
G
H
I
J
lugar en
potencial
2
4
7
1
6
3
10
9
8
5
Ventas en dos
aos
400
360
300
295
280
350
200
260
220
385
lugar
real
1
3
5
6
7
4
10
8
9
2
Di
di2
1
1
2
-5
-1
-1
0
1
-1
3
1
1
4
25
1
1
0
1
1
9
44
r s =1
644
264
=1
=10.26667=0.733
2
990
10(10 1)
Hoyos
5
6
10
2
7
3
8
9
4
1
Di
-4
-1
-6
7
-1
7
-6
-6
3
7
di2
16
1
36
49
1
49
36
36
9
49
282
r s =1
6282
1692
=1
=11.090=0.7090
2
990
10(10 1)
Conclusin:
En cuanto al coeficiente de correlacin de rango de los golfistas profesionales indica que
la relacin es negativa fuerte, entendindose que entre la distancia tenga el golpe menos
hoyos har cada golfista.