Análisis bidimensional de datos - Conceptos generales, tablas de frecuencias y momentos

Capı́tulo 2
Análisis bidimensional de datos
2.1. Conceptos generales

Al estudiar una muestra o una población podemos estar interesados en observar más de un carácter
por individuo, apareciendo entonces las variables estadı́sticas multidimensionales (X1 , X2 , · · ·, Xn).
En este capı́tulo nos centraremos en las variables estadı́sticas bidimensionales (X, Y ).
Uno de los objetivos, de este estudio, será confirmar si existe algún tipo de relación(dependencia)
entre las variables X e Y y calcular, en ese caso, su grado de dependencia.
Existe dos tipos de dependencia:

Funcional Si existe alguna fórmula matemática que las relaciona. Por ejemplo, en una muestra
de cinco circunferencias consideramos las variables X ≡longitud del radio medido en cm. e
Y ≡longitud de la circunferencia medida en cm. Es evidente que yi = 2πxi ∀i = 1, · · · , 5.
Diremos que entre X e Y existe dependencia funcional.
Aleatoria No existe ninguna fórmula que las relacione, pero una de ellas depende en cierto grado de
la otra. Por ejemplo, en Madrid observamos las variables X ≡ingresos por familia e Y ≡gastos
por familia. Es evidente que, aunque existe una relación entre ambas, no podemos encontrar
ninguna fórmula como ocurrı́a en el caso anterior.
Diremos que entre X e Y existe dependencia aleatoria.
2.2. Tablas de frecuencias

La presentación de variables bidimensionales se suele realizar mediante tablas o diagramas:
Tabla simple
Diagrama de dispersión
Tabla de correlación
Veremos, con un ejemplo, como se construyen.
25
26
Ejemplo 2.2.1 Para hacer un estudio de la aceptación de dos modelos de automóviles de reciente
fabricación (MODELO A ) y (MODELO B) se han considerado las ventas efectuadas por un conce-
sionario durante el último septiembre.
LUNES MARTES MIÉRCOLES JUEVES VIERNES SABADO
1 2 3 4 5
0 2 2 1 2 1 4 1 2 2
7 8 9 10 11 No laborable
3 1 2 2 3 2 3 1 2 2
14 15 16 17 18 19
3 1 3 1 1 3 3 2 4 0 3 1
21 22 23 24 25 26
2 1 2 2 3 1 3 2 3 1 4 1
28 29 30
3 1 2 2 3 2
Tabla simple Es la más sencilla, aparecen los distintos valores (xi , yj ) que toma la variable
bidimensional (X, Y ) y sus frecuencias de aparición.
Definimos dos variables
• X ≡número de coches vendidos del MODELO A un dı́a determinado, que puede tomar
los valores xi = 0, 1, 2, 3, 4
• Y ≡número de coches vendidos del MODELO B un dı́a determinado, que puede tomar
los valores yj = 0, 1, 2, 3
Sea nij ≡número de veces que la variable bidimensional (X, Y ) toma el valor (xi , yj )
Ventas A xi Ventas B yj Número de dı́as nij

0 2 1
1 3 1
2 1 3
2 2 5
3 1 8
3 2 4
4 0 1
4 1 2
25
Capı́tulo – 2. Estadı́stica descriptiva 27
Diagrama de dispersión o nube de puntos Es el gráfico de X frente a Y o de Y frente a

X.
Tabla de correlación de (X, Y )

• En las casillas interiores aparece la frecuencia absoluta de la distribución conjunta de
(X, Y ).
• En la última columna aparece la distribución marginal de X (la distribución de X
independiente de Y )
• En la última fila aparece la distribución marginal de Y (la distribución de Y indepen-
diente de X)
xi yj 0 1 2 3
0 1 1
1 1 1
2 3 5 8
3 8 4 12
4 1 2 3
1 13 10 1 25
Con la tabla de correlación podemos obtener tablas de la distribución de una de las
variables condicionada a que la otra variable tome un valor concreto.
Por ejemplo:
xi/yj = 1 ni
yj /xi = 3 nj
2 3
1 8
3 8
2 4
4 2
12
13
2.3. Momentos
Son unos números que caracterizan a las distribuciones conjuntas y marginales de una variable
bidimensional; midiendo, por ejemplo, la tendencia a la centralización o la tendencia a la dispersión
respecto de algún valor central.
28
2.3.1. Momentos respecto al origen o centrales

Sea (X, Y ) una variable estadı́stica bidimensional donde
r
X
la variable X toma los valores xi que ocurren nxi veces ∀i = 1, · · · , r / nxi = N
i=1
s
X
la variable Y toma los valores yj que ocurren nyj veces ∀j = 1, · · · , s / nyj = N
j=1
la variable (X, Y ) toma los valores (xi , yj ) que ocurren nij veces ∀i = 1, · · · , r
XX Xs r
X
∀j = 1, · · · , s / nij = N nxi = nij nyj = nij
i j j=1 i=1
Definición
Se llama momento central de orden h, k (∀h ∈ IN ∀k ∈ IN) respecto al origen, y se denota
por ahk, al número
X r Xs
xhi yjk nij
i=1 j=1
ahk =
N
Los momentos centrales más utilizados son
r s
X
X
xi nxi yj nyj
i=1 j=1
a10 = = MX a01 = = MY
N s
N
r
X X
x2i nxi yj2nyj
i=1 j=1
a20 = = MX 2 a02 = = MY 2
N N
r X
X s
xi yj nij
i=1 j=1
a11 = = MXY
N
=Notación=
MX = x̄, MY = ȳ, MX 2 es la media de la variable X 2 , MY 2 es la media de la variable Y 2

y MXY es la media de la variable XY
r X
X s
xhi yjk nij
i=1 j=1
El momento central de orden h, k respecto al origen ahk = = MX h Y k es la
N
h k
media de la variable X Y ∀h ∈ IN ∀k ∈ IN
Ejemplo 2.3.1.1 Completando las tablas de distribución necesarias, calcular los momentos centrales
a10, a01, a20, a02, a11 para los datos del ejercicio 2.2.1
Las tablas de las distribuciones marginales de X e Y ampliadas convenientemente son
xi nxi xinxi x2i nxi
yj nyj yj nyj yj2 nyj
0 1 0 0
0 1 0 0
1 1 1 1
1 13 13 13
2 8 16 32
2 10 20 40
3 12 36 108
3 1 3 9
4 3 12 48
N = 25 36 62
N = 25 65 189
Entonces
r s
X
X
xi nxi yj nyj
i=1 65 j=1 36
a10 = = = 20 6 = MX a01 = = = 10 44 = MY
N 25 s
N 25
r
X X
x2i nxi yj2nyj
i=1 189 j=1 62
a20 = = = 70 56 = MX 2 a02 = = = 20 48 = MY 2
N 25 N 25
Con la tabla simple ampliada
xi yj nij xiyj nij

0 2 1 0
1 3 1 3
2 1 3 6
2 2 5 20
3 1 8 24
3 2 4 24
4 0 1 0
4 1 2 8
N = 25 85
r X
X s
xi yj nij
i=1 j=1 85
a11 = = = 30 4 = MXY
N 25
2.3.2. Momentos respecto a la media

Sea (X, Y ) una variable estadı́stica bidimensional donde
r
X
la variable X toma los valores xi que ocurren nxi veces ∀i = 1, · · · , r / nxi = N con
i=1
media x̄ = MX
30
s
X
la variable Y toma los valores yj que ocurren nyj veces ∀j = 1, · · · , s / nyj = N con
j=1
media ȳ = MY
la variable (X, Y ) toma los valores (xi , yj ) que ocurren nij veces ∀i = 1, · · · , r
XX Xs Xr
∀j = 1, · · · , s / nij = N nxi = nij nyj = nij .
i j j=1 i=1
La media de la variable XY es MXY
Definición
Se llama momento de orden h, k (∀h ∈ IN ∀k ∈ IN) respecto a la media, y se denota por
mhk, al número
r X
X s
(xi − x̄)h (yj − ȳ)k nij
i=1 j=1
mhk = ∀h ∈ IN ∀k ∈ IN
N
Destacamos
r s
X
X
(xi − x̄)nxi (yj − ȳ)nyj
i=1 j=1
m10 = =0 m01 = =0
N s
N
r
X X
(xi − x̄) nxi2 (yj − ȳ)2 nyj
i=1 j=1
m20 = = σx2 m02 = = σy2
N N
r X
X s
(xi − x̄)(yj − ȳ)nij
i=1 j=1
m11 = = σxy
N
A σxy se la denomina COVARIANZA de (X,Y)
Proposición
Dada una variable estadı́stica X =⇒ σx2 = MX 2 − (MX )2
Demostración
Xr r
X r
X r
X
(xi − x̄)2nxi (x2i + x̄2 − 2xi x̄)nxi x2i nxi xi nxi
i=1 i=1 i=1 i=1
σx2 = = = + x̄2 − 2x̄ =
r
N r
N N N
X X
x2i nxi x2i nxi
i=1 i=1
= + x̄2 − 2x̄2 = − x̄2 = MX 2 − (MX )2
N N
Proposición
Dada una variable estadı́stica bidimensional (X, Y ) =⇒ σxy = MXY − MX MY
Demostración
r X
X s r X
X s r
X s
X s
X r
X
(xi − x̄)(yj − ȳ)nij xi yj nij xi ( nij ) yj ( nij )
i=1 j=1 i=1 j=1 i=1 j=1 j=1 i=1
σxy = = − ȳ − x̄ + x̄ȳ =
N N N N
r X
X s r s
X
X
xi yj nij xi nxi yj nyj
i=1 j=1 i=1 j=1
= − ȳ − x̄ + x̄ȳ =
N N N
= MXY − ȳMX − x̄MY + MX MY = MXY − ȳMX = MXY − MX MY
Ejemplo 2.3.2.1 Calcular la varianza de X, la varianza de Y y la covarianza de (X, Y ) para la

distribución del ejercicio 2.2.1
σx2 = MX 2 − (MX )2 = 70 56 − 20 62 = 00 8 σy2 = MY 2 − (MY )2 = 20 48 − 10 442 = 00 406
σxy = MXY − MX MY = 30 4 − 20 6 · 10 44 = −00 344
2.4. Las rectas de regresión

Al observar el diagrama de dispersión de una variable estadı́stica bidimensional, se puede tratar
de encontrar la recta que mejor se ajuste a la nube de puntos con el fin de analizar el grado de
dependencia de las variables y poder realizar predicciones.
Si dado un valor xi de la variable X se quiere predecir el valor correspondiente yi de la variable Y ,
se debe obtener, en primer lugar, la recta de regresión de Y sobre X, que se denota por ryx , y es de
la forma y = a + bx, donde a y b son dos parámetros a estimar; si dado un valor yi se quiere predecir
el valor correspondiente de la variable X, se tratará de encontrar una recta de la forma x = α + βy
llamada recta de regresión de X sobre Y , que se denota por rxy .
Para calcular los parámetros a, b ó α y β se utilizará el método de los mı́nimos cuadrados.
Figura 2.1: Rectas de regresión

32
2.4.1. Regresión lineal de Y sobre X (Método de los mı́nimos cuadrados)
Sea Pi = (xi, yi ) un punto del diagrama de dispersión, con frecuencia ni ∀i = 1, · · · , k

Se busca la recta, de la forma y = a + bx , que mejor se ajuste a la nube de puntos, es decir, que
minimice la suma de las desviaciones cuadráticas. Vamos a estimar a y b utilizando el método de los
mı́nimos cuadrados.
1. Se calculan las desviaciones en ordenadas de los puntos
δi = yi − (a + bxi) = longitud Pi Qi ∀i = 1, · · · , k
2. Se elevan al cuadrado, para evitar compensaciones de signo al sumarlas
δi2 = (yi − (a + bxi))2 ∀i = 1, · · · , k
3. Se suman las desviaciones cuadráticas multiplicadas cada una por su frecuencia absoluta
k
X k
X
δi2ni = (yi − (a + bxi ))2 ni = F (a, b)
i=1 i=1
4. Se calculan los valores a y b que minimizan F (a, b)
Condiciones necesarias
k k k
∂F (a, b) X X X
=0 −2 (yi − (a + bxi ))ni = 0 − yi ni + aN + b xi ni = 0
∂a
⇒ i=1 ⇒ i=1 i=1
k
X Xk k
X k
X
∂F (a, b) −2 (yi − (a + bxi ))xini = 0 − yi xi ni + a xi ni + b x2i ni = 0
=0
∂b i=1 i=1 i=1 i=1
Xk
Si dividimos por N = ni las dos ecuaciones , el sistema anterior equivale al siguiente
i=1

a +bMX = MY
→ Resolvemos, para calcular los puntos crı́ticos (â, b̂)
aMX +bMX 2 = MXY
El determinante de los coeficientes de las incógnitas
1 MX
= MX 2 − (MX )2 = σx2 ≥ 0
MX MX 2
k
X
(xi − x̄)2ni
i=1
Se comprueba que σx2 > 0, pues si σx2 = 0 ⇒ = 0 ⇒ xi = x̄ ∀i, todos
N
los puntos estarı́an sobre la recta x = MX .
Por tanto, el determinante de los coeficientes de las incógnitas es mayor que cero y el
sistema, compatible determinado, posee una única solución (â, b̂).
Veremos que (â, b̂) es un mı́nimo local.
Condiciones suficientes
k

∂ 2F (a, b) X 

= 2 ni = 2N 

∂a2 i=1









k
∂ 2F (a, b) X 
=2 xi ni = 2NMX ⇒
∂a∂b i=1








2 k 
∂ F (a, b) X
2


2
= 2 x i ni = 2NMX

2 

∂b i=1
2N > 0 2NMX
El hessiano H(a, b) = = 4N 2 (MX 2 − (MX )2) = 4N 2 σx2 > 0
2NMX 2NMX 2
Entonces (â, b̂) es un mı́nimo local.
Cálculo de ryx ≡ y = a + bx
Primera forma Se resuelve el sistema compatible determinado

a +bMX = MY
aMX +bMX 2 = MXY
Segunda forma Hay que observar que
(MX , MY ) ∈ ryx
1 MY
MX MXY MXY − MX MY σxy
la pendiente de ryx es b= = 2
= 2
1 MX σx σx
MX MX 2
σxy
Entonces ryx ≡ y − MY = (x − MX )
σx2
34
Ejemplo 2.4.1.1 Calcular la recta de regresión de Y sobre X para la variable estadı́stica bidimen-
sional de ejercicio 2.2.1 y utilizarla para predecir el valor de Y cuando xi = 5
σxy
Como ryx ≡ y − MY = (x − MX ) y tenemos calculadas las medias, las varianzas y la covarianza
σx2
−00344
y − 10 44 = (x − 20 6) ⇒ y = 10 44 − 00 43(x − 20 6)
08
0
Entonces, sustituyendo xi = 4 se obtiene yi = 00 838 ( ver figura Figura 2.1)
2.4.2. Regresión lineal de X sobre Y (Método de los mı́nimos cuadrados)
Sea Pi = (xi, yi ) un punto del diagrama de dispersión, con frecuencia ni ∀i = 1, · · · , k

Se busca la recta, de la forma x = α + βy , que mejor se ajuste a la nube de puntos.
Vamos a estimar α y β utilizando el método de los mı́nimos cuadrados.
1. Se calculan las desviaciones en abcisas de los puntos
ωi = xi − (α + βyi ) = longitud Pi Qi ∀i = 1, · · · , k
2. Se elevan al cuadrado, para evitar compensaciones de signo al sumarlas
ωi2 = (xi − (α + βyi))2 ∀i = 1, · · · , k
3. Se suman las desviaciones cuadráticas multiplicadas cada una por su frecuencia

k
X k
X
ωi2 ni = (xi − (α + βyi))2 ni = F (α, β)
i=1 i=1
4. Se calculan los valores α y β que minimizan F (α, β)

Condiciones necesarias
k k k
∂F (α, β) X X X
=0 −2 (xi − (α + βyi ))ni = 0 − xi ni + αN + β yi ni = 0
∂α
⇒ i=1 ⇒ i=1 i=1
k k k k
∂F (α, β) X X X X
=0 −2 (xi − (α + βyi ))yi ni = 0 − xi yi ni + α yi ni + β yi2 ni = 0
∂β i=1 i=1 i=1 i=1
k
X
Si dividimos por N = ni las dos ecuaciones , el sistema anterior equivale al siguiente
i=1

α +βMY = MX
→ Resolvemos, para calcular los puntos crı́ticos (α̂, β̂)
αMY +βMY 2 = MXY
El determinante de los coeficientes de las incógnitas
1 MY
= MY 2 − (MY )2 = σy2 ≥ 0
MY MY 2
k
X
(yi − ȳ)2 ni
i=1
Se comprueba que σy2 > 0, pues si σy2 = 0 ⇒ = 0 ⇒ yi = ȳ ∀i, todos los
N
puntos estarı́an sobre la recta y = MY .
Por tanto, el determinante de los coeficientes de las incógnitas es mayor que cero y el
sistema, compatible determinado, posee una única solución (α̂, β̂).
Veremos que (α̂, β̂) es un mı́nimo local.
Condiciones suficientes
k

∂ 2F (α, β) X 

2
= 2 n i = 2N 

∂α i=1









2 k 
∂ F (α, β) X
=2 yini = 2NMY ⇒
∂α∂β i=1








2 k 
∂ F (α, β) X
2


= 2 y i ni = 2NMY 2


∂β 2 i=1

2N > 0 2NMY
El hessiano H(α, β) = = 4N 2 (MY 2 − MY2 ) = 4N 2 σy2 > 0
2NMY 2NMY 2
Entonces (α̂, β̂) es un mı́nimo local.
Cálculo de rxy ≡ x = α + βy
Primera forma Se resuelve el sistema compatible determinado

α +βMY = MX
αMY +βMY 2 = MXY
36
Segunda forma Hay que observar que
(MX , MY ) ∈ rxy ∩ ryx

1 MX
MY MXY MXY − MX MY σxy
β= = 2
= 2
1 MY σy σy
MY MY 2
σxy
Entonces rxy ≡ x − MX = (y − MY )
σy2
Ejemplo 2.4.2.1 Calcular la recta de regresión de X sobre Y para la variable estadı́stica bidimen-
sional de ejercicio 2.2.1 y utilizarla para predecir el valor de X cuando yi = 20 5
σxy
Como rxy ≡ x − MX = (y − MY ) y tenemos calculadas las medias, las varianzas y la covarianza
σy2
−00 344
x − 20 6 = (y − 10 44) ⇒ x = 20 6 − 00 847(y − 10 44)
00 406
Entonces, sustituyendo yi = 20 5 se obtiene xi = 10 70 ( ver figura Figura 2.1)
Definición
σxy σxy
A b = 2 y a β = 2 se les denomina coeficientes de regresión lineal de Y sobre X, y
σx σy
de X sobre Y , respectivamente.
Los coeficientes de regresión lineal del ejercicio 2.2.1 son b = −00 43 y β = −00 847
2.4.3. Coeficiente de correlación lineal

Definición
Se llama correlación al grado de dependencia de las variables X e Y .
Definición
σxy σxy
Sean b = y β= los coeficientes de regresión lineal.
σx2 σy2
Se llama coeficiente de correlación lineal, que se denota por r, al número
s
2
p σxy |σxy | σxy
r = ± bβ = ± 2 2
=± = (el signo depende del signo de la covarianza)
σx σy σx σy σx σy
√ p
En el ejercicio 2.2.1 r = ± bβ = − (−0043)(−00 847) = −00603
=OBSERVACIÓN=
r2 = bβ
 σxy rσx σy σy

 b = 2
= 2
= r

 σx σx σx
σxy = rσx σy ⇒

 σxy rσx σy σx
 β= 2 =

2
=r
σy σy σy
Correlación directa e inversa


σy

 b=r >0

 σx
Si r > 0 ⇒ y se dice que la correlación entre X e Y es directa.

 σx
 β=r
 >0
σy
Si r < 0 ⇒ b < 0 ∧ β < 0 y se dice que la correlación entre X e Y es inversa.

38
Propiedades
1. |r| ≤ 1 o bien r ∈ [−1, 1]
Demostración
Sea (X, Y ) una variable que toma los valores (xi, yi ) con frecuencia ni ∀i = 1, · · · , k
k
X
/ ni = N. Sea ryx ≡ y = a + bx la recta de regresión de Y sobre X.
i=1
Se calcula la suma de las desviaciones cuadráticas respecto a las ordenadas
k
X
D= (yi − (a + bxi ))2ni
i=1
k
X k
X
D= (yi − (a + bxi ))2 ni =
|{z} (yi − (MY + b(xi − MX ))2ni =
i=1 i=1
ryx ≡ y − MY = b(x − MX )
k
X
= (yi − MY − b(xi − MX ))2 ni =
i=1
k
X k
X k
X
2 2 2
= (yi − MY ) ni + b (xi − MX ) ni − 2b (xi − MX )(yi − MY )ni ⇒
i=1 i=1 i=1
Dividiendo la suma de las desviaciones cuadráticas entre el número total de observaciones

k
X k
X k
X
(yi − MY )2 ni (xi − MX )2ni (xi − MX )(yi − MY )ni
D i=1
= + b2 i=1 − 2b i=1 =
N N N N
σy2 2 σy
= σy2 + b2σx2 − 2b σxy = σy2 + r 2 σx − 2r rσx σy = σy2 + r2 σy2 − 2r2 σy2 =
2
|{z}
σ
σx σx
b=r σy
x
σxy =rσx σy
= σy2 − r2 σy2 = (1 − r2 )σy2
D
= (1 − r2 ) σy2 ⇒ 1 − r2 ≥ 0 ⇔ r ∈ [−1, 1] ⇔ |r| ≤ 1
N |{z}
|{z}
≥0 ≥0
D
2. Como = (1 − r2 )σy2
N 
D

 alcanza el valor máximo ⇒ MÁXIMA DESVIACIÓN


 N







 
 b=0
 ⇒
|{z} y = MY ≡ ryx 
Si r = 0 ⇒ 

 y − MY = b(x − MX ) 



 



 ⇒
|{z} ryx ⊥ rxy

 

  (MX ,MY )∈ryx∩rxy


 β=0 ⇒
|{z} x = MX ≡ rxy 



 

x − MX = β(y − MY )
Figura 2.4: Variables independientes o incorreladas

 D

 alcanza el valor mı́nimo ⇒ MÍNIMA DESVIACIÓN


 N




 r = 1 ó r = −1 (

)
Si |r| = 1 ⇒ 1 ryx ≡ y = a + bx


 r2 = bβ ⇒ β = ⇒ 1

 b r xy ≡ x = α + βy ⇔ x = α + y ⇒ y = bx − bα


 b


 tienen la misma pendiente y pasan por el punto (Mx , My )
 ⇒ ryx = rxy
40
Figura 2.5: Variables dependientes
=OBSERVACIÓN=
Si |r| > 005 se dice que la correlación entre la variables es significativa.
En el ejercicio 2.2.1 r = −00 603 se trata de una correlación inversa y significativa.
Ejemplo 2.4.1 De una distribución bidimensional (X, Y ) se sabe
1. La recta de regresión de X sobre Y rxy ≡ x = 2y − 1
2. La recta de regresión de Y sobre X pasa por el punto (4, 2)
3. La distribución marginal de Y es
yi ni
0 1
1 4
2 1
3 2
N=8
Se pide
1. La media de Y , la media de X, la covarianza de (X, Y ) y la media de XY .
2. La recta de regresión de Y sobre X, el coeficiente de regresión lineal de Y sobre X y la desviación

tı́pica de X.
3. El coeficiente de correlación lineal. ¿ La correlación es significativa, es directa o inversa?

1. La media de Y se calcula completando la tabla de la distribución
yi ni yini yi2 ni
0 1 0 0
1 4 4 4
2 1 2 4
3 2 6 18
N=8 12 26
12 3
MY = = entonces como (MX , MY ) ∈ rxy ≡ x = 2y − 1
8 2
3
MX = 2MY − 1 ⇒ MX = 2MY − 1 = 2 · −1=2
2
σxy
La covarianza de (X, Y ) la vamos a obtener utilizando la fórmula β = y calculando pre-
σy2
viamente la varianza de Y
26 9 σxy
σy2 = MY 2 − (MY )2 = − =1 β=2= ⇒ σxy = 2
8 4 1
Para calcular la media de XY tendremos en cuenta que σxy = MXY − MX MY
2 = MXY − 3 ⇒ MXY = 5
σxy
2. La recta de regresión de Y sobre X es y − MY = (x − MX )
σx2
3 2
ryx ≡ y − = 2 (x − 2)
2 σx
3 2
Como el punto (4, 2) ∈ ryx ⇒ 2 − = 2 (4 − 2) ⇒ σx2 = 8
2 σx
3 1
ryx ≡ y − = (x − 2)
2 4
1
El coeficiente de regresión lineal de Y sobre X es b =
√ 4
La desviación tı́pica de X es σx = 8
r
√ 1
3. El coeficiente de correlación lineal r = ± bβ = + ≈ 00 71 > 00 5 y por tanto la correlación
2
es significativa y directa.

Análisis bidimensional de datos - Conceptos generales, tablas de frecuencias y momentos

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Análisis bidimensional de datos - Conceptos generales, tablas de frecuencias y momentos

Încărcat de

Drepturi de autor:

Formate disponibile

Capı́tulo 2

Análisis bidimensional de datos

2.1. Conceptos generales

En este capı́tulo nos centraremos en las variables estadı́sticas bidimensionales (X, Y ).

Existe dos tipos de dependencia:

2.2. Tablas de frecuencias

Definimos dos variables

Ventas A xi Ventas B yj Número de dı́as nij

Diagrama de dispersión o nube de puntos Es el gráfico de X frente a Y o de Y frente a

Tabla de correlación de (X, Y )

2.3.1. Momentos respecto al origen o centrales

MX = x̄, MY = ȳ, MX 2 es la media de la variable X 2 , MY 2 es la media de la variable Y 2

xi yj nij xiyj nij

2.3.2. Momentos respecto a la media

A σxy se la denomina COVARIANZA de (X,Y)

Ejemplo 2.3.2.1 Calcular la varianza de X, la varianza de Y y la covarianza de (X, Y ) para la

2.4. Las rectas de regresión

Figura 2.1: Rectas de regresión

2.4.1. Regresión lineal de Y sobre X (Método de los mı́nimos cuadrados)

Sea Pi = (xi, yi ) un punto del diagrama de dispersión, con frecuencia ni ∀i = 1, · · · , k

1. Se calculan las desviaciones en ordenadas de los puntos

2. Se elevan al cuadrado, para evitar compensaciones de signo al sumarlas

δi2 = (yi − (a + bxi))2 ∀i = 1, · · · , k

4. Se calculan los valores a y b que minimizan F (a, b)

El determinante de los coeficientes de las incógnitas

Segunda forma Hay que observar que

Entonces, sustituyendo xi = 4 se obtiene yi = 00 838 ( ver figura Figura 2.1)

2.4.2. Regresión lineal de X sobre Y (Método de los mı́nimos cuadrados)

Sea Pi = (xi, yi ) un punto del diagrama de dispersión, con frecuencia ni ∀i = 1, · · · , k

1. Se calculan las desviaciones en abcisas de los puntos

2. Se elevan al cuadrado, para evitar compensaciones de signo al sumarlas

ωi2 = (xi − (α + βyi))2 ∀i = 1, · · · , k

3. Se suman las desviaciones cuadráticas multiplicadas cada una por su frecuencia

4. Se calculan los valores α y β que minimizan F (α, β)

Primera forma Se resuelve el sistema compatible determinado

Segunda forma Hay que observar que

(MX , MY ) ∈ rxy ∩ ryx

2.4.3. Coeficiente de correlación lineal

Correlación directa e inversa

Figura 2.2: Rectas de regresión

Si r < 0 ⇒ b < 0 ∧ β < 0 y se dice que la correlación entre X e Y es inversa.

Figura 2.3: Rectas de regresión

Dividiendo la suma de las desviaciones cuadráticas entre el número total de observaciones

= σy2 − r2 σy2 = (1 − r2 )σy2

Figura 2.4: Variables independientes o incorreladas

Figura 2.5: Variables dependientes

Si |r| > 005 se dice que la correlación entre la variables es significativa.

En el ejercicio 2.2.1 r = −00 603 se trata de una correlación inversa y significativa.

Ejemplo 2.4.1 De una distribución bidimensional (X, Y ) se sabe

1. La recta de regresión de X sobre Y rxy ≡ x = 2y − 1

2. La recta de regresión de Y sobre X pasa por el punto (4, 2)

1. La media de Y , la media de X, la covarianza de (X, Y ) y la media de XY .

2. La recta de regresión de Y sobre X, el coeficiente de regresión lineal de Y sobre X y la desviación

3. El coeficiente de correlación lineal. ¿ La correlación es significativa, es directa o inversa?

1. La media de Y se calcula completando la tabla de la distribución

S-ar putea să vă placă și