Documente Academic
Documente Profesional
Documente Cultură
Uno de los objetivos, de este estudio, será confirmar si existe algún tipo de relación(dependencia)
entre las variables X e Y y calcular, en ese caso, su grado de dependencia.
25
26
Ejemplo 2.2.1 Para hacer un estudio de la aceptación de dos modelos de automóviles de reciente
fabricación (MODELO A ) y (MODELO B) se han considerado las ventas efectuadas por un conce-
sionario durante el último septiembre.
LUNES MARTES MIÉRCOLES JUEVES VIERNES SABADO
1 2 3 4 5
0 2 2 1 2 1 4 1 2 2
7 8 9 10 11 No laborable
3 1 2 2 3 2 3 1 2 2
14 15 16 17 18 19
3 1 3 1 1 3 3 2 4 0 3 1
21 22 23 24 25 26
2 1 2 2 3 1 3 2 3 1 4 1
28 29 30
3 1 2 2 3 2
Tabla simple Es la más sencilla, aparecen los distintos valores (xi , yj ) que toma la variable
bidimensional (X, Y ) y sus frecuencias de aparición.
• X ≡número de coches vendidos del MODELO A un dı́a determinado, que puede tomar
los valores xi = 0, 1, 2, 3, 4
• Y ≡número de coches vendidos del MODELO B un dı́a determinado, que puede tomar
los valores yj = 0, 1, 2, 3
Sea nij ≡número de veces que la variable bidimensional (X, Y ) toma el valor (xi , yj )
Por ejemplo:
xi/yj = 1 ni
yj /xi = 3 nj
2 3
1 8
3 8
2 4
4 2
12
13
2.3. Momentos
Son unos números que caracterizan a las distribuciones conjuntas y marginales de una variable
bidimensional; midiendo, por ejemplo, la tendencia a la centralización o la tendencia a la dispersión
respecto de algún valor central.
28
s
X
la variable Y toma los valores yj que ocurren nyj veces ∀j = 1, · · · , s / nyj = N
j=1
la variable (X, Y ) toma los valores (xi , yj ) que ocurren nij veces ∀i = 1, · · · , r
XX Xs r
X
∀j = 1, · · · , s / nij = N nxi = nij nyj = nij
i j j=1 i=1
Definición
Se llama momento central de orden h, k (∀h ∈ IN ∀k ∈ IN) respecto al origen, y se denota
por ahk, al número
X r Xs
xhi yjk nij
i=1 j=1
ahk =
N
Los momentos centrales más utilizados son
r s
X
X
xi nxi yj nyj
i=1 j=1
a10 = = MX a01 = = MY
N s
N
r
X X
x2i nxi yj2nyj
i=1 j=1
a20 = = MX 2 a02 = = MY 2
N N
r X
X s
xi yj nij
i=1 j=1
a11 = = MXY
N
=Notación=
Ejemplo 2.3.1.1 Completando las tablas de distribución necesarias, calcular los momentos centrales
a10, a01, a20, a02, a11 para los datos del ejercicio 2.2.1
Las tablas de las distribuciones marginales de X e Y ampliadas convenientemente son
xi nxi xinxi x2i nxi
yj nyj yj nyj yj2 nyj
0 1 0 0
0 1 0 0
1 1 1 1
1 13 13 13
2 8 16 32
2 10 20 40
3 12 36 108
3 1 3 9
4 3 12 48
N = 25 36 62
N = 25 65 189
Entonces
r s
X
X
xi nxi yj nyj
i=1 65 j=1 36
a10 = = = 20 6 = MX a01 = = = 10 44 = MY
N 25 s
N 25
r
X X
x2i nxi yj2nyj
i=1 189 j=1 62
a20 = = = 70 56 = MX 2 a02 = = = 20 48 = MY 2
N 25 N 25
Con la tabla simple ampliada
s
X
la variable Y toma los valores yj que ocurren nyj veces ∀j = 1, · · · , s / nyj = N con
j=1
media ȳ = MY
la variable (X, Y ) toma los valores (xi , yj ) que ocurren nij veces ∀i = 1, · · · , r
XX Xs Xr
∀j = 1, · · · , s / nij = N nxi = nij nyj = nij .
i j j=1 i=1
La media de la variable XY es MXY
Definición
Se llama momento de orden h, k (∀h ∈ IN ∀k ∈ IN) respecto a la media, y se denota por
mhk, al número
r X
X s
(xi − x̄)h (yj − ȳ)k nij
i=1 j=1
mhk = ∀h ∈ IN ∀k ∈ IN
N
Destacamos
r s
X
X
(xi − x̄)nxi (yj − ȳ)nyj
i=1 j=1
m10 = =0 m01 = =0
N s
N
r
X X
(xi − x̄) nxi2 (yj − ȳ)2 nyj
i=1 j=1
m20 = = σx2 m02 = = σy2
N N
r X
X s
(xi − x̄)(yj − ȳ)nij
i=1 j=1
m11 = = σxy
N
Proposición
Dada una variable estadı́stica X =⇒ σx2 = MX 2 − (MX )2
Demostración
Xr r
X r
X r
X
(xi − x̄)2nxi (x2i + x̄2 − 2xi x̄)nxi x2i nxi xi nxi
i=1 i=1 i=1 i=1
σx2 = = = + x̄2 − 2x̄ =
r
N r
N N N
X X
x2i nxi x2i nxi
i=1 i=1
= + x̄2 − 2x̄2 = − x̄2 = MX 2 − (MX )2
N N
Capı́tulo – 2. Estadı́stica descriptiva 31
Proposición
Dada una variable estadı́stica bidimensional (X, Y ) =⇒ σxy = MXY − MX MY
Demostración
r X
X s r X
X s r
X s
X s
X r
X
(xi − x̄)(yj − ȳ)nij xi yj nij xi ( nij ) yj ( nij )
i=1 j=1 i=1 j=1 i=1 j=1 j=1 i=1
σxy = = − ȳ − x̄ + x̄ȳ =
N N N N
r X
X s r s
X
X
xi yj nij xi nxi yj nyj
i=1 j=1 i=1 j=1
= − ȳ − x̄ + x̄ȳ =
N N N
= MXY − ȳMX − x̄MY + MX MY = MXY − ȳMX = MXY − MX MY
δi = yi − (a + bxi) = longitud Pi Qi ∀i = 1, · · · , k
3. Se suman las desviaciones cuadráticas multiplicadas cada una por su frecuencia absoluta
k
X k
X
δi2ni = (yi − (a + bxi ))2 ni = F (a, b)
i=1 i=1
Condiciones necesarias
k k k
∂F (a, b) X X X
=0 −2 (yi − (a + bxi ))ni = 0 − yi ni + aN + b xi ni = 0
∂a
⇒ i=1 ⇒ i=1 i=1
k
X Xk k
X k
X
∂F (a, b) −2 (yi − (a + bxi ))xini = 0 − yi xi ni + a xi ni + b x2i ni = 0
=0
∂b i=1 i=1 i=1 i=1
Xk
Si dividimos por N = ni las dos ecuaciones , el sistema anterior equivale al siguiente
i=1
a +bMX = MY
→ Resolvemos, para calcular los puntos crı́ticos (â, b̂)
aMX +bMX 2 = MXY
Capı́tulo – 2. Estadı́stica descriptiva 33
1 MX
= MX 2 − (MX )2 = σx2 ≥ 0
MX MX 2
k
X
(xi − x̄)2ni
i=1
Se comprueba que σx2 > 0, pues si σx2 = 0 ⇒ = 0 ⇒ xi = x̄ ∀i, todos
N
los puntos estarı́an sobre la recta x = MX .
Por tanto, el determinante de los coeficientes de las incógnitas es mayor que cero y el
sistema, compatible determinado, posee una única solución (â, b̂).
Veremos que (â, b̂) es un mı́nimo local.
Condiciones suficientes
k
∂ 2F (a, b) X
= 2 ni = 2N
∂a2 i=1
k
∂ 2F (a, b) X
=2 xi ni = 2NMX ⇒
∂a∂b i=1
2 k
∂ F (a, b) X
2
2
= 2 x i ni = 2NMX
2
∂b i=1
2N > 0 2NMX
El hessiano H(a, b) = = 4N 2 (MX 2 − (MX )2) = 4N 2 σx2 > 0
2NMX 2NMX 2
Entonces (â, b̂) es un mı́nimo local.
Cálculo de ryx ≡ y = a + bx
Primera forma Se resuelve el sistema compatible determinado
a +bMX = MY
aMX +bMX 2 = MXY
(MX , MY ) ∈ ryx
1 MY
MX MXY MXY − MX MY σxy
la pendiente de ryx es b= = 2
= 2
1 MX σx σx
MX MX 2
σxy
Entonces ryx ≡ y − MY = (x − MX )
σx2
34
Ejemplo 2.4.1.1 Calcular la recta de regresión de Y sobre X para la variable estadı́stica bidimen-
sional de ejercicio 2.2.1 y utilizarla para predecir el valor de Y cuando xi = 5
σxy
Como ryx ≡ y − MY = (x − MX ) y tenemos calculadas las medias, las varianzas y la covarianza
σx2
−00344
y − 10 44 = (x − 20 6) ⇒ y = 10 44 − 00 43(x − 20 6)
08
0
ωi = xi − (α + βyi ) = longitud Pi Qi ∀i = 1, · · · , k
Condiciones necesarias
k k k
∂F (α, β) X X X
=0 −2 (xi − (α + βyi ))ni = 0 − xi ni + αN + β yi ni = 0
∂α
⇒ i=1 ⇒ i=1 i=1
k k k k
∂F (α, β) X X X X
=0 −2 (xi − (α + βyi ))yi ni = 0 − xi yi ni + α yi ni + β yi2 ni = 0
∂β i=1 i=1 i=1 i=1
k
X
Si dividimos por N = ni las dos ecuaciones , el sistema anterior equivale al siguiente
i=1
α +βMY = MX
→ Resolvemos, para calcular los puntos crı́ticos (α̂, β̂)
αMY +βMY 2 = MXY
El determinante de los coeficientes de las incógnitas
1 MY
= MY 2 − (MY )2 = σy2 ≥ 0
MY MY 2
k
X
(yi − ȳ)2 ni
i=1
Se comprueba que σy2 > 0, pues si σy2 = 0 ⇒ = 0 ⇒ yi = ȳ ∀i, todos los
N
puntos estarı́an sobre la recta y = MY .
Por tanto, el determinante de los coeficientes de las incógnitas es mayor que cero y el
sistema, compatible determinado, posee una única solución (α̂, β̂).
Veremos que (α̂, β̂) es un mı́nimo local.
Condiciones suficientes
k
∂ 2F (α, β) X
2
= 2 n i = 2N
∂α i=1
2 k
∂ F (α, β) X
=2 yini = 2NMY ⇒
∂α∂β i=1
2 k
∂ F (α, β) X
2
= 2 y i ni = 2NMY 2
∂β 2 i=1
2N > 0 2NMY
El hessiano H(α, β) = = 4N 2 (MY 2 − MY2 ) = 4N 2 σy2 > 0
2NMY 2NMY 2
Entonces (α̂, β̂) es un mı́nimo local.
Cálculo de rxy ≡ x = α + βy
σxy
Entonces rxy ≡ x − MX = (y − MY )
σy2
Ejemplo 2.4.2.1 Calcular la recta de regresión de X sobre Y para la variable estadı́stica bidimen-
sional de ejercicio 2.2.1 y utilizarla para predecir el valor de X cuando yi = 20 5
σxy
Como rxy ≡ x − MX = (y − MY ) y tenemos calculadas las medias, las varianzas y la covarianza
σy2
−00 344
x − 20 6 = (y − 10 44) ⇒ x = 20 6 − 00 847(y − 10 44)
00 406
Entonces, sustituyendo yi = 20 5 se obtiene xi = 10 70 ( ver figura Figura 2.1)
Definición
σxy σxy
A b = 2 y a β = 2 se les denomina coeficientes de regresión lineal de Y sobre X, y
σx σy
de X sobre Y , respectivamente.
Los coeficientes de regresión lineal del ejercicio 2.2.1 son b = −00 43 y β = −00 847
Definición
σxy σxy
Sean b = y β= los coeficientes de regresión lineal.
σx2 σy2
Se llama coeficiente de correlación lineal, que se denota por r, al número
s
2
p σxy |σxy | σxy
r = ± bβ = ± 2 2
=± = (el signo depende del signo de la covarianza)
σx σy σx σy σx σy
√ p
En el ejercicio 2.2.1 r = ± bβ = − (−0043)(−00 847) = −00603
Capı́tulo – 2. Estadı́stica descriptiva 37
=OBSERVACIÓN=
r2 = bβ
σxy rσx σy σy
b = 2
= 2
= r
σx σx σx
σxy = rσx σy ⇒
σxy rσx σy σx
β= 2 =
2
=r
σy σy σy
Propiedades
1. |r| ≤ 1 o bien r ∈ [−1, 1]
Demostración
Sea (X, Y ) una variable que toma los valores (xi, yi ) con frecuencia ni ∀i = 1, · · · , k
k
X
/ ni = N. Sea ryx ≡ y = a + bx la recta de regresión de Y sobre X.
i=1
Se calcula la suma de las desviaciones cuadráticas respecto a las ordenadas
k
X
D= (yi − (a + bxi ))2ni
i=1
k
X k
X
D= (yi − (a + bxi ))2 ni =
|{z} (yi − (MY + b(xi − MX ))2ni =
i=1 i=1
ryx ≡ y − MY = b(x − MX )
k
X
= (yi − MY − b(xi − MX ))2 ni =
i=1
k
X k
X k
X
2 2 2
= (yi − MY ) ni + b (xi − MX ) ni − 2b (xi − MX )(yi − MY )ni ⇒
i=1 i=1 i=1
D
= (1 − r2 ) σy2 ⇒ 1 − r2 ≥ 0 ⇔ r ∈ [−1, 1] ⇔ |r| ≤ 1
N |{z}
|{z}
≥0 ≥0
D
2. Como = (1 − r2 )σy2
N
D
alcanza el valor máximo ⇒ MÁXIMA DESVIACIÓN
N
b=0
⇒
|{z} y = MY ≡ ryx
Si r = 0 ⇒
y − MY = b(x − MX )
⇒
|{z} ryx ⊥ rxy
(MX ,MY )∈ryx∩rxy
β=0 ⇒
|{z} x = MX ≡ rxy
x − MX = β(y − MY )
D
alcanza el valor mı́nimo ⇒ MÍNIMA DESVIACIÓN
N
r = 1 ó r = −1 (
)
Si |r| = 1 ⇒ 1 ryx ≡ y = a + bx
r2 = bβ ⇒ β = ⇒ 1
b r xy ≡ x = α + βy ⇔ x = α + y ⇒ y = bx − bα
b
tienen la misma pendiente y pasan por el punto (Mx , My )
⇒ ryx = rxy
40
=OBSERVACIÓN=
3. La distribución marginal de Y es
yi ni
0 1
1 4
2 1
3 2
N=8
Se pide
yi ni yini yi2 ni
0 1 0 0
1 4 4 4
2 1 2 4
3 2 6 18
N=8 12 26
12 3
MY = = entonces como (MX , MY ) ∈ rxy ≡ x = 2y − 1
8 2
3
MX = 2MY − 1 ⇒ MX = 2MY − 1 = 2 · −1=2
2
σxy
La covarianza de (X, Y ) la vamos a obtener utilizando la fórmula β = y calculando pre-
σy2
viamente la varianza de Y
26 9 σxy
σy2 = MY 2 − (MY )2 = − =1 β=2= ⇒ σxy = 2
8 4 1
Para calcular la media de XY tendremos en cuenta que σxy = MXY − MX MY
2 = MXY − 3 ⇒ MXY = 5
σxy
2. La recta de regresión de Y sobre X es y − MY = (x − MX )
σx2
3 2
ryx ≡ y − = 2 (x − 2)
2 σx
3 2
Como el punto (4, 2) ∈ ryx ⇒ 2 − = 2 (4 − 2) ⇒ σx2 = 8
2 σx
3 1
ryx ≡ y − = (x − 2)
2 4
1
El coeficiente de regresión lineal de Y sobre X es b =
√ 4
La desviación tı́pica de X es σx = 8
r
√ 1
3. El coeficiente de correlación lineal r = ± bβ = + ≈ 00 71 > 00 5 y por tanto la correlación
2
es significativa y directa.