Sunteți pe pagina 1din 106

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO

DECANATO DE CIENCIAS Y TEGNOLOGÍA

DEPARTAMENTO DE INVESTIGACIÓN DE OPERACIONES Y ESTADÍSTICA

APUNTES DE ESTADÍSTICA MATEMÁTICA

LUZ E. RODRÍGUEZ Q.

BARQUISIMETO 2015
0.1. Introducción

La estadística es una Ciencia que tiene como finalidad facilitar la solución de problemas en los cuales necesi-

tamos conocer algunas caracteristicas sobre el comportamiento de algún suceso o evento. Características que nos

permiten conocer o mejorar el conocimiento de ese suceso. Además nos permiten inferir el comportamiento de

suscesos iguales o similares sin que estos ocurran. Esto nos da la posibilidad de tomar decisiones acertadas y a

tiempo, así como realizar proyecciones del comportamiento de algún suceso. Esto es debido a que solo realizamos

los cálculos y el análisis con los datos obtenidos de una muestra de la población y no con toda la población. Pues

hacerlo con todos los datos o población en algunos casos seria muy difícil y en otros casos casi imposible o impo-

sible. Difícil porque podría tratarse de una situación donde el número de datos es muy grande, como por ejemplo

si quisieramos saber el promedio de goles por juego de un equipo de futbol, a pesar de que se tienen los registros

de todos los resultados de sus juegos, son muchísimos los juegos y llevaría tiempo revisar todos los archivos para

obtener esos datos. O bien saber que porcentaje de personas tiene vehículos en una determinada ciudad.

El objetivo de la estadística es el de hacer inferencias respecto a una población con base en los datos que aporta

una muestra tomada de ésta. Toda la teoría de probabilidades, variables aleatorias discretas y continuas con sus

respectivas distribuciones, están íntimamente relacionadas con argumentos matemáticos que no se pueden dejar

de lado. En el capítulo 1, se describen los momentos y la función generadora de momentos de una determinada

población, así como también los distintos métodos para hallar la distribución de una función de variables aleatorias.

En el capítulo 2, las variables aleatorias continuas más usadas se describen con respecto a sus distribuciones, sus

momentos y su función generadora de momentos. En el capítulo 3, las variables aleatorias bidimencionales se

plantean para dar comienzo al análisis multivariado, pues muchos de los problemas de la vida real tienen más

de una variable para poder ser estudiados. En el capítulo 4 y 5, se analizan los modelos de regresión lineal y se

describe el análisis de varianza, cuya utilidad se extiende a muchas áreas sociales para representar de una manera

más adecuada un conjuntos de datos tomados de una población, además a través de los modelos lineales se pueden

realizar predicciones.

2
Índice general

0.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1. Variables Aleatorias Continuas 6

1.1. Momentos y función generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.2. Función de Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3. Propiedades Reproductivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.4. Ejercicios Propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2. Distribuciones Continuas 31

2.1. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.5. Distribución χ2 (Chi-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.6. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.7. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3. Variables Aleatorias Bidimensionales 37

3.1. Distribuciones de probabilidad bivariadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2. Distribuciones de Probabilidad Marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3
3.3. Distribuciones de Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.4. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.5. Valor Esperado de una Función de Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 53

3.5.1. Valores Esperados Condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.5.2. La Covarianza de dos Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5.3. Valor esperado y varianza de funciones lineales de v.a. . . . . . . . . . . . . . . . . . . . 59

3.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.7. Ejercicios Propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4. Regresión Múltiple y Correlación 74

4.1. Modelos Lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2. El Métodos de los Mínimos Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.3. Ajuste del modelo lineal mediante matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.4. Propiedades de los estimadores de Mínimos Cuadrados. . . . . . . . . . . . . . . . . . . . . . . 79

4.4.1. Para el modelo Y = β0 + β1 x + ε. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.4.2. Para el modelo lineal de regresión múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.5. Inferencia con respecto a los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.6. Predicción de un valor particular de Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.7. Comparación de Modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.7.1. Estadístico de la Prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.8. Técnicas de regresión por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.9. Ejercicios Propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5. Análisis de Varianza 96

5.1. Procedimiento del diseño de un experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5.2. Análisis de varianza para el diseño completamente aleatorizado . . . . . . . . . . . . . . . . . . . 97

4
5.2.1. Comparación de Medias entre los grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.3. Ejercicios Propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5
Capítulo 1

Variables Aleatorias Continuas

Recordemos que el proceso por medio del cual se obtiene una observación es llamado “Un Experimento”.

Al analizar un experimento podemos tener uno o más resultados que llamaremos “Eventos”.

Los eventos se clasifican en simples y compuestos que no se pueden descomponer.

Observación: Un evento simple corresponde a un punto muestral.

Espacio muestral (S o Ω): Es el conjunto de todos los posibles puntos muestrales.

Variable Aleatoria: Es una función X que asigna a cada uno de los elementos s ∈ S un número real X(s), es decir,

X : S −→ R

s ∈ S −→ X(s) ∈ R

Variable Aleatoria Continua: X es una v.a. continua si su conjunto de posibles resultados es un intervalo en la

recta real.

Sea X una v.a. La función de Distribución de X (o función de Distribución acumulada) denotada por F(x), está

dada por

F(x) = P(X ≤ x), −∞ < x < +∞.

Propiedades de F(x)

1. lı́m F(x) = F(−∞) = 0


x→−∞

2. lı́m F(x) = F(+∞) = 1


x→+∞

6
3. Si x1 < x2 entonces F(x1 ) ≤ F(x2 ).

Definición 1. Sea F(x) la función de distribución de una v.a. continua X. Entonces f (x), dada por,

d
f (x) = F(x) = F 0 (x)
dx

(siempre y cuando exista la derivada) se denomina Función de Densidad de Probabilidad para X.

Observemos que de las definiciones anteriores


Z x
F(x) = P(X ≤ x) = f (t)dt.
−∞

Propiedades de f (x).

1. f (x) ≥ 0, ∀x
Z +∞
2. f (x)dx = 1
−∞
Z b
3. P(a ≤ x ≤ b) = f (x)dx
a

Esperanza y varianza de una v.a. continua X con densidad de prob. f (x):


Z +∞
• E(X) = µ = x f (x)dx
−∞
Z +∞ Z +∞
• Var(X) = σ2 = (x − µ)2 f (x)dx = x2 f (x)dx − µ2
−∞ −∞

Esto es,

Var(x) = E(X 2 ) − [E(x)]2



σ= σ2 Es la Desviación Estándar.

Propiedades: X,Y v.a. a, b, c, ∈ R



 E(c)=c


 E(aX+b)=aE(X)+b



 E(X+Y)=E(X)+E(Y)


E(X.Y)=E(x).E(y) si X y Y son independientes

7

 Var(c) = 0

 Var(aX) = a2Var(X)

 


  Var(x) +Var(y) ± 2Cov(x, y)

 Var(X ±Y ) =
 
 Var(x) +Var(y) si X,Y son indep.

Cov(X,Y ) = E{[X − E(x)][Y − E(y)]}



= E(X Y ) − E(X).E(Y )

Teorema 1. (Teorema de Chebyshev)

Sea X una v.a. con media finita µ y varianza σ2 finita. Entonces, para cualquier k > 0,

1
P(|X − µ| ≤ kσ) ≥ 1 −
K2

o
1
P(|X − µ| ≥ kσ) ≤ .
K2

Ejemplo 1.0.1. El número de clientes que visitan un distribuidor de autos los sábados en la mañana es una v.a.

con µ = 18 y σ = 2 · 5. Usar el teorema de Chebyshev para calcular

P(8 ≤ X ≤ 28)

µ−8 10
µ − kσ = 8 ⇒ k= = =4
σ 2·5
28 − µ 10
µ + kσ = 28 ⇒ k= = =4
σ σ
1 15
∴ P(8 ≤ X ≤ 28) ≥ 1 − = ≈ 0 · 94
42 16

Ejemplo 1.0.2. Determinar k tal que la siguiente función pueda servir como densidad de probabilidad una v.a.

 kxe−4x2 , x > 0

f (x) =
, x≤0

 0

1ero f (x) ≥ 0, así k debe ser > 0


Z +∞ Z +∞
2
2do f (d)dx = 1, esto es kxe−4x dx = 1
−∞ 0

8
Haciendo u = 4x2 , du = 8xdx

k −k −u
Z Z
2
k xe−4x dx = e−u du = e
8 8
Z +∞
2 k
∴ kxe−4x dx = 1 ⇒ = 1 ⇒ k=8
0 8

Ejemplo 1.0.3. Dada la siguiente función



 cx para 0 < x < 4

f (x) =

 0 en otro caso

a) Determinar c tal que f (x) sea una función de densidad de la v.a. X.

b) Hallar F(x) y E(X).

Solución:

a) Sabemos que si f (x) es una f.d.p. se cumple


Z +∞ Z 0 Z 4 Z +∞
f (x)dx = 1 ⇒ 0dx + cx dx + 0 dx = 1
−∞ −∞ 0 4
4
x2
Z 4
⇒ cx dx = 1 ⇒ c =1
0 2 0
16 1
⇒ c =1⇒c=
2 8

b) Busquemos F(x)
Z x Z x
Para x<0 F(x) = f (t)dt = 0 dt = 0
−∞ Z −∞
x
Para 0≤x<4 F(x) = f (t)dt
Z −∞ x
1 t2
Z 0 Z x x 1 1 2
= f (t)dt + f (t)dt = t dt = x =
−∞ 0 0 8 8 2
0 16
t2 4
Z x Z 0 Z 4 Z x 
1
x ≥ 4 F(x) =
Para f (t)dt = 0 dt + t dt + 0 dt = =1
−∞ −∞ 0 8 4 16 0

0 si x < 0






F(x) = x2/16 si 0 ≤ x < 4




 1 si x ≥ 4

9
Z +∞ Z 0 Z 4 Z +∞ Z 4
1 1 2
• E(x) = x f (x)dx = 0 dx + x x dx + 0 dx = x dx
−∞ −∞ 0 8 4 0 8
3
4
1 x 1 64 8
= = =
8 3 0 8 3 3

Ejercicio: Dada la función de densidad


 3x2

si 0<x<1
f (x) =

 0 en otro caso

a) Hallar F(x)

b) Hallar E(x) y Var(x)

1.1. Momentos y función generadora de momentos

Definición 2. Sea Y una v.a., el k-ésimo momento de Y respecto al origen se define como E(Y k ), y se denota

por µ0k , siempre que la esperanza exista.

Notemos que:

µ01 = E(Y ) = µ 1er momento (posición)

µ02 = E(Y 2 ) = σ2 + µ2 2do momento (dispersión)

µ03 = E(Y 3 ) 3er momento (relacionado con asimetría)

µ04 = E(Y 4 ) 4to momento (relacionado con la curtosis)

Definición 3. Sea Y una v.a., el k-ésimo momento de Y respecto a la media o el k-ésimo momento central de Y ,

se define como E[(Y − µ)k ] y se denota por µk .

Notemos que µ2 = E[(Y − µ)2 ] = Var(Y ) = σ2 .

10
Definición 4. La función generadora de momentos de una v.a. Y es una función a valores reales definida por:

 ∑ety p(y)

 si y es discreta
ty y
mY (t) = E(e ) =
 R +∞ ety f (y)dy si y es continua


−∞

Siempre que el valor esperado exista para todo t ∈ (−h, h), para algún h > 0.

Notemos que my (t) = Ω(t) = E[ety ] se llama función generadora de momentos de Y porque

t2 0 t3 0 tn
my (t) = 1 + tµ01 + µ2 + µ3 + ... + µ0n + ...
2! 3! n!

Además, observemos que:

1. my (t) = E(ety ) es una función de todos los momentos µ0k respecto al origen para k = 1, 2, 3, ...

tk
2. µ0k es el coeficiente de en la expansión en series de my (t).
k!

Recordemos que:

+∞ (ty)k (ty)2 (ty)3


• ety = ∑ = 1 + ty + + + ...
k=0 k! 2! 3!
n
n i n−i
• (a + b)n = ∑ i ab
i=0

El siguiente teorema establece que si existe el momento de orden k de Y , entonces deben existir todos los

momentos de orden inferior.

Teorema 2. Si E(Y k ) < ∞, para k ∈ Z+ , entonces E(Y j ) < ∞, para cualquier enero positivo j < k.

Teorema 3. Sea Y una v.a. para la cual existe la f.g.m. my (t). Entonces para cualquier k ∈ Z+

d k my (t)

(k)
µ0k = m(0) =
dt k t=0

Ejemplos:

1. Sea Y una v.a. con distrib. exponencial de parámetro β, o sea con densidad

1 −y/β
f (y) = e ; β > 0, y>0
β

11
Hallar my (t), E(y) y Var(y)
R +∞ ty 1 −y/β
• my (t) = E(ety ) = 0 e e dy
β
1 R +∞ −( β1 −t)y 1 R +∞ −( 1−βt )y
= 0 e dy = 0 e
β dy
β β
 +∞
−1 ( 1−βt )y 1
= e β =
1 − βt 0 1 − βt
−1 1
∴ my (t) = (1 − βt) ,t <
 β 
d −
• E(y) = my (t) = β(1 − βt) 2 =β
dt t=0 t=0

• Var(y) = E(y2 ) − [E(y)]2


d2
 
2 d −
E(y ) = 2 mY (t) = [β(1 − βt) 2]
dt t=0  dt t=0
2
= 2β (1 − βt) −3 = 2β2
t=0

Var(y) = 2β2 − β2 = β2 .

2. Sea X ∼ Bin(n, p). Su función de probalidad es


 
n x
p(x) = p (1 − p)n−x , si 0 ≤ x ≤ n.
x

Hallar mx (t), E(x) y Var(X)


n
n x
mx (t) = E(etx ) = ∑ etx x p (1 − p)
n−x
x=0
n
n t x n−x
= ∑ x (e p) (1 − p)
x=0

= (et p + 1 − p)n = [(et − 1)p + 1]n


 
d t n−1 t
E(X) = mx (t) = n(e p + 1 − p) e p
dt t=0 t=0

= np

d
E(X 2 ) = 2 mx (t) = n(et p + 1 − p)n−1 et p + n(n − 1)(et p + 1 − p)n−2 (et p)2 t=0
 
dt t=0

= np + n(n − 1)p2 = np + n2 p2 − np2


Por tanto,

Var(X) = E(X 2 ) − [E(X)]2 = np + n2 p2 − np2 − (np)2 = np − np2 = np(1 − p) = npq.

Definición 5. Sea Y1 , ...,Yn una m.a. de una v-a Y .

12
• El r-ésimo momento muesral especto al origen está dado por

1 n r
Mr0 = ∑Yi
n i=1

• El r-ésimo momento muestral respecto a la media muestral Y está dado por:

1 n
Mr = ∑ (Yi −Y )r .
n i=1

Notemos que
1 n 1 n
M10 = ∑Yi = Y y M1 = 0, M2 = ∑ (Yi −Y )2 .
n i=1 n i=1

Observaciones:

1. Índice de Asimería: La asimetría de una distribución hace referencia al grado en que los datos se reparten

por encima y por debajo de la tendencia central.

Coeficiente de Asimetría:

µ3 µ3 µ3
g1 = = 2 3/2 =
σ3 (σ ) (µ2 )3/2
µ̂3 M3
gb1 = 3/2
=
(µˆ2 ) (M2 )3/2
1 n
∑ (Yi −Y )3
n i=1
= 3/2
1 n 2
∑ (Yi −Y )
n i=1

a) g1 > 0: Asimetría positiva

b) g1 = 0: Simetría

c) g1 < 0: Asimetría negativa

2. Índice de Curtosis: La curtosis hace referencia al grado de apuntamiento de una distribución.

Coeficiente de Curtosis:
µ4 µ4
g2 = 4
−3 = −3
σ (µ2 )2

13
1 n
∑ (Yi −Y )4
µ4 n i=1
−3 =  2 − 3
b
ĝ2
µ2 )2
(b 1 n
(Y
∑ i −Y )2
n i=1
n
n ∑ (Yi −Y )4
=  i=1 2 − 3
n
∑ (Yi −Y )2
i=1

a) g2 > 0: Distribución Leptocúrtica

b) g2 = 0: Distribución Mesocúrtica

c) g2 < 0: Distribución Platicúrtica

g2 = ±0 · 5 “curva normal”

Teorema 4. Sea g(y) una función de una v.a. Y . Entonces la f.g.m para g(y) está dada por:

∑etg(y) p(y) si Y es discreta



tg(y) y
mg(y) (t) = E[e ]=
 R +∞ tg(y)
e f (y) dy si Y es continua


−∞

Teorema 5. Sea X una v.a. con f-g-m mx (t) entonces si Y = aX + b, a, b ∈ R se tiene que:

mY (t) = ebt mX (at).

Teorema 6. Supóngase que X e Y son v.a. independientes y sean mx (t), my (t) sus respectivas f.g.m.

Entonces la f.g.m. para la v.a. Z = X +Y está dada por

mz (t) = mx (t) my (t).

Este teorema se puede generalizar a n v.a. independientes, es decir, si Y = x1 + x2 + ... + xn y mxi (t) existe

para i = 1, ..., n, entonces


n
mY (t) = ∏mxi (t) = mxi (t)mx2 (t)...mxn (t)
i=1

14
Teorema 7. Si la f.g.m. de los v.a. X e Y son idénticos para todos los valaores de t en un intervalo alrededor de

t = 0, entonces la distribución de X e Y deben ser idénticas.

Observación: Relación entre los momentos con respecto al origen y los momentos centrales

r  
r i 0
i
µr = ∑ (−1) µ µr−i
i=0 i

Ejemplo: Sean X e Y v.a. i.i.d. con f.g.m m(t) = Ψ(t) = (1 − 2t)−3/2 . Sea Z = 3x − 2y + 5

(a) Hallar la f.g.m. de Z

(b) Hallar la E(Z) y Var(Z)

(a) mz (t) = Φz (t) = E[et(3x−2y+5) ]

= e5t mX (3t)mY (−2t)

= e5t [1 − 2(3t)]−3/2 [1 − 2(−2t)]−3/2

= e5t (1 − 6t)−3/2 (1 + 4t)−3/2

= e5t (1 − 2t − 24t 2 )−3/2


 
d −3
µ01 = mz (t) = [5e5t (1 − 2t − 24t 2 )−3/2 + e5t

(b) (−2 − 48t)×
dt t=0 2
(1 − 2t − 24t 2 )−5/2 ]

t=0

E(Z) = µ01 = 5+3 = 8


d2

E(Z 2 ) = µ02

= 2 mz (t)
dt t=0
−3
= [25e5t (1 − 2t − 24t 2 )−3/2 + 5e5t ( )(−2 − 48t)(1 − 2t − 24t 2 )−5/2
2
+15e5t (1 + 24t)(1 − 2t − 24t 2 )−5/2 + 3e5t 24(1 − 2t − 24t 2 )−5/2
 
−5
5t
+3e (1 + 24t) (−2 − 48t)(1 − 2t − 24t 2 )−7/2 ]t=0
2
= 25 + 15 + 15 + 72 + 15 = 142

Var(z) = E(z2 ) − [E(z)]2 = 142 − 64 = 78

15
1.2. Función de Variables Aleatorias

Sea Y una v.a., recordemos que U = h(Y ) es también una v.a., por se U una función de la v.a. Y . Acá nos

ocuparemos de determinar la distribución de probabilidad de U.

Utilizaremos tres métodos para hallar la distribución de probabilidad de U = h(Y ):

1. Método Directo: Este se aplica, por lo general, cuando la v.a. Y es continua. Si Y tiene función de densidad

de probabilidad f (y) y si U es alguna función de Y ,

FU (u) = P(U ≤ u).

Se puede calcular directamente mediante la integración de f (y) en la región para la cual U ≤ u. La función

de densidad de probabilidad de U se obtiene derivando FU (u).

Ejemplo: Suponga que Y tiene la función de densidad dada por



 2y, 0 ≤ y ≤ 1

f (y) =

 0, en otro caso

Encuentre la función de densidad de probabilidad de U = 3y − 1.

Solución:

FU (u) = P(U ≤ u) = P(3Y − 1 ≤ u)


 
u+1
=P Y ≤
3

u+1
u < −1 Entonces < 0 y por tanto FU (u) = P(Y < 0) = 0
3

u+1
U >2 Entonces > 1 y por lo tanto
3
 
u+1
FU (u) = P Y ≤ =1
3

16
  Z u+1
u+1 3 f (Y )dy
−1 ≤ u ≤ 2 FU (u) = P Y ≤ =
3 −∞

Z u+1 u+1 
u+1 2

= 3 2y dy = Y 2 3 =
0 0 3






 0 si u < −1

  2
u+1
FU (u) = si −1 ≤ u ≤ 2


 3


 1 si u > 2

y la función densidad de U es

 2
d FU (u)  9 (u + 1) si −1 ≤ u ≤ 2
fU (u) = =
du 
 0 en otro caso

Ejemplo: Sea U = h(Y ) = Y 2 , donde Y v.a. continua con f.d.a. FY (y) y f.d.p. fY (y).

u ≤ 0, FU (u) = P(U ≤ u) = P(Y 2 ≤ u) = 0



2√ √ Z u
u > 0, FU (u) = P(U ≤ u) = P(Y ≤ u) = P(− u ≤ y ≤ u) = √ f (y)dy
− u
√u
√ √
= FY (y) √ = FY ( u) − FY (− u)
− u

√ √

 FY ( u) − FY (− u), u > 0

∴ FU (u) =

 0, e.o.c.

Como fU (u) = FU0 (u), tenemos



1 √ √
√ [ fY ( u) + fy (− u)], u > 0



fU (u) = 2 u

 0

e.o.c

2. Método de las Transformaciones:

17
Este es un método para formular la función de densidad de U = h(Y ), siempre y cuando h(y) sea creciente

o decreciente. Supongamos que fY (y) es la función de densidad de Y y que h(y) es creciente. Entonces,

u = h(y) creciente de y ⇒ y = h−1 (u) es una función creciente de u, es decir,

u1 < u2 ⇒ h−1 (u1 ) < h−1 (u2 ) (yi = h−1 (ui ); i = 1, 2)

⇒ Y1 < Y2

“Nótese que si h(Y ) y h−1 (u) son funciones univaluadas de Y y u, respectivamente, la transformación es uno

a uno.”

Suponiendo la existencia de una transformación uno a uno y además que U = h(Y ) es una función creciente

y diferenciable de y, se puede determinar la f.d.p. de U de la siguiente manera:

FU (u) = P(U ≤ u) = P(h(Y ) ≤ u)

= P(Y ≤ h−1 (u))

Entonces,

FU (u) = FY (h−1 (u)).

Luego, al derivar respecto a u obtenemos:

dFU (u) d
fU (u) = = [FY (h−1 (u))]
du du
d
= fy (h−1 (u)) [h−1 (u)] como y = h−1 (u) dy = d[h−1 (u)]
du
dy
= fY (h−1 (u)) .
du

Si h(y) es decreciente de Y , el resultado es el mismo, excepto que la derivada de una función decreciente es

negativa. En general se tiene:

Teorema 8. Sea Y una v.a. continua con f.d.p. fY (y) y defínase U = h(Y ). Si u = h(y) y y = h−1 (u) son

funciones univaluadas, continuas y diferenciables y si u = h(y) es una función creciente o decreciente de y,

18
la f.d.p. de U está dada por

dy
−1
fU (u) = fY (h (u)) .
du

dy
La cantidad J = recibe el nombre de Jacobiano de la transformación.
du
Ejemplo:

Sea Y una v.a. distribuida normalmente con media µ y desviación estándar σ. Obtener la función de densidad

de probabilidad de U = exp(Y ).

Solución:

La relación u = exp(Y ) es una función creciente y diferenciable de Y . Así

dy 1
y = h−1 (u) = ln(u) y = ,u > 0
du u

por lo tanto

dy
fU (u) = fY (h−1 (u)) ,
du

como
1 y−µ 2
   
1
Y ∼ N(µ, σ2 ) ⇒ fY (y) = √ exp − ,
2πσ 2 σ

tenemos que
1 ln(u) − µ 2
   
1
fU (u) = √ exp − , u > 0.
2πσ 2 σ

Ejemplos:

 2y, 0 ≤ y ≤ 1

a) Sea Y una v.a. que tiene f.d.p. f (y) =

 0, e.c.o.c
Sea U = 3Y + 1, hallar fU (u), usando el método de tansformación.

Notemos que U = h(Y ) = 3Y + 1 es creciente. Si u = 3y + 1, entonces

u−1 dy 1
h−1 (u) = y = y = ,
3 du 3

19
luego
   
−1
dy u−1 1 2 u−1
fU (u) = fY (h (u))
= fY =
du 3 3 3 3
2
= (u − 1) si 1≤u≤4
9

b) Sea Y ∼ Uni f (0, π), hallar f.d.p. de U = c Sen(Y ) donde c es cualquier constante positiva.
 
π
es creciente en 0,
Notemos que u = c Sen(Y ) 2 
π
es decreciente en ,π
2

Además, y = h−1 (u) = Sen−1 (u/c) y


s
dy 1 1 c2 1 −1
=s  2 × c = × = (c2 − u2 ) /2
du u c2 − u2 c
1−
c
Como 
 1,

si 0≤y≤π
Y ∼ Uni f (0, π) ⇒ fY (y) = π

 0 e.c.o.c
1
Para (0, π/2); f1 (u) = (c2 − u2 )−1/2 , 0<u≤c
  π
π 1
Para , π : f2 (u) = (c2 − u2 )−1/2 , 0≤u≤c
2 π

Por lo tanto, la función de probabilidad de U es:

fU (u) = f1 (u) + f2 (u)


2 2 −1
= (c − u2 ) /2 , 0 ≤ u ≤ c.
π

3. Método de las funciones generadoras de momentos.

Este momento se basa en el siguiente teorema de unicidad.

Teorema 9. Supóngase que existen para cada una de las siguientes v.a. X y Y las funciones generadoras de

momentos dadas por mX (t) y mY (t), respectivamente. Si mX (t) = mY (T ) para todos los valores de t, entonces X y

Y tienen la misma distribución de probabilidad.

20
Sea Y una v.a. normal con media µ y varianza σ2 , así

t2
 
mY (t) = exp µt + σ2 .
2

Ejemplo:
Y −µ
Sea Y ∼ N(µ, σ2 ), demuestre que Z = tiene una distribución normal estándar.
  σ
1 −µ
Notemos que Z = Y + , así, por teorema
σ σ
 2
t
  µ  
µ 1 − t t σ
mz (t) = e−d σ t my t = e σ exp µ + σ2
σ σ 2

t2
   
µ µ
mz (t) = exp − t exp − t +
σ σ 2
 2  2

t t
= exp − = exp 0 t + 1
2 2

la cual corresponde a la f.g.m de una v.a. normal estándar, por lo tanto Z ∼ N(0, 1)

Ejemplo: Sea Z una v.a. normal estándar. Demostrar que la distribución de Y = Z 2 es una distribución Chi-

cuadrado con un grado de libertad.


1
(a) Usando el método de la f.g.m: Debemos demostrar que my (t) = (1 − 2t)−1/2 ,t < .
2
Como
 
1 1
Z ∼ N(0, 1), fZ (z) = √ exp − z2 .
2π 2
Z +∞
2 2
mY (t) = E[ety ] = E[etz ] = etz f (z) dz
−∞
Z +∞  
1 1
= √ exp(t z2 )exp − z2 dz
−∞ 2π 2
Z +∞   2 
1 1 z
= √ exp − dz
−∞ 2π 2 (1 − 2t)−1/2
Z +∞   2 
−1 1 1 z
= (1 − 2t) /2 √ exp dz
−∞ 2π(1 − 2t)−1/2 2 (1 − 2t)−1/2
−1/2
= (1 − 2t)

21
(b) Usando el método Directo:
 
1 1
Y = Z 2 , Z ∼ N(0, 1) fZ (z) = √ exp − Z 2
2π 2

1 √ √
fY (y) = √ [ fz ( y) + fz (− y)], y > 0
2 y
    
1 1 1 1 1
= √ √ exp − y + √ exp − y , y>0
2 y 2π 2 2π 2
 
1 1
= √ √ exp − y
y 2π 2
 
1 −1/2 1
=√ Y exp − y
2π 2

   
1 1 1
= 1/2√π Y /2−1 exp − y , Γ
1
= π
2 2 2
 
1 1

1
=   Y 2 −1 exp − y , y > 0
1 2
21/2 Γ
2

Esta es la f.d.p. de una v.a. chi-cuadrado con 1 grado de libertad.

∴ Y = Z 2 ∼ χ2(1)

(c) Usando el método de las transformaciones:



2
dz 1 1
Y = Z , dy = 2z dz ⇒ = = √
dy 2z 2 y
dz √ √
Por teorema: fY (y) = fz (h−1 (y)). y además y = |z| ⇒ z = ± y
dy
 
1 1 1
z < 0, y = z2 es decreciente: (1) fY (y) = √ exp − Y . √ y>0
2π  2  2 y
1 1 1
z > 0, y = z2 es creciente: (2) fY (y) = √ exp − Y . √ y>0
2π 2 2 y

Sumando (1) y (2):


 
2 1 1
fY (y) = √ exp − Y √ , Y > 0
2π 2 2 y
 
1 1 1
= 1/2 √ y− 2 exp − Y , y > 0
2 π 2

22

 
1
π=Γ
2  
1
∴ Y ∼ χ2(1) o Y ∼ Gamma α = , β = 2
2

1.3. Propiedades Reproductivas

Si dos o más variables aleatorias independientes que tienen cierta distribución se suman la variable aleatoria

que resulta tiene la distribución del mismo tipo que la de los sumandos. Esta propiedad se llama “Propiedad Re-

productiva”.

Teorema 10. (Propiedad Reproductiva de la Distribución Normal)


n
Sean X1 , X2 , ..., Xn n-variables aleatorias independientes con distribución N(µi , σ2i ), i = 1, 2, ..., n. Sea Y = ∑ Xi .
i=1
Entonces,
n n
Y ∼ N( ∑ µi , ∑ σ2i ).
i=1 i=1

Teorema 11. (Propiedad Reproductiva de la Distribución de Poisson.)


n
Sean X1 , ..., Xn v.a. independientes. Supongamos que Xi ∼ Poisson(λi ), i = 1, 2, ..., n y sea Y = ∑ Xi .
i=1
n
Luego, Y tiene una distribución de Poisson con parámetro λ = ∑ λi .
i=1

k
Teorema 12. Sean X1 , ..., Xk v.a. independientes tal que Xi ∼ χ2(ni ) , i = 1, 2, ..., k Entonces, Y = ∑ Xi tiene una
i=1
k
distribución Chi-cuadrado con n = ∑ ni g.l.
i=1

k
Teorema 13. Sean X1 , ..., Xk v.a. independientes, cada una con distribución N(0, 1). Entonces Y = ∑ Xi2 tiene una
i=1
distribución χ2(k) .

Ejemplos:

1.- Suponga que la f.g.m. de una v.a. X es de la forma mX (t) = (0 · 4et + 0,6)8

a) ¿Cual es la f.g.m. de la v.a. Y = 3x + 2?

23
b) Hallar E(X).

Solución:

a) mY (t) = e2t mX (3t) = e2t (0 · 4 e3t + 0 · 6)8


 
d
b) E(X) = mX (t) = 8(0 · 4et + 0 · 6)7 × 0 · 4et
dt t=0 t=0
= 8 × 0 · 4 = 3,2

X ∼ Bin(p = 0 · 4, n = 8)

E(X) = np = 3,2

2.- Varias resitencias, Ri , i = 1, 2, ..., n, se ponen en serie en un circuito. Supóngase que cada Ri ∼ N(10 ohms, 0 ·

16).

a) Si n = 5, cuál es la probabilidad de que la resistencia del circuito sobrepase los 49 ohms?

b) Cuál debe ser el valor de n de manera que la probabilidad de que la resistencia total exceda los 100

ohms sea aproximadamente 0.05?

Solución: µi = 10 ohms ∀ i = 1, 2, ..., n y σ2i = 0 · 16 ⇒ σ = 0 · 4.

a) Por Propiedad Reproductiva


 
5 5 5 5 5
2
Y = ∑ Ri ∼ N ∑ µi , ∑ σi con µ = ∑ µi = 50 y σ2 = ∑ σ2i = 0 · 8
i=1 i=1 i=1 i=1 i=1
5   
Y − µ 49 − 50
P ∑ Ri > 49 = P > √
i=1 σ 0·8

= P(Z > −1 · 1180)

= P(Z ≤ 1 · 1180) = 0 · 8665

n n n p
b) Y = ∑ Ri , µ = ∑ µi = n10, σ2 = ∑ σ2i = n(0 · 16) ⇒ σ = n(0 · 16).
i=1 i=1 i=1

24
P(Y > 100) ≈ 0 · 05
 
Y − µ 100 − n10
⇒P > √ ≈ 0 · 05
σ 0·4 n
 
100 − n10 100 − n10
⇒P z> √ ≈ 0 · 05 ⇒ √ = 1 · 65
0·4 n 0·4 n
√ √
⇒ 100 − n10 = 0,66 n ⇒ 10 − n = 0 · 066 n
√ √ √
⇒ n + 0 · 066 n − 10 = 0 ⇒ ( n)2 + 0 · 066 n − 10 = 0
p
√ −0 · 066 ± (0 · 066)2 − 4(−10) −0 · 066 ± 6 · 325
⇒ n= =
2 2

⇒ n = 3 · 1295 ⇒ n ≈ 9 · 79

m 2
3.- Supóngase que V , la velocidad de un objeto (cm/seg) tiene una distribución N(0, 4). Si K = V ergs. es la
2
energía cinética del objeto (donde m es la masa), encontrar la f.d.p. de K. Si m = 10 grs., calcular P(K ≤ 3).

Solución:
1 V2
 
1
V ∼ N(0, 4) ⇒ fV (v) = √ exp −
2π2 2 4
r
m 2 2 2 2
K= V ⇒V = K ⇒V =± K
2 m m
 −1/2 √
dV 1 2 2 m 1 1
dK =
K =√ =√
2 m m 2k m 2m K
 
−1
dV 1 1 2K 1
fK (k) = fV (h (h) = 2√ exp − √
dK 2π2 2 4m 2m K

1 1 K
= √ √ exp{− · , K > 0.
2π 2m K 2 2m

1
Haciendo Y = V, E(Y ) = 0 y Var(Y ) = 1; ∴ Y ∼ N(0, 1).
2   
1 2 1
Por teorema Y = V ∼ χ2(1)
2 Gamma , 2
4 2

25
2m 2 m 2
Multiplicando por 2m : 2mY 2 = V ⇒ 2mY 2 = V = K;
4 2
Como

• Y 2 ∼ χ2(1) ⇒ mY 2 (t) = (1 − 2t)−1/2

Así

−1/2
mK (t) = mY 2 (2m t) = (1 − 2(2m)t)

−1/2
= (1 − 4mt)

 
1
• K ∼ Gamma α = , β = 4m
2
 
1
Para m = 10 tenemos que K ∼ Gamma α = , β = 40 , así:
2

P(K ≤ 3) = P(2mY 2 ≤ 3)
   
2 3 2 3
=P Y ≤ = P χ(1) ≤
2m 20

= P(χ2(1) ≤ 0 · 15) = 0 · 75

4.- Demuestre que la distribución binomial tiene la propiedad reproductiva.

Solución:

Supongamos que los Xi ∼ Bin(ηi , p) son independientes para i = 1, 2, ..., k.

Veamos que Y = Xi + ... + Xk tiene una distribución binomial.

Sabemos que mXi (t) = (p et + q)η i , para todo i = 1, 2, ..., k

Así
k
k k ∑ ηi
t ηi t
mY (t) = Π mX i (t) = Π (p e + q) = (p e + q)i=1
i=1 i=1
 
k
∴ Y ∼ Bin n = ∑ η i , p
i=1

26
5.- Cierto proceso industrial produce un gran número de cilindros de acero cuyas longitudes están distribuidas

normalmenmte con promedio de 3.25 pulgadas y desviación estándar de 0.05 pulgadas. Si se elige al azar dos de

tales cilindros y se ponen extremo con extremo, ¿ cuál es la probabilidad de que la longitud combinada sea menor

que 6.60 pulgadas?.

Yi : longitud del cilindro de acero i, i = 1, 2.

Yi ∼ N(3 · 25 , (0,05)2 )

Notemos que: E(Y1 +Y2 ) = µ = µ1 + µ2 = 6 · 5 y Var(Y1 +Y2 ) = σ2 = 2(0 · 05)2


 
(Y1 +Y2 ) − µ 6 · 60 − 6 · 5
P(Y1 +Y2 < 6 · 60) = P < = P(Z < 1 · 414) = 0 · 9207
σ 0 · 0707
3
5.- Si la v.a. X tiene una f.g.m. dada por mX (t) = , obtener la desviación estándar de X.
3−t

mX (t) = 3(3 − t)−1


d
mX (t) = (−1)3(−1)(3 − t)−2 = 3(3 − t)−2
dt
d2 d2

−3
m X (t) = 6(3 − t) ⇒ σ2
= m X (t) = 6(3)−3
dt 2 dt 2 t=0
6 2
= =
27 9

√ 2
∴ σ = σ2 = .
3

1.4. Ejercicios Propuestos

1. Si Y tiene una distribución binomial con n ensayos y una probabilidad de éxito p, demuestre que la función

generadora de momentos para Y es

m(t) = (pe0 + q)n donde q = 1 − p.

2. Derive la función generadora de momentos del ejercicio 1 para determinar E(Y ) y E(Y 2 ). Enseguida en-

cuentre Var(Y ).

27
3. Si Y posee una distribución geométrica con probabilidad de éxito p, demuestre que la función generadora de

momentos para Y es
pet
m(t) = donde q = 1 − p.
1 − qet

4. Derive la función generadora de momentos del ejercicio 3 para determinar E(Y ) y E(Y 2 ). Enseguida en-

cuentre Var(Y ).

5. Determine las distribuciones de las variables aleatorias que poseen cada una de las siguientes funciones

generadoras de momentos:

a) m(t) = [(1/3)et + (2/3)]5

et
b) m(t) =
2 − et
t
c) c(t) = e2(e −1) .

6. Sea m(t) = (1/6)et + (2/6)e2t + (3/6)e3t . Encuentre lo siguiente:

a) E(Y ) y Var(Y )

b) La distribución de Y .

7. Si Y es una variable aleatoria con la siguiente función de densidad de propabilidad



 2(1 − y) 0 ≤ y ≤ 1

f (y) =

 0 en cualquier otro punto

a) Determine la función de densidad de U1 = 2Y − 1.

b) Encuentre la función de densidad de U2 = 1 − 2Y .

c) Calcule la función de densidad de U3 = Y 2 .

d) Determine E(U1 ), E(U2 ) y E(U3 ) utilizando las funciones de densidad deducidas para estas variables

aleatorias.

28
8. Sea Y una variable aleatoria con la siguiente función de densidad

 (3/2)y2 −1 ≤ y ≤ 1

f (y) =

 0 en cualquier otro punto

a) Determine la función de densidad de U1 = 3Y .

b) Encuentre la función de densidad de U2 = 3 −Y .

c) Determine la función de densidad de U3 = Y 2 .

9. La función de densidad de Weibull està determinada por



 1 mym−1 e−ym /a , y > 0

f (y) = a

 0 en cualquier otro punto

donde a y m son constantes positivas. Esta función de densidad se emplea con frecuencia como modelo de

la duración de los sistemas físicos. Suponga que Y tiene la densidad de Weibull dada.

a) Encuentre la función de densidad de U = Y m .

b) Determine E(Y k ) para cualquier entero positivo k.

10. La velocidad de una molécula en un gas uniforme en equilibrio constituye una variable aleatoria V , cuya

función de densidad está dada por


2
f (v) = av2 e−bv , v > 0

donde b = m/2kT y k, T y m denotan la constante de Boltzmann, la temperatura absoluta y la masa de la

molécula, respectivamente.

a) Deduzca la distribución de W = mV 2 /2, la energía cinética de la molécula.

b) Determine E(W ).

11. Una corriente eléctrica fluctuante I se considera una variable aleatoria con distribución uniforme en el inter-

valo (9,11). Si la corriente fluye por una resistencia eléctrica de 2 ohms, determine la función de densidad

de probabilidad de la potencia P = 2I 2 .

29
12. Si Y1 y Y2 son variables aleatorias normales estándares e independientes, determine la función de densidad

de U = Y12 +Y22 .

13. Sean Y1 ,Y2 ...Yn variables aleatorias normales independientes con media µ y varianza σ2 , y a1 , a2 , ..., an cons-

tantes conocidas. Determine la función de densidad de la combinación lineal U = ∑ni=1 aiYi .

14. Suponga que Y tiene una distribución gamma en parámetros α = n/2, para algún entero positivo n, y β igual

a algún valor determinado. Demuestre que W = 2Y /β tiene una distribución χ2 con n grados de libertad

mediante el método de las funciones generadoras de momentos.

15. Sean Y1 una variable binomial con n1 ensayos y probabilidad de éxito p, y sea Y2 otra variable aleatoria

binomial con n2 ensayos y probabilidad de éxito también dada por p. Si Y1 y Y2 son independientes, determine

la función de probabilidad de Y1 +Y2 .

16. Sea Y1 y Y2 dos variables aleatorias de Poisson independientes con medias λ1 y λ2 , respectivamente. Deter-

mine la función de probabilidad de Y1 +Y2 .

17. Sean Y1 ,Y2 ...Yn variables aleatorias de Poisson independientes con medias λ1 , λ2 , ..., λn , respectivamente.

Determine la función de probabilidad de ∑ni=1 Yi .

18. Demuestre que si Y1 tiene una distribución χ2 , con v1 grados de libertad y Y2 tiene una distribución χ2 con

v2 grados de libertad, entonces U = Y1 +Y2 tiene una distribución χ2 con v1 + v2 grados de libertad siempre

que Y1 y Y2 sean independientes.

30
Capítulo 2

Distribuciones Continuas

Acá se presentan las distribuciones de probabilidad más importante y sus propiedades básicas. La notación

utilizada se resume en la siguiente tabla:

Z b
Densidad de probabilidad f (x) P(a ≤ X ≤ b) = f (x)dx
Z xa
Distribución de probabilidad F(x) = P(X ≤ x) = f (t)dt
−∞

Media µ = E(X)

Varianza σ2 = E((X − µ)2 )

Sesgo β1 = E((X − µ)3 )/σ3

Curtosis β2 = E((X − µ)4 )/σ4

Función generadora m(t) = E(etX )

31
2.1. Distribución uniforme

1
Densidad de probabilidad f (x) = ,a ≤ x ≤ b
b−a
x−a
Distribución de probabilidad F(x) = ,a ≤ x ≤ b
b−a
a+b
Media µ=
2
2 (b − a)2
Varianza σ =
12
Sesgo β1 = 0

Curtosis β2 = 9/5
ebt − eat
Función generadora m(t) =
(b − a)t
Ejemplo 2.1.1. El tiempo de un viaje (ida y vuelta) de los camiones que transportan el concreto hacia una

construcción, está distribuido uniformemente en un intervalo de 50 a 70 minutos. Cuál es la probabilidad de que

la duración del viaje sea mayor a 65 min. si se sabe que la duración del viaje es mayor a 55 min.?

X: El tiempo que dura un camión al transportar concreto en un viaje (ida y vuelta); X ∼ Uni f (50, 70) y por tanto

1 1
f (x) = = para 50 ≤ x ≤ 70
70 − 50 20

y
x − 50
F(x) = si 50 ≤ x ≤ 70
20

Así,
P(X > 65) P(1 − X ≤ 65) 1 − 65−50
20 1
P(X > 65 | X > 55) = = = 55−50
= .
P(X > 55) P(1 − X ≤ 55) 1 − 20 3

32
2.2. Distribución exponencial

1 −x/β
Densidad de probabilidad f (x) = λe−λx = e , x ≥ 0, λ > 0, β>0
β
Distribución de probabilidad F(x) = 1 − e−λx

Media µ = 1/λ = β

Varianza σ2 = 1/λ2 = β2

Sesgo β1 = 2

Curtosis β2 = 9
λ
Función generadora m(t) =
λ−t
Ejemplo 2.2.1. En un muelle de recepción llegan en promedio tres camiones por hora para ser descargados,

calcular las probabilidades de que el tiempo entre el arribo de sucesivos camiones sea:

1. menor que 5 minutos;

2. de al menos 45 minutos.

Notemos que α = 3 es el número de llegadas promedio por hora, suponiendo que el número de llegadas sigue un
1
proceso Poisson con α = 3, entonces β = . Luego, definiendo
3
X : tiempo entre llegadas sucesivas; X ∼ exp(β), por tanto,

Z 1/12
1
(1) P(X < 5min) = P(X < hrs.) = 3e−3x dx = 1 − e−1/4 = 0,221
12 0
Z 3/4
3
(2) P(X ≥ 45min) = P(X ≥ hrs.) = 1 − 3e−3x dx = 0,105
4 0

33
2.3. Distribución Gamma

xα−1 e−x/β
Densidad de probabilidad f (x) = , x ≥ 0, a > 0, β>0
βα Γ(α)
Z x
Distribución de probabilidad F(x) = P(X ≤ x) = f (x)dx
−∞

Media µ = αβ

Varianza σ2 = αβ2

Sesgo β1 = 2/ α
 
2
Curtosis β2 = 3 1 +
α
Función generadora m(t) = (1 − βt)α

2.4. Distribución Beta

Γ(α + β) α−1
Densidad de probabilidad f (x) = x (1 − x)β−1 , 0 ≤ x ≤ 1, α, β > 0
Γ(α)Γ(β)
Z x
Distribución de probabilidad F(x) = P(X ≤ x) = f (x)dx
−∞
α
Media µ=
α+β
αβ
Varianza σ2 =
(α + β)2 (α + β + 1)
p
2(β − α) α + β + 1
Sesgo β1 = p
αβ(α + β + 2)
3(α + β + 1)[2(α + β)2 + αβ(α + β − 6)]
Curtosis β2 =
αβ(α + β + 2)(α + β + 3)
f.g.m. : No existe en forma cerrada

34
2.5. Distribución χ2 (Chi-cuadrado)

e−x/2 x(n/2)−1
Densidad de probabilidad f (x) = , x ≥ 0, n ∈ {0, 1, 2, 3, ...}
2n/2 Γ(n/2)
Z x
Distribución de probabilidad F(x) = P(X ≤ x) = f (x)dx
−∞

Media µ=n

Varianza σ2 = 2n
p
Sesgo β1 = 2 2/n
12
Curtosis β2 = 3 +
n
Función generadora m(t) = (1 − 2t)−n/2 , t < 1/2

2.6. Distribución normal

1 2 2
Densidad de probabilidad f (x) = √ e−(x−µ) /2σ , σ>0
σ 2π Z x
Distribución de probabilidad F(x) = P(X ≤ x) = f (x)dx
−∞

Media µ=µ

Varianza σ2 = σ2

Sesgo β1 = 0

Curtosis β2 = 3
σ2 t 2
 
Función generadora m(t) = exp µt +
2
Ejemplo 2.6.1. Se supone que los resultados de un examen tienen una distribución normal con una media de 78

y una varianza de 36. Y ∼ N(78, 36)

35
1. £Cúal es la probabilidad de que obtenga una nota mayor a 72?
 
Y − µ 72 − 78
P(Y > 72) = P > = P(z > −1)
σ 6
= 1 − P(z < −1) = 1 − P(z > 1)

= 1 − 0,1587 = 0,8413

2. £Cúal es la nota mínima aprobatoria si sólo el 28 % aprueba?

Debemos hallar c tal que P(Y > c) = 0,281


 
c − 78
0,281 = P(Y > c) = P z >
6
c − 78
⇒ = 0,58 ⇒ c = 81,48
6

2.7. Distribución t de Student


−(n+1)/2
x2

1 Γ((n + 1)/2)
Densidad de probabilidad f (x) = √ 1+ , n ∈ {0, 1, 2, 3, ...}
nπ Γ(n/2) n
Z x
Distribución de probabilidad F(x) = P(X ≤ x) = f (x)dx
−∞

Media µ=0
n
Varianza σ2 = , n≥3
n−2
Sesgo β1 = 0, n≥4
6
Curtosis β2 = 3 + , n≥5
n−4
Función generadora m(t):No existe

36
Capítulo 3

Variables Aleatorias Bidimensionales

3.1. Distribuciones de probabilidad bivariadas.

Es posible definir diversas v.a. en el mismo espacio muestral.

Definición 6. Si Y1 ,Y2 son dos v.a. discretas, la función de probabilidad conjunta (o bivariada) de Y1 y Y2 está

dada por

p(y1 , y2 ) = P(Y1 = y1 , Y2 = y2 ) , −∞ < y1 , y2 < +∞.

La función de probabilidad conjunta p(y1 , y2 ) satisface:

1. p(y1 , y2 ) ≥ 0, para toda y1 , y2

2. ∑ p(y1 , y2 ) = 1.
y1 ,y2

Definición 7. La función de Distribución conjunta (o bivariada) F(y1 , y2 ) de dos v.a. Y1 y Y2 está dada por:

F(y1 , y2 ) = P(Y1 ≤ y1 ,Y2 ≤ y2 ), −∞ < y1 , y2 < +∞.

Además
y1 y2
F(y1 , y2 ) = ∑ ∑ p(t1 ,t2 ), si Y1 y Y2 son discretas
t1 =−∞ t2 =−∞

Ejemplo: En cierto supermercado hay 3 cajas registradoras. Dos clientes llegan a ellas en diferentes momentos,

cuando no hay otros clientes. Cada cliente elige independientemente una caja al azar. Sea

Yi : el número de clientes que eligen la caja i, Yi = 0, 1, 2 (2 clientes) i = 1, 2, 3

37
a) Encuentre la distribución conjunta de Y1 y Y2 .

b) Calcular F(−1, 2), F(1 · 5, 2) y F(5, 7)

Solución:

•) El espacio muestral consiste en que dos clientes eligen una de las 3 cajas, así # puntos es 3 × 3 = 9, y
 
S = {c1 , c1 }, {c1 , c2 }, {c1 , c3 }, {c2 , c1 }, {c2 , c2 }, {c2 , c3 }, {c3 , c1 }, {c3 , c2 }, {c3 , c3 }

•) Cada par {ci , c j } = {i, j} representa el evento en que el 1er cliente elige la caja i y el 2do cliente elige la caja

j; i, j = 1, 2, 3.

1
•) Cada punto en S tiene la misma probabilidad .
9

a) Debemos hallar p(y1 , y2 ) donde y1 , y2 = 0, 1, 2

Caja Seleccionada
Cliente 1 Cliente 2 Y1 ,Y2
1
P(0, 0) = P({c3 , c3 }) = 9 c1 c1 2 0
2
P(0, 1) = P({c2 , c3 } o {c3 , c2 }) = 9 c1 c2 1 1
1
P(0, 2) = P({c2 , c2 } = 9 c1 c3 1 0
2
P(1, 0) = P({c1 , c3 } o {c3 , c1 }) = 9 c2 c1 1 1
2
P(1, 1) = P({c1 , c2 } o {c2 , c1 }) = 9 c2 c2 0 2
P(1, 2) = P(0)
/ =0 c2 c3 0 1
1
P(2, 0) = P({c1 , c1 } = 9 c3 c1 1 0
P(2, 1) = P(0)
/ =0 c3 c2 0 1
P(2, 2) = P(0)
/ =0 c3 c3 0 0

38
La tabla anterior se construyó de la siguiente manera:

1
p(y1 = 0, y2 = 0) = P(Y1 = 0,Y2 = 0) = P({c3 , c3 }) =
9
1 1 2
p(y1 = 0, y2 = 1) = P(Y1 = 0,Y2 = 1) = P({c2 , c3 } o {c3 , c2 }) = + =
9 9 9
1
p(y1 = 0, y2 = 2) = P(Y1 = 0,Y2 = 2) = P({c2 , c2 }) =
9

p(y1 = 1, y2 = 0) = P(Y1 = 1,Y2 = 0) = P({c1 , c3 } o {c3 , c1 }) = 2/9

p(y1 = 1, y2 = 1) = P({c1 , c2 } o {c2 , c1 }) = 2/9

p(y1 = 1, y2 = 2) = 0
1
p(y1 = 2, y2 = 0) = P({c1 , c1 }) =
9

p(y1 = 2, y1 = 1) = p(y1 = 2, y1 = 2) = 0

Y1

p(y1 ,y2 ) 0 1 2


0 1/9 2/9 1/9

Y2 1 2/9 2/9 0

2 1/9 0 0

b) Calcular F(−1, 2), F(1 · 5, 2) y F(5, 7)

F(−1, 2) = P(Y1 ≤ −1,Y2 ≤ 2) = P(0)


/ =0
1·5 2
F(1 · 5, 2) = P(Y1 ≤ 1 · 5,Y2 ≤ 2) = ∑ ∑ p(y1 , y2 )
Y1 =0 Y2 =0

= p(0, 0) + p(0, 1) + p(0, 2) + p(1, 0) + p(1, 1) + p(1, 2)


1 2 1 2 2 8
= + + + + +0 =
9 9 9 9 9 9

F(5, 7) = P(Y1 ≤ 5,Y2 ≤ 7)


5 7
= ∑ ∑ p(y1 , y2 ) = 1.
Y1 =0 Y2 =0

39
Se dice que dos v.a. son continuas conjuntamente si su función de distribución F(Y1 ,Y2 ) es continua en los dos

argumentos.

Definición 8. Sean Y1 ,Y2 v.a. continuas con función de distribución conjunta F(y1 , y2 ). Si existe una función no

negativa f (y1 , y2 ) tal que


Z y1 Z y2
F(y1 , y2 ) = f (t1 ,t2 )dt2 dt1
−∞ −∞

para toda −∞ < y1 , y2 < +∞, entonces se dice que Y1 y Y2 son v.a. continuas conjuntas. La función f (y1 , y2 ) se

llama función de densidad de probabilidad conjunta.

Propiedades de la distribución acumulada bivariada

1. Si Y1 y Y2 son v.a. con función de distribución conjunta F(y1 , y2 ), entonces

(1.1) F(−∞, −∞) = F(−∞, y2 ) = F(y1 , −∞) = 0

(1.2) F(+∞, +∞) = 1

(1.3) Si y∗1 ≥ y1 y y∗2 ≥ y2 , entonces

F(y∗1 , y∗2 ) − F(y∗1 , y2 ) − F(y1 , y∗2 ) + F(y1 , y2 ) ≥ 0

2. Si Y1 y Y2 son v.a. continuas conjuntas con una función de densidad conjunta dada por f (y1 , y2 ), entonces:

(2.1) f (y1 , y2 ) ≥ 0 para toda y1 , y2


Z +∞ Z +∞
(2.2) f (y1 , y2 )dy1 dy2 = 1
−∞ −∞

Observaciones:

1. Sean X y Y v.a. continuas, si existe f (x, y) se cumple para cualquier a, b, c, d que

Z b Z d
P(a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y)dy dx
a c

40
2. La función de densidad bivariada se encuentra diferenciando F(x, y) con respecto a x e y, es decir, f (x, y) =
∂2 F(x, y)
.
∂x ∂y

Ejemplos:

1. Sean Y1 y Y2 dos v.a. continuas f.d.p.c. dada por



 (y1 + y2 ) ; 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0, e.c.o.c.

z = y1 + y2 , entonces si y1 = 0, z = y2 y si y2 = 0, z = y1 .

• Determinar la función de distribución acumulativa conjunta, y obtener:

P(Y1 ≤ 1/2, Y2 ≤ 3/4)

• Calcular P(Y1 +Y2 ≤ 1).

Función de distribución acumulativa conjunta: para 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1

V 2 y2
Z y1 Z y2 Z y1  
* F(y1 , y2 ) = (u + v)dv du = (uv + du
0 0
 02 2 0
y1
y2
Z y1  
u
= u y2 + y22 du = · y2 + 2 · u
0 2
 2  2 0
y21 y22 y1 + y2
= · y2 + y1 = y1 y2
2 2 2
  Z 1/2 Z 3/4
1 3
* P Y1 ≤ , Y2 ≤ = f (y1 , y2 )dy2 dy1
 2 4
1
0
3
0
 
1 3 1 3 2+4 3 10 15
=F , = · = =
2 4 2 4 2 16 8 64
* P(Y1 +Y2 ≤ 1)
Z 1 Z 1−y1
= (y1 + y2 )dy2 dy1
Z0 1  0
y2 1−y1

= y1 y2 + 2 dy1
0 2 0
(1 − y1 )2
Z 1
1 1
  Z
= y1 (1 − y1 ) + dy1 = (2y1 − 2y2 + y21 − 2Y1 + 1) dy1
0 2 2 0
1 1 y3 1 1
   
1 1 1 2 1
Z
= (1 − y21 )dy1 = y1 − 1 = 1− = · = .
2 0 2 3 0 2 3 2 3 3

41
2. La densidad conjunta de

Y1 : Nivel de gasolina que alcanza el tanque cuando se abastece a principio de semana y

Y2 : Proporción del combustible que vende durante la semana, está dada por:

 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

f (y1 , y2 ) =

 0, e.c.o.c.

a) Hallar F(1/2, 1/3)


y1
b) Calcular P(y2 ≤ )
2
1 1
F(1/2, 1/3) = P(Y1 ≤ ,Y2 ≤ )
2 3
 Z 1/2 Z y1 Z 1/2 Z y1
 (I) 3y1 dy2 dy1 − 3y1 dy2 dy1 ó


0 0 1/3 1/3
F(1/2, 1/3) = Z 1/3 Z y1 Z 1/2 Z 1/3

 (II)
 3y1 dy2 dy1 + 3y1 dy2 dy1
0 0 1/3 0

Z 1/2 Z 1/2
y
(I) : F(1/2, 1/3) = 3y2 dy1 − 3y1 (y2 ]1/13 dy1
0 1/3
1/2  Z 1/2
1
= y31 −
3y1 y1 − dy1
0 1/3 3
y21 /2 1
 1  
1 3 1 1 1 1
= − y1 − = − − − +
8 2 1/3 8 8 8 27 18
1 1 1 486 − 144 − 216
= + − = = 0 · 10648
8 27 18 3888

  Z 1 Z y /2
Y1 1
P Y2 ≤ = 3y1 dy2 dy1
2 0 0
Z 1 1
3 2 1 1
= y1 dy1 = y31 = .
0 2 2 0 2

3. En una empresa hay 9 ejecutivos (4 casados, 3 solteros, 2 divorciados). Tres de ellos serán seleccionados al

azar para un ascenso. Si Y1 : # de ejecutivos casados y Y2 : # de ejecutivos solteros entre los tres elegidos para

el cargo, hallar la distribución de probabilidad conjunta de Y1 ,Y2 .

Y1 ,Y2 son v.a. discretas así p(y1 , y2 ) = P(Y1 = y1 ,Y2 = y2 ); y1 , y2 = 0, 1, 2, 3.

42
9
El número de formas de escoger 3 personas de 9 es 3 = 84, es decir #S = 84.

p(0, 0) = P(Y1 = 0,Y2 = 0) =P(φ) = 0

p(1, 0) = P(Y1 = 1,Y2 = 0) = P(1 casado, 0 soltero, 2 divorciados)


4 3 2
4
= 1 09 2 =
3
84
4 3 2
24
p(1, 1) = P(Y1 = 1,Y2 = 1) = P(1c, 1s, 1d) = 1 19 1 =
3
84
4 3 2
12
p(1, 2) = P(1c, 2s, 0d) = 1 92 0 =
3
84

p(1, 3) = P(0)
/ =0
4 3 2
2 0 1 12
p(2, 0) = p(2c, 0s, 1d) = 9
=
3
84
4 3 2
2 1 0 18
p(2, 1) = P(2c, 1s, 0d) = 9
=
3
84
p(2, 2) = P(2, 3) = P(0)
/ =0
4 3 2
3 0 0 4
p(3, 0) = P(3c, 0s, 0d) = 9
=
3
84
p(3, 1) = p(3, 2) = p(3, 3) = P(0)
/ =0
4 3 2
3
P(0, 1) = 0 1 2 =
84 84
4 3 2
0 2 1 6
P(0, 2) = =
84 84
4 3 2
1
P(0, 3) = 0 3 0 =
84 84

Y2
0 1 2 3

0 0 3/84 6/84 1/84

Y1 1 4/84 24/84 12/84 0

2 12/84 18/84 0 0

3 4/84 0 0 0

43
3.2. Distribuciones de Probabilidad Marginal

Definición 9. a) Sean Y1 y Y2 v.a. conjuntas discretas con función de probablidad conjunta p(y1 , y2 ). Entonces,

las funciones de probabilidad marginal de Y1 y Y2 , respectivamente, están determinadas por:

p1 (y1 ) = ∑ p(y1 , y2 ) y p2 (y2 ) = ∑ p(y1 , y2 )


y2 y1

b) Sean Y1 y Y2 v.a. continuas con función de densidad conjunta f (y1 , y2 ). Entonces, las funciones de densidad

marginal de Y1 y Y2 , respectivamente, están determinadas por:

Z +∞ Z +∞
f1 (y1 ) = f (y1 , y2 )dy2 y f2 (y2 ) = f (y1 , y2 )dy1
−∞ −∞

Ejemplo: Usar los ejemplos anteriores para hallar las funciones marginales de y1 y y2 .

• En el ejemplo 1: f (y1 , y2 ) = y1 + y2 , 0 ≤ y1 , y2 ≤ 1. Y1 ,Y2 son v.a. continuas

y22 1
Z 1  
1
f1 (y1 ) = (y1 + y2 )dy2 = y1 y2 + = y1 + ; 0 ≤ y1 ≤ 1
0 2 0 2

1
y21
Z 1 
1
f2 (y2 ) = (y1 + y2 )dy1 = + y1 y2 = + y2 ; 0 ≤ y2 ≤ 1
0 2 0 2

• En el ejemplo de las cajas


 registradoras, Y1 ,Y2 son discretas.

4
 4/9 si y1 = 0 , y2 = 0
 

 9

 


 
p(y1 ) = ∑ p(y1 , y2 ) = p(y2 ) = 4
4/9 si y1 = 1 , y2 = 1
y2 
 
 9
 1 , y2 = 2

 

 1/9 si y1 = 2
 
9
• En el ejemplo 2: 
 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

f (y1 , y2 ) =

 0 , e.c.o.c.

Z y1 y1
f1 (y1 ) = 3y1 dy2 = 3y1 y2 = 3y21 ; 0 ≤ y1 ≤ 1
0 0

44
Z 1 1
3 3 3 2 3
f2 (y2 ) = 3y1 dy1 = y21 = − y = [1 − y22 ]; 0 ≤ y2 ≤ 1
y2 2 y2 2 2 2 2

• En el ejemplo 3: Y1 Y2 son v.a. Discretas.



10
, y1 = 0


84






40




 , y1 = 1
 84
p1 (y1 ) = ∑ p(y1 , y2 ) =
y2 
 30
, y2 = 2


84






 4


, y1 = 3

84


20
, y2 = 0


84






45




 , y2 = 1
 84
p2 (y2 ) = ∑ p(y1 , y2 ) =
y1 
 18
, y2 = 2


84






 1


, y2 = 3

84

3.3. Distribuciones de Probabilidad Condicional

Recordemos que la Ley Multiplicativa proporciona la probabilidad de la intersección A ∩ B como:

P(A ∩ B) = P(A)P(B|A).

Ahora, si consideramos los eventos (Y1 = y1 ) y (Y2 = y2 ), representados por el evento bivariable (y1 , y2 ):

p(y1 , y2 ) = p1 (y1 ) × p(y2 |y1 ) = p2 (y2 ) × p(y1 |y2 ).

Definiciones:

45
1. Si Y1 y Y2 son v.a. discretas conjuntas con f.d.p. conjunta p(y1 , y2 )) y f.d.p. marginal p1 (y1 ) y p2 (y2 ),

respectivamente, entonces la Función de probabilidad discreta condicional de Y1 , dado Y2 , es

P(Y1 = y1 ,Y2 = y2 ) p(y1 , y2 )


p(y1 |y2 ) = P(Y1 = y1 |Y2 = y2 ) = = ,
P(Y2 = y2 ) p2 (y2 )

siempre y cuando p2 (y2 ) > 0.

2. Si Y1 y Y2 son v.a. continuas conjuntas con f.d. conjunta f (y1 , y2 ), entonces la función de distribución

condicional de Y1 , dado Y2 = y2 es

F(y1 |y2 ) = P((Y1 ≤ y1 )|Y2 = y2 ).

Esta es una función de y1 para un valor fijo de y2 .

3. Sea Y1 y Y2 v.a. continuas conjuntas con densidad conjunta f (y1 , y2 ) y densidad marginales f1 (y1 ) y f2 (y2 )

respectivamente. Para cualquier y2 tal que f2 (y2 ) > 0, la densidad condicional de Y1 , dado Y2 = y2 , está dada

por
f (y1 , y2 )
f (y1 |y2 ) = .
f2 (y2 )

Análogamente para cualquier y1 tal que f1 (y1 ) > 0, la densidad condicional de Y2 , dado Y1 = y1 , está dada

por
f (y1 , y2 )
f (y2 |y1 ) = .
f1 (y1 )

Observemos que:
Z y1
F(y1 |y2 ) = P(Y1 ≤ y1 |Y2 = y2 ) = f (y∗1 |y2 )dy∗1
−∞
Z Y2
F(y2 |y1 ) = P(Y2 ≤ y2 |Y1 = y1 ) = f (y∗2 |y1 )dy∗2 .
−∞

Ejemplos:

4. En una caja se tiene 4 fichas, cada una marcada con dos números así, (3,4), (1,0), (1,4), (2,0). Se definen

las v.a.

46
Y1 : El primer número de una ficha extraída al azar.

Y2 : El segundo número de esa ficha.

La f.d.p. conjunta de Y1 y Y2 está dada por

1
p(Y1 ,Y2 ) = para (Y1 ,Y2 ) = (3, 4); (1, 0); (1, 4); (2, 0)
4

Calcular las probabilidades condicionales de Y1 dados los valores de y2 :

Solución: 
p(1, 0) + p(1, 4), y1 = 1






p1 (y1 ) = ∑ p(y1 , y2 ) = p(y1 , 0) + p(y1 , 4) = P(2, 0), y1 = 2
y2 



 p(3, 4), y1 = 3


 p(1, 0) + p(2, 0) , y2 = 0

p2 (y2 ) = ∑ p(y1 , y2 ) = p(1, y2 ) + p(2, y2 ) + p(3, y2 ) =
y1 
 p(1, 4) + p(3, 4) y2 = 4

* Las marginales están dadas por:



1/2 , y1 = 1

 



  1/2

, y1 = 1
p1 (y1 ) = ∑ p(y1 , y2 ) = 1/4 y1 = 2 =
y2  
 1/4


 , y2 = 2, 3
 1/4

y1 = 3


 1/2 , y2 = 0
 
p2 (y2 ) = ∑ p(y1 , y2 ) = = 1
, y2 = 0, 4
y1 
 1/2 , y = 4 2
2

* Las condicionales de Y1 dado y2 :

Para y2 = 0
p(1, 0) 1/4 1
p(Y1 = 1|y2 = 0) = = =
p2 (0) 1/2 2
p(2, 0) 1/4 1
p(Y1 = 2|y2 = 0) = = =
p2 (0) 1/2 2
Para y2 = 4
p(1, 4) 1/4 1 p(3, 4) 1
p(Y1 = 1|y2 = 4) = = = ; P(Y1 = 3|Y2 = 4) = =
p2 (4) 1/2 2 p2 (4) 2

47

 p(y1 |y2 = 0) = 1/2

para y1 = 1, 2
• p(y1 |y2 ) =
 p(y |y = 4) = 1/2

para y1 = 1, 3
1 2

* La condicional
 de Y2 dado y1 :
p(y2 |y1 = 1) = 1/2 para y2 = 0, 4






p(y2 |y1 ) = p(y2 |y1 = 2) = 1 para y2 = 0




 p(y2 |y1 = 3) = 1

para y2 = 4

p(1, 0) 1/4 1
p(y2 = 0|y1 = 1) = = =
p1 (0) 1/2 2
p(1, 4) 1/4 1
p(y2 = 4|y1 = 1) = = =
p1 (1) 1/2 2
p(2, 0) 1/4
p(y2 = 0|y1 = 2) = = =1
p1 (2) 1/4

p(3, 4) 1/4
p(y2 = 4|y1 = 3) = = =1
p1 (3) 1/4

5. Dada la siguiente función de densidad de probabilidad conjunta



 6(1 − y2 )

, 0 ≤ y1 ≤ y2 ≤ 1
f (y1 , y2 ) =

 0 , e.c.o.c.

a) Hallar las funciones de densidad marginales de Y1 y Y2 .

b) Encontrar P(Y2 ≤ 1/2|Y1 ≤ 3/4)

c) Encontrar la función de densidad condicional de Y1 dado Y2 = y2

d) Encontrar la función de densidad condicional de Y2 dado Y1 = y1

e) Encontrar P(Y2 ≥ 3/4|Y1 = 1/2)

Solución:

48
Z 1  1
6
a) f1 (y1 ) = 6(1 − y2 )dy2 = 6y2 − y22
y1 2 y1
6 2
= 6 − 3 − 6y1 + y1 = 3 − 6y1 + 3y21
2
= 3(y21 − 2y1 + 1) = 3(y1 − 1)2 , 0 ≤ y1 ≤ 1.
Z y2 y2
f2 (y2 ) = 6(1 − y2 )dy1 = 6y1 (1 − y2 ) = 6y2 (1 − y2 ), 0 ≤ y2 ≤ 1.
0 0
f (y1 , y2 ) 6(1 − y2 ) 2(1 − y2 )
d) f (y2 |y1 ) = = 2
= , y1 ≤ y2 ≤ 1
f1 (y1 ) 3(y1 − 1) (1 − y1 )2
f (y1 , y2 ) 6(1 − y2 ) 1
c) f (y1 |y2 ) = = = , 0 ≤ y1 ≤ y2
 f2 (y2 )  6(1 Z− 1y2 ) y2 
3 1
e) P Y2 ≥ Y1 = /2 1 = f y2 |y1 = dy2
4 3/4 2
Z 1 1
9
= 8(1 − y2 )dy2 = (8y2 − 4y22 = 4−6+
3/4 3/4 4
1
=
4 
3 1
  P Y1 ≤ ,Y2 ≤
1 3 4 2
b) P Y2 ≤ Y1 ≤ =  
2 4 3
P Y1 ≤
4
  Z 1/2 Z y2
3 1
• P Y1 ≤ ,Y1 ≤ = 6(1 − y2 )dy1 dy2
4 2 0 0 y2
Z 1/2 Z 1/2
= 6y1 (1 − y2 ) dy2 = (6y2 − 6y22 )dy2
0 0
1 0
6 2 6 3 /2 3 2 1

= y − y = − =
2 2 3 2 0 4 8 2

  Z 3/4 Z 3/4
3
• P Y1 ≤ = f1 (y1 )dy1 = 3(y1 − 1)2 dy1
4 0 0
−1/4 
−1 3
Z −1/4 
2 3
= 3u du = u = − (−1)3
−1 −1 4
1 63
= − +1 =
64 64

1 3 1/2 64 32
∴ P(Y2 ≤ Y1 ≤ ) = = = .
2 4 63/64 2(63) 63

49
Otra forma:
1/2
y2
  Z 1/2 Z 1/2 Z 1/2 
3 1
P Y1 ≤ ,Y2 ≤ = 6(1 − y2 )dy2 dy1 = 6 y2 − 2 dy1
4 2 0 y1 0 2 y1
1/2
y2 y3
Z 1/2        2
3 9 y
= 6 − 6 y1 − 1 dy1 = y1 − 6 1 − 1
0 8 2 4 2 6 0
 
9 1 1 9 6 1 4 1
= −6 − = − + = =
8 8 48 8 8 8 8 2

3.4. Variables aleatorias independientes

Recordemos que dos eventos A y B son independientes si P(AB) = P(A).P(B)

Definición 10. • Si Y1 tiene una función de distribución F1 (y1 ), Y2 tiene una función de distribución

F2 (y2 ), y Y1 ,Y2 tienen una función de distribución conjunta F(y1 , y2 ). Entonces Y1 y Y2 se dicen inde-

pendientes si y sólo si F(y1 , y2 ) = F1 (y1 ).F2 (y2 ) para cada (y1 , y2 ) de números reales.

• Si Y1 y Y2 son v.a. discretas con f.d.p. conjunta p(y1 , y2 ) y funciones marginales p1 (y1 ) y p2 (y2 ),

respectivamente, entonces la relación anterior es verdadera si y sólo si p(y1 , y2 ) = p1 (y1 ).p2 (y2 ), ∀

los # reales (y1 , y2 ).

• Si Y1 y Y2 son v.a. discretas con f.d.p. conjunta f (y1 , y2 ) y las densidades marginales f1 (y1 ) y f2 (y2 ),

respectivamente, la relación anterior es verdadera si y sólo si f (y1 , y2 ) =) f1 (y1 ). f2 (y2 ), ∀ los #

reales (y1 , y2 ).

Si Y1 y Y2 no son independientes, se dice que son dependientes.

Ejemplos: Usemos los ejemplos 3 y 5 para ver si las v.a. Y1 y Y2 son independientes o no.

Ejemplo 3:
24 10 45
p(1, 1) = = 0,2857, p1 (1) = y p2 (1) =
84 84 84
450
p1 (1).p2 (1) = = 0 · 064 ∴ Y1 y Y2 no son independientes.
7056

50
Ejemplo 5:

f (y1 , y2 ) = 8(1 − y2 ) 0 ≤ y1 ≤ y2 ≤ 1

f1 (y1 ) = 3(Y1 − 1)2

f2 (y2 ) = 6y2 (1 − y2 ), así f1 (y1 ). f2 (y2 ) = 18y2 (1 −Y2 )(y1 − 1)2 .

Como f1 (y1 ). f2 (y2 ) 6= f (y1 , y2 ),Y1 y Y2 son dependientes

Ejemplo 6:

En un supermercado dos clientes están esperando para pagar sus compras en el mostrador I y un cliente en el

mostrador II. Sean Y1 y Y2 el # de clientes que compran más de 50 dólares en comestibles en los mostradores

respectivos. Suponga que Y1 y Y2 son dos v.a. binomiales independientes con la probabilidad de que un cliente

gaste más de 50 dólares igual a 0.2 para el mostrador I y 0.3 para el mostrador II.

a) Obtener la distribución de probabilidad conjunta para Y1 y Y2 .

b) Calcular la probabilidad de que no más de uno de los tres clientes gaste más de 50 dólares.

Solución:

Yi : Nro. de clientes que compran más de 50$ en el mostrador i, i = 1, 2 y1 = 0, 1, 2; y2 = 0, 1

y1 1 0 0

y2 0 1 0
2 Y1 2−y1
Y1 ∼ Bin(2, 0 · 2) ⇒ p1 (y1 ) = y1 (0 · 2) (0 · 8) , y1 = 0, 1, 2
1 Y2 1−y2
Y2 ∼ Bin(1, 0 · 3) ⇒ p2 (y2 ) = y2 (0 · 3) (0 · 7) , y2 = 0, 1

a) p(y1 , y2 ) = p1 (y1 ).p2 (y2 )

= y21 (0 · 2)y1 (0 · 8)2−y2 1 y2 1−y2



y2 (0 · 3) (0 · 7)

51
b) B = no más de uno de los 3 clientes gasten más de 50$

P(B) = P(Y1 = 0,Y2 = 0) + P(Y1 = 0,Y2 = 1) + P(Y1 = 1,Y2 = 0)

= p(0, 0) + p(0, 1) + p(1, 0)

2 2 1
 2 2 1
 2
= 0 (0 · 8) 0 (0 · 7) + 0 (0 · 8) ( 1 (0 · 3) + 1 (0 · 2)(0 · 8)

= (0 · 64)(0 · 7) + (0 · 64)(0 · 3) + 2 × (0 · 112)

= 0 · 448 + 0 · 192 + 0 · 224 = 0 · 864

Ejemplo 7: Sea 
 4y1 y2 , 0 ≤ y1 ≤ 1; 0 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0, e.c.o.c

Demuestre que Y1 y Y2 son independientes.

Solución:
1
y22
Z 1
f1 (y1 ) = 4y1 y2 dy2 = 4y1 = 2y1 , 0 ≤ y1 ≤ 1
0 2 0

1
y2
Z 1
f2 (y2 ) = 4y1 y2 dy1 = 4y2 1 = 2y2 , 0 ≤ y2 ≤ 1
0 2 0

por lo tanto

f (y1 , y2 ) = f1 (y2 ). f2 (y2 )

Teorema 14. Sean Y1 y Y2 v.a. con una densidad conjunta f (y1 , y2 ), que es positiva si y sólo si a ≤ y1 ≤

b, c ≤ y2 ≤ d, para las constantes a,b,c y d, y f (y1 , y2 ) = 0 en cualquier otro punto. Entonces Y1 y Y2 son v.a.

independientes si y sólo si f (y1 , y2 ) = g(y1 ).h(y2 ) en donde g(y1 ) es sólo una función no negativa de y1 y h(y2 ) es

sólo una función no negativa de y2 .

Ejemplos:

52

 2y1 , 0 ≤ y1 ≤ 1; 0 ≤ y2 ≤ 1

1. Y1 y Y2 tienen a f (y1 , y2 ) =

 0, e.c.o.c.
¿ Y1 y Y2 son independientes?

Observamos que

• f (y1 , y2 ) es positiva ⇔ 0 ≤ y1 ≤ 1; y 0 ≤ y2 ≤ 1

• f (y1 , y2 ) = g(y1 ).h(y2 ) en donde g(y1 ) = 2y1 y h(y2 ) = 1. Luego, por teorema, Y1 y Y2 son indepen-

dientes.

 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

2. Y1 y Y2 tienen a f (y1 , y2 ) =

 0, e.c.o.c.

Acá Y1 y Y2 son dependientes, ya que f (y1 , y2 ) es positiva ⇔ 0 ≤ y2 ≤ y1 ≤ 1 y no existen constantes a,b,c y

d tales que la densidad sea positiva en la región a ≤ y1 ≤ b; c ≤ y2 ≤ d.

No se puede aplicar el teorema.

3.5. Valor Esperado de una Función de Variables Aleatorias

Definición 11. Sea g(Y1 ,Y2 , ...,Yk ) una función de las v.a. Y1 , ...,YK , que tienen una función de probabilidad

p(y1 , y2 , ..., yk ) . Entonces, el valor esperado de g(Y1 ,Y2 , ...,Yk ) es

E[g(Y1 , ...,Yk )] = ∑ · · · ∑ ∑g(y1 , ...yk ).p(y1 , ..., yk ).p(y1 , ..., yk )


yk y2 y1

Si Y1 , ...,Yk son v.a. continuas con la función de densidad conjunta f (y1 , ...yk ), entonces

Z Z Z
E[g(Y1 , ...,Yk )] = ... g(y1 , ..., yk ). f (y1 , ..., yk )dy1 dy2 ...dyk
Yk Y2 Y1

Teoremas:

1. Sea c una constante. Entonces E(c) = c.

53
2. Sea g(y1 , y2 ) una función de v.a. Y1 y Y2 , y sea c una constante. Entonces

E[c g(y1 , y2 )] = cE[g(y1 , y2 )].

3. Sean Y1 y Y2 v.a. con f.d.d. conjunta f (y1 , y2 ), y sean g1 (Y1 ,Y2 ), g2 (Y1 ,Y2 ), ..., gk (Y1 ,Y2 ) funciones de Y1 y Y2 .

Entonces

E[g1 (Y1 ,Y2 ) + ... + gk (Y1 ,Y2 )] = E[g1 (Y1 ,Y2 )] + ... + E[gk (Y1 ,Y2 )]

4. Sean Y1 y Y2 v.a. independientes con f.d.d. conjunta f (y1 , y2 ). Sea g(Y1 ) y h(Y2 ) funciones de Y1 y Y2 ,

respectivamente. Entonces

E]g(Y1 ).h(Y2 )] = E[g(Y1 )].E[h(Y2 )]

siempre y cuando los valores esperados existen.

Ejemplo 8: En cierto proceso para elaborar una sustancia química, el producto resultante contiene dos tipos de

impurezas. En una muestra específica de este proceso, Y1 denota una proporción de impureza en la muestra y Y2

la proporción de la impureza tipo I entre todas las impurezas encontradas. Supóngase que se puede elaborar un

modelo de la distribución conjunta de Y1 y Y2 mediante la función de densidad de probabilidad siguiente:



 2(1 − y1 ); 0 ≤ y1 ≤ 1; 0 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0 en c.o.c.

a) Encuentre el valor esperado de la proporción de impurezas tipo I en la muestra (Por definición).

b) Entontrar E(Y1 ,Y2 ) (usando teoremas).

Solución:

a) Nótese que

Y1 : Es la proporción de impurezas en la muestra, y

Y2 : Es la proporción tipo I en relación al total de las impurezas en la muestra.

Así,

54
Y1 Y2 : Es la proporción de impurezas tipo I en la muestra entera,

entonces debemos hallar E(Y1 ,Y2 ).

y22
Z 1Z 1 Z 1 Z 1
E(Y1 ,Y2 ) = y1 y2 ,2(1 − y1 )dy2 dy1 =2 Y1 (1 − y1 )]10 dy1 = y1 (1 − y1 )dy1
0 0 0 2 0
y2 y3 1 1 1 1

= 1− 1 = − =
2 3 0 2 3 6

1
∴ Se espera que la muestra contenga de impureza tipo I.
6

b) f (y1 , y2 ) es positiva en 0 ≤ y1 ≤ 1; 0 ≤ y2 ≤ 1 (se puede usar teorema).

Z 1
f1 (y1 ) = 2(1 − y1 )dy2 = 2y2 (1 − y1 )]10 = 2(1 − y1 ); 0 ≤ y1 ≤ 1
0
Z 1
f2 (y2 ) = 2(1 − y1 )dy1 = 2y1 − y21 ]10 = 1; 0 ≤ y2 ≤ 1.
0

Luego,
1
y21 2y31
Z 1
2 1
E(Y1 ) = Y1 2(1 − y1 )dy1 = 2 − − = 1− =
0 2 3 0 3 3
y2 1 1
Z 1 
E(Y2 ) = y2 dy2 = =
0 2 0 2

como f (y1 , y2 ) = f (y1 ) f (y2 ), entonces Y1 y Y2 son independientes.


1 1 1
∴ E(Y1 ,Y2 ) = E(Y1 ).E(Y2 ) = . =
3 2 6

Ejemplo 9: Sean Y1 ,Y2 v.a. con f.d. conjunta



 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

f (y1 , y2 ) =

 0, e.c.o.c

(dada en el ejemplo 2). Consideremos la v.a. Y1 −Y2 que denota la cantidad proporcional de gasolina que queda al

final de la semana. Hallar E(Y1 −Y2 ).

Solución: Haciendo g1 (Y1 ,Y2 ) = Y1 y g2 (Y1 ,Y2 ) = −Y2 tenemos por teorema que:

E[g1 (Y1 ,Y2 ) + g2 (Y1 ,Y2 )] = E[g1 (Y1 ,Y2 )] + E[g2 (Y1 ,Y2 )]

55
es decir

E(Y1 −Y2 ) = E(Y1 ) + E(−Y2 ) = E(Y1 ) − E(Y2 ).

Ahora
Z +∞ Z 1
E(Y1 ) = y1 f1 (y1 ) dy1 = y1 (3y21 )dy1
−∞ 0
1
3 3
= y41 =
4 0 4
Z +∞ Z 1  
3 2
E(Y2 ) = y2 f2 (y2 )dy2 = y2 (1 − y2 ) dy2
−∞ 0 2
1
3 y22 3 y42 3 3 3
= − = − =
2 2 2 4 0 4 8 8
3 3 3
∴ E(Y1 −Y2 ) = − = .
4 8 8

Otra for ma de calcular E(Y1 ) y E(Y2 ) sin usar las marginales


Z +∞ Z +∞ Z 1 Z y1
E(Y1 ) = y1 f (y1 , y2 )dy2 dy1 = y1 (3y1 )dy2 dy1
−∞ −∞ 0 0
Z 1 y1 Z 1 1
3 3
= 3y21 (y2 ) = 3y31 dy1 = y41 =
0 0 0 4 0 4
Z +∞ Z +∞ Z 1 Z y1
E(Y2 ) = y2 f (y1 , y2 )dy2 dy1 = y2 (3y1 )dy2 dy1
−∞ −∞ 0 0
y2 y1 3 y41 1 3
Z 1  Z 1 
3 3
= 3y1 2 dy1 = y1 dy1 = =
0 2 0 0 2 2 4 0 8

3.5.1. Valores Esperados Condicionales

Definición 12. Si Y1 y Y2 son dos v.a. cualesquiera, el valor esperado condicional de Y1 dado que Y2 = y2 , se

define como:
Z +∞
E[Y1 |Y2 = y2 ] = y1 f (y1 |y2 )dy si Y1 y Y2 son conjuntamente continuas, y
−∞

E[Y1 |Y2 = y2 ] = ∑y1 p(y1 |y2 ) si Y1 y Y2 son conjuntamente discretas


y1

56
3.5.2. La Covarianza de dos Variables Aleatorias

Definición 13. La covarianza de Y1 y Y2 se define como el valor esperado de (Y1 − µ1 )(Y2 − µ2 ). En la notación

de la esperanza, la covarianza será:

Cov(Y1 ,Y2 ) = E[(Y1 − µ1 )(Y2 − µ2 )]

en donde

E(Y1 ) = µ1 y E(Y2 ) = µ2 .

Definición 14. El coeficiente de correlación lineal de la población, ρ, se relaciona con la covarianza y se define

como
Cov(Y1 ,Y2 )
ρ= ,
σ1 σ2

donde σ1 y σ2 son las desviaciones estándar de Y1 y Y2 , respectivamente.

Observación: El coeficiente de correlación ρ satisface la desigualdad −1 ≤ ρ ≤ 1.

• −1 o 1 implica una correlación perfecta con todos los puntos sobre una línea recta.

• ρ = 0 implica covarianza igual a cero y ninguna correlación

• ρ positivo indica que Y2 crece cuando Y1 crece.

• ρ negativa indica que Y2 decrece cuando Y1 crece.

Teorema 15. Sean Y1 y Y2 dos v.a. con una función de densidad conjunta f (y1 , y2 ). Entonces

Cov(Y1 ,Y2 ) = E(Y1Y2 ) − E(Y1 ).E(Y2 )

En el ejemplo 8, la covarianza de Y1 y Y2 es:

Cov(Y1 ,Y2 ) = E(Y1Y2 ) = E(Y1 ).E(Y2 )


1 1 1
= − . =0
6 3 2

57
Teorema 16. Si Y1 y Y2 son dos v.a. independientes, entonces

Cov(Y1 ,Y2 ) = 0.

Observación: El recíproco del teorema anterior no es verdadero.

Ejemplo 10: Sean Y1 y Y2 dos v.a. discretas con la distribución de probabilidad conjunta dada por:

Y1
Y2 −1 0 1

−1 1/16 3/16 1/16

0 3/16 0 3/16

1 1/16 3/16 1/16

Demuestre que Y1 y Y2 son dependientes pero con la covarianza cero.

 
5/16 si y1 = −1 5/16 si y2 = −1

 


 


 

p1 (y1 ) = 6/16 si y1 = 0 p2 (y2 ) = 6/16 si y2 = 0

 


 

 5/16

si y1 = 1  5/16

si y2 = 1
1 5 5
Notemos que p(−1, −1) = 6= . = p1 (−1).p2 (−1)
6 16 16
∴ Y1 y Y2 son dependientes.

Ahora,

E(Y1 ,Y2 ) = ∑ ∑Y1 Y2 p(y1 , y2 )


y1 y2

1 3 1 3 3
= (−1)(−1) + (0)(−1) + (1)(−1) + (−1)(0) + (0)(0)(0) + (1)(0) +
16 16 16 16 16
1 3 1 1 1 1 1
+ (−1)(1) + (0)(1) + (1)(1) = − − + =0
16 16 16 16 16 16 16

E(Y1 ) = (−1)5/16 + (0)6/16 + (1)5/16 = 0 y E(Y2 ) = 0

∴ Cov(Y1 ,Y2 ) = E(Y1Y2 ) − E(Y1 ).E(Y2 ) = 0.

58
3.5.3. Valor esperado y varianza de funciones lineales de v.a.

Consideremos la siguiente función lineal

n
U1 = a1Y1 + a2Y2 + ... + anYn = ∑ aiY1
i=1

donde, a1 , a2 , ..., an son constantes y Y1 ,Y2 , ...,Yn son variables aleatorias

Teorema 17. Sean Y1 , ...Yn y X1 , ..., Xm v.a. con E(Yi ) = µi y E(X j ) = ξ j . Definamos

n m
U1 = ∑ aiYi , U2 = ∑ bj Xj
i=1 j=1

para las constantes a1 , ..., an , b1 , ...bm . Entonces se cumple lo siguiente:

n
a) E(U1 ) = ∑ ai µi
i=1
n
b) Var(U1 ) = ∑ a2i Var(Yi ) + 2∑ ∑ai a jCov(Yi ,Y j ) en donde la suma doble se forma ∀(i, j) con i < j
i=1 i< j

n m
c) Cov(U1 ,U2 ) = ∑ ∑ ai b j Cov(Yi , X j ).
i=1 j=1

Para U1 = aY y U2 = bX se tiene Cov(aY, bX) = abCov(Y, X).

Ejemplo: Sean Y1 ,Y2 y Y3 v.a. en donde

E(Y1 ) = 1, E(Y2 ) = 2, E(Y3 ) = −1; Var(Y1 ) = 1,Var(Y2 ) = 3,Var(Y3 ) = 5,

Cov(Y1 ,Y2 ) = −4,Cov(Y1 ,Y3 ) = 1/2,Cov(Y2 ,Y3 ) = 2

Hallar el valor esperado y la varianza de U = Y1 − 2Y2 +Y3 .

Solución: a1 = 1, a2 = −2, a3 = 1

E(U) = E(Y1 ) + (−2)E(Y2 ) + E(Y3 ) = 1 − 2 × 2 + (−1) = −4,

59
Var(U) = a21Var(Y1 ) + a22Var(Y2 ) + a23Var(Y3 ) + 2a1 a2Cov(Y1 ,Y2 ) + 2a1 a3Cov(y1 , y3 )

+ 2a2 a3Cov(Y2 ,Y3 )

= (1)2 (1) + (−2)2 (3) + (1)2 (5) + (2)(1)(−2)(−4) + (2)(1)(1)(1/2) + (2)(−2)(1)(2)

= 27.

3.6. Ejemplos

1. Suponga que Y1 ,Y2 están distribuidas uniformemente en el triángulo cuyos vértices son (-1,0); (1,0) y

(0,1). Calcular:
 
3 3
a) P Y1 ≤ ,Y2 ≤
4 4
b) P(Y1 −Y2 ≥ 0).

Solución:
1 1
Ntesequeelreadeltringuloes b.h = (2)(1) = 1.
2 2
Ahora,
−1 ≤ Y1 ≤ 0 , Y2 ≤ 1 +Y1 , y

0 ≤ Y1 ≤ 1 , Y2 ≤ 1 −Y1


1, y2 − y1 ≤ 1 , −1 ≤ Y1 ≤ 0 y






∴ f (y1 , y2 ) = y2 + y1 ≤ 1 , 0 ≤ Y1 ≤ 1




 0 e.c.o.c.

  Z 3/4 Z 1/4 Z 3/4 Z 1−y1


3 3
a) P Y1 ≤ ,Y2 ≤ = dy1 dy2 + dy2 dy1
4 4 0 Y −1 1/4 0
Z 3/4  2  Z 3/4
5
= − y2 dy2 + (1 − y1 )dy1
0 4 1/4

y2 /4 y2 /4
 3  3
5
= y2 − 2 + y1 − 1
4 2 0 2 1/4

60
b) P(Y1 −Y2 ≥ 0)
Z 1/2 Z 1−Y2
= dy1 dy2
0 Y2
Z 1/2  1/2
1 1 1
= (1 − 2y2 )dy2 = y2 − y22 = − =
0 0 2 4 4

2. En el ejemplo anterior:

a) Obtener las funciones de densidad marginales para Y1 y Y2 .


1
b) Calcular P(Y2 > |Y1 = 1/4).
2
c)HallarE(Y1 Y2 ).

Solución:
Z 1−y2
a) f2 (Y2 ) = 1 dy1 = (1 − y2 ) − (y2 − 1) = 2 − 2y2 = 2(1 − y2 ), 0 ≤ y2 ≤ 1
y2 −1
Z 1+y1
Para −1 ≤ Y1 ≤ 0, f1 (Y1 ) = 1 dy2 = 1 +Y1
0
Z 1−y1
Para 0 ≤ Y1 ≤ 1, f1 (Y1 ) = 1 dy2 = 1 −Y1
0

Y2 − 1 ≤ Y1 , Y1 < 0

Y2 − 1 ≤ −Y1 , Y1 > 0


y2 − 1 ≤ −|y1 | 

⇒ y2 ≤ 1 − |y1 |
y2 − 1 ≤ −|y1 | 

f1 (y1 ) = 1 − |y1 | , −1 ≤ Y1 ≤ 1

f2 (y2 ) = 2(1 − y2 ) , 0 ≤ Y2 ≤ 1

61
Z 3/4  
1 1
b) P(Y2 > |Y1 = 1/4) = f y2 |y1 = dy2
2 1/2
 4
1
Z 3/4 f y1 = , y2
4
=   dy2
1/2 1
f1
4
Z 3/4
1
= dy2
1/2 3/4
Z 3/4 3/4
4 4
= dy2 = y2
1/2 3 3 1/2
 
4 3 1 4 1 1
= − = . =
3 4 2 3 4 3
(1 − y2 )2 − (y2 − 1)2
Z 1 Z 1−y2 Z 1
c) E(Y1Y2 ) = Y1Y2 dy1 dy2 = y2 dy2
0 y2 −1 0 2
(1 − y2 )2 − (1 − y2 )2
Z 1
= y2 dy2 = 0
0 2

3. Al gerente de un restaurante de comida rápida le interesa el comportamiento conjunto de las variables alea-

torias:

Y1 : tiempo total entre la llegada de un cliente al rest. y su salida a la ventanilla de servicio.

Y2 : Tiempo que el cliente espera en la formación antes de llegar a la ventanilla de servicio.

Como Y1 incluye el tiempo que el cliente espera en la formación, tenemos que Y1 ≥ Y2 . La distribución de las

frecuencias relativas de los valores observados de Y1 y Y2 puede representarse por el modelo de la función

de densidad de probabilidad (con el tiempo medido en minutos):



 e−y1 , 0 ≤ y2 ≤ y1 < ∞

f (y1 , y2 ) =

 0 , e.c.o.c.

a) Obtener P(Y1 < 2,Y2 > 1).

b) Calcular P(Y1 ≥ 2Y2 ).

c) Si han transcurrido 2 min. entre la llegada de un cliente al rest. y su salida, calcular la probabilidad de

que haya esperado menos de 1 min. para llegar a la ventanilla de servicio.

d) Hallar E(Y1 −Y2 ) y Var(Y1 −Y2 ).

Solución:

62
a) Obtener P(Y1 < 2,Y2 > 1)

Z 2Z 2 Z 2 2
−y1 −y1
P(Y1 < 2,Y2 > 1) = e dy1 dy2 = −e dy2
1 y2 1 y2
Z 2  2
−y2 −2 −y2 −2
= [e − e ]dy2 = − e − e y2
1 1

= −e−2 − 2e−2 + e−1 + e−2 = e−1 − e−2

b) Calcular P(Y1 ≥ 2Y2 )

Z +∞ Z 1/2Y1 Z +∞ 1/2Y1
P(Y1 ≥ 2Y2 ) = e−y1 dy2 dy1 = y2 e−y1 dy1
0 0 0 0
Z +∞  +∞ Z +∞ 
1 1
−y1 −y1 −y1
= y1 e dy1 = (−y1 e + e dy1
0 2 2 0 0
 
1
= lı́m (−b e−b ) + lı́m [−e−b + 1]
2 b→+∞ b→+∞

1 1
= (1) =
2 2

c) Debemos calcular P(Y2 < 1|Y1 = 2).

f (y1 , y2 ) e−y1 1
f (y2 |y1 ) = = = , 0 ≤ y2 ≤ y1
f1 (y1 ) y1 e−y1 y1
Z y1 y1
−y1 −y1
f1 (y1 ) = e dy2 = y2 e = y1 e−y1 , 0 ≤ y1 < +∞
0 0

f (2, y2 ) e−2 1
f (y2 |y1 = 2) = = −2 =
f1 (2) 2e 2
Z 1
1 1
∴ P(Y2 < 1|Y1 = 2) = dy2 = .
0 2 2

d) Notemos que:
Z +∞ +∞
f2 (y2 ) = e−y1 dy1 = e−y1 = e−y2 , 0 ≤ y2 < +∞
y2 y1

63
por lo tanto, Y1 y Y2 son dependientes.
Y1 ∼ Gam(α = 2 y β = 1) ⇒ f1 (Y1 ) = Y1 e−y1 , 0 ≤ Y1 < +∞,

además E(Y1 ) = 2(1) = 2,Var(Y1 ) = αβ2 = 2

Y2 ∼ Gam(α = β = 1) ⇒ f2 (Y2 ) = e−y2 , 0 ≤ Y2 < +∞

además E(Y2 ) = 1,Var(Y2 ) = 1

∴ E(Y1 −Y2 ) = E(Y1 ) − E(Y2 ) = 2 − 1 = 1

Var(Y1 −Y2 ) = Var(Y1 ) +Var(Y2 ) − 2 Cov(Y1 ,Y2 )

Z +∞ Z y1 Z +∞
1 3 −y1
E(Y1 Y2 ) = = Y1 Y2 e−y1 dy2 dy1 = Y1 e dy1
0 0 0 2
Γ(4)14 (4 − 1)!
= = 3
2 2
Cov(Y1 ,Y2 ) = E(Y1Y2 ) − E(Y1 )E(Y2 )

= 3 − (2)(1) = 1

∴ Var(Y1 −Y2 ) = 2 + 1 − 2(1) = 1

3.7. Ejercicios Propuestos

1. Dos contratos de obras de construcción se otorgan aleatoriamente a una o más de las compañías A, B, o

C. Sea Y1 la cantidad de contratos concedidos a la compañía A y Y2 la cantidad de contratos otorgados a la

compañía B. Recuerde que cada empresa puede recibir 0, 1 o 2 contratos.

a) Encuentre la función de probabilidad conjunta de Y1 y Y2 .

b) Calcule F(1, 0).

2. Tres monedas se lanzan al aire de manera independiente. Una de las variables de interés es Y1 , el número de

caras: Y2 representa la cantidad de dinero que se gana en una apuesta de la siguiente manera: si en el primer

64
lanzamiento sale la primera cara, usted gana un dólar, si sale en el segundo o en el tercer lanzamiento, usted

gana 2 o 3 dólares, respectivamente; si no aparece ninguna cara, pierde un dólar (es decir, gana -1 dólar).

a) Encuentre la función de probabilidad conjunta de Y1 y Y2 .

b) Cuál es la probabilidad de que caigan menos de tres caras y usted gane 1 dólar o menos? [Es decir,

calcule F(2, 1).]

c) Son independientes el número de total de caras y las ganancias?

3. En una empresa hay nueve ejecutivos, de los cuales cuatro están casados, tres son solteros y dos son divor-

ciados. Tres de ellos serán seleccionados al azar para un ascenso. Si Y1 es el número de ejecutivos casados

y Y2 el de ejecutivos solteros entre los tres elegidos para el cargo, encuentre la distribución de probabilidad

conjunta de Y1 y Y2 .

4. Un ingeniero ambiental mide la cantidad (por peso) de partículas contaminantes en muestras de aire de de-

terminado volumen recogidas en dos chimeneas de una planta de energía que funciona con carbón. Una de

las chimeneas está equipada con un dispositivo de purificación. Establezca Y1 como la cantidad de contami-

nantes por muestra recogida en la chimenea que no tiene el dispositivo mencionado y Y2 como la cantidad de

contaminantes por muestra recogida en la que sí lo tiene. Suponga que el comportamiento de la frecuencia

relativa de Y1 y Y2 puede representarse mediante la función:



 k, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1,

2y2 ≤ y1
f (y1 , y2 ) =

 0, en cualquier otro punto.

Es decir, Y1 y Y2 están distribuidas uniformemente en el interior del triángulo formado por y1 = 2, y2 = 0 y

2y2 = y1 .

a) Encuentre el valor de k para el que la función es una función de densidad de probabilidad.

b) Encuentre P(Y1 ≥ 3Y2 ). Es decir, determine la probablilidad de que el dispositivo de purificación re-

duzca una tercera parte o más de la cantidad de contaminantes.

65
5. Suponga que Y1 y Y2 están uniformemente distribuidas en el triángulo formado por los puntos (−1, 0), (1, 0)

y (0, 1)

a) Encuentre P(Y1 ≤ 3/4,Y2 ≤ 3/4).

b) Encuentre P(Y1 −Y2 ≥ 0).

c) Encuentre las funciones de densidad marginal de Y1 y Y2 .

d) Encuentre P(Y2 > 1/2|Y1 = 1/4).

e) ¿Son independientes Y1 y Y2 ?

6. La función de densidad conjunta de Y1 y Y2 se determina por la expresión



 30y1 y2 , y1 − 1 ≤ y2 ≤ 1 − y1 , 0 ≤ y1 ≤ 1

2
f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Encuentre F(1/2, 1/2).

b) Encuentre F(1/2, 2).

c) Encuentre P(Y1 > Y2 ).

7. Suponga que las variables aleatorias Y1 y Y2 tienen una función de densidad de probabilidad conjunta

f (y1 , y2 ), representada por:



 6y2 y2 , 0 ≤ y1 ≤ y2 ,

y1 + y2 ≤ 2
1
f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Compruebe que ésta es una función de densidad conjunta válida.

b) Cuál es la probabilidad de que Y1 +Y2 sea menor que 1?.

8. La gerencia de un establecimiento de comida rápida está interesada en el comportamiento conjunto de la

variables aleatorias Y1 que se define como el tiempo total que transcurre entre el instante en que el cliente

llega al establecimiento y el momento en que abandona la ventanilla de servicio, y Y2 , el tiempo que un

66
cliente espera formado antes de llegar a la ventanilla de servicio. Puesto que Y1 incluye el tiempo que el

cliente espera en la fila, Y1 ≥ Y2 . La distribución de frecuencia relativas de los valores observados de Y1 y Y2

puede representarse mediante la función de densidad de probabilidad:



 e−y1 , 0 ≤ y2 ≤ y1 ≤ ∞

f (y1 , y2 ) =

 0, en cualquier otro punto.

con el tiempo medido en minutos.

a) Encuentre P(Y1 < 2,Y2 > 1).

b) Encuentre P(Y1 ≥ 2Y2 ).

c) Encuentre P(Y1 −Y2 ≥ 1). (Note que Y1 −Y2 denota el tiempo invertido en la ventanilla de servicio.)

9. Sean (Y1 ,Y2 ) las coordenadas de un punto elegido aleatoriamente dentro de un círulo unitario, cuyo centro

se ubica en el origen. Es decir, Y1 y Y2 tienen una función de densidad conjunta representada por:

 1 , y21 + y22 ≤ 1

f (y1 , y2 ) = π

 0, en cualquier otro punto.

Encuentre P(Y1 ≤ Y2 ).

10. La distribución conjunta de Y1 , el número de contratos concedidos a la compañía A y Y2 , el número de

contratos otorgados a empresa B, se encuentra en las entradas de la siguiente tabla:

y1

y2 0 1 2

0 1/9 2/9 1/9


1 2/9 2/9 0
2 1/9 0 0
a) Encuentre la distribución de probabilidad marginal de Y1 .

b) Encuentre la distribución de probabilidad marginal de Y2 .

c) ¿Son independientes Y1 y Y2 ? ¿Por qué?.

67
d) Encuentre E(Y1 ).

e) Encuentre V (Y1 ).

f) Encuentre E(Y1 −Y2 ).

g) Calcule Cov(Y1 ,Y2 ). ¿Le sorprende que Cov(Y1 ,Y2 ) sea negativa? ¿Por què?

11. La distribución de probabilidad conjunta de Y1 , la cantidad de ejecutivos casados, y Y2 , la cantidad de ejecu-

tivos solteros, está determinada por la expresión


4 3 2 
y1 y2 3−y1 −y2
p(y1 , y2 ) = 9
3

donde y1 y y2 son enteros, 0 ≤ y1 ≤ 3, 0 ≤ y2 ≤ 3 y 1 ≤ y1 + y2 ≤ 3.

a) Encuentre la distribución de probabilidad marginal de Y1 , la cantidad de ejecutivos casados entre los

tres elegidos para el cargo.

b) Encuentre P(Y1 = 1|Y2 = 2).

c) Si Y3 denota el número de ejecutivos divorciados entre los tres elegidos para el cargo, entonces Y3 =

3 −Y1 −Y2 . Calcule P(Y3 = 1|Y2 = 1).

d) ¿Son independientes Y1 y Y2 ?

e) Calcule el número esperado de ejecutivos casados entre los tres elegidos para la promoción.

f) Calcule Cov(Y1 ,Y2 ).

12. Anteriormente estudiamos la densidad conjunta de Y1 , la cantidad de gasolina disponible a principios de

semana, y Y2 la cantidad de gasolina vendida durante la semana, determinada por



 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Encuentre la función de densidad marginal de Y2 .

b) ¿ Para qué valores de y2 está definida la densidad condicional f (y1 |y2 )?

68
c) ¿Cuál es la probabilidad de que se venda más de medio tanque, si éste contiene gasolina hasta tres

cuartas partes de su capacidad?

13. Dada la siguiente función de densidad de probabilidad conjunta



 4y1 y2 , 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Encuentre las funciones de densidad marginal de Y1 y Y2

b) Encuentre P(Y1 ≤ 1/2|Y2 ≥ 3/4).

c) Encuentre la función de densidad condicional de Y1 si Y2 = y2 .

d) Encuentre la función de densidad condicional de Y2 si Y1 = y1 .

e) Encuentre P(Y1 ≤ 3/4|Y2 = 1/2).

f) Demuestre que Cov(Y1 ,Y2 ) = 0. ¿ Le sorprende que Cov(Y1 ,Y2 ) sea igual a cero? ¿Por qué?

14. La función de densidad de probabilidad conjunta para Y1 , la cantidad de contaminantes por muestra recogida

en la chimenea sin sispositivo de purificación, y para Y2 , la cantidad de contaminantes contenidos en la

muestra recogida en la que cuenta con purificador, está dada por:



 1, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1,

2y2 ≤ y1
f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Si la chimenea tiene dispositivo de purificación, calcule la probabilidad de que la cantidad de contami-

nantes en una muestra dada sea superior a 0.5.

b) Si la cantidad de contaminantes en una muestra tomada de la chimenea con purificador es de 0.5,

calcule la probabilidad de que la cantidad de contaminante sea superior, en 1.5, a la de la chimenea sin

dispositivo de purificación.

c) ¿Son independientes las cantidades de contaminantes por muestra tomada en las chimeneas con y sin

dispositivos de purificación?.

69
d) Encuentre E(Y1 ) y E(Y2 ).

e) Encuentre V (Y1 ) y V (Y2 ).

f) La variable aleatoria Y1 −Y2 representa la cantidad de contaminante que podría reducirse utilizando el

dispositivo de purificación. Determine E(Y1 −Y2 ).

g) Encuentre V (Y1 −Y2 ). ¿ Dentro de qué límites esperaría usted que se localizara Y1 −Y2 ?.

15. Dada la función de densidad conjunta de Y1 y Y2 :



 30y1 y2 , y1 − 1 ≤ y2 ≤ 1 − y1 , 0 ≤ y1 ≤ 1

2
f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Demuestre que la densidad marginal de Y1 es una densidad beta con parámetros α = 2, y β = 4.

b) Deduzca la densidad marginal de Y2 .

c) Deduzca la densidad condicional de Y2 dada Y1 = y1 .

d) Calcules P(Y2 > 0|Y1 = 0,75).

e) ¿Son independientes Y1 y Y2 ?

16. Anteriormente se demostró que



 6(1 − y2 ), 0 ≤ y1 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

es una función de densidad de probabilidad conjunta válida.

a) ¿Son independientes Y1 y Y2 ?

b) Encuentre E(Y1 ) y E(Y2 ).

c) Encuentre Var(Y1 ) y Var(Y2 ).

d) Encuentre E(Y1 − 3Y2 ).

e) Calcule Cov(Y1 ,Y2 ).

70
17. Las variables Y1 y Y2 denotan las duraciones, en horas, de los componentes tipo 1 y 2, respectivamente, de

un sistema electrónico. La densidad conjunta de Y1 y Y2 es



 (1/8)y1 e−(y1 +y2 )/2 , y1 > 0, y2 > 0

f (y1 , y2 ) =

 0, en cualquier otro punto.

a) ¿Son independientes Y1 y Y2 ?.

b) Una forma de medir la eficiencia relativa de los dos componentes consiste en calcular la razón Y2 /Y1 .

Determine E(Y2 /Y1 ).

18. Si Y1 y Y2 son variables aleatorias independientes con distribución exponencial y media 1, calcule P(Y1 >

Y2 |Y1 < 2Y2 ).

19. Si Y1 y Y2 son variables aleatorias independientes con una distribución uniforme en el intervalo (0, 1), deter-

mine P(Y1 < 2Y2 |Y1 < 3Y2 ).

20. Dos clientes de un supermercado hacen fila para pagar por su mercancía en las cajas 1 y 2, respectivamente.

Represente con Y1 y Y2 , el número de clientes que gastan más de 50 dólares en comestibles en las diferentes

cajas. Suponga que Y1 y Y2 son variables aleatorias binomiales independientes y las probabilidades de que

un cliente en la caja 1 pague más de $ 50 y un cliente de la caja 2 pague mas de $ 50 son de 0.2 y 0.3,

respectivamente.

a) Encuentre la distribución de probabilidad conjunta de Y1 y Y2 .

b) Calcule la probabilidad de que a lo más uno de tres clientes consuma más de $50.

21. Supongamos que las variables aleatorias discretas Y1 y Y2 tiene la función de probabilidad conjunta

p(y1 , y2 ) = 1/3 para (y1 , y2 ) = (−1, 0), (0, 1), (1, 0).

Encuentre Cov(Y1 ,Y2 ). Observe que Y1 y Y2 son dependientes (¿por qué?). Éste es otro ejemplo de variables

aleatorias sin correlación que no son independientes.

71
22. La función 
 4y1 y2 , 0 ≤ y1 ≤ 1,

0 ≤ y2 ≤ 1
f (y1 , y2 ) =

 0, en cualquier otro punto.

es una función de densidad de probabilidad conjunta válida. En ejercicios anteriores establecimos que Y1 y Y2

eran independientes; además determinamos que E(Y1 −Y2 ) = 0 y encontramos el valor de Var(Y1 ). Calcule

V (Y1 −Y2 ).

23. La función 
 6(1 − y2 ), 0 ≤ y1 ≤ y2 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

es una función de densidad de probabilidad conjunta válida. Dedujimos que E(Y1 − 3Y2 ) = −5/4; demostra-

mos que Cov(Y1 ,Y2 ) = 1/40. Calcule V (Y1 − 3Y2 ).

24. La siguiente función de densidad de probabilidad conjunta corresponde a las variables aleatorias Y1 y Y2 , las

cuales representan las proporciones de dos sustancias en una muestra de una mezcla de insecticida:

 2, 0 ≤ y1 ≤ 1, 0 ≤ y2 ≤ 1, 0 ≤ y1 + y2 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

Una cantidad importante para los productos químicos en cuestión es la proporción total de químicos Y1 +Y2

encontrada en cualquier muestra. Calcule E(Y1 +Y2 ) y V (Y1 +Y2 ).

25. Se elegirá aleatoriamente un comité de tres personas de entre un grupo formado por cuatro republicanos,

tres demócratas y dos independientes. Sea Y1 y Y2 el número de republicanos y demócratas en el comité,

respectivamente.

a) ¿Cuál es la distribución de probabilidad conjunta de Y1 y Y2 .

b) Encuentre las distribuciones marginales de Y1 y Y2 .

c) Calcule P(Y1 = 1|Y2 ≥ 1).

72
26. Suponga que Y1 y Y2 tienen una función de densidad conjunta representada por

 3y1 , 0 ≤ y2 ≤ y1 ≤ 1

f (y1 , y2 ) =

 0, en cualquier otro punto.

a) Encuentre las funciones de densidad marginal de Y1 y Y2

b) Encuentre P(Y1 ≤ 3/4|Y2 ≤ 1/2).

c) Encuentre la función de densidad condicional de Y1 dado que Y2 = y2 .

d) Calcule P(Y1 ≤ 3/4|Y2 = 1/2).

27. La duración Y de cierto tipo de fusibles tienen una distribución exponencial con una función de densidad

dada por 
 (1/β)e−y/β , y ≤ 0

f (y) =

 0, en cualquier otro punto.

a) Si dos fusibles tienen vidas útiles independientes Y1 y Y2 , entuentre su función de dendidad de proba-

bilidad conjunta.

b) Uno de los fusibles del inciso a) está colocado en un sistema principal y el otro en un sistema de

emergencia que comienza a funcionar cuando falla el sistema principal. Por consiguiente, la duración

total efectiva de los dos fusibles es de Y1 +Y2 . Calcule P(Y1 +Y2 ≤ a), donde a > 0.

73
Capítulo 4

Regresión Múltiple y Correlación

Acá estudiaremos los procedimientos inferenciales que pueden utilizarse cuando una v.a. Y denominada varia-

ble dependiente, tiene una medida que es una función de una o más variables aleatorias, x1 , x2 , ...xk , designadas

Variables Independientes.

Es posible clasificar estos modelos en dos categorías,

1. Los modelos determinísticos

2. Los modelos probabilísticos

El Modelo Determinístico se denomina así porque no permite algún error en la predicción de Y como función

de x. Por ejemplo, supongamos que se tiene la relación

Y = β0 + β1 x,

donde β0 , β1 son parámetros desconocidos; cuando x = 20, “Y ” siempre toma el valor β0 + β1 (20).

Si se utiliza el modelo para predecir “Y ” cuando x = 20, la predicción tendrá un error desconocido, esto nos

conduce a la aplicación de métodos estadísticos.

Los Modelos Probabilísticos representan una descripción más adecuada de la realidad, además se pueden

obtener las propiedades del error de precicción para Y en muchos modelos probabilísticos. Ejemplo: E(Y ) =

β0 + β1 x, es un modelo dodne Y = β0 + β1 x + ε y ε es una v.a. con una distribución de probabilidad con media

cero.

Acá nos concentraremos en el conjunto de modelos denominados “Modelos Estadísticos Lineales”.

74
4.1. Modelos Lineales

Si Y es la variable de respuesta y x una variable independiente, parece razonable utilizar el modelo E(Y ) =

β0 + β1 x para parámetros β0 , β1 desconocidos.

“Cuando se afirma tener un modelo estadístico lineal para Y , se denota que E(Y ) es una función lineal de los

parámetros desconocidos β0 y β1 , y no necesariamente una función lineal de x.”


Y = β0 + β1 Ln(x) + ε,
Ejemplos:
Y = β0 + β1 sen(x) + ε,

Y = β0 + β1 x3 + ε, (son modelos lineales)

Modelo de regresión lineal simple: Son aquellos modelos que expresan a E(Y ) como una función lineal de β0

y β1 , solamente.

Modelo de regresión lineal múltiple: Cuando hay más de una variable independiente de interés, digamos

x1 , x2 , ..., xk , y el modelo está dado por E(Y ) = β0 + β1 x1 +, ..., +βk xk .

“x1 , ..., xk son constantes conocidas, supuestamente medidas sin error en un experimento.”

Definición 15. El Método Estadístico Lineal que relaciona una respuesta Y con un conjunto de variables inde-

pendientes x1 , x2 , ..., xk tiene la forma

Y = β0 + β1 x1 +, ..., +βk xk + ε

en donde β0 , β1 x1 +, ..., +βk son parámetros desconocidos, x1 , ..., xk son constantes conocidas y ε es una v.a. tal

que E(ε) = 0 y por lo tanto,

E(Y ) = β0 + β1 x1 +, ..., +βk xk

4.2. El Métodos de los Mínimos Cuadrados

Es un procedimiento para estimar los parámetros de cualquier modelo lineal. Supóngase que se desea ajustar

el modelo E(Y ) = β0 + β1 x1 , es decir, Y = β0 + β1 x1 + ε donde ε tiene E(ε) = 0.

75
Si b β1 son estimadores para los parámetros β0 y β1 , entonces Yb = b
β0 y b β0 + b
β1 x es un estimador de E(Y ).

Supongamos que se tienen n observaciones apareadas (xi , yi ), y que queremos determinar la ecuación lineal

que mejor se ajuste a las observaciones, es decir, hallar Ybi = b


β0 + b
β1 xi .

Este tipo de diagrama, que muestra los puntos observacionales se llama “diagrama de dispersión”.

“El Método de Mínimos Cuadrados consiste en minimizar la suma de los cuadrados de las distancias de las

observaciones a la recta ajustada.” Por lor tanto,

Ybi = b
β0 + b
β1 xi , es el valor que se predice del i-ésimo valor de y (cuando x = xi ), entonces

yi − ybi es la desviación o distancia del valor observado y a partir de la recta yb. Llamaremos error a éstas desviaciones,

es decir, e = yi − ybi .

Definimos La suma de los Cuadrados de los Errores (SC E) como:


n n  2
SC E = ∑ (Yi − Ybi )2 = ∑ Yi − b
β0 + βb
β1 xi .
i=1 i=1

Observación: Si SC E tiene un mínimo , ésto ocurrirá para los valores b


β0 y b
β1 tales que:

∂ ∂
SC E = 0 y SC E = 0,
∂b
β0 ∂b
β1
estasecuaciones son llamadas 
“Ecuaciones de los Mínimos Cuadrados”.
∂ n
 b SC E = 0
  
 − ∑2 yi − b β0 + b
β1 xi = 0

 

∂β0 ⇒ i=1 estas ecuaciones son llamadas “Ecuaciones Nor-
∂ n  
 − ∑2xi yi − β0 + β1 xi = 0
 


 SC E = 0  b b
∂b
β1 i=1
males”.

Al resolver el sistema se obtiene:


n n n n
∑ (xi − x)(yi − y) n ∑ xi yi − ∑ xi ∑ yi
i=1
β1 =
b
n = i=1 i=1 i=1
 2
n n
∑ (xi − x)2 2
n ∑ xi − ∑ xi
i=1 i=1 i=1

β0 = Y − b
b β1 x.

76
Ejemplo 1: Ajuste una línea recta a través de los cinco puntos siguientes. Obtener las estimaciones para β0 y β1 .

Grafique los puntos y trace la recta ajustada para verificar los cálculos.

Y 3 2 1 1 0·5

X −2 −1 0 1 2

(n = 5)
xi yi xi yi xi2 Ybi = b
β0 + b
βi xi

−2 3 −6 4 2·7
−1 2 −2 1 2·1
0 1 0 0 1·5
1 1 1 1 0·9
2 0·5 1 4 0·3

∑ xi = 0 ∑ yi = 7 · 5 ∑ xi yi = −6 ∑ xi2 = 10

5(−6) − (0)(7 · 5) 3
β1 =
b
2
= − = −0 · 6
5(10) − (0) 5
 
7·5 −3
β0 =
b − (0) = 1 · 5
5 5
∴ Yb = 1 · 5 − 0 · 6 x

4.3. Ajuste del modelo lineal mediante matrices

Supóngase que tenemos el modelo lineal

Y = β0 + β! x1 +, ..., +βk xk + ε

y hacemos n observaciones y1 , y2 , ..., yn de Y . Podemos escribir a yi como

yi = β0 + β1 xi1 + β2 xi2 +, ..., +βk xik + εi , i = 1, 2, ..., n.

77
Ahora definamos las matrices siguientes
       
 y1   1 x11 x12 · · · x1k   β0   ε1 
       
       
 y2   1 x21 x22 · · · x2k   β1   ε2 
Y = , X = , β= , ε=
       
 ..   .. .. .. ..  ..  .. 

    
 .   . . . .   .   . 
       
       
yn 1 xn1 xn2 · · · xnk βk εn

Así, podemos escribir Y = Xβ + ε.

Para n observaciones de un modelo lineal simple de la forma Y = β0 + β1 x + ε tenemos


     
 y1   1 x1   ε1 
       
     
 y2   1 x2 
 β0   ε2 
 
Y = , X = , β= y ε=
   
 ..   .. ..   .. 
   
 .   . .  β1  . 
     
     
yn 1 xn εn

Notemos que para el modelo lineal simple, las ecuaciones de mínimos cuadrados para β0 y β1 dieron

n n
β0 + b
nb β1 ∑ xi = ∑ yi
i=1 i=1
n n n
β0
b
∑ xi + bβ1 ∑ xi2 = ∑ xi yi
i=1 i=1 i=1

Ahora, usando matrices    


n n
n ∑ xi  ∑ yi 
X 0X =  X0 Y = 
 i=1
 i=1
 y ,
 n n   n 
2
∑ xi ∑ xi ∑ xi yi
i=1 i=1 i=1

así podemos escribir las ecuaciones de mínimos cuadrados como


 
β
b
 0 
(X 0 X)b
β = X 0Y , β=
b .
β1
b

De aquí que

β = (X 0 X)−1 X 0Y.
b

78
Ejemplo 2: Usar el ejemplo 1 para representarlo matricialmente.
     
 3   1 −2   ε1 
     
     

 2 

 1 −1 

  
 ε2 

 β0 
     
Y = , X = , β= , ε=
     
 1   1 0 


 ε3 

    β1  
1  1 1 
     
   ε4 
     
     
1/2 1 2 ε5

   
 5 0  7 · 5
X 0X =  , X 0Y = 
 
 
0 10 −6

    
1/5 0  1/5 0   7,5 
(X 0 X)−1 =  , β = (X 0 X)−1 X 0Y = 
 b 
  
0 1/10 0 1/10 −6
   
7·5/5 1 · 5
= =
   

−6/10 −0 · 6
∴ Yb = 1 · 5 − 0 · 6X

4.4. Propiedades de los estimadores de Mínimos Cuadrados.

4.4.1. Para el modelo Y = β0 + β1 x + ε.

1. Los estimadores b
β0 y b
β1 son estimadores insesgados para β0 y β1 , respectivamente, es decir,

β0 ) = β0
E(b y β1 ) = β1 .
E(b

Como hemos supuesto que ε es una v.a. tal que E(ε) = 0, ahora añadiremos el supuesto de que Var(ε) = σ2 ,

así:

σ2
β1 ) =
2. Var(b
∑(xi − x)2

79
3. Se puede probar que Cov(Y , b
β1 ) = 0, luego,

β0 ) = Var(Y − b
Var(b β1 x)

= Var(Y ) + x 2Var(b
β1 ) − 2x Cov(Y , b
β1 )
σ2 σ2
= +x2
n ∑(xi − x)2
x2 2 2
   
2 1 2 ∑(xi − x) + nx
=σ + =σ
n ∑(xi − x)2 n ∑(xi − x)2
σ2 [∑ xi2 ]
=
n ∑(xi − x)2

−x σ2
β0 , b
4. Cov(b β1 ) =
∑(xi − x)2
Notemos que b β1 se correlacionan, ∴
β0 y b son dependientes.

Usando la expresión matricial,

∑ xi2
 
  − ∑ xi
n ∑ xi  n ∑(x1 − x)2 n ∑(x1 − x)2 
X 0X =  (X 0 X)−1 = 

y
 
− ∑ xi 1
  
2
∑ xi x
∑ i
n ∑(xi − x)2 ∑(xi − x) 2

 
 C00 C01 
= 
C10 C11

Tenemos entonces que:

β0 ) = C00 σ2
Var(b β1 ) = C11 σ2
y Var(b

β1 ) = C01 σ2 = C10 σ2 .
β0 , b
Cov(b

La varianza del término del error ε, usualmente se desconocerá y utilizaremos las observaciones muestrales

para estimarlo.

Usaremos el siguiente estimador insesgado para σ2

1 n 1
S2 = ∑ (Yi − Ybi ) = n − 2 SC E.
n − 2 i=1

80
Usando la expresión matricial

SC E = Y 0Y − b
β0 X 0Y

β1 y estimar σ2 .
β0 , b
Ejemplo 3: Usando el ejemplo 2, hallar las varianzas de b
 
1
1/5 0  C00 = C01 = C10 = 0
0 −1 5
(X X) = ⇒


0 1/10 C11 = 1/10

∴ β0 ) = C00 σ2 = (1/5)σ2
Var(b β1 )
y Var(b = C11 σ2 = (1/10)σ2

SC E = Y 0Y − b
β0 X 0Y
 
 3   
2
 
 7·5 
 
= [3 2 1 1 /2] 
1  − [1 · 5 − 0 · 6] 
 
1 
−6
 

 1 

1/2

1 61
= 9+4+1+1+ − [(1 · 5)(7 · 5) + (0 · 6)(6)] = − 14 · 85
4 4
= 15 · 25 − 14 · 85 = 0 · 4
1 1
b 2 = S2 =
∴ σ SC E = (0 · 4) = 0 · 1333
n−2 5−2

4.4.2. Para el modelo lineal de regresión múltiple.

Sea

Yi = βo + β1 Xi1 + β2 Xi2 +, ..., βk Xik + εi , i = 1, 2, ..., n

donde ε1 , ..., εn son v.a. independientes con E(εi ) = 0 y Var(εi ) = σ2 .

Los estimadores de mínimos cuadrados están dados por β = (X 0 X)−1 X 0Y


b siempre que exista (X 0 X)−1 .

Las propiedades de estos estimadores son:

βi ) = βi ,
1. E(b i = 0, 1, 2, ..., k.

βi ) = Cii σ2 , donde Ci j es el elemento de la i-ésima fila y la j-ésima columna de (X 0 X)−1 .


2. Var(b

81
β j ) = Ci j σ2 .
βi , b
3. Cov(b

Si además, los εi ∼ N(0, σ2 ), i = 1, 2, ..., n

4. Cada b
βi tiene una distribución normal.

5. Un estimador insesgado de σ2 es

SC E
S2 = , en donde SC E = Y 0Y − b
β0 X 0Y
n − (k + 1)

(k + 1 es el número de parámeros desconocidos βi ).

[n − (k + 1)]S2
6. La v.a. tiene una distribución χ2 con n − (k + 1) g.l. Además, S2 y b
βi i = 1, 2, ..., k son
σ2
independientes.

4.5. Inferencia con respecto a los parámetros

Prueba de hipótesis para βi :

H0 : βi = βi0 versus 
βi > βio (cola superior)






Ha : βi < βio (cola inferior)




 βi 6= βio

(dos colas)

Estadístico de la prueba:
βi− − b
b β
T= √ io
S Cii

t > tα RR de cola superior






Región de Rechazo t < −tα RR de cola inferior




 |t| > tα

RR de dos colas
/2

donde tα se basa en [n − (k + 1)] grados de libertad.

82
Basados en el estadístico t dado antes, se puede obtener: Un Intervalo de confianza de (1 − α)100 % para

βi :
p
βi ± tα/2 S Cii
b

Ejemplo 4: Refiérase al ejemplo 1:

a) ¿ Presentan los datos suficiente evidencia para indicar que la pendiente β1 difiere de cero?. Use α = 0 · 05.

b) Encuentre un intervalo de confianza del 95 % para β1

Solución:

a) H0 : β1 = 0 vs Ha : β1 6= 0

β1 − β10
b −0 · 6
El estadístico de la prueba (bajo H0 ): t = √ =√ √
S C11 0 · 1333 0 · 1

= −5 · 20

(n-(k+1)=5-(1+1)=3 g.l.)

Para α = 0 · 05, tα/2 = t0· 025, 3 = 3 · 182

RR: | t| > tα/2 = 3 · 182

Como el estadístico cae en RR, existe suficiente evidencia para rechazar H0 es decir, β1 6= 0.

Usando el p-valor:

p = p − valor = 2P(T(3) < −5 · 20) = 2P(T(3) > 5 · 20)

< 2P(T(3) > 5 · 047) = 2(0 · 0075) = 0 · 015

p < 0 · 015 < 0 · 05 = α

∴ con un nivel de α = 0 · 05 Rechazo H0 .

83
b) (1 − α)100 % = 95 %, el intervalo para β1 es

p √ p
β1 ± tα/2,3 S C11 : − 0 · 6 ± 3 · 182 0 · 1333 0,1
b

− 0 · 6 ± 0 · 367

∴ −0 · 967 < β1 < −0 · 233, es decir,

(−0 · 967, −0 · 233) es un intervalo de confianza del 95 % para β1 .

4.6. Predicción de un valor particular de Y .

Notemos que Y es una v.a. no un parámetro, y la predicción de su valor representa algo diferente del objeto de

hacer inferencia acerca de los parámetros poblacionales.

El error que se comete al predecir un valor particular de Y mediante Yb es:

e = error = Y − Yb .

El errorr tiene una distribución normal porque es función lineal de v.a. normales, así

E(e) = E(Y − Yb ) = E(Y ) − E(Yb ) = 0 y

Var(e) = Var(Y − Yb ) = Var(Y ) +Var(Yb ) − 2Cov(Y, Yb )

Y y Yb son independientes, pués Y es un valor futuro que se predice y que no se utilizó para calcular Yb , por lo tanto

Cov(Y, Yb ) = 0, luego

Var(e) = σ2 [1 + a0 (X 0 X)−1 a]

donde a0 = [1 x01 x02 , ..., x0k ] y x0i corresponden a valores particulares de x1 , x2 , ..., xk , respectivamente para el

modelo Y = β0 + β1 x1 , ... + βk xk + ε.

Así
Y − Yb
Z= p ∼ N(0, 1)
σ 1 + a0 (X 0 X)−1 a

84
si σ es desconocido y lo reemplazamos por S, la v.a.

Y − Yb
T= p ∼ t − student con [n − (k + 1)] g.l.
S 1 + a0 (X 0 X)−1 a

∴ Un intervalo de predicción de (1 − α)100 % para Y está dado por :


q
Yb ± tα/2 S 1 + a0 (X 0 X)−1 a

Se espera que el error de predicción sea


q
|e| = |Y − Yb | ≤ tα/2 S 1 + a(X 0 X)−1 a

con una probabilidad de 1 − α.

Ejemplo 5: Prediga el valor particular de Y con 1 − α = 0 · 90, suponiendo que debe realizar el experimento que

dieron los datos del ejemplo 1, una vez más pero con x = 3.
 
1
Yb = 1 · 5 − 0 · 6x, por lo que la predicción de Y con x = 3 es Yb = 1 · 5 − (0 · 6)(3) = −0 · 3. Acá, a =   por
 
3
lo tanto,
  
 1/5 0
 1  1

9 11
a0 (X 0 X)−1 a = 1 3    = + = = 1·1

5 10 10
0 1/10 3

S= 0 · 1333 = 0 · 3651,tα/2,3 = t0·05,3 = 2 · 353

∴ El intervalo de predicción para Y es:



−0 · 3 ± (2 · 353)(0,3651) 1 + 1 · 1

−0 · 3 ± 1 · 245

(−1 · 545, 0 · 945) y |e| = |Y − Yb | ≤ 1 · 245.

4.7. Comparación de Modelos.

(Estadístico de prueba para H0 : βg+1 = βg+2 = ... = βk = 0)

Consideremos los modelos:

85
1. Y = β0 + β1 x1 + β2 x2 + ...βg xg + ε

2. Y = β0 + β1 x1 + ... + βg xg + βg+1 xg+1 + ... + βk xk + ε.

El modelo 2 contiene todos los términos del modelo 1 (nótese que k > g). Se calculan la suma de los errores al

cuadrado SC E1 y SC E2 de los modelos 1 y 2, respectivamente.

Si suponemos que xg+1 , ..., xk realmente contribuyen con la información que no está en las variables x1 , x2 , ..., xg

a la predicción de Y (al menos un βg+1 , ..., βk 6= 0), entonces, el modelo 2 debería predecir con menor error de

predicción que el modelo 1.

Por lo tanto, S C E2 < S C E1 y a mayor diferencia (S C E1 − S C E2 ) más sólida será la evidencia para apoyar

Ha : Al menos un βg+1 , ..., βk 6= 0 y rechazar

H0 : βg+1 = βg+2 = ... = βk = 0.

El modelo 1 se conoce como: “Modelo reducido”

El modelo 2 se conoce como: “Modelo completo.”

4.7.1. Estadístico de la Prueba.

Se hace una partición de SC E1 :

SC E1 = SC E2 + (SC E1 − SC E2 )

SC E1
Si H0 : βg+1 = βg+2 = ...βk = 0 es verdadera, entonces el modelo (1) es el correcto y S12 = es un
n − (g + 1)
estimador insesgado de σ2 = Var(ε).

También,
SC E2 SC E1 − SC E2
S22 = y S32 =
n − (k + 1) k−g

son estimadores insesgados de σ2 estadísticamente independientes, y debemos comparar estas cantidades.


S32
Consideremos la razón: F = .
S22

86
Si H0 : βg+1 = ... = βk = 0 es verdadera, entonces S32 y S22 tendrán la misma magnitud relativa y F tomará un

valor cercano a 1. Si H0 es falsa, S22 será un estimador insesgado de σ2 pero S32 aumentará. Para valores grandes de

SC E1 − SC E2 , mayor será el exceso de S32 con respecto a S22 y mayor la evidencia a favor del rechazo de H0 .

Si H0 es verdadera, entonces
SC E1
χ23 = ∼ χ2 con [n − (g + 1)] g.l.
σ2
SC E2
χ22 = ∼ χ2 con [n − (k + 1)] g.l.
σ2
SC E1 − SC E2
χ21 = ∼ χ2 con (k − g) g.l.
σ2
Como χ22 y χ21 son estadísticamente independientes:

SC E1 − SC E2 σ2 χ21
S32 k−g k−g
F= = =
S22 SC E2 σ2 χ22
n − (k + 1) n − (k + 1)

tiene una distribución F con ν1 = (k − g) y ν2 = [n − (k + 1)] grados de libertad del numerador y denominador

respectivamente.

La región de rechazo de tamaño α está dada por: F > fα .

Ejemplo: Considere los siguientes datos

X −2 −1 0 1 2

Y 0 0 1 1 3

1. Al ajustar una línea recta a los datos Y = β0 + β1 X + ε con ε ∼ N(0, σ2 ) se obtuvo

β0 = 1
b β1 = 0 · 7
y b (E.M.C.) SC E = 1 · 1
SC E
∴ Yb = 1 + 0 · 7x (recta ajustada) y S2 = = 0 · 367
n−2

2. Para ajustar una parábola a los datos, considere el modelo

Y = β0 + β1 X + β2 X 2 + ε

87
Acá    
 0   1 −2 4 
       
   

 0 


 1 −1 1 
  5 0 10  β
 0 
       
Y = , X = , X 0X =  0 , β =  β1 
       
 1 
  1 0 0 
  10 0   
       
1  1 1 1  10 0 34
   
  β2
   
   
3 1 2 4

n = 5 obs. (K + 1 = 3 parámetros)
   
 17/35 0 −1/7   5 
   
0 −1
(X X) =  , X 0Y =  7 
   
0 1/10 0 
   
   
−1/7 0 1/14 13

Así  
 0 · 571 
 
β = (X 0 X)−1 X 0Y ≈  0 · 700
b  

 
 
0 · 214

∴ Yb = 0 · 571 + 0 · 7 X + 0 · 214 X 2 Parábola ajustada

SCE = Y 0Y − b
β X 0Y = 11 − 10 · 537 = 0 · 463
SCE
⇒ S2 = = 0 · 232
n−3

Comparamos los modelos:

1. Y = β0 + ε

2. Y = β0 + β1 X + β2 X 2 + ε

Esto equivale a contrastar las hipótesis:

H0 : β1 = β2 = 0 vs Ha : β j 6= 0 para algún j = 1, 2

88
Notemos que para el modelo (1) (Modelo Constante)
   
 0   1 
   
   
 0   1 
X 0X = 5
   
   
Y = y X = ,
   
1  1  1
(X 0 X)−1 =
   
   

 1 
 
 1 
 5
   
   
3 1

Así,

β=b
b β0 = 1 y SCE1 = Y 0Y − b
β0Y 0Y

=6

El modelo (2) es el modelo completo y k = 2

El modelo (1) es el modelo reducido y g = 0

Por lo tanto,
SCE2 0 · 463
S22 = = = 0 · 232
n − (k + 1) 5−3

y
SCE1 − SCE2 6 − 0 · 463
S32 = = = 2 · 768
k−g 2−0

Finalmente, el “Estadístico” es:

S32 2 · 768
F= = = 11 · 931
S2 0 · 232

Para

α = 0 · 05, fα (k − g, n − [k + 1] = f0·05 (2, 2) = 19 · 00

La región de rechazo es RR : F > fα ; Como el estadístico NO cae en RR, entonces, a un nivel de α = 0 · 05,

no hay suficiente evidencia para rechazar H0 (No puedo afirmar que β1 ò β2 son 6= 0).

Observemos el p − valor que viene dado por P(F > 11 · 931).

Notemos que en la tabla de la distribución F; 9 · 00 < 11 · 931 < 19 · 00 y

89
0 · 05 < P(F > 11 · 931) < 0 · 10

∴ No podemos afirmar que β1 6= 0 ó β2 6= 0.

Escogemos del modelo (1).

4.8. Técnicas de regresión por pasos

1. Eliminación Regresiva: (Eliminación hacia atrás)

1.1 Se ajusta el modelo con todas las posibles variables independientes

1.2 Se toma el parámetro que tiene menor valor calculado para t, digamos βi .

1.3 Se prueba la hipótesis H0 : βi = 0. Si no se puede rechazar H0 , la variable Xi es eliminada del modelo,

se ajusta un nuevo modelo y se regresa al paso (1.2)

1.4 Si la hipótesis H0 : βi = 0 es rechazada, el procedimiento termina.

2. Inclusión Progresiva: (Inclusión hacia adelante)

Se basa en las correlaciones de las variables independientes X1 , ..., Xk con la variable dependiente Y . Sin

embargo, cuando las variables independientes están correlacionadas enre sí, este criterio puede llevar a con-

clusiones incorrectas.

2.1 Se ajusta el modelo yi = β0 + β1 X1i + ε donde X1 es la variable indep. tal que la correlación parcial

(X1 ,Y ) sea máxima.

2.2 Se prueba la hipótesis H0 : β1 = 0. Si no se rechaza, el procedimiento termina.

2.3 Si se rechaza H0 , se calculan las correlaciones parciales de Y con las variables restantes, y se incluye

la que tenga mayor correlación parcial.

2.4 Se prueba H0 : βi = 0 ∀Xi presentes en el modelo. Si no se rechaza para la última variable incluida,

el proceso termina.

90
2.5 Si se rechaza H0 : βi = 0 para la última variable incluída, pero no se rechaza para alguna otra variable,

esta última se elimina del modelo, y nuevamente se trata de incluir otra.

2.6 Cuando no se pueden incluir más variables en el modelo, el procedimiento termina.

4.9. Ejercicios Propuestos

1. Las medianas de los precios de venta de casas nuevas para una sola familia durante un periodo de ocho

años se indican en la tabla siguiente. Sea Y la mediana de los precios de venta y x el año (representado con

números enteros, 1,2,...,8), ajuste el modelo Y = β0 + β1 x + ε. ¿ Què se puede concluir con los resultados?.

Mediana del precio


Año de venta (×1000)

1972(1) $ 27.6
1973(2) $32.6
1974(3) $35.9
1975(4) $39.3
1976(5) $44.2
1977(6) $48.8
1978(7) $55.7
1979(8) $62.9

a) Calcule SSE y S2 .

b) A veces es conveniente, desde el punto de vista del cálculo, contar con valores de x separados simé-

tricamene y a la misma distancia de cero. Estos valores de x se pueden reescalar (o codificar) de forma

conveniente sin pérdida de información en el análisis estadístico. Codifique los valores de x (originalmente

en una escala de 1 a 8) mediante la fórmula

x−4·5
x∗ =
0·5

En seguida ajuste el modelo Y = β∗0 + β∗1 x∗ + ε. Calcule SSE (Note que los valores de x∗ son enteros distri-

buidos en forma simétrica respeco a cero.) Compare el valor de SSE con el valor que se obtuvo en el inciso

a).

91
c) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios de venta de casas nue-

vas para una sola familia se ha incrementado durante el período de 1972 al 1979, con un nivel de

significancia de 0.01?

d) Estime el incremento anual esperado en la mediana de los precios de venta al construir un intervalo de

confianza de 99 %.

2. Los experimentos de laboratorio diseñados para medir valores de CL50 en la investigación de los efectos

de cierto producto tóxico en peces se efectúan de acuerdo con dos métodos. En uno de ellos, el agua fluye

continuamente a través de los tanques del laboratorio y, en el otro, el agua está en reposo. A fín de establecer

los criterios para sustancias tóxicas, la Agencia para la Protección Ambiental de Estados Unidos (EPA, por

sus siglas en inglés) pretende ajustar los resultados a la condición dinámica. Por consiguiente, se requiere

de un modelo que relacione los dos tipos de observaciones. Las observaciones acerca de ciertos productos

tóxicos analizados en ambas condiciones, estática y dinámica, dieron los resultados que contiene la siguiente

tabla (las mediciones se expresa en partes por millón).

Producto tóxico CL50 dinámico(y) CL50 estático (x)

1 23.00 39.00
2 22.30 37.50
3 9.40 22.20
4 9.70 17.50
5 0.15 0.64
6 0.28 0.45
7 0.75 2.62
8 0.51 2.36
9 28.00 32.00
10 0.39 0.77

a) Ajuste el modelo Y = β0 + β1 x + ε.

b) ¿Cómo puede interpretar los resultados? Estime el valor dinámico para un producto tóxico con un valor

estático de CL50 de x = 12 partes por millón.

92
c) Calcule SSE y S2 .

d) ¿Hay evidencia de una relación lineal entre los CL50 dinámicos y estáticos? Haga la prueba con un

nivel de significancia de 0 · 05.

e) ¿Existe evidencia de una relación lineal entre los CL50 dinámicos y estáticos?. Obtenga los límites

para el nivel de significancia alcanzado.

3. En la siguiente tabla se muestra la clasificación combinada del número de millas y el volumen del motor

establecidos por la EPA en 49 estados de la Unión Americana en 1980 (todos menos California) de nueve

automóviles subcompactos con transmisión estándar de cuatro cilindros que utilizan gasolina. El tamaño del

motor se da en pulgadas cúbicas totales de cilindraje.

Automóvil Cilindraje(x) mpg combinado(y)

VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starfire 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21

a) Localice los datos en una gráfica.

b) Encuentre la recta de mínimos cuadrados para los datos y trace la gráfica para ver cuanto se ajusta a

los datos.

c) Utilice la recta de mínimos cuadrados para estimar el promedio de millas por galón (mpg) para un

automóvil subcompacto con un volumen de motor de 125 pulgadas cúbicas.

4. Se llevó a cabo un estudio para determinar cómo afecta la privación del sueño la habilidad de los individuos

para resolver problemas sencillos. La cantidad de horas sin dormir variaba entre 8,12, 16,20 y 24. Diez

93
individuos participaron en el estudio, dos por cada nivel de privación de sueño. Después del período de

privación de sueño se asignó a cada individuo un conjunto de problemas sencillos en los que había que

sumar y se registró el número de errores. La siguiente tabla contiene los resultaos obtenidos:

Número de errores(y) 8,6 6,10 8,14 14,12 16,12

Número de horas sin dormir (x) 8 12 16 20 24

a) obtenga la recta de mínimos cuadrados adecuada para estos datos.

b) ¿Presenta los datos evidencia suficiente para indicar que el número de errores se relaciona linealmente

con el número de horas sin dormir?.

c) Determine los límites para el nivel de significancia alcanzado.

d) ¿Qué concluiría con un nivel de significancia de α = 0 · 05?.

e) ¿Esperaría usted una relación lineal entre y y x si variara x en un margen más amplio, digamos, de

x = 4 a x = 48?.

f) Obtenga un intervalo de confianza de 95 % para la pendiente. Dé una interpretación práctica para esta

estimación por intervalo.

5. El octanaje Y de petróleo refinado depende de la temperatura x del proceso de refinación, pero también de

la dimensión de la partícula del catalizador. Un experimento con un catalizador de partículas pequeñas dio

como resultado una recta ajustada de mínimos cuadrados de

y = 9 · 360 + 0 · 155x

con n = 31,Var(βˆ 1 ) = (0 · 0202)2 y SSE = 2 · 04

Un experimento independiente con un catalizador de partículas grandes dio como resultado

y = 4 · 265 + 0 · 190x

con n = 11,Var(βˆ 1 ) = (0 · 0193)2 y SSE = 1 · 86·2

94
Pruebe las hipótesis de que las pendientes difieren en forma significativa de cero con un nivel de significancia

de 0 · 05 para cada prueba.

6. Las estadísticas de enfermedades en Florida para la década que terminó en 1976 demuestran que la hepati-

tis infecciosa tenía la tasa de incidencias que aparecen en la siguiente tabla (expresadas en casos por cada

100 000 habitantes).

x y

1967 10 · 5
1968 18 · 5
1969 22 · 6
1970 27 · 2
1971 31 · 2
1972 33 · 0
1973 44 · 9
1974 49 · 4
1975 35 · 0
1976 27 · 6
a) Sea Y la tasa de incidencia y x el año codificado (-9 para 1967, -7 para 1968, hasta 9 para 1976). Ajuste

el modelo Y = β0 + β1 x + ε.

b) Para los mismos datos, ajuste el modelo Y = β0 + β1 x + β2 x2 + ε.

c) ¿Hay evidencia de un efecto cuadrático en la relación entre Y y x? (Lleve a cabo la prueba H0 : β2 = 0.)

Utilice α = 0 · 10.

d) Encuentre un intervalo de confianza de 90 % para β2 .

e) Para el modelo cuadrático se lleva a cabo una prueba F de H0 : β2 = 0 utilizando α = 0 · 05. Compare

con el resultado de la prueba (c).

f) Pruebe H0 : β1 = β2 = 0 con un nivel de significancia de 5 %.

95
Capítulo 5

Análisis de Varianza

5.1. Procedimiento del diseño de un experimento

Definiciones:

1. Los objetos sobre los cuales se hacen mediciones se denominan unidades experimentales.

2. Las variables experimentales independientes se denominan Factores.

2.1 Un factor que puede tomar valores sobre una recta real se denomina Factor Cuantitativo.

2.2 Los factores que no son cuantitativos se denominan Cualitativos.

3. Al grado de intensidad de un factor se le llama Nivel.

4. Un tratamiento es una combinación específica de niveles de un factor o de factores.

5. A la selección de muestras aleatorias independientes de k poblaciones se le denomina Diseño Completamente

Aleatorizado.

El objetivo del análisis de varianza es identificar variables independientes importantes en un estudio y determi-

nar cómo interactúan y afectan a la respuesta. “Compara las medias de los distintos grupos”.

Una respuesta Y se puede afectar por dos tipos de variables independientes, las cuantitativas y las cualitativas

(Factores).

96
El análisis de varianza divide la suma de los cuadrados de las desviaciones en partes (Suma total de los cua-

drados de las desviaciones).

Suma total de cuadrados


n
∑ (Yi −Y )2
i=1 w
w
w
    
   
   
y y y y

Suma de Cuadrados Suma de Cuadrados Suma de Cuadrados Suma de Cuadrados


para la variable para la variable para la variable por el error
indep. No. 1 indep. No. 2 indep. No. 3

5.2. Análisis de varianza para el diseño completamente aleatorizado

Supóngase que se han sacado m.a. independientes de k poblaciones normales de tamaño ni y medias

µi , i = 1, 2, ..., k, respectivamente y además, todas las poblaciones tienen la misma varianza σ2 . El total de

observaciones en el experimento será n = n1 + n2 + ... + nk .

Sean Yi j : La respuestas medida de la j-ésima unidad experimental en la i-ésima muestra;

i = 1, 2, ..., k j = 1, 2, ..., ni

1 2 ... k

Y11 Y21 ... Yk1

Y12 Y22 ... Yk2


.. .. ..
. . .

Y1n1 Y2n2 ... Yknk

T1 T2 ... Tk

ni
Ti = ∑ Yi j : Total de las observaciones en la i-ésima muestra
j=1

97
1
y Ti = Ti : Es la media de las obs. en la i-ésima muestra
ni

La variación total de las mediciones de la respuesta respecto a su media:

k ni
SC total = ∑ ∑ (Yi j −Y )2
i=1 j=1

Definición 16. (Corrección de la Media)


 ni
2
k
∑ ∑ Yi j
(Total de las obs.)2 i=1 j=1 2
CM = = = nY
n n

Así,

k ni
SC total = ∑ ∑ Yi2j −CM
i=1 j=1

Suma de los cuadrados de los tratamientos:

k k
Ti2
SC T = ∑ ni (T i −Y )2 = ∑ −C M
i=1 i=1 ni

Suma ponderada de los cuadrados para todas las muestras

k ni
SC E = ∑ ∑ (Yi j − T i )2
i=1 j=1
k
1 ni
= ∑ (ni − 1)Si2 ; Si2 = ∑ (Yi j − T i )2
i=1 ni − 1 j=1

El análisis de varianza divide la suma de los cuadrados por:

SC total = SC T + SC E

El estimador insesgado para σ2 basado en (n1 + n2 + ... + nk − k) grados de libertad es:

SC E
S2 = C M E = “Cuadrado medio del error”
n1 + n2 + ... + nk − k

El cuadrado medio de los tratamientos es:

SC T
CMT = , (k − 1)g.l.
k−1

98
Para probar las hipótesis

H0 : µ1 = µ2 = ... = µk vs Ha : Al menos una de las medias µi es distinta.

CMT
Se compara C M T y CME aplicando el Estadístico F = con
CME
k
ν1 = k − 1 g.l. en el numerador, y ν2 = ∑ ni − k g.l. en el denominador.
i=1
La hipótesis nula se rechazará si F > fα , en donde fα es el valor crítico de F para la prob. de un error tipo I igual

a α. ( fα (k − 1, n − k)).

Tabla de análisis de varianza (para un diseño completamente aleatorizado) “A N O V A”

Fuente g.l. SC CuMe F


CMT
Tratamientos k−1 SC T CMT
CME
Error n−k SC E CME
k ni
Total n−1 ∑ ∑ (Yi j −Y )2 = SC total
i=1 j=1

Ejemplo 1: La siguiente tabla corresponde a los tiempos de coagulación (seg.) para muestras de sangre tomadas

de 24 ratones de laboratorio, los cuales han recibido 4 dietas diferentes (A,B,C,D) ¿ Existe evidencia para pensar

que la dieta a la cual ha sido sometido el animal afecta el tiempo de coagulación de su sangre?.

Denotaremos por

1:Dieta A; 2:Dieta B; 3:Dieta C; 4:Dieta D;

n = n1 + n2 + n3 + n4

= 4 + 6 + 6 + 8 = 24

99
(1) (2) 3) (4)
A B C D

62 63 68 56
60 67 66 62
63 71 71 60
59 64 67 61
65 68 63
66 68 64
63
59

Ti 244 396 408 488


ni 4 6 6 8
Ti 61 66 68 61

Deseamos saber si las medias T i son realmente diferentes, para ello probaremos las hipótesis:

H0 : µ1 = ... = µ4 vs Ha : algún µi es distinto

Esto equivale a comparar los modelos:

1. Yi j = µ + εi j

2. Yi j = µi + εi j

“Modelos anidados”. Calculemos la tabla “A N O V A”:

k ni
[∑∑Yi j ]2
i j (1536)2 4 Ti2
Co Me = = = 98304 SCT = ∑ −Co Me
n 24 i=1 ni

= 98542 − 98304
4 ni
SC total = ∑ ∑ Yi2j −Co Me = 228
i=1 j=1

SCE = SC total − SCT

= 98644 − 98304 = 340 = 112

100
Fuente g.l. S C CvMe F

Tratamientos 3 228 76 · 0 13 · 5714

Error 20 112 5·6


Total 23
Para α = 0 · 05 , fα (3, 20) = 3 · 10

RR : F > 3 · 10 . Como el estadístico cae en RR, rechazamos H0 y existe evidencia para pensar que la dieta

afecta el tiempo de coagulación.

Observemos que el ejemplo nos ilustra que solo podemos decir si hay diferencia o no pero de una manera general,

sin llegar a saber con exactitud cuales poblaciones difieren realmente entre si. Por esta razón, se debe realizar una

comparación entre grupos que detallaremos a continuación.

5.2.1. Comparación de Medias entre los grupos.

Para “Comparar medias entre grupos” utilizaremos algunos resultados de la teoría de Estimación.

Intervalo de confianza para la media del tratamiento i:


S
T i ± tα/2 √ y tα/2 se basa en (n − k)g.l.
ni
Intervalo de confianza para la diferencia entre los tratamientos i y j:
s
1 1 √ √
(T i − T j ) ± tα/2 S + , donde S = S2 = C M E
ni n j
Comparar las medias de los grupos dos a dos equivale a probar las hipótesis:

H0 : µi = µ j vs H1 : µi 6= µ j para cada par µi , µ j .

Para un nivel de significancia α-, tα/2 es el cuantil de la distribución T con (n − k)g.l. y:


s
1 1
Rechazamos H0 ⇔ |T i − T j | > tα/2 S +
ni n j

Este método se llama Mínima Diferencia Significativa.

101
Ejemplo 2: Consideremos el ejemplo 1, para comparar las medias entre las dietas.

α = 0 · 05 y tα/2; n−k = t0·025;20 = 2 · 086

Utilizando el método de Mínima Diferencia Significativa:



r
1 1
|T 1 − T 2 | = 5 > (2 · 086) 5 · 6 + = 3·2 R Ho
4 6
r
1 1
|T 1 − T 3 | = 7 > (2 · 086)(2 · 366) + = 3 · 2 R Ho
r 4 6
1 1
|T 1 − T 4 | = 0 < 4 · 9355 + = 3 · 02 No R Ho ∴ Dietas A y D se
4 8 comportan similares
r
1 1
|T 2 − T 3 | = 2 < 4 · 9355 + = 2 · 85 No R Ho ∴ Dietas B y C se
6 6 comportan similares
r
1 1
|T 2 − T 4 | = 5 > 4 · 9355 + = 2 · 67 R Ho
r6 8
1 1
|T 3 − T 4 | = 7 > 4 · 9355 + = 2 · 67 R Ho
6 8

Utilizando Intervalos de confianza para las medias µi :

µ1 : (58 · 53, 63 · 47)∗

µ2 : (63 · 98, 68 · 02)∗∗

µ3 : (65 · 98, 70 · 02)∗∗

µ4 : (59 · 25, 62 · 75)∗

* :Estos intervalos se superponen, es decir, hay similitud en las medias y por tanto No rechazo H0 . Las dietas

A y D se comportan similares.

** :Estos intervalos se superponen, es decir, hay similitud en las medias y por tanto No rechazo H0 . Las

dietas B y C se comportan similares.

5.3. Ejercicios Propuestos

1. En una comparación de las resistencias del concreto producido con cuatro mezclas experimentales, se prepa-

ron tres muestras de cada tipo de mezcla. Las doce muestras se sometieron a cargas de compresión crecientes

102
hasta el punto de ruptura. La siguiente tabla contiene las cargas de comprensión en toneladas por pulgada

cuadrada alcanzadas hasta el punto de ruptura. Los números de los ejemplares 1 al 12 están indicados entre

paréntesis para propósitos de identificación. Suponga que se cumplen las condiciones para un diseño de un

factor y analice los datos. Sean µA y µB las resistencias medias de los ejemplares de concreto preparadas con

la mezcla A y la mezcla B, respectivamente.

Mezcla A Mezcla B Mezcla C Mezcla D


(1) 2.30 (2) 2.20 (3) 2.15 (4) 2.25
(5) 2.20 (6) 2.10 (7) 2.15 (8) 2.15
(9) 2.25 (10) 2.20 (11) 2.20 (12) 2.25
a) Indique si con un nivel de significancia de α = 0 · 05 se puede sustentar, desde el punto de vista esta-

dístico, la conclusión de que por lo menos la resistencia promedio de una de las muestras de concreto

es diferente de la de las otras.

b) Construya un intervalo de confianza de 95 % para µA .

c) Construya un intervalo de confianza de 95 % para (µA − µB ).

2. Un psicólogo clínico desea comparar tres métodos para reducir los niveles de hostilidad entre estudiantes

universitarios. Se aplicó cierto exámen psicológico (HLT) para medir el grado de hostilidad. Una puntuación

elevada en este exámen indica un alto grado de hostilidad. Once estudiantes que obtuvieron un puntaje alto y

casi igual participaron en el experimento. Cinco fueron elegidos aleatoriamente de entre los once casos con

problemas y se les sometió a un tratamiento con el método A. Tres fueron elegidos aleatoriamente de los

restantes seis estudiantes y se les sometió a un tratamiento con el método B. A los restantes tres estudiantes

se les trató con el método C. Los tratamientos se prolongaron durante un semestre. A cada estudiante se le

aplicó nuevamente el exámen HLT al final del semestre, y los resultados que se obtuvieron se muestran en

la siguiente tabla.

103
Método A Método B Método C
73 54 79
83 74 95
76 71 87
68
80
Sean µA y µB las medias de los resultados al final del semestre de las poblaciones de estudiantes que des-

pliegan un alto grado de agresividad, a quienes se les administró un tratamiento a lo largo del semestre de

acuerdo con el método A y con el método B, respectivamente.

a) ¿Proporcionan los datos suficientes evidencia para indicar que por lo menos uno de los métodos de

tratamiento genera una respuesta media de los estudiantes diferente de la que generan los otros méto-

dos? . Precise límites para el nivel de significancia alcanzado. ¿Qué concluiría usted con un nivel de

significancia de α = 0 · 05

b) Encuentre un intervalo de confianza de 95 % para µA .

c) Encuentre un intervalo de confianza de 95 % para µB .

d) Encuentre un intervalo de confianza de 95 % para (µA − µB ).

3. Se tomaron muestras de cuatro diferentes zonas en un río para determinar si la cantidad de oxígeno disuelto,

una medida de la contaminación del agua, variaba de una zona a otra. Las zonas 1 y 2 se eligieron pasando

una planta industrial, una cerca de la orilla y la otra a mitad del río; la zona 3 se encontraba junto a la descarga

industrial de agua de la planta, y la zona 4 se localizada río abajo a la mitad de éste. Se seleccionaron

aleatoriamente 5 muestras de agua en cada zona, pero una de ellas, correspondiente a la zona 4, se perdió en

el laboratorio. Los datos aparecen en la siguiente tabla (cuanto mayor es la contaminación, menores serán

las cantidades de oxígeno disuelto). ¿Proporcionan los datos suficiente evidencia que indique una diferencia

en el contenido medio de oxígeno disuelto en las cuatro zonas?. Precise límites para el nivel de significancia

alcanzado.

104
Zona Contenido medio de oxígeno
disuelto

1 5.9 6.1 6.3 6.1 6.0


2 6.3 6.6 6.4 6.4 6.5
3 4.8 4.3 5.0 4.7 5.1
4 6.0 6.2 6.1 5.8

4. Se ha propuesto la hipótesis de que los tratamientos aplicados (después del modelo) a un plástico utilizado

en la fabricación de lentes ópticas constribuyen a incrementar la duración. Se van a someter a prueba cuatro

diferentes tratamientos. Para determinar si existen diferencias en la duración media que se alcanza con cada

uno de los tratamientos, se elaboraron veintiocho piezas de una sola producción de plástico, y se aplicaron

aleatoriamente los tratamientos a siete piezas. Se determinó la duración midiendo el incremento en el em-

pañamiento después de 200 ciclos de abrasión (los incrementos pequeños significan mayor duración). La

siguiente tabla incluye los datos que se obtuvieron.

Tratamiento

A B C D

9.16 11.95 11.47 11.35


13.29 15.15 9.54 8.73
12.07 14.75 11.26 10.00
11.97 14.79 13.66 9.75
13.31 15.48 11.18 11.71
12.32 13.47 15.03 12.45
11.78 13.06 14.86 12.38

a) ¿Hay evidencia de que exista una diferencia en la duración media que se consigue de acuerdo con los

cuatro tratamientos? Lleve a cabo la prueba con α = 0.05.

b) Estime la diferencia media en el incremento del empañamiento de acuerdo con la aplicación de los

tratamientos B y C utilizando un intervalo de confianza de 90 %.

c) Determine un intervalo de confianza de 90 % para la duración media de lentes a las que se aplica el

tratamiento A.

105
5. Como consecuencia de la crisis energética actual, los investigadores de las principales compañías petroleras

buscan otras fuentes de petróleo. Se sabe que ciertos tipos de pizarra contienen pequeñas cantidades de

petróleo de fácil extracción (aunque el método no resulte muy económico). Se han creado 4 métodos para

extraer petróleo de la pizarra. El gobierno ha indicado que se lleven a cado algunos experimentos para

determinar si existe alguna diferencia significativa en la cantidad media de petróleo que pueda extraerse de la

pizarra de acuerdo con estos métodos. Se sabe que el método 4 es el más caro y el método 1 es el más barato,

por consiguiente, las inferencias relacionadas con las diferencias en la aplicación de estos dos métodos son

de particular interés. Dieciséis muestras de pizarra (del mismo tamaño) se sometieron aleatoriamente a los

cuatro métodos, con los resultados que aparecen en la siguiente tabla (las unidades se expresan en litros por

metro cúbico). Las inferencias deben hacerse con un nivel de significancia de α = 0.05.

Método 1 Método 2 Método 3 Método 4

3 2 5 5
2 2 2 2
1 4 5 4
2 4 1 5

a) Suponiendo que las dieciséis unidades experimentales son aproximadamente iguales, lleve a cabo el

análisis de varianza apropiado para determinar si existe alguna diferencia significativa entre las canti-

dades medias extraídas por los cuatro métodos. Utilice un nivel de significancia de α = 0.05.

b) Genere un intervalo de confianza de 95 % para la diferencia en las cantidades medias extraídas por los

dos métodos de mayor interés. Interprete el resultado.

106