Documente Academic
Documente Profesional
Documente Cultură
Correction du TD 6
Exercice 1
1. On suppose que σ est connu.
√
(a) Comme Ȳn ∼ N (m, σ 2 /n), on a n(Ȳn −m)/σ ∼ N (0, 1). On a donc pour tout u ≥ 0,
√ Ȳn − m
P n ≤ u = 2Φ(u) − 1.
σ
Ainsi, on obtient l’intervalle de confiance de niveau 1 − α :
Φ−1 (1 − α/2) Φ−1 (1 − α/2)
I(m) = Ȳn − σ √ ; Ȳn + σ √ .
n n
Notez bien que σ est connu, donc il s’agit bien d’une quantité calculable.
(b) La longueur de l’intervalle de confiance de niveau 1 − α est donnée par la fonction
σ
L(n) = 2 √ Φ−1 (1 − α/2).
n
Pour σ = 3 et 1 − α = 0.95, on a pour tout n,
3
L(n) ≤ 2 ⇔ √ Φ−1 (0.975) ≤ 1 ⇔ (3Φ−1 (0.975))2 ≤ n.
n
De Φ−1 (0.975) ' 2 on déduit que (3Φ−1 (0.975))2 ' 36. Ainsi, il faut au minimum
n0 = 36 observations pour que l’intervalle de confiance I(m) soit de longueur plus
petite que 2.
Pour 1 − α = 0.95, σ = 3, n = 25 et ȳ25 = 20, la réalisation de l’intervalle de confiance
I(m) est :
σ −1 σ −1
ȳn − √ Φ (1 − α/2) ; ȳn + √ Φ (1 − α/2)
n n
3 3
= 20 − √ Φ−1 (0.975) ; 20 + √ Φ−1 (0.975)
25 25
' [18.8 ; 21.2].
Attention à bien distinguer la valeur observée ȳn = Ȳn (ω) de la v.a. Ȳn , et la réalisation
de l’intervalle de confiance obtenue à partir de ȳn de l’intervalle de confiance aléatoire
obtenu avec Ȳn .
(c) On rejette H0 si
σ −1 σ −1
/ Ȳn − √ Φ (1 − α/2), Ȳn + √ Φ (1 − α/2) ,
m0 ∈
n n
c’est-à-dire
√ Ȳn − m0
n > Φ−1 (1 − α/2),
σ
ou encore
√ Ȳn − m0
α>2 1−Φ n
.
σ
La p-valeur du test est donc donnée par
√ Ȳn − m0
α0 = 2 1 − Φ n
.
σ
Ainsi, E[(n − 1)σ̂n2 /σ 2 ] = n − 1, c’est-à-dire E[σ̂n2 ] = σ 2 donc σ̂n2 est sans biais. De
plus, la loi des grands nombres et le théorème de continuité impliquent que
n n
1X 1X 2 p.s.
s2n = (Yi − Ȳn )2 = Yi − Ȳn2 −−−→ E[Y12 ] − m2 = σ 2 ,
n n n→∞
i=1 i=1
n 2 P
i.e. s2n est un estimateur convergent de σ 2 . Ainsi, σ̂n2 = n−1 sn → σ2.
(d) D’après le cours, on sait que :
β̂ − β √ Ȳn − m
p = n ∼ T (n − 1).
σ̂n 1/n σ̂n
(e) D’après le cours et ce qui vient d’être dit, un intervalle de confiance de niveau (1 − α)
pour σ 2 est donné par
(n − 1)σ̂n2 (n − 1)σ̂n2
,
cn−1 (1 − α/2) cn−1 (α/2)
où cn−1 (α/2) et cn−1 (1 − α/2) sont les quantiles d’ordres α/2 et 1 − α/2 d’une loi
χ2n−1 (ici p = 1 si p est le nombre de variables explicatives). Ainsi, le test consistant
à rejeter H0 si
(n − 1)σ̂n2 (n − 1)σ̂n2
3∈/ ,
cn−1 (1 − α/2) cn−1 (α/2)
i.e., si
cn−1 (1 − α/2) cn−1 (α/2)
σ̂n2 > 3 ou σ̂n2 < 3
n−1 n−1
est de niveau α.
(f) D’après le cours et ce qui vient d’être dit, un intervalle de confiance de niveau 1 − α
pour m est donné par
tn−1 (1 − α/2) tn−1 (1 − α/2)
J(m) = Ȳn − σ̂n √ , Ȳn + σ̂n √ .
n n
où tn−1 (1 − α/2) est le quantile d’ordre 1 − α/2 d’une loi de Student T (n − 1).
On peut construire un test de niveau α en rejetant H0 si m0 ∈ / J(m), c’est-à-dire si
√ Ȳn − m0
n > tn−1 (1 − α/2).
σ̂n
(g) Pour ce test unilatéral, on cherche une région de rejet de la forme R =] − ∞, cα [ pour
Ȳn telle que :
T (Y ) = 1 ⇔ Ȳn < cα
√ Ȳn − m0
⇔ n < tn−1 (α)
σ̂n
√ Ȳn − m0
⇔ FT (n−1) n < α.
σ̂n
Ainsi, la p-valeur du test T (Y ) = 1 ⇔ Ȳn < cα est :
√ Ȳn − m0
α0 = FT (n−1) n .
σ̂n
Pour m0 = 12, 5, n = 25, ȳ25 = 12 et σ̂n2 = 1, 69, la p-valeur est :
√
12 − 12.5
α0 = FT (24) 25 √ ' FT (24) (−1, 92) ' 0.03.
1.69
On rejette donc H0 au niveau 5%.
Exercice 2
1. On note β = (a, b)t et
1 t1
X = ... ... .
1 tn
donc
â Ȳ
= ρ .
b̂ vt
Pour rappel, β̂ consiste en les coordonnées dans la base des colonnes de X, de la projection
de Y sur l’espace engendré par les colonnes de X, noté M(X), et
1 1
σ̂ 2 = kY − X β̂k2 = kP 2
⊥Y k .
n−2 n − 2 M(X)
On en déduit que
(5â − 8b̂) − (5a − 8b)
P r ≤ t16 (0.975) = 0.95,
25 64 2
n + nvt σ̂
ce qui conduit à l’intervalle de confiance pour 5a − 8b de niveau 95% :
" s s #
25 64 25 64
(5â − 8b̂) − t16 (0.975) + σ̂ 2 , (5â − 8b̂) + t16 (0.975) + σ̂ 2 .
n nvt n nvt
6. Notons tout d’abord que H0 s’écrit encore a − b = 0, de sorte qu’on effectue les mêmes
calculs qu’à la question précédente avec B = (1, −1). Cette fois, B β̂ suit la loi normale de
moyenne a − b et de variance :
1
0 2 1 1
Bσ 2 n B t
= σ + ,
0 nv1 t n nvt
√ (â − b̂) − (a − b)
22 1/2 ∼ T(22−2) .
σ̂ 1 + v1t
Sous H0 , a = b, donc
√ |â − b̂|
P 22 1/2 > t20 (0.995) = 0.01.
σ̂ 1 + v1t
1 1/2
σ̂
|â − b̂| > √ 1+ t20 (0.995)
22 vt
Exercice 3
1. Le modèle s’écrit Y = Xβ + ε, avec
Y1 1 W1 Z1
a
Y = ... , X = ... .. .. , β = b et ε ∼ N (0, σ 2 I ).
. . n
Yn 1 Wn Zn c
On calcule
1 W1 Z1 k1k2 hW, 1i hZ, 1i
1 ... 1
X t X = W1 . . . Wn ... .. .. =
hW, 1i kW k2 hW, Zi
. .
Z1 . . . Z n 1 Wn Zn hZ, 1i hW, Zi kZk2
n nW̄ nZ̄
= nW̄ r2 r2 sin θ .
2
nZ̄ r sin θ r2
D’après l’énoncé, W̄ = Z̄ = 0 et cos θ > 0, donc :
n 0 0
X tX = 0 r2 r2 sin θ
0 r2 sin θ r2
1/n 0 0
(X t X)−1 = 0 1
r2 cos2 θ
− sin θ
r2 cos2 θ
,
− sin θ 1
0 r2 cos2 θ r2 cos2 θ
a b 1 d −b
puisque l’inverse de la matrice est définie lorsque ∆ = ad−bc 6= 0 par ∆ .
c d −c a
On obtient finalement :
â h1, Y i
β̂ = b̂ = (X t X)−1 X t Y = (X t X)−1 hW, Y i
ĉ hZ, Y i
Ȳ
= 2 2 −1
(r cos θ) hW − (sin θ)Z, Y i .
(r2 cos2 θ)−1 h−(sin θ)W + Z, Y i
β̂ − β ∼ N (0, σ 2 (X t X)−1 )
(n − 3)σ̂ 2
∼ χ2(n−3) .
σ2
2. Rappelons que cos θ > 0 par hypothèse. D’après le cours, un intervalle de confiance de
niveau 1 − α pour c est donc donné par :
σ̂ σ̂
ĉ − tn−3 (1 − α/2), ĉ + tn−3 (1 − α/2) .
r cos θ r cos θ
et pour b par
σ̂
P |b̂ − b| ≤ tn−3 (1 − α/6) = 1 − α/3,
r cos θ
4. D’après le cours, un ellipsoïde de confiance de niveau 1−α = 0.97 pour β = (a, b, c) lorsque
n = 27 est donné par
1
E(X) = β ∈ R3 : ( β̂ − β) t
(X t
X)( β̂ − β) ≤ f 3
24 (0.97)
3σ̂ 2
1
= (a, b, c) ∈ R3 : n(â − a) 2
+ r 2
( b̂ − b) 2
+ r 2
(ĉ − c)2
+ 2r 2
sin θ(b̂ − b)(ĉ − c) ≤ f 3
24 (0.97)
3σ̂ 2
Exercice 4
1. On note Gj = (g1j . . . gnj )t , pour j = 1, . . . , p. Par hypothèse, les Gj sont deux à deux
orthogonaux. On a
2
(G1 )t (G1 )t G1 . . .
0 δ1 . . . 0
.. .. .. .
Gt G = ... (G1 . . . Gp ) = .. .. ..
= .
. . . . .
p
(G )t 0 p
. . . (G ) G t p 0 . . . δp2
γ̂ = (Gt G)−1 Gt Z
avec
1/δ12 . . .
0
(Gt G)−1 = ... .. ..
.
. .
0 ... 1/δp2
Ainsi
γ̂j = hGj , Zi/δj2 .
L’estimateur des moindres carrés de σ 2 est donné par :
1
σ̂ 2 = kZ − Gγ̂k2 .
n−p
σ̂ 2
(n − p) ∼ χ2(n−p)
σ2
et
γ̂ − γ ∼ N (0, σ 2 (Gt G)−1 ).
2. On en déduit un intervalle de confiance au niveau 1 − α :
!
(n − p)σ̂ 2 (n − p)σ̂ 2
P −1 ≤ σ 2 ≤ −1 = 1 − α.
Fχ2 (1 − α/2) Fχ2 (α/2)
(n−p) (n−p)
où Fχ−1 −1
2 (0.025) ' 9.6 et Fχ2 (0.975) ' 34.2.
20 20
3. On sait que
1/δ12 . . .
0
γ̂ − γ ∼ N (0, σ 2 (Gt G)−1 ) = N 0, σ 2 ... .. ..
.
. .
0 ... 1/δp2
Comme le vecteur γ̂ est gaussien et que les composantes γ̂k de γ̂ sont non corrélées, elles
sont indépendantes. De plus, leurs lois marginales sont données par
σ2
γ̂k − γk ∼ N 0, 2 .
δk
p p p p 2
X X X 1 X σ
γ̂j ∼ N γj , σ 2 2
=N γj , 2 .
δ j δ
j=1 j=1 j=1 j=1
c’est-à-dire
p
X p
δ X
γ̂j − γj ∼ T (n − p).
σ̂
j=1 j=1
c’est-à-dire
7
X σ̂
γ̂j > FT−1
(0.995).
j=1 δ (25)
Exercice 5
1. Réécriture sous forme de modèle linéaire.
(a) La difficulté vient de ce que f est une fonction, donc l’espace des paramètres est
énorme (dimension infinie). C’est un exemple typique de modèle non paramétrique.
(b) Pour le modèle proposé, nous pouvons écrire pour tout x ∈ [0, 1],
p
X
f (x) = βj φj (x)
j=1
Xi,j = φj (i/n),
Pour montrer cela, nous utilisons de manière répétée que pour tout ` ∈ {−(n −
1), . . . , (n − 1)},
n
X n
X
i2π`i/n
e = 0 si ` 6= 0 et ei2π`i/n = n si ` = 0.
i=1 i=1
Allons-y, prouvons courageusement (??). Le fait que kX1 k2 = n ne pose pas problème.
Pour tout 0 ≤ k ≤ K, 1 ≤ k 0 ≤ K, on a 1 ≤ k + k 0 ≤ 2K < p, ce qui donne
sympathiquement
n
X
t
X2k+1 X2k0 = sin(2πki/n) cos(2πk 0 i/n)
i=1
n
0 0
X
= = ei2π(k+k )i/n − ei2π(k −k)i/n /2
i=1
=0
0 Pn i2π(k0 −k)i/n
car ei2π(k+k )i/n 6= 1 et i=1 e ∈ R. De plus, pour tout 0 ≤ k, k 0 ≤ K avec
k + k 0 > 0,
n
X
t
X2k+1 X2k0 +1 = sin(2πki/n) sin(2πk 0 i/n)
i=1
n
i2π(k−k0 )i/n i2π(k0 +k)i/n
X
= < e −e /2
i=1
n
0
X
= < ei2π(k−k )i/n /2
i=1
t
donc X2k+1 X2k0 +1 = 0. Si par contre k = k 0 > 0, alors X2k+1
t X2k0 +1 = n/2. De la
même façon, on montre que pour tout 1 ≤ k, k ≤ K, X2k X2k0 = 0 pour k 6= k 0 et
0 t
βb = (X t X)−1 X t Y,
Ici, par l’orthogonalité (??), X t X est la matrice de diagonale (n, n/2, . . . , n/2), ce qui
donne pour tout 1 ≤ k ≤ K
βb1 = Yn
βb2k = 2n−1 ni=1 Yi cos(2πki/n)
P
βb −1
Pn
2k+1 = 2n i=1 Yi sin(2πki/n)
b 2) = 1 − p σ2.
rn = n−1 E(kY − X βk
n
Ainsi, lorsque p est fixe et n tend vers l’infini, c’est-à-dire lorsque l’on dispose de plus
en plus de données, le modèle permet de retrouver les données initiales Yi à une erreur
σ près (en écart-type). Cette erreur asymptotique est logique et due au fait que les
données observées sont elles-mêmes bruitées.
(b) Si p = n, alors rn = 0 c’est-à-dire que X βb = Y . Ainsi la fonction fb passe par les
points de coordonnées (i/n, Yi ), 1 ≤ i ≤ n. Pour autant, comme le montre la question
suivante, ceci n’est pas souhaitable car l’estimateur fˆ “colle” trop aux données : c’est
le phénomène de sur-ajustement (ou overfitting).
(c) La qualité de l’approximation dépend fortement du modèle choisi :
- si p = 3, le modèle ne contient pas la fonction f ! Il y a donc un biais et l’approxi-
mation est trop “plate”.
- si p = 81, le modèle contient bien la fonction f , mais on voit que le modèle est
trop gros, ce qui se traduit par un sur-ajustement aux données. En fait, on estime
plein de coefficients qui sont en réalité égaux à zéro donc inutilement.
- si p = 11, il s’agit du bon modèle, donc l’approximation est assez bonne (autant
que σ le permet).
La moralité est que le choix du modèle est très important. Il faut prendre un modèle
assez grand pour avoir peu de biais, mais pas trop grand pour avoir une variance
petite. C’est le fameux compromis biais-variance.
Exercice 6
1. La projection orthogonale de X sur F = vect((1, · · · , 1)t ) est
Ainsi, le théorème de Cochran assure que X̄n (1 · · · 1)t est indépendant de X − X̄n (1 · · · 1)t .
Ceci implique que X̄n est indépendant de s2n = n−1 ||X − X̄n (1 · · · 1)t ||2 . De plus, nous
√
avons nX̄n ∼ N (0, 1) et le théorème de Cochran nous dit que
2. (a) Posons Yi = Xi − m, de sorte que EYi = 0 pour tout i. Ainsi, par définition
n
X n
X n
X n
X n
X
ns2n = 2
(Xi − X̄n ) = 2
(Yi − Ȳn ) = Yi2 − 2Ȳn 2
Yi + n(Ȳn ) = Yi2 − n(Ȳn )2 .
i=1 i=1 i=1 i=1 i=1
Ainsi, on a
!2
n
X n
X
E(ns2n ) = E(Yi2 ) − nE n−1 Yi
i=1 i=1
n
!
X
= nσ 2 − nVar n−1 Yi
i=1
= nσ 2 − σ 2
= (n − 1)σ 2 .
(b) Remarquons tout d’abord que φ0 (t) = iE X1 exp itX1 et φ00 (t) = −E X12 exp itX1 .
nous obtenons
n n n
! !
X Y X Y
E ns2n eitnX̄n =(1 − 1/n) E Xj2 eitXh + n−1 E Xk X` eitXh
j=1 h=1 k6=` h=1
n
X Y
=(1 − 1/n) E Xj2 eitXj eitXh
j=1 h6=j
X Y
+ n−1 E Xk eitXk X` eitX` eitXh
k6=` h∈{k,`}
/
n
X Y
=(1 − 1/n) E(Xj2 eitXj )E eitXh
j=1 h6=j
X Y
+ n−1 E Xk eitXk E X` eitX` E eitXh ,
k6=` h∈{k,`}
/
φn (t)(n − 1)σ 2 = −(n − 1)φ00 (t)φn−1 (t) + (n − 1)(φ0 (t))2 φn−2 (t),
elle s’écrit
(log φ)00 (t) = −σ 2 .
D’où log φ = −σ 2 t2 /2 + at + b, pour a, b ∈ R, et les conditions initiales φ(0) = 1 et
φ0 (0) = im donnent
2 2
−σ t
φ(t) = exp + imt pour tout t ∈ R.
2