Cours Statistiques Resume

STATISTIQUES
(resume du cours)

Christian MICHEL

Universite Louis Pasteur Strasbourg
Departement InIormatique

micheldpt-inIo.u-strasbg.Ir

Christian MICHEL Statistiques

i
PLAN
CS1: MESURES STATISTIQUES........................................................................... 1
1. INTRODUCTION.................................................................................................................. 1
1.1. Types de mesure ............................................................................................................. 1
1.2. Notation .......................................................................................................................... 1
2. MESURES DE TENDANCE CENTRALE........................................................................... 2
2.1. Moyenne (arithmetique) ................................................................................................. 2
2.2. Moyenne geometrique .................................................................................................... 3
2.3. Moyenne harmonique ..................................................................................................... 3
2.4. Moyenne quadratique ..................................................................................................... 3
2.5. Mediane .......................................................................................................................... 4
2.6. Mode............................................................................................................................... 4
3. MESURES DE DISPERSION............................................................................................... 5
3.1. Variance.......................................................................................................................... 5
3.2. Ecart-type........................................................................................................................ 6
3.3. Etendue ........................................................................................................................... 7
3.4. Ecart moyen absolu......................................................................................................... 7
CS2: ESTIMATION.................................................................................................. 9
1. INTRODUCTION.................................................................................................................. 9
1.1. Presentation du concept .................................................................................................. 9
1.2. Notation .......................................................................................................................... 9
1.3. Theoremes (rappel du cours de Probabilites) ............................................................... 10
2. ESTIMATION PONCTUELLE........................................................................................... 12
2.1. Proprietes dùn estimateur ............................................................................................ 12
2.2. Estimateur de la moyenne avec une variance connue................................................... 13
2.3. Estimateur de la moyenne avec une variance inconnue................................................ 13
2.4. Estimateur de la variance avec une moyenne connue................................................... 13
2.5. Estimateur de la variance avec une moyenne inconnue................................................ 14
3. ESTIMATION PAR INTERVALLE................................................................................... 15
3.1. Niveau de conIiance de lìntervalle de conIiance......................................................... 15
3.2. Estimation de la moyenne dùne v.a. Normale de variance connue ............................. 15
3.3. Estimation de la moyenne dùne v.a. Normale de variance inconnue.......................... 16
3.4. Estimation de la variance dùne v.a. Normale de moyenne connue ............................. 16
3.5. Estimation de la variance dùne v.a. Normale de moyenne inconnue.......................... 17
3.6. Cas des grands echantillons (n_30) .............................................................................. 17

ii
3.7. Estimations par intervalle non etudiees ........................................................................ 19
CS3: TESTS D'HYPOTHESE................................................................................ 20
1. INTRODUCTION................................................................................................................ 20
2. METHODOLOGIE.............................................................................................................. 22
3. COMPARAISON DE DEUX MOYENNES ....................................................................... 23
3.1. Comparaison de deux moyennes de variances connues avec des echantillons
de tailles n et n' quelconques ............................................................................................... 23
3.2. Comparaison de deux moyennes de mme variance inconnue avec
au moins un echantillon de taille n30................................................................................ 25
3.3. Comparaison de deux moyennes de mme variance inconnue avec
des echantillons de tailles n_30 et n'_30 ............................................................................. 26
3.4. Comparaison de deux moyennes avec des echantillons apparies ................................. 27
3.5. Comparaison de deux moyennes avec un test unilateral .............................................. 29
CS4: TEST DU KHI-DEUX................................................................................... 30
1. INTRODUCTION................................................................................................................ 30
2. PRINCIPE............................................................................................................................ 30
3. TEST DE COMPARAISON DE DEUX DISTRIBUTIONS............................................... 32
4. TEST DE L'INDEPENDANCE DE DEUX VARIABLES QUALITATIVES.................... 34
CS5: TEST DE WILCOXON ................................................................................. 35
1. INTRODUCTION................................................................................................................ 35
2. TEST .................................................................................................................................... 35
3. LOI DE DISTRIBUTION NULLE DE WILCOXON.......................................................... 38
3.1. DeIinition...................................................................................................................... 38
3.2. Esperance et variance ................................................................................................... 38
CS6: AJUSTEMENT D'UNE COURBE................................................................ 40
1. INTRODUCTION................................................................................................................ 40
2. EQUATION DES COURBES D'AJUSTEMENT............................................................... 40
3. DROITE DE 2 POINTS QUELCONQUES......................................................................... 41
4. COURBE DES MOINDRES CARRES (COURBE D'AJUSTEMENT)............................. 41
4.1. Introduction .................................................................................................................. 41
4.2. Droite des moindres carres ........................................................................................... 42
4.3. Parabole des moindres carres........................................................................................ 43


1
CS1: MESURES STATISTIQUES

1. INTRODUCTION

1.1. Types de mesure

Trois types de mesure pour lànalyse des donnees
(i) Mesures de tendance centrale: la moyenne arithmetique, la moyenne geometrique,
la moyenne harmonique, la moyenne quadratique, la mediane et le mode.
(ii) Mesures de dispersion: la variance, lècart-type, lètendue et lècart-moyen
absolu.
(iii) Mesures de concentration (non etudiees dans ce cours).

1.2. Notation

Soit
i
X une donnee d'un echantillon de taille n,
{ }
i 1, , n .


2
2. MESURES DE TENDANCE CENTRALE

2.1. Moyenne (arithmtique)

Def
La moyenne (arithmetique) X est la somme des n valeurs divisee par n.
=
=

n
i
i 1
1
X X
n

2.1.1. Moyenne pondre

Si aux valeurs
i
X de X sont associees des poids
i
w alors
=
=
=

n
i i n
i 1
i
i 1
1
X w X
w

2.1.2. Proprits

P1
( )
n
i
i 1
X X 0
=
=

La somme algebrique des ecarts dùn ensemble de nombres a leur moyenne est nulle.

P2
La somme des carres des ecarts dùn ensemble de nombres a un nombre a donne
( )
n
2
i
i 1
X a
=
est minimal si et seulement si = a X.


3
P3
Si les
i
X ont un ecart =
i i
d X a avec un nombre a donne alors
=
= +

n
i
i 1
1
X a d
n

2.2. Moyenne gomtrique

Def
La moyenne geometrique g est la racine n-ieme du produit des n valeurs.
=
=

n
n
i
i 1
g X

2.3. Moyenne harmonique

Def
La moyenne harmonique h est l'inverse de la moyenne des inverses des n valeurs.
=
=
n
i 1
i
1
h
1 1
n X

2.4. Moyenne quadratique

Def
La moyenne quadratique q est la racine carree de la moyenne des carres des n
valeurs.
=
=

n
2
i
i 1
1
q X
n


4
2.5. Mdiane

Def
La mediane est la valeur de la variable statistique du milieu, lènsemble des valeurs
etant rangees par ordre de grandeur croissante (par convention):
(i) si n est impair, la mediane est
( ) + n 1 /2
X
(ii) si n est pair, la mediane est
n/2
X (par convention)

2.6. Mode

Def
Le mode est la valeur de la variable statistique la plus Irequente. Le mode peut ne
pas exister et sìl existe, il peut ne pas tre unique.


5
3. MESURES DE DISPERSION

3.1. Variance

Def
La variance
2
S est la moyenne des carres des ecarts d'un ensemble de nombres a leur
moyenne.
( )
=
=
n
2
2
i
i 1
1
S X X
n

3.1.1. Variance pondre

Si aux valeurs
i
i
w alors
( )
=
=
=
n
2
2
i i n
i 1
i
i 1
1
S w X X
w

3.1.2. Mthode rapide de calcul de la variance

( ) ( )
n n n n
2
2 2 2 2 2
i i i i i
i 1 i 1 i 1 i 1
n
2 2
i
1
1 1 1 1
S X X X 2XX X X 2X X X
n n n n
1
X X
n
= = = =
=
= = + = +
=

i

3.1.3. Proprits

P1
Si la variance est deIinie pour un nombre quelconque a, cèst-a-dire
( )
=
=
n
2
2
i
i 1
1
S X a
n
alors parmi toutes les variances possibles, la plus petite est celle
pour laquelle = a X.

6
P2
Si on transIorme les donnees
i
X telles que = +
i i
X aX b ou a et b sont 2 constantes,
alors
= + X aX b
=
2 2 2
S a S

P3. Autre expression de
2
S
( )
= =
=
n n
2
2
i j 2
i 1 j 1
1
S X X
2n

3.2. Ecart-type

Def
Lècart-type S est la racine carree de la variance
2
S
( )
=
=
n
2
i
1
1
S X X
n
i

3.2.1. Ecart-type pondr

Si aux valeurs
i
i
w alors
( )
=
=
=
n
2
i i n
1
i
i 1
1
S w X X
w
i

3.2.2. Mthode rapide de calcul de l`cart-type

=
=
n
2 2
i
1
1
S X X
n
i


7
3.2.3. Proprits

P1
Lècart-type sèxprime avec les mmes unites que la variable statistique
(contrairement a la variance qui est un carre).

P2
Si on transIorme les donnees
i
X telles que
=
i
i
X X
X
S
, alors
= X 0
= =
2
S S 1
i
X est appelee variable centree reduite.

P3
Si lècart-type est deIini pour un nombre quelconque a, cèst-a-dire
( )
=
=
n
2
i
1
1
S X a
n
i
alors parmi tous les ecarts-types possibles, le plus petit est celui
pour lequel = a X.

3.3. Etendue

Def
Lètendue est la diIIerence entre les valeurs extrmes, cèst-a-dire
n 1
X X .

3.4. Ecart moyen absolu

Def
Lècart moyen absolu EMA est la moyenne de la valeur absolue des ecarts d'un
ensemble de nombres a leur moyenne

8
=
=
n
i
i 1
1
EMA X X
n

P1
La somme des valeurs absolues des ecarts dùn ensemble de nombres a un nombre a
donne est minimale si et seulement si amediane
=

=
`
)
n
i
i 1
Min X a Mdiane


9
CS2: ESTIMATION

1. INTRODUCTION

1.1. Prsentation du concept

Les probabilites sìnteressent a la structure dùne population, cèst-a-dire a une
distribution theorique en precisant ses proprietes, la valeur de ses parametres, etc.
Cette approche permet de calculer les probabilites dòbtenir un echantillon donne de
la population. Les statistiques sìnteressent a làpproche inverse qui consiste a
determiner la distribution theorique a partir dùn echantillon issu de la population.

Loi de probabilites Realisation d'un evenement
Statistiques
Probabilites

Lèstimation est un probleme statistique qui consiste a se servir des donnees Iournies
par un echantillon issu dùne population pour attribuer certaines valeurs aux
parametres inconnus de la distribution theorique de la population. Lèstimation
ponctuelle consiste a attribuer une valeur unique aux parametres inconnus.
Lèstimation par intervalle consiste a determiner un intervalle (region de conIiance)
dans lequel se situeront les parametres inconnus. Dans ce cas, il Iaudra egalement
chiIIrer la conIiance (la credibilite) attachee a cet intervalle. Lèstimation ponctuelle
et par intervalle sera limitee dans ce cours aux parametres inconnus (theoriques)
concernant la moyenne et la variance.

1.2. Notation

Parametres theoriques (inconnus)
de la population
Parametres experimentaux (connus)
de lèchantillon
Moyenne

=
=

n
i
i 1
1
X X
n

Variance
2
( )
=
=
n
2
2
i
i 1
1
S X X
n


10
ou n represente la taille de lèchantillon et ou
i
X est la variable aleatoire associee a
la valeur de lèchantillon. Donc, les parametres experimentaux
i
X , X et
2
S (connus)
de lèchantillon sont donc des variables aleatoires (appeles estimateurs) qui
permettent dèstimer les parametres theoriques (inconnus) de la population. Les
symboles de l'echantillon sont representes par des lettres majuscules, les symboles
de la population, par des lettres minuscules grecques. Les symboles (resp.
2
) sont
notes
( )
X (resp.
( )
V X ) dans le cours de Probabilites.

1.3. Thormes (rappel du cours de Probabilits)

Th1
Si
( )
i
X ~N 0,1 et si
i
X independants alors
=
n
2 2
i n
i 1
X ~
( )

i
X ~N , et si
i
=
| |

|
\ .
2
n
2
i
n
i 1
X
~

Th2
Si
( )

i
X ~N , et si
i
=
| |
\ .
2
n
2
i
n 1
i 1
X X
~

Th3
Si
( )

i
X ~N , et si
i
=
| |
=
|
\ .
n
i
i 1
1
X X ~N ,
n
n
et
( )

X
~N 0,1
n

Th4
Si
( )
X~N 0,1 et
2
n
X~ alors
n
X
~t
X
n


11
Th5
( ) ( )
= =
2 2
n n
E n et V 2n

Th6
( ) ( )
= = >
n n
n
E t 0 et V t n 2
n 2


12
2. ESTIMATION PONCTUELLE

2.1. Proprits dùn estimateur

2.1.1. Estimateur non biais

Un estimateur T, cèst-a-dire la v.a. X ou
2
S , dùn parametre , cèst-a-dire ou
2
, est dit non biaise si son esperance
( )
E T est egale au parametre :
( )
= E T .
Un estimateur T dùn parametre est dit biaise si il existe un biais b egal a la
diIIerence entre son esperance
( )
E T et le parametre :
( )
= b E T .

2.1.2. Estimateur convergent

Un estimateur non biaise T est dit convergent si sa variance
( )
V T tend vers 0 quand
la taille n de lèchantillon tend vers lìnIini
( )
=
n
limV 0

2.1.3. Estimateur efficace

Un estimateur non biaise T est dit dàutant plus eIIicace que sa variance est petite.
Pour un echantillon de taille n Iixee, lèIIicacite dùne estimation se mesure par sa
variance. La variance dùn estimateur non biaise donne est toujours superieure ou
egale a une limite appelee borne de Cramer-Rao. Quand cette limite est
eIIectivement atteinte, lèstimateur est de variance minimale relativement a tous les
autres estimateurs non biaises possibles du mme parametre. En regle generale, la
variance dùn estimateur est inversement proportionnelle a la taille de lèchantillon
etudie. Plus n est grand plus lèstimation sera precise puisque la variance de
lèstimateur diminue.


13
2.1.4. Conclusion

Un estimateur sera dàutant meilleur quìl sera non biaise, convergent et eIIicace.

2.2. Estimateur de la moyenne avec une variance connue

Le meilleur estimateur de = avec connu est
=
=

n
i
i 1
1
X X
n
avec
( )
= E X et
( )

=
2
V X
n

X est un estimateur non biaise, convergent et eIIicace.

2.3. Estimateur de la moyenne avec une variance inconnue

Le meilleur estimateur de = avec inconnu est
=
=

n
i
i 1
1
X X
n
avec
( )
= E X et
( )
=
2
S
V X
n 1

X est un estimateur non biaise, convergent et eIIicace.

2.4. Estimateur de la variance avec une moyenne connue

Le meilleur estimateur de =
2
avec connu est
( )
n
2
2
i
i 1
1
X
n
=
=
avec
( )
2 2
E = et
( )
4
2
2
V
n
=
est un estimateur non biaise, convergent et eIIicace.
Ne pas conIondre
( )
=
=
n
2
2
i
i 1
1
S X X
n
et
( )
n
2
2
i
i 1
1
X
n
=
=


14
2.5. Estimateur de la variance avec une moyenne inconnue

Le meilleur estimateur de =
2
avec inconnu est
2
n
S
n 1
avec
| |
=
|
\ .
2 2
n
E S
n 1
et
| |
=
|

\ .
4
2
n 2
V S
n 1 n 1

2
n
S
n 1
est un estimateur non biaise, convergent et eIIicace.

Rem
(i)
( ) ( )
= =
= =

n n
2 2
2
i i
i 1 i 1
n n 1 1
S X X X X
n 1 n 1 n n 1
est lèstimateur de
2
.
(ii) Si n est grand ( n 30) alors
n
~1
n 1
et
( )
=
= =

n
2
2 2
i
i 1
n 1
S S X X
n 1 n
peut
egalement tre considere comme un estimateur de
2
.


15
3. ESTIMATION PAR INTERVALLE

3.1. Niveau de confiance de lìntervalle de confiance

Au lieu dàttribuer a un parametre inconnu a estimer une valeur unique comme
dans lèstimation ponctuelle, lèstimation par intervalle donne un ensemble de
valeurs susceptibles d`tre prises par ce parametre. Une borne inIerieure et une borne
superieure delimitent cet intervalle de valeurs appele intervalle de conIiance. Cet
intervalle de conIiance est aIIecte dùn coeIIicient de credibilite appele niveau de
conIiance. Ce niveau de conIiance est quantiIie par une probabilite 1 ou est la
probabilite dèrreur appele risque dèrreur; le plus souvent = 5% ou = 1%.
Ainsi, un parametre inconnu se trouve dans un intervalle de conIiance avec un
niveau de conIiance 1 signiIie que si lòn prelevait un grand nombre
dèchantillons de la mme population, 1 des intervalles de conIiance calcules de
la mme maniere contiendraient eIIectivement le parametre inconnu .

3.2. Estimation de la moyenne dùne v.a. Normale de variance connue

Au niveau de conIiance 1
= X b
n

ecrit egalement sous Iorme d'intervalle
(
+
(

X b , X b
n n

: moyenne theorique de la population a estimer
X: moyenne experimentale de lèchantillon de valeur
i
X et de taille n
: ecart-type theorique de la population
b: valeur lue dans la table Normale Centree Reduite
( )
N 0,1 telle que
( ) ( )

> = P N 0,1 b
2


16
3.3. Estimation de la moyenne dùne v.a. Normale de variance inconnue

( )
( )
=
n
2
i
i 1
X X
X b
n n 1

: moyenne theorique de la population a estimer
i
X et de taille n
b: valeur lue dans la table de Student
n 1
t a n-1 degrees de libertes telle que
( )
> =
n 1
P t b 2

3.4. Estimation de la variance dùne v.a. Normale de moyenne connue

( ) ( )
= =
(

(

n n
2 2
2
i i
i 1 i 1
1 1
X , X
b a

: moyenne theorique de la population
i
X : valeur de l'echantillon de taille n
2
: variance theorique de la population a estimer
a et b: valeurs lues dans la table du Khi-Deux
2
n
a n degres de libertes telles que
( )
( )
< =
> =
2
n
2
n
P a 2
P b 2


17
3.5. Estimation de la variance dùne v.a. Normale de moyenne inconnue

( ) ( )
= =
(

(

n n
2 2
2
i i
i 1 i 1
1 1
X X , X X
b a

i
X et de taille n
2
a et b: valeurs lues dans la table du Khi-Deux
2
n 1
a n-1 degres de libertes telles que
( )
( )
< =
> =
2
n 1
2
n 1
P a 2
P b 2

3.6. Cas des grands chantillons (n30)

Proprietes quand la taille n de lèchantillon tend vers lìnIini

P1
( )
| |
|
|
\ .
n
n
t ~N 0, ~N 0,1
n 2

P2
( )
2
n
~N n, 2n

3.6.1. Estimation de la moyenne dùne v.a. Normale de variance
connue

Test identique au test 3.2.


18
3.6.2. Estimation de la moyenne dùne v.a. Normale de variance
inconnue

Test identique au test 3.3 mais b est lue dans la table Normale Centree Reduite
( )
N 0,1 (et non dans la table
n 1
t ) telle que
( ) ( )
> = P N 0,1 b 2.

3.6.3. Estimation de la variance dùne v.a. Normale de moyenne
connue

( )
=
=
n
2
2
i
i 1
1 1
X
n
2
1 b
n

: moyenne theorique de la population
i
X : valeur de l'echantillon de taille n
2
( )
N 0,1 telle que
( ) ( )

> = P N 0,1 b
2

3.6.4. Estimation de la variance dùne v.a. Normale de moyenne
inconnue

( )
=
=
n
2
2
i
i 1
1 1
X X
n 1
2
1 b
n 1

X: moyenne experimentale de l'echantillon de valeur
i
X et de taille n
2

19
( )
N 0,1 telle que
( ) ( )
> = P N 0,1 b 2

3.6.5. Consquence du thorme central limite

Le theoreme central limite prouve que
| |
|
\ .
X~N ,
n
quelque soit la distribution de
la population dont lèchantillon de variable aleatoire
i
X est extrait, mais a condition
que n soit grand et les
i
X independants. Pour n grand, les
i
X ne doivent pas
necessairement suivre une loi Normale (condition qui est necessaire dans le Th3).
Cette consequence du theoreme central limite permet de nombreuses applications.

Application: Calcul de lìntervalle de conIiance du parametre p dùne v.a. de
Bernoulli X au niveau de conIiance 1
( )
( )
( )
+ +
=
+
2 2 2
2
2nX b b b 4nX 4nX
p
2 n b

3.7. Estimations par intervalle non tudies

La diIIerence des moyennes de 2 v.a. Normales (loi de Student) et le quotient des
variances de 2 v.a. Normales (loi de Fischer-Snedecor) peuvent tre estimes par
intervalle. Les resultats seront donnes dans le cadre des tests d'hypothese.


20
CS3: TESTS D'HYPOTHESE

1. INTRODUCTION

Il y a une analogie entre les problemes d'estimation et particulierement ceux de
l'estimation par intervalle, et les problemes de tests d'hypothese. Dans les deux cas
- on dispose d'echantillons issus d'une population
- on Iixe une probabilite d'erreur
- on etudie des moyennes, des variances, des coeIIicients de correlation, etc.
- on distingue entre echantillons de taille elevee n 30 et de taille petite n 30 < .

TouteIois, la nature du probleme est diIIerente. En eIIet, les tests d'hypothese se
proposent de veriIier des hypotheses se rapportant a des parametres inconnus d'une
population, par exemple que tel parametre prend telle valeur, que 2 parametres de 2
echantillons proviennent de la mme population, etc. Les tests d'hypothese ont donc
pour objet de se prononcer sur la validite de l'hypothese. Cette approche constitue la
theorie de la decision limitee dans ce cours aux 2 alternatives suivantes: l'hypothese
est soit vraie soit Iausse et l'hypothese est soit acceptee soit rejetee. L'hypothese
etudiee, appelee hypothese nulle, est symbolisee par
0
. La contre-hypothese,
appelee hypothese alternative, est symbolisee par
1
.

Tableau recapitulant les erreurs possibles a la vue de ces 4 situations

Decision
Hypothese
On accepte
0
On rejette
0
On accepte
1

0
vraie ParIait
Probabilite = 1
Erreur de 1ere espece
Probabilite =
0
Iausse
1
vraie Erreur de 2eme espece
Probabilite =
ParIait
Probabilite = 1


21
Il y a 2 types d'erreur possibles
( )
=
0 0
P Rejeter H H vraie : erreur de 1ere espece
( )
=
0 0
P Accepter H H fausse : erreur de 2eme espece
Il n'y a pas de lien entre les 2 probabilites d'erreur et. L'ideal serait d'obtenir des
valeurs aussi proches de 0 que possible. En general, il est impossible de minimiser a
la Iois ces 2 probabilites d'erreur. On dissymetrise alors le probleme en tenant
compte du Iait que dans la pratique l'une des erreurs est plus grave que l'autre.
L'erreur de 1ere espece sera choisie comme etant la plus grave. On prendra donc un
tres petit puis on minimisera . En conclusion, on choisit comme hypothese
0

celle dont le rejet entrane les consequences les plus graves.

Ex
Un homme accuse d'un delit comparat devant un juge. Cet homme est soit innocent
(
0
vraie) soit coupable (
0
Iausse
1
vraie). Le juge a le choix entre 2
decisions: il accepte l'innocence (
0
) ou il accepte la culpabilite (
1
).
L'innocence est l'hypothese
0
parce que son rejet entrane les consequences les
plus graves:
(i) Si le juge accepte l'innocence alors que l'homme est innocent: c'est parIait.
(ii) Si le juge accepte la culpabilite (rejette l'innocence) alors que l'homme est
innocent est une erreur tres grave: il condamne un innocent.
(iii) Si le juge accepte la culpabilite alors que l'homme est coupable: c'est parIait.
(iv) Si le juge accepte l'innocence alors que l'homme est coupable est une erreur
moins grave que l'erreur precedente: il est plus grave de condamner un innocent que
de gracier un coupable.

Rem
(i) la probabilite 1 determine la puissance du test.
(ii) l'ensemble des valeurs dans lequel l'hypothese
0
est acceptable peut tre
considere comme un intervalle de conIiance constituant un lien entre estimation par
intervalle et test d'hypothese.

22
2. METHODOLOGIE

On se restreint dans ce cours
- au test bilateral: l'hypothese a tester est susceptible d'tre Iausse dans 2 directions,
par surevaluation ou sous-evaluation du parametre inconnu theorique de la
population. Par opposition, le test unilateral etudie soit la surevaluation soit la sous-
evaluation du parametre .
- aux tests concernant la comparaison (l'egalite) de 2 moyennes.
- la minimisation de determinant la puissance du test n'est pas etudiee (cI. livre).

Tout test d'hypothese comporte les 7 etapes suivantes
1. Donnees: DeIinir la loi de probabilites de la population.
2. Test: Formulation de l'hypothese
0
.
3. Sous
0
(
0
vraie): Choix de la variable aleatoire et de sa loi de probabilites.
4. Region de rejet R par rapport a la valeur critique c.
5. Calcul de la valeur critique c ou seuil d'apres la loi de probabilites deIinie en 3.
6. Calcul de la variable aleatoire deIinie en 3 avec les donnees de l'echantillon.
7. Decision.


23
3. COMPARAISON DE DEUX MOYENNES

3.1. Comparaison de deux moyennes de variances connues avec des
chantillons de tailles n et n' quelconques

1. Donnees
( )
=
i
X ~N , , i 1, ,n
( )
=
j
X ~N , , j 1, ,n

2. Test
=
0
:

1
:

3. Sous
0
H
( )

=

+
2 2
X X
Y ~ 0, 1
n n

Rq: Si =

=
+
X X
Y
1 1
n n

4. Region de rejet R
O
R R
-c c

5. Calcul de c

/2
( )
0, 1

24

6. Calcul de Y

7. Decision
On accepte
0
H si c Y c
On rejette
0
H autrement


25
3.2. Comparaison de deux moyennes de mme variance inconnue avec au
moins un chantillon de taille n<30

1. Donnees
( )
=
i
X ~N , , i 1, ,n
( )
=
j
X ~N , , j 1, ,n
Le test n'est theoriquement applicable que si les 2 echantillons ont la mme variance.

2. Test: cI. Test 3.1

3. Sous
0
H
( ) ( )
+
= =

=
+
| |
+
|
+
\ .

n n 2
n n
2
i j
i 1 j 1
X X
Y ~t
X X X X
1 1
n n n n 2

4. Region de rejet R: cI. Test 3.1

5. Calcul de c

6 Calcul de Y

7. Decision: cI. Test 3.1

/2
n n 2
t
+

26
3.3. Comparaison de deux moyennes de mme variance inconnue avec des
chantillons de tailles n30 et n'30

1. Donnees: cI. Test 3.2

2. Test: cI. Test 3.1

3. Sous
0
H
( )
( )
( )
( )
( )
=
=

=

n
n
2
2
j
i
j 1
i 1
X X
Y ~ 0, 1
X X
X X
n n 1 n n 1


5. Calcul de c: cI. Test 3.1

6. Calcul de Y



27
3.4. Comparaison de deux moyennes avec des chantillons apparis

1. Donnees
Soient
i
X et
i
X les donnees des 2 echantillons apparies de taille n. On pose
( )
= =
i i i
X X X ~N , , i 1, ,n

2. Test
=
0
H : 0

1
H: 0

3. Sous
0
H
(i) connu et n
( )
=
X
Y ~ 0, 1
n

Remarquer l'analogie entre cette Iormule Y (test d'hypothese) et la Iormule
( )

X
~N 0,1
n
( 3.2 de CS2 concernant l'estimation par intervalle ou Th3) ou sous
0
H = 0.
(ii) inconnu et < n 30
( )
( )
=
=
n 1
n
2
i
i 1
X
Y ~t
X X
n n 1

(iii) inconnu et n 30
( )
( )
( )
=
=
n
2
i
i 1
X
Y ~ 0, 1
X X
n n 1


28

5. Calcul de c: cI. Test 3.1 pour (i) et (iii) et Test 3.2 pour (ii) avec n-1 degres de
libertes.

6. Calcul de Y



29
3.5. Comparaison de deux moyennes avec un test unilatral

Les tests bilateraux peuvent tre transIormes en tests unilateraux en posant

0
H :
>
1
H :

La procedure dans les tests unilateraux est la mme que celle des tests bilateraux, en
particulier le choix de la v.a. et de sa loi de probabilites.

Les 2 seules diIIerences concernent la region de rejet qui est unilaterale dans les
tests unilateraux (bilaterale dans les tests bilateraux) et le calcul de c qui est associe
a dans les tests unilateraux ( 2 dans les tests bilateraux).


30
CS4: TEST DU KHI-DEUX

1. INTRODUCTION

Le test du Khi-Deux
2
est un test permettant de comparer une distribution
theorique a une distribution observee (experimentale). En pratique, ce test peut
egalement tre utilise pour comparer 2 distributions observees.

2. PRINCIPE

Soit une population contenant k classes de boules de couleur diIIerente en
probabilites
1 k
p , , p avec
=
=
k
i
i 1
p 1. La composition de cette population est
parIaitement deIinie par k-1 de ses probabilites, k-1 represente le nombre de degres
de liberte. Soit un echantillon de n boules extrait de cette population. Si la
composition de cet echantillon est la mme que celle de la population, elle
contiendrait = =
1 1 k k
np , , np boules des k couleurs.
i
T est l'eIIectiI theorique.
En Iait, on observe en realite les eIIectiIs observes
1 k
, , qui diIIerent plus ou
moins des eIIectiIs theoriques. Il existe donc un ecart a mesurer entre la composition
de la population et celle de l'echantillon.
(i) Pour k 2 =
Cet ecart peut tre mesure en Iaisant la diIIerence entre les pourcentages observe et
theorique pour l'une des classes, les pourcentages observe et theorique de l'autre
classe etant complementaire a 100.
(i) Pour k 2 >
Cet ecart ne peut pas tre mesure par la somme ou la moyenne qui est evidemment
nulle:
( )
=
=
k
i i
i 1
0. La somme des valeurs absolues des ecarts est peu commode
en calcul des probabilites. La somme des carres des ecarts evite les inconvenients
precedents mais est une mesure encore imparIaite car elle donne le mme poids a
tous les ecarts qu'ils se rapportent a des eIIectiIs de petite ou de grande taille. Des

31
considerations theoriques ont conduit a la mesure suivante dont la loi de probabilites
ne depend pas de la loi de la population (c'est la deIinition d'un test non
parametrique) mais uniquement du nombre de classes
( )
2
k
i i 2
k 1
i 1
i
~ quand n
T

i
: eIIectiI observe de la classe i
i
: eIIectiI theorique de la classe i
n: taille de l'echantillon avec
= =
= =

k k
i i
i 1 i 1
n

Rem
Ce test s'applique a des eIIectiIs non a des pourcentages.


32
3. TEST DE COMPARAISON DE DEUX DISTRIBUTIONS

1. Donnees
- Pas de condition sur la loi de probabilites de la population (test non parametrique)
- Echantillon de taille n a k classes
-
i
: eIIectiI observe de la classe i
-
i
: eIIectiI theorique de la classe i
- Condition d'application du test:
i
5 i (satisIaisant avec
i
1.5 i ). Si
cette condition d'application du test n'est pas veriIiee pour tout i, on peut regrouper
certaines classes.

2. Test
= =
0 i i
H : O T, i 1, , k , c'est-a-dire la distribution observee est identique a la
distribution theorique
1 i i
H: O T pour au moins une valeur de i, c'est-a-dire la distribution observee diIIere
de la distribution theorique.

3. Sous
0
H
( )
= =
= =

2
2 k k
i i 2
i
k 1
i 1 i 1
i i
O T
O
Y n~
T T

quand n .
En pratique, on utilise la condition d'application.

O
R
c


33
5. Calcul de c

6. Calcul de Y

7. Decision
On accepte
0
H si Y c
On rejette
0
H autrement


34
4. TEST DE L'INDEPENDANCE DE DEUX VARIABLES QUALITATIVES

1. Donnees
- Pas de condition sur la loi de probabilites de la population (test non parametrique)
- 2 variables qualitatives (par ex: couleur des yeux et personnalite d'un individu)
- Echantillon associe a un tableau a l lignes et c colonnes
-
i,j
O : eIIectiI observe en ligne i et colonne j,1 i l, 1 j c
-
i,j
T eIIectiI theorique en ligne i et colonne j,1 i l, 1 j c
- Condition d'application du test:
i,j
T 5, i,j .

2. Test
0
H : les 2 variables sont independantes
1
H: les 2 variables sont dependantes (lies)

3. Sous
0
H
( )
( )( )
i,j
2
l c
i,j
2
l 1 c 1
i=1 j=1
i,j
O T
Y ~
T

avec
i,j
l c
i,j i,j l c
i=1 j=1
i,j
i=1 j=1
1
T O O
O
=

4. Region de rejet R: cI. Test 3

5. Calcul de c: cI. Test 3

6. Calcul de Y

7. Decision: cI. Test 3


35
CS5: TEST DE WILCOXON

1. INTRODUCTION

On se limitera au test de rang signe de Wilcoxon pour 2 echantillons apparies. Ce
test, en ne presupposant aucune loi de probabilites pour la population (test non
parametrique), permet de comparer la moyenne (ou la loi) de 2 echantillons apparies
en comparant le rang moyen (ce qui est equivalent a la somme des rangs) des
observations d'un echantillon avec le rang moyen des observations de l'autre
echantillon.

2. TEST

1. Donnees et procedure
Soient
i
X et
i
X les donnees (observations) des 2 echantillons apparies de taille n.
(i) On calcule =
i i i
d X X . On suppose que
i
d 0, i .
Rem. il existe des tests de Wilcoxon qui tiennent compte de l'existence de =
i
d 0.
(ii) On classe
i
d par ordre croissant des valeurs.
(iii) On assigne un rang de 1 a n sur les
i
d classes. On suppose que tous les
i
d sont
diIIerents.
Rem. il existe des tests de Wilcoxon qui tiennent compte de l'existence de
i
d
identiques.
(iv) On associe a leur rang le signe de
i i
X X .
(v) Soit
+
(resp.

) la somme des rangs positiIs (resp. negatiIs).
Il existe une relation entre
+
et

( )
+
=
+
+ = =
n
i 1
n n 1
i
2

Il suIIit donc de considerer l'une des 2 sommes. La statistique de Wilcoxon est basee
sur
+
.

36
2. Test
+
=
0
H : , c'est a dire les 2 echantillons ont mme loi
+
1
H : T T , c'est a dire les 2 echantillons ont des lois diIIerentes

3. Sous
0
H
(i) < n 30
+
~loi de distribution nulle de Wilcoxon
Rem. cI. 3
(ii) n 30
( )
( )( )
( )
n n 1
4
Y ~ 0, 1
n n 1 2n 1
24
+
+

=
+ +

O
R R
-c c

5. Calcul de c
(i) < n 30: Table de Wilcoxon
(ii) n 30

6. Calcul
(i) < n 30: Calcul de
+

(ii) n 30: Calcul de Y

/2
( )
0, 1

37
7. Decision
(i) < n 30
On accepte
0
H si
+
c T c
On rejette
0
H autrement
(ii) n 30
On accepte
0
H si c Y c
On rejette
0
H autrement.


38
3. LOI DE DISTRIBUTION NULLE DE WILCOXON

3.1. Dfinition

( )
( )
+
= =
n
N n, x
P T x
2

avec
( )
+
=
n n 1
x 0, 1, 2, ,
2

( )
= = N n, x 0 1
( )
= N n, x 0 nombre de sous-ensembles de
{ }
1, , n tels que la somme de leurs
elements soit egale a x.
Cette loi de Wilcoxon est donnee dans des tables.

3.2. Esprance et variance

Soit
i
W la v.a. de Bernoulli egale a 1 si le rang i est positiI, a 0 si le rang i est
negatiI. Sachant que pour un rang i il y a autant de chance qu'il soit positiI que
negatiI, alors la loi de probabilites de
i
W
( ) ( )
= = = =
i i
1
P W 0 P W 1
2

Esperance d'une v.a. de Bernoulli: p
( )
i
1
E W
2
=
Variance d'une v.a. de Bernoulli: p(1-p)
( )
i
1
V W
4
=

La statistique
+
peut tre mis en Ionction de
i
W
+
=
=

n
i
i 1
iW

39
Esperance de
+

( )
( )
n n 1
E
4
+
+
=
Variance de
+

( )
( )( )
n n 1 2n 1
V
24
+
+ +
=


40
CS6: A1USTEMENT D'UNE COURBE

1. INTRODUCTION

Soient 2 variables X et Y prenant les couples de valeurs
( )
1 1
x ,y ,...,
( )
n n
x ,y . Cette
approche generale peut tre appliquee a des variables aleatoires X et Y de valeurs
( )
1 1
X ,Y ,...,
( )
n n
X ,Y . L'ensemble des points ainsi obtenu Iorme un nuage de points.
Un probleme Irequent consiste a rechercher une courbe continue approchant au
mieux ce nuage de points. Une telle courbe est appelee courbe d'ajustement.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Courbe d'ajustement lineaire Courbe d'ajustement non lineaire

2. EQUATION DES COURBES D'A1USTEMENT

Equation Fonction
= +
0 1
Y a a X Lineaire (droite)
= + +
2
0 1 2
Y a a X a X
Quadratique (parabole)
= + + +
2 3
0 1 2 3
Y a a X a X a X
Cubique
= + + + +
2 3 4
0 1 2 3 4
Y a a X a X a X a X
Du 4eme degre
= + + +
n
0 1 n
Y a a X ... a X
Du nieme degre
=
+
0 1
1
Y
a a X
ou = +
0 1
1
a a X
Y

Hyperbole
=
X
Y ab ou
( )
= + = +
0 1
logY loga logb X a a X
Exponentielle
=
b
Y aX ou = + logY loga blogX
Puissance
= +
X
Y ab g
Exponentielle modiIiee
= +
b
Y aX g
Puissance modiIiee
=
X
b
Y pq ou = + = +
X X
logY logp b logq ab g
Fonction de Gompertz
= +
X
b
Y pq h
Fonction de Gompertz modiIiee
=
+
X
1
Y
ab g
ou = +
X
1
ab g
Y

Fonction logistique

41
3. DROITE DE 2 POINTS QUELCONQUES

La droite de 2 points quelconques
( )
1 1
x ,y ,
( )
2 2
x ,y a pour equation = +
0 1
Y a a X.

=
= +

= +
1 2 2 1
0
1 0 1 1 2 1
2 0 1 2 2 1
1
2 1
y x y x
a
y a a x x x
y a a x y y
a
x x

La constante
0
a est l'ordonnee a l'origine. La constante
1
a est la pente.

4. COURBE DES MOINDRES CARRES (COURBE D'A1USTEMENT)

4.1. Introduction

La courbe (droite, parabole, etc.) des moindres carres, notee C, permet un ajustement
d'un nuage de points
( )
1 1
x ,y ,...,
( )
n n
x ,y . On considere les projections verticales des
points
( )
1 1
x ,y ,...,
( )
n n
x ,y sur la courbe C, c'est-a-dire les points
( )
1 1
x ,v ,...,
( )
n n
x ,v .

.
(x1,y1)
(x1,v1)
.
(x2,y2)
(x2,v2)
C

Rem
Les projections horizontales ou orthogonales sont rarement utilisees.

L'ajustement sera d'autant plus eIIicace que les diIIerences (positives ou negatives)
i i
v y ,
[ ]
i 1,n , sont les plus Iaibles possibles, c'est-a-dire si
( )
=
=
n
2
i i
i 1
S v y est minimal


42
4.2. Droite des moindres carrs

La droite des moindres carres ajustant le nuage de n points
( )
1 1
x ,y ,...,
( )
n n
x ,y a pour
equation = +
0 1
Y a a X.

Equations normales
= +
= +

i 0 1 i
i i
2
i i 0 i 1 i
i i i
y a n a x
x y a x a x

A partir des equations normales de la droite des moindres carres, on calcule les
constantes
0
a et
1
a
=
| |
|
\ .

2
i i i i i
i i i i
0 2
2
i i
i i
x y x x y
a
n x x

=
| |
|
\ .

i i i i
i i i
1 2
2
i i
i i
n x y x y
a
n x x

Ex. Calcul de la droite des moindres carres pour 2 points
( )
1 1
x ,y et
( )
2 2
x ,y
1 2 2 1
0
1 2
x y x y
a
x x

1 2
1
1 2
y y
a
x x

On retrouve les Iormules du 3.


43
P1
La droite des moindres carres passe par le centre de gravite
( )
x,y du nuage des
points avec =
i
i
1
x x
n

Rem
De la mme Iaon qu'il existe une droite des moindres carres ajustant le nuage de
points
( )
1 1
x ,y ,...,
( )
n n
x ,y , il existe un plan des moindres carres ajustant le nuage de
points
( )
1 1 1
x ,y ,z ,...,
( )
n n n
x ,y ,z , c'est-a-dire avec une equation lineaire de 3 variables
de la Iorme: = + +
0 1 2
a a X a Y.
On peut generaliser a des espaces de dimension superieure, on parlera alors
d'hyperplan.

Equations normales
= + +
= + +
= + +

i 0 1 i 2 i
i i i
2
i i 0 i 1 i 2 i i
i i i
2
i i 0 i 1 i i 2 i
i i i
z a n a x a y
x z a x a x a x y
y z a y a x y a y

4.3. Parabole des moindres carrs

La parabole des moindres carres ajustant le nuage de points
( )
1 1
x ,y ,...,
( )
n n
x ,y a
pour equation = + +
2
0 1 2
Y a a X a X .


44
Equations normales
= + +
= + +
= + +

2
i 0 1 i 2 i
i i i
2 3
i i 0 i 1 i 2 i
i i i i
2 2 3 4
i i 0 i 1 i 2 i
i i i i
y a n a x a x
x y a x a x a x
x y a x a x a x

Rem1
Cette technique peut tre etendue aux equations normales de courbes des moindres
carres du 3eme, ..., nieme degre.

Rem2
Avec des equations non lineaires de 3 variables, on parle de surIace des moindres
carres et non de plan des moindres carres. Avec des equations non lineaires de plus
de 3 variables, on parle d'hypersurIace des moindres carres.

Rem3
Il est important de transIormer les donnees par changement de variable pour
simpliIier les calculs. La transIormation la plus interessante est de changer les
i
x de
Iaon a ce que =
i
i
x 0 et de les aIIecter avec des valeurs simples. On utilisera
alors les equations normales pour calculer les constantes.

Cours Statistiques Resume

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours Statistiques Resume

Încărcat de

Drepturi de autor:

Formate disponibile

STATISTIQUES

est minimal si et seulement si = a X.

S-ar putea să vă placă și