Documente Academic
Documente Profesional
Documente Cultură
LINF2275
Echantillonage:
Etude exhaustive d une population trop vaste (peut tre infinie), difficile et/ou coteuse; tude dune partie (reprsentative) ou chantillon
LINF2275 Introduction 2
Variables quantitatives: les oprations arithmtiques (somme, moyenne, ...) ont un sens; Variables qualitatives: seules les oprations de comptage ont un sens!
LINF2275
Introduction 3
LINF2275
Introduction 4
Tableaux de donnes:
chantillon de n individus sur lesquels on observe p variables:
Variables X1 I n d i v i d u s 1 2 i n xij X2 Xj Xp
Statistique Observation de phnomnes concrets Observation de donnes: possibles imprcisions, erreurs Distribution des valeurs dune variable sur une population Echantillonage des individus observs par tirage au hasard (assurer la reprsentativit)
Probabilits Modlisation de phnomnes alatoires Modlisation des dviations entre vraies valeurs et valeurs observes Modlisation par des lois de probabilit thoriques (gaussienne, poisson, ) Proprits observes = variables alatoires tude des rpartitions, des liens ventuels
LINF2275
Introduction 6
Probabilits = outils essentiels pour extrapoler: observations sur chantillon(s) lois de comportement sur la population
STATISTIQUE INFERENTIELLE (essentiellement uni- et bi-varie) autre aspect de la statistique: STATISTIQUE EXPLORATOIRE (essentiellement multivarie)
LINF2275
Dmarche
+ ++ + + ++ + + + + + + + + + + + +
+ + ++ + + + + ++
LINF2275
Introduction 9
Dmarche scientifique:
1) phase exploratoire (observations), 2) formulation d'hypothses, de modles, de rgles, 3) validation.
Outils de validation:
Infrence: s'appuie sur des modles probabilistes, => dmarche analytique, => modles mathmatiques relativement "simples", => vue simplifie parfois contestable du phnomne tudi: les donnes doivent "coller" suffisamment au modle pour que la dmarche soit valable. Procdure informatique: ne s'appuie que sur les donnes, => rchantillonnage et vrification ( recommencer x fois), => outils informatiques: tests intensifs pour avoir une bonne perception gnrale du phnomne => ncessite une quantit de donnes importante
LINF2275 Introduction 10
1 n moyenne chantillon: x = xi n i= 1
intervalle de confiance = intervalle autour de x : [ x - Dx , x + D x ] ayant une probabilit fixe (95%) de contenir la moyenne population m Mthode d'infrence: suppose une distribution thorique (ex: normale) pour dterminer l'intervalle. Mthode de rchantillonnage: (principes de base) gnre un grand nombre N d'chantillons similaires l'chantillon de dpart, calcule les N moyennes chantillon => distribution empirique, dtermine l'intervalle contenant 95% des valeurs.
LINF2275
Introduction 11
(W , C ) est un espace
probabilisable
Loi de probabilit P: (W , C) [0,1] telle que P (W) = 1 et "A1 , A2 ,K, An C tels que Ai A j = ("i j ),
on a P (U Ai ) = P ( Ai )
W A
Probabilits conditionelles - Indpendance Proba. conditionelle de A sachant B (de proba. non nulle): P (AB) = P (A B) P (B) A indpendant de B ssi P (AB) = P (A) ssi P (A B) = P (A) P (B)
LINF2275 Proba. rappels 13
Thorme des probabilits totales: " A1, A2, ..., An formant une partition de W (Ai Aj = " ij, et Ai = W) "B en particulier: P(B) = i P(B Ai) = i P(BAi) P(Ai) P(B) = P(BA) P(A) + P(BA) P(A)
Gnralisation: si A1, A2, ..., An forment une partition de W P(AiB) = P(BAi) P(Ai)
Ex d'utilisation: aide au diagnostique: probabilit d'une affection tant donns les rsultats d'examens mdicaux.
LINF2275 Proba. rappels 14
!
LINF2275 Introduction 15
conception subjectiviste: La probabilit objective d'un vnement n'existe pas et n'est pas une grandeur mesurable! Probabilit = mesure d'incertitude variant avec les circonstances et l'observateur => mesure subjective Contrainte: satisfaire aux axiomes du calcul des probabilits => permet de probabiliser des vnements non reproductibles et non alatoires ! (Ex: Quelle est la probabilit qu'il pleuve demain?) => permet de modliser l'incertain
Modlisation de l'incertain et de l'imprcis: nouveaux dveloppements thoriques (depuis les annes 1950): thories des possibilits, des fonctions de croyance et des ensembles flous gnralisation des axiomes des probabilits => plus grande souplesse plus proche du raisonnement humain
LINF2275 Proba. rappels 16
0
LINF2275
10 >10
Proba. - rappel 17
Fonction de rpartition d'une variable alatoire X: F(x) = P(X < x) (fct monotone croissante) d'o: P(a X < b) = F(b) F(a) Ex: fct de rpartition d'une variable discrte :
F(x) 1
0 1 2 3 4 5 6 7 8 9 10
LINF2275
Proba. - rappel 18
Densit de probabilit (variable continue): f(x) est la fct de densit pour une variable X si pour tout intervalle [a , b] de on a: b P(a < X < b) = d'o et
f(x) P(a < X < b)
f ( x )dx
a
f ( x )dx = 1
a
f ( x )dx
a
LINF2275
x
Proba. - rappel 19
Moments d'une variable alatoire X: valeurs typiques: centrales: moyenne de dispersion: variance, cart-type (dviation standard) de forme de distribution: coefficient d'asymtrie ('skewness'), d'aplatissement ('kurtosis'). notion d'esprance mathmatique: E(X) = moyenne (= centre de masse): var. discrte: m = E ( X ) =
x P( X = x )
i i i
x f ( x ) dx
LINF2275
Proba. - rappel 20
Dfinition gnrale: moment centr d'ordre k = mk = E((X E(X))k) Coefficients d'asymtrie g1 (skewness) et d'aplatissement g2 (kurtosis): m3 m4 g1 = g2 = 3 s s4 Mdiane et percentile: mdiane: valeur x50 telle que P(X x50) = 0.50 percentile p%: valeur xp telle que P(X xp) = p%
LINF2275
Proba. - rappel 21
Lois discrtes:
Loi discrte uniforme: X = {1, 2, ..., n} avec P(X = k) = 1/n
1 2 3
...
n
Loi ou schma de Bernouilli de paramtre p: X = {0,1} avec P(X = 1) = p (apparition d'un vnement) et P(X = 0) = 1 p (non-apparition d'un vnement) Loi binomiale B (n, p): n somme de n variables de Bernouilli Xi indpendantes X= Xi de mme paramtre p i =1
LINF2275
Proba. - rappels 22
Loi binomiale (suite) X = nbre d'apparitions d'un vnement parmi n expriences alatoires indpendantes dont le rsultat est l'apparition ou non d'un vnement de n! k n-k probabilit p. D'o: P( X = k ) = C k pk (1 - p)n -k = p (1 p ) n k ! (n - k )! Loi de Poisson P (l): X valeur naturelle (entire, positive ou nulle) et satisfait:
= probabilit d'obtenir x vnements indpendants pendant un temps T, si le nbre moyen d'vnements par unit de temps est c et l = cT Bonne approximation d'une binomiale lorsque p est petit (vnement rare): B (n, p) ~ P (n p) Ex d'application: loi du nbre de suicides par an dans un pays donn loi du nbre d'appels tlphoniques pendant un intervalle de temps T
LINF2275 Proba. - rappels 23
lk P( X = k ) = exp(-l) k!
Autres lois discrtes utilisant le schma de Bernouilli: Loi gomtrique: X = nbre d'essais jusqu'au 1er succs
P( X = k ) = p(1 - p)k -1
Loi binomiale ngative: X = nbre d'essais jusqu'au rme succs
P( X = k ) = C
r -1 k -1
p (1 - p )
k-r
Lois continues
Loi uniforme sur un intervalle [a, b]: mme probabilit sur tout l'intervalle: f(x) = 1/(b a)
f(x ) 1/(b a) a
LINF2275
x
Proba. - rappels 24
f ( x) =
f(x)
2 1 ( x m ) exp 2p s 2 s2
Rle fondamental, frquemment utilis: loi limite sur des chantillons de grandes tailles; approximation des lois binomiale (n grand) et poisson (l grand); thorme central-limite: la somme de n variables alatoires de mme loi de moyenne m et d'cart-type s tend vers une normale.
LINF2275
Proba. - rappels 25
Exemples d'autres lois continues: loi log-normale: si ln X est distribu selon une gaussienne loi exponentielle: f(x) = l exp(- lx) pour x > 0 ...
LINF2275
P( X = xi ) = pij = pi.
j =1 p
loi marginale de Y:
P(Y = y j ) = pij = p. j
i =1
lois conditionnelles: loi d'une variable tant donn la valeur prise par l'autre loi de X si Y = yj : pi|j = P(X = xi | Y = yj) = pij/ p.j loi de Y si X = xi : pj|i = P(Y = yj | X = xi) = pij/ pi. Indpendance de X et Y: ssi pij = pi. p.j ssi pi|j = pi. ssi pj|i = p.j
LINF2275 Proba. - rappels 27
Conditionnement d'une var. continue Y par une var. discrte X Fct de rpartition conditionnelle: FY|x(y) = P(Y < y | X = x) Fct de densit conditionnelle (si elle existe): fY|x(y) telle que P(a < Y < b | X = x) = Densit marginale de Y: fY(y) = x fY|x(y) P(X = x)
b
f
a
Y x
(y )dy
Couple (X, Y) de variables continues (espace 2 dimension) Fct de rpartition jointe de (X, Y): FXY(x, y) = P(X < x et Y < y) Fcts de rpartition marginales: FX(x) = P(X < x) = FXY(x, ) (pas de cond. sur y) FY(y) = P(Y < y) = FXY(, y) (pas de cond. sur x) Fct de densit jointe de (X, Y) (si elle existe): fXY(x, y) si pour toute rgion A de l'espace 2 dimensions: P((X,Y) A) = A fXY(x, y)dx dy = volume sous la courbe fXY(x, y) au-dessus de la rgion A Indpendance de X et Y:
LINF2275
Fcts de densit marginales: fX(x) = fXY(x, y)dy Loi conditionnelle : indpendance ssi
fY(y) = fXY(x, y) dx
fY|x(y) = fXY(y) fX(x) pour fX(x) > 0 fY|x(y) = fY(y) ssi fX|y(x) = fX(x)
Covariance et corrlation: = mesures de la variation conjointe de 2 variables: covariance: sXY = cov(X,Y) = E((X E(X)) (Y E(Y))) = E(X Y) E(X) E(Y) avec E(X Y) = i j xi yj pij pour des variables X et Y discrtes = x y fXY(x, y)dx dy corrlation: rXY = cor(X,Y) = cov(X,Y) sX s Y Proprits: 1) V(X + Y) = V(X) + V(Y) + 2 cov(X,Y). 2) SI X et Y indpendantes ALORS cov(X,Y) = 0 (car E(X Y) = E(X) E(Y)) ! la rciproque est fausse: cov(X,Y) = 0 n'implique pas l'indpendance 3) -1 rXY 1 4) r2XY = 1 ssi Y = aX + b
LINF2275
"
"
continues
cor = 0
x y y
cor = 0
x
LINF2275
x
Proba. - rappels 31
LINF2275
Proba. - rappels 32