Sunteți pe pagina 1din 49

Pagina 1

Statistica de bază și teoria


probabilităților
Bazat pe
„Bazele NLP statistic”
C. Manning & H. Schütze, cap. 2, MIT Press, 2002
„Teoria probabilității nu este decât bunul simț
redus la calcul. "
Pierre Simon, marchizul de Laplace (1749-1827)
Pagina 2

PLAN
1. Noțiuni elementare de probabilitate:
• Spațiu de probă, spațiu pentru evenimente și funcție de probabilitate
• Probabilitate condițională
• Teorema lui Bayes
• Independența evenimentelor probabilistice
2. Variabile aleatorii:
• Variabile discrete și variabile continue
• Media, variație și abatere standard
• Distribuții standard
• Distribuții comune, marginale și condiționale
• Independența variabilelor aleatorii
Pagina 3

PLAN (continuare)
3. Teoreme de limită
• Legile numerelor mari
• Teoreme de limită centrală
4. Estimarea parametrilor modelelor probabilistice din date
• Estimarea maximă a probabilității (MLE)
• Estimare maximă a posteriori (MAP)
5. Teoria informației elementare
• Entropie; Entropie condiționată; Entropie comună
• Câștig informațional / Informații reciproce
• Entropie încrucișată
• Divergență cu entropie relativă / Kullback-Leibler (KL)
• Proprietăți: limite, reguli de lanț, (non-) simetrii, proprietăți legate de
independență
Pagina 4

1. Noțiuni elementare de probabilitate


• spațiu de probă: Ω (discret sau continuu)
• eveniment: A ⊆ Ω
- evenimentul cert: Ω
- evenimentul imposibil: ∅
• spațiu eveniment: F = 2 Ω (sau un subspațiu de 2 Ω care conține ∅ și este
închis sub uniune complementară și numărabilă)
• funcția / distribuția probabilității: P: F → [0,1] astfel încât:
- P (Ω) = 1
- proprietatea „aditivitate numărabilă”:
∀A 1 , ..., A k evenimente disjuncte, P (∪A i ) = ∑P (A i )
Consecință: pentru o distribuție uniformă într-un spațiu de probă finit:
Pagina 5

Probabilitate condițională


Notă: P (A | B) se numește probabilitatea posteriorie de A, dată de B.

• Regula „înmulțirii”:
P (A ∩ B) = P (A | B) P (B) = P (B | A) P (A)

• Regula „lanțului”:
P (A 1 ∩ A 2 ∩ ... ∩ A n ) =
P (A 1 ) P (A 2 | A 1 ) P (A 3 | A 1 , A 2 ) ... P (A n | A 1 , A 2 , ..., A n − 1 )
Pagina 6

• Formula „probabilitate totală”:


P (A) = P (A | B) P (B) + P (A | ¬B) P (¬B)
Mai general:
dacă A ⊆ ∪B i și ∀i = j B i ∩ B j = ∅, atunci
P (A) = ∑ i P (A | B i ) P (B i )

• Teorema lui Bayes:


Pagina 7

Independența evenimentelor probabilistice


• Evenimente independente: P (A ∩ B) = P (A) P (B)
Notă: Când P (B) ≠ 0, definiția de mai sus este echivalentă cu
P (A | B) = P (A).

• Evenimente independente condiționat:


P (A ∩ B | C) = P (A | C) P (B | C), presupunând, desigur, că
P (C) ≠ 0.
Notă: Când P (B ∩ C) ≠ 0, definiția de mai sus este echivalentă
la P (A | B, C) = P (A | C).
Pagina 8

2. Variabile aleatorii
2.1 Definiții de bază
Fie Ω un spațiu de probă și
P: 2Ω → [0,1] o funcție de probabilitate.
• O variabilă aleatorie de distribuție P este o funcție

X: Ω → n

◦ Deocamdată, să luăm în considerare n = 1.

◦ Funcția de distribuție cumulativă a lui X este F:  → [0, ∞)


definită de
F (x) = P (X ≤ x) = P ({ω ∈ Ω | X (ω) ≤ x})
Pagina 9

2.2 Variabile aleatorii discrete


Definiție: Fie P: 2Ω → [0,1] o funcție de probabilitate, iar X să fie una
aleatorie variabilă de distribuție P.

• Dacă Val (X) este finit sau nefinit calculabil, atunci X este numită
variabilă aleatorie discretă.
◦ Pentru o astfel de variabilă definim funcția masei de probabilitate (pmf)

(Evident, rezultă că ∑x i ∈V al (X) p (xi ) = 1.)

Media, variația și abaterea standard:


• Așteptare / medie X:
dacă X este o variabilă aleatorie discretă.
• Variația X: .
• Abatere standard : σ = √Var (X).

Covarianța X și Y, două variabile aleatorii de distribuție P:


• Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]
Pagina 10

Exemplificare:
• Distribuția binomială:
medie: np, varianță: np (1 – p)
◦ Distribuția Bernoulli: b (r; 1, p)
medie: p, variație: p (1 – p), entropie: − p log2 p – (1 – p) log2 (1 – p)
Funcția de masă a probabilității binomiale Funcția de distribuție cumulativă binomială
Pagina 11

2.3 Variabile aleatorii continue


Definiții:
Fie P: 2Ω → [0,1] o funcție de probabilitate și X: Ω →  să fie o variabilă aleatoare a
distribuției P.
• Dacă Val (X) este un set nelimitat de nenumărat, și F, funcția de distribuție cumulată a
lui X este continuă X este numită variabilă aleatorie continuă.
(Rezultă, în mod natural, că P (X = x) = 0, pentru toți x ∈ .)
• Dacă există p:  → [0, ∞) astfel încât F (x) = ∫X-∞ p (t) dt, atunci X este numit absolut
continuu.
Într-un astfel de caz, p se numește funcția de densitate de probabilitate (pdf) a lui X.
◦ Pentru B ⊆  pentru care ∫B p (x) dx există, P (X−1 (B)) = ∫B p (x) dx,
unde .

În special, .
• Așteptare / medie X:
Pagina 12

Exemplificare:
• Distribuție normală (Gaussean) :
medie: µ, varianță: σ2
◦ Standard Distribuție normală: N (x; 0,1)
• Observație:
Pentru n, p astfel încât np (1 – p) > 5, distribuțiile binomiale pot fi
aproximate de distribuțiile normale.
Pagina 13

Funcția densității probabilității gaussiene Funcția de distribuție cumulativă gaussiană


Pagina 14

2.4 Proprietăți de bază ale variabilelor aleatorii


Fie P: 2Ω → [0,1] o funcție de probabilitate,
X: Ω → n să fie o variabilă discretă / continuă aleatorie de distribuție P.
• Dacă g: Rn → Rm este o funcție, apoi g(X) este o variabilă aleatorie.
Dacă g(X) este discret, atunci E(g(X)) = ∑x g(x)p(x).
Dacă g(X) este continuă, atunci E(g(X))= ∫ g(x)p(x)dx.
◦ Dacă g este neliniară ⇏ E(g(X)) = g(E(X)).
• E(aX) = aE(X).
• E(X + Y) = E(X) + E(Y), deci .

◦ Var(aX) = a2Var(X).
◦ Var(X + a) = Var(X).
• Var(X) = E(X2 ) - E2(X).
• Cov(X, Y) = E [XY] - E[X]E[Y].
Pagina 15

2.5 Distribuții comune, marginale și condiționale


Exemplificare pentru cazuri bi-variate:
Fie Ω un spațiu de probă, P: 2Ω → [0,1] o funcție de probabilitate și V: Ω → 2 să fie o variabilă
aleatorie de distribuție P.
În mod natural, se poate vedea V ca o pereche de două variabile aleatorii X: Ω →  și
Y: Ω → . (Mai exact, V(ω) = (x, y) = (X(ω), Y(ω)).)
• pmf / pdf comun al lui X și Y este definit de

.
• funcțiile pmf / pdf marginale ale X și Y sunt:
pentru cazul discret:

pentru cazul continuu:

• condiționalul pmf / pdf al X dat Y este:


Pagina 16

2.6 Independența variabilelor aleatorii


Definiții:
• Fie X, Y variabile aleatoare de același tip (adică fie discrete sau continuă), și pX,Y, pmf / pdf-ul
lor comun.
X și Y se spune că sunt independenți dacă
pX,Y (x, y) = pX (x) · pY (y)
pentru toate valorile posibile x și y ale lui X și respectiv Y.
• În mod similar, să fie X, Y și Z variabile aleatoare de același tip și p pmf / pdf-ul lor comun.
X și Y sunt independenți condiționat de Z dacă
pX, Y | Z (x, y | z) = pX | Z (x | z) · pY | Z (y | z)
pentru toate valorile posibile x, y și z ale lui X, Y și Z.
Pagina 17
Proprietăți ale variabilelor aleatorii referitoare la independență
• Dacă X, Y sunt independente, atunci
Var (X + Y) = Var (X) + Var (Y).

• Dacă X, Y sunt independente, atunci


E (XY) = E (X) E (Y), adică Cov (X, Y) = 0.
◦ Cov (X, Y) = 0 ⇒ X, Y sunt independente.

◦ Matricea de covarianță corespunzătoare unui vector cu variabile aleatorii este simetrică și


pozitiv semi-definită.
• Dacă matricea de covarianță a unei distribuții gaussiene cu variații multiple este diagonala,
atunci distribuțiile marginale sunt independente.
Pagina 18

3. Teoreme de limită
[Sheldon Ross, Un prim curs în probabilitate, ediția a 5-a, 1998]

„Cele mai importante rezultate în teoria probabilităților sunt limitele teoremelor.


Dintre acestea, cele mai importante sunt ...
legile unui număr mare, preocupate de precizarea condițiilor din care media unei
secvențe de variabile aleatorii converg (în oarecare sens) la media așteptată;
teoremele limită centrale, preocupate de determinarea condițiilor sub care suma
unui număr mare de variabile aleatorii are o distribuție a probabilității care este
aproximativ normală. "
Pagina 19
Două inegalități de bază și legea slabă a numărului mare
Inegalitatea lui Markov:
Dacă X este o variabilă aleatorie care ia doar valori non-negative, apoi pentru orice
valoare a > 0,

Inegalitatea lui Chebyshev:


Dacă X este o variabilă aleatorie cu media fină µ și variația σ2 , apoi pentru orice valoare
k > 0,

Legea slabă a numărului mare (Bernoulli; Khintchine):


X1 , X2 , ..., Xn să fie o secvență de discuri independente și identice variabile aleatoare
tributate, fiecare având o medie finită E [Xi ] = µ.
Apoi, pentru orice valoare  > 0,
Pagina 20

Teorema limită centrală pentru variabile aleatoare


i.i.d.
[Pierre Simon, marchizul de Laplace; Liapunoff în 1901-1902]
Fie X1 , X2 , ..., Xn o secvență de variabile aleatoare independente, fiecare având media µ și
variația σ2 .
Atunci distribuția de

tinde să fie standardul normal (gaussian) ca n → ∞.


Adică pentru −∞ < a <∞,
Pagina 21

Teorema limită centrală


pentru variabile aleatoare independente
Fie X1 , X2 , ..., Xn o secvență de variabile aleatoare independente având mijloacele respective µi
și variațiile σ2
Dacă
(a) variabilele Xi sunt delimitate uniform,
i.e. adică pentru unii M ∈ + P (| Xi | <M) = 1 pentru toți i,
și
(b) ,
atunci

unde Φ este funcția de distribuție cumulativă pentru standardul normal (Gaussian) distribuție.
Pagina 22

Legea puternică a numărului mare


Fie X1 , X2 , ..., Xn o secvență de variabile aleatorii distribuite independent și identic, fiecare
având o medie finită E [Xi ] = µ.

Atunci, cu probabilitatea 1,

Acesta este,
Pagina 23

Alte inegalități
Inegalitatea unilaterală a Chebyshev:
Dacă X este o variabilă aleatoare cu media 0 și variația finită σ2 , apoi pentru orice a > 0,

Corolar:
Dacă E[X] = µ, Var (X) = σ2 , atunci pentru a > 0

Chernoff limitează:

Fie . Atunci
Pagina 24

4. Estimarea / inferența parametrilor


modele probabilistice din date
(bazat pe [Durbin și colab., Biological Sequence Analysis, 1998],p. 311-313, 319-321)

Un model probabilistic poate fi orice, dintr-o distribuție simplă la o gramatică stocastică


complexă cu multe probabilități implicite distribuții. Odată ce tipul modelului este ales,
parametrii trebuie deduși din date.

Vom lua în considerare mai întâi cazul distribuției categorice și apoi vom prezenta
diferitele strategii care pot fi utilizate în general.
Pagina 25
Un studiu de caz: estimarea parametrilor
o distribuție categorică din date
Presupunem că observațiile - de exemplu, când rulăm o matriță ceea ce nu știm dacă este corect
sau nu, sau când numărăm numărul de câte ori aminoacidul i apare într-o coloană de aliniere a
secvenței multiple - poate fi exprimată ca numărul de ni pentru fiecare rezultat i (i = 1, l ..., K),
și vrem să estimăm probabilitățile θi ale distribuției de bază.
Cazul 1:
Când avem o mulțime de date, este firesc să utilizăm soluția probabilitate maximă (ML), i.e.
frecvența observată .
Notă: este ușor de arătat că într-adevăr P (n | θML )> P (n | θ) pentru orice θ ≠ θML .

Inegalitatea rezultă din faptul că entropia relativă este întotdeauna pozitiv, cu excepția cazului
în care cele două distribuții sunt identice.
Pagina 26
Cazul 2:
Când datele sunt rare, nu este clar care este cea mai bună estimare.
În general, ar trebui să utilizăm cunoștințele prealabile, prin statisticile bayesiene.
De exemplu, se poate utiliza distribuția Dirichlet cu parametrii α.

Acesta poate fi arătat (a se vedea calculul pe R. Durbin și colab. Cartea BSA, pag. 320)
că media estimării posterioare (PME) a parametrilor este

α′ sunt ca pseudocount-uri adăugate la numărul real. (Dacă ne gândim la α′ ca observații


suplimentare adăugate la cele reale, aceasta este tocmai ML estimat!) Acest lucru face ca
regulatorul Dirichlet să fie foarte intuitiv.
Cum se utilizează pseudoconturile: Dacă este destul de evident că un anumit rezidu, să zicem i,
e foarte frecventă, atunci ar trebui să-i dăm un pseudocount foarte ridicat αi ; dacă reziduul j este
în mod general rar, ar trebui să îi oferim un pseudocount scăzut.
Pagina 27

Strategii care trebuie utilizate în cazul general


A. Estimarea probabilității maxime (ML)
Când dorim să deducem parametrii θ = (θi ) pentru un model M dintr-un set a datelor D, strategia
cea mai evidentă este de a maximiza P (D | θ, M) peste toate valori posibile ale θ. Oficial:

Notă: În general, când tratăm P (x | y) ca funcție a lui x (și y este fix), ne referim la ea ca
probabilitate. Când tratăm P (x | y) ca a funcția lui y (și x este fixă), o numim probabilitate.
Rețineți că o probabilitate nu este o distribuție sau densitate a probabilității; este pur și simplu o
funcție a variabilă y.
Un dezavantaj serios al probabilității maxime este că dă rezultate slabe când datele sunt rare.
Soluția este apoi de a introduce mai multe prior knowl-edge, folosind teorema lui Bayes. (În
cadrul bayesian, parametrii sunt ele însele văzute ca variabile aleatorii! )
Pagina 28
B. Estimarea maximă a probabilității (MAP) a posteriori

Probabilitatea anterioară P (θ | M) trebuie aleasă într-un mod rezonabil, și aceasta este arta
estimării bayesiene (deși această libertate de a alege un prior a făcut ca statistica bayesiană să fie
controversată uneori ...).
C. Estimatorul posterior mediu (PME)
θPME = ∫ θP (θ | D, M) dθ
unde integrala este peste toți vectorii probabilității, adică toți cei la care se însumează unu.
D. O altă soluție este de a utiliza probabilitatea posterioară P (θ | D, M) ca proba din ea (a se
vedea [Durbin și colab., 1998], secțiunea 11.4) și, prin urmare, localizați regiuni cu probabilitate
ridicată pentru parametrii modelului.
Pagina 29

5. Teoria informației elementare


Definiții:
Fie X și Y variabile aleatoare discrete.

• Entropie:
Convenție: dacă p (x) = 0, vom lua în considerare p (x) log2 p (x) = 0.

• Entropie condițională specifică: H (Y | X = x) −∑y∈Y p (y | x) log2 p (y | x).


• Entropie condițională medie :

• Entropie comună:

• Câștig de informații (sau: Informații reciproce):


Pagina 30
Exemplificare: Entropia unei distribuții Bernoulli

.
Pagina 31

Proprietăți de bază ale


Entropie, Entropie condiționată, Entropie comună și
Câștig informațional / Informații reciproce

H (X) = 0 dacă X este o variabilă constantă aleatorie.
• IG (X; Y) ≥ 0;
IG (X; Y) = 0 dacă X și Y sunt independenți;
IG (X; X) = H (X).
• H (X | Y) ≤ H (X)
H (X | Y) = H (X) dacă X și Y sunt independente.
• H (X, Y) ≤ H (X) + H (Y);
H (X, Y) = H (X) + H (Y) dacă X și Y sunt independente;
H (X, Y | A) = H (X | A) + H (Y | A) (o formă condițională).
• o regulă de lanț: H (X1 , ..., Xn ) = H (X1 ) + H (X2 | X1 ) + ... + H (Xn | X1 , ..., Xn – 1).
Pagina 32

Relația dintre
Entropie, Entropie condiționată, Entropie comună și
Câștig de informații
Pagina 33

Alte definiții
• Fie X o variabilă aleatorie discretă, p pmf și q altă pmf (de obicei un model de p).
Cross-entropie:

• Fie X și Y variabile aleatoare discrete, iar p și q respectivele lor lui PMF.


Entropie relativă (sau, divergență Kullback-Leibler):
Pagina 34

Relația dintre
Entropie, Entropie condiționată, Entropie comună, Câștig de informații,
Entropie încrucișată și entropie relativă (sau divergență KL)
Pagina 35

Proprietăți de bază ale


entropie încrucișată și entropie relativă
◦ CH (X, q) ≥ 0
• KL (p || q) ≥ 0 pentru toți p și q;
KL (p || q) = 0 iff p și q sunt identice.
◦ [Consecință:]
Dacă X este o variabilă aleatorie discretă, p pmf, și q altă pmf, apoi CH (X, q) ≥ H (X) ≥ 0.
Prima dintre aceste două inechități este cunoscută și sub denumirea de inechitatea lui
Gibbs:

◦ Spre deosebire de H a unei variabile n-ari discrete, care este delimitată de log2 n, acolo nu
este nici o legătură (generală) superioară pentru CH. (Cu toate acestea, KL are marginea
superioară.)
• Spre deosebire de H (X, Y), care este simetric în argumentele sale, CH și KL sunt nu! Prin
urmare, KL NU este o valoare a distanței! (Vezi diapozitivul următor.)


Pagina 36

Observație
◦ Cantitatea

cunoscută sub denumirea de variație a informației, este o măsurătoare a distanței, adică


este nonactiv, simetric, implică indiscernabilitate și satisface inegalitatea triunghiulară.

◦ Se consideră M (p, q) = ½ (p + q).

Funcția JSD(p || q) = ½ KL (p || M) + ½ KL (q || M) se numește Divergența Jensen-


Shannon.

Se poate dovedi că definește o metrică a distanței (Distanța Jensen-Shannon).


Pagina 37

6. Exerciții recomandate
• Din [Manning & Schütze, 2002, cap. 2:]
Exemplele 1, 2, 4, 5, 7, 8, 9
Exerciții 2.1, 2.3, 2.4, 2.5
• Din [Sheldon Ross, 1998, cap. 8:]
Exemplele 2a, 2b, 3a, 3b, 3c, 5a, 5b
Pagina 38

Addenda:
Alte exemple de distribuții probabilistice
Pagina 39

Distribuție multinomială:
generalizează distribuția binomială în cazul în care există K independente cu probabilități
θi , i = 1, ..., K astfel încât .
Probabilitatea de a fi ni apariție a rezultat i este dat de

unde n = n1 + ... + nK , și θ = (θ1 , ..., θK ).


Notă: Cazul particular n = 1 reprezintă distribuția categorică. Aceasta este o generalizare a
distribuției Bernoulli.
Exemplu: rezultatul rulării unui număr de ori este descris de o distribuție categorică.
Probabilitățile fiecăruia dintre cele 6 rezultate sunt θ1 , ..., θ6 .
Pentru o matriță corectă, θ1 = ... = θ6 , și probabilitatea de a o rostogoli de 12 ori și
obținerea fiecărui rezultat de două ori este:
Pagina 40

Distribuția Poisson (sau, legea Poisson a numărului mic):


, cu k ∈  și parametrul λ > 0.

Media = variație = λ.
Funcția de masă a probabilității Poisson Funcția de distribuție cumulativă Poisson
Pagina 41

Distribuție exponențială (a.k.a. distribuție exponențială negativă):


p (x; λ) = λe−λx pentru I ≥ 0 și parametrul λ > 0.
Media = λ−1, varianța = λ−2.

Funcția densității de probabilitate exponențială Funcția de distribuție cumulativă exponențială

Notă: Distribuția exponențială este un caz particular al distribuției Gamma (ia k = 1 în diapozitivul următor).
Pagina 42

Distribuție gamma:
pentru x ≥ 0 și parametrii k > 0 (formă) și θ > 0 (scară).

Media = kθ, varianța = kθ2 .


Funcția gamma este o generalizare a funcției factoriale la valori reale. Pentru orice număr real pozitiv x, Γ (x + 1) = xΓ(x).
(Astfel, pentru numere întregi Γ (n) = (n - 1) !.)
Funcția densității probabilității gamei Funcția de distribuție cumulativă a gamei
Pagina 43

χ2 distribuţie:
pentru x ≥ 0 și ν un număr întreg pozitiv.

Se obține din distribuția Gamma luând k = ν / 2 și θ = 2.


Media = ν, varianța = 2ν.

Chi funcție densitate probabilitate pătrată Funcția de distribuție cumulată Chi Squared
Pagina 44

Distribuție Laplace:
, cu θ > 0.

Media = μ, varianța = 2θ2 .

Funcția densității probabilității Laplace Funcția de densitate cumulată Laplace


Pagina 45

Distribuția studenților:

pentru x ∈  și ν > 0 (paramul „gradului de libertate”).

Media = 0 pentru ν > 1, altfel nedefinită.

Varianță = pentru ν > 2, ∞ pentru 1 < ν ≤ 2, altfel nedefinit.

Funcția densității probabilității și funcția de distribuție cumulată:

Notă [de la Wiki]: Distribuția t este simetrică și în formă de clopot, ca distribuția normală, dar are cozi ostenitoare, ceea ce înseamnă că este mai predispus la
producerea de valori care se încadrează departe de media ei.
Pagina 46

Distribuția Beta:

.
unde B (α, β) este funcția Beta
a argumentelor α, β ∈ +

.
cu Γ (x) = (x - 1)! pentru orice x ∈ ∗.
Pagina 47

Distribuția Dirichlet:

Unde
α = α1 , ..., αK cu αi > 0 sunt parametrii,
θi satisfac 0 ≤ θi ≤ 1 și suma la 1, aceasta fiind indicată de funcția delta termenul δ (∑i θi - 1) și
factorul de normalizare poate fi exprimat în funcție de funcția gamma:

Media θi : .

Pentru K = 2, distribuția Dirichlet se reduce la distribuția Beta .


Pagina 48

Observație:
În ceea ce privește distribuțiile multinomiale și Dirichlet:
Expresia algebrică pentru parametrii θi este similară în cele două distribuții.
Cu toate acestea, multinomială este o distribuție peste exponenți ni , în timp ce Dirichletul este
o distribuție peste numerele θi care sunt exponențiate.
Se spune că cele două distribuții sunt distribuții conjugate și relația lor formală strânsă
duce la o interacțiune armonioasă în multe probleme de estimare.
În mod similar,
distribuția Beta este conjugatul de distribuție Bernoulli, și
distribuția Gamma este conjugatul distribuției Poisson.

S-ar putea să vă placă și