Documente Academic
Documente Profesional
Documente Cultură
PLAN
1. Noțiuni elementare de probabilitate:
• Spațiu de probă, spațiu pentru evenimente și funcție de probabilitate
• Probabilitate condițională
• Teorema lui Bayes
• Independența evenimentelor probabilistice
2. Variabile aleatorii:
• Variabile discrete și variabile continue
• Media, variație și abatere standard
• Distribuții standard
• Distribuții comune, marginale și condiționale
• Independența variabilelor aleatorii
Pagina 3
PLAN (continuare)
3. Teoreme de limită
• Legile numerelor mari
• Teoreme de limită centrală
4. Estimarea parametrilor modelelor probabilistice din date
• Estimarea maximă a probabilității (MLE)
• Estimare maximă a posteriori (MAP)
5. Teoria informației elementare
• Entropie; Entropie condiționată; Entropie comună
• Câștig informațional / Informații reciproce
• Entropie încrucișată
• Divergență cu entropie relativă / Kullback-Leibler (KL)
• Proprietăți: limite, reguli de lanț, (non-) simetrii, proprietăți legate de
independență
Pagina 4
Probabilitate condițională
•
Notă: P (A | B) se numește probabilitatea posteriorie de A, dată de B.
• Regula „înmulțirii”:
P (A ∩ B) = P (A | B) P (B) = P (B | A) P (A)
• Regula „lanțului”:
P (A 1 ∩ A 2 ∩ ... ∩ A n ) =
P (A 1 ) P (A 2 | A 1 ) P (A 3 | A 1 , A 2 ) ... P (A n | A 1 , A 2 , ..., A n − 1 )
Pagina 6
2. Variabile aleatorii
2.1 Definiții de bază
Fie Ω un spațiu de probă și
P: 2Ω → [0,1] o funcție de probabilitate.
• O variabilă aleatorie de distribuție P este o funcție
X: Ω → n
• Dacă Val (X) este finit sau nefinit calculabil, atunci X este numită
variabilă aleatorie discretă.
◦ Pentru o astfel de variabilă definim funcția masei de probabilitate (pmf)
Exemplificare:
• Distribuția binomială:
medie: np, varianță: np (1 – p)
◦ Distribuția Bernoulli: b (r; 1, p)
medie: p, variație: p (1 – p), entropie: − p log2 p – (1 – p) log2 (1 – p)
Funcția de masă a probabilității binomiale Funcția de distribuție cumulativă binomială
Pagina 11
În special, .
• Așteptare / medie X:
Pagina 12
Exemplificare:
• Distribuție normală (Gaussean) :
medie: µ, varianță: σ2
◦ Standard Distribuție normală: N (x; 0,1)
• Observație:
Pentru n, p astfel încât np (1 – p) > 5, distribuțiile binomiale pot fi
aproximate de distribuțiile normale.
Pagina 13
◦ Var(aX) = a2Var(X).
◦ Var(X + a) = Var(X).
• Var(X) = E(X2 ) - E2(X).
• Cov(X, Y) = E [XY] - E[X]E[Y].
Pagina 15
.
• funcțiile pmf / pdf marginale ale X și Y sunt:
pentru cazul discret:
3. Teoreme de limită
[Sheldon Ross, Un prim curs în probabilitate, ediția a 5-a, 1998]
unde Φ este funcția de distribuție cumulativă pentru standardul normal (Gaussian) distribuție.
Pagina 22
Atunci, cu probabilitatea 1,
Acesta este,
Pagina 23
Alte inegalități
Inegalitatea unilaterală a Chebyshev:
Dacă X este o variabilă aleatoare cu media 0 și variația finită σ2 , apoi pentru orice a > 0,
Corolar:
Dacă E[X] = µ, Var (X) = σ2 , atunci pentru a > 0
Chernoff limitează:
Fie . Atunci
Pagina 24
Vom lua în considerare mai întâi cazul distribuției categorice și apoi vom prezenta
diferitele strategii care pot fi utilizate în general.
Pagina 25
Un studiu de caz: estimarea parametrilor
o distribuție categorică din date
Presupunem că observațiile - de exemplu, când rulăm o matriță ceea ce nu știm dacă este corect
sau nu, sau când numărăm numărul de câte ori aminoacidul i apare într-o coloană de aliniere a
secvenței multiple - poate fi exprimată ca numărul de ni pentru fiecare rezultat i (i = 1, l ..., K),
și vrem să estimăm probabilitățile θi ale distribuției de bază.
Cazul 1:
Când avem o mulțime de date, este firesc să utilizăm soluția probabilitate maximă (ML), i.e.
frecvența observată .
Notă: este ușor de arătat că într-adevăr P (n | θML )> P (n | θ) pentru orice θ ≠ θML .
Inegalitatea rezultă din faptul că entropia relativă este întotdeauna pozitiv, cu excepția cazului
în care cele două distribuții sunt identice.
Pagina 26
Cazul 2:
Când datele sunt rare, nu este clar care este cea mai bună estimare.
În general, ar trebui să utilizăm cunoștințele prealabile, prin statisticile bayesiene.
De exemplu, se poate utiliza distribuția Dirichlet cu parametrii α.
Acesta poate fi arătat (a se vedea calculul pe R. Durbin și colab. Cartea BSA, pag. 320)
că media estimării posterioare (PME) a parametrilor este
Notă: În general, când tratăm P (x | y) ca funcție a lui x (și y este fix), ne referim la ea ca
probabilitate. Când tratăm P (x | y) ca a funcția lui y (și x este fixă), o numim probabilitate.
Rețineți că o probabilitate nu este o distribuție sau densitate a probabilității; este pur și simplu o
funcție a variabilă y.
Un dezavantaj serios al probabilității maxime este că dă rezultate slabe când datele sunt rare.
Soluția este apoi de a introduce mai multe prior knowl-edge, folosind teorema lui Bayes. (În
cadrul bayesian, parametrii sunt ele însele văzute ca variabile aleatorii! )
Pagina 28
B. Estimarea maximă a probabilității (MAP) a posteriori
Probabilitatea anterioară P (θ | M) trebuie aleasă într-un mod rezonabil, și aceasta este arta
estimării bayesiene (deși această libertate de a alege un prior a făcut ca statistica bayesiană să fie
controversată uneori ...).
C. Estimatorul posterior mediu (PME)
θPME = ∫ θP (θ | D, M) dθ
unde integrala este peste toți vectorii probabilității, adică toți cei la care se însumează unu.
D. O altă soluție este de a utiliza probabilitatea posterioară P (θ | D, M) ca proba din ea (a se
vedea [Durbin și colab., 1998], secțiunea 11.4) și, prin urmare, localizați regiuni cu probabilitate
ridicată pentru parametrii modelului.
Pagina 29
• Entropie:
Convenție: dacă p (x) = 0, vom lua în considerare p (x) log2 p (x) = 0.
• Entropie comună:
.
Pagina 31
Relația dintre
Entropie, Entropie condiționată, Entropie comună și
Câștig de informații
Pagina 33
Alte definiții
• Fie X o variabilă aleatorie discretă, p pmf și q altă pmf (de obicei un model de p).
Cross-entropie:
Relația dintre
Entropie, Entropie condiționată, Entropie comună, Câștig de informații,
Entropie încrucișată și entropie relativă (sau divergență KL)
Pagina 35
◦ Spre deosebire de H a unei variabile n-ari discrete, care este delimitată de log2 n, acolo nu
este nici o legătură (generală) superioară pentru CH. (Cu toate acestea, KL are marginea
superioară.)
• Spre deosebire de H (X, Y), care este simetric în argumentele sale, CH și KL sunt nu! Prin
urmare, KL NU este o valoare a distanței! (Vezi diapozitivul următor.)
•
Pagina 36
Observație
◦ Cantitatea
6. Exerciții recomandate
• Din [Manning & Schütze, 2002, cap. 2:]
Exemplele 1, 2, 4, 5, 7, 8, 9
Exerciții 2.1, 2.3, 2.4, 2.5
• Din [Sheldon Ross, 1998, cap. 8:]
Exemplele 2a, 2b, 3a, 3b, 3c, 5a, 5b
Pagina 38
Addenda:
Alte exemple de distribuții probabilistice
Pagina 39
Distribuție multinomială:
generalizează distribuția binomială în cazul în care există K independente cu probabilități
θi , i = 1, ..., K astfel încât .
Probabilitatea de a fi ni apariție a rezultat i este dat de
Media = variație = λ.
Funcția de masă a probabilității Poisson Funcția de distribuție cumulativă Poisson
Pagina 41
Notă: Distribuția exponențială este un caz particular al distribuției Gamma (ia k = 1 în diapozitivul următor).
Pagina 42
Distribuție gamma:
pentru x ≥ 0 și parametrii k > 0 (formă) și θ > 0 (scară).
χ2 distribuţie:
pentru x ≥ 0 și ν un număr întreg pozitiv.
Chi funcție densitate probabilitate pătrată Funcția de distribuție cumulată Chi Squared
Pagina 44
Distribuție Laplace:
, cu θ > 0.
Distribuția studenților:
Notă [de la Wiki]: Distribuția t este simetrică și în formă de clopot, ca distribuția normală, dar are cozi ostenitoare, ceea ce înseamnă că este mai predispus la
producerea de valori care se încadrează departe de media ei.
Pagina 46
Distribuția Beta:
.
unde B (α, β) este funcția Beta
a argumentelor α, β ∈ +
.
cu Γ (x) = (x - 1)! pentru orice x ∈ ∗.
Pagina 47
Distribuția Dirichlet:
Unde
α = α1 , ..., αK cu αi > 0 sunt parametrii,
θi satisfac 0 ≤ θi ≤ 1 și suma la 1, aceasta fiind indicată de funcția delta termenul δ (∑i θi - 1) și
factorul de normalizare poate fi exprimat în funcție de funcția gamma:
Media θi : .
Observație:
În ceea ce privește distribuțiile multinomiale și Dirichlet:
Expresia algebrică pentru parametrii θi este similară în cele două distribuții.
Cu toate acestea, multinomială este o distribuție peste exponenți ni , în timp ce Dirichletul este
o distribuție peste numerele θi care sunt exponențiate.
Se spune că cele două distribuții sunt distribuții conjugate și relația lor formală strânsă
duce la o interacțiune armonioasă în multe probleme de estimare.
În mod similar,
distribuția Beta este conjugatul de distribuție Bernoulli, și
distribuția Gamma este conjugatul distribuției Poisson.