Documente Academic
Documente Profesional
Documente Cultură
Marian Popa
George Luca Gunesch
Bran
3-7 feb. 2020
marian.popa@fpse.unibuc.ro
1. Paradigma NHST
2. Paradigma Bayesiană
3. Analiza Bayesiană (concepte fundamentale)
4. Abordări ale inferenței Bayesiene
5. Exerciții cu JASP
6. Etapele unei cercetări Bayesiene
7. Corespondența dintre NHST și NHBT
8. Avantaje ale NHBT
JASP Team (2019). JASP
9. Argumente contra NHBT (Version 0.11.1)[Computer software].
10. (ne)Utilizarea NHBT în cercetarea psihologică
1. Paradigma NHST
• Testarea IPOTEZEI DE NUL (H0):
• H1: Numărul erorilor este mai mare în condiții de oboseală
• testăm H0 – diferența dintre erorile în stare de oboseală/odihnă
este 0
• H1: Există o relație între evenimentele de viața negative și
depresie
• testăm H0 - relația dintre ele este 0
• H1: Are efect un anumit program de consiliere/terapie?
• testăm H0 - efectul programului este 0
• Speranța?
• rezultatul testului statistic este prea puțin probabil (p<=.05), dacă
H0 ar fi adevărată, situație în care…
• respingem H0 → inferăm că H1 este acceptabilă
• … de multe ori speranța se transformă în dorință…
NHST sau cunoașterea sisifică
Cunoștințe Cunoștințe
Test Test
Date statistic Date statistic
• Soluții
• Eliminarea pragului alfa
• Micșorarea pragului alfa
• (re)Interpretarea valorii p
• ”New Statistic”
Eliminarea pragului alpha
• Benjamin & Berger (2019)
• epoca post p<.05 a început
• …chiar dacă p va continua să fie raportat mult timp de acum încolo
• Problema principală:
• interpretarea eronată, în sensul supraestimării evidenței împotriva H0 (Type I error)
• McShane, Gal, Gelman, Robert, & Tackett (2019)
• paradigma NHST trebuie abandonată
• valoarea p nu mai trebuie utilizată cu semnificație de prag decizional
• raportare la dovezi anterioare, modelul cercetării, calitatea datelor
• Cohen (1994) ”The Earth is Round”
• Nu există alternativă magică la NHST (ar fi doar un alt ritual mecanic obiectiv)
• Soluții:
• replicarea
• înțelegerea datelor (analiza exploratorie aprofundată)
• Ioannidis (2019)
• Eliminarea pragului alfa ar deschide calea concluziilor greșite
Micșorarea pragului alfa
• Johnson (2016)
• creșterea replicabilității reclamă o creștere de 25-50 de ori a pragului de semnificație →
p=.002; .001
• Benjamin et al. …71 (2018)
• înlocuirea pragului .05 cu .005 (un compromis între Type I și Type II error)
• Argumente:
• .005 ar reduce rata rezultatelor fals pozitive (Type I error) la un nivel rezonabil
• corespunde pragului ”dovezi puternice” din testarea Bayesiană (BF 3-10)
• corespunde valorii Vovk-Sellke MPR=13.89
• Obiecție
• Type II error ar deveni prea mare…
• Exigență obligatorie:
• orice nou prag ar trebui să fie aprioric
• Benjamin, & Berger (2019)
• ”semnificativ statistic” dacă p<.005
• ”sugestiv” dacă 0.005 > p < .05
Critica micșorării pragului p
(Mayo, 2018; Machery, 2019; McShane, 2019)
Ly, A. (2017). Bayes factors for research workers Doctoral Thesis University of Amsterdam].
https://dare.uva.nl/search?identifier=e601b852-1b29-407b-a276-1ccd2a2ed37b
Harold Jeffreys (Theory of Probability, 1939)
• Convingerea i
1891-1989
• Inferența este inductivă și se bazează în primul rând pe experiență
• Convingerea ii
• Inducția impune logica încrederii parțiale
• Un nivel rezonabil de încredere intermediază între dovadă și lipsa dovezii
• Convingerea iii
• Testarea unei legi generale impune să i se atribuie o probabilitate
apriorică
• Convingerea iv
• Testarea clasică a ipotezelor este inadecvată
• Testul de semnificație bazat pe valoarea p oferă doar un criteriu
convenabil, dar brut (nu ia în considerare probabilitatea ipotezei)
2. Paradigma Bayesiană (cunoașterea proteică)
• Proteus, fiul lui Poseidon, poate
prezice viitorul; își poate schimba
Cunoștințe
forma, pentru a-l evita; flexibil, anterioare
versatil, adaptabil
Progresul
Predicții
cunoașterii
1701-1761
Eroare de
Date empirice
predicție
Inferența statistică
Accepțiunea clasică Accepțiunea Bayesiană
• Valoarea adevărată a parametrului: • Valoarea adevărată a parametrului:
• necunoscută, dar fixă (invariabilă) • necunoscută, dar variabilă (incertă)
• o singură valoare adevărată • distribuție de valori posibile
• ex., o singură medie (μ)
• Datele sunt considerate fixe
• o singură corelație (ρ)
• luate ca atare... fără eroare
• Datele sunt considerate variabile
• estimează valoarea adevărată (eroare)
• distribuția de eșantionare
Probabilitatea
Accepțiunea clasică Accepțiunea Bayesiană
• valoare obiectivă • valoare subiectivă
• frecventa apariției unui eveniment / • nivelul încrederii în apariția unui
totalul aparițiilor posibile eveniment
• calculată post hoc • ”calculată” anticipat
• presupune integrarea experienței
anterioare
3. Analiza Byesiană – concepte fundamentale
A. Verosimilitate (Likelihood)
B. Distribuția prior
C. Distribuția posterior
A. Likelihood (verosimilitate)
• Probabilitate condițională
• proporțională în raport cu altă probabilitate
• cât de probabil este ca o persoană să fie de gen Feminin, dacă știm
că este Admisă psihologie? P(F|A)
• probabilitatea datelor cercetării sub condiția unei anumite
ipoteze ... P(D|H)
B. Distribuția prior
• ”Cartoful fierbinte” al analizei Bayesiene
• Include incertitudinea/ informația disponibilă, înainte de
colectarea datelor
• ”credința” cercetătorului
• Poate avea diferite forme (de ex., normală, Cauchy, t etc.)
• varianța acestei distribuții descriere incertitudinea noastră
• Varianță mică → incertitudine mică (precizie mare)
• Varianță mare → incertitudine mare (precizie mică)
• Criterii de analiză:
• Precizia (câtă informație conține/îi atribuim?)
• Subiectivitatea (cât de subiectivă este asumarea lor?)
Criteriul informației (precizia)
• distribuții non-informative
• presupunem că nu știm nimic
• (fig. A) distribuție plată
• de preferat, dacă obiectivitatea analizei este
foarte importantă (Lambert, 2018).
• chiar și acestea conțin informație!
• Lambert (2018): „prior difuz„, ori „prior vag”
• distribuții informative
• asumăm o anumită distribuție (fig. B-F)
Criteriul asumării distribuției prior
• Tipuri de bază (de Heide & Grunwald, 2018)
• Prior subiectiv
• descrie credința cercetătorului
• interpretat ca expresie a proiecțiilor personale… oricare ar fi
suportul lor
• Prior obiectiv
• n-ar trebui să depindă de cercetător
• nivel unic, rațional (credință indiferentă)
• rezultatul cercetării → ”gradul rațional de confirmare” și nu
”încrederea subiectivă”
• pentru orice situație de cercetare, un singur prior adecvat (?!)
• ...practic, un prior implicit (default)
• funcție probabilistică a unei distribuții (de ex., normală, Cauchy, t)
• …căreia i se asociază unul sau doi parametri specificați subiectiv.
Criteriul asumării distribuției prior (cont.)
• Dienes (2019)
• Prior obiectiv (nu depinde de subiectivitatea cercetătorului); Jeffreys default
priors (Jeffreys, 1948; Ly, Verhagen, & Wagenmakers, 2016)
• Prior subiectiv (nu depinde de informații)
• Prior informativ (o combinație între ele)
• de Heide & Grunwald (2018)
• Prior complet obiectiv (rar utilizat)
• Prior implicit, cu 1-2 parametri subiectivi (cunoștințe anterioare)
• Prior pragmatic (cunoștințe anterioare+implicit+conveniență)
• Prior total subiectiv
Criteriul asumării distribuției prior (cont.)
• Rezultatul cercetării
• compromis între likelihood și prior
• bazat pe teorema lui Bayes
• actualizarea prior pe baza datelor (evidențe)
• Posterior=Prior*Likelihood
• Prior non-informativ:
• Posterior determinat de date (A, B, C)
• Prior informativ
• Posterior tinde să urmeze forma acestuia
(D,E,F)
• este nevoie de date multe pentru a schimba un
prior foarte informativ
• convingerile puternice se schimbă cu dovezi
puternice
• “(…) prior și posterior sunt noțiuni relative, cu referință la date, ceea ce azi
este posterior, devine mâine posterior.” (Lindley, 2000)
• Deși subiectiv, vag și imprecis, prior nu este lipsit de utilitate (Borel, apud
Edwards, W., Lindman, H., & Savage, L. J. , 1963)
• impactul impreciziei prior asupra concluziei (posterior), diferă mult de la situație la
situație (cel mai adesea, neglijabil)
• dacă prior nu este ”fantezist”, datele nu pot fi total opuse, iar concluzia nu va fi
”alterată” de prior
• Cu cât prior estimează mai bine datele, cu atât concluzia (posterior) este
mai convingătoare
• simt frison și presupun că am temperatură - am încredere în valoarea indicată de
termometru (38 grade C)
• Cu cât datele sunt mai convingătoare (sigure), cu atât rolul prior este mai
mic în raport cu posterior
• simt frison, dar presupun că nu am temperatură – nu pot contrazice valoarea citită pe
termometru (38 grade C)
Torema lui Bayes în contextul testării ipotezelor
(forma generală)
Verosimilitate (LIKELIHOOD) Distribuția apriorică
Cât de verosimil este ca datele să fie (PRIOR)
generate de modelul H Probabilitatea modelului H, independent de date
• H = ipoteza (model)
• D = dovezi (date)
𝑃 𝐷 𝐻 ∗ 𝑃(𝐻)
𝑃(𝐻|𝐷) =
𝑃(𝐷)
Distribuția posterioară
Constantă normalizatoare
(POSTERIOR)
Probabilitatea distribuției datelor, independent de H
Probabilitatea H în condițiile datelor
4. Abordări ale inferenței Bayesiene
𝑃 𝐷 𝐻1 ∗ 𝑃(𝐻1)
• Modelul alternativ (H1) 𝑃(𝐻1|𝐷) =
𝑃(𝐷)
Calcularea factorilor Bayes (BF):
𝑃𝑂𝑆𝑇𝐸𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
BF10= 𝑃𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
𝑃(𝐻1|𝐷𝑎𝑡𝑒) 𝑃(𝐻1) 𝑃(𝐷𝑎𝑡𝑒|𝐻1)
= x
𝑃(𝐻0|𝐷𝑎𝑡𝑒) 𝑃(𝐻0) 𝑃(𝐷𝑎𝑡𝑒|𝐻0) 𝑃𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
BF01=𝑃𝑂𝑆𝑇𝐸𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
Raport de șansă Raport de șansă BF10
POSTERIOR PRIOR
Plauzibilitatea relativă Plauzibilitatea relativă Contribuția datelor la actualizarea PRIOR în
a lui H1 asupra lui H0, a lui H1 asupra lui H0, POSTERIOR
după ce avem date înainte de a avea date - pot lua valori de la 0 la ∞
(presupuse egale) - BF10=1/BF01
- BF01=1/BF10
BF cuantifică susținerea RELATIVĂ a unui - BF10=4: datele sunt de 4 ori mai probabile sub
model în raport cu celălalt H1 decât sub H0
- BF10=0.25: datele sunt de 4 ori mai probabile
- nu semnifică mărimea efectului
sub H0 decât sub H1
- susține cât de plauzibil este efectul în
condițiile datelor (echivalentul Bayesian al lui p)
Avantajele BF (Wagenmakers et al., 2018):
• Leagă în mod direct ipoteza de date
• Cuantifică susținerea de către date pentru fiecare dintre ipoteze (H0 și H1)
• Permit evaluarea susținerii pe măsură ce datele se acumulează
• nu depind de planul de eșantionare
• Nu sunt puternic înclinați împotriva H0 (în contrast cu p)
• Interpretare
Suport pentru H1 relativ la H0
>100 Extrem (decisiv)
30–100 Foarte puternic
10–30 Puternic
3–10 Moderat
van Doorn, J., van den Bergh, D., Bohm, U., Dablander, F., Derks, K., Draws, T., . . . Wagenmakers, E.-J. (2019,
1–3 Anecdotic
January 23). The JASP Guidelines for Conducting and Reporting a Bayesian Analysis. 1 H1=H0
B. Estimarea (Kruschke, 2011, Kruschke & Liddell, 2018, Rouder et al., 2018, Makowski et al.,
2019)
https://jasp-stats.org/
• Amsterdam group, partially funded by the European Economic Council
• Allows users to save their data in a .jasp file on the Open Science Framework (OSF)
5. Exerciții cu Jeffreys's Amazing Statistics Program
Procentul studiilor care au atins criteriul specificat (d; n/N; BF 3,10; p 0.05, 0.01, 0.001)
10.000 simulări
Pasul 2 Executarea analizei
• Analiza calității datelor (outliers, missing, verificarea condițiilor)
• Testarea Bayesiană a ipotezelor
• Factorii Bayes
• Analiza distribuției posterior (Estimarea)
Pasul 3 Interpretarea rezultatelor
• Factorii Bayes (în mod normal BF10) ... (indicatori ai ”prezenței
efectului”)
• Intervalul de credibilitate (indicator al ”mărimii efectului”)
Pasul 4 Raportarea rezultatelor
• Nu există încă un standard general acceptat
• Recomandări uzuale:
• Informații complete cu privire la modelul analizei, obiective, întrebări, ipoteze
• Specificațiile prior
• pentru default se citează referințe: (Jeffreys, 1948; Ly, Verhagen, & Wagenmakers, 2016)
• Factorul Bayes (uzual, BF10)
• intervalul de credibilitate: 95% CI (HDI sau HCI)
• pentru a nu se confunda cu intervalul de incredere din NHST
• mediana posterior
• graficul Prior and Posterior (dacă exigențele de editare permit)
• Raportare paralelă Bayes + NHST
7. Corespondența dintre NHST și NHBT
• În ciuda diferențelor principiale fundamentale, NHST și TBI nu
conduc la concluzii foarte diferite (Jeffreys, apud Ly et al., 2016)
• Discordanțele apar cu precădere în intervalul p .01 ↔.05 (Johnson, 2016)
• Benjamin et al. …71 (2018): p=.005 bilateral corespunde BF 14-26 (”dovadă
puternică”)
• Wetzels, et al. (2011)
• 855 cercetări în care au fost raportate/calculate:
• testul t (NHST)
• mărimea efectului (d Cohen)
• BF10 calculat cu prior default, Couchy (0,1)
• procedură similară cu JASP – Summary Stat
• 69% dintre teste: p<.05
• ... 53% dintre teste: BF>3
• 70% cu p între .01-.05 au avut BF<3
• p=.05 este un prag prea ”liberal”
8. Avantaje ale NHBT (Andraszewicz et al., 2014, Dienes, 2011, 2014, 2018;
Lambert, 2018; Wagenmakers, et al.,2017)