Sunteți pe pagina 1din 57

Inferența Bayesiană

Marian Popa
George Luca Gunesch
Bran
3-7 feb. 2020

marian.popa@fpse.unibuc.ro
1. Paradigma NHST
2. Paradigma Bayesiană
3. Analiza Bayesiană (concepte fundamentale)
4. Abordări ale inferenței Bayesiene
5. Exerciții cu JASP
6. Etapele unei cercetări Bayesiene
7. Corespondența dintre NHST și NHBT
8. Avantaje ale NHBT
JASP Team (2019). JASP
9. Argumente contra NHBT (Version 0.11.1)[Computer software].
10. (ne)Utilizarea NHBT în cercetarea psihologică
1. Paradigma NHST
• Testarea IPOTEZEI DE NUL (H0):
• H1: Numărul erorilor este mai mare în condiții de oboseală
• testăm H0 – diferența dintre erorile în stare de oboseală/odihnă
este 0
• H1: Există o relație între evenimentele de viața negative și
depresie
• testăm H0 - relația dintre ele este 0
• H1: Are efect un anumit program de consiliere/terapie?
• testăm H0 - efectul programului este 0
• Speranța?
• rezultatul testului statistic este prea puțin probabil (p<=.05), dacă
H0 ar fi adevărată, situație în care…
• respingem H0 → inferăm că H1 este acceptabilă
• … de multe ori speranța se transformă în dorință…
NHST sau cunoașterea sisifică

• Sisif, erou absurd, lipsit de speranță, tragic și


totuși fericit cu munca lui lipsită de finalitate
(A. Camus, Mitul lui Sisif)

Cunoștințe Cunoștințe
Test Test
Date statistic Date statistic

Tabula rasa empirice Tabula rasa empirice


(H0) (H0)
Limitele modelului NHST (1)
• Pentru a testa H1, testăm altceva (H0)
• H1 nu este testată în mod direct
• H0 nu poate fi niciodată dovedită ca adevărată
• putem spune cel mult că nu poate fi respinsă
• Raportăm rezultatul la pragul alfa=.05
• fixat arbitrar de Fischer (1925, ”Statistical Methods for Research Workers” -
http://psychclassics.yorku.ca/Fisher/Methods/
• ”cu siguranță, Dumnezeu iubește pragul .06 la fel de mult ca .05”
(Rosnow & Rosenthal, 1989)

• Decizia statistică este binară


• dar la p=.05 H0 și H1 sunt echiprobabile
• Cohen (1994): ”ritualul deciziei dihotomice cu privire la H0 nu este
felul în care să fie făcută știința” (p. 999)
Limitele modelului NHST (2)
• Utilizarea greșită a valorii p
• Dacă p≤alfa respingem H0 → H1 este confirmată
• ”confirmată” nu înseamnă ”adevărată”…
• Dacă p>.05 nu există efect (diferență/corelație etc)
• N mic → p mare
• Cu cât p < .05 →, cu atât rezultatul este mai semnificativ
• N mare → p mic
• Testarea multiplă și p
• pragul .05 este prea mare… crește riscul erorii de Tip I (confirmare greșită
a H1)

• La o nouă testare a H1 ne raportăm tot la H0, indiferent de


rezultatele testărilor anterioare
Revolta împotriva NHST
• NHST a devenit pentru psihologi ”o dogmă cu statut de convingere
religioasă” (Rozeboom, 1960)
• impune artificial alternativa confirmare/neconfirmare:
• ”Ipoteza nu este ceva, ca o bucată de plăcintă oferită la desert, pe care o
putem accepta sau respinge, printr-o acțiune voluntară. Acceptarea sau
respingerea unei ipoteze este un proces cognitiv, un grad de încredere sau de
neîncredere care, dacă este bazat pe rațiune, nu este o problemă de a alege,
ci de a determina dacă aceasta este adevărată, pe baza verosimilității
dovezilor existente” (p. 423 )
• Statistica este studiul incertitudinii (Lindley, 2000)
• ... nu poate emite concluzii care mimează certitudinea
• NHST a devenit o practică rutinieră până la absurd (Gigerenzer & Marewski,
apud Tendeiro & Kiers, 2019)
• 95% CI pentru volumul eșantionului!
• fiecare număr era tratat în această manieră... doar numărul paginii nu era testat
statistic!
Revolta împotriva NHST

• Soluții
• Eliminarea pragului alfa
• Micșorarea pragului alfa
• (re)Interpretarea valorii p
• ”New Statistic”
Eliminarea pragului alpha
• Benjamin & Berger (2019)
• epoca post p<.05 a început
• …chiar dacă p va continua să fie raportat mult timp de acum încolo
• Problema principală:
• interpretarea eronată, în sensul supraestimării evidenței împotriva H0 (Type I error)
• McShane, Gal, Gelman, Robert, & Tackett (2019)
• paradigma NHST trebuie abandonată
• valoarea p nu mai trebuie utilizată cu semnificație de prag decizional
• raportare la dovezi anterioare, modelul cercetării, calitatea datelor
• Cohen (1994) ”The Earth is Round”
• Nu există alternativă magică la NHST (ar fi doar un alt ritual mecanic obiectiv)
• Soluții:
• replicarea
• înțelegerea datelor (analiza exploratorie aprofundată)
• Ioannidis (2019)
• Eliminarea pragului alfa ar deschide calea concluziilor greșite
Micșorarea pragului alfa
• Johnson (2016)
• creșterea replicabilității reclamă o creștere de 25-50 de ori a pragului de semnificație →
p=.002; .001
• Benjamin et al. …71 (2018)
• înlocuirea pragului .05 cu .005 (un compromis între Type I și Type II error)
• Argumente:
• .005 ar reduce rata rezultatelor fals pozitive (Type I error) la un nivel rezonabil
• corespunde pragului ”dovezi puternice” din testarea Bayesiană (BF 3-10)
• corespunde valorii Vovk-Sellke MPR=13.89
• Obiecție
• Type II error ar deveni prea mare…
• Exigență obligatorie:
• orice nou prag ar trebui să fie aprioric
• Benjamin, & Berger (2019)
• ”semnificativ statistic” dacă p<.005
• ”sugestiv” dacă 0.005 > p < .05
Critica micșorării pragului p
(Mayo, 2018; Machery, 2019; McShane, 2019)

• Încearcă să salveze ceea ce este în esență greșit (ideea de


”prag”)
• Nu exclude (doar îngreunează) p-hacking
• Asocierea valorii p cu testarea Bayesiană este discutabilă
• Nu garantează creșterea replicabilității
• Crește costul cercetărilor (impune eșantioane mai mari)
(re)Interpretarea lui p ca suport împotriva H0
Intensitatea suportului împotriva H0
Bland (2015) Cox & Donnely (2011)
Valoarea p
(apud Held & Ott, 2018) (apud Held & Ott, 2018)
>.1 Suport mic, inexistent
.1 - .05 Suport slab Sugerează suport
.05 - .01 Suport Suport modest
.01 - .001 Suport puternic Suport puternic
< .001 Suport foarte puternic

Evaluarea diagnosticității valorii p (Vovk-Sellke MPR)


Verosimilitatea relativă a lui p sub H1, față de H0
p Vovk-Sellke MPR
.05 2.46
.01 7.99
.005 13.89
https://jasp-stats.org/2017/06/12/mysterious-vs-mpr/
.001 53.26
New Statistics (1)
(Cumming, 2013; Cumming, Calin-Jageman, 2017)

1. Formularea întrebării cercetării în termeni estimativi ai mărimii


efectului (Effect Size)
• ”Cât de mare este efectul (diferența, corelația) ?”
• Evitarea formulărilor care cer răspunsuri dihotomice:
• există o diferență?
• există o corelație?
• intervenția/tratamentul a avut efect?
2. Identificarea mărimii efectului care răspunde cel mai bine
întrebării cercetării
• d Cohen, dacă întrebarea se referă la diferența dintre două medii
• r, dacă întrebarea se referă la corelația dintre două variabile
• Goodness of fit, dacă întrebarea se referă la un model
New Statistics (2)
(Cumming, 2013; Cumming, Calin-Jageman, 2017)

3. Declararea apriorică detaliată a procedurii de analiză a


datelor
• … inclusiv volumul eșantionului
4. Calcularea punctului de estimare și a intervalului de
încredere pentru efectul obținut
• Ex.: Estimarea diferenței dintre medii este … 95% CI (##.##, ##.##)
5. Utilizarea figurilor care includ CI (ex., error bars)
New Statistics (3)
(Cumming, 2013; Cumming, Calin-Jageman, 2017)

5. Interpretarea în text a indicatorilor ES și a CI


• considerente teoretice și implicații practice, raportate la obiectivele
cercetării
7. Utilizarea gândirii meta-analitice
• studiul curent trebuie văzut ca un pas înainte față de studiile
anterioare și ca un suport pentru studii viitoare
• Consecința: prezentarea rezultatelor trebuie să faciliteze integrarea
rezultatelor în meta-analize
8. Raportare Open science
• Informații complete: plan de cercetare, materiale, date
New Statistics - tehnici specifice
1. Tehnici exploratorii
• numerice, grafice (jamovi, JASP, R)
2. Metode robuste
• bazate pe indicatori mai puțin influențați de anomaliile datelor
• jamovi – Walrus
3. Bootstraping
4. Inferența Bayesiană (NHBT, Estimarea Bayesiană)

Ly, A. (2017). Bayes factors for research workers Doctoral Thesis University of Amsterdam].
https://dare.uva.nl/search?identifier=e601b852-1b29-407b-a276-1ccd2a2ed37b
Harold Jeffreys (Theory of Probability, 1939)
• Convingerea i
1891-1989
• Inferența este inductivă și se bazează în primul rând pe experiență
• Convingerea ii
• Inducția impune logica încrederii parțiale
• Un nivel rezonabil de încredere intermediază între dovadă și lipsa dovezii
• Convingerea iii
• Testarea unei legi generale impune să i se atribuie o probabilitate
apriorică
• Convingerea iv
• Testarea clasică a ipotezelor este inadecvată
• Testul de semnificație bazat pe valoarea p oferă doar un criteriu
convenabil, dar brut (nu ia în considerare probabilitatea ipotezei)
2. Paradigma Bayesiană (cunoașterea proteică)
• Proteus, fiul lui Poseidon, poate
prezice viitorul; își poate schimba
Cunoștințe
forma, pentru a-l evita; flexibil, anterioare
versatil, adaptabil

Progresul
Predicții
cunoașterii

1701-1761

Eroare de
Date empirice
predicție
Inferența statistică
Accepțiunea clasică Accepțiunea Bayesiană
• Valoarea adevărată a parametrului: • Valoarea adevărată a parametrului:
• necunoscută, dar fixă (invariabilă) • necunoscută, dar variabilă (incertă)
• o singură valoare adevărată • distribuție de valori posibile
• ex., o singură medie (μ)
• Datele sunt considerate fixe
• o singură corelație (ρ)
• luate ca atare... fără eroare
• Datele sunt considerate variabile
• estimează valoarea adevărată (eroare)
• distribuția de eșantionare
Probabilitatea
Accepțiunea clasică Accepțiunea Bayesiană
• valoare obiectivă • valoare subiectivă
• frecventa apariției unui eveniment / • nivelul încrederii în apariția unui
totalul aparițiilor posibile eveniment
• calculată post hoc • ”calculată” anticipat
• presupune integrarea experienței
anterioare
3. Analiza Byesiană – concepte fundamentale
A. Verosimilitate (Likelihood)
B. Distribuția prior
C. Distribuția posterior
A. Likelihood (verosimilitate)

• Probabilitate condițională
• proporțională în raport cu altă probabilitate
• cât de probabil este ca o persoană să fie de gen Feminin, dacă știm
că este Admisă psihologie? P(F|A)
• probabilitatea datelor cercetării sub condiția unei anumite
ipoteze ... P(D|H)
B. Distribuția prior
• ”Cartoful fierbinte” al analizei Bayesiene
• Include incertitudinea/ informația disponibilă, înainte de
colectarea datelor
• ”credința” cercetătorului
• Poate avea diferite forme (de ex., normală, Cauchy, t etc.)
• varianța acestei distribuții descriere incertitudinea noastră
• Varianță mică → incertitudine mică (precizie mare)
• Varianță mare → incertitudine mare (precizie mică)
• Criterii de analiză:
• Precizia (câtă informație conține/îi atribuim?)
• Subiectivitatea (cât de subiectivă este asumarea lor?)
Criteriul informației (precizia)

• distribuții non-informative
• presupunem că nu știm nimic
• (fig. A) distribuție plată
• de preferat, dacă obiectivitatea analizei este
foarte importantă (Lambert, 2018).
• chiar și acestea conțin informație!
• Lambert (2018): „prior difuz„, ori „prior vag”
• distribuții informative
• asumăm o anumită distribuție (fig. B-F)
Criteriul asumării distribuției prior
• Tipuri de bază (de Heide & Grunwald, 2018)
• Prior subiectiv
• descrie credința cercetătorului
• interpretat ca expresie a proiecțiilor personale… oricare ar fi
suportul lor
• Prior obiectiv
• n-ar trebui să depindă de cercetător
• nivel unic, rațional (credință indiferentă)
• rezultatul cercetării → ”gradul rațional de confirmare” și nu
”încrederea subiectivă”
• pentru orice situație de cercetare, un singur prior adecvat (?!)
• ...practic, un prior implicit (default)
• funcție probabilistică a unei distribuții (de ex., normală, Cauchy, t)
• …căreia i se asociază unul sau doi parametri specificați subiectiv.
Criteriul asumării distribuției prior (cont.)
• Dienes (2019)
• Prior obiectiv (nu depinde de subiectivitatea cercetătorului); Jeffreys default
priors (Jeffreys, 1948; Ly, Verhagen, & Wagenmakers, 2016)
• Prior subiectiv (nu depinde de informații)
• Prior informativ (o combinație între ele)
• de Heide & Grunwald (2018)
• Prior complet obiectiv (rar utilizat)
• Prior implicit, cu 1-2 parametri subiectivi (cunoștințe anterioare)
• Prior pragmatic (cunoștințe anterioare+implicit+conveniență)
• Prior total subiectiv
Criteriul asumării distribuției prior (cont.)

• Utilizarea prior implicit în psihologie


• Larg recomandată (Rouder et al. (2009, 2012), Jamil et al. (2016), Wetzels et al. (2012),
Quintana, Williams (2018)

• Soluție pragmatică (Gelman, 2017)


• combinație de ”prior implicit” cu ”aspecte subiective”
• ele pot fi actualizate pe măsură ce se adună mai multă informație
• “Oosterwijk prior” pentru Independent t-test (Gronau, Ly, &
Wagenmakers, 2018)
• distribuție t, centrată la 0.35, cu o scală= 0.102 și 3 df
• reprezentativ pentru d Cohen mici-medii, specifice în psihologie
C. Distribuția Posterior

• Rezultatul cercetării
• compromis între likelihood și prior
• bazat pe teorema lui Bayes
• actualizarea prior pe baza datelor (evidențe)
• Posterior=Prior*Likelihood
• Prior non-informativ:
• Posterior determinat de date (A, B, C)
• Prior informativ
• Posterior tinde să urmeze forma acestuia
(D,E,F)
• este nevoie de date multe pentru a schimba un
prior foarte informativ
• convingerile puternice se schimbă cu dovezi
puternice
• “(…) prior și posterior sunt noțiuni relative, cu referință la date, ceea ce azi
este posterior, devine mâine posterior.” (Lindley, 2000)
• Deși subiectiv, vag și imprecis, prior nu este lipsit de utilitate (Borel, apud
Edwards, W., Lindman, H., & Savage, L. J. , 1963)
• impactul impreciziei prior asupra concluziei (posterior), diferă mult de la situație la
situație (cel mai adesea, neglijabil)
• dacă prior nu este ”fantezist”, datele nu pot fi total opuse, iar concluzia nu va fi
”alterată” de prior
• Cu cât prior estimează mai bine datele, cu atât concluzia (posterior) este
mai convingătoare
• simt frison și presupun că am temperatură - am încredere în valoarea indicată de
termometru (38 grade C)
• Cu cât datele sunt mai convingătoare (sigure), cu atât rolul prior este mai
mic în raport cu posterior
• simt frison, dar presupun că nu am temperatură – nu pot contrazice valoarea citită pe
termometru (38 grade C)
Torema lui Bayes în contextul testării ipotezelor
(forma generală)
Verosimilitate (LIKELIHOOD) Distribuția apriorică
Cât de verosimil este ca datele să fie (PRIOR)
generate de modelul H Probabilitatea modelului H, independent de date

• H = ipoteza (model)
• D = dovezi (date)
𝑃 𝐷 𝐻 ∗ 𝑃(𝐻)
𝑃(𝐻|𝐷) =
𝑃(𝐷)

Distribuția posterioară
Constantă normalizatoare
(POSTERIOR)
Probabilitatea distribuției datelor, independent de H
Probabilitatea H în condițiile datelor
4. Abordări ale inferenței Bayesiene

Thomas Bayes Pierre-Simon Laplace


(1701-1761) (1794-1827)
A. Compararea modelelor (Jeffreys,
1948, Wagenmakers, Love, et al., 2018; Wagenmakers,
Marsman, et al., 2018; Wagenmakers et al., 2011) FRECVENTIST BAYESIAN
• Factorii Bayes
NHST
B. Estimarea (Kruschke, 2011; Kruschke & Liddell, Testarea NHBT
Valoarea p Factorii Bayes
2018, Kruschke, 2011, Kiers & Tendeiro, 2019) ipotezelor
(pragul alfa)
• Analiza distribuției posterior
Intervalul de Distribuția
Estimarea încredere posterior
(95% CI) (95% HDI)
A. Compararea modelelor (Factorii Bayes)

1. Sunt definite două modele competitive: H0 și H1


2. Este evaluat gradul în care datele susțin H0 și H1
• …NHST evaluează un singur model (H0)
𝑃 𝐷 𝐻0 ∗ 𝑃(𝐻0)
• Modelul de nul (H0) 𝑃(𝐻0|𝐷) =
𝑃(𝐷)

𝑃 𝐷 𝐻1 ∗ 𝑃(𝐻1)
• Modelul alternativ (H1) 𝑃(𝐻1|𝐷) =
𝑃(𝐷)
Calcularea factorilor Bayes (BF):
𝑃𝑂𝑆𝑇𝐸𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
BF10= 𝑃𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
𝑃(𝐻1|𝐷𝑎𝑡𝑒) 𝑃(𝐻1) 𝑃(𝐷𝑎𝑡𝑒|𝐻1)
= x
𝑃(𝐻0|𝐷𝑎𝑡𝑒) 𝑃(𝐻0) 𝑃(𝐷𝑎𝑡𝑒|𝐻0) 𝑃𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
BF01=𝑃𝑂𝑆𝑇𝐸𝑅𝐼𝑂𝑅 𝑂𝑑𝑑𝑠
Raport de șansă Raport de șansă BF10
POSTERIOR PRIOR
Plauzibilitatea relativă Plauzibilitatea relativă Contribuția datelor la actualizarea PRIOR în
a lui H1 asupra lui H0, a lui H1 asupra lui H0, POSTERIOR
după ce avem date înainte de a avea date - pot lua valori de la 0 la ∞
(presupuse egale) - BF10=1/BF01
- BF01=1/BF10
BF cuantifică susținerea RELATIVĂ a unui - BF10=4: datele sunt de 4 ori mai probabile sub
model în raport cu celălalt H1 decât sub H0
- BF10=0.25: datele sunt de 4 ori mai probabile
- nu semnifică mărimea efectului
sub H0 decât sub H1
- susține cât de plauzibil este efectul în
condițiile datelor (echivalentul Bayesian al lui p)
Avantajele BF (Wagenmakers et al., 2018):
• Leagă în mod direct ipoteza de date
• Cuantifică susținerea de către date pentru fiecare dintre ipoteze (H0 și H1)
• Permit evaluarea susținerii pe măsură ce datele se acumulează
• nu depind de planul de eșantionare
• Nu sunt puternic înclinați împotriva H0 (în contrast cu p)
• Interpretare
Suport pentru H1 relativ la H0
>100 Extrem (decisiv)
30–100 Foarte puternic
10–30 Puternic
3–10 Moderat
van Doorn, J., van den Bergh, D., Bohm, U., Dablander, F., Derks, K., Draws, T., . . . Wagenmakers, E.-J. (2019,
1–3 Anecdotic
January 23). The JASP Guidelines for Conducting and Reporting a Bayesian Analysis. 1 H1=H0
B. Estimarea (Kruschke, 2011, Kruschke & Liddell, 2018, Rouder et al., 2018, Makowski et al.,
2019)

• Analiza distribuției POSTERIOR


• Valorile posibile ale efectului
• 95% Credibility Interval (HDI/HCI)
• dacă valoarea de interes (ex., 0) se află în 95% HDI, atunci o acceptăm
• Regiunea echivalenței practice (ROPE Percentage)
• interval de valori, considerat practic echivalent cu valoarea de nul (ex.,
.45-.55)
• dacă ROPE este complet in afara 95% HDI, parametrul este declarat
necredibil
• daca ROPE și HDI se suprapun, decizia se complica...
• Probabilitatea direcției (pd)
• Mărimea efectului
• mod, mediană
5. Exerciții cu Jeffreys's Amazing Statistics Program

https://jasp-stats.org/
• Amsterdam group, partially funded by the European Economic Council
• Allows users to save their data in a .jasp file on the Open Science Framework (OSF)
5. Exerciții cu Jeffreys's Amazing Statistics Program

1. Corelația Pearson (r)


2. Testul t pentru diferența dintre medii
3. Regresia liniară multiplă
6. Etapele unei cercetări Bayesiene
(van Doorn et al., 2019)
Pasul 1 Planificarea analizei
• Preînregistrare
• ...cu precădere pentru prior subiectiv !!
• un exemplu: Topolinski & Sparenberg (2012) (https://osf.io/p3isc/)
• Specificarea obiectivului și întrebărilor cercetării
• Specificarea modelului statistic
• Planul de eșantionare (opțional)
• BF depind de N, la fel ca și p (Schimmack, 2015, Held & Ott, 2018)
• o susținere relevantă pentru H1 se obține mai degrabă cu eșantioane mari
• analiza de putere (subiect relativ ignorat) (Kennedy, 2015; Kruschke, & Liddell, 2018)
• Stoparea opțională a colectării datelor:
• nu este o problemă (chiar recomandată) (Wagenmakers et al., 2012, Rouder, 2014)
• N poate fi crescut progresiv, până se atinge nivelul dorit al BF (”dovadă puternică”), dar…
• Valoarea țintă pentru BF trebuie fixată dinainte
• N maxim (pragul STOP sample) trebuie fixat dinainte
• poate fi totuși o problema...
• ...cu cât prior este mai puțin subiectiv (de Heide & Grunwald, 2018)
• fixarea unei reguli de stopare, recomandabilă pentru prior implicit
Analiza de putere pentru BF
• Schimmack (2015)
https://replicationindex.com/2015/05/16/power-analysis-for-bayes-factor-what-is-the-probability-that-a-
study-produces-an-informative-bayes-factor/

Procentul studiilor care au atins criteriul specificat (d; n/N; BF 3,10; p 0.05, 0.01, 0.001)
10.000 simulări
Pasul 2 Executarea analizei
• Analiza calității datelor (outliers, missing, verificarea condițiilor)
• Testarea Bayesiană a ipotezelor
• Factorii Bayes
• Analiza distribuției posterior (Estimarea)
Pasul 3 Interpretarea rezultatelor
• Factorii Bayes (în mod normal BF10) ... (indicatori ai ”prezenței
efectului”)
• Intervalul de credibilitate (indicator al ”mărimii efectului”)
Pasul 4 Raportarea rezultatelor
• Nu există încă un standard general acceptat
• Recomandări uzuale:
• Informații complete cu privire la modelul analizei, obiective, întrebări, ipoteze
• Specificațiile prior
• pentru default se citează referințe: (Jeffreys, 1948; Ly, Verhagen, & Wagenmakers, 2016)
• Factorul Bayes (uzual, BF10)
• intervalul de credibilitate: 95% CI (HDI sau HCI)
• pentru a nu se confunda cu intervalul de incredere din NHST
• mediana posterior
• graficul Prior and Posterior (dacă exigențele de editare permit)
• Raportare paralelă Bayes + NHST
7. Corespondența dintre NHST și NHBT
• În ciuda diferențelor principiale fundamentale, NHST și TBI nu
conduc la concluzii foarte diferite (Jeffreys, apud Ly et al., 2016)
• Discordanțele apar cu precădere în intervalul p .01 ↔.05 (Johnson, 2016)
• Benjamin et al. …71 (2018): p=.005 bilateral corespunde BF 14-26 (”dovadă
puternică”)
• Wetzels, et al. (2011)
• 855 cercetări în care au fost raportate/calculate:
• testul t (NHST)
• mărimea efectului (d Cohen)
• BF10 calculat cu prior default, Couchy (0,1)
• procedură similară cu JASP – Summary Stat
• 69% dintre teste: p<.05
• ... 53% dintre teste: BF>3
• 70% cu p între .01-.05 au avut BF<3
• p=.05 este un prag prea ”liberal”
8. Avantaje ale NHBT (Andraszewicz et al., 2014, Dienes, 2011, 2014, 2018;
Lambert, 2018; Wagenmakers, et al.,2017)

• Model simplu intuitiv, flexibil


• Nu depinde de date ipotetice
• distribuția de eșantionare, ipoteza de nul
• Nu depinde de intenția cercetătorului
• valoarea p poate fi manipulata prin volumul eșantionului
• Este expresia comparației a două modele
• Cuantifică nivelul dovezilor/susținere pentru H0 și H1
• … p care este doar un prag convențional
• Permite evaluarea suportului pt. H0/H1 pe măsură ce datele se acumulează
• Nu depinde de un plan de eșantionare
• Interpretare simplă și directă a rezultatelor
• ”intervalul de încredere” vs. ”intervalul credibil”
9. Argumente contra Testării Bayesiene
Robert (2016), Ly, Verhagen, & Wagenmakers (2016), Simonsohn (2015, 2019)

• Nu rezolvă multe probleme:


• ipotezele multiple, p-hacking, eroarea de publicare, puterea redusă etc.
• Subiectivismul alegerii distribuției prior, dar:
• Priors sunt (TREBUIE) întotdeauna explicate
• Priors pot fi dezbătute și interogate într-o manieră transparentă
• Uneori pot fi derivate din date (de ex., în analizele longitudinale)
• Și modelul NHST implică multă subiectivitate (adesea ascunsă)
• selectarea datelor
• alegerea modelului pentru H0 (distribuția normală, t, chi-pătrat, etc.)
• alegerea pragului de respingere a H0 (.05, .01, .001).
• BF sub default priors subestimează efectele mici
• tinde să le considere apropiate de zero
”Într-un deșert de testări frecventiste incoerente
înflorește o floare Bayesiană.

Poate nu credeți că este o floare perfectă. Culoarea


sa poate să nu vă atragă și poate chiar să aibă un
ghimpe. Dar este o floare, în mijlocul unui deșert.

În loc să criticați culoarea florii sau înțepăturile


spinilor ei, puteți lua în considerare să vă plantați
propria floare - cu o culoare diferită și poate fără
ghimpe. Atunci toată lumea poate beneficia”.

(E.J. Wagenmakers, apud Simonsohn, 2015 - http://datacolada.org/35)


• ”Dacă sec. XX a fost dominat de NHST,
sec. XXI devine Bayesian.” (Kruschke, 2011)
10. (ne)Utilizarea TBI în cercetarea psihologică
• Argumente psihologice (Wagenmakers, 2018)
• Disonanță cognitivă: ignorarea unei tehnici noi, care contrazice convingeri
vechi
• Este riscant academic să ieși din grupul dominant (practicienii NHST)
• Susceptibilitate față de insistența detractorilor NHST (...dominantă totuși)
• Interes pentru întrebările cercetării / Dezinteres pentru detalii metodologice
• Decizia NHST oferă (falsă) certitudine într-un ocean de incertitudine
• Teama de a fi refuzat la publicare
• Argument practic
• Lipsa unor programe accesibile pentru analiza Bayesiană
• ...deficit în curs de eliminare
• R, JASP, jamovi... si chiar SPSS 25+
van de Schoot, Winter, Ryan, Zondervan-Zwijnenburg, & Depaoli, 2017
A Systematic Review of Bayesian Articles in Psychology: The Last 25 Years.
Psychological Methods, 22(2), 217-239.
Ar trebui să abandonăm NHST pentru NHBT?
• ”Răspunsul este eminamente subiectiv” (Tendeiro & Kiers, 2019)
• NHBT reprezintă o îmbunătățire față de NHST
• BF nu depind de date care nu au fost observate
• BF nu depind de manipularea subiectivă a volumului eșantionului
• BF iau în considerare verosimilitatea datelor sub H1
• BF cuantifică suportul pentru ambele modele
• BF nu cuantifică mărimea efectului, cerința explicită a APA (Wilkinson
and the Task Force on Statistical Inference, 1999)
• analiza este incompletă fără mărimea și precizia efectului
• mărimea efectului și CI din testarea frecventistă
• estimarea Bayesiană posterior
Va mulțumim!
Bibliografie (1)
• Andraszewicz, S., Scheibehenne, B., Rieskamp, J., Grasman, R., Verhagen, A. J., & Wagenmakers, E.-J. (2014, 10/28). An Introduction to Bayesian Hypothesis
Testing for Management Research. Journal of Management. https://doi.org/10.1177/0149206314560412
• Beard, E., Dienes, Z., Muirhead, C., & West, R. (2016). Using Bayes factors for testing hypotheses about intervention effectiveness in addictions research.
Addiction (Abingdon, England), 111(12), 2230-2247. doi:10.1111/add.13501
• Benjamin, D. J., Berger, J., Johannesson, M., Nosek, B. A., Wagenmakers, E., Berk, R., & … Johnson, V. (2017, July 22). Redefine statistical significance.
https://doi.org/10.31234/osf.io/mky9j.
• Dienes, Z. (2016). How Bayes factors change scientific practice. Journal of Mathematical Psychology, 72, 78-89. doi:10.1016/j.jmp.2015.10.003
• Dienes, Z., & McLatchie, N. (2018). Four reasons to prefer Bayesian analyses over significance testing. Psychonomic Bulletin & Review, 25(1), 207-218.
doi:10.3758/s13423-017-1266-z
• Dienes, Z., Coulton, S., & Heather, N. (2017). Using Bayes Factors to Evaluate Evidence for No Effect: Examples from the Sips Project (Vol. 113).
• Edwards, W., Lindman, H., & Savage, L. J. (1963). Bayesian statistical inference for psychological research. Psychological review, 70(3), 193-242.
https://doi.org/10.1037/h0044139
• Etz, A., & Vandekerckhove, J. (2018). Introduction to Bayesian Inference for Psychology. Psychonomic Bulletin & Review, 25(1), 5-34. doi:10.3758/s13423-
017-1262-3
• de Heide, R., & Grunwald, P. D. (2018, 20th July). Why optional stopping is a problem for Bayesians. arXiv:1708.08278 [stat.ME].
https://arxiv.org/pdf/1708.08278.pdf
• Held, L., & Ott, M. (2018). On p-Values and Bayes Factors. Annual Review of Statistics and Its Application. https://doi.org/https://doi.org/10.1146/annurev-
statistics031017-100307
• Ioannidis, J. P. A. (2019). Retiring statistical significance would give bias a free pass. Nature. https://www.nature.com/articles/d41586-019-00969-2
• Jeffreys, H. (1948). Theory of Probability (Second ed.): Oxford at the Clarendon Press.
• Jeffreys, H. (1973). Scientific inference (Third Ed.): Oxford at the University Press.
• Kiers, H., & Tendeiro, J. (2019, April 5). With Bayesian Estimation One Can Get All That Bayes Factors Offer, and More.
https://doi.org/10.31234/osf.io/zbpmy
• Lambert, B. (2018). A Student's Guide to Bayesian Statistics. London: Sage.
• Lee, M. D., & Wagenmakers, E.-J. (2014). Bayesian Cognitive Modeling: A Practical Course: Publisher: CUP.
• Lindley, D. V. (2000). The philosophy of statistics. Journal of the Royal Statistical Society. Series D (The Statistician), 49(3), 293-337.
http://www.jstor.org/stable/2681060?origin=JSTOR-pdf
Bibliografie (2)
• Ly, A., Raj, A., Etz, A., Marsman, M., Gronau, Q., & Wagenmakers, E.-J. (2018). Bayesian Reanalyses From Summary Statistics: A Guide for Academic
Consumers. Advances in Methods and Practices in Psychological Science, 251524591877934. doi:10.1177/2515245918779348
• Ly, A., Verhagen, A. J., & Wagenmakers, E.-J. (2016). Harold Jeffreys’s default Bayes factor hypothesis tests: Explanation, extension, and application in
psychology. Journal of Mathematical Psychology(72), 19-32.
• Makowski, D., Ben-Shachar, M. S., Chen, S. H. A., & Lüdecke, D. (2019, 2019-December-10). Indices of Effect Existence and Significance in the Bayesian
Framework [Original Research]. Frontiers in Psychology, 10(2767). https://doi.org/10.3389/fpsyg.2019.02767
• Rouder, J. N. (2014, 2014/03/22). Optional stopping: No problem for Bayesians. Psychonomic Bulletin & Review, 21(2), 301-308.
https://doi.org/10.3758/s13423-014-0595-4
• Rouder, J. N., Haaf, J. M., & Vandekerckhove, J. (2018, 2018/02/01). Bayesian inference for psychology, part IV: parameter estimation and Bayes factors.
Psychonomic Bulletin & Review, 25(1), 102-113. https://doi.org/10.3758/s13423-017-1420-7
• Rozeboom, W. W. (1960). The fallacy of the null–hypothesis significance test. Psychological Bulletin(57), 416-428.
• van de Schoot, R., & Depaoli, S. (April, 2014). Bayesian analyses: where to start and what to report. European Health Psychologist. Retrieved from
ehps.net/ehp
• Simonsohn, U. (2015, April 9). The Default Bayesian Test is Prejudiced Against Small Effects. Data Colada. http://datacolada.org/35
• van de Schoot, R., Kaplan, D., Denissen, J., Asendorpf, J. B., Neyer, F. J., & van Aken, M. A. G. (May/June 2014). A Gentle Introduction to Bayesian
Analysis: Applications to Developmental Research. Child Development, 85(3), 842–860.
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4158865/pdf/cdev0085-0842.pdf)
• van de Schoot, R., Winter, S. D., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A Systematic Review of Bayesian Articles in Psychology: The
Last 25 Years. Psychological Methods, 22(2), 217-239
• van Doorn, J., van den Bergh, D., Bohm, U., Dablander, F., Derks, K., Draws, T., . . . Wagenmakers, E.-J. (2019, January 23). The JASP Guidelines for
Conducting and Reporting a Bayesian Analysis. https://doi.org/10.31234/osf.io/yqxfr.
• Wagenmakers, Eric-Jan, et al. (2017), Bayesian Inference for Psychology. Part I: Theoretical Advantages and Practical Ramifications
(https://link.springer.com/article/10.3758/s13423-017-1343-3)
• Wagenmakers, Eric-Jan, et al., (2017), Bayesian inference for psychology. Part II: Example applications with JASP
(https://link.springer.com/article/10.3758/s13423-017-1323-7)
• Tendeiro, J., & Kiers, H. (2019, 05/16). A Review of Issues About Null Hypothesis Bayesian Testing. Psychological Methods, 24.
https://doi.org/10.1037/met0000221

S-ar putea să vă placă și