Sunteți pe pagina 1din 19

Picioarele de lut ale Psihologiei Poporului Român

Vasile Cernat

2015

Am citit cu maximă atenție răspunsul domnului profesor David. Din motive care îmi
scapă, dânsul a ales să persevereze în eroare, conferind și mai multă greutate criticilor
mele. Întrucât neadevărurile și deformările pe care le promovează sunt numeroase și
importante, lămurirea lor necesită detalii care mă obligă să fie selectiv. Dată fiind
greutatea lor în economia lucrării, în intervenția de față mă voi concentra exclusiv
asupra problemelor metodologice. Pentru început voi lămuri statutul și miza
reformelor metodologice din psihologia contemporană, după care voi demonstra
consecințele nefaste ale confuziilor și deciziilor eronate pe care se
întemeiază Psihologia poporului român.

1. Despre statutul și miza reformelor metodologice


1.1. Care sunt standardele minimale ale APA? Domnul David neagă că folosirea
intervalelor de încredere ar reprezintă un standard minimal în psihologia
contemporană. Mă văd nevoit să-l contrazic, deoarece manualul APA e foarte clar în
această privință: “The degree to which any journal emphasizes (or de-emphasizes)
NHST is a decision of the individual editor. However, complete reporting of all tested
hypotheses and estimates of appropriate effect sizes and confidence intervals are the
minimum expectations for all APA journals” (APA Manual, pp. 33, s.n.).
1.2. Există reviste importante care implementează aceste standarde? Standardele
cerute de APA au fost adoptate de unele dintre cele mai puternice reviste de
psihologie. Astfel, reviste precum Psychological Science, Personality and Social
Psychology Review, Personality and Social Psychology Bulletin, Emotion, Journal of
Experimental Psychology: General cer autorilor să se conformeze acestor standarde.
Domnul David susține că în ultimii cinci ani nimeni nu i-a cerut să ofere intervale de
încredere. În realitate, domnul David a publicat, în calitate de co-autor, în
prestigioasa Journal of Consulting and Clinical Psychology, adică tocmai în prima
publicație APA care a impus folosirea intervalelor de încredere(Odgaard și Fowler,
2010). Bineînțeles, în acel articol David și colegii săi au oferit intervale de încredere.
Deoarece au utilizat metoda modelării statistice, intervalul de încredere folosit a fost
pentru RMSEA, un indice de potrivire (exact același interval de încredere l-am folosit
și eu în studiile mele, despre care domnul David susține că nu oferă intervale de
încredere).
1.3. Care este atitudinea experților față de revistele care întârzie implementarea
reformelor metodologice? Deși au trecut mai mulți ani de la publicarea ediției a 6-a a
manualului APA, există multe reviste de psihologie care încă nu au implementat
cerințele sale. Specialiștii de renume deplâng întârzierea cu care mulți se raliază la
aceste standarde sau la altele chiar și mai restrictive. Unele dintre cele mai critice voci
le regăsim tocmai în onorabila revistă întemeiată de domnul David: “…
psychotherapy literature often lags in adopting reforms such as recognition of risk of
bias, reporting standards, and preregistration of trials…it is striking to see the extent
to which the literature continues to depend on small, methodologically flawed RCTs
[random controlled trials] conducted by investigators with strong allegiances to one of
the treatments being evaluated…Many positive findings in psychotherapy research are
created by spinning outcomes, involving confirmatory bias, flexible rules of design
and recruitment, data analysis, selective outcome reporting and significance chasing
…We need to continually expose journals’ failures to enforce accepted standards…”
(Coyne & Kok, 2014, s.n.).
1.4. Care este miza din spatele acestor reforme metodologice? Răspunsul este foarte
simplu: viitorul psihologiei ca știință. Din punct de vedere istoric, un rol fundamental
în adoptarea noilor reforme l-au avut criticile continue și dure la adresa abordării
semnificației statistice (NHST) venite din partea unora dintre cei mai renumiți
specialiști. De pildă, Jacob Cohen, unul din greii secolului XX, deplângea faptul că
„NHST nu numai că nu a contribuit la progresul psihologiei ca știință, dar chiar i-a
pus piedici serioase” (Cohen, 1994, p. 997). Același psiholog a denunțat puterea
statistică foarte scăzută a studiilor psihologice (Cohen, 1988) dar și evitarea folosirii
de către psihologi a intervalelor de încredere pentru mărimea efectului pe motiv că
acestea ar fi, cel mai adesea, „rușinos de mari” (Cohen, 1994, p. 1002).
Alți specialiști au acuzat faptul că interacțiunea dintre logica NHST și presiunea de a
publica continuu în reviste cât mai prestigioase are drept efect pervers folosirea de
către cercetători a numeroase practici dubioase (Kerr, 1998). Într-adevăr, psihologia a
fost zguduită de mai multe scandaluri de fraudă, cel mai răsunător fiind al lui Stapel,
celebrul psiholog olandez care a fabricat fără jenă datele a 53 de studii publicate în
reviste dintre cele mai prestigioase, inclusiv Science. Faptul că cei mai mulți dintre
acești autori au fost prinși doar datorită unor „turnători” i-a determinat pe Stroebe,
Postmes și Spears (2012) să concluzioneze că credința în capacitatea științei de a se
auto-corecta, prin peer-review sau replicare, este doar un mit.
Pe lângă scandalurile de fraudă, credibilitatea psihologiei a suferit și datorită crizei
replicabilității. De pildă, un articol recent din Science a încercat să replice 100 de
studii psihologice importante. Deși 97% din rezultatele inițiale fuseseră semnificative,
doar 36% dintre replicări au avut rezultate semnificative. Mai mult, mărimea medie a
efectului obținută de replicări a fost de două ori mai mică decât valorile inițiale (Open
Science Collaboration, 2015).
În fine, anumite rezultate care frizează absurdul i-au determinat pe mulți experți să
arate cu degetul, din nou, spre standardele metodologice prea relaxate. Cel mai
celebru caz de acest gen este cel al lui Bem, care, într-un articol publicat de una dintre
cele mai prestigioase reviste de psihologie, a susținut că a reușit să demonstreze
experimental existența unor fenomene paranormale (mai exact, faptul că reacțiile
noastre prezente sunt determinate retroactiv de fenomene viitoare). Editorii revistei au
susținut că nu există nici un motiv pentru care un articol să fie judecat altfel din punct
de vedere metodologic, doar pentru că abordează subiecte mai puțin populare. Asta nu
a împiedicat însă o avalanșă de reacții care de care mai dure, mergând până la
exprimarea unor îndoieli serioase cu privire la viitorul psihologiei (LeBel și Peters,
2011). Foarte relevant e și articolul prin care Simmons, Nelson și Simonsohn (2011)
au dovedit cât de ușor e să produci rezultate semnificative pentru ipoteze dintre cele
mai absurde (e.g., au „demonstrat” că ascultarea unei melodii te întinerește, la
propriu).

Problema e ca nu vorbim despre un singur articol. O serie de analize recente au arătat


că, dintre articolele de psihologie publicate în Science sau PsychologicalScience și
pentru care s-a putut calcula raportul dintre succesul pretins de autori (în termeni de
rezultate semnificative) și rata succesului justificată de mărimea eșantionului și
mărimea efectului, succesul raportat de autori s-a dovedit excesiv pentru cca. 80%
dintre acestea (Francis, Tazman și Matthews, 2014; Francis, 2014). La fel, Fanelli
(2010) a argumentat că devreme ce maturitatea unei discipline științifice variază direct
proporțional cu severitatea normelor metodologice care constrâng activitatea
cercetătorilor, ar trebui să varieze invers proporțional și cu rata rezultatelor pozitive
raportate de aceștia. În acord cu această perspectivă, analiza mai multor mii de
cercetări din diverse domenii a arătat că cele mai puține rezultate pozitive sunt
raportate în științele spațiului și cele mai multe în psihologie și psihiatrie.
Pentru a rezuma: psihologia trece printr-o etapă de reforme metodologice foarte
importante pentru viitorul său ca disciplină științifică iar acest reforme cer
psihologilor să adere, printre altele, și la noi standarde de raportare a cercetărilor. E
complet neproductiv și neinspirat să negi existența acestor reforme și sincer chiar nu
înțeleg de ce domnul David a ales această variantă, pe care a mai corelat-o și cu un
deloc onorabil argument ad hominem. Mă refer, de exemplu, la afirmația că nu aș
înțelege sensul „profund” al metodologiei psihologice deoarece sunt absolvent de
psihopedagogie. Pentru a da greutate acestui pseudo-argument, domnul David a șters
însă complet cu buretele aspecte cheie ale experienței mele profesionale, cum ar fi
calitatea de membru în consiliul editorial al unei reviste ISI respectabile, calitatea de
reviewer ad-hoc pentru reviste de top din domeniu sau câștigarea unei foarte
prestigioase și exclusiviste distincții internaționale pentru cercetările mele în domeniul
psihologiei sociale. Se pare că pentru domnul David un curs de metodologie din anul I
de facultate valorează mult mai mult decât recompensarea unor cercetări aprofundate
în domeniul psihologiei sociale cu o distincție care se acordă anual la doar câțiva
cercetători din toată lumea, majoritatea lucrând în universități de top și doar 6% în
domeniul psihologiei.
2. Consecințele nefaste ale încălcării unor principii metodologice elementare
Domnul David afirmă cu seninătate că intervalul de încredere este „superfluu cu
privire la generalizarea la populație”, „că, atunci când compari două eșantioane (ex.
cetățeni români-etnici români vs. cetățeni români etnici maghiari) nu este nevoie să ai
eșantion reprezentativ pentru fiecare etnie pentru a formula concluzii valide cu
referire la diferența dintre etnii”. În fine, domnul David reafirmă că strategia sa este
„prea conservatoare…deoarece dacă eșantionul etnicilor maghiari ar fi fost în jur de
60 de persoane (deci, doar cu aproximativ 10 persoane în plus!), atunci aveam, deja,
puterea statistică pentru a identifica o mărime a efectului de minimum 0.35… Cine
cunoaște însă logica puterii statistice și a relațiilor dintre mărimea efectului, mărimea
eșantionului, pragul de semnificație și puterea statistică, înțelege de ce spun că am fost
chiar prea conservator!”.

2.1. Ce înseamnă, de fapt, puterea statistică? Îmi pare rău că trebuie să o repet, dar
domnul David perseverează într-o serie de confuzii grave, inclusiv la nivelul logicii
paradigmei NHST, și nu pare să realizeze consecințele metodologice devastatoare ale
acestora. Ceea ce domnul David numește putere statistică constituie, de fapt, mărimea
minimă a diferenței observate pe eșantion pentru care testul ne spune că avem de-a
face cu o diferență semnificativă din punct de vedere statistic. După cum arată orice
manual introductiv, puterea statistică a unui test înseamnă altceva, și anume
probabilitatea ca testul să respingă o ipoteză nulă falsă. Puterea statistică este
determinată de pragul de semnificație, eșantion și mărimea efectului. Dar vorbim
despre mărimea efectului la nivelul populației, nu de cea observată pe eșantion! Cei
care au acces la tabelele de putere din celebra carte a lui Jacob Cohen vor observa că
domnul David tratează ca putere statistică cifrele din coloana a doua în locul celor din
coloanele 3-13 (Cohen, 1988).
Dacă vrem într-adevăr să vorbim despre puterea statistică a unui test de a detecta o
mărime reală a efectului de 0,35 pe baza comparării mediilor a două grupuri de 50 de
persoane, atunci trebuie să știm că aceasta este foarte redusă, de numai 40%. Cu alte
cuvinte, din 100 de teste doar 40 vor respinge ipoteza nulă falsă. Deci, dacă există un
efect real de 0,35 la nivelul populației, îl vom rata în 60% din cazuri! Dacă mărim
eșantionul la 60 de subiecți pe grup, puterea statistică ar crește doar ușor, la 47%.
Chiar și așa, situația de atât de proastă încât e aproape ca și cum ai da cu banul! De
fapt, pentru a ajunge la o putere de 90% în identificarea unei mărimi a efectului de
0,35 (și deci la un nivel acceptabil al erorii de tip II) am avea nevoie de eșantion
minim de 346 de subiecți (câte 173 în fiecare grup). Însă, după cum vom vedea mai
încolo, un eșantion cu putere statistică mare nu este neapărat și unul precis.
Ca să mă exprim mai intuitiv voi apela la o analogie. Să ne imaginăm că eșantioanele
sunt plase cu ajutorul cărora încercăm să „pescuim” efecte. Un eșantion mic ar fi
echivalentul unei plase cu ochiuri rare, iar un eșantion mare echivalentul unei plase cu
ochiuri dese. Un rezultat semnificativ din punct de vedere statistic este atunci când
plasa nu va fi goală. Puterea statistică a unui test ar reprezenta proporția succeselor pe
care le avem în încercările noastre de a pescui atunci când există pește în lac. O plasă
cu ochiuri dese ne va permite o rată ridicată a succesului chiar și pentru pești de
dimensiuni mai mici. În schimb, în aceeași situație, o plasă cu ochiuri largi ne va lăsă
cel mai adesea cu mâna goala. Asta nu înseamnă că nu există pești în lac. Doar că
ochiurile plasei sunt prea largi pentru ei.

Un alt aspect important este că mărimea efectului de 0,35 a fost aleasă relativ
aleatoriu de domnul David. În mod normal ar fi trebuit să se gândească la mărimea
probabilă a efectelor pe care le studiază, așa cum se prezintă ele în populație. Aici
avea la dispoziție o serie de meta-analize, inclusiv o meta-analiză a meta-analizelor
care a integrat rezultatele a 25.000 de studii, cu date colectate de la peste 8.000.000
de persoane. Acest studiu a arătat că, în cazul diferențelor intergrupale – adică cele
studiate de Psihologia poporului român – efectele obținute sunt cel mai adesea mici.
Astfel, valoarea medie a d a fost în jur de 0,2 atât pentru diferențele rasiale (dintre
afro- și anglo-americani), cât și pentru diferențele de gen sau diferențele urban-rural
(Richard, Bond și Stokes-Zota, 2003). Evident, asemenea efecte mici schimbă ecuația
puterii statistice. În detectarea unui efect mic (d= 0,2), un eșantion de 50 de subiecți
per grup oferă o putere statistică total neadecvată, de doar 17%, iar unul de 60 de
subiecți per grup o putere de doar 19%. Pentru a asigura o putere de 90% în detectarea
unui asemenea efect, e nevoie de un eșantion total de 1054 de subiecți (527 în fiecare
grup), iar pentru a asigura aceeași putere pentru un efect și mai redus, de 0,1 avem
nevoie de un total de 4206 subiecți (2103 în fiecare grup).
Având în vedere aceste cifre, sper să fie și mai clar de ce am criticat
pretențiile PPR că ar oferi „cunoștințe validate științific în baza unor eșantioane
reprezentative și/sau cu putere statistică suficientă”. Trebuie reamintit că între
componentele cardinale ale profilului psihologic al românilor domnul David a inserat
rezultate bazate pe comparații care au inclus chiar și eșantioane de 17 sau 37 de
persoane. Dânsul susține cu fermitate că asta nu reprezintă o problemă. Fals! Când ai
un grup de 953 de persoane și altul de 17 persoane atunci puterea statistică se
calculează pornind de la o medie armonică. În exemplul de față, aceasta ne arată că
trebuie să căutăm valorile de putere statistică corespunzând unui n=33. Ceea ce
înseamnă că și pentru un efect real de 0,5 în aceste condiții am avea o putere statistică
de doar 50%. Practic, eșantionul foarte redus compromite puterea comparației chiar și
în condițiile în care celălalt eșantion e extraordinar de bun. Acest aspect poate fi
înțeles și printr-o reducere la absurd: câtă credibilitate ați acorda unei comparații între
înălțimea medie calculată pe unui eșantion de 100 de milioane de americani și cea
calculată pe un eșantion de 4 români? Nu trebuie să fii expert în statistică pentru a
realiza că ceva e putred într-o astfel de comparație. Într-adevăr, media armonică a
acestor eșantioane ne direcționează spre n=8, adică spre puteri statistice extrem de
scăzute chiar și pentru efecte puternice.
În plus, trebuie să subliniem că a fi conservator nu înseamnă să ignori efectele mici,
mai ales dacă acestea sunt caracteristice pentru tema studiată, cum am văzut mai sus.
Cel mai înțelept este să te asiguri că ai puterea statistică necesară pentru a le detecta,
altfel te angajezi într-o aventură periculoasă. Pentru că dacă un efect e mic nu
înseamnă obligatoriu că e și neimportant. Într-un articol clasic, Abelson (1985) a
demonstrat cum efecte extrem de mici pot fi, de fapt, foarte importante atâta vreme cât
se acumulează în timp. De exemplu, efectul fumării unui pachet de țigări poate fi
neglijabil dar fumatul pe termen lung cauzează marea majoritatea a cancerelor
pulmonare. La fel, o intervenție educațională inovatoare poate să nu prezinte rezultate
spectaculoase pe termen scurt dar să cântărească foarte mult în condițiile în care este
repetată ani în șir. Vezi de pildă estimările care se fac regulat pe baza testelor PISA și
care demonstrează convingător câte miliarde de euro poate să piardă pe termen lung o
țară care nu implementează reforme educaționale în aparență lipsite de
spectaculozitate.

2.2. Care sunt efectele acestor confuzii metodologice și ale deciziei domnului David
de a analiza doar acele rezultate care sunt semnificative și au o mărime observată a
efectului mai mare de 0,35? Pentru a oferi un răspuns cât mai intuitiv acestei întrebări
voi apela la metoda simulării statistice, care este foarte frecvent folosită în literatura
de specialitate. Aceasta prezintă avantajul că poți crea populații artificiale cu
distribuții clar determinate din care poți extrage ulterior un număr ridicat de
eșantioane aleatorii și să observi mult mai ușor comportamentul testelor statistice care
te interesează.
Într-o primă etapă, am generat trei tipuri de date: (a) populații între care există o
diferență medie corespunzând unei mărimi a efectului mică spre medie, d=0,35, (b)
populații între care există o diferență medie corespunzând unei mărimi a efectului
mică, de d=0,2, (c) populații între a căror medii nu există nicio diferență. În fiecare
caz, dimensiunea populațiilor a fost de 1.000.000 per grup iar distribuția variabilelor a
fost normală. În fiecare caz, primul grup a avut o medie de 100 și o abatere standard
de 15, iar în cazul celuilalt grup algoritmul a scăzut această medie, unde a fost cazul,
astfel încât să obținem mărimea dorită a efectului.

În a doua etapă, algoritmul a extras un număr total de 38.000 de eșantioane aleatorii,


câte 16.000 din fiecare din cele trei tipuri de populații și, în fiecare caz, câte 1000
pentru fiecare din cele 16 mărimi ale eșantioanelor (N1=N2=5,10,20,30,
40,50,60,70,80,90,100,150,200,250,300, respectiv 400). În ultima etapă, pe baza
datelor din fiecare eșantion, au fost calculate mediile, abaterile standard, testul t,
mărimea efectului observat și intervalul său de încredere. Rezultatele sunt redate în
Figura 1 și Tabelul 1.
Figura 1 ne arată clar că, în cazul eșantioanelor mici, mărimea observată a efectului
este foarte instabilă, fluctuând puternic în jurul valorii reale, din populație. De pildă,
în cazul unei mărimi reale de 0,35, cele 1000 de comparații între eșantioane de câte 30
de subiecți au produs mărimi ale efectului care au oscilat între 1,07 și -0,73. Cu alte
cuvinte, deși la nivelul populației diferența reală dintre mediile celor două grupuri a
fost de aproximativ 5 puncte în favoarea primului grup, diferențele observate pe
eșantioane au oscilat între 15,20 puncte în favoarea primului grup și 10,04 în favoarea
celui de-al doilea grup. Ce să mai vorbim despre cele mai mici eșantioane ale
simulării, unde am obținut mărimi ale efectului ce au oscilat între 4,95 și -1,85 (adică
diferențe de până la șapte ori mai mari decât cele din populație)!

De observat însă că amplitudinea oscilațiilor se reduce pe măsură ce crește mărimea


eșantionului, ajungând să se stabilizeze după mărimi mai mari de 200 de subiecți per
grup. Totuși, chiar și în cazul unui eșantion total de 800 de subiecți, mărimea
observată a efectului oscilează între foarte mică și puțin peste medie! Deci, chiar și în
condiții ideale, extrem de improbabile în realitate (e.g., eroare de măsurare nulă,
probabilitatea egală a subiecților de a fi selectați în eșantion), rezultatele unui singur
studiu efectuat pe un eșantion ceva mai răsărit pot oferi o imagine deformată a
realității. Tocmai datorită unor astfel de fluctuații aleatorii este extrem de riscant să
extragi concluzii puternice pe baza unor studii individuale care includ asemenea
eșantioane.
Figura 1. Fluctuația mărimii observate a efectului (valori maxime și minime) în
funcție de mărimea eșantionului și de mărimea reală a efectului la nivelul populației
(a-mic spre mediu, b – mic, c – nul).

Devine la fel de clar de ce afirmația domnului David cum că intervalul de încredere


este „superfluu cu privire la generalizarea la populație” reprezintă o nepermisă
inversare a realității. Mărimea efectului observată pe un eșantion oarecare reprezintă
un estimat care, în lipsa altor informații, nu ne spune nimic despre precizia sau
acuratețea estimării. Tocmai deoarece probabilitatea ca un estimat punctual să fie egal
cu mărimea efectului în populație este neglijabilă (de pildă, în cazul de față nici unul
din cele 38.000 de studii virtuale nu a nimerit întocmai valoarea mărimii efectului în
populație), pentru a cunoaște precizia acestui estimat trebuie să construim intervale de
încredere în jurul său.

Aceste intervale de încredere includ informații atât despre estimatul punctual cât și
despre eroarea sa standard, care este cu atât mai mare cu cât eșantionul este mai mic.
Când am obținut o mărime a efectului de 0,52 într-un studiu care a inclus un total de
60 de subiecți și aceeași mărime a efectului pe un studiu care a inclus un total de 800
de subiecți, dacă ne centrăm exclusiv pe mărimea calculată lucrurile par înșelător de
similare. De fapt, în primul caz intervalul de încredere al mărimii efectului variază
între 0,01 și 1,04, pe când în al doilea caz intervalul variază între 0,38 și 0,66. Motivul
pentru care primul interval este atât de larg este că la un număr atât de mic de subiecți
eroarea standard a mărimii efectului este foarte ridicată. Ai un semnal slab și mult
zgomot. Spre deosebire de estimatul punctual, intervalul de încredere ne avertizează,
corect, că rezultatele obținute cu eșantioane atât de mici sunt foarte instabile.
Instabilitate care se poate observa ușor în Figura 1. Cum spunea și reputatul
metodolog Bruce Thomson: „Nu te îndrăgosti de estimatul tău punctual, cel puțin nu
atunci când eroarea standard este ridicată” (Thomson, 2006, p. 205).
Pentru a înțelege cât de departe de realitate este domnul David când afirmă că
strategia sa analitică este „prea conservatoare”, trebuie să ne uităm și la informațiile
prezentate în Tabelul 1. Coloanele dt ne arată mărimea medie a efectului observat
când luăm în calcul toate cele 1000 de simulări per eșantion, pentru fiecare mărime
reală a efectului în parte. Toate mediile au fost calculate ignorând direcția diferenței
observate dintre medii. Se observă că eșantioanele foarte mici produc un bias evident,
dar acesta se reduce treptat odată cu creșterea mărimii eșantioanelor, descreștere cu
atât mai accelerată cu cât efectul real este mai mare. Deci, cu câteva mici excepții,
dacă luăm în calcul toate observațiile, obținem o mărime a efectului apropiată de cea
reală.

Tabelul 1. Rezultatele simulărilor statistice pentru cele trei mărimi ale efectului la
nivelul populației: mărimea medie a efectului observat al tuturor simulărilor (d t);
mărimea medie a efectului observat al simulărilor semnificative (ds); procentajul
simulărilor semnificative (p<.05); procentajul simulărilor semnificative cu mărimea
observată a efectului mai mare de .35 (ds>.35).

N Dpop=0 Dpop=.20 Dpop=.35


dt ds p<.05 ds>.35 dt ds p<.05 ds>.35 dt ds p<.05 ds>.35
5 .55 1.89 4,8% 100% .57 1.98 4,6% 100% .63 1.89 7,2% 100%
10 .37 1.17 4,1% 100% .41 1.15 6,8% 100% .48 1.23 11,8% 100%
20 .25 .76 4,3% 100% .31 .80 8,7% 100% .40 .81 18,3% 100%
30 .21 .61 5,1% 100% .27 .64 13,9% 100% .37 .68 24,9% 100%
40 .18 .55 5,4% 100% .25 .56 13,9% 100% .37 .60 34,3% 100%
50 .16 .47 5,5% 100% .24 .50 17,1% 100% .38 .54 45,5% 100%
60 .14 .44 5,1% 100% .23 .47 20,7% 100% .35 .51 46,2% 100%
70 .13 .40 5,0% 80% .23 .44 22,9% 89.96% .35 .48 54,0% 93.33%
80 .13 .39 4,5% 53.33% .22 .41 25,2% 76.19% .35 .45 57,4% 84.67%
90 .12 .36 5,1% 49.02% .21 .39 27,0% 62.22% .34 .43 63,8% 74.76%
100 .11 .34 5,5% 25.45% .21 .37 29,4% 54.42% .35 .42 69,8% 72.64%
150 .09 .26 3,6% 2.78% .20 .31 38,5% 22.08% .35 .38 85,7% 59.28%
200 .08 .23 5,1% 0% .20 .28 52,7% 12.71% .35 .36 94,9% 51.63%
250 .07 .21 6,4% 0% .20 .26 61,7% 9.89% .35 .36 98,0% 52.04%
300 .07 .19 4,5% 0% .20 .24 68,1% 5.73% .35 .36 99,2% 54.03%
400 .06 .17 5,9% 0% .20 .22 82,6% 2.42% .35 .35 99,8% 52.00%

Această situație se schimbă dramatic dacă ne uităm la coloanele ds, care redau
mărimea medie a efectului observat exclusiv în cazul diferențelor semnificative. Aici
constatăm că mărimea medie a efectului observat suferă de un bias inflaționist,
oferindu-ne o imagine exagerată față de mărimea reală a efectului. De pildă, chiar
dacă în simulările noastre mărimile reale ale efectelor au fost nule, mici sau mici spre
medii, comparațiile semnificative între eșantioane de 50 de subiecți au oferit mărimi
medii ale efectelor observate de aproximativ 0,50.
De ce se întâmplă acest lucru? Să revenim la analogia cu plasele de pescuit. Am văzut
deja că, la fel cum o plasa cu ochiuri rare va avea o rată scăzută a succesului în
capturarea unor pești mici și un eșantion redus va suferi de anemie statistică în
capturarea unui efect modest. Însă – și acest aspect este crucial –, când vom prinde
totuși pești mici, vom captura doar exemplarele cele mai mari, care se întâmplă să fie
mai mari decât ochiurile plasei noastre. În consecință, ne vom forma o impresie
deformată asupra dimensiunilor reale ale speciei respective. În cazul nostru, ochiurile
plasei sunt constituite tocmai de acele valori pe care domnul David le confunda cu
puterea statistică.

Ca și cum criteriul semnificației statistice nu ar deforma suficient de mult realitatea,


domnul David introduce și criteriul mărimii minime a efectului observat, care duce la
reținerea exclusivă a rezultatelor semnificative și cu o mărime observată a efectului de
peste 0,35. În cazul eșantioanelor mici, având în vedere că diferența dintre medii
trebuie să fie mare pentru a fi semnificativă, criteriul domnului David nu modifică
biasul inflaționist, deoarece toate mărimile observate ale efectului sunt mai mari de
0,35 (vezi procentajele de 100% din coloanele ds>.35). În schimb, în cazul
eșantioanelor mai mari consecințele sunt devastatoare. De ce? Deoarece aceste
eșantioane oferă o putere statistică ridicată, fiind mai stabile și mai precise. Împotriva
acestui atu considerabil, criteriul domnului David ne obligă să eliminăm o bună parte
din rezultate, exacerbând efectul inflaționist. De pildă, în cazul unui efect real de 0,2,
media mărimii efectelor observate în studiile semnificative cu eșantioane totale de 800
de subiecți este de 0,22, deci foarte apropiată de valoarea din populație. Motivul este
dat de puterea statistică mai ridicată a acestor eșantioane (vezi coloana p<0,05, care
redă totalul rezultatelor semnificative) care face ca cele mai multe observații să fie
incluse în calculul acestei medii. Tocmai pentru că sunt mai bune în a estima mărimea
reală a efectului aceste eșantioane au fluctuații mai puțin extreme. Ca urmare, doar
2,42% din rezultatele semnificative înregistrate în aceste cazuri au o valoare a
efectului observat mai mare de 0,35. Ceea ce înseamnă, nici mai mult nici mai puțin,
decât faptul că adoptarea criteriului domnului David va avea ca efect eliminarea a
aproape 98% din rezultatele semnificative și păstrarea unei minorități extreme.
Rezultatul inevitabil al acestei decizii iraționale? Dublarea mărimii observate a
efectului! E ca și cum domnul David ar vrea să afle câștigurile medii ale celor care
joacă la Loto eliminându-i pe cei care nu câștigă dar și pe cei care au câștigat la
categoriile inferioare!
Bineînțeles, asta se întâmplă doar dacă analizăm un număr foarte ridicat de studii.
Dacă avem mult mai puține la dispoziție, cum are și domnul David, atunci eroarea
poate fi mult mai ridicată. De exemplu, dacă ne concentrăm doar pe primele 10 studii
simulate pentru o mărime reală a efectului de 0,2 și având N1=N2=30, respectiv
N1=N2=400, lucrurile se schimbă radical deoarece nici unul dintre studiile pe
eșantioane mari ridicate nu observă mărimi ale efectului mai mari de 0,35 iar singurul
studiu semnificativ condus pe un total de 60 de subiecți are o mărime observată a
efectului de 0,87. Deci în acest caz criteriile domnului David ne îndepărtează de
realitate și mai mult. Nu degeaba meta-analizele nu exclud studiile cu rezultate
nesemnificative! Pentru că meta-analizele sunt interesate să determine cât mai precis
mărimea efectului din populație, ele integrează atât rezultatele semnificative cât și
cele nesemnificative și, mai mult, ponderează importanța fiecărui studiu în funcție de
calitatea eșantionului, în sensul că studiile bazate pe eșantioane mici vor avea o
pondere mai scăzută în calculul mărimii medii a efectului în comparație cu studiile
bazate pe eșantioane mai mari. De exemplu, dacă am aborda în spirit meta-analitic
cele 20 de studii incluse în analiza anterioară și am pondera efectele observate cu
inversul varianței estimatelor punctuale, ponderea studiilor bazate pe eșantioane totale
de 800 de subiecți are fi de peste 10 ori mai ridicată decât ponderea studiilor bazate pe
un total de 60 de subiecți. Calculând raportul dintre suma efectelor ponderate și suma
ponderilor vom obține o mărime medie a efectului de 0,19, care este semnificativă
(testul Wald = 8,88) și are un interval de încredere de (0,15, 0,23). Aceste valori sunt
cu mult mai apropiate de valoarea reală a efectului, de 0,2, decât valoarea de 0,87, pe
care o obținem cu criteriile domnului David. Chiar și în condițiile în care am elimina
toate studiile cu eșantioane totale de 800 de subiecți și am calcula efectul mediu
exclusiv pe cele 10 studii cu eșantioane mici, tot am obține o mărime medie a
efectului de 0,29 (testul Wald = 3,46), cu un interval de încredere de (0,12, 0,45).
Să nu uităm că aceste efecte au fost observate în condiții ideale. Cele mai multe
eșantioane din cercetările reale nu sunt aleatorii iar eroarea de măsurare poate fi foarte
mare. De pildă domnul David raportează unii indici de fidelitate chiar mai reduși de
0,60. Într-adevăr, când itemii sunt puțini e greu să obții indici de fidelitate foarte
ridicați, dar asta nu te scapă de consecințele nefericite ale unei erori de măsurare
ridicate. De pildă, în simulări fără eroare de măsurare studiile efectuate pe un
eșantionat total de 300 de subiecți la o mărime reală a efectului de 0,35 au produs
rezultate semnificative în 85,7% din cazuri. Aceasta reprezintă o putere statistică
rezonabilă. Totuși, când am simulat o eroare de măsurare similară celei menționate
mai sus, pentru aceleași eșantioane și aceeași mărime reală a efectului puterea
statistică a scăzut dramatic, la 57,2%.

La fel, defectele de eșantionare au consecințe grave. Dacă eșantionezi după ureche,


poți avea un eșantion uriaș și tot vei rata cu mult valorile reale din populație. Unul
dintre cele mai bune exemple din istorie este oferit de un celebru sondaj din 1936,
când alegerile prezidențiale americane se decideau între republicanul Alfred Landon și
democratul Franklin D. Roosvelt. Una dintre cele mai puternice și respectate reviste
ale vremii a comandat cel mai mare sondaj realizat vreodată, condus pe un eșantion cu
o valoare neverosimilă, ce tindea spre două milioane și jumătate de alegători.
Rezultatele acestui sondaj îl dădeau câștigător pe republican, cu 57%, în timp ce
democratul era cotat la doar 43%. În realitate, a câștigat Roosvelt, cu 62%, în timp ce
republicanul a obținut doar 38%. De unde această eroare uriașă la un eșantion care, la
prima vedere, ar fi trebuit să fie extrem de precis? Răspunsul e foarte simplu: în loc să
recurgă la o eșantionare probabilistică, respondenții au fost selectați pe baza unor
criterii care au introdus defecte de eșantionare semnificative. De pildă, au fost
selectate persoanele pe baza cărților de telefoane, deși pe vremea aceea numai cei cu
un statut economic ridicat aveau telefoane, adică persoane a căror vot era mai probabil
să meargă spre republican. E ca și cum în prezent ai construi un eșantion pornind de la
listele cu persoanele care dețin cel mai nou si mai scump smartphone de pe piață și
apoi să te miri că la vot iasă altceva. Sau, cum spuneam în intervenția anterioară, e ca
și cum ai generaliza la nivelul întregii populații de elevi ai României rezultatele unui
studiu modest, efectuat exclusiv pe elevi de la școli bune din București, în condițiile în
care țara noastră are una dintre cele mai puternice discrepanțe urban-rural în privința
performanțelor școlare. Faptul că domnul David apără cu fermitate asemenea opțiuni
evident eronate eludează orice explicație rațională.
Bibliografie

[1] Odgaard, E. C., & Fowler, R. L. (2010). Confidence intervals for effect sizes:
Compliance and clinical significance in the Journal of Consulting and Clinical
Psychology. Journal of Consulting and Clinical Psychology, 78, 287–297.
[2] Coyne, J.K., & Kok, R.N. (2014). Salvaging psychotherapy research: A
manifesto. Journal of Evidence-Based Psychotherapies, 14, 105-124.
[3] Cohen J. (1994). The earth is round (p < .05). American Psychologist 49, 997–
1003.
[4] Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.).
Hillsdale, NJ: Erlbaum.
[5] Kerr, N.L. (1998). HARKing: Hypothesizing after the results are
known. Personality and Social Psychology Review, 2, 196-217.
[6] Stroebe, W., Postmes, T. și Spears, R. (2012). Scientific Misconduct and the Myth
of Self-Correction in Science, Perspectives on Psychological Science, 7, 670–688.
[7] Open Science Collaboration (2015). Estimating the reproducibility of
psychological science, Science, 349, aac4716.
[8] LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology:
Bem’s (2011) evidence of psi as a case study of deficiencies in modal research
practice. Review of General Psychology, 15, 371–379.
[9] Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive
psychology: Undisclosed flexibility in data collection and analysis allows presenting
anything as significant. Psychological Science, 22, 1359–1366.
[10] Francis, G., Tanzman, J. și Matthews, W. J. (2014). Excess success for
psychology articles in the journal Science. PloS ONE, 9, e114255.
[11] Francis, G. (2014). The frequency of excess success for articles in Psychological
Science. Psychonomic Bulletin & Review, 21, 1180–1187.
[12] Fanelli, D. (2010b). ‘‘Positive’’ results increase down the hierarchy of the
sciences. PLoS ONE, 5, e10068.
[13] Richard, F. D., Bond, C. F., Jr., & Stokes-Zoota, J. J. (2003). One hundred years
of social psychology quantitatively described. Review of General Psychology, 7, 331–
363.
[14] Abelson, R. P. (1985). A variance explanation paradox: When a little is a
lot. Psychological Bulletin, 97, 128-132.
[15] Thompson, B. (2006). Foundations of Behavioral Statistics: An Insight-Based
Approach. New York, NY: Guilford.

S-ar putea să vă placă și