Documente Academic
Documente Profesional
Documente Cultură
Vasile Cernat
2015
Am citit cu maximă atenție răspunsul domnului profesor David. Din motive care îmi
scapă, dânsul a ales să persevereze în eroare, conferind și mai multă greutate criticilor
mele. Întrucât neadevărurile și deformările pe care le promovează sunt numeroase și
importante, lămurirea lor necesită detalii care mă obligă să fie selectiv. Dată fiind
greutatea lor în economia lucrării, în intervenția de față mă voi concentra exclusiv
asupra problemelor metodologice. Pentru început voi lămuri statutul și miza
reformelor metodologice din psihologia contemporană, după care voi demonstra
consecințele nefaste ale confuziilor și deciziilor eronate pe care se
întemeiază Psihologia poporului român.
2.1. Ce înseamnă, de fapt, puterea statistică? Îmi pare rău că trebuie să o repet, dar
domnul David perseverează într-o serie de confuzii grave, inclusiv la nivelul logicii
paradigmei NHST, și nu pare să realizeze consecințele metodologice devastatoare ale
acestora. Ceea ce domnul David numește putere statistică constituie, de fapt, mărimea
minimă a diferenței observate pe eșantion pentru care testul ne spune că avem de-a
face cu o diferență semnificativă din punct de vedere statistic. După cum arată orice
manual introductiv, puterea statistică a unui test înseamnă altceva, și anume
probabilitatea ca testul să respingă o ipoteză nulă falsă. Puterea statistică este
determinată de pragul de semnificație, eșantion și mărimea efectului. Dar vorbim
despre mărimea efectului la nivelul populației, nu de cea observată pe eșantion! Cei
care au acces la tabelele de putere din celebra carte a lui Jacob Cohen vor observa că
domnul David tratează ca putere statistică cifrele din coloana a doua în locul celor din
coloanele 3-13 (Cohen, 1988).
Dacă vrem într-adevăr să vorbim despre puterea statistică a unui test de a detecta o
mărime reală a efectului de 0,35 pe baza comparării mediilor a două grupuri de 50 de
persoane, atunci trebuie să știm că aceasta este foarte redusă, de numai 40%. Cu alte
cuvinte, din 100 de teste doar 40 vor respinge ipoteza nulă falsă. Deci, dacă există un
efect real de 0,35 la nivelul populației, îl vom rata în 60% din cazuri! Dacă mărim
eșantionul la 60 de subiecți pe grup, puterea statistică ar crește doar ușor, la 47%.
Chiar și așa, situația de atât de proastă încât e aproape ca și cum ai da cu banul! De
fapt, pentru a ajunge la o putere de 90% în identificarea unei mărimi a efectului de
0,35 (și deci la un nivel acceptabil al erorii de tip II) am avea nevoie de eșantion
minim de 346 de subiecți (câte 173 în fiecare grup). Însă, după cum vom vedea mai
încolo, un eșantion cu putere statistică mare nu este neapărat și unul precis.
Ca să mă exprim mai intuitiv voi apela la o analogie. Să ne imaginăm că eșantioanele
sunt plase cu ajutorul cărora încercăm să „pescuim” efecte. Un eșantion mic ar fi
echivalentul unei plase cu ochiuri rare, iar un eșantion mare echivalentul unei plase cu
ochiuri dese. Un rezultat semnificativ din punct de vedere statistic este atunci când
plasa nu va fi goală. Puterea statistică a unui test ar reprezenta proporția succeselor pe
care le avem în încercările noastre de a pescui atunci când există pește în lac. O plasă
cu ochiuri dese ne va permite o rată ridicată a succesului chiar și pentru pești de
dimensiuni mai mici. În schimb, în aceeași situație, o plasă cu ochiuri largi ne va lăsă
cel mai adesea cu mâna goala. Asta nu înseamnă că nu există pești în lac. Doar că
ochiurile plasei sunt prea largi pentru ei.
Un alt aspect important este că mărimea efectului de 0,35 a fost aleasă relativ
aleatoriu de domnul David. În mod normal ar fi trebuit să se gândească la mărimea
probabilă a efectelor pe care le studiază, așa cum se prezintă ele în populație. Aici
avea la dispoziție o serie de meta-analize, inclusiv o meta-analiză a meta-analizelor
care a integrat rezultatele a 25.000 de studii, cu date colectate de la peste 8.000.000
de persoane. Acest studiu a arătat că, în cazul diferențelor intergrupale – adică cele
studiate de Psihologia poporului român – efectele obținute sunt cel mai adesea mici.
Astfel, valoarea medie a d a fost în jur de 0,2 atât pentru diferențele rasiale (dintre
afro- și anglo-americani), cât și pentru diferențele de gen sau diferențele urban-rural
(Richard, Bond și Stokes-Zota, 2003). Evident, asemenea efecte mici schimbă ecuația
puterii statistice. În detectarea unui efect mic (d= 0,2), un eșantion de 50 de subiecți
per grup oferă o putere statistică total neadecvată, de doar 17%, iar unul de 60 de
subiecți per grup o putere de doar 19%. Pentru a asigura o putere de 90% în detectarea
unui asemenea efect, e nevoie de un eșantion total de 1054 de subiecți (527 în fiecare
grup), iar pentru a asigura aceeași putere pentru un efect și mai redus, de 0,1 avem
nevoie de un total de 4206 subiecți (2103 în fiecare grup).
Având în vedere aceste cifre, sper să fie și mai clar de ce am criticat
pretențiile PPR că ar oferi „cunoștințe validate științific în baza unor eșantioane
reprezentative și/sau cu putere statistică suficientă”. Trebuie reamintit că între
componentele cardinale ale profilului psihologic al românilor domnul David a inserat
rezultate bazate pe comparații care au inclus chiar și eșantioane de 17 sau 37 de
persoane. Dânsul susține cu fermitate că asta nu reprezintă o problemă. Fals! Când ai
un grup de 953 de persoane și altul de 17 persoane atunci puterea statistică se
calculează pornind de la o medie armonică. În exemplul de față, aceasta ne arată că
trebuie să căutăm valorile de putere statistică corespunzând unui n=33. Ceea ce
înseamnă că și pentru un efect real de 0,5 în aceste condiții am avea o putere statistică
de doar 50%. Practic, eșantionul foarte redus compromite puterea comparației chiar și
în condițiile în care celălalt eșantion e extraordinar de bun. Acest aspect poate fi
înțeles și printr-o reducere la absurd: câtă credibilitate ați acorda unei comparații între
înălțimea medie calculată pe unui eșantion de 100 de milioane de americani și cea
calculată pe un eșantion de 4 români? Nu trebuie să fii expert în statistică pentru a
realiza că ceva e putred într-o astfel de comparație. Într-adevăr, media armonică a
acestor eșantioane ne direcționează spre n=8, adică spre puteri statistice extrem de
scăzute chiar și pentru efecte puternice.
În plus, trebuie să subliniem că a fi conservator nu înseamnă să ignori efectele mici,
mai ales dacă acestea sunt caracteristice pentru tema studiată, cum am văzut mai sus.
Cel mai înțelept este să te asiguri că ai puterea statistică necesară pentru a le detecta,
altfel te angajezi într-o aventură periculoasă. Pentru că dacă un efect e mic nu
înseamnă obligatoriu că e și neimportant. Într-un articol clasic, Abelson (1985) a
demonstrat cum efecte extrem de mici pot fi, de fapt, foarte importante atâta vreme cât
se acumulează în timp. De exemplu, efectul fumării unui pachet de țigări poate fi
neglijabil dar fumatul pe termen lung cauzează marea majoritatea a cancerelor
pulmonare. La fel, o intervenție educațională inovatoare poate să nu prezinte rezultate
spectaculoase pe termen scurt dar să cântărească foarte mult în condițiile în care este
repetată ani în șir. Vezi de pildă estimările care se fac regulat pe baza testelor PISA și
care demonstrează convingător câte miliarde de euro poate să piardă pe termen lung o
țară care nu implementează reforme educaționale în aparență lipsite de
spectaculozitate.
2.2. Care sunt efectele acestor confuzii metodologice și ale deciziei domnului David
de a analiza doar acele rezultate care sunt semnificative și au o mărime observată a
efectului mai mare de 0,35? Pentru a oferi un răspuns cât mai intuitiv acestei întrebări
voi apela la metoda simulării statistice, care este foarte frecvent folosită în literatura
de specialitate. Aceasta prezintă avantajul că poți crea populații artificiale cu
distribuții clar determinate din care poți extrage ulterior un număr ridicat de
eșantioane aleatorii și să observi mult mai ușor comportamentul testelor statistice care
te interesează.
Într-o primă etapă, am generat trei tipuri de date: (a) populații între care există o
diferență medie corespunzând unei mărimi a efectului mică spre medie, d=0,35, (b)
populații între care există o diferență medie corespunzând unei mărimi a efectului
mică, de d=0,2, (c) populații între a căror medii nu există nicio diferență. În fiecare
caz, dimensiunea populațiilor a fost de 1.000.000 per grup iar distribuția variabilelor a
fost normală. În fiecare caz, primul grup a avut o medie de 100 și o abatere standard
de 15, iar în cazul celuilalt grup algoritmul a scăzut această medie, unde a fost cazul,
astfel încât să obținem mărimea dorită a efectului.
Aceste intervale de încredere includ informații atât despre estimatul punctual cât și
despre eroarea sa standard, care este cu atât mai mare cu cât eșantionul este mai mic.
Când am obținut o mărime a efectului de 0,52 într-un studiu care a inclus un total de
60 de subiecți și aceeași mărime a efectului pe un studiu care a inclus un total de 800
de subiecți, dacă ne centrăm exclusiv pe mărimea calculată lucrurile par înșelător de
similare. De fapt, în primul caz intervalul de încredere al mărimii efectului variază
între 0,01 și 1,04, pe când în al doilea caz intervalul variază între 0,38 și 0,66. Motivul
pentru care primul interval este atât de larg este că la un număr atât de mic de subiecți
eroarea standard a mărimii efectului este foarte ridicată. Ai un semnal slab și mult
zgomot. Spre deosebire de estimatul punctual, intervalul de încredere ne avertizează,
corect, că rezultatele obținute cu eșantioane atât de mici sunt foarte instabile.
Instabilitate care se poate observa ușor în Figura 1. Cum spunea și reputatul
metodolog Bruce Thomson: „Nu te îndrăgosti de estimatul tău punctual, cel puțin nu
atunci când eroarea standard este ridicată” (Thomson, 2006, p. 205).
Pentru a înțelege cât de departe de realitate este domnul David când afirmă că
strategia sa analitică este „prea conservatoare”, trebuie să ne uităm și la informațiile
prezentate în Tabelul 1. Coloanele dt ne arată mărimea medie a efectului observat
când luăm în calcul toate cele 1000 de simulări per eșantion, pentru fiecare mărime
reală a efectului în parte. Toate mediile au fost calculate ignorând direcția diferenței
observate dintre medii. Se observă că eșantioanele foarte mici produc un bias evident,
dar acesta se reduce treptat odată cu creșterea mărimii eșantioanelor, descreștere cu
atât mai accelerată cu cât efectul real este mai mare. Deci, cu câteva mici excepții,
dacă luăm în calcul toate observațiile, obținem o mărime a efectului apropiată de cea
reală.
Tabelul 1. Rezultatele simulărilor statistice pentru cele trei mărimi ale efectului la
nivelul populației: mărimea medie a efectului observat al tuturor simulărilor (d t);
mărimea medie a efectului observat al simulărilor semnificative (ds); procentajul
simulărilor semnificative (p<.05); procentajul simulărilor semnificative cu mărimea
observată a efectului mai mare de .35 (ds>.35).
Această situație se schimbă dramatic dacă ne uităm la coloanele ds, care redau
mărimea medie a efectului observat exclusiv în cazul diferențelor semnificative. Aici
constatăm că mărimea medie a efectului observat suferă de un bias inflaționist,
oferindu-ne o imagine exagerată față de mărimea reală a efectului. De pildă, chiar
dacă în simulările noastre mărimile reale ale efectelor au fost nule, mici sau mici spre
medii, comparațiile semnificative între eșantioane de 50 de subiecți au oferit mărimi
medii ale efectelor observate de aproximativ 0,50.
De ce se întâmplă acest lucru? Să revenim la analogia cu plasele de pescuit. Am văzut
deja că, la fel cum o plasa cu ochiuri rare va avea o rată scăzută a succesului în
capturarea unor pești mici și un eșantion redus va suferi de anemie statistică în
capturarea unui efect modest. Însă – și acest aspect este crucial –, când vom prinde
totuși pești mici, vom captura doar exemplarele cele mai mari, care se întâmplă să fie
mai mari decât ochiurile plasei noastre. În consecință, ne vom forma o impresie
deformată asupra dimensiunilor reale ale speciei respective. În cazul nostru, ochiurile
plasei sunt constituite tocmai de acele valori pe care domnul David le confunda cu
puterea statistică.
[1] Odgaard, E. C., & Fowler, R. L. (2010). Confidence intervals for effect sizes:
Compliance and clinical significance in the Journal of Consulting and Clinical
Psychology. Journal of Consulting and Clinical Psychology, 78, 287–297.
[2] Coyne, J.K., & Kok, R.N. (2014). Salvaging psychotherapy research: A
manifesto. Journal of Evidence-Based Psychotherapies, 14, 105-124.
[3] Cohen J. (1994). The earth is round (p < .05). American Psychologist 49, 997–
1003.
[4] Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.).
Hillsdale, NJ: Erlbaum.
[5] Kerr, N.L. (1998). HARKing: Hypothesizing after the results are
known. Personality and Social Psychology Review, 2, 196-217.
[6] Stroebe, W., Postmes, T. și Spears, R. (2012). Scientific Misconduct and the Myth
of Self-Correction in Science, Perspectives on Psychological Science, 7, 670–688.
[7] Open Science Collaboration (2015). Estimating the reproducibility of
psychological science, Science, 349, aac4716.
[8] LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology:
Bem’s (2011) evidence of psi as a case study of deficiencies in modal research
practice. Review of General Psychology, 15, 371–379.
[9] Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive
psychology: Undisclosed flexibility in data collection and analysis allows presenting
anything as significant. Psychological Science, 22, 1359–1366.
[10] Francis, G., Tanzman, J. și Matthews, W. J. (2014). Excess success for
psychology articles in the journal Science. PloS ONE, 9, e114255.
[11] Francis, G. (2014). The frequency of excess success for articles in Psychological
Science. Psychonomic Bulletin & Review, 21, 1180–1187.
[12] Fanelli, D. (2010b). ‘‘Positive’’ results increase down the hierarchy of the
sciences. PLoS ONE, 5, e10068.
[13] Richard, F. D., Bond, C. F., Jr., & Stokes-Zoota, J. J. (2003). One hundred years
of social psychology quantitatively described. Review of General Psychology, 7, 331–
363.
[14] Abelson, R. P. (1985). A variance explanation paradox: When a little is a
lot. Psychological Bulletin, 97, 128-132.
[15] Thompson, B. (2006). Foundations of Behavioral Statistics: An Insight-Based
Approach. New York, NY: Guilford.