Sunteți pe pagina 1din 7

DeclaracindelaASAsobrelasignificacinestadsticaylosp

valores
5defebrerode2016

EditadoporRonaldL.Wasserstein,directorejecutivo

ennombredelaJuntaDirectivadelaAmericanStatisticalAssociation1

Introduccin

Durante los ltimos aos, el aumento de la cuantificacin en la investigacin cientfica y la


proliferacin de grandes y complejos conjuntos de datos han ampliado el alcance de las
aplicaciones de los mtodos estadsticos. Este hecho ha creado nuevas posibilidades para el
progreso cientfico, pero tambin ha trado cierta preocupacin sobre las conclusiones
obtenidas a partir de los datos. La validez de las conclusiones cientficas y la posibilidad de
reproducirlasnodependenicamente de los mtodosestadsticos en s mismos. Laeleccin
apropiadadelastcnicas,lacorreccindelosanlisisefectuadosylaadecuadainterpretacin
de los resultados estadsticos juegan tambin un papel esencial para garantizar conclusiones
slidasyparaasegurarquelaincertidumbrequelasrodeaestbienrepresentada.

Elfundamentodemuchasconclusionescientficaspublicadaseselconceptodesignificacin
estadstica, normalmente evaluada mediante un ndice denominado pvalor. Ahora bien, a
pesardequeelpvalorpuedeserunamedidaestadsticatil,amenudoseempleadeforma
incorrecta y tambin se malinterpreta. Esto ha llevado a que algunas revistas cientficas
disuadan de su uso y a que algunos cientficos y estadsticos recomienden su abandono,
basndose en argumentos que esencialmente son los mismos desde que el pvalor se
introdujoporprimeravez.

En este contexto, la American Statistical Association (ASA) cree que la comunidad cientfica
podra beneficiarse de una declaracin formal que aclare algunos principios que son
ampliamente aceptados y estn implcitos en la correcta utilizacin e interpretacin del p
valor. Los aspectos considerados aqu no slo afectan a la investigacin, sino tambin a su
financiacin,alasprcticasdelasrevistas,alprogresoprofesional,alaeducacincientfica,a
laspolticaspblicas,alperiodismoyalderecho.Estadeclaracinnopretenderesolvertodas
las cuestiones relacionadas con las buenas prcticas estadsticas, ni tampoco resolver las
controversiasfundamentales.Msbienpresentaentrminosnotcnicosunabreveseleccin
deprincipiosquepodranmejorarlaprcticaylainterpretacindelacienciacuantitativa,de
acuerdoconunconsensoamplioalcanzadoenlacomunidadestadstica.

Queselpvalor?

Expresado de forma sencilla, un pvalor es la probabilidad, bajo un modelo estadstico


especificado, de que un estadstico que sintetiza alguna caracterstica de los datos (por

1RonaldL.Wasserstein&NicoleA.Lazar(2016):TheASAsstatementonpvalues:context,process,andpurpose.

ReimpresoconelpermisodeTheAmericanStatistician.Copyright2016porTheAmericanStatisticalAssociation.
Todoslosderechosreservados.

ejemplo,ladiferenciadelasmediasalcomparardosgrupos)seaigualomsextremoquesu
valorobservado.

Principios

1. Lospvalorespuedenindicarhastaqupuntosonincompatibleslosdatosconunmodelo
estadsticoespecificado

Un pvalor proporciona un mtodo para resumir la incompatibilidad entre un conjunto


particulardedatosyunmodelopropuestoparaellos.Elcontextomscomnesqueel
modelo est construido bajo un conjunto de premisas, adems de la denominada
hiptesisnula.Amenudolahiptesisnulapostulalaausenciadeunefecto,comopor
ejemplo que no haya diferencias entre dos grupos, o la ausencia de relacin entre un
factoryunresultado.Cuantomspequeoseaelpvalormayorserlaincompatibilidad
estadsticadelosdatosconlahiptesisnula,silossupuestosrealizadosparacalcularelp
valor se mantienen. Esta incompatibilidad equivale a poner en entredicho la hiptesis
nula,oaproporcionarevidenciacontralossupuestosconsiderados.

2. Lospvaloresnomidenlaprobabilidaddequelahiptesisestudiadaseaverdadera,ola
probabilidaddequelosdatoshayansidoproducidassloporelazar

Los investigadores a menudo pretenden convertir el pvalor en una afirmacin sobre la


certezade una hiptesis nula,o sobrelaprobabilidad deque elazarhaya generadolos
datosobservados.Elpvalornoesniunacosanilaotra.Esunaafirmacinsobrelosdatos
en relacin con una explicacin hipottica especificada, no una afirmacin sobre la
explicacinensmisma.

3. Lasconclusionescientficasylasdecisionesempresarialesopolticasnosedeberanbasar
nicamenteenelhechodequeelpvalorsobrepaseunumbralespecfico

Lasprcticasquereducenelanlisisdelosdatosolainferenciacientficaalaaplicacin
mecnica de reglas rgidas para justificar afirmaciones cientficas (cmo, por ejemplo,
p<0,05) pueden originar conclusiones errneas, o una mala toma de decisiones. Una
conclusin no se transforma de repente de cierta por un lado a falsa por otro. Los
investigadores deben considerar que para establecer una inferencia estadstica hay
muchos factores en juego que la contextualizan incluidos el diseo del estudio, la
calidaddelasmedidas,laevidenciaexternasobreelfenmenoenestudioylavalidacin
delossupuestossubyacentesbajoelanlisisdelosdatos.Porconsideracionesdeorden
prcticoamenudoesnecesariotomardecisionesbinarias(deltiposino),peroestono
significa que los pvalores aisladamente considerados puedan garantizar la correccin o
incorreccindeunadecisin.Elusogeneralizadodelconceptosignificacinestadstica
(generalmente interpretado como p0,05) para legitimar la reclamacin de un
descubrimiento cientfico (o de la verdad que est implcita) produce a una distorsin
considerabledelprocesocientfico.

4. Realizarunainferenciaapropiadarequiereuninformecompletoytransparencia

Los pvalores y los anlisis relacionados no se deben presentar selectivamente. Realizar


diversosanlisisdelosdatoseinformarslodeaquellosquelogranundeterminadonivel
delpvalor(normalmente,aquellosquepasanunumbraldesignificacin)imposibilitala
interpretacin de los pvalores publicados. La seleccin de hallazgos prometedores, una
costumbre tambin conocida con trminos como dragado de datos, bsqueda y hasta
persecucindelasignificacin,inferenciaselectivaomanipulacindepvalores,produce
un exceso distorsionado de resultados estadsticamente significativos en la literatura
publicada, que deberan ser firmemente evitados. Calcular por costumbre mltiples
contrastesestadsticospresentaelinconvenientequecadavezqueuninvestigadorelige
quconclusionespresentaenbaseaunosresultadosestadsticos,lainterpretacinvlida
de los resultados queda severamente comprometida si el lector no sabe que ha habido
unaeleccinyculhasidosufundamento.Losinvestigadoresdeberanexplicarculha
sido el nmero total de hiptesis exploradas durante el estudio, cules han sido las
decisionesenlarecogidade losdatos,quanlisis estadsticossehanllevadoacabo, y
tambin debera proporcionar todos los pvalores calculados. No se pueden obtener
conclusionescientficasvlidasbasadasenlospvaloresyenlosestadsticosasociadossin
tener conocimiento al menos de qu anlisis se han llevado a cabo, y de cmo se
seleccionaronlosquesepresentaron(incluyendolospvalores).

5. Unpvalor,olasignificacinestadstica,nomideeltamaodeunefectoolaimportancia
deunresultado

La significacin estadstica no es equivalente a la significacin cientfica, humana o


econmica. Unos pvalores menores que otros no implicannecesariamente lapresencia
de efectos mayores o ms importantes, ni pvalores mayores implican carencia de
importancia,nisiquieralaausenciadeefecto.Cualquierefecto,noimportacmoseade
pequeo,puedeproducirunpvalorpequeosieltamaodelamuestraolaprecisinde
la medida son lo bastante altos, y los efectos grandes pueden producir pvalores muy
grandes si el tamao de la muestra es muy pequeo o las medidas son imprecisas. Del
mismomodo,efectosestimadosidnticostendrndiferentespvaloressilaprecisinde
laestimacindifiere.

6. Porsmismo,unpvalornoproporcionaunabuenamedidadelaevidenciaenrelacincon
unmodeloounahiptesis

Los investigadores deberan admitir que un pvalor descontextualizado, aislado de otras


evidencias,proporcionaunainformacinlimitada.Porejemplo,unpvalorcercanoa0,05
tomado por s solo ofrece una evidencia muy dbil contra la hiptesis nula. Del mismo
modo, un pvalor relativamente grande no implica ninguna evidencia a favor de la
hiptesisnula,puestoqueotrasmuchashiptesispodransertanconsistentescomoella
con los datos observados, o incluso ms. Por estas razones, el anlisis de datos no se
debera detener en el clculo del pvalor, si hay otras aproximaciones apropiadas y
factibles.

Otrasaproximaciones

Envistadelosfrecuentesmalosusosydelosmalentendidosrelativosalospvalores,algunos
estadsticosprefierencomplementar,oinclusosustituir,elpvalorporotrosprocedimientos.
Hay mtodosque enfatizanlaestimacinpor encimadelmeroponeraprueba ycontrastar,
tales como los intervalos de confianza, de credibilidad o de prediccin. Tambin se puede
recurriramtodosbayesianos,oamedidasalternativasdelaevidencia,comoporejemplola
pruebadelarazndeverosimilitudolosfactoresdeBayes.Yhaymsposibilidades,comoson
losmodelosdelateoradetomadedecisiones,olatasadefalsosdescubrimientos.Aunque
todasestasmedidasyenfoquessebasanensupuestosadicionales,podranabordardeforma
ms directa el tamao de un efecto (y su incertidumbre asociada), o la comprobacin de la
validezdeunahiptesis.

Conclusin

Las buenas prcticas estadsticas, como componente esencial del buen quehacer cientfico,
enfatizan los principios de dirigir y llevar a cabo un buen diseo de los estudios y una
realizacin adecuada, de aportar una variedad de resmenes numricos y grficos de los
datos,deentenderelfenmenoqueseestestudiando,deinterpretarlosresultadosdentro
de su contexto, de proporcionar una informacin ntegra, y de comprender de forma
adecuada,tantolgicacomocuantitativa,aquelloquesignifiquenlosresmenesdedatos.Un
ndiceniconodeberasustituirelrazonamientocientfico.

Agradecimiento: la Junta Directiva de la ASA agradece a las siguientes personas haber


compartidosuexperienciaysuspuntosdevistadurantelapreparacindeestemanifiesto.El
textonoreflejanecesariamenteelpuntodevistadetodasestaspersonas.Dehecho,algunas
mantienen opiniones contrarias a las contenidas en la declaracin (totalmente o slo en
parte). Ahora bien, les agradecemos enormemente sus contribuciones. Naomi Altman, Jim
Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian,
Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Greenland, Guido Imbens, John
Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck
McCulloch,MicheleMillar,SallyMorton,ReginaNuzzo,HilaryParker,KennethRothman,Don
Rubin,StephenSenn,UriSimonsohn,DaleneStangl,PhilipStark,SteveZiliak.
Brevelistadereferenciassobreelpvalorylasignificacin
estadstica,
paraacompaarlaDeclaracindelaASAsobrelasignificacinestadsticaylospvalores

La siguiente lista no es exhaustiva, pero proporciona un buen punto de partida para las
personas que deseen explorar con mayor detenimiento las cuestiones contenidas en la
DeclaracindelaASAsobrelasignificacinestadsticaylospvalores.Losartculosaparecen
enordenalfabtico:

Altman D.G., Bland J.M. (1995), Absence of evidence is not evidence of absence, British
MedicalJournal,311:485

Altman,D.G.,Machin,D.,Bryant,T.N.,andGardner,M.J.,eds.(2000),Statisticswith
Confidence,2nded.,London:BMJBooks

Berger, J.O., and Delampady, M. (1987), "Testing precise hypotheses, Statistical Science,
2,317335

Berry,D.(2012),MultiplicitiesinCancerResearch:UbiquitousandNecessaryEvils,Journalof
theNationalCancerInstitute,104,11241132

Christensen,R.(2005),TestingFisher,Neyman,Pearson,andBayes,TheAmerican
Statistician,59,2,121126

Cox, D.R. (1982), Statistical Significance Tests, British Journal of Clinical Pharmacology, 14,
325331

Edwards,W.,Lindman,H.,andSavage,L.J.(1963),"Bayesianstatisticalinferencefor
psychologicalresearch,PsychologicalReview,70,193242

Gelman,A.,andLoken,E.(2014),TheStatisticalCrisisinScience[online]AmericanScientist,
102.Availableathttp://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis
inscience

Gelman A, Stern HS. (2006), The difference between significant and not significant is not
itselfstatisticallysignificant,TheAmericanStatistician,60:328331

GigerenzerG(2004),Mindlessstatistics,JournalofSocioeconomics,33:567606

Goodman, S.N. (1999a), Toward EvidenceBased Medical Statistics 1: The P Value


Fallacy,AnnalsofInternalMedicine,130,9951004

____________ (1999b), Toward EvidenceBased Medical Statistics. 2: The Bayes


Factor,AnnalsofInternalMedicine,130,10051013

____________ (2008), A Dirty Dozen: Twelve PValue Misconceptions, Seminars in


Hematology,45,135140

Greenland,S.(2011),Nullmisinterpretationinstatisticaltestinganditsimpactonhealthrisk
assessment,PreventiveMedicine,53,225228

___________(2012).Nonsignificanceplushighpowerdoesnotimplysupportforthenullover
thealternative.AnnalsofEpidemiology,22:364368

Greenland,S.,andPooleC(2011),Problemsincommoninterpretationsofstatisticsin
scientificarticles,expertreports,andtestimony,Jurimetrics,51,113129

Hoenig J.M., and Heisey D.M. (2001). The abuse of power: The pervasive fallacy of power
calculationsfordataanalysis.TheAmericanStatistician,55:1924

Ioannidis,J.P.(2005),Contradictedandinitiallystrongereffectsinhighlycitedclinical
research.JournaloftheAmericanMedicalAssociation,294,218228

___________(2008),Whymostdiscoveredtrueassociationsareinflated (withdiscussion),
Epidemiology19:640658

Johnson,V.E.(2013),Revisedstandardsforstatisticalevidence,ProceedingsoftheNational
AcademyofSciences,110(48),1931319317

__________(2013),"UniformlymostpowerfulBayesiantests,AnnalsofStatistics,41,1716
1741

Lang, J., Rothman K.J., and Cann, C.I. (1998), That confounded Pvalue. (Editorial),
Epidemiology,9,78

Lavine, M. (1999), What is Bayesian Statistics and Why Everything Else is Wrong, UMAP
Journal,20:2

Lew,M.J.(2012),Badstatisticalpracticeinpharmacology(andotherbasicbiomedical
disciplines):youprobablydon'tknowP,BritishJournalofPharmacology,166:5,15591567

Phillips,C.V.(2004),Publicationbiasinsitu,BMCMedicalResearchMethodology,4:20

PooleC.(1987),Beyondtheconfidenceinterval,AmericanJournalofPublicHealth,77,195
199

Poole, C. (2001). Low Pvalues or narrow confidence intervals: Which are more durable?
Epidemiology,12,291294

Rothman, K.J. (1978), A show of confidence (Editorial), New England Journal of Medicine,
299,13621363

___________(1986),Significancequesting(Editorial),AnnalsofInternalMedicine,105,445
447

___________(2010),CurbingtypeIandtypeIIerrors,EuropeanJournalofEpidemiology,25,
223224

Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,andStellman,S.(1992),AmicusCuriaebrief
for the U. S. Supreme Court, Daubert v. Merrell Dow Pharmaceuticals, Petition for Writ of
Certiorari to the United States Court of Appeals for the Ninth Circuit, No. 92102, October
Term,1992

Rozeboom, W.M. (1960), The fallacy of the nullhypothesis significance test, Psychological
Bulletin,57:416428

Schervish, M.J. (1996), P Values: What They Are and What They Are Not, The American
Statistician,50:3,203206

Simmons,J.P.,Nelson,L.D.,andSimonsohn,U.(2011),FalsePositivePsychology:Undisclosed
Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant,
PsychologicalScience,22(11),13591366

Stang, A., and Rothman, K.J. (2011), That confounded Pvalue revisited, Journal of Clinical
Epidemiology,64(9),10471048

Stang,A.,Poole,C.,andKuss,O.(2010),Theongoingtyrannyofstatisticalsignificancetesting
inbiomedicalresearch,EuropeanJournalofEpidemiology,25(4),22530

Sterne,J.A.C.(2002)."Teachinghypothesisteststimeforsignificantchange?"Statisticsin
Medicine,21,985994

Sterne,J.A.C.andG.D.Smith(2001)."Siftingtheevidencewhat'swrongwithsignificance
tests?"BritishMedicalJournal,322,226231

Ziliak, S.T. (2010), "The Validus Medicus and a New Gold Standard, The Lancet, 376, 9738,
324325

Ziliak,S.T.,andMcCloskey,D.N.(2008),TheCultofStatisticalSignificance:HowtheStandard
ErrorCostsUsJobs,Justice,andLives,AnnArbor:UniversityofMichiganPress

S-ar putea să vă placă și