Documente Academic
Documente Profesional
Documente Cultură
Este artculo ha obtenido el primer premio del concurso DIPC de divulgacin del evento
Ciencia Jot Down 2016
Hay afirmaciones que no solo son ciertas, sino que adems son poderosas. Una de mis
favoritas es, sin duda, correlacin no implica causalidad. En el mundo de los debates
pblicos, de las peleas en Twitter y los flamesen Mename siempre es til contar con
herramientas como esta. La frase en s viene a significar que el hecho de que dos eventos se
den habitualmente de manera consecutiva no implica que uno sea causa del otro. As,
cuando llueve es ms probable que truene, pero no es la lluvia la que causa los truenos.
Imagnate que por un giro del destino te ves envuelto en una discusin sobre, por ejemplo,
si el modelo de educacin fins es el ejemplo a seguir en Espaa. No tienes ni idea de
pedagoga, ni del modelo educativo espaol, ni del fins. Si fuera una discusin en un bar
no pasara nada, podras decir que no te interesa, pero es en internet y ya se sabe lo que eso
implica. En el cibermundo no vas a reconocer que no sabes de un tema. Tienes que discutir
y, an ms importante, tienes que ganar. Tu oponente dialctico est ms preparado que t.
Te bombardea con datos y estudios sobre el informe PISA, sobre los distintos mtodos
pedaggicos y sobre muchas otras cosas que no te interesan. Da igual, porque t ests
curtido en mil ciberbatallas y sabes como contraatacar. Esperas un momento de descuido de
tu oponente. Entonces te colocas bien el palillo que sujetas con los dientes y afirmas: Todo
eso est muy bien pero no demuestra nada, porque la correlacin no implica causalidad.
Ni siquiera importa si ests defendiendo el modelo fins o atacndolo. Cualquier dato que
se te haya dado ha quedado refutado. Correlacin no implica causalidad. El debate termina
y has ganado.
Pero tiene realmente este argumento una base slida? No lo dudes, cualquier persona con
conocimientos bsicos de estadstica te lo podr confirmar. En cualquier caso vamos a
indagar un poco ms para que sepas usarlo correctamente. Para eso nada mejor que usar un
par de ejemplos.
Veamos otro ejemplo. La pgina web Spurious Correlations se dedica a buscar en distintas
bases de datos correlaciones absurdas entre series de datos. Una de las ms populares es la
que aparece en la siguiente grfica, que representa a travs de los aos tanto el nmero de
ahogamientos en piscina producidos en los Estados Unidos como el nmero de pelculas
realizadas por Nicolas Cage.
Dado que es difcil de creer que la gente se ahogue por culpa de Nicolas Cage, o que los
piratas determinen la temperatura global, podemos concluir que estas correlaciones no
implican que una cosa sea la causa de la otra. Veamos entonces la explicacin cannica a
estas grficas. Que dos fenmenos se den a la vez, o que uno preceda al otro, no implica
que uno sea la causa del otro. Aunque observamos una correlacin entre A (pelculas de
Cage) y B (ahogamientos en piscina) eso no significa que las pelculas de Nicolas Cage
provoquen que la gente quiera morir de una manera agnica a la vez que refrescante.
Que A cause B (que los ahogamientos en piscinas hagan que el bueno de Nicolas
quiera hacer ms cine para animar a las familias).
Que B cause A (yo mismo estuve tentado de ahogarme despus de ver La bsqueda
2).
Que haya un tercer fenmeno, C, que provocara tanto A como B (es complicado
imaginar alguno, pero a lo mejor el Orden Mundial conspira para reducir la
poblacin humana tanto mediante el ahogamiento como mediante el aburrimiento).
Puro y duro azar. Hay muchos datos en el mundo, as que si los comparamos todos
ms tarde o ms temprano encontraremos este tipo de correlaciones que no
significan nada.
Este ltimo punto es el ms importante de todos, ya que no se puede demostrar que algo no
ha ocurrido por azar. As que por muchos datos que te pongan sobre la mesa t no lo dudes.
Ya tenemos una explicacin sencilla y todo encaja. Las correlaciones no tienen implicacin
ya que todo puede ser debido a la casualidad en lugar de a la causalidad. As que si alguien
nos dice que el sistema educativo fins es el mejor porque puntan muy alto en PISA,
podemos callarlo con un firme y convencido correlacin no implica causalidad.
Si algn alarmista viene a tocarnos las narices podemos usar el mismo argumento que
antes. Tenemos correlacin entre el comer yogur y el morir, as que tenemos cuatro
posibilidades:
La segunda y tercera posibilidad son bastante improbables. Es difcil de creer que las
muertes causen la ingesta de yogures o que exista un evento que provoque tanto el consumo
de yogures como la muerte de los que los consumen. Sin embargo, demostrar que no es
azar es difcil. La correlacin es clara, pero nadie ha demostrado an que los yogures estn
envenenados.
A estas alturas el avispado lector (o la avispada lectora) ya habr intuido que este artculo
no es una defensa a ultranza de la frasecita de las narices. Seamos serios. Por mucho que
estemos convencidos de que la correlacin no implica causalidad, si maana ocurre algo as
no nos lo plantearamos ni por un instante. Los yogures estn envenenados. No hay otra
posibilidad. Por supuesto que habr que analizarlos para ver qu ha ocurrido, pero mientras
tanto todos actuaremos guiados por la certeza de que algo ha pasado.
Y qu diferencia este caso del caso de los piratas o de las piscinas? Lo primero es el
sentido comn, que nos dice que es posible que unos yogures se envenenen, pero que es
mucho ms difcil que el noble oficio de la piratera afecte al clima. Lo segundo es la
correlacin en s. Tenemos que tener en cuenta que no todas las correlaciones son iguales y
que a partir de ellas podemos sacar muchas conclusiones. La correlacin no es una
magnitud dicotmica. No es algo que se tiene o no se tiene, es algo que puede ser muy
grande o muy pequeo.
Volviendo al escabroso ejemplo de los yogures. Adems de saber que hay una correlacin,
podemos estimar qu probabilidad hay de que ocurra algo as por casualidad. Imaginad que
vemos en la noticia que un 0,1% de la poblacin espaola consumi el citado yogur el da
en cuestin. Eso hace unos 460.000 espaoles muertos en un da. Este dato contrastara con
la mortalidad en todo el ao 2014, que fue de 395.830 personas (segn datos del INE). Ya,
el que ocurra algo as es absolutamente improbable. De hecho, es lo que se suele
denominar, estadsticamente imposible. Calcular la probabilidad de que esto ocurra requiere
hacer suposiciones sobre cmo se distribuye la mortalidad entre la poblacin, las edades de
los consumidores de yogur y otros parmetros. Una estimacin muy conservadora me da el
resultado de que la probabilidad es menor que una entre 10^25. Es ms probable encontrar
algo de principio activo en una disolucin homeoptica a que ocurra algo semejante por
pura casualidad. Por eso podemos concluir que algo ha ocurrido, aunque an no hayamos
analizado los yogures.
Y qu ocurre entonces con las piscinas y las pelculas de Nicolas Cage? Pues ocurre
simplemente que ah la correlacin no es tan grande. Ese es el quid de la cuestin y el
mensaje que me gustara que os quedase despus de leer este artculo. Correlacin no
implica causalidad, es cierto, pero hay correlaciones ms grandes que otras.Como ya hemos
dicho, la correlacin no es una magnitud binaria. No es tan simple como que exista o no
exista. Hay correlaciones pequeas como la de las pelculas de Cage, y hay correlaciones
muy grandes como la del macabro ejemplo del yogur. En el ejemplo de las piscinas, la
misma web que lo dio a conocer calcula la probabilidad de que sea azar, un 33,4%. Por
supuesto ah tambin hay suposiciones detrs, pero la manera de calcularlo es bastante
estndar. Es un 33,4% una probabilidad muy baja? Pues depender de para qu. Si
tenemos en cuenta que los autores de la web analizan cientos de miles de cadenas de datos,
lo improbable sera que no encontrasen ese tipo de correlaciones espurias. Simplemente
analizando el nmero de cadenas estudiadas y las correlaciones encontradas se puede
calcular la probabilidad de que sea puro azar o de que pueda tener una causa ms relevante.
Nadie duda de que la correlacin no implica causalidad. Cientficos de todos los campos
dedican cantidades ingentes de tiempo a repetir experimentos para distinguir correlaciones
importantes de correlaciones espurias. Incluso se ha observado que muchos experimentos
cientficos con grandes correlaciones tienen una probabilidad alta de ser puramente
casuales. Eso ocurre porque en el mundo se realizan muchos experimentos continuamente.
La probabilidad de que nunca se d una correlacin espuria es realmente baja y son
precisamente las correlaciones inesperadas las que ms interesan a la comunidad cientfica.
El nico remedio para evitar esto es la repeticin de los experimentos. Sin embargo, todo
esto no quiere decir que las correlaciones no tenga relevancia, o que no sean indicativas de
causalidad. Tenemos que saber distinguir entre correlaciones ms y menos probables.
Tenemos que analizar cada caso cuantitativamente y averiguar cul es la probabilidad de
que un evento sea aleatorio para saber si debemos indagar ms o no.