Sunteți pe pagina 1din 6

"Correlacin no implica causalidad" de Daniel Manzano.

"Correlacin no implica causalidad" de Daniel Manzano.

Este artculo ha obtenido el primer premio del concurso DIPC de divulgacin del evento
Ciencia Jot Down 2016
Hay afirmaciones que no solo son ciertas, sino que adems son poderosas. Una de mis
favoritas es, sin duda, correlacin no implica causalidad. En el mundo de los debates
pblicos, de las peleas en Twitter y los flamesen Mename siempre es til contar con
herramientas como esta. La frase en s viene a significar que el hecho de que dos eventos se
den habitualmente de manera consecutiva no implica que uno sea causa del otro. As,
cuando llueve es ms probable que truene, pero no es la lluvia la que causa los truenos.

Imagnate que por un giro del destino te ves envuelto en una discusin sobre, por ejemplo,
si el modelo de educacin fins es el ejemplo a seguir en Espaa. No tienes ni idea de
pedagoga, ni del modelo educativo espaol, ni del fins. Si fuera una discusin en un bar
no pasara nada, podras decir que no te interesa, pero es en internet y ya se sabe lo que eso
implica. En el cibermundo no vas a reconocer que no sabes de un tema. Tienes que discutir
y, an ms importante, tienes que ganar. Tu oponente dialctico est ms preparado que t.
Te bombardea con datos y estudios sobre el informe PISA, sobre los distintos mtodos
pedaggicos y sobre muchas otras cosas que no te interesan. Da igual, porque t ests
curtido en mil ciberbatallas y sabes como contraatacar. Esperas un momento de descuido de
tu oponente. Entonces te colocas bien el palillo que sujetas con los dientes y afirmas: Todo
eso est muy bien pero no demuestra nada, porque la correlacin no implica causalidad.
Ni siquiera importa si ests defendiendo el modelo fins o atacndolo. Cualquier dato que
se te haya dado ha quedado refutado. Correlacin no implica causalidad. El debate termina
y has ganado.

Pero tiene realmente este argumento una base slida? No lo dudes, cualquier persona con
conocimientos bsicos de estadstica te lo podr confirmar. En cualquier caso vamos a
indagar un poco ms para que sepas usarlo correctamente. Para eso nada mejor que usar un
par de ejemplos.

El ejemplo ms clsico es el de los piratas y el calentamiento global. Este se basa en un


estudio desarrollado nada menos que por Bobby Henderson, el creador de la Iglesia
pastafari. Su intencin era combatir los argumentos de los creacionistas, un grupo muy
dado a encontrar correlaciones donde no las hay y a concluir que hay una causa detrs.
Casualmente la causa que siempre encuentran es la misma, Dios, causa que, de nuevo
casualmente, coincide con lo que estaban intentando demostrar a priori. Para ilustrar el
hecho de que el que dos fenmenos se den al mismo tiempo no implica que uno cause el
otro. Henderson represent la temperatura global de la Tierra en funcin del nmero de
piratas en el mundo.
Claramente se aprecia que, a medida que el nmero de piratas se ha reducido, la
temperatura de la atmsfera ha aumentado. Segn los argumentos de los creacionistas, y
otros grupos favorables a encontrar causas donde no las hay, esto significara que la escasez
de piratas es la verdadera causa del calentamiento global. No hay otra explicacin. Por este
motivo los seguidores de la religin de Henderson se disfrazan de piratas en el momento
del culto, para combatir as el cambio climtico.

Veamos otro ejemplo. La pgina web Spurious Correlations se dedica a buscar en distintas
bases de datos correlaciones absurdas entre series de datos. Una de las ms populares es la
que aparece en la siguiente grfica, que representa a travs de los aos tanto el nmero de
ahogamientos en piscina producidos en los Estados Unidos como el nmero de pelculas
realizadas por Nicolas Cage.

La correlacin es clara. Cuantas ms pelculas hace el bueno de Nicolas ms gente muere


ahogada. Lo mejor ser que el pobre se retire y as ahorrar sufrimiento al mundo.

Dado que es difcil de creer que la gente se ahogue por culpa de Nicolas Cage, o que los
piratas determinen la temperatura global, podemos concluir que estas correlaciones no
implican que una cosa sea la causa de la otra. Veamos entonces la explicacin cannica a
estas grficas. Que dos fenmenos se den a la vez, o que uno preceda al otro, no implica
que uno sea la causa del otro. Aunque observamos una correlacin entre A (pelculas de
Cage) y B (ahogamientos en piscina) eso no significa que las pelculas de Nicolas Cage
provoquen que la gente quiera morir de una manera agnica a la vez que refrescante.

Y, si no es A la causa de B, por qu se dan los dos fenmenos a la vez de forma repetida?


Bueno, en general, si hay una fuerte correlacin entre los fenmenos A y B, tenemos cuatro
posibilidades:

Que A cause B (que los ahogamientos en piscinas hagan que el bueno de Nicolas
quiera hacer ms cine para animar a las familias).
Que B cause A (yo mismo estuve tentado de ahogarme despus de ver La bsqueda
2).
Que haya un tercer fenmeno, C, que provocara tanto A como B (es complicado
imaginar alguno, pero a lo mejor el Orden Mundial conspira para reducir la
poblacin humana tanto mediante el ahogamiento como mediante el aburrimiento).
Puro y duro azar. Hay muchos datos en el mundo, as que si los comparamos todos
ms tarde o ms temprano encontraremos este tipo de correlaciones que no
significan nada.

Este ltimo punto es el ms importante de todos, ya que no se puede demostrar que algo no
ha ocurrido por azar. As que por muchos datos que te pongan sobre la mesa t no lo dudes.
Ya tenemos una explicacin sencilla y todo encaja. Las correlaciones no tienen implicacin
ya que todo puede ser debido a la casualidad en lugar de a la causalidad. As que si alguien
nos dice que el sistema educativo fins es el mejor porque puntan muy alto en PISA,
podemos callarlo con un firme y convencido correlacin no implica causalidad.

Ya tenemos un arma dialctica precisa y afinada, e incluso podemos ir ms all. Si maana


nos levantamos y leemos la siguiente noticia en el peridico, no nos pasar nada.
Es evidente que ni las autoridades sanitarias ni el redactor del artculo tienen mucha idea de
matemticas. Nosotros, que estamos armados con un conocimiento todopoderoso, sabemos
que no hay de qu preocuparse. La correlacin no implica causalidad. Lo mismo son los
yogures o lo mismo no lo son. Lo mejor ser comprar esa marca aprovechando la bajada de
precios. Est claro que tenemos un caso de una fuerte correlacin. Todo el mundo que
comi tal yogur muri. Mientras tanto, el resto de personas murieron a un ritmo normal. La
correlacin est fuera de duda.

Si algn alarmista viene a tocarnos las narices podemos usar el mismo argumento que
antes. Tenemos correlacin entre el comer yogur y el morir, as que tenemos cuatro
posibilidades:

Los yogures son los causantes de la muerte de las personas.


La muerte de las personas es causante de que se comiera antes el yogur.
Hay un fenmeno que es causa a la vez de las muertes y de que la gente coma
yogures.
Es una simple casualidad. La gente muere, la gente come yogures, qu le vamos a
hacer?

La segunda y tercera posibilidad son bastante improbables. Es difcil de creer que las
muertes causen la ingesta de yogures o que exista un evento que provoque tanto el consumo
de yogures como la muerte de los que los consumen. Sin embargo, demostrar que no es
azar es difcil. La correlacin es clara, pero nadie ha demostrado an que los yogures estn
envenenados.

A estas alturas el avispado lector (o la avispada lectora) ya habr intuido que este artculo
no es una defensa a ultranza de la frasecita de las narices. Seamos serios. Por mucho que
estemos convencidos de que la correlacin no implica causalidad, si maana ocurre algo as
no nos lo plantearamos ni por un instante. Los yogures estn envenenados. No hay otra
posibilidad. Por supuesto que habr que analizarlos para ver qu ha ocurrido, pero mientras
tanto todos actuaremos guiados por la certeza de que algo ha pasado.

Y qu diferencia este caso del caso de los piratas o de las piscinas? Lo primero es el
sentido comn, que nos dice que es posible que unos yogures se envenenen, pero que es
mucho ms difcil que el noble oficio de la piratera afecte al clima. Lo segundo es la
correlacin en s. Tenemos que tener en cuenta que no todas las correlaciones son iguales y
que a partir de ellas podemos sacar muchas conclusiones. La correlacin no es una
magnitud dicotmica. No es algo que se tiene o no se tiene, es algo que puede ser muy
grande o muy pequeo.

Volviendo al escabroso ejemplo de los yogures. Adems de saber que hay una correlacin,
podemos estimar qu probabilidad hay de que ocurra algo as por casualidad. Imaginad que
vemos en la noticia que un 0,1% de la poblacin espaola consumi el citado yogur el da
en cuestin. Eso hace unos 460.000 espaoles muertos en un da. Este dato contrastara con
la mortalidad en todo el ao 2014, que fue de 395.830 personas (segn datos del INE). Ya,
el que ocurra algo as es absolutamente improbable. De hecho, es lo que se suele
denominar, estadsticamente imposible. Calcular la probabilidad de que esto ocurra requiere
hacer suposiciones sobre cmo se distribuye la mortalidad entre la poblacin, las edades de
los consumidores de yogur y otros parmetros. Una estimacin muy conservadora me da el
resultado de que la probabilidad es menor que una entre 10^25. Es ms probable encontrar
algo de principio activo en una disolucin homeoptica a que ocurra algo semejante por
pura casualidad. Por eso podemos concluir que algo ha ocurrido, aunque an no hayamos
analizado los yogures.

Y qu ocurre entonces con las piscinas y las pelculas de Nicolas Cage? Pues ocurre
simplemente que ah la correlacin no es tan grande. Ese es el quid de la cuestin y el
mensaje que me gustara que os quedase despus de leer este artculo. Correlacin no
implica causalidad, es cierto, pero hay correlaciones ms grandes que otras.Como ya hemos
dicho, la correlacin no es una magnitud binaria. No es tan simple como que exista o no
exista. Hay correlaciones pequeas como la de las pelculas de Cage, y hay correlaciones
muy grandes como la del macabro ejemplo del yogur. En el ejemplo de las piscinas, la
misma web que lo dio a conocer calcula la probabilidad de que sea azar, un 33,4%. Por
supuesto ah tambin hay suposiciones detrs, pero la manera de calcularlo es bastante
estndar. Es un 33,4% una probabilidad muy baja? Pues depender de para qu. Si
tenemos en cuenta que los autores de la web analizan cientos de miles de cadenas de datos,
lo improbable sera que no encontrasen ese tipo de correlaciones espurias. Simplemente
analizando el nmero de cadenas estudiadas y las correlaciones encontradas se puede
calcular la probabilidad de que sea puro azar o de que pueda tener una causa ms relevante.

A esto precisamente se dedican algunos analistas especializados en big data. Analizan


cantidades ingentes de datos y buscan correlaciones que nadie espera. Despus, se dedican
a analizar la probabilidad de que sea azar o no, y si no parece serlo lo analizan con ms
profundidad. Puede que dos eventos en apariencia desconectados tengan una relacin
causal demasiado difcil de apreciar a simple vista. Si encuentras este tipo de correlaciones,
puedes llegar a ganar mucho dinero al ser capaz de predecir movimientos de los mercados
que nadie ms puede ver.

Nadie duda de que la correlacin no implica causalidad. Cientficos de todos los campos
dedican cantidades ingentes de tiempo a repetir experimentos para distinguir correlaciones
importantes de correlaciones espurias. Incluso se ha observado que muchos experimentos
cientficos con grandes correlaciones tienen una probabilidad alta de ser puramente
casuales. Eso ocurre porque en el mundo se realizan muchos experimentos continuamente.
La probabilidad de que nunca se d una correlacin espuria es realmente baja y son
precisamente las correlaciones inesperadas las que ms interesan a la comunidad cientfica.
El nico remedio para evitar esto es la repeticin de los experimentos. Sin embargo, todo
esto no quiere decir que las correlaciones no tenga relevancia, o que no sean indicativas de
causalidad. Tenemos que saber distinguir entre correlaciones ms y menos probables.
Tenemos que analizar cada caso cuantitativamente y averiguar cul es la probabilidad de
que un evento sea aleatorio para saber si debemos indagar ms o no.

Si nos molestamos en mirar los datos antes de aceptarlos o desecharlos, aumentaremos


nuestro conocimiento del mundo. Si nos limitamos a desdear los datos que contradigan
nuestras ideas preconcebidas con una frase hecha, a lo ms que podemos aspirar es a ser el
ms listo de Mename. Lo primero es deseable. Lo segundo no es algo que uno deba incluir
en su currculum.

S-ar putea să vă placă și