Sunteți pe pagina 1din 21

CURS 11-12

Corelaţia
Introducere
 
1. Relaţia de dependenţă

Fie o mulţime de caractere cantitative X şi Y care descriu aceeaşi mulţime de unităţi. Se


spune că există o relaţie între X şi Y dacă atribuirea modalităţilor lui X şi ale lui Y nu se fac
la întâmplare, adică dacă valorile lui X depind de valorile lui Y sau dacă valorile lui Y depind
de valorile lui X. A spune că Y depinde de X înseamnă că dacă se cunosc valorile lui X atunci
se pot prezice într-o anumită măsură valorile lui Y. Altfel spus, dacă Y depinde de X se
poate găsi o funcţie f încât : Y = f(X)
 
Exemplu : există o relaţie între temperatură şi altitudine. Dependenţa dintre temperatură şi
altitudine este exprimată de relaţia:
Tz = -0.6*Z + T0
unde
Tz : temperatura la altitudinea z
Z : altitudinea în sute de metri
T0 : temperatura la nivelul mării.
 
Noţiunea de dependenţă nu este simetrică :

Când se scrie Y=f(X), se postulează că Y este variabila dependentă (de explicat) şi că X este
independentă (explicativă). Aceasta înseamnă că valorile lui X permit estimarea valorilor lui X însă
nu este sigur că şi reciproca este valabilă.

Exemplu: Teoria optimului mărimii oraşelor


 
Costul mediu al
serviciilor către
locuitori
(Y)

Mărimea oraşelor (X)

Conform acestei teorii, ar exista o mărime optimă a oraşelor, care ar minimiza costurile de
echipare: oraşele prea mici nu permit realizarea economiilor de proporţie iar oraşele prea mari
antrenează supracosturi legate de saturarea reţelelor şi de durata deplasărilor cotidiene.
Dacă această teorie este adevărată, se poate demonstra că costurile depind de mărime
(cunoaşterea lui X permite prezicerea valorilor lui Y).
În schimb, mărimea oraşelor nu depinde de costuri (costurile mari pot să corespundă fie oraşelor
mari, fie celor mici: cunoaşterea costurilor nu permite estimarea mărimii.
2. Tipurile de relaţii dintre două caractere cantitative
 
Înainte de orice măsură a corelaţiei cu ajutorul coeficienţilor specifici, este necesară definirea
formei acestei eventuale relaţii dintre două caractere cu ajutorul unei reprezentări grafice
apropriate. Acest lucru este necesar deoarece ipotezele statistice şi instrumentele de măsură
a corelaţiei depind de forma relaţiei.
 
2.1. Diagrama de corelaţie
 
Pentru a şti dacă există sau nu o relaţie între două caractere, se construieşte o diagramă de
corelaţie, adică un grafic care pune în relaţie modalităţile lui X cu modalităţile lui Y. Fiecare
element i este reprezentat de un punct de coordonate (Xi,Yi). Mulţimea punctelor formează
un nor de puncte a cărui formă permite caracterizarea relaţiei cu ajutorul a trei criterii:
 
- intensitatea relaţiei

- forma relaţiei

- sensul relaţiei
absenţa relaţiei
a) Intensitatea relaţiei
 
O relaţie este nulă dacă valorile lui X nu permit în nici un fel prezicerea
valorilor lui Y, caz în care norul de puncte are forma unui pătrat, a unui
cerc, a unui „cartof”, fără vreo linie directoare.

relaţie slabă

O relaţie este slabă/moderată dacă unităţile care au valori vecine pe X pot


să corespundă unor valori foarte diferite pe Y şi atunci norul de puncte nu
mai are forma unei linii sau a unei curbe.

relaţie puternică

O relaţie este puternică dacă unităţile care au valori vecine pe X au de


asemenea valori vecine pe Y, adică dacă se urmează următoarea relaţie:
 Xi apropiat de Xj => Yi apropiat de Yj,
Caz în care norul de puncte ia forma unei linii sau a unei curbe de la care
punctele se îndepărtează foarte puţin. 
relaţie liniară
(mereu monotonă)
 
b) Forma relaţiei

O relaţie este liniară dacă se poate găsi o relaţie între X şi Y de forma


Y=aX+b, adică dacă norul de puncte se poate ajusta corect pe o dreaptă.
 

relaţie non liniară


şi monotonă

O relaţie este non liniară dacă relaţia dintre X şi Y nu este de forma Y=aX+b,
ci de tip diferit (parabolă, hiperbolă, sinusoidă, etc). În aceste cazuri norul de
puncte prezintă o formă complexă, cu curburi. O relaţie non liniară este
monotonă dacă ea este strict crescătoare sau strict descrescătoare, adică
dacă nu prezinte minime sau maxime. Toate relaţiile liniare sunt monotone.

relaţie non liniară


şi non monotonă
c) Sensul relaţiei
 
O relaţie monotonă (liniară sau nu) este pozitivă
dacă cele două caractere variază în acelaşi sens,
adică dacă se observă că în general: Xi  > Xj => Yi > Yj

- valorile mari ale lui X corespund în general valorilor


mari ale lui Y
- valorile medii ale lui X corespund în general
valorilor medii ale lui Y
- valorile mici ale lui X corespund în general valorilor
mici ale lui Y
relaţie liniară pozitivă relaţie liniară negativă  
O relaţie monotonă este negativă dacă cele două
caractere variază în sens invers, adică dacă se
observă că în general:
 Xi  > Xj => Yi < Yj
 
- valorile mari ale lui X corespund în general valorilor
mici ale lui Y
- valorile medii ale lui X corespund în general
valorilor medii ale lui Y
relaţie non liniară pozitivă relaţie non liniară negativă - valorile mici ale lui X corespund în general valorilor
mari ale lui Y
3. Calculul coeficienţilor de corelaţie Tabelul 1 : Mărimea numărului de la pantofi (X)
şi coeficientul intelectual (Y) a 10 copii de vârstă şcolară
(date fictive)
Coeficienţii de corelaţie permit găsirea
unei măsuri sintetice a intensităţii relaţiei copilul X Y
dintre două caractere precum şi a sensului A 31 50
său atunci când relaţia este monotonă. B 31 55
C 32 52
Coeficientul de corelaţie Pearson permite
D 33 56
analiza relaţiilor liniare iar coeficientul de
E 33 63
corelaţie Spearman a relaţiilor non liniare
F 34 65
monotone. Există bineînţeles şi coeficienţi G 35 69
pentru relaţii non liniare şi non monotone, H 36 90
însă ei nu fac obiectul acestui curs. I 37 110
  J 38 150
Pentru a ilustra utilizarea coeficienţilor de media 34 76
corelaţie vom pleca de la exemplul fictiv al ecartul-tip 2.4 32
unui studiu psihosociologic care îşi
propune să cerceteze dacă există vreo Dacă se examinează existenţa unei relaţii între capacitatea de a citi
relaţie între numerele de la pantofi şi şi numărul de la pantofi se pot obţine 4 răspunsuri posibile:
1. - cu cât mărimea piciorului este mai mare, cu atât capacitatea de a
inteligenţa copiilor. Plecându-se de la un silabisi este mai importantă (RELAŢIE POZITIVĂ)
eşantion de 10 copii (notaţi A, B, ...J) se va 2. - cu cât mărimea piciorului este mai mare, cu atât capacitatea de a
examina dacă există o corelaţie, liniară sau silabisi este mai redusă (RELAŢIE NEGATIVĂ)
3. -mărimea picioarelor este legată de coeficientul intelectual printr-o
nu, între mărimea numărului de la pantofi relaţie complexă comportând cel puţin un minim şi un maxim
(X) şi coeficientul lor intelectual (Y). Datele (RELAŢIE NON MONOTONĂ)
analizei sunt prezentate în tabelul 1. 4. -mărimea picioarelor nu este legată de coeficientul intelectual
(RELAŢIE NULĂ)
3.1. Coeficientul de corelaţie liniară Bravais-Pearson
 
Acest coeficient permite detectarea prezenţei sau absenţei unei relaţii liniare între două caractere
cantitative continue. Pentru calcularea acestui coeficient trebuie calculată mai întâi covarianţa.
Covarianţa este media produsului ecarturilor la medie:

N
1
Cov( X , Y ) 
N
(X
i 1
i  X ) *(Yi  Y )

Coeficientul de corelaţie liniară a două caractere X şi Y este egal cu covarianţa lui X şi Y divizată
prin produsul ecarturilor-tip (abaterilor standard) ale lui X şi Y:

Cov ( X , Y )
r( X ,Y ) 
 X * Y

Remarcă : atunci când două caractere sunt standardizate, coeficientul lor de corelaţie este egal cu
covarianţa lor, deoarece abaterile standard (ecarturile-tip) ale lor sunt egale cu 1.
Tabelul 2 : Exemplu de calcul al coeficientului de corelaţie Bravais-Pearson
(mărimea numărului de la pantofi (X) şi coeficientul intelectual (Y) a 10 copii de
vârstă şcolară)
Copilul (i) Xi Yi (Xi -mX) (Yi -mY) (Xi-mX)(Yi-mY)
Copilul (i) Xi Yi (Xi -mX) (Yi -mY) (Xi-mX)(Yi-mY)
A 31 50
A 31 50 -3 -26 78
B 31 55
B 31 55 -3 -21 63
N
C 32 52
1
(X
C 32 52 -2 -24 48
D
D 33
33 56
56 Cov-1( X , Y )-20 20 i  X ) *(Yi  Y )
E
E 33
33 63
63 -1 -13 N i 1 13
F
F 34
34 65
65 0 -11 0
G
G 35
35 69
69 1
Cov
-7
( X ,Y )
-7
H 36 90
r( X ,Y ) 
2 14 28
I
J
37
38
110
150
3
4
34  X 102
74
* Y
296
covarianţa
covarianța 64.1
media 34 76
media 34 76 0 0
Abaterea 2.4 32
ecartul-tip
standard 2.4 32

Covarianţa lui X şi Y fiind egală cu 64.1, se obţine coeficientul de corelaţie dintre X şi Y împărţind
covarianţa la produsul dintre abaterea standard a lui X şi abaterea standard al lui Y:
r(X,Y) = 64.1 / (2.4 * 32) =  +0.83
Corelaţia este pozitivă şi puternică, încât pare să existe o relaţie liniară de tipul Y=aX+b care leagă
coeficientul intelectual al copiilor de mărimea picioarelor lor. Cu toate aceste, coeficientul de
corelaţie nu ne indică nici dacă relaţia observată este semnificativă (datorată sau nu hazardului) şi
nici dacă relaţia corespunde unei relaţii de la cauză la efect a celor doi factori X şi Y studiaţi. Mai
mult, valoarea mare a coeficientului nu ne permite să credem că poate exista o ajustare mai bună
a relaţiei, care ar putea fi de tip non liniar...
Proprietăţile şi interpretarea coeficientului r(XY)
 
Coeficientul de corelaţie liniară  variază între -1 şi +1. Interpretarea sa este următoarea:
- dacă r este aproape de 0, nu există o legătură liniară între X şi Y
- dacă r este aproape de -1, există o puternică legătură liniară negativă între X şi Y
- dacă r este aproape de +1, există o puternică legătură liniară pozitivă între X şi Y

Semnul lui r indică deci sensul relaţiei în vreme ce valoarea absolută a sa indică intensitatea
relaţiei, respectiv capacitatea de prezicere a valorilor lui Y în funcţie de acelea ale lui X.

Limitele coeficientului Bravais-Pearson


 
În principiu, coeficientul Bravais-Pearson nu este aplicabil decât pentru măsurarea unei relaţii între două variabile X
şi Y având o distribuţie de tip gaussian şi neprezentând valori excepţionale. Dacă aceste condiţii nu sunt verificate
(cum se întâmplă cel mai adesea), utilizarea acestui coeficient poate conduce la concluzii eronate referitoare la
prezenţa sau la absenţa unei relaţii.
Trebuie amintit şi faptul că absenţa unei relaţii liniare nu înseamnă absenţa completă a relaţiei dintre cele două
caractere.
3.2. Coeficientul Spearman de corelaţie a rangurilor
 
Coeficientul de corelaţie a rangurilor, numit coeficientul Spearman, cercetează existenţa unei relaţii
între rangurile unităţilor considerate simultan pe două caractere X şi Y, ceea ce permite detectarea
existenţei relaţiilor monotone (crescătoare sau descrescătoare), oricare ar fi forma acestora (liniară,
exponenţială, putere...). Acest coeficient este foarte util atunci când analiza norului de puncte pune în
evidenţă o formă curbilinie, care se ajustează prost la o dreaptă. Coeficientul Spearman este preferabil
coeficientului Pearson atunci când distribuţiile lui X şi Y sunt asimetrice şi/sau comportă valori
excepţionale.
Coeficientul Spearman este bazat pe studiul diferenţei rangurilor dintre atributele indivizilor pentru
cele două caractere X şi Y:
N
6 *   r ( X i )  r (Yi )
unde:
2
R(Xi) = rangul lui Xi în distribuţia X1,
 ( X ,Y )  1  i 1
X2, ....XN
N3  N R(Yi) = rangul lui Yi în distribuţia Y1,
Y2, ....YN

Acest coeficient variază de asemenea între -1 şi +1. Interpretarea sa este aceeaşi ca şi în cazul
coeficientului Bravais-Pearson însă el permite evidenţierea relaţiilor non liniare pozitive sau
negative.
Tabelul 3 : Exemplu de calcul al coeficientului de corelaţie Spearman
mărimea numărului de la pantofi (X) şi coeficientul intelectual (Y) a 10 copii
de vârstă şcolară)
Copilul X Y X' Y' (X'-Y') (X'-Y')²

A 31 50 1.5 1 0.5 0.25

B 31 55 1.5 3 -1.5 2.25

C 32 52 3 2 1 1
Coeficientul intelectual (Y)

N
6 *-0.5  r (0.25
X i )  r (Yi )
D 33 56 4.5 4 0.5 0.25 2
E 33 63 4.5 5

F 34 65  (6X , Y ) 6 1  0
i 1
0

G 35 69 7 7 0 N 0 N
3

H 36 90 8 8 0 0

I 37 110 9 9 0 0

J 38 150 10 10 0 0

suma 340 760 55 55 0 4

Suma pătratelor diferenţelorMărimea


de rangpiciorului (X)
fiind egală cu +4 iar numărul indivizilor studiaţi fiind de 10, se
poate deduce valoarea coeficientului de corelaţie Spearman:
R =1- [(6*4)/(1000-10)] =+ 0.98
Faptul că valoarea coeficientului lui Spearman este pozitivă% confirmă rezultatele precedente (cu cât
copii au picioare mai mari cu atât capacitatea lor intelectuală este mai ridicată), însă faptul că
valoarea absolută a sa este mai mare decât cea a coeficientului Pearson ( +0.83) sugerează existenţa
unei relaţii non liniare între cele două variabile. Această ipoteză este confirmată de diagrama de
corelaţie.
4. Semnificativitatea unei relaţii

Calculul unui coeficient de corelaţie nu constituie decât o primă etapă în analiza relaţiei dintre două
caractere, o primă etapă care are caracter exploratoriu şi care trebuie să fie validată printr-un test de
semnificativitate a relaţiei şi printr-o verificare a validităţii relaţiei (absenţa factorilor care conduc la
erori de interpretare).
 
4.1. Testul de semnificativitate a unei relaţii
Coeficienţii de corelaţie Pearson sau Spearman nu oferă informaţii asupra gradului de semnificativitate
al unei relaţii, deoarece aceasta depinde şi de numărul de observaţii.
 
Exemplu : se doreşte cercetarea unei legături între cancer şi tabagism.
- Un r de + 0.6 stabilit pe un eşantion de 10 persoane nu este semnificativ pentru pragul de 5% (poate fi
vorba de o simplă întâmplare).
- Un r de + 0.2 stabilit pe un eşantion de 200 de persoane este semnificativ la pragul de 5% (mărimea
eşantionului face ca relaţia, deşi slabă, să aibă puţine şanse să se datoreze întâmplării.
 
Pentru a determina dacă o relaţie este semnificativă este nevoie să se efectueze un test de ipoteză,
după cum urmează:
(1) Se stabileşte H0 (ipoteza zero) : nu există vreo relaţie între cele două caractere X şi Y
(2) Se fixează un risc de eroare pentru respingerea H0 (de exemplu α=5% sau α=1%)
(3) Se calculează valoarea absolută a coeficientului de corelaţie r(XY) sau ρ(X,Y)
(4) Se calculează valoarea teoretică r(α, N) a acestui coeficient care nu este depăşită decât în α% din
cazuri, în tabelul corespunzător (Pearson ou Spearman)
(5) Se testează H0 ca adevărată dacă (α, g.l.) > abs[ r(X,Y) ]
(6) Se acceptă (dacă (α, g.l.) > abs[ r(X,Y) ] ) sau se respinge (dacă (α, g.l.) < abs[ r(X,Y) ] ) ipoteza nulă H0
Exemplu : Pentru (10-2) observaţii, valorile critice ale coeficientului Pearson sunt de 0.6319 pentru
pragul de α= 5% şi de 0.7155 pentru pragul de α= 1%. Valoarea calculată fiind de +0.83 se poate
respinge H0 şi se poate afirma cu mai puţin de 1% şanse de eroare că relaţia observată dintre
mărimea picioarelor şi coeficientul intelectual al copiilor nu este datorată hazardului.

Valorile-limită ale lui r pentru diferite nivele de semnificaţie


Nivelul de semnificaţie α Nivelul de semnificaţie α
g.l. g.l.
0,10 0,05 0,01 0,10 0,05 0,01
1 0,9877 0,9969 0,9995 16 0,4000 0,4683 0,5425
2 0,9000 0,9500 0,9800 17 0,3887 0,4555 0,5285
3 0,8054 0,8783 0,9343 18 0,3783 0,4438 0,5155
4 0,7293 0,8114 0,8822 19 0,3687 0,4329 0,5034
5 0,6694 0,7545 0,8329 20 0,3598 0,4227 0,4921
6 0,6215 0,7067 0,7887 25 0,3233 0,3809 0,4451
7 0,5822 0,6664 0,7498 30 0,2960 0,3494 0,4093
8 0,5494 0,6319 0,7155 35 0,2746 0,3246 0,3810
9 0,5214 0,6021 0,6851 40 0,2573 0,3044 0,3578
10 0,4973 0,5760 0,6581 45 0,2428 0,2875 0,3384
11 0,4762 0,5529 0,6339 50 0,2306 0,2732 0,3218
12 0,4575 0,5324 0,6120 60 0,2108 0,2500 0,2948
13 0,4409 0,5139 0,5923 70 0,1954 0,2319 0,2737
14 0,4245 0,4973 0,5742 80 0,1829 0,2172 0,2565
15 0,4124 0,4821 0,5577 100 0,1638 0,1946 0,2301
Tabelul cuprinde valorile minime, statistic semnificative, ale coeficientului de corelaţie liniară simplă r; dacă r calculat
este mai mare decât r din tabel, atunci se poate afirma (cu un risc de eroare egal cu α) că între cele două variabile există
o corelaţie liniară semnificativă.
În tabel se intră cu numărul gradelor de libertate, care în acest caz va fi: g.l. = n - 2 (n - numărul de perechi de valori).
Exemplu : Pentru 10 observaţii, valorile critice ale coeficientului Spearman sunt de 0.564 pentru pragul
de α= 5% şi de 0.746 pentru pragul de α= 1%. Valoarea observată fiind de +0.98, se poate respinge H0
şi se poate afirma cu mai puţin de 1% şanse de eroare că relaţia observată dintre mărimea picioarelor
şi coeficientul intelectual al copiilor nu este datorată hazardului.

Valorile-limită ale coeficientului ρ al lui Spearman

α 0,05 0,01 α 0,05 0,01


n n
4 1,00 - 24 0,34 0,49
5 0,90 1,00 26 0,33 0,47
6 0,83 0,94 28 0,32 0,45
7 0,71 0,89 30 0,31 0,43
8 0,64 0,83 35 0,28 0,40
9 0,60 0,78 40 0,26 0,37
10 0,56 0,75 45 0,25 0,35
12 0,51 0,71 50 0,24 0,33
14 0,46 0,64 55 0,22 0,32
16 0,42 0,60 60 0,21 0,30
18 0,40 0,56 70 0,20 0,28
20 0,38 0,53 80 0,19 0,26
22 0,36 0,51 100 0,17 0,23

n - numărul de perechi de valori.


În tabel se intră direct cu numărul de perechi de valori, iar semnificaţia
statistică a coeficientului ρ calculat se face la fel ca la coeficientul
Pearson.
4.2. Verificarea validităţii relaţiei
 
Faptul că testul de semnificativitate permite respingerea ipotezei de independenţă nu
trebuie să conducă prea repede la concluzia rapidă că există o relaţie. Aceasta poate să
fie adesea consecinţa prezenţei factorilor care conduc la erori de interpretare. Câteva
exemple frecvente de corelaţii eronate sunt indicate mai jos.
 
 
a) Concluzie eronată asupra absenţei relaţiei

În exemplul alăturat cei doi coeficienţi de corelaţie (Pearson,


Spearman) sunt nuli însă relaţia dintre cele două caractere
există, fiind însă non liniară şi non monotonă. O simplă
examinare a coeficienţilor, fără a fi trasat norul de puncte ar fi
făcut să se treacă pe lângă un rezultat esenţial.
b) Influenţa unei valori excepţionale

În acest exemplu calculul coeficientului de corelaţie Pearson ar


conduce la ideea că între cele două variabile există o corelaţie
pozitivă (+0.54) dar nesemnificativă la pragul de 5%. Această
valoare a lui r este datorată numai prezenţei valorii excepţionale
de coordonate (9;9). Dacă îl eliminăm din analiză se obţine o
corelaţie negativă (-0.67) şi semnificativă la pragul de 5%, adică o
concluzie de două ori inversă celei precedente!

c) Stratificarea relaţiilor şi componenta de scară

În acest exemplu nu este fals să se concluzioneze că există o relaţie


pozitivă semnificativă (+0.75) însă aceasta este rezultatul
diferenţelor de comportament a trei subpopulaţii în cadrul cărora
relaţia este din contră, strict negativă. Este vorba aici de o
componentă de scară în relaţia observată iar concluziile vor fi
variabile, în funcţie de eşantionul considerat.
De exemplu dacă pe axa y este prețul pe metru pătrat iar pe x distanța față de centru
orașului, concluzia ar fi că pe măsură ce te îndepărtezi de centru, crește prețul pe mp, ori
vedem bine că de fapt există o primă serie de observații pentru care de fapt prețul pe mp
scade pe măsura îndepărtării de centru, apoi o a doua, apoi o a treia pentru care tendința
este aceeași...
4.3. Util: compararea coeficienţilor Pearson şi Spearman
 
Cea mai mare parte a factorilor de eroare pot fi destul de uşor detectaţi prin analiza norilor de
puncte. Din nefericire această metodă nu se poate aplica atunci când se doreşte calcularea
corelaţiilor dintre numeroase variabile luate două câte două. În acest caz este util să se calculeze
sistematic cei doi coeficienţi de corelaţie (Pearson şi Spearman) şi să se verifice dacă ei dau
rezultate conforme. Dacă nu este cazul, atunci sigur este vorba de existenţa factorilor perturbatori.

Când semnificativitatea coeficientului Pearson este mai mare decât semnificativitatea


coeficientului Spearman cel mai adesea se pune în evidenţă prezenţa valorilor excepţionale, care
măresc valoarea lui r(X,Y) dar nu o modifică pe cea a lui ρ(X,Y), mult mai robust.
 
Când semnificativitatea coeficientului Spearman este mai mare decât semnificativitatea
coeficientului Pearson, cel mai adesea este vorba de o relaţie non liniară, mai bine încadrată de
ρ(X,Y) dacât de r(X,Y).

Bineînţeles că sunt şi cazuri ... încăpăţânate în care cei doi coeficienţi dau acelaşi rezultate şi totuşi
relaţia este interpretată eronat...
5. Corelaţie şi cauzalitate
 
O corelaţie nu implică în mod necesar o relaţie de cauzalitate!
 
5.1. Câteva tipuri de explicaţie a corelaţiilor

Exemplu : Analfabetismul feminin (ANfem) şi mortalitatea masculină de sub ani 5 (MO<5) în Africa.
 
* Cauzalitate directă :
ANfem→ MO<5 : Femeile care nu ştiu să citească nu-şi pot îngriji copii fiindcă nu au citit Freud , Brazelton sau tratate
de puericultură.
MO<5 → ANfem : Mortalitatea băieţeilor aduce la disperare femeile africane, care renunţă să mai citească Freud ,
Brazelton sau tratate de puericultură.
* Lanţuri cauzale liniare :
În realitate, cele două exemple de mai sus sunt mai degrabă lanţuri cauzale:
ANfem → lectură impossiblă → absenţa informaţiilor despre teoriile lui Freud → copil prost îngrijit → MO<5
* Lanţuri cauzale arborescente :
Unul dintre caractere poate să fie doar unul dintre multe altele care îl influenţează pe cel de-al doilea:
ANfem                          → MO<5
Malnutriţie                  → MO<5
Climat                          → MO<5
Submedicaţie      →MO<5
* Prezenţa unei cauze comune :
subdezvoltare → MO<5
                        → ANfem
* Prezenţa cauzalităţilor circulare (bucle de retroacţiune)
subdezvoltare  ↔ ANfem
* Cazul general este acela al existenţei unui sistem cauzal în cadrul căruia sunt plasate caracterele studiate.
Descoperirea unei corelaţii nu permite să se afirme existenţa unei relaţii de la cauză la efect şi trebuie să incite la
construcţia unui sistem cauzal care să explice corelaţia observată.
5.2. Corelaţie şi predicţie: paradoxul paiului în gură

Deşi este oarecum umilitor pentru spirit, nu întotdeauna trebuie să înţelegi pentru a putea acţiona. Dacă se
observă o corelaţie de +0.98 între zilele în care purcelul umblă cu paie în gură şi sosirea zilelor cu vreme urâtă,
putem să ne încredem în acest meteorolog, chiar dacă nu construim un sistem cauzal care să explice
comportamentul patrupedului care astfel rămâne un mare neînţeles... La fel şi în cazul ciorilor care „zboară jos”
sau a zicătorilor de genul „de la Sfânta Mărie poţi să uiţi de pălărie” ori „ulciorul nu merge de multe ori la apă”,
„un cablu tăiat la dimensiunea exactă va fi întotdeauna prea scurt”, care sunt corelaţii empirice, nu întotdeauna
explicabile, dar care se pot dovedi utile pentru anumite previziuni.
 
  5.3. Un pericol specific geografiei: eroarea ecologică

În geografie, studiul corelaţiilor se face adesea prin analiza unui ansamblu de locuri. Atunci când variabilele care
descriu aceste locuri sunt atribute sociale care descriu locuitorii din locurile respective, este necesară o maximă
prudenţă în interpretarea corelaţiilor deoarece o corelaţie stabilită la nivelul locurilor nu implică în mod necesar
o corelaţie la nivelul oamenilor!
 
Exemplu : Criminalitate şi străini în oraşul Târgu Estetic
  Studiul efectuat la nivelul indivizilor (sociologic) arată că rata criminalităţii este mai ridicată în rândul autohtonilor
(36%) decât în rândul străinilor (17%).
Totuşi, studiul făcut la nivelul cartierelor (geografic) arată o corelaţie perfectă (+1) între proporţia străinilor din cartiere
şi ratele de criminalitate.

Nu este vorba de nici un paradox: prezenţa unei corelaţii la nivelul locurilor înseamnă doar că acolo unde sunt mulţi
străini sunt şi mulţi infractori, însă nu este o dovadă că străinii sunt cauza criminalităţii...
Acest tip de eroare este numită eroare ecologică, deoarece ea constă în a gândi că prezenţa a două fenomene într-un
acelaşi loc (ecosistem) implică existenţa unei relaţii cauzale între cele două fenomene, ceea ce nu este întotdeauna
adevărat.