Sunteți pe pagina 1din 18

Statistică neparametrică

Indicatori neparametrici pentru măsurarea


legăturii între variabile

Curs 2, Februarie 2015


Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Indicatori neparametrici pentru
măsurarea legăturii între variabile
 Se utilizează în cazul în care cel puţin una dintre cele două
variabile este:
 calitativă sau
 cantitativă şi nu îndeplineşte condiţiile unei distribuţii normale
 Mai sunt numiţi şi coeficienţi de asociere pentru
distribuţii libere
Introducere
Variabile binare Variabile nominale Variabile ordinale Variabile cantitative

Variabile binare Coeficientul de Coeficientul de


contingenţă 2 contingenţă 2
Coeficientul de asociere Coeficientul de
Phi contingenţă Pearson (cc)
Coeficientul de Coeficientul V Cramer
contingenţă Pearson (cc)
Variabile nominale Coeficientul de Coeficientul de Coeficientul de Coeficientul de contingenţă
contingenţă 2 contingenţă 2 contingenţă 2 2
Coeficientul de Coeficientul de Coeficientul de Coeficientul de contingenţă
contingenţă Pearson (cc) contingenţă Pearson (cc) contingenţă Pearson (cc) Pearson (cc)
Coeficientul V Cramer Coeficientul V Cramer Coeficientul V Cramer Coeficientul V Cramer
Coeficientul de asociere Coeficientul de asociere Coeficientul de asociere  Coeficientul de asociere 
 (lambda)  (lambda) (lambda) (lambda)

Variabile ordinale Coeficientul de Coeficientul lui Kendall


contingenţă 2 Coeficientul de asociere 
Coeficientul de
contingenţă Pearson (cc)
Coeficientul V Cramer
Variabile cantitative Coeficientul de Coeficientul lui Spearman
contingenţă 2 Coeficientul de concordanţă
Coeficientul de W Kendall
contingenţă Pearson (cc)
Coeficientul V Cramer
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI SPEARMAN
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de corelaţie bazat pe ranguri
 Se utilizează când cel puţin una din variabile nu este distribuită normal
 Formula de calcul:
n rxi ryi   rxi  ryi
Rs    1,1
2 2 2

n rxi  ( rxi ) n ryi  ( ryi ) 2

 unde rxi este rangul variabilei x şi ryi este rangul variabilei y

 În cazul în care nu există ranguri egale formula se transformă în:

6 d i2
Rs  1 
n(n 2  1)

 unde di = rang xi – rang yi este diferenţa dintre ranguri


COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI SPEARMAN
 Interpretare:
 RS =1 - există o legătură perfectă directă între x şi y
 RS =-1 - există o legătură perfectă inversă între x şi y
 RS =0 - nu există legătură între x şi y
 Testarea existenţei legăturii între x şi y
 Ipotezele:
 H0: variabilele x şi y nu sunt corelate
 HA: variabilele x şi y sunt corelate

n2
 Testul t : t  Rs ~ Tn2
1  RS2

 Regula de decizie:

 t   t/2,n-2  se respinge H0
  t  < t/2, n-2  se acceptă H0
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI SPEARMAN
 Exemplul 1:
 În urma unui studiu privind legătura între longevitate și consumul de tutun, s-au cules
date pentru 10 fumători de peste 50 de ani privind numărul de țigări fumate zilnic și
speranța acestora de viață.

Speranța de viață Consumul zilnic de țigări

80 5
78 23
60 25
53 48
85 17
84 8
73 4
78 25
81 11
75 19
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI KENDALL
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de corelaţie bazat pe ranguri
 Se utilizează când variabilele sunt pur ordinale
 Formula de calcul:
 Fie I suma inversiunilor (cazul în care un element care are un rang mai mare pentru o
variabilă se situează în faţa unui element cu un rang mai mic, datele fiind ordonate după
cealaltă variabilă)
 Fie P suma proversiunilor - opusul inversiunilor
 In cazul în care nu există elemente cu acelaşi rang

4I 2( P  I )
 RK  1   deoarece I+P=n(n-1)/2
n(n  1) n(n  1)
 Sau
S n( n  1) n(n  1)
 RK  unde S  2I şi S max 
S max 2 2
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI KENDALL
 În cazul în care există elemente cu acelaşi rang în cazul unei singure variabile, se aplică un
coeficient de corecţie
n
p( p  1)
A fp unde fp este numărul de asocieri de p elemente şi p se referă
p 2 2 la numărul elementelor asociate (de rang egal)

 Coeficientul lui Kendall corectat este:


SA
RK 
S max  A

 În cazul în care există elemente cu acelaşi rang în ambele variabile se va calcula coeficientul lui
Kendall după formula:
S  S
RK  2 unde:
n(n  1) n(n  1)
(  Ax )(  Ay )
2 2
 S+ (S-) se calculează ordonând crescător elementele după prima variabila iar în cazul rangurilor egale se
vor ordona crescător (descrescător) elementele celei de-a doua variabile, aplicând corecția Ay
 Ax şi Ay sunt sunt ambiversiunile variabilei x, respectiv y calculate după formula coeficientului de
corecţie A
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI KENDALL
 Interpretare:
 RK =1 - există o legătură perfectă directă între x şi y
 RK =-1 - există o legătură perfectă inversă între x şi y
 RK =0 - nu există legătură între x şi y
 Testarea existenţei legăturii între x şi y
 Ipotezele:
 H0: variabilele x şi y nu sunt corelate
 HA: variabilele x şi y sunt corelate

RK
 Testul z : z  ~ N (0,1)
2(2n  5)
9n(n  1)
 Regula de decizie:

 z  z/2  se respinge H0
 z < z/2  se acceptă H0
COEFICIENTUL DE CORELAŢIE A RANGURILOR
AL LUI KENDALL
 EXEMPLUL 2: (Opariuc-Dan Cristian, Tabelul 1.6 )
Presupunem că dintr-o clasă de elevi au fost evaluaţi un număr de 5 elevi la limba
română şi chimie obţinându-se calificativele din tabel. Există legătură între calificativele
obţinute la cele două materii?

Nr. Română Chimie


1. Nesatisfăcător Bine
2. Satisfăcător Nesatisfăcător
3. Bine Foarte bine
4. Foarte bine Satisfăcător
5. Excepţional Foarte bine

Dar dacă mai sunt evaluaţi încă doi elevi ce obţin calificativele următoare:

Nr. Română Chimie


6. Foarte bine Bine
7. Nesatisfăcător Satisfăcător
8. Bine Foarte bine
COEFICIENTUL DE CONTINGENŢĂ 2
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de asociere între două variabile nominale
 Măsoară gradul de contingenţă al celor două variabile, verificând dacă sunt asociate
 Poate fi folosit pentru asocierea datelor dihotomice; datelor nominale; una
dihotomică, una nominală; una nominală şi una ordinală; una nominală şi una scalară
 Ipoteza de la care se pleacă este că nu există asociere între cele două variabile
 Formula de calcul:
2
 nn 
 nij  i. . j 
  
2
s r
 n  ~ 2
ni.n. j r 1s 1
j 1i 1
n
 ni,j – nr. de unităţi cu varianta i a variabilei x şi varianta j a variabilei y
 ni. - nr. de unităţi cu varianta i a variabilei x; n.j – nr. de unităţi cu varianta j a variabilei y
 n – nr. total de unităţi
COEFICIENTUL DE CONTINGENŢĂ 2
 Tabelul de contingenţă
X\Y Categoria 1 … Categoria r Total j
Categoria 1 n11 … n1r n1.
… … nij … ni.
Categoria s ns1 … nsr ns. 2
Total n.1 n.j n.r n..
 Interpretare:
 Acest coeficient este nedirecţional şi dimensional
 Nu poate fi comparat cu alţi coeficienţi de asociere
 Pentru interepretare se compară acest coeficient cu valoarea de referinţă a distribuţiei
 Ipotezele:
 H0: nu există asociere între variabilele x şi y
 HA: variabilele x şi y sunt asociate
 Regula de decizie
Dacă    ;r 1s1
2 2
  se respinge H0
Dacă    ;r 1s1
2 2
  se acceptă H0
COEFICIENTUL DE ASOCIERE Phi (φ)
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de asociere între două variabile dihotomice (binare) ce înregistrează în
special prezenţa sau absenţa unei caracteristici
 Este un coeficient foarte simplu, derivat din 2

 Formula de calcul:
p11  p1 p1 2
   unde pij=nij/n
p1 (1  p1 )  p1 (1  p1 ) n

 Tabelul de contingenţă

Variabila x
0 (Nu) 1 (Da)
Variabila y 0 (Nu) n00 n01
1 (Da) n10 n11
COEFICIENTUL DE CONTINGENŢĂ
PEARSON (CC)
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de asociere între orice două variabile neparametrice
 Măsoară gradul de contingenţă al celor două variabile, verificând dacă sunt
asociate
 Poate fi folosit pentru asocierea datelor dihotomice; datelor nominale; una
dihotomică, una nominală; una nominală şi una ordinală; una nominală şi una
scalară

2
 Formula de calcul: cc 
2 n
COEFICIENTUL V CRAMER
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de asociere între orice două variabile calitative din care cel
puţin una are mai mult de două variante de realizare
 Măsoară gradul de contingenţă al celor două variabile, verificând dacă sunt
asociate
 Poate fi folosit pentru asocierea datelor dihotomice; datelor nominale; una
dihotomică, una nominală; una nominală şi una ordinală; una nominală şi una
scalară

 Formula de calcul:

2
v unde l reprezintă minimul dintre numărul
n(l  1) liniilor şi numărul coloanelor
INTERPRETARE COEFICIENŢI DE
CONTINGENŢĂ

 Sunt coeficienţi nedirecţionali


 Un coeficient egal cu zero indică lipsa asocierii între variabile
 Cu cât coeficientul este mai aproape de 1 cu atât intensitatea asocierii dintre
variabile este mai mare
 Pentru testare se foloseşte coeficientul de contingenţă 2 şi testarea acestuia
folosind testul 2
EXEMPLUL 1
 Pentru un eşantion de 560 de persoane din Bucureşti s-a înregistrat părerea cu
privire la activitatea guvernului şi preferinţele politice ale acestora. Rezultatele
obţinute sunt prezentate în tabel. Există asociere între preferinţele politice şi
părerea despre activitatea guvernului?

Preferinţe politice

PL PSD PDL

Părerea despre Proastă 32 230 28


activitatea
guvernului Neutră 30 80 50

Bună 18 20 38

Foarte Bună 10 7 230


EXEMPLUL 2
 Pentru un eşantion de 150 de angajaţi ai unei multinaţionale s-a înregistrat opinia cu
privire la o măsură luată de managementul companiei cu privire la obligativitatea
participării la un curs de limbi străine pentru toţi angajaţii întreprinderii. Rezultatele
obţinute sunt prezentate în tabel. Există o legătură între genul persoanelor şi
părerea acestora cu privire la măsura luată de managementul companiei?

Sex

Feminin Masculin

Părerea despre De acord 25 75


măsura propusă de
managementul Nu sunt de acord 25 25
companiei

S-ar putea să vă placă și