Sunteți pe pagina 1din 25

Statistică neparametrică

Curs 4, Martie 2023


Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
COEFICIENTUL DE ASOCIERE γ (GAMMA)
 Ce este acest coeficient şi când se utilizează?
 Este un coeficient de asociere între două variabile ordinale cu număr mic de variante de răspuns
 La fel ca şi coeficientul de corelaţie a rangurilor Kendall, şi acest coeficient se bazează pe
numărul de inversiuni şi proversiuni, adică pe numărul de perechi concordante şi discordante.
Pc − Pd
 Formula de calcul: =
Pc + Pd
 unde Pc reprezintă numărul perechilor concordante, iar Pd numărul perechilor discordante

 Interpretare:
 Acest coeficient este dimensional şi direcţional
 El variază între -1 şi 1
  =1 - există o legătură perfectă directă între x şi y (o persoană care s-a clasat înaintea unui alt
individ pentru o variabilă se va afla înaintea individului respectiv și pentru cea de-a doua
variabilă)
  =-1 - există o legătură perfectă inversă între x şi y (o persoană care s-a clasat înaintea unui alt
individ pentru o variabilă se va afla după individul respectiv pentru cea de-a doua variabilă)
  =0 - nu există legătură între x şi y
COEFICIENTUL DE ASOCIERE γ (GAMMA)

EXEMPLU
 Se efectuează un sondaj pentru a vedea dacă este vreo legătură între frecvenţa cu care o
familie pleacă din localitatea de reşedinţă pentru recreere şi mărimea oraşului de reşedinţă:

O dată pe O dată la trei Mai rar Total


lună luni
Oraş mic 10 15 20 45

Oraş mare 20 10 5 35

Total 30 25 25 80
Spearman, Kendall, Gamma
 Spearman – poate fi interpretat ca un coeficient de corelație Pearson de ranguri

 Kendall – poate fi văzut ca probabilitatea ca două variabile să fie în aceeași


ordine versus probabilitatea ca ele să nu fie în aceeași ordine

 Gamma – poate fi văzut tot ca o probabilitate și anume diferența dintre


probabilitatea ca ordonarea rangurilor a două variabile să fie similară minus
probabilitatea ca aceasta să nu fie similară raportată la suma lor. Coeficientul
Gamma nu tine cont de perechile asociate.

 Exemple:
 Ce coeficient se poate utiliza dacă se dorește măsurarea legăturii între calificativele la
un examen ( A, B,C, D, E, F) și timpul petrecut pentru recapitulare (< 5 ore, 5-9 ore, 10-
14 ore, 15-19 ore, peste 20 de ore).
 Ce coeficient se poate utiliza dacă se dorește măsurarea legăturii între notele la un
examen și timpul petrecut pentru recapitulare.
COEFICIENT DE CORELATIE
PUNCT BISERIAL
 Este un coeficient ce măsoară legătura între o variabilă continuă și una binară

 Exemple:
 diferențe între fumători și nefumători a tensiunii arteriale
 diferențe între femei și bărbați în ceea ce privește venitul salarial

 Înainte de a aplica acest coeficient trebuie să ne asigurăm că sunt verificate


următoarele ipoteze:
 Ip.1 Una din variabile este continuă
 Ip.2 Una din variabile este binară (statut marital, gen, statut ocupațional, ...)
 Ip.3 Nu trebuie să existe outliers pentru variabila continuă
 Ip.4 Variabila continuă trebuie să fie repartizată normal pentru fiecare subgrup
determinat de variabila binară
 Ip.5 Variabila continuă trebuie să aibă disperdii egale pentru giecare subgrup
determinat de variabila binară
COEFICIENT DE CORELATIE
PUNCT BISERIAL

Exemplu

COEFICIENTUL DE ASOCIERE 
(LAMBDA)
 Este cunoscut și sub numele de coeficientul de asociere Goodman-
Kruskall Lambda
 Ce este acest coeficient şi când se utilizează?
 Poate fi folosit pentru asocierea unei variabile nominale (Y) cu una dihotomică, nominală,
ordinală sau scalară grupată în clase (X)
 Măsoară cât din variabila Y poate fi prezisă de variabila X

 max(n ) − max(n )
s

j
Formula de calcul:
ij
 = i =1
j j

n − max (n ) j
j

 ni,j – nr. de unităţi cu varianta i a variabilei x şi varianta j a variabilei y


 ni. - nr. de unităţi cu varianta i a variabilei x; n.j – nr. de unităţi cu varianta j a variabilei y
 n – nr. total de unităţi
 Tabelul de contingenţă
X\Y Categoria 1 … Categoria r Total j
Categoria 1 n11 … n1r n1.
… … nij … ni.
Categoria s ns1 … nsr ns.
Total n.1 n.j n.r n..
COEFICIENTUL DE ASOCIERE 
(LAMBDA)
 Interpretare:
 Acest coeficient este dimensional şi asimetric
 Coeficientul lambda reprezintă măsura în care variabila independentă X reduce eroarea de prezicere
a variabilei Y. Înmulţit cu 100, acesta reprezintă procentul reducerii erorii. Un coeficient egal cu zero
arată că informaţiile conţinute într-o variabilă nu pot prezice cealaltă variabilă, variabilele neavând
nimic în comun. Un coeficient apropiat de 1 indică faptul că variabila Y poate fi prezisă în baza
informaţiilor conţinute în variabila X.

 Ipotezele:
 H0:  − ref = 0
 HA:  − ref  0
 − ref
 Testul Statistic: z =
s
 s
 s 
 n −  max(nij )   max(nij ) + max(n j ) − 2  max(n jk )  (frecventa aparitiei acestui maxim) 
s =   i =1 j 
j j j
i =1
unde 3 k fiind coloana cu suma
 n − max(n ) 
j
 j 
frecvenţelor maximă

 Regula de decizie
 Dacă z  z / 2  se respinge H0
 Dacă z  z / 2  se acceptă H0
Exemplu
În ce măsură Statutul marital contribuie la previziunea Tensiunii arteriale?
Statut marital
Necasatorit Casatorit Total
Tensiunea Normala 120 102 222
arteriala Mare 30 98 128

Tensiunea este variabila dependenta (Y): Statutul marital este variabila dependenta (Y):

 max(nij ) − max(n j )  max(n ) − max (n ) (120 + 98) − 200


s s

j
j j (120 + 102) − 222 j
ij
j
= i =1
= =0 = i =1
= = 0.12
n − max (n j ) 350 − 222 n − max (n ) 350 − 200
j
j j

Statutul marital nu contribuie deloc la previziunea tensiunii arteriale, insa tensiunea


arteriala poate contribui la previziunea statutului marital in proportie de 12%.

Semnificatia asocierii: H0 :  = 0  − ref


z= = 0.12 / 0.00837 = 1.31
H1 :   0 s
 s
 s 
 n −  max(nij )   max(nij ) + max(n j ) − 2 max(nkj ) 
s =  i =1
j
 i =1 j j j
 = (350 − 218)(218 + 200 − 2 *102) = 0.00837
 n − max(n ) 
3
(350 − 200)3
j
 j 
z = 1.31  1,96 = z0.05 / 2  Asocierea nu este semnificativa
COEFICIENȚI DE
CONCORDANȚĂ ÎNTRE
MAI MULTE CLASAMENTE
COEFICIENTUL DE CONCORDANŢĂ W
KENDALL
 Ce este acest coeficient şi când se utilizează?
 Măsoară gradul de concordanţă între mai multe clasamente
 Este folosit în general pentru stabilirea acordului între mai mulţi evaluatori
 Este un coeficient foarte des folosit de specialişti
 Fiecare evaluator va face un clasament (o ordonare) a celor n persoane evaluate rezultand
rij rangul dat de evaluatorul j individului i
 Formula de calcul:

 k (n + 1) 
n 2

 SRi − n
2

 2

 unde :
W = i =1
1 2 3
k ( n − n)
12
 k reprezintă numărul de evaluatori
 n reprezintă numărul de persoane evaluate
k
 SRi reprezintă suma rangurilor evaluatorilor pentru persoana i = r
j =1
ij
COEFICIENTUL DE CONCORDANŢĂ W
KENDALL
 Interpretare:
 Acest coeficient este dimensional şi nedirecţional
 El variază între 0 şi 1.
 Valorile apropiate de 0 indică lipsa acordului între clasamente, în timp ce valorile apropiate de 1
arată acordul perfect între clasamente.

 Ipotezele:
 H0: Nu există acord între clasamente
 HA: Există acord între clasamente

 Testul Statistic
 2 = Wk ( n − 1) ~  n2-1
 Regula de decizie
 Dacă  2  2 ;(n −1)  se respinge H0
 Dacă  2  2 ;(n −1)  se acceptă H0
Exemplul 4
 Trei evaluatori au fost rugati sa claseze in ordinea preferintei lor 10 filme (cu ranguri de la 1 la 10):

 k ( n + 1) 
2 2
 3 * 11 
n

 SRi − n
2

 2 
 3043 − 10
 2 

W= i =1
= =
SRi2 1 2 3 1
A B C SRi k (n − n) * 9 * (1000 − 10)
1 7 6 14 12 12
196
− 320.5
5 6 4 15 225 = = 0.43
742.5
6 2 8 16 256
7 5 5 17 289 H0: Nu există acord între clasamente
10 9 10 29 841
HA: Există acord între clasamente
4 3 1 8 64
8 1 3 12 144  2 = Wk (n − 1) = 0.43 * 3 * 9 = 11 .61
3 10 9 22 484
9 4 7 20  02.05;(10−1) = 16.92
400
2 8 2 12 144
 2  2 ;(n −1)  se acceptă H0
 Nu exista acord intre clasamente
SINTEZA
Variabile binare Variabile nominale Variabile ordinale Variabile cantitative
Variabile binare Coeficientul de Coeficientul de Coeficient de corelatie
contingenţă 2 contingenţă 2 punct biserial
Coeficientul de asociere Coeficientul de
Phi contingenţă Pearson (cc)
Coeficientul de Coeficientul V Cramer
contingenţă Pearson (cc)

Variabile nominale Coeficientul de Coeficientul de Coeficientul de contingenţă


contingenţă 2 contingenţă 2 2
Coeficientul de Coeficientul de Coeficientul de contingenţă
contingenţă Pearson (cc) contingenţă Pearson (cc) Pearson (cc)
Coeficientul V Cramer Coeficientul V Cramer Coeficientul V Cramer
Coeficientul de asociere Coeficientul de asociere  Coeficientul de asociere 
 (lambda) (lambda) (lambda)

Variabile ordinale Coeficientul lui Kendall


Coeficientul de asociere 

Variabile cantitative Coeficientul lui Spearman


Coeficientul de concordanţă
W Kendall
Probleme rezolvate
Exemplul 1
 Un grup de studenți au fost clasificați în termeni de personalitate (introvertit sau extrovertit), precum și în
ceea ce privește preferința unei culori (roșu, galben, verde sau albastru), cu scopul de a vedea dacă există o
asociere (relație) între personalitate și culoarea preferată. Datele au fost colectate de la 400 de studenți:

Roșu Galben Verde Albastru Total


Introvertit 20 6 30 44 100
Extrovertit 180 34 50 36 300
Total 200 40 80 80 400
Exemplul 1
Valorile așteptate
Roșu Galben Verde Albastru
 02.05;(4−1)(2−1) =  02.05;3 = 7.81
Introvertit 50 10 20 20
Extrovertit 150 30 60 60
2
 ni.n. j 
 n
r  ij
− 
 = 
2
s
 n  =
(20 − 50) (6 − 10)
2
+
2
+ ... = 71.2  9.49
n n 50 10 Se respinge H0
j =1 i =1 i . . j

n
Preferința unei culori este asociată semnificativ cu personalitatea.
2 71.2
cc = = = 0.39
2 +n 71.2 + 400 Asocierea dintre preferința unei
culori și personalitatea este de
2 71.2 intensitate medie.
v= = = 0.42
n(l − 1) 400(2 − 1)
Prin examinarea datelor se observă faptul că introvertiții preferă albastrul în timp ce
extrovertiții preferă roșul.
Exemplul 2
 În ce măsură genul se asociază cu calitatea de fumător/nefumător?

Calitate fumător
Fumător Nefumător
Gen biologic Masculin 35 64
Feminin 23 84

Calitate fumător
Fumător Nefumător
Gen biologic Masculin 35 64
Feminin 23 84
Exemplul 2
Valori așteptate Calitate fumător
Fumător Nefumător  02.05;(2−1)(2−1) =  02.05;1 = 3.84
Gen Masculin 27.87378641 71.12621359
biologic Feminin 30.12621359 76.87378641
2
 ni.n. j 
 n
r  ij
− 
 = (35 − 28) + (64 − 71) + ... = 4.88  3.84
2 2
 =  
s
2 n
ni.n. j 28 71 Se respinge H0
j =1 i =1

n
Genul este asociat semnificativ cu calitatea de fumător.

2 4.88 Asocierea dintre gen și calitatea


Phi = = = 0.15 de fumător este de intensitate
n 206
redusă.

Prin examinarea datelor se observă faptul că persoanele de sex feminin sunt mai adesea
nefumătoare.
Intrebari si probleme propuse
spre rezolvare
Intrebari
 Există numeroase partide politice, iar susținătorii acestora fac deseori afirmații eronate. Una
dintre ele este ca femeile nu ar trebui sa voteze deoerece exista o corelatie puternică între
statutul de femeie și preferința pentru partidul A. Din punct de vedere pur statistic, ce este în
neregulă cu aceasta afirmație ?

 Într-un spital de psihiatrie, cercetătorii încearcă să examineze relația dintre diagnosticul psihologic
și numărul de tentative de suicid. S-ar lua în considerare diagnosticul de "schizofrenie"
 un element analizat (o unitate statistică)
 un nivel al variabilei
 un factor

 Ce indicator se poate utiliza pentru a măsura intensitatea asocierii dintre două variabile nominale
nebinare?
a. Coeficientul de asociere Phi b. Coeficientul de contingentă 2
c. Coeficientul lui Spearman d. Coeficientul de asociere Gamma

 Coeficientul de concordanţă W al lui Kendall:


a. Se poate folosi pentru variabile nominale b. Măsoară gradul de concordanţă între mai multe clasamente
c. Este un indicator directional d. Variază între -1 şi 1
Exemplu

 100 de cetățeni selectați aleator sunt rugați în cadrul unui sondaj să-și spună opinia
cu privire la un act normativ recent intrat în vigoare. Rezultatele sistematizate sunt
următoarele:
Sex Opinia
Pro Contra Nu ştiu
Masculin 22 10 3
Feminin 12 45 8

 Analizaţi legătura între variabilele Gen şi Opinia privind actul normativ folosind un
coeficient de asociere adecvat. Interpretați rezultatul.
 Să se testeze acest coeficient ştiind că 20,05;1 = 3,84.
Exemplu

 Analizaţi legătura între variabilele Gen şi Faptul că individul a trait cu un partener


fără a fi căsătoriţi. Interpretaţi rezultatele din SPSS (nume indicator/indicatori, de ce
a/au fost utilizaţi, interpretarea şi semnificaţia lor).

S-ar putea să vă placă și