Sunteți pe pagina 1din 18

Statistică neparametrică

Modele de predicție cu variabile calitative

Curs 7, 8 - Aprilie 2015


Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Introducere

Variabile
Variabile Metode de regresie endogene
exogene folosind variabile binare cantitative
calitative

Variabile 1. Arbori de clasificare Variabile


exogene CART/CHAID endogene
Calitative/canti calitative
2. Regresia Logit/Probit
tative

INPUT METODA OUTPUT


Metode de regresie folosind variabile binare
 Uneori este de dorit ca în modelul de predicție variabilele independente să
fie calitative, mai degrabă decât cantitative. Modelul de regresie poate fi ușor
adaptat pentru un astfel de caz prin introducerea de variabile dummy în
modelul de regresie clasic.
 De fapt se estimează un model de regresie ce va face distincție între mai
multe populații independente (determinate de variabila calitative dependentă
inclusă în model).
 Să considerăm cazul în care:
 Yi este variabila endogenă
 X1i este o variabilă cantitativă exogenă
 X2i este o luare variabilă calitativă ce poate lua valorile 0 sau 1
 X1i X2i este interacțiunea factorilor X1i și X2i. Variabila X2i este o variabilă indicator ce face
distincția între cele două populații.

Yi   0  1 X 1i   2 X 2i   3 X 1i X 2i   i
Exemplu
Departa
 Pentru angajații unei companii se dorește Salariat Salariul Gen
ment
Vechime

1 38 0 1 0
determinarea unui model de previziune a salariului 2 58 1 2 8

în funcție de gen (0- Masculin, 1 – Feminin), 3


4
80
30
1
1
3
1
9
0
departament (1 – Resurse umane; 2 – Financiar 5 50 1 3 0

Contabil; 3 – IT) și vechime.


6 49 1 3 1
7 45 0 1 4
8 42 1 2 0
9 59 0 3 3
10 47 1 1 0
11 34 0 1 3
12 53 0 3 0
13 35 1 1 1
14 42 0 2 2
15 42 0 2 2
16 51 0 2 7
17 51 1 1 8
18 40 0 2 3
19 48 1 1 1
20 34 1 1 7
21 46 1 1 2
22 45 0 2 6
23 50 1 3 2
24 61 0 3 3
25 62 1 1 2
26 51 0 3 8
27 59 0 3 0
28 65 1 3 5
29 49 0 3 0
30 37 1 1 9
Exemplu
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.260622961
R Square 0.067924328
Adjusted R Square -0.001118315
Standard Error 10.79773863
Observations 30
MODEL 2
ANOVA
df SS MS F Significance F SUMMARY OUTPUT
Regression 2 229.4053597 114.7027 0.983803 0.386892966
Residual 27 3147.961307 116.5912 Regression Statistics
Total 29 3377.366667 Multiple R 0.708055409
R Square 0.501342462
Coefficients Standard Error t Stat P-value
Adjusted R Square 0.421557256
Intercept 45.19404156 3.45162324 13.09356 3.29E-13
Standard Error 8.20767774
Vechime 0.884961419 0.646598915 1.36864 0.182392
Observations 30
Gen 0.763903564 3.965246052 0.19265 0.848675

ANOVA
MODEL 1 df SS MS F Significance F
Regression 4 1693.21732 423.3043 6.283652 0.001213031
Residual 25 1684.149347 67.36597
Total 29 3377.366667

Coefficients Standard Error t Stat P-value


Intercept 52.47880581 3.129694017 16.76803 4.13E-15
Vechime 1.002959101 0.499135577 2.009392 0.055408
Gen 3.528280785 3.267709667 1.079741 0.290565
Resurse Umane -15.96747363 3.557555488 -4.48833 0.00014
Financiar Contabil -11.78443673 4.059592344 -2.90286 0.007616
Exemplu
MODEL 3

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.691439256
R Square 0.478088244
Adjusted R Square 0.417867657
Standard Error 8.23381248
Observations 30

ANOVA
df SS MS F Significance F
Regression 3 1614.6793 538.2264 7.93895 0.000640071
Residual 26 1762.687367 67.79567
Total 29 3377.366667

Coefficients Standard Error t Stat P-value


Intercept 53.89572584 2.850334309 18.90856 1.02E-16
Vechime 1.069258575 0.496921573 2.151765 0.040879
Resurse Umane -14.94260644 3.439511899 -4.3444 0.00019
Financiar Contabil -12.45847442 4.024080657 -3.09598 0.004656
METODE DE CLASIFICARE BAZATE PE
ARBORI: CHAID, CART
 Metodele de clasificare bazate pe arborii de clasificare sunt folosite
pentru prezicerea apartenenţei unităţilor statistice în clase ale unei
variabile dependente categoriale, pe baza măsurătorilor efectuate
asupra unuia sau mai multor predictori. Arborii de clasificare sunt
principala tehnică utilizată în data mining.

 În continuare vom studia două metode de clasificare bazate pe


arbori:
 CHAID
 CART


Metoda CHAID
 Metoda CHAID (Chi-square automatic interaction detection) se bazează pe o
procedură de analiză de varianţă. Ea este folosită în condiţiile în care:
 există o variabilă dependentă categorială (cu mai multe modalităţi)
 există o mulţime de variabile independente categoriale (în cazul în care variabilele
sunt continue ele trebuie transformate)

 În orice punct al analizei CHAID se analizează câte un subgrup de unităţi şi


este identificat cel mai bun predictor.

 Ideea analizei este următoarea: având o mulţime de variabile independente cu


mai multe categorii, categoriile cele mai apropiate vor fuziona. Problema
devine: care categorii vor fuziona cel mai bine (pentru obţinerea unei
omogenităţi cât mai mari).

 Acest lucru se poate face în doi paşi:


 vor fi căutate categoriile din cadrul aceleiaşi variabile independente care vor fuziona;
 se determină variabilele folosite pentru ramificarea arborelui;
 acest lucru se face până într-un anumit punct dat de un criteriu de oprire.
Algorimul CHAID
 Stadiul I – Fuzionarea categoriilor pentru fiecare variabilă independentă
 1. Se construieşte un tabel de frecvenţe bidimendional pentru variabila dependentă cu
variabila independentă ale cărei categorii dorim să le fuzionăm;
 2. Se calculează statistica 2 pentru independenţă, pentru fiecare pereche de categorii
şi valoarea p asociată (probabilitatea ca ipoteza de independenţă să fie acceptată):
 n n 
2
unde nij – frecvenţele
 n ij  i. . j 
s r  n  ni.,n.j – sunt totalurile pe linii şi coloane
  
2  ~  2r 1s 1
j1 i 1 n i. n . j
n
 3. Se determină perechea cu cea mai mare valoare p. În cazul în care această valoare este
mai mare decât un nivel de semnificaţie prestabilit (0,05), cele două categorii vor fuziona.
 4. În cazul în care există doar două categorii care pot fuziona, valoarea p calculată
este ajustată folosind multiplicatorul Bonferroni:
r 1 (r  i ) c unde c = numărul de categorii ale variabilei independente
B   (1) i r = numărul de categorii care au fuzionat
i 0 i!(r  i )!
(câte categorii are mai puţin variabila independentă)
 Dacă această valoare este mai mare decât nivelul de semnificaţie prestabilit, atunci
cele două categorii vor fuziona.
 5. Se repetă paşii 1-5 pentru toate variabilele independente.

Algorimul CHAID
 Stadiul II – Ramificarea arborelui
 Nodul se ramifică în funcţie de variabila pentru care s-a obţinut cea mai mică valoare
p ajustată în urma fuzionărilor, mai mică decât nivelul de semnificaţie prestabilit.
 Stadiul III – Condiţia de oprire
 Se reia Stadiul I, pasul 1, pentru analiza subgrupului următor.
 Acest algoritm este reluat până când nici o variabilă independentă nu mai are o
valoare p semnificativă sau când un subgrup conţine prea puţine observaţii.
 Y

nY=1
nY=2
nY=3
X1

1 2 3
nY=1,X1=1 nY=1,X1=2 nY=1,X1=3
n Y=2,X1=1 n Y=2,X1=2 n Y=2,X1=3
n Y=3,X1=1 n Y=3,X1=2 n Y=3,X1=3
X2 X3

1 2 1 2
nY=1,X1=1,X2=1 nY=1,X1=1,X2=2 nY=1,X1=2,X3=1 nY=1,X1=2,X3=2
n Y=2,X1=1,X2=1 n Y=2,X1=1,X2=2 n Y=2,X1=2,X3=1 n Y=2,X1=2,X3=2
n Y=3,X1=1,X2=1 n Y=3,X1=1,X2=2 n Y=3,X1=2,X3=1 n Y=3,X1=2,X3=2
Exemplu
 Se urmăreşte determinarea unui arbore de clasificare pentru
variabila dependentă: „segmentul de piaţă” şi variabilele
independente: „vârsta” (14-34 ani; 35-55 ani; peste 56 ani),
„categoria socio-profesională” (elev, student; salariat; casnic,
pensionar, șomer; alte ocupaţii) şi „venitul în RON” (sub 1500; 1500
– 5000; 5000 – 8 500; peste 8 500).

segment segment
1 2 3 1 2 3
1 0 12 8 1 6 22 20
ocupaţie

venit
2 10 44 34 2 4 36 12
3 6 18 20 3 6 26 30
4 0 22 6 4 0 12 6

segment
1 2 3
1 2 36 22
vârsta

2 10 40 34
3 4 20 12
Exemplu
 În continuare vor fi calculate statisticile 2 pentru toate combinaţiile de câte două
categorii în cadrul fiecărei variabile.
 Vom studia întâi variabila OCUPAȚIE
Categorii grupate 2 Număr grade de libertate p
1,2 2,57551 2 0,275889
2,4 7,791019 2 0,020333
1,3 3,924041 2 0,140574
2,3 1,161711 2 0,559419
1,4 2,339736 1 0,126111
3,4 10,50831 2 0,005226
Categorii grupate 2 Număr grade de libertate p
1,(2,3) 2,988222 2 0,224448
1,4 2,339736 1 0,126111
(2,3),4 9,590572 2 0,008269
Categorii grupate 2 Număr grade de libertate p
(1,(2,3)),4 8,776751 2 0,012421

Valoarea p ajustată cu multiplicatorul Bonferroni (0,0124217) este 0,084 mai


mare decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila VENIT
Categorii grupate 2 Număr grade de libertate p
1,2 5,56301 2 0,061945
1,3 0,701727 2 0,70408
1,4 3,837566 2 0,146786
2,3 8,76375 2 0,012502
2,4 2,464646 2 0,291614
3,4 4,464851 2 0,107268
Categorii grupate 2 Număr grade de libertate p
2,(1,3) 9,266723 2 0,009722
2,4 2,464646 2 0,291614
(1,3),4 4,307451 2 0,116051
Categorii grupate 2 Număr grade de libertate p
(1,3),(2,4) 10,53878 2 0,005147

Valoarea p ajustată cu multiplicatorul Bonferroni (0,0051477) este 0,036 mai


mică decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila VÂRSTA
Categorii grupate 2 Număr grade de libertate p
1,2 4,214279 2 0,121585
1,3 2,445671 2 0,294394
2,3 0,903214 2 0,636604

Categorii grupate 2 Număr grade de libertate p


1,(2,3) 3,889585 2 0,143017

Valoarea p ajustată cu multiplicatorul Bonferroni (0,1430173) este 0,429 mai


mare decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila folosită pentru ramificare va fi VENITUL deoarece pentru aceasta
se obţine cea mai mică valoare p ajustată, mai mică decât nivelul de
semnificaţie stabilit
Segmentul n %__
1 16 8,9
2 96 53,3
3 68 37,8

VENIT
pajustat = 0,036; 2=10,53878; număr grade de libertate = 2

1,3 2,4
Segmentul n %__ Segmentul n %__
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7

 Reluăm stadiul I pentru fiecare din cele două ramuri. Luând ca o condiţie de
oprire, momentul în care valoarea p ajustată cu multiplicatorul Bonferroni
este mai mare decât un nivel de semnificaţie de 0,1
Segmentul n %__
1 16 8,9
2 96 53,3
Exemplu 3 68 37,8

VENIT
pajustat = 0,036; 2=10,53878; număr grade de libertate = 2

1,3 2,4
Segmentul n %__ Segmentul n %__
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7

OCUPAŢIE
pajustat = 0,08; 2=8,94; număr grade de libertate = 2

2,3 1,4
Segmentul n %__ Segmentul n %__
1 12 15,4 1 4
0 0
2 28 35,9 2 48
20 62,5
3 38 48,7 3 18
12 37,5

VÂRSTĂ
pajustat = 0,09; 2=6,88; număr grade de libertate = 2

1,3 2
Segmentul n %__ Segmentul n %__
1 6 16,7 1 6 14,3
2 18 50,0 2 10 23,8
3 12 33,3 3 26 61,9
Metoda CART
 O tehnică foarte asemănătoare celei prezentate anterior este clasificarea
bazată pe arbori de regresie CART, tehnică dezvoltată de Breiman (1984).
Rezultatele obţinute folosind această tehnică sunt tot un arbore. Diferenţa
majoră faţă de CHAID este că variabilele independente pot fi continue.
Ramificările şi fuziunile se bazează pe o măsură de omogenitate între
segmentele formate.

 În determinarea arborelui de clasificare trebuie specificat criteriul pentru


măsurarea acurateţii predictive, trebuie selectate o metodă de partiţionare şi
un criteriu de oprire. Principalii paşi parcurşi pentru determinarea arborelui
sunt prezentaţi în continuare.
Algoritmul CART
 PAS 1: Specificarea criteriului pentru măsurarea acurateţii predictive
 Scopul construirii arborilor de clasificare este obţinerea unei cât mai bune acurateţi
predictive. Acurateţea predictivă cea mai bună este operaţional definită ca predicţia
cu costul minim. De cele mai multe ori costul minim corespunde proporţiei cazurilor
prost clasificate adesea ajustate cu probabilităţile a priori folosite pentru ajustarea
importanţei clasificării eronate în fiecare clasă (proporţionale cu mărimea claselor).
 Există situaţii când se lucrează cu unităţi complexe de dimensiuni diferite (cu
număr diferit de unităţi simple incluse), caz în care costului i se mai adaugă şi
ponderea unităţilor complexe.
 PAS 2: Selectarea metodei de ramificare a arborelui
 Deoarece variabilele predictive nu mai sunt categoriale, fiind măsurate pe o scală
cardinală, în locul statisticii 2 (utilizată în metoda CHAID) va fi aplicată o ANOVA
pentru testarea legăturii între clase (segmente) şi valorile predictorilor. Vor fi
calculate statistici F şi valorile p asociate. Variabila cu cea mai mică valoare p
calculată şi ajustată cu multiplicatorul Bonferoni, valoare mai mică decât nivelul de
semnificaţie prestabilit, este aleasă pentru ramificarea nodului.
 PAS 3: Specificarea condiţiei de oprire
 În cazul în care nu este specificată nici o condiţie de oprire, arborele se va ramifica
până când fiecare nod va conţine câte o singură observaţie.

S-ar putea să vă placă și