Curs-7,8 - Statistica-Neparametrica 2015

Statistică neparametrică
Modele de predicție cu variabile calitative
Curs 7, 8 - Aprilie 2015

Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Introducere
Variabile
Variabile Metode de regresie endogene
exogene folosind variabile binare cantitative
calitative
Variabile 1. Arbori de clasificare Variabile

exogene CART/CHAID endogene
Calitative/canti calitative
2. Regresia Logit/Probit
tative
INPUT METODA OUTPUT

Metode de regresie folosind variabile binare
 Uneori este de dorit ca în modelul de predicție variabilele independente să
fie calitative, mai degrabă decât cantitative. Modelul de regresie poate fi ușor
adaptat pentru un astfel de caz prin introducerea de variabile dummy în
modelul de regresie clasic.
 De fapt se estimează un model de regresie ce va face distincție între mai
multe populații independente (determinate de variabila calitative dependentă
inclusă în model).
 Să considerăm cazul în care:
 Yi este variabila endogenă
 X1i este o variabilă cantitativă exogenă
 X2i este o luare variabilă calitativă ce poate lua valorile 0 sau 1
 X1i X2i este interacțiunea factorilor X1i și X2i. Variabila X2i este o variabilă indicator ce face
distincția între cele două populații.
Yi   0  1 X 1i   2 X 2i   3 X 1i X 2i   i
Exemplu
Departa
 Pentru angajații unei companii se dorește Salariat Salariul Gen
ment
Vechime
1 38 0 1 0
determinarea unui model de previziune a salariului 2 58 1 2 8
în funcție de gen (0- Masculin, 1 – Feminin), 3

4
80
30
1
1
3
1
9
0
departament (1 – Resurse umane; 2 – Financiar 5 50 1 3 0
Contabil; 3 – IT) și vechime.

6 49 1 3 1
7 45 0 1 4
8 42 1 2 0
9 59 0 3 3
10 47 1 1 0
11 34 0 1 3
12 53 0 3 0
13 35 1 1 1
14 42 0 2 2
15 42 0 2 2
16 51 0 2 7
17 51 1 1 8
18 40 0 2 3
19 48 1 1 1
20 34 1 1 7
21 46 1 1 2
22 45 0 2 6
23 50 1 3 2
24 61 0 3 3
25 62 1 1 2
26 51 0 3 8
27 59 0 3 0
28 65 1 3 5
29 49 0 3 0
30 37 1 1 9
Exemplu
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.260622961
R Square 0.067924328
Adjusted R Square -0.001118315
Standard Error 10.79773863
Observations 30
MODEL 2
ANOVA
df SS MS F Significance F SUMMARY OUTPUT
Regression 2 229.4053597 114.7027 0.983803 0.386892966
Residual 27 3147.961307 116.5912 Regression Statistics
Total 29 3377.366667 Multiple R 0.708055409
R Square 0.501342462
Coefficients Standard Error t Stat P-value
Adjusted R Square 0.421557256
Intercept 45.19404156 3.45162324 13.09356 3.29E-13
Vechime 0.884961419 0.646598915 1.36864 0.182392
Observations 30
Gen 0.763903564 3.965246052 0.19265 0.848675
ANOVA
MODEL 1 df SS MS F Significance F
Regression 4 1693.21732 423.3043 6.283652 0.001213031
Residual 25 1684.149347 67.36597
Total 29 3377.366667

Intercept 52.47880581 3.129694017 16.76803 4.13E-15
Vechime 1.002959101 0.499135577 2.009392 0.055408
Gen 3.528280785 3.267709667 1.079741 0.290565
Resurse Umane -15.96747363 3.557555488 -4.48833 0.00014
Financiar Contabil -11.78443673 4.059592344 -2.90286 0.007616
Exemplu
MODEL 3
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.691439256
R Square 0.478088244
Adjusted R Square 0.417867657
Observations 30
ANOVA
df SS MS F Significance F
Regression 3 1614.6793 538.2264 7.93895 0.000640071
Residual 26 1762.687367 67.79567
Total 29 3377.366667

Intercept 53.89572584 2.850334309 18.90856 1.02E-16
Vechime 1.069258575 0.496921573 2.151765 0.040879
Resurse Umane -14.94260644 3.439511899 -4.3444 0.00019
Financiar Contabil -12.45847442 4.024080657 -3.09598 0.004656
METODE DE CLASIFICARE BAZATE PE
ARBORI: CHAID, CART
 Metodele de clasificare bazate pe arborii de clasificare sunt folosite
pentru prezicerea apartenenţei unităţilor statistice în clase ale unei
variabile dependente categoriale, pe baza măsurătorilor efectuate
asupra unuia sau mai multor predictori. Arborii de clasificare sunt
principala tehnică utilizată în data mining.
 În continuare vom studia două metode de clasificare bazate pe

arbori:
 CHAID
 CART

Metoda CHAID
 Metoda CHAID (Chi-square automatic interaction detection) se bazează pe o
procedură de analiză de varianţă. Ea este folosită în condiţiile în care:
 există o variabilă dependentă categorială (cu mai multe modalităţi)
 există o mulţime de variabile independente categoriale (în cazul în care variabilele
sunt continue ele trebuie transformate)
 În orice punct al analizei CHAID se analizează câte un subgrup de unităţi şi

este identificat cel mai bun predictor.
 Ideea analizei este următoarea: având o mulţime de variabile independente cu

mai multe categorii, categoriile cele mai apropiate vor fuziona. Problema
devine: care categorii vor fuziona cel mai bine (pentru obţinerea unei
omogenităţi cât mai mari).
 Acest lucru se poate face în doi paşi:

 vor fi căutate categoriile din cadrul aceleiaşi variabile independente care vor fuziona;
 se determină variabilele folosite pentru ramificarea arborelui;
 acest lucru se face până într-un anumit punct dat de un criteriu de oprire.
Algorimul CHAID
 Stadiul I – Fuzionarea categoriilor pentru fiecare variabilă independentă
 1. Se construieşte un tabel de frecvenţe bidimendional pentru variabila dependentă cu
variabila independentă ale cărei categorii dorim să le fuzionăm;
 2. Se calculează statistica 2 pentru independenţă, pentru fiecare pereche de categorii
şi valoarea p asociată (probabilitatea ca ipoteza de independenţă să fie acceptată):
 n n 
2
unde nij – frecvenţele
 n ij  i. . j 
s r  n  ni.,n.j – sunt totalurile pe linii şi coloane
  
2  ~  2r 1s 1
j1 i 1 n i. n . j
n
 3. Se determină perechea cu cea mai mare valoare p. În cazul în care această valoare este
mai mare decât un nivel de semnificaţie prestabilit (0,05), cele două categorii vor fuziona.
 4. În cazul în care există doar două categorii care pot fuziona, valoarea p calculată
este ajustată folosind multiplicatorul Bonferroni:
r 1 (r  i ) c unde c = numărul de categorii ale variabilei independente
B   (1) i r = numărul de categorii care au fuzionat
i 0 i!(r  i )!
(câte categorii are mai puţin variabila independentă)
 Dacă această valoare este mai mare decât nivelul de semnificaţie prestabilit, atunci
cele două categorii vor fuziona.
 5. Se repetă paşii 1-5 pentru toate variabilele independente.

Algorimul CHAID
 Stadiul II – Ramificarea arborelui
 Nodul se ramifică în funcţie de variabila pentru care s-a obţinut cea mai mică valoare
p ajustată în urma fuzionărilor, mai mică decât nivelul de semnificaţie prestabilit.
 Stadiul III – Condiţia de oprire
 Se reia Stadiul I, pasul 1, pentru analiza subgrupului următor.
 Acest algoritm este reluat până când nici o variabilă independentă nu mai are o
valoare p semnificativă sau când un subgrup conţine prea puţine observaţii.
 Y
nY=1
nY=2
nY=3
X1
1 2 3
nY=1,X1=1 nY=1,X1=2 nY=1,X1=3
n Y=2,X1=1 n Y=2,X1=2 n Y=2,X1=3
n Y=3,X1=1 n Y=3,X1=2 n Y=3,X1=3
X2 X3
1 2 1 2
nY=1,X1=1,X2=1 nY=1,X1=1,X2=2 nY=1,X1=2,X3=1 nY=1,X1=2,X3=2
n Y=2,X1=1,X2=1 n Y=2,X1=1,X2=2 n Y=2,X1=2,X3=1 n Y=2,X1=2,X3=2
n Y=3,X1=1,X2=1 n Y=3,X1=1,X2=2 n Y=3,X1=2,X3=1 n Y=3,X1=2,X3=2
Exemplu
 Se urmăreşte determinarea unui arbore de clasificare pentru
variabila dependentă: „segmentul de piaţă” şi variabilele
independente: „vârsta” (14-34 ani; 35-55 ani; peste 56 ani),
„categoria socio-profesională” (elev, student; salariat; casnic,
pensionar, șomer; alte ocupaţii) şi „venitul în RON” (sub 1500; 1500
– 5000; 5000 – 8 500; peste 8 500).
segment segment
1 2 3 1 2 3
1 0 12 8 1 6 22 20
ocupaţie
venit
2 10 44 34 2 4 36 12
3 6 18 20 3 6 26 30
4 0 22 6 4 0 12 6
segment
1 2 3
1 2 36 22
vârsta
2 10 40 34
3 4 20 12
Exemplu
 În continuare vor fi calculate statisticile 2 pentru toate combinaţiile de câte două
categorii în cadrul fiecărei variabile.
 Vom studia întâi variabila OCUPAȚIE
Categorii grupate 2 Număr grade de libertate p
1,2 2,57551 2 0,275889
2,4 7,791019 2 0,020333
1,3 3,924041 2 0,140574
2,3 1,161711 2 0,559419
1,4 2,339736 1 0,126111
3,4 10,50831 2 0,005226
1,(2,3) 2,988222 2 0,224448
1,4 2,339736 1 0,126111
(2,3),4 9,590572 2 0,008269
(1,(2,3)),4 8,776751 2 0,012421
Valoarea p ajustată cu multiplicatorul Bonferroni (0,0124217) este 0,084 mai

mare decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila VENIT
1,2 5,56301 2 0,061945
1,3 0,701727 2 0,70408
1,4 3,837566 2 0,146786
2,3 8,76375 2 0,012502
2,4 2,464646 2 0,291614
3,4 4,464851 2 0,107268
2,(1,3) 9,266723 2 0,009722
2,4 2,464646 2 0,291614
(1,3),4 4,307451 2 0,116051
(1,3),(2,4) 10,53878 2 0,005147

mică decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila VÂRSTA
1,2 4,214279 2 0,121585
1,3 2,445671 2 0,294394
2,3 0,903214 2 0,636604

1,(2,3) 3,889585 2 0,143017

mare decât nivelul de semnificaţie stabilit de 0,05.
Exemplu
 Variabila folosită pentru ramificare va fi VENITUL deoarece pentru aceasta
se obţine cea mai mică valoare p ajustată, mai mică decât nivelul de
semnificaţie stabilit
Segmentul n %__
1 16 8,9
2 96 53,3
3 68 37,8
VENIT
pajustat = 0,036; 2=10,53878; număr grade de libertate = 2
1,3 2,4
Segmentul n %__ Segmentul n %__
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7
 Reluăm stadiul I pentru fiecare din cele două ramuri. Luând ca o condiţie de
oprire, momentul în care valoarea p ajustată cu multiplicatorul Bonferroni
este mai mare decât un nivel de semnificaţie de 0,1
Segmentul n %__
1 16 8,9
2 96 53,3
Exemplu 3 68 37,8
VENIT
1,3 2,4
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7
OCUPAŢIE
2,3 1,4
1 12 15,4 1 4
0 0
2 28 35,9 2 48
20 62,5
3 38 48,7 3 18
12 37,5
VÂRSTĂ
1,3 2
1 6 16,7 1 6 14,3
2 18 50,0 2 10 23,8
3 12 33,3 3 26 61,9
Metoda CART
 O tehnică foarte asemănătoare celei prezentate anterior este clasificarea
bazată pe arbori de regresie CART, tehnică dezvoltată de Breiman (1984).
Rezultatele obţinute folosind această tehnică sunt tot un arbore. Diferenţa
majoră faţă de CHAID este că variabilele independente pot fi continue.
Ramificările şi fuziunile se bazează pe o măsură de omogenitate între
segmentele formate.
 În determinarea arborelui de clasificare trebuie specificat criteriul pentru

măsurarea acurateţii predictive, trebuie selectate o metodă de partiţionare şi
un criteriu de oprire. Principalii paşi parcurşi pentru determinarea arborelui
sunt prezentaţi în continuare.
Algoritmul CART
 PAS 1: Specificarea criteriului pentru măsurarea acurateţii predictive
 Scopul construirii arborilor de clasificare este obţinerea unei cât mai bune acurateţi
predictive. Acurateţea predictivă cea mai bună este operaţional definită ca predicţia
cu costul minim. De cele mai multe ori costul minim corespunde proporţiei cazurilor
prost clasificate adesea ajustate cu probabilităţile a priori folosite pentru ajustarea
importanţei clasificării eronate în fiecare clasă (proporţionale cu mărimea claselor).
 Există situaţii când se lucrează cu unităţi complexe de dimensiuni diferite (cu
număr diferit de unităţi simple incluse), caz în care costului i se mai adaugă şi
ponderea unităţilor complexe.
 PAS 2: Selectarea metodei de ramificare a arborelui
 Deoarece variabilele predictive nu mai sunt categoriale, fiind măsurate pe o scală
cardinală, în locul statisticii 2 (utilizată în metoda CHAID) va fi aplicată o ANOVA
pentru testarea legăturii între clase (segmente) şi valorile predictorilor. Vor fi
calculate statistici F şi valorile p asociate. Variabila cu cea mai mică valoare p
calculată şi ajustată cu multiplicatorul Bonferoni, valoare mai mică decât nivelul de
semnificaţie prestabilit, este aleasă pentru ramificarea nodului.
 PAS 3: Specificarea condiţiei de oprire
 În cazul în care nu este specificată nici o condiţie de oprire, arborele se va ramifica
până când fiecare nod va conţine câte o singură observaţie.


Curs-7,8 - Statistica-Neparametrica 2015

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs-7,8 - Statistica-Neparametrica 2015

Încărcat de

Drepturi de autor:

Formate disponibile

Statistică neparametrică

Modele de predicție cu variabile calitative

Curs 7, 8 - Aprilie 2015

Variabile 1. Arbori de clasificare Variabile

INPUT METODA OUTPUT

în funcție de gen (0- Masculin, 1 – Feminin), 3

Contabil; 3 – IT) și vechime.

Coefficients Standard Error t Stat P-value

Coefficients Standard Error t Stat P-value

 În continuare vom studia două metode de clasificare bazate pe

 În orice punct al analizei CHAID se analizează câte un subgrup de unităţi şi

 Ideea analizei este următoarea: având o mulţime de variabile independente cu

 Acest lucru se poate face în doi paşi:

Valoarea p ajustată cu multiplicatorul Bonferroni (0,0124217) este 0,084 mai

Valoarea p ajustată cu multiplicatorul Bonferroni (0,0051477) este 0,036 mai

Categorii grupate 2 Număr grade de libertate p

Valoarea p ajustată cu multiplicatorul Bonferroni (0,1430173) este 0,429 mai

 În determinarea arborelui de clasificare trebuie specificat criteriul pentru

S-ar putea să vă placă și