Documente Academic
Documente Profesional
Documente Cultură
Variabile
Variabile Metode de regresie endogene
exogene folosind variabile binare cantitative
calitative
Yi 0 1 X 1i 2 X 2i 3 X 1i X 2i i
Exemplu
Departa
Pentru angajații unei companii se dorește Salariat Salariul Gen
ment
Vechime
1 38 0 1 0
determinarea unui model de previziune a salariului 2 58 1 2 8
Regression Statistics
Multiple R 0.260622961
R Square 0.067924328
Adjusted R Square -0.001118315
Standard Error 10.79773863
Observations 30
MODEL 2
ANOVA
df SS MS F Significance F SUMMARY OUTPUT
Regression 2 229.4053597 114.7027 0.983803 0.386892966
Residual 27 3147.961307 116.5912 Regression Statistics
Total 29 3377.366667 Multiple R 0.708055409
R Square 0.501342462
Coefficients Standard Error t Stat P-value
Adjusted R Square 0.421557256
Intercept 45.19404156 3.45162324 13.09356 3.29E-13
Standard Error 8.20767774
Vechime 0.884961419 0.646598915 1.36864 0.182392
Observations 30
Gen 0.763903564 3.965246052 0.19265 0.848675
ANOVA
MODEL 1 df SS MS F Significance F
Regression 4 1693.21732 423.3043 6.283652 0.001213031
Residual 25 1684.149347 67.36597
Total 29 3377.366667
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.691439256
R Square 0.478088244
Adjusted R Square 0.417867657
Standard Error 8.23381248
Observations 30
ANOVA
df SS MS F Significance F
Regression 3 1614.6793 538.2264 7.93895 0.000640071
Residual 26 1762.687367 67.79567
Total 29 3377.366667
Metoda CHAID
Metoda CHAID (Chi-square automatic interaction detection) se bazează pe o
procedură de analiză de varianţă. Ea este folosită în condiţiile în care:
există o variabilă dependentă categorială (cu mai multe modalităţi)
există o mulţime de variabile independente categoriale (în cazul în care variabilele
sunt continue ele trebuie transformate)
nY=1
nY=2
nY=3
X1
1 2 3
nY=1,X1=1 nY=1,X1=2 nY=1,X1=3
n Y=2,X1=1 n Y=2,X1=2 n Y=2,X1=3
n Y=3,X1=1 n Y=3,X1=2 n Y=3,X1=3
X2 X3
1 2 1 2
nY=1,X1=1,X2=1 nY=1,X1=1,X2=2 nY=1,X1=2,X3=1 nY=1,X1=2,X3=2
n Y=2,X1=1,X2=1 n Y=2,X1=1,X2=2 n Y=2,X1=2,X3=1 n Y=2,X1=2,X3=2
n Y=3,X1=1,X2=1 n Y=3,X1=1,X2=2 n Y=3,X1=2,X3=1 n Y=3,X1=2,X3=2
Exemplu
Se urmăreşte determinarea unui arbore de clasificare pentru
variabila dependentă: „segmentul de piaţă” şi variabilele
independente: „vârsta” (14-34 ani; 35-55 ani; peste 56 ani),
„categoria socio-profesională” (elev, student; salariat; casnic,
pensionar, șomer; alte ocupaţii) şi „venitul în RON” (sub 1500; 1500
– 5000; 5000 – 8 500; peste 8 500).
segment segment
1 2 3 1 2 3
1 0 12 8 1 6 22 20
ocupaţie
venit
2 10 44 34 2 4 36 12
3 6 18 20 3 6 26 30
4 0 22 6 4 0 12 6
segment
1 2 3
1 2 36 22
vârsta
2 10 40 34
3 4 20 12
Exemplu
În continuare vor fi calculate statisticile 2 pentru toate combinaţiile de câte două
categorii în cadrul fiecărei variabile.
Vom studia întâi variabila OCUPAȚIE
Categorii grupate 2 Număr grade de libertate p
1,2 2,57551 2 0,275889
2,4 7,791019 2 0,020333
1,3 3,924041 2 0,140574
2,3 1,161711 2 0,559419
1,4 2,339736 1 0,126111
3,4 10,50831 2 0,005226
Categorii grupate 2 Număr grade de libertate p
1,(2,3) 2,988222 2 0,224448
1,4 2,339736 1 0,126111
(2,3),4 9,590572 2 0,008269
Categorii grupate 2 Număr grade de libertate p
(1,(2,3)),4 8,776751 2 0,012421
VENIT
pajustat = 0,036; 2=10,53878; număr grade de libertate = 2
1,3 2,4
Segmentul n %__ Segmentul n %__
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7
Reluăm stadiul I pentru fiecare din cele două ramuri. Luând ca o condiţie de
oprire, momentul în care valoarea p ajustată cu multiplicatorul Bonferroni
este mai mare decât un nivel de semnificaţie de 0,1
Segmentul n %__
1 16 8,9
2 96 53,3
Exemplu 3 68 37,8
VENIT
pajustat = 0,036; 2=10,53878; număr grade de libertate = 2
1,3 2,4
Segmentul n %__ Segmentul n %__
1 12 10,9 1 4 5,7
2 48 43,6 2 48 68,6
3 50 45,5 3 18 25,7
OCUPAŢIE
pajustat = 0,08; 2=8,94; număr grade de libertate = 2
2,3 1,4
Segmentul n %__ Segmentul n %__
1 12 15,4 1 4
0 0
2 28 35,9 2 48
20 62,5
3 38 48,7 3 18
12 37,5
VÂRSTĂ
pajustat = 0,09; 2=6,88; număr grade de libertate = 2
1,3 2
Segmentul n %__ Segmentul n %__
1 6 16,7 1 6 14,3
2 18 50,0 2 10 23,8
3 12 33,3 3 26 61,9
Metoda CART
O tehnică foarte asemănătoare celei prezentate anterior este clasificarea
bazată pe arbori de regresie CART, tehnică dezvoltată de Breiman (1984).
Rezultatele obţinute folosind această tehnică sunt tot un arbore. Diferenţa
majoră faţă de CHAID este că variabilele independente pot fi continue.
Ramificările şi fuziunile se bazează pe o măsură de omogenitate între
segmentele formate.