Documente Academic
Documente Profesional
Documente Cultură
y=b 0+ b1 x1 +b 2 x 2+ +b k x k (55.1)
unde y este variabila de grupare, cu x sunt notate variabilele predictive (independente), iar b sunt
coeficienii funciei. Aceti coeficieni arat contribuia fiecrei variabile independente la
explicarea variabilei de grupare sau, altfel spus, la clasificarea cazurilor ntr-unul sau altul
dintre grupuri.
Analiza disciminantului poate fi inclus fr teama de a grei n categoria tehnicilor de
clasificare, deoarece, la fel ca la analiza cluster, cazurile asemntoare ntre ele sunt incluse n
aceeai categorie sau clas.
Iat un exemplu de situaie n care analiza discriminantului i gsete utilitatea. S
presupunem c trebuie s prezicem probabilitatea ca o persoan s-i cumpere main de teren,
n funcie de o serie de caracteristici ale sale, att economice i demografice (vrsta, venitul,
numrul de membri ai familiei, distana de la locuin pn la serviciu etc.), ct i psihometrice
(imaginea despre sine, nclinaia spre risc i aventur etc.). Analiza funciei discriminant va grupa
subiecii n aceste dou categorii (cumpr/nu cumpr main de teren), utiliznd variabilele
explicative menionate. Astfel, cunoscnd profilul demografic i psihografic al unei persoane
vom putea cunoate, cu un oarecare grad de precizie, dac exist anse ca persoana respectiv s
cumpere o main de teren n viitorul apropiat.
Tot n marketing, analiza discriminantului se folosete pentru a releva deosebirile dintre
categoriile de clieni ai firmei, cu scopul de a stabili strategii de marketing difereniate pe
segmente, n functie de aceste deosebiri. Vom apela la aceast tehnic dac dorim s aflm prin
ce trsturi se difereniaz clienii tineri de cei n vrst, clienii cu venituri mari de cei cu
venituri modeste, clienii din mediul urban de cei din mediul rural, clienii care cumpr frecvent
de cei care cumpr rar .a.m.d.
Condiiile care trebuie ndeplinite pentru a putea folosi analiza funciei discriminant sunt
urmtoarele:
1. Variabila dependent este nominal, grupurile sale fiind disjuncte.
2. Variabilele independente sunt continue sau ordinale.
3. Observaiile (msurtorile) sunt independente subiecii sunt selectai aleator.
4. Variabilele independente nu prezint valori extreme semnificative.
5. Variabilele independente sunt distribuite normal pe toate grupurile variabilei
dependente.
6. Varianele variabilelor independente sunt egale pentru toate grupurile variabilei
dependente.
7. Covarianele variabilelor independente sunt egale pentru toate grupurile variabilei
dependente.
8. Nu exist multicoliniaritate (corelaii foarte puternice ntre variabilele independente).
Trebuie s precizm c ndeplinirea tuturor condiiilor de mai sus (mai ales 5, 6 i 7) este
de multe ori greu de realizat n practic. Avnd n vedere c analiza discriminantului este relativ
robust la ncalcrile uoare ale acestor condiii, unii cercettori aleg s o foloseasc n orice
situaie. Totui, muli statisticieni prefer regresia logistic n locul analizei discriminatului, dac
nclcrile sunt semnificative.
Analiza functiei discriminant este de dou tipuri: simpl, dac variabila de grupare este
dihotomic, i multipl, dac variabila de grupare este multinomial. n continuare vom prezenta
cte un exemplu de analiz pentru fiecare din aceste tipuri, separat.
Pentru a ilustra modul de utilizare a acestei tehnici, vom folosi fiierul Employee
Data.sav (cu care cititorul este poate familiarizat). Reamintim c acest fiier (vezi figura 4.1)
conine informaii privind 474 de angajai ai unei bnci din Statele Unite ale Americii, la
nceputul anilor 90. Dorim s aflm care sunt cele mai importante diferene dintre angajaii
brbai i femei, prin prisma urmtoarelor variabile: salariul anual n dolari (salary), nivelul de
educaie n ani (educ), vechimea n banc n luni (jobtime) i experiena anterioar n luni
(prevexp).
Primele trei condiii din lista de mai sus sunt respectate. Acelai lucru se poate spune i
despre ultima condiie: corelaiile dintre cele patru variabile independente, luate dou cte dou,
sunt mai mici de 0.80. n ceea ce privete condiiile 4, 5 i 6, ele nu sunt din pcate ndeplinite:
unele variabile explicative (de exemplu salary) prezint valori extreme, majoritatea acestor
variabile nu sunt distribuite normal, iar varianele grupurilor nu sunt egale. De dragul exemplului
vom trece peste aceste inconveniente i vom efectua analiza discriminant. S nu uitm totui c
n practic avem ntotdeauna opinuea de a utiliza regresia logistic binomial n astfel de
situaii.
Penultima condiie, privind egalitatea covarianelor, o vom verifica n cursul analizei.
nainte de a trece la analiza discriminantului, avem de executat o operaiune preliminar:
recodificarea variabilei dependente gender. ntruct aceast variabil este de tip text, nu poate fi
introdus n analiz. Vom crea aadar o nou variabil (pe care o vom numi gen2), prin care
brbaii vor fi codificai cu 1, iar femeile cu 2. Caseta de dialog a operaiunii de recodificare va
arta astfel (pentru detalii vezi capitolul 3):
Acestea fiind spuse, putem apela procedura analizei discriminantului prin comanda
Analyze>Classify>Discriminant:
Fig. 55.2. Apelarea analizei discriminant
Selectnd apoi variabila gen2 apsm butonul Range. n noua caset de dialog
introducem cele dou valori ale variabilei n cmpurile Minimum i Maximum, dup cum se arat
n figura de mai jos:
Fig. 55.4. Definirea categoriilor variabilei dependente
Dup aceast operaiune, valorile 1 i 2 vor aprea ntre paranteze, n locul semnelor de
ntrebare, n cmpul Grouping Variable (figura 55.3).
Apsm apoi butonul Statistics i operm urmtoarele selecii n caseta de dialog:
Ultimul buton pe care l apsm este Save, dup care selectm opiunile urmtoare:
Aceast ultim cifr poate fi considerat o mrime a efectului pentru analiza discriminantului.
Tabelul de mai jos ne arat dac diferenele dintre mediile grupurilor, pentru fiecare
variabil explicativ n parte, sunt semnificative statistic:
Pentru fiecare variabil programul a calculat indicatorul al lui Wilks i a efectuat testul
F pentru acest indicator. Se observ c acest test nu este semnificativ pentru variabila jobtime,
ceea ce nseamn c vechimea n banc are o contribuie foarte redus la clasificarea angajailor
(sau, cu alte cuvinte, o putere de discriminare foarte mic). Indicatorul poate lua valori ntre 0
i 1; cu ct este mai mare, cu att contribuia variabilei respective la funcia discriminat este mai
slab.
Programul calculeaz i un indicator global, pentru ntreg modelul, precum i un test hi
ptrat pentru acest indicator:
Cu ct indicatorul din figura 55.11 este mai mic (mai apropiat de 0), cu att variabilele
independente explic mai bine variabila de grupare. Dac valoarea Sig. a testului hi ptrat este
mai mic dect 0.0005 (aa cum se ntmpl n cazul nostru) putem spune c modelul este
adecvat cu alte cuvinte, puterea de discriminare a variabilelor independente este suficient de
mare.
Tabelul de mai jos afieaz coeficienii b ai funciei discriminant (vezi ecuaia 55.1):
Fig. 55.12. Coeficienii funciei discriminant
Fig. 55.13. Variabila Dis1_1 coninnd valorile funciei discriminant pentru fiecare caz
(fragment)
Tabelul din figura 55.14 afieaz centroizii celor dou grupuri, adic mediile funciei
discriminant pentru brbai i femei:
Fig. 55.14. Centroizii grupurilor variabilei dependente
Cu ct centroizii sunt mai ndeprtai, cu att sunt anse mai mari ca funcia discriminant
s clasifice corect angajaii n cele dou grupuri. Testul hi ptrat din figura 55.11 ne spune dac
distana dintre centroizi este semnificativ statistic; n cazul nostru este, ntruct pentru testul
respectiv avem Sig.<0.0005.
Tabelul urmtor este foarte important pentru analiz. El ne arat care sunt variabilele
independente care discrimineaz cel mai bine cele dou categorii ale variabilei de grupare.
Acest tabel conine coeficienii de corelaie dintre funcia discriminant i fiecare variabil
explicativ. Coeficienii sunt afiai n ordinea descesctoare a valorilor absolute. Cu ct valoarea
absolut a unui coeficient de corelaie este mai apropiat de 1, cu att puterea de discriminare a
respectivei variabile este mai mare. n cazul nostru putem observa c brbaii i femeile din
populaia noastr se difereniaz cel mai bine prin prisma salariului anual i a nivelului de
educaie. Din punctul de vedere al vechimii i al experienei anterioare, cele dou grupuri sunt
oarecum asemntoare.
Aceast concluzie este confirmat n urma examinrii tabelului indicatorilor statistici pe
cele dou grupuri:
Fig. 55.16. Indicatorii statistici ai variabilelor independente pe cele dou grupuri
Se observ c diferenele dintre mediile celor dou grupuri sunt vizibile mai ales pentru
variabilele salary, educ i prevexp. Pentru variabila jobtime diferena este nesemnificativ.
Ultimul tabel care ne intereseaz este cel al clasificrii cazurilor, prezentat n figura
55.17.
Cititorul care a parcurs capitolele privitoare la regresia logistic cunoate deja tabelele de
acest fel. n tabelul de mai sus se observ c din totalul de 258 de angajai brbai, 161 (62.4%)
au fost clasificai corect. Restul de 97 (37.6%) au fost repartizai eronat n categoria femeilor
(aceasta nseamn c respectivii angajai sunt asemntori femeilor din punctul de vedere al
valorilor variabilelor explicative, n special salariul i nivelul de educaie). n ceea ce privete
femeile, 173 (adic 80.1% din total) au fost clasificate corect, iar 43 (19.9% din total) au fost
incluse eronat n categoria brbailor (aadar, angajatele respective sunt asemntoare
brbailor din punctul de vedere al valorilor variabilelor explicative).
ntruct un procentaj foarte bun dintre cazuri a fost corect repartizat (70.5%), putem trage
concluzia c puterea de discriminare a variabilelor noastre este satisfctoare.
S mai precizm c programul a calculat, la cerea noastr, probabilitile de apartenen
ale fiecrui caz n parte (variabilele Dis1_2 i Dis2_2 din figura 55.18 de mai jos). Pe baza
acestor probabiliti, fiecare caz a fost repartizat fie n grupul brbailor (1), fie n cel al femeilor
(2) vezi variabila Dis_1 din figura 55.13. De exemplu, pentru primul caz, probabilitatea ca
angajatul respectiv s fie brbat este de 88.29%, iar probabilitatea de a fi femeie este de 11.71%.
Aadar, respectivul caz a primit codul 1 i a fost repartizat n grupul brbailor (variabila Dis_1
are valoarea 1).
Tabelul clasificrii din figura 55.17 a fost construit prin ncruciarea variabilelor gen2
(reprezentnd apartenena real a cazurilor la un grup sau altul) i variabila Dis_1 din figura
55.13 (reprezentnd apartenena prezis pe baza funciei discriminant).
Pentru exemplul din seciunea de fa vom folosi tot baza de date Employee Data, cu
deosebirea c variabila de grupare va fi n acest caz categoria profesional a angajatului
funcionar, agent de paz sau manager. Aceste informaii sunt stocate n variabila jobcat,
codificat aa cum se arat n figura 4.4. ntruct variabila de grupare are trei categorii,
programul va folosi analiza multipl a discriminatului n acest caz.
Variabilele independente ale modelului sunt aceleai ca n seciunea anterioar. Aadar,
dup ce apelm procedura (figura 55.2), introducem variabilele dup cum urmeaz:
Fig. 55.19. Caseta de dialog a analizei discriminant
Celelalte opiuni le vom selecta la fel ca pentru analiza simpl (figurile 55.5-55.7).
Analiza multipl a discriminantului nu genereaz o singur funcie discriminant, ci un
numr de funcii calculat prin formula min(c-1, k), unde c este numrul categoriilor variabilei
dependente, iar k numrul de variabile independente. ntruct aici avem 3 categorii i 4 variabile
independente, programul a generat dou funcii discriminant.
Pentru ca cititorul s neleag mai uor explicaiile ce urmeaz, vom spune c se poate
face o oarecare analogie ntre aceste funcii discriminant i componentele extrase prin analiza
componentelor principale, studiat n capitolul 52. La fel ca i acolo, fiecrei funcii i poate fi
atribuit un nume sau o semnificaie n funcie de variabilele independente cu care este corelat
mai puternic. Fiecare funcie discrimineaz categoriile variabilei dependente pe baza unora sau
altora dintre variabilele explicative. Cu ajutorul acestor funcii se calculeaz pentru fiecare caz
probabilitile de apartenen la cele trei categorii, iar pornind de la aceste probabiliti se prezice
apartenena cazurilor la o categorie sau alta.
Tabelul valorilor proprii ale celor dou funcii discriminant este prezentat n figura
urmtoare:
Valorile proprii ne arat importana fiecrei funcii n modelul total. Prima funcie este
cea mai important, deoarece are valoarea proprie 1.954 i explic 84% din variana total a
modelului. A doua funcie are valoarea proprie de 0.373 i explic restul de 16% din varian,
Coeficientul de corelaie canonic Rc, ridicat la ptrat, ne arat ct de bine explic fiecare
funcie variaia variabilei dependente. Prima funcie explic aceast variaie n proporie de
66.09% (0.8132), iar a doua n proporie de 27.14% (0.5212).
Tabelul de mai jos ne arat valorile indicatorului al lui Wilks pentru modelul nostru:
Tabelul din figura urmtoare afieaz valorile indicatorului pentru fiecare variabil
independent n parte:
Variabila care contribuie cel mai puin la diferenierea grupurilor este jobtime, pentru care
nu exist diferene semnificative ntre mediile acestor grupuri (Sig.>0.05). De reinut c o
variabil independent este cu att mai important cu ct i corespunde o valoare mai mic a lui
.
Tabelul din figura urmtoare conine coeficienii celor dou funcii discriminant:
Fig. 55.25. Coeficienii funciilor discriminant
Cu ajutorul acestor coeficieni, programul a calculat valorile celor dou funcii i le-a
stocat n variabilele Dis1_3 i Dis2_3 din figura de mai jos:
S examinm acum matricea de structur a modelului, care prezint corelaiile dintre cele
dou funcii discriminant i variabilele explicative:
Fig. 55.27. Tabelul Structure Matrix