Sunteți pe pagina 1din 11

Analiza discriminant

Se consider pentru analiza discriminat baza de date cars n care variabila Cou ntry of origin este dependent, nemetric exprimat sub forma a trei categorii: american, european i japonez. Este o analiz liniar multihotomic, cu un eantion de 391 maini, estimndu-se o legatur liniar ntre variabila dependent i grupul celor independente, metrice, care n cazul nostru sunt n numr de 5: Miles per Gallon, Engine Displacement (cu. inches), Horsepower, Vehicle Weight (lbs.) i Time to Accelerate from 0 to 60 mph (sec). Se observ c variabila dependent country of origin are categorii diferite, aceasta facilitnd ncadrarea unei maini numai ntr-o singur categorie. n cazul de fa vom avea dou funcii discriminant deoarece { nr.funcii discriminant=[min(nr.variabile independente; nr. de grupuri)-1]=[min(5; 3)-1]=2}. Funciile discriminant au urmtoarea form: Di=b0+b1*miles per gallon+b2*engine displacement+b3*horsepower+b4*vehicle weight+b5*time to accelerate , i=1,2 unde Di=valoarea discriminant sau scorul; bj=coeficienii discriminant, j=1,2,...5; Prin urmare avem dou funcii discriminant, 3 categorii i 5 variabile independente (predictori). Interpretarea rezultatelor Tabelul nr. 1 Testul Anova n cazul analizei discriminant

Tests of Equality of Group Means Wilks' Lambda Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) ,761 ,633 ,927 60,901 112,313 15,244 2 2 2 388 388 388 ,000 ,000 ,000 ,669 ,570 F 96,030 146,235 df1 2 2 df2 388 388 Sig. ,000 ,000

n tabelul de mai sus se prezint testul lambda a lui Wilks, testul statistic F, gradele de libertate asociate precum i nivelul de semnificaie. Testul lambda a lui Wilks care reprezint raportul dintre suma patratelor valorilor variabilelor de grup i suma ptratelor variabilelor la nivel de eantion (WL=SSR/SST) ia valori apropiate de unu n toate cazurile: miles per gallon (0,669), engine displacement (0,570), horsepower (0,761), vehicle weight (0,633), times to accelerate (0,927) ceea ce arat c nu exist diferene semnificative ntre nivelurile medii ale variabilelor considerate pe grupe. Cu ct este mai mic valoarea Wilks Lambda pentru variabila independent cu att mai mult aceasta

contribuie la analiza discriminant. Deoarece valoarea testului Wilks pentru Vehicle Weight (0,633), engine displacement (0,570) i miles per gallon (0,669) sunt mai mici dect cellalte valori putem spune c aceste variabile contribuie mai mult la analiza discriminant dect cellalte variabile intependente. Testul F prezint raportul dintre suma abaterilor medii ptratice dintre grupuri i suma abaterilor medii ptratice din interiorul acestora i i sunt asociate df1 i df2 gradele de libertate, unde df1=k-1, n cazul nostru deoarece k=3 avem df1=2 i df2=n-k, n tabelul 1 acesta fiind egal cu 388=391-3, (n=391), acestea fiind utilizate spre obinerea nivelului de semnificaie. Pentru toate cazurile sig=0.00<0.05 ceea ce indic faptul c diferenele de grup sunt semnificative. Tabelul nr. 2 Corelaia canonic
Eigenvalues Functio n 1 2 Eigenvalue ,992 ,043
a a

Canonical % of Variance 95,8 4,2 Cumulative % 95,8 100,0 Correlation ,706 ,204

a. First 2 canonical discriminant functions were used in the analysis.

n tabelul nr. 2 sunt prezentate distribuiile valorilor proprii, procentajul varianei, procentajul cumulat i corelaia canonic pentru fiecare variabil canonic (funcie discriminant). Eigenvalue reprezint raportul dintre suma ptratelor dintre grupe i suma ptratelor din interiorul grupelor .n tabelul de mai sus sunt prezentate valorile proprii n funcie de importana lor, descresctor i anume pentru prima funcie eigenvalue=0,992 iar pentru funcia 2 eigenvalue=0,043. Valoarea maxim a acestui indicator n cazul nostru 0,992 corespunde vectorului propriu a crui direcie este maxim. A doua valoare de 0,043 corespunde vectorului urmtor. n ceea ce privete procentajul varianei observm c funcia 1 este mai important dect funcia 2 deoarece 95,8 % din procentajul varianei dintre cele dou grupe poate fi explicat de funcia 1, n timp de 4,2% poate fi explicat de a doua funcie . Dispersia valorilor variabilelor canonice este prezentat n coloana a 3-a a tabelului. Procentajul cumulat reprezint valoarea cumulat a dispersiei calculate a variabilelor canonice. Pentru prima funcie valoarea acesteia este de 95,8 % din totalul ntregii dispersii n timp ce pentru prima funcia 2 aceasta este 100% reprezentnd totalul ntregii dispersii. Coretaia canonic apare n ultima coloan i msoar asocierea dintre scorul discriminant i grupele impuse pntru analiz. Pentru prima funcie observm o valoare superioar a coeficientului i

anume 0,706, ceea ce indic o legtur puternic dintre scorul discriminant i grupele asociate. Pentru funcia a doua valoarea 0,204 tinde spre 0, deci vom avea o slab corelaie ntre scorul discriminant i grupele de distribuie. Gradul de relaie dintre predictori i cele trei regiuni (corelaia canonica) este datorat de funcia 1 cu valoare 0,706 care este mai mare dect valoarea funciei 2 si anume 0.204. Corelaia canonic care se not cu se poate obine pentru fiecare funcie n parte:

0,204,

unde

sunt valorile proprii corespunztoare celor dou funcii.

Testul nr.3 Wilks Lambda


Wilks' Lambda Test of Function(s) 1 through 2 2 Wilks' Lambda ,481 ,958 Chi-square 282,356 16,381 df 10 4 Sig. ,000 ,003

WilksLambda indic proporia din totalul varinei scorului discriminant care nu se explic prin diferenele dintre grupuri, iar o valoare Lambda minim indic faptul c centroizii scorurile discriminante difer. Prima coloan a tabelului testeaz ipoteza potrivit creia centroizii funciilor prezentate sunt egale pe ntreaga ntindere a grupurilor. Wilkss Lambda ia valori cuprinse ntre 0 i 1. n cazul nostru a doua valoare 0,958 tinde spre 1 i reprezint o proporie mare a totalului varianei din scorul determinant care nu se explic prin diferene dintre grupe. Testul Chi-square indic existena semnificativ sau nu a unor diferene dintre centroizii grupelor de clasificaie, pentru funcia 1 through 2 avem chi-square=282,356 cu probabilitatea sig=0.00 iar n cazul funcie 2 chi-square=16,381 cu sig =0.03. n cazul de fa pentru ambele funcii valoarea sig<0.10 deci se poate observa o asemnare ntre centroizii scorurilor discriminante.

Tabelul nr. 4 Impactul fiecrei variabile asupra modelului


Standardized Canonical Discriminant Function Coefficients Function 1 Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) -1,061 -,104 -,054 ,360 -1,293 -,174 -,380 1,601 2 ,827 1,514

Impactul variabilelor asupra modelelor matematice propuse este prezentat n tabelul nr. 4. Amploarea influenei este evideniat prin valoarea n modul a coeficienilor, semnul explicnd totodat i sensul influenei. Din tabel se poate observa cu uurin c o influen semnificativ asupra funciei 1 o au Engine Displacement (1,601 fiind pozitiv indic o influen direct) i Horsepower (-1,601 cu o influen negativ) . Asupra funciei 2, o influen semnificativ au Engine Displacement (1,514 cu o influen direct) i Scor1=-0,380*miles Scor2=0,827*miles per per gallon+1,601*engine gallon+1,514*engine Vehicle Weight (-1,293). displacement Aceti coeficieni ai variabilelor canonice, permit compunerea scorului pentru fiecare caz n parte. -1,061*horsepower0,104*vehicle weight-0,054*time to accelerate displacement+0,360*horsepower1,293*vehicle weight-0,174*time to accelerate.

Tabelul nr. 5 Corelaia dintre fiecare variabil i funcia discriminant


Structure Matrix Function 1 Engine Displacement (cu. inches) Vehicle Weight (lbs.) Miles per Gallon Horsepower Time to Accelerate from 0 to 60 mph (sec) Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function ,763 -,701 ,561
* * *

2 ,871
*

,181

-,193 ,410 ,168 -,440


*

-,266

Corelaia dintre fiecare variabil independent i funcia discriminant este reprezentat n tabelul nr. 5. Aceast matrice propune o alternativ n a studia impactul i importana fiecrei variabile independente asupra funciei discriminant, fiecare variabil cu asterix indicnd o corelaie superioar asupra uneia sau alteia dintre funcii. Totodat, variabilele marcate sunt ordonate dup mrimea corelaiei i putem observa cum primele 4 variabile din tabel de mai sus au o influen semnificativ asupra funciei 1 iar urmtoarea variabil ( -0,440*) influeneaz semnificativ cea de-a doua funcie. Astfel, putem observa c Engine Displacement (0,871* ) are o influen major asupra primei funcii n timp ce Time to Accelerate (-0,440* ) influeneaz major funcia nr.2.

Tabelul nr. 6 Coeficienii canonici ai funciei discriminant

Canonical Discriminant Function Coefficients Function 1 Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) (Constant) Unstandardized coefficients 1,553 -1,159 -,032 ,000 -,020 ,011 -,002 -,066 -,060 ,020 2 ,130 ,019

Coeficienii canonici ai funciei discriminant sunt prezentai n tabelul nr. 6 i sunt utilizai pentru o descompune scorul discriminant corespunztor fiecrui caz, pentru fiecare funcie n parte. Pentru prima funcie canonic scorul este: scor F1=-0,060*miles per gallon+0,020*engine displacement-0,032*horsepower0,020*time to accelerate+1,553. Scorul funciei 2 se compune asemntor, utiliznd coeficienii corespunztori: scor F2=0,130*miles per gallon+0,019*engine displacement+ 0,011*horsepower-0.002*vehicle weight-0,066*time to accelerate-1,159. Este evident conform tabelului c pentru scor F1 variabilele independente cylrec (0,806), number of cylinders (-0,148) i model year (0,126) au o mai mare contribuie la clasificare variabilei dependente country of origin. Pentru scor F2 variabilele independente care contribuie ca clasificarea variabilei dependente sunt tot cylrec( 1,263), number of cylinders (0,816) i model year (0,165) deoarece sunt coeficienii canonici cu valoarea modul cea mai mare.

Tabelul nr. 7 Funciile la nivelul centroizilor grupurilor


Functions at Group Centroids

Country of Origin American European Japanese 1

Function 2 ,768 -1,145 -1,386 ,012 -,383 ,293

Unstandardized canonical discriminant functions evaluated at group means

Centroizii variabilelor canonice corespunztoare celor trei grupuri de clasificare: american, european, japonez sunt evideniai n tabelul nr. 7. Centroizii din interiorul grupelor sunt compui pentru fiecare variabil canonic. Observm c pentru prima funcie, media discriminant sau scorul pentru variabila canonic American este 0,768, pentru European -1,145, iar pentru cel Japanese -1,386. n cazul funciei 2 scorul pentru variabila American este 0,012 n timp ce pentru cel European este -0,383 iar pentru Japanese 0,293.

Tabelul nr. 8 Clasificarea coeficienilor funciei


Classification Function Coefficients Country of Origin American Miles per Gallon Engine Displacement (cu. inches) Horsepower Vehicle Weight (lbs.) Time to Accelerate from 0 to 60 mph (sec) (Constant) -126,131 -129,077 -130,511 ,735 ,011 6,156 ,791 ,012 6,221 ,806 ,011 6,181 2,519 -,065 European 2,581 -,112 Japanese 2,683 -,103

Fisher's linear discriminant functions

Fiecare coloan din tabelul nr.8 conine estimaiile pentru clasificarea funciilor pentru o singur grup, funciile fiind utilizate pentru a clasifica cazurile n grupe (American, European, Japanese). Pentru categoria American rezult o funcie de tipul: 2,519*Miles per Gallon-0,065*Engine Displacement+0,735*Horsepower+0,011*Vehicle Weight+6,156*Time to Accelerate -126,131=SCOR AMERICAN. n cazul categoriei European avem: 2,581*Miles per Gallon-1,112*Engine Displacement+0,791*Horsepower+0,012*Vehicle Weight+6,221*Time to Accelerate-129,077=SCOR EUROPEAN. Pentru categoria Japanese rezult urmtoarea funcie: 2,683*Miles per Gallon-1,103*Engine Displacement+0,896*Horsepower+0,011*Vehicle Weight+6,181*Time to Accelerate-130,511=SCOR JAPANESE. Pentru a obine un scor de clasificare pentru fiecare categorie, se va asocia fiecrei variabile, coeficientul corespunztor cu care se va nmuli, iar produsele calculate se vor aduna i la final se va aduga i variabila constant pentru a forma scorul. Se va prezice apartenena unui caz la un anumit grup, n msura n care valoarea funciei de clasificare va fi maxim , ntr -unul din cele trei cazuri (American, European, Japanese).

Figura nr. 1 Harta teritorial a discriminantului

Territorial Map Canonical Discriminant Function 2 -8,0 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 8,0 +---------+---------+---------+---------+---------+---------+---------+---------+ 8,0 + 31 + | 31 | | 31 | | 31 | | 31 | | 31 | 6,0 + + + + + 31 + + + + | 31 | | 31 | | 31 | | 31 | | 31 | 4,0 + + + + +31 + + + + | 31 | | 31 | | 31 | | 31 | | 31 | 2,0 + + + + 31 + + + + | 31 | | 31 | | 31 | | 31 | | * 331 | ,0 + + + + 33333221 * + + + + | 333332*222 21 | | 333322222 21 | | 333332222 21 | | 3333322222 21 | | 333322222 21 | -2,0 + 333332222 + + +21 + + + + |3333322222 21 | |22222 21 | | 21 | | 21 | | 21 | -4,0 + + + + + 21 + + + + | 21 | | 21 | | 21 | | 21 | | 21 | -6,0 + + + + + 21 + + + + | 21 | | 21 | | 21 | | 21 | | 21 | -8,0 + 21 + +---------+---------+---------+---------+---------+---------+---------+---------+ -8,0 -6,0 -4,0 -2,0 ,0 2,0 4,0 6,0 8,0 Canonical Discriminant Function 1

Symbols used in territorial map

Symbol -----1 2 3 *

Group ----1 2 3

Label -------------------American European Japanese Indicates a group centroid

n figura 1 este ilustrat harta teritorial a discriminantului bazat pe scorurile funciei membrilor grupurilor, aceast hart descriind regiunile asociate fiecrui grup. Se poate observa din figur cum fiecare teritoriu definete un spaiu unde este cel mai probabil ca membri unui grup s fie alocai. Trebuie s se in cont de fiecare dimensiune, ce reprezint un set de variabile care difereniaz grupurile ntre ele, acestea fiind modul n care sunt repartizate cazurile n teritoriu. Deficiena semnificativ a hrii const n faptul c nu arat mrimea relativ a grupului i nici ct de mult se suprapun grupurile, ci accentueaz diferenele dintre grupuri. Totodat, n interiorul hrii sunt prezentai i centroizii grupurilor, iar prin scorurile funciei discriminant nirate de-a lungul granielor va indica aria stpnit de fiecare grup. n cazul nostru este prezentat harta teritorial pentru dou funcii discriminant. Se observ c regiunea European are simbolul 2 , American 1 iar Japanese 3. Figura nr. 2 Reprezentarea grafic a disribuiei mainilor pe cele trei clase

n figura de mai sus se prezint repartiia elementelor eantionului supus analizei pe cele trei cazuri de clasificare i pe total combinat, avnd n vedere scorurile obinute n urma calculrii

celor 2 funcii discriminant rezultate. Tot n aceste grafice sunt evideniai i centroizii fiecrei clase. Se poate observa cu uurin influena pe care o determin variabilele independente asupra celor dou funcii, n ceea ce privete reprezentarea mainilor de tip Japanese (scorurile iau valoare pozitiv dup funcia 2 i valoare negativ dup funcia 1), American (scorurile iau valoare pozitiv dup funcia 1 i att valori pozitive ct i negative dup funcia 2) i European (valori negative dup ambele funcii).