Analiza Discriminantului

Analiza discriminantului (MDA) Este folosita ca sa clasifice cazurile in valorile dependente categorial de obicei o dihotomie.
Dc analiza functiei discriminant este eficienta pentru un set de date tabelul de clasificare a estimarilor corecte sau incorecte va presupune un procentaj corect. Functia discriminant se gaseste in SPSS la comanda Analiza, Clasificare, Discriminant. Se poate alege analiza discriminantului sau analiza discriminantului multiplu din acelasi meniu, in functie daca variabila de grupare are doua sau mai multe categorii. Analiza discriminantului multiplu este o extensie a analizei discriminantului si o verisoara a analizei multiple a veriantei MANOVA, Impartasind multe din aceleasi ipoteze si teste. MDA este folosita sa clasifice o variabila dependenta categoriale care are mai mult de 2 categorii utilizand ca predictori un nr de variabile dummy independente sau variabile interval. Mai este denumita uneori si analiza canonica a discriminantului. Exista cateva scopuri ale MDA sau ale DA: - sa clasifice cazurile in grupuri utilizand o ecuatie de predictie a discriminantului - sa testeze teoria prin observarea faptului daca cazurile sunt clasificate asa cum au fost prevazute - sa investigheze diferentele dintre sau din interiorul grupurilor - sa determine cel mai prosibil mod de a distinge intre grupuri - sa determine procentul variantei in variabila dependenta explicat de catre independente - sa se determine proportia variabilei dependente explicat de catre independente - prin sau deasupra variantei calculate prin variabila de control utilizand analiza discriminatului secventiala - sa arate importanta relativa a variabilelor independente in clasificarea variabilei dependente - sa precizeze variabilele care sunt intr-o masura mica legate de distinctiile grupului - sa infereze sensul dimensiunilor MDA care disting grupurile bazandu-se pe incarcatura discriminantului DA are doi pasi : 1) un test F (WILKS LAMBDA) este folosit sa testeze daca modelul discriminatului luat ca un intreg este semnificativ 2) daca testul F este semnificativ variabilele individuale independente sunt luate in considerare pt a se vedea care dintre ele difera semnificativ in medie pe grup si acestea vor fi folosite ca sa clasifice variabila dependenta DA impartaseste toate ipotezele uzuale ale corelatiei necesitand relatii lineare si homascedastice si un interval netruncheat sau date apropiate intervalului. Ca si regresia multipla si Da presupune o specificare corecta a modelului (includerea tuturor independentelor importante si excluderea variabilelor din afara). Da de asemenea presupune ca variabila dependenta este o adevarata dihotomie de vreme ce datele sunt fortate intr-o codare dihotomica si sunt trunchiate atenuand corelatia. DA este preferata cand ipotezele regresiei lineare sunt indeplinite de vreme ce DA are mai mare putere statistica decat regresia logistica (mai mici sanse ale erorilor de tip doi acceptarea unei ipoteze nule false). Termeni si concepte cheie 1) variabilele discriminatotii acestea sunt variabile independente denumite si predictori 2) varialila criteriu aceasta este variabila dependenta denumita in SPSS si variabila de grupare ea reprezinta concluzia eforturilor de clasificare
3) functia discriminant o functie dicscriminant denumita si radacina canonica este o variabila latenta care este creata ca o combinatie lineara de variabile independente de discriminare cum ar fi L = b1x1+b2x2++bnxn+c unde b1..bn sunt coeficientii de discriminare si X variavilele discriminatorii iar c este o constanta. Aceasta este analoaga regresiei multiple dar b urile sunt coeficientii discriminantului care maximizeaza distanta dintre mediile variabilei dependente sau variabilei criteriu. A se nota ca ceea ce s-a afirmat mai sus presupune ca functia discriminant este estimata folosind cele mai mici patrate, metoda traditionala dar mai este si o alta versiune care implica estimarea ratiei maxime 4) comparatiile intre grupuri perechi arata distantele dintre mediile grupului (ale variabilei dependente in spatiul multidimensional format de functiile discriminant). Nu poate fi aplicat la DA pt 2 grupuri unde exista doar o functie discriminant. Tabelul comparatiilor dintre grupuri perechi ne da un test al semnificatiei F (bazat pe distantele MAHALANOBIS) distantei dintre mediile grupului facandu-l capabil pe cercetator sa determine daca fiecare medie a grupului este semnificativ departata de fiecare din celelelte medii ale grupului. De asemenea magnitudinea valorilor F poate fi folosita pt a se compara distantele dintre grupuri in spatiul multivariat (in SPSS clic pe Analise, Clasify, Discriminant, apoi insemneaza Use stape .. si apoi clic Metode si alege F for pairwise distances). 5) Numarul de functii discriminant exista o singura functie discriminant pt analiza discriminantului cu doua grupuri, dar pt un ordin mai mare de analize de discriminant nr de functii este mai mic cu g-1 unde g reprezinta nr de categorii ale variabilei de grupare sau p unde p reprezinta nr de variabile discriminatorii (independente). Fiecare functie discriminant este ortogonala fata de celelalte. Prima functie maximizeaza difernetele dintre valorile variabilei dependente, a doua functie este ortogonala cu prima (necorelata cu prima si maximizeaza diferentele dintre valorile variabilei dependente controland primul factor si tot asa). Desi matematic diferite fiecare functie discriminant este o dimensiune care diferentiaza un caz in categorii ale dependentei bazandu-se pe valorile independentelor. Prima functe va fi cea mai puternica dimensiune care diferentiaza, dar si functiile de mai tarziu pot reprezenta dimensiuni ale diferentierii de asemenea semnificative. 6) Eingin value care mai este numit radacina caracteristica a fiecarei functii discriminant. Reflecta gradul de importanta a dimensiunilor care clasifica cazurile variabilei dependente. Este o singura engin value pt fiecare functie discriminant, pt DA cu doua grupuir exista o singura functie discriminant si cu o singura engin value care conteaza pt 100% din varianta explicata. Dc exista mai mult de o functie discriminant prima va fi cea mai mare si mai importanta, a doua va fi a doua mai importanta in puterea de explicare, si tot asa. Engin values presupun o importanta relativa deoarece ele reflecta procentele de varianta explicate de catre variabila dependenta cumulate pana la 100% pt toate functiile. Aceasta inseamna ca ratia de engin values indica puterea relativa de discriminare a functiilor discriminant. Dc ratia a doua engin values este de exemplu 1,4 atunci prima functie discriminant conteaza pt 40% mai mult varianta intre grupuri in cadrul categoriilor dependente de cat o face a doua functie discriminant. Comanzi pe foaie. 7) Procentul relativ a unei functii discriminat este egal cu engin value unei functii divizate de suma tuturor engin values tuturor functiilor discriminant din model. Este folosit pt a arata cat de multe functii sunt importante pt modelul final. 8) Corelatia canonica R* - este o masura a asocierii dintre grupuri formata de dependenta si de functia discriminant data. Cand R* este 0 nu este nici o relatie intre grupuri si functie, cand R* este mare exista o puternica corelatie intre functiile discriminant si
grupuri. A se nota ca procentul relativ si R* nu trebuie sa fie corelate. R* este folosit pt a ne spune cat de folositoare este fiecare functie in a determina diferentele intre grupuri. Un R* = 1,0 indica ca toata variabilitatea in scorurile discriminantului poate fi calculata de catre acea dimensiune. A se nota ca pt analiza discriminantului de doua grupuri corelatia canonica este echivalenta corelatiei Pearson a scorului discriminantului cu variabila de grupare. 9) Scorul discriminantului este valoarea rezultata din aplicarea formulei functiei discriminant pt setul de date al unui caz dat. Scorul Z este scorul discriminantului pt date standardizate. Pt a obtine scorurile discriminantului in SPSS selectati comenzile Analize, Classify, Discriminant, clic pe Save si alege Discriminant scores. De asemenea, se mai poate vizualiza scorurile discriminantului apasans Classify si alege Case Wuise Result. 10) Cut Off (linie limita) daca scorul discriminantului unei functii este mai mic sau egal decat Cut Off cazul este clasificat ca zero, daca este mai mare este clasificat ca 1. Cand marimea grupurilor este egala Cut off este egala cu media celor 2 centroide. Daca grupurilor sunt inegale Cut off este media proportionala. 11) Coeficientii discriminantului nestandardizati sunt folositi in formula pt a face clasificari in analiza discriminantului la fel cum coeficientii b sunt folositi in regresie pt a face predictii. 12) Coeficientii standard ai discriminantului sunt folositi sa compare importanta relativa a variabilelor independente asa cum beta sunt folositi in regresie. Daca sunt mai mult de 2 grupuri ale dependentei coeficientii standardizati nu spun cercetatorului intre care dintre grupuri variabila este mai mult sau mai putin discriminatorie. Pt acest scop centroizii grupului si factorii de structura sunt examinati. Ei apar tot timul in SPSS sub forma unui tabel. 13) Functiile centroizilor grupului sunt media scorului discriminantului pt fiecare categorie de variabila dependenta, pt fiecare functie de discriminant in analiza multipla a discriminantului. Analiza discriminantului pentru doua grupuri are 2 centroizi, unul pt fiecare grup. Se doreste ca mediile sa fie bien departate pe a arata ca functia discriminant discrimineaza in mod clar. Cu cat sunt mai apropiate mediile cu atat e mai probalil sa apara mai multe erori de clasificare. Punctele in spatiu ale functiei discriminant (puncte canonice) pot fi create in ipostaza in care cele doua axe ale graficului sunt doua dintre functiile discriminant iar cercurile dintre puncte localizeaza centroizii pt fiecare categorie care este analizata. Cu cat este mai departe un punct fata de altul pe grafic cu atat mai mult dimensiunele reprezentate de acele axe diferentiaza acele doua grupuri. Astfel aceste grafice arata (descriu) spatiu functiei discriminant. De exemplu, grupurile ocupationale pot fi localizate in spatiu prin reprezentarea dimensiunilor motivationale si educationale. In aria graficelor a butonului Classfy, specialistul poate selecta Separate Group Plots, Combined Group plot sau Territorial map. Graficele grupurilor separate si combinate arata unde sunt localizate cazurile in spatiul format de doua functii (dimensiuni). Defoult SPSS-ul foloseste primele doua functii. Butonul cu territorial map arata distantele intre grupuri ale functiilor discriminant. Fiecare functie are un simbol numeric (1, 2 etc). Cazurile care cad intre granitele formate de doiauri de exemplu sunt clasifiacte ca 2. Cazurile individuale nu sunt aratate in hartile teritoriale facute de SPSS. 14) Testele de semnificatie: a) Modelul WILKS LAMBDA acest model este folosit pentru a testa semnificatia functiei discriminant in intregul ei. In SPSS tabelul Wilks Lamda va avea o coloana a tabelului care are titlul Testul fucnctiei (TEST of function(s)) si un rand marcat de la 1 la n, unde n reprezinta numarul de functii discriminant. Nivelul Sig. pt aceste randuri reprezinta nivelul de semnificatie a functiei discriminant luata ca un
intreg. Cercetatorul doreste sa afle despre semnificatie astfel cu cat este mai mare Lamda cu atat este mai probabil sa fie semnificativ. Un Lamda semnificativ inseamna ca putem rejecta ipoteza nula care spune ca doua grupuri au aceelasi scor mediu al functiei discriminant si se poate conchide ca modelul discrimineaza (este discriminatoriu). Acest tabel Wilks Lambda este parte a sectiune out put numita Summery of canonical discriminant functions. Stape wise Wilks Lamda apare in outputul analizei discriminantului de tip stape wise in tabelul numit Variables in the analyses dupa coloana Sig of F to remove. Modelul cu un singur pas nu va avea nici o intrare pt ca eliminarea primei variabile elimina de fapt singura variabila. Modelul cu doi pasi va avea doi predictori fiecare cu un coeficient wics Lamda care reprezinta ceea ce ar fi Wilks Lamda a modelului daca o variabila este eliminata lasand doar pe cealalta. Cu cat este mai importanta variabila care clasifica variabilele de grupare cu atat mai mare este Wilks Lambda stap wise. Stape wise Wilks Lambda apre in out putul final al analizei discriminantului de tip stapewise in cadrul tabelului variabile care nu sunt in analiza (variables not in the analyses) dupa coloana Sig of F to enter. Aici criteriul este inversat variabila care are cel mai mic Stape wise Wilks Lambda este cel mai bun candidat pentru a fi adaugat modelului in pasul urmator. b) Testele de diferenta ale modelului Wilks Lambda sunt folosite intr-un plan secund pentru a imbunatati clasificarea cand este utilizata analiza discriminantului secventiala. Exista un test F al semnificatiei raportului dintre cele doua Wilks Lambda cum ar fi intre prima wilks Lamda pt un set de variabile de control ca predictori si o a doua Wilks Lamda pt un model care include atat variabilele de control cat si variabilele independente. Cel de-al doilea Lamda este divizat de catre primul (unde primul este modelul cu mai putini predictori). c) Tabelul ANOVA pt scorurile discriminantului reprezinta un alt test general pt modelul analizei discriminantului, este un test F unde o valoare Sig p < de 0,5 inseamna ca modelul diferentiaza scorurile discriminantului intre grupuri semnificativ mai bine decat sansa (intamplarea) sau decat un model care nu are decat constanta. Acest tabel Anova este obtinul in SPSS prin comenzile Analyses, Compare Means, One Wey Anova utilizand scorurile discriminantului din analiza discriminantului ca fiind dependente. d) Vriable Wilks Lamda (variabila Wilks Lamda) de asemenea poate fi folosita pt a testa care variabile independente contribuie semnifiactiv la functia discriminant. Cu cat este mai mica variabila Wilks Lamda pt o variabila independenta cu atat mai mult acea variabila contribuie la functia discriminant. Lamda variaza de la 0 la 1 cu valoare 0 care inseamna ca mediile grupului difera (adica cu atat mai mult variabila diferentiaza grupurile) si valoare 1 care inseamna ca toate mediile grupului sunt aceleasi. Testul F al lui Wilks Lamda arata care contributii ale variabilei sunt mai semnificative. Wilks Lamda este cateodata denumit si Statistica U. In SPSS aceasta utilizare a lui Wilks Lamda este regaseste in tabelul de out put numit tests of equality of group means. Variabilele independente dihotomice sunt cu mai mare acuratete testate cu phi patrat decat cu wilks lamda pt acest scop. 15) Masurarea efectului marimii a) functiile de clasificare: exista multiple metode pt a clasifica cazurile in MDA. - Clasificarea simpla cunoscuta si sub numele de functia de clasificare a lui Fisher foloseste in mod simplu coeficientii nestandardizati ai discriminantului. - functiile distantelor generalizate au la baza distanta lui Mahalanobis, D-square (patratul D) al fiecarul caz pt fiecare din cemtroizii grupului. - KNN inseamna analiza discriminant a celei mai apropiate vecinatati K. Reprezinta o metoda nonparametrica care adauga un nou caz grupului caruia valoare vecinatatii K ii
apartine de asemenea. Metoda KNN este populara atunci cand exista date inadecvate pt a defini media esantionului si metricele covariantei. b) tabelul de clasificare care mai este numit de asemenea matricea clasificarii. Este utilizat pt a creste performanta analizei discriminantului, ele reprezinta un tabel simplu in care randurile sunt categorii observate ale variabilei dependente iar coloanele sunt categoriile prezise ale variabilelor dependente. Cand predictia este perfecta toate cazurile vor sta pe diagonala. Procentul cazurilor de pe diagonala reprezinta procentul cazurilor corecte. Acest procentaj este numit procent maxim de atins. - procentul maxim asteptat a se nota ca hit recio trebuie comparat nu cu zero ci cu procentul care ar fi fost corect clasificat doar de catre sansa. Pt analiza discriminantului de doua grupuri cu o impartire a variabilei depandente de 50 la 50 procentul asteptat este de 50%. Pt grupuri inegal sespartite, de marimi diferite procentul asteptat este calculat in cadrul tabelului din SPSS care se numeste Prior probabilities for groups prin multiplicarea probabilitatilor importante cu marimea grupului, insumand pentru toate grupurile si impartind suma la N. Daca marimea grupului este cunoscuta dinainte cea mai buna strategie este sa se aleaga cel mai mare grup pt toate cazurile in asa fel incat procentul asteptat reprezinta marimea grupului cel mai mare divizata de catre N. - cross valideshen comanda Live one classification din SPSS ne ofera o forma de cross validare in tabelul de clasificare. Cu aceasta optiune fiecare caz este clasificat utilizand o functie discriminant bazata pe toate cazurile exceptand cazul dat. - masuratori ale asocierii pot fi calculate prin procedura Cross tabs a SPSS daca cercetatorul salveaza includerea cazurilor previzionate in grupuri. In SPSS se selecteaza Analyses, Classyfy, Dicriminant, Select variables, clic Save, apoi se selecteza discriminant scors, butonul continue si la final OK. 15) Mahalanobis D-Square, Rao s V, Hotelling streis, Urma lui Pillais Trace, Roys GCR indici altii decat Wilks Lamda care arta care dintre functiile discriminant discrimineaza intre grupurile criteriu. Fiecare are un test de semnificatie asociat. O masurarea pt acest grup este cateodata folosita uneori in analiza stape wise a discriminantului pt a determina daca adaugarea unei variabile independente la model va imbunatati in mod semnificativ clasificarea variabilei dependente. 16) Corelatia canonica la patrat este procentul variatiei variabilei dependente discriminata de catre setul de variabile independente in cadrul MDA. Corelatia canonica a fiecarei functii discriminant reprezinta de asemenea corelatia acelei functii cu scorurile discriminantului. O corelatie canonica apropiata de 1 insemna ca aproape toata varianta in scorurile discriminatului poate fi atribuita diferentelor intre grupuri. Corelatia canonica a oricarei functii discriminant este prezentata in SPSS ca o coloana in tabelul out put care are denumirea Engin Values. Corelatiile canonice nu sunt aceleasi cu corelatiile din matricea de structura discutate in continuare. 16) Interpretarea functiilor discriminant Coeficientii de structura si matricea de structura coeficientii de structura numiti si corelatiile de structura sau incarcarile discriminantului sunt corelatii intre o variabila independenta data si scorurile discriminantului asociate cu o functie discriminant data. Ele sunt folosite pt a spune cat de aproape este o variabila legata (inrudita) cu fiecare functie in MDA. Privind la toti coeficientii de structura pt o functie permite cercetatorului sa atribuie o eticheta dimensiunii pe care o masoara foarte asemanator cu incarcaturile factorilor in analiza factoriala. Un tabel al coeficientilor de structura a fiecarei variabile cu fiecare functie discriminant este numit o matrice a structurii canonice sau o matrice a structurii factorilor. Coeficientii de structura sunt coeficienti intregi nu partiali similari cu coeficientii corelatiei si reflecta asocierea necontrolata a variabilelor discriminate cu variabila criteriu, in timp ce coeficientii discriminantului sunt coeficienti partiali care reflecta asocierea unica
controlata a variabilelor discriminate cu variabila criteriu controland alte variabile in ecuatie. Tehnic coeficientii de structura sunt amestecati introdusi in corelatiile dintre grupuri intre variabilele independente si functiile canonice standardizate ale discriminantului. Cand variabila independenta va avea mai mult de doua categorii va exista mai mult de o functie discriminant. In acest caz vor fi mai multe coloane in tabel cate una pt fiecare functie. Deci pt analiza discriminantului la doua grupuir coeficientii de structura arata ordinea de importanta a variabilelor discriminate in corelatia totala. In timp ce coeficientii standardizati ai discriminantului arata ordinea de importanta dupa contributia unica. Semnul coeficientului de structura arata de asemenea si directia relatiei. Pt MDA coeficientii de structura permit in plus cercetatorului sa vada importanta relativa a fiecarei variabile independente asupra fiecarei dimensiuni. Coeficientii de structura vs coeficientii standardizati ai functei discriminant acesti coeficienti standardizati ai functiei discriminanti indica contributia semipartiala (asocierea unica controlata a fiecarei variabile cu functia sau functiile discriminantului). Controland independenta si nu dependenta pt alte independente introduse in ecuatie (asa cum coeficientii de regresie sunt coeficienti semipartiali). In contrast coeficientii de structura sunt coeficienti intregi nu partiali similari cu coeficientii corelatiei si reflecta asocierea necontrolata a scorurilor discriminantului cu variabila criteriu. Aceasta inseamna ca coeficientii de structura indica corelatia simpla dintre variabile si functia (functiile) discriminat. Coeficientii de structura ar trebui sa fie folositi pt a aloca etichete (valori) pline de inteles pt functiile discriminantului. Distantele Mahalanobis sunt folosite in a analiza cazurile din analiza discriminantului. De exemplu, un cercetator poate dori sa analizeze un set nou necunoscut de cazuri in comparatie cu un set existent de cazuri cunoscute. Distanta lui Mahalanobis reprezinta distanta dintre un caz si centroidul pt fiecare grup (a dependentei) in spatiul atributelor (spatiul n dimensional definite de n variabile). Un caz va avea o distanta a lui Mahalanobis pt fiecare grup si va fi clasificat ca apartinand grupului pt care distanta sa Mahalanobis este cea mai mica. Deci cu cat este mai mica distanta Mahalanobis cu atat este mai aproape cazul de centroidul grupului si cu ata este mai probabil sa fie clasificat ca apartinand acelui grup. De vreme ce distanta Mahalanobis este masurata in termeni ai deviatiei standard fata de centroid astfel un caz care este la mia mult de 1,96 unitati de distanta Mahalanobis fata de centrid are mai putin de 0,05 sanse sa apartina grupului reprezentat de catre centroid. O distanta de trei unitati va corespunde unei sanse mai mici de 0,01. SPSS raporteaza distanta patratica Mahalanobis se face clic pe classify si apoi Testele Wilks Lamda pt fiecare functie discriminant in MDA Specifica semnificatia lui engin value pt o functie data. Este o masura a diferentei dintre grupurile centroidului (vectorului a mediilor) si a variabilelor independente. Cu cat este mai mic Lamda cu atat mai mari sunt diferentele. Lamda variaza de la 0 la 1, unde 0 inseamna ca mediile grupului difera (deci variabilele mai mult diferentiaza grupurile) si 1 inseamna ca toate mediile grupurilor sunt aceleasi. Transformarea V Bartles a lui Lamda este folosita pt a se calcula semnificatia lui Lamda in acest caz. Wilks Lamda este folosita in conjunctie cu acest V Bartles ca un test de semnificatie multivariat a diferentelor intre medii in MDA. Pt cazul in care avem variabile independente interval multiple si grupuri multiple formate de dependenta. Validarea Un esantion tinut deoparte este deseori folosit pt validarea functiei discriminant. Este un test de impartire unde o parte din cazuri sunt supuse unei analize a esantionului si apoi este validata prin observarea performantei asupra esantionului ramas deoparte.

Analiza Discriminantului

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Discriminantului

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza discriminantului (MDA) Este folosita ca sa clasifice cazurile in valorile dependente categorial de obicei o dihotomie.

S-ar putea să vă placă și