Sunteți pe pagina 1din 11

ARBORI DE CLASIFICARE

Tofan Catalin: SPMK, anul 1, grupa 2


Baza de date alesă: Date examen 2!

Analiza

Pentru început, vom alege o variabila dependentă. M-am decis ca în cazul meu, variabila cea mai
potrivită este ,,Salariul”, aceasta fiind una de tip scale, numerică. Ca și variabile independente
am ales: studii, experiența, vârsta și sexul, așa cum se vede în imaginea de mai jos.
Ca să ajungem la arbori, vom accesa analyse, apoi clasify, iar apoi Tree.
De altfel, mai trebuie să selectăm câteva opțiuni, acestea regăsingu-se în ,,Criteria”, dar
și în SAVE. În cadrul criteria, pentru început trebuie să ne asigurăm că este bifată secțiunea
,,Automatic”, iar ,,Child note” va fi de 25, reprezentând jumătate din ,,Parent note”(numerele
sunt mici deoarece si baza de date este mică). În cadrul rubricii ,,SAVE”, vom bifa ,,Terminal
node number”.

În continuare, am urmat apăsat ok pentru a continua analiza, primele rezultate fiind prezente în
cadrul figurii de tip arbore care se află pe pagina următoare. Am situat figura pe următoarea
pagina pentru a se vedea cum trebuie, neexistând astfel părți din figură ce se întind pe alte pagini.
Interpretarea acestui arbore este următoarea: Toate aceste căsuțe sunt noduri, primul nod
fiind reprezentat de Salariul mediu, fiind un număr de 400 de respondenți, iar aceștia având în
media un salariu mediu de aproximativ 5800. Astfel, acest nod, reprezentat de variabila
dependentă, caută să găsească care dintre predictorii aleși sunt mai semnificativi ca și noduri
(dacă am avea un copac, acești predictori ar fi echivalentul unor frunze).
Pentru a determina care variabilă este cea mai semnificativă, se folosește testul F,
deoarece variabilă dependentă este scalară.
Se remarcă faptul că cea mai semnificativă variabilă este reprezentată de ,,Studii”,
aceasta sugerând nivelul de studii al fiecărui respondent. Astfel, în cadrul primului nod sunt
situați cei ce au absolvit liceul, aceștia reprezentând 58,2% din întreaga populație analizată și
având un salariu mediu de aproximativ 5200. Cel de-al doilea nod este reprezentat de cei care au
absolvit programul de licență sau masterat din cadrul facultății. Aceștia reprezintă 41,8% din
populația analizată, având un salariu mediu de aproximativ 6600. De altfel, putem specifica și
faptul că în primul nod au fost repartizate 233 de persoane, iar în al doilea 167.

Mai departe, se ia fiecare nod în parte și se analizează care factor este cel mai
reprezentativ, astfel încât nodul să continue să se ramifice. Astfel, în situația noastră cel mai
semnificativ factor este reprezentat de variabila ,,sex”.
Se crează astfel două noduri, unul specific
genului feminin și unul specific genului masculin.
Astfel, femeile care au ca ultima formă de studii
absolvită liceul, reprezintă 39,2% din întreaga populație,
fiind 157 la număr. Acestea au un salariu mediu de
aproximativ 4900, fiind de altfel cel mai mic salariu.

Cei 76 de bărbați care au ca ultimă formă de


studii absolvită liceul, reprezintă 19% din întreaga

În continuare, din cei care au absolvit programul


de licență sau de masterat, remarcăm că 14,2% din
populația totală e reprezentată de femei, acestea fiind 57
la număr. Se remarcă că acestea au un salariu mediu ce
este apropiat de 6100.

În același timp, există 110 bărbați ce au absolvit


programul de licență sau masterat, aceștia reprezentând
27,5% din populația totală. Acești bărbați au un salariu
mediu ce este apropiat de 6900, media aceasta în ceea ce
privește salariul fiind de asemenea cea mai mare,
sugerând faptul că bărbații ce au terminat licența sau
masterul câștigă cel mai bine.
Mai departe, trebuie precizat faptul că deoarece nodul copil a fost setat la 25, nu a fost
identificat niciun factor pentru 3 din cele 4 noduri din poza de mai jos, care să permită separarea
acestora în cel puțin două noduri ce au dimensiunea de 25 și fiind în același timp diferențe
semnificative între ele. Astfel, cele 3 nouri care nu se ramifică în continuare sunt noduri

terminale.

Astfel, așa cum se vede în poză, doar nodul 3 este în continuare ramificat, în funcție de
experiența în domeniu. Regăsim astfel că 15% din populația totală sunt femei ce au terminat doar
liceul și au o experiență mai mică sau egală de 9 ani, acestea având un venit mediu de
aproximativ 4600, iar 24,2% din populația totală sunt femeile ce au terminat liceul au o
experiență în domeniu mai mare de 9 ani, acestea având o vechime mai mare de nouă ani și în
medie un salariu de aproximativ 5000.
Gain Summary for Nodes

Node N Percent Mean

6 110 27,5% 6861,42

5 57 14,2% 6092,00

4 76 19,0% 5892,63

8 97 24,2% 5031,46

7 60 15,0% 4625,83

Growing Method: CHAID

Dependent Variable: Salariu

Mai departe, acest tabel reprezintă fiecare nod terminal. Astfel, primul nod terminal este nodul 6,
acesta reprezentând 27,5%, format din 110 persoane, acestea având un salariu mediu de
aproximativ 6800, iar ultimul nod terminal este nodul 7, aceta reprezentând 15%, fiind format
din 60 de persoane ce au un salariu mediu în jur de 4600.

În cele din urma, acest


grafic ne arată faptul că
primii aproximativ 25%
dintre oamenii angajații
analizați au un salariu
mediu de 6800,
remarcându-se în acelați
timp cum graficul scade.
Analiza, dar cu validare

În cazul în care dorim să și validăm, trebuie să urmărim aceeași pași ca la varianta prezentată
anterior, fiind totuși câteva schimbări.

Deoarece baza de date nu este foarte mare, vom lăsa 50/50 la cele două ,,sample”-uri. Iar la
criteria, vom modifica din 50 și 25 în 40 și 20.
Astfel, avem doi arbori noi, după cum se vede în figurile de mai jos
Se remarcă de data aceasta că cea mai semnificativă variabilă este acum vârsta, factorul în ceea
ce privește studiile fiind totuși prezent, dar nu la fel de important.
În continuare, se pot compara rezultatele obțiunute în eșantionul de testare și cel de învățare
(training).

Drept exemplu, în cadrul tabelului ce determină


nodurile terminale, se pot vedea diferențe dintre
rezultatele obținute în eșantionul de testare și
cel de învățare. Ca și exemplu, numărul de
persoane prezente în nodul terminal 5, crește cu
o unitate în eșantionul de testare.

Diferențe între cele două eșantioane se pot vedea și în cadrul celor două figuri mari.
Astfel, în eșantionul de testare, în cadrul variabilei dependente ,,Salariu”, salariul mediu este de
5753, în timp ce în cadrul eșantionului de învățare salariul mediu este de 5822.
De altfel, se poate vedea că intervalele diferă, dar nu destul de mult. Astfel, se remarcă că
în eșantionul de testare, cei cu vârsta până în 29 de ani, au salariul mediu mai mare decât cei din
eșantionul de învățare. Însă, cei cu vârsta mai mare din eșantionul de învățare au salariul mediu
mai mare decât cei din eșantionul de testare

S-ar putea să vă placă și