Documente Academic
Documente Profesional
Documente Cultură
Sub 23 Tofan Catalin SPMK
Sub 23 Tofan Catalin SPMK
Analiza
Pentru început, vom alege o variabila dependentă. M-am decis ca în cazul meu, variabila cea mai
potrivită este ,,Salariul”, aceasta fiind una de tip scale, numerică. Ca și variabile independente
am ales: studii, experiența, vârsta și sexul, așa cum se vede în imaginea de mai jos.
Ca să ajungem la arbori, vom accesa analyse, apoi clasify, iar apoi Tree.
De altfel, mai trebuie să selectăm câteva opțiuni, acestea regăsingu-se în ,,Criteria”, dar
și în SAVE. În cadrul criteria, pentru început trebuie să ne asigurăm că este bifată secțiunea
,,Automatic”, iar ,,Child note” va fi de 25, reprezentând jumătate din ,,Parent note”(numerele
sunt mici deoarece si baza de date este mică). În cadrul rubricii ,,SAVE”, vom bifa ,,Terminal
node number”.
În continuare, am urmat apăsat ok pentru a continua analiza, primele rezultate fiind prezente în
cadrul figurii de tip arbore care se află pe pagina următoare. Am situat figura pe următoarea
pagina pentru a se vedea cum trebuie, neexistând astfel părți din figură ce se întind pe alte pagini.
Interpretarea acestui arbore este următoarea: Toate aceste căsuțe sunt noduri, primul nod
fiind reprezentat de Salariul mediu, fiind un număr de 400 de respondenți, iar aceștia având în
media un salariu mediu de aproximativ 5800. Astfel, acest nod, reprezentat de variabila
dependentă, caută să găsească care dintre predictorii aleși sunt mai semnificativi ca și noduri
(dacă am avea un copac, acești predictori ar fi echivalentul unor frunze).
Pentru a determina care variabilă este cea mai semnificativă, se folosește testul F,
deoarece variabilă dependentă este scalară.
Se remarcă faptul că cea mai semnificativă variabilă este reprezentată de ,,Studii”,
aceasta sugerând nivelul de studii al fiecărui respondent. Astfel, în cadrul primului nod sunt
situați cei ce au absolvit liceul, aceștia reprezentând 58,2% din întreaga populație analizată și
având un salariu mediu de aproximativ 5200. Cel de-al doilea nod este reprezentat de cei care au
absolvit programul de licență sau masterat din cadrul facultății. Aceștia reprezintă 41,8% din
populația analizată, având un salariu mediu de aproximativ 6600. De altfel, putem specifica și
faptul că în primul nod au fost repartizate 233 de persoane, iar în al doilea 167.
Mai departe, se ia fiecare nod în parte și se analizează care factor este cel mai
reprezentativ, astfel încât nodul să continue să se ramifice. Astfel, în situația noastră cel mai
semnificativ factor este reprezentat de variabila ,,sex”.
Se crează astfel două noduri, unul specific
genului feminin și unul specific genului masculin.
Astfel, femeile care au ca ultima formă de studii
absolvită liceul, reprezintă 39,2% din întreaga populație,
fiind 157 la număr. Acestea au un salariu mediu de
aproximativ 4900, fiind de altfel cel mai mic salariu.
terminale.
Astfel, așa cum se vede în poză, doar nodul 3 este în continuare ramificat, în funcție de
experiența în domeniu. Regăsim astfel că 15% din populația totală sunt femei ce au terminat doar
liceul și au o experiență mai mică sau egală de 9 ani, acestea având un venit mediu de
aproximativ 4600, iar 24,2% din populația totală sunt femeile ce au terminat liceul au o
experiență în domeniu mai mare de 9 ani, acestea având o vechime mai mare de nouă ani și în
medie un salariu de aproximativ 5000.
Gain Summary for Nodes
5 57 14,2% 6092,00
4 76 19,0% 5892,63
8 97 24,2% 5031,46
7 60 15,0% 4625,83
Mai departe, acest tabel reprezintă fiecare nod terminal. Astfel, primul nod terminal este nodul 6,
acesta reprezentând 27,5%, format din 110 persoane, acestea având un salariu mediu de
aproximativ 6800, iar ultimul nod terminal este nodul 7, aceta reprezentând 15%, fiind format
din 60 de persoane ce au un salariu mediu în jur de 4600.
În cazul în care dorim să și validăm, trebuie să urmărim aceeași pași ca la varianta prezentată
anterior, fiind totuși câteva schimbări.
Deoarece baza de date nu este foarte mare, vom lăsa 50/50 la cele două ,,sample”-uri. Iar la
criteria, vom modifica din 50 și 25 în 40 și 20.
Astfel, avem doi arbori noi, după cum se vede în figurile de mai jos
Se remarcă de data aceasta că cea mai semnificativă variabilă este acum vârsta, factorul în ceea
ce privește studiile fiind totuși prezent, dar nu la fel de important.
În continuare, se pot compara rezultatele obțiunute în eșantionul de testare și cel de învățare
(training).
Diferențe între cele două eșantioane se pot vedea și în cadrul celor două figuri mari.
Astfel, în eșantionul de testare, în cadrul variabilei dependente ,,Salariu”, salariul mediu este de
5753, în timp ce în cadrul eșantionului de învățare salariul mediu este de 5822.
De altfel, se poate vedea că intervalele diferă, dar nu destul de mult. Astfel, se remarcă că
în eșantionul de testare, cei cu vârsta până în 29 de ani, au salariul mediu mai mare decât cei din
eșantionul de învățare. Însă, cei cu vârsta mai mare din eșantionul de învățare au salariul mediu
mai mare decât cei din eșantionul de testare