Proiect Analiza Discriminant Si Ierarhizare

UNIVERSITATEA “ALEXANDRU IOAN CUZA’’ DIN IAȘI
FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR
MASTER DATA MINING
ANALIZA STATISTICĂ A PIEȚEI MUNCII ÎN ROMÂNIA
CU AJUTORUL CELOR
2 METODE
CLASIFICAREA IERARHICĂ ȘI ANALIZA DISCRIMINANT
Coordonator:
Prof.univ.dr., Prodecan Carmen Pintilescu
Studente:
Filimon Ioana-Cristina căs. Pașcău
Gheorghiță Ema-Paula căs. Nazare

Cuprins:
INTRODUCERE .............................................................................................................................. 3
Populația și variabilele studiate .................................................................................................... 4
Metode statistice folosite în studiu ............................................................................................... 4
1. Analiza Cluster ............................................................................................................................. 5
1.1 Scopul metodei cluster ............................................................................................................ 5
1.2 Demersul analizei ................................................................................................................... 5
1.3 Rezultatele clasificării ierarhice ............................................................................................. 6
2. Analiza Discriminant .................................................................................................................. 12
2.1 Scopul analizei discriminant ................................................................................................. 12
2.2 Demersul analizei ................................................................................................................. 12
2.3 Ipoteze formulate în Analiza Discriminant........................................................................... 13
2.4 Rezultatele analizei discriminant .......................................................................................... 15
3. Concluzii .................................................................................................................................... 24
4. Bibliografie ................................................................................................................................. 25
5. Anexe.......................................................................................................................................... 25
2
INTRODUCERE
Formarea și funcționarea pieței muncii sunt două din procesele fundamentale și complexe
ale tranziției la economia de piață în România.Tranziția a impus reconsiderarea bazelor teoretice
ale politicii de ocupare și folosire a forței de muncă, ale mecanismelor de reglare a cererii și
ofertei de forță de muncă datorită caracterului deosebit al mărfii care circulă pe această piață.
Aceste particularități o diferențiază de celelalte piețe și o face să îndeplinească funcții importante
în asigurarea și menținerea echilibrelor macroeconomice și a stabilității social-politice.
Prin acest proiect am vrut să realizăm o analiză din punct de vedere statistic a pieței
muncii la nivelul județelor României din perspectiva ocupării și șomajului.
Am ales această temă deoarece consider că piața muncii va fi mereu un subiect de
actualitate întrucât prin intermediul ei se tranzacționează cea mai importantă resursă și anume
forța de muncă.
Piața muncii reprezintă “ansamblul tuturor actelor de vânzare cumpărare a forței de
muncă, împreună cu spațiul economic și timpul în care au loc. Condițiile specifice ale pieței
muncii au la bază raportul dintre oferta și cererea de muncă. Reglarea ofertei cu cererea de muncă
se realizează prin salariul real, iar salariul apare ca prețul închirierii muncii unor oameni liberi
sub aspect juridic și economic, în condițiile reglementate ale pieței” (Știrbu, E., 2005, p. 297).
Piața forței de muncă mai poate fi definită ca sistem al tranzacțiilor care asigură, prin
mecanisme specifice- înainte de toate prin intermediul negocierilor și al salariului- echilibrarea
ofertei și cererii de forță de muncă (Crețoiu, Gh., 2007, p. 163).
 Principalele obiective pe care ni le-am propus prin acest studiu sunt:
 Descrierea particularităților pieței muncii pe clustere de județe;

 Formarea de grupe omogene de indivizi: două unități statistice pentru care distanța
dintre ele este cea mai mică și formează o grupă, etc.
 Evidențierea variabilelor care diferențiază cel mai mult unitățile statistice
observate, grupate în k grupe.
 Gruparea altor unități statistice într-una din cele k grupe folosind funcția
discriminant (scop predictiv).
3
Populația și variabilele studiate
Populația studiată cu scopul de a identifica profilului județelor României cu privire la

ocupare și șomaj cuprinde 41 de județe ale României.Datorită faptului că Municipiul București
prezintă valori extreme și am ales să îl eliminăm din analiză.
Variabilele statistice utilizate în analiză descriu piața muncii și factori cu impact asupra
ocupării și șomajului, precum rata șomajului, rata de activitate a resurselor de muncă, rata de
ocupare a resurselor de muncă, PIB, câștigul salarial nominal și numărul de emigranți definitivi,
nivelul de studii, cheltuielile pentru formarea profesională.
Sursa din care am luat datele necesare analizei este site-ul INSSE
http://statistici.insse.ro/shop/?lang=ro, domeniul FORȚA DE MUNCĂ, CONTURI
NAȚIONALE, EDUCAȚIE și MIȘCAREA MIGRATORIE A POPULAȚIEI.
Analiza datelor a fost realizată cu ajutorul pachetului software SPSS versiunea 23.0
Tabel 1: Baza de date inițială
Sursa:SPSS
Metode statistice folosite în studiu
Ca metoda statistică am folosit analiza cluster (Clasificarea Ierarhică) cu scopul de a

identifica grupuri omogene de județe din punct de vedere al ocupării și a șomajului, să comparăm
mediile variabilelor pe clustere și analiza discriminant are ca și scop acela de a clasifica una sau
mai multe observații noi în grupuri.
4
1. Analiza Cluster
Analiza cluster este o metodă multivariată a datelor care are ca scop formarea de grupe
omogene de unităţi statistice, în funcţie de gradul de asemănare (similaritate) dintre subiecţii
consideraţi.
Analiza cluster face, astfel, posibilă identificarea profilului unităţilor reunite într-o clasă,
caracterizarea grupelor, tipologiilor obţinute.
Analiza cluster se aplică în cazul variabilelor numerice, dar și nenumerice luate separat
pentru Hierarchical Cluster, numerice pentru K-Means Cluster și pentru Two-Step Cluster
numerice și categoriale luate împreună.
1.1 Scopul metodei cluster
Analiza cluster are ca scop identificarea unui set de grupe omogene prin gruparea
elementelor astfel încât presupune maximizarea varianţei intergrupe şi minimizarea varianţei
intragrupe. (Pintilescu, C., 2007, p.194 ).
1.2 Demersul analizei
Din pachetele software dedicate acestui tip de analiză, am ales să folosim, software-ul
SPSS.
Demersul acestei analize se face astfel: accesăm programul SPSS, meniul
Analyze→Classify→Hierarchical Cluster.
5
1.3 Rezultatele clasificării ierarhice
În urma prelucrării datelor în SPSS, folosind clasificarea ierarhică (Hierarchical Cluster),

se obțin matricea proximităților, distanța dintre clustere și reprezentarea grafică a clasificării
datelor (dendograma).
a. Matricea proximităților
Conform matricei de proximitate se pot observa unitățile statistice între care există cele
mai mici sau cele mai mari distanțe.
Cea mai mică distanță care se regăsește în matricea proximităților este între județele
Bihor-Mureș, Bihor-Maramureș, iar cea mai mare distanță este între Iași-Bihor, Iași -Maramureș,
Iași-Mureș.
b. Alegerea numărului optim de clustere
Valorile coeficienților de distanță din tabelul 2 ne permit să alegem numărul optim de

clustere în care putem grupa unitățile statistice. Pentru a stabili numărul cel mai potrivit de
clustere trebuie să urmărim creșterea bruscă a distanței dintre unitățile statistice.
În acest caz avem o creștere a valorii în ceea ce privește distanța începând cu etapa 38
ceea ce ne arată că numărul clusterelor în care pot fi grupate unitățile statistice este de patru
clustere.
Tabelul 2: Schema de formare a clusterelor
Agglomeration Schedule
Cluster Stage Cluster First
Combined Appears
Cluster Cluster Coefficie Next
Stage 1 2 nts Cluster 1 Cluster 2 Stage
1 26 29 .357 0 0 10
2 19 24 .992 0 0 9
3 6 10 1.670 0 0 7
4 34 36 2.427 0 0 17
5 9 23 3.285 0 0 16
6 4 14 4.223 0 0 13
7 6 37 5.247 3 0 24
8 7 40 6.312 0 0 15
6
9 19 39 7.522 2 0 16
10 26 28 8.822 1 0 30
11 21 30 10.270 0 0 31
12 1 11 11.748 0 0 25
13 4 16 13.245 6 0 28
14 13 17 15.305 0 0 31
15 2 7 17.448 0 8 27
16 9 19 19.934 5 9 24
17 27 34 22.589 0 4 26
18 8 12 25.246 0 0 29
19 5 20 27.979 0 0 22
20 25 33 31.173 0 0 25
21 3 41 34.383 0 0 36
22 5 38 37.904 19 0 27
23 18 31 41.680 0 0 26
24 6 9 46.203 7 16 30
25 1 25 50.958 12 20 29
26 18 27 56.419 23 17 33
27 2 5 62.291 15 22 28
28 2 4 69.537 27 13 35
29 1 8 77.540 25 18 32
30 6 26 86.574 24 10 33
31 13 21 98.590 14 11 32
32 1 13 113.468 29 31 36
33 6 18 128.506 30 26 35
34 32 35 146.729 0 0 37
35 2 6 166.376 28 33 39
36 1 3 193.617 32 21 38
37 22 32 223.052 0 34 39
38 1 15 263.099 36 0 40
39 2 22 303.814 35 37 40
40 1 2 440.000 38 39 0
Sursa: Prelucrarea datelor în SPSS, versiunea 23.0
7
c. Dendograma
Dendograma este rezultatul clasificării ierarhice și arată divizările clusterelor, dar oferă în
același timp și o sinteză în ceea ce privește clasificarea grupurilor. Această diagramă ne ajută să
alegem numărul de clustere care face cea mai bună clasificare a unităților statistice.
Potrivit dendogramei din figura 3, clusterele pe care le-am considerat în analiză sunt în
număr de 4. Acestea sunt formate din următoarele județe:
 Clusterul 1 are 12 județe ( Bihor, Cluj, Brașov, Mureș, Sibiu, Bacău, Suceava,
Constanța, Argeș, Prahova, Dolj și Timiș);
 Clusterul 2 are 25 de județe ( Banat, Maramureș, Satu Mare, Sălaj, Alba, Covasna,
Harghita, Botoșani, Neamț, Vaslui, Brăila, Buzău, Tulcea, Vrancea, Călărași, Dâmbovița,
Giurgiu, Ialomița, Teleorman, Gorj, Olt, Vâlcea, Arad, Caraș-Severin și Hunedoara);
 Clusterul 3 are un județ (Iași);
 Clusterul 4 are 3 județe (Galați, Ilfov, Mehedinți).
Figura 3: Arborele ierarhic
8
d. Deosebiri și asemănări între grupurile de județe prin prisma ocupării și șomajului
Cu ajutorul testului ANOVA am putut observa dacă sunt diferențe semnificative între
mediile grupurilor de județe. Pentru a verifica cele spuse am formulat următoarele ipoteze:
9
H0: µ1=µ2=µ3=µ4
H1: cel puțin două medii sunt egale
După cum putem observa din tabelul ANOVA valoarea Sig pentru toate variabilele
analizate este mai mică decât α care este egală cu 0,05, ceea ce ne duce la respingerea ipotezei
nule, respectiv a lui H0 și la acceptarea ipotezei alternative H1. Prin urmare putem afirma că între
mediile variabilelor (rata șomajului, rata de activitate a resurselor de muncă, rata de ocupare a
resurselor de muncă, Produsul Intern Brut, câștigul salarial nominal mediu net lunar, numărul de
migranți definitivi, nivelul de studii și cheltuielile pentru formarea profesională) există diferențe
semnificative între clustere.
Tabel 3: ANOVA
ANOVA
Sum of
Squares df Mean Square F Sig.
Rata șomajului Between .00
63.810 2 31.905 5.510
(procente) Groups 8
Within Groups 214.230 37 5.790
Total 278.040 39
Rata de activitate a Between .00
1574.987 2 787.494 7.161
resurselor de munca Groups 2
(procente) Within Groups 4068.760 37 109.966
Total 5643.748 39
Rata de ocupare a Between .00
1811.525 2 905.762 9.537
resurselor de muncă Groups 0
(procente) Within Groups 3513.955 37 94.972
Total 5325.480 39
Produsul Intern Brut Between 1538624832. 769312416.0 28.32 .00
2
(mil lei) Groups 183 92 0 0
Within Groups 1005100188. 27164869.95
37
497 9
Total 2543725020.
39
680
Câștigul salarial Between 12.66 .00
695962.673 2 347981.337
nominal mediu net lunar Groups 0 0
pe activități ale Within Groups 1016992.427 37 27486.282
10
economiei naționale, Total
1712955.100 39
(lei)
Emigranți definitivi Between 10.62 .00
427721.698 2 213860.849
(persoane) Groups 0 0
Within Groups 745102.677 37 20137.910
Total 1172824.375 39
Elevi înscriși în Between 4152795183. 2076397591. 32.68 .00
2
învățământul primar și Groups 218 609 5 0
gimnazial (persoane) Within Groups 2350521221. 63527600.58
37
557 3
Total 6503316404.
39
775
Elevi înscriși în Between 604875928.8 302437964.4 18.73 .00
2
învățământul liceal Groups 43 22 3 0
(persoane) Within Groups 597341976.7 16144377.75
37
57 0
Total 1202217905.
39
600
Elevi înscriși în Between 15.78 .00
9901756.868 2 4950878.434
învățământul Groups 9 0
profesional (persoane) Within Groups 11602087.10
37 313569.922
7
Total 21503843.97
39
5
Studenti și cursanți Between 2944679046. 1472339523. 15.35 .00
2
înscriși în învățământul Groups 043 022 8 0
superior (licență, Within Groups 3547215902. 95870700.06
37
master, cursuri 357 4
postuniversitare, Total
doctorat și programe 6491894948.
39
postdoctorale) 400
(persoane)
Cheltuieli pentru Between 51771635223 25885817611 .22
2 1.561
formarea profesională Groups .333 .667 3
(Lei RON) Within Groups 61350661136 16581259766
37
6.667 .667
11
Total 66527824659
39
0.000
2. Analiza Discriminant
Analiza discriminant este o metodă de analiză multivariată a datelor care are ca obiective:
Evidențierea variabilelor care diferentiază cel mai mult unitățile statistice

observate, grupate în k grupe.
Gruparea altor unități statistice într-una din cele k grupe folosind funcția
discriminant (scop predictiv).
2.1 Scopul analizei discriminant
Scopul analizei este acela de a clasifica una sau mai multe observații noi în grupuri.
2.2 Demersul analizei
Din pachetele software dedicate acestui tip de analiză, am ales să folosim, software-ul
SPSS.
Demersul acestei analize se face astfel: accesăm programul SPSS, meniul
Analyze→Classify→Discriminant.
12
2.3 Ipoteze formulate în Analiza Discriminant
 Ipoteza de normalitate
 Ipoteza de multicoliniaritate
 Ipoteza de independență
 Ipoteza de omogenitate (homoscedasticitate)
În continuare vom prezenta în detaliu cele 2 ipoteze statistice, de normalitate si de omogenitate.
 Ipoteza de normalitate
Această ipoteză o vom testa cu ajutorul testului Kolmogorov-Smirnov.
H0: ipoteza de normalitate

H1: ipoteza nu urmează o lege normală
13
După cum putem observa, valoarea sig este mai mică decât riscul asumat (0,05), deci se respinge
ipoteza nulă, așadat ipoteza nu urmează o lege normală.
 Ipoteza de omogenitate (homoscedasticitate)
Această ipoteză o vom testa cu ajutorul testului Box test deoarece avem caz
multivariat.
H0: ipoteza de homodcedasticitate

H1: ipoteza de heteroscedasticitate
Test Results
Box's M 152.484
F Approx. 3.951
df1 30
df2 2570.882
Sig. .000
14
Tests null hypothesis of equal
population covariance matrices.
Sig=0,000
α = 0,05 => Sig < 0,05. Se respinge H0, se acceptă ipoteza de heteroscedasticitate.
Datorită eșantionului mic și a nr. unităților inegal această ipoteză a fost încălcată.
2.4 Rezultatele analizei discriminant
În urma prelucrării datelor în SPSS, folosind AD, se obțin mediile variabilelor cantitative
pe cele trei grupe, testul de egalitate a mediilor pe grupe, valori proprii ale funcției discriminant,
testul Wilk’s Lambda, coeficienții funcției discriminant standardizați, coeficienții de corelație cu
fiecare ax discriminant, coeficienții funcției discriminant nestandardizați, scorul mediu
discriminant, ecuațiile de clasificare, grafice și rezultatele clasificării.
a. Mediile variabilelor cantitative pe cele trei grupe
Tabel 4: Indicatori ai statisticii descriptive

Group Statistics
Valid N (listwise)
Std. Unweighte
catig_sal Mean Deviation d Weighted
castig_sal_redus Rata șomajului procent 6.4600 2.84339 10 10.000
Produsul Intern Brut
7278.9200 3810.61361 10 10.000
mil lei
Rata de ocupare a
resurselor de munca 65.5000 6.87524 10 10.000
procent
Emigranti definitivi
219.1000 101.45546 10 10.000
persoane
castig_sal_medi Rata șomajului procent 4.3818 2.60646 11 11.000
15
u Produsul Intern Brut
7725.3364 2277.77529 11 11.000
mil lei
Rata de ocupare a
procent
245.1818 116.08602 11 11.000
persoane
castig_sal_ridica Rata șomajului procent 4.7300 2.41511 20 20.000
t Produsul Intern Brut
16386.7100 9268.33554 20 20.000
mil lei
Rata de ocupare a
procent
390.8000 225.04517 20 20.000
persoane
Total Rata șomajului procent 5.0585 2.63799 41 41.000
11841.5146 8096.95821 41 41.000
mil lei
Rata de ocupare a
procent
309.8537 190.33360 41 41.000
persoane
Conform tabelului de mai sus, PIB-ul din grupa 3 are media cea mai mare.
b. Testul de egalitate a mediilor pe grupe
Tabel 5 : Testul de egalitate a mediilor pe grupe
Tests of Equality of Group Means

Wilks'
Lambda F df1 df2 Sig.
16
Rata șomajului procent .904 2.027 2 38 .146
.692 8.457 2 38 .001
mil lei
Rata de ocupare a
resurselor de munca .964 .711 2 38 .498
procent
.821 4.143 2 38 .024
persoane
H0: µ1= µ2= µ3

H1: cel puțin 2 medii diferă între ele
Sigrata șomaj=0,146 >0,05 => Nu se respinge ipoteza nulă. Nu există diferențe semnificative de rata
șomajului pe cele 3 grupe de câștig salarial. Aceasta arată că rata șomajului nu explică gruparea
unităților pe cele 3 grupe.
c. Valori proprii ale funcției discriminant
Tabel 6 : Valori proprii
Eigenvalues
Functio Eigenvalu % of Cumulative Canonical
n e Variance % Correlation
a
1 .474 78.2 78.2 .567
a
2 .132 21.8 100.0 .342
a. First 2 canonical discriminant functions were used in the
analysis.
Numărul de funcții discriminant este dat de:

Min(k-1; p)
k-nr. De grupe
p-nr de variabile
17
min(3-1; 4)
min(2;4)
În concluzie, în urma criteriului de alegere a funcției discriminant, au rezultat 2 funcții.
Prima funcție va explica 78,2% din varianța totală, iar a doua funcție explica 21,8 % din varianța
totală.
d. Testul Wilk’s Lambda
Tabel 7 : Testul Wilk’s Lambda

Wilks' Lambda
Test of Wilks' Sig.
Function(s) Lambda Chi-square df
1 through 2 .599 18.680 8 .017
2 .883 4.531 3 .210
Funcția discriminant 1
H0: funcția discriminant nu este semnificativ statistic

H1: funcția discriminant este semnificativ statistic
Sig=0,017<0,05 => Se respinge ipoteza nulă. Prin urmare, funcția discriminant 1 este
semnificativ statistic.
e. Coeficienții funcției discriminant standardizați
Tabel 8 : Coeficieții standardizați
18
Standardized Canonical Discriminant
Function Coefficients
Function
1 2
Rata șomajului procent .113 .881
.877 .178
mil lei
Rata de ocupare a
resurselor de munca -.090 .544
procent
.266 -.059
persoane
F1=0,113*Rata șomajului+0,877*PIB-0,090*Rata de ocupare+0,266*Emigranți
F2=0,881*Rata șomajului+0,178*PIB+0,544*Rata de ocupare-0,059*Emigranți
f. Matricea de structură
Tabel 9 :Coeficientul de corelație cu fiecare ax discriminant
Structure Matrix
Function
1 2
Produsul Intern Brut .969* -.017
mil lei
.676* -.117
persoane
Rata șomajului procent -.200 .815*
Rata de ocupare a
resurselor de munca .078 .511*
procent
19
Pooled within-groups correlations between
discriminating variables and standardized
canonical discriminant functions
Variables ordered by absolute size of
correlation within function.
Factorii care influențează piața muncii din România, Pib-ul și Rata șomajului explică cel mai
mult formarea celor două axe.
Prima funcție discriminant este definită de variabila PIB și separă grupa de câștig salarial redus
pe deoparte de grupele de câștig salarial mediu și ridicat.
A doua funcție discriminant este definită de variabila rata șomajului și separă grupa de câștig
salarial mediu pe deoparte de grupele de câștig salarial redus și ridicat.
g. Coeficienții funcției discriminant nestandardizați
Tabel 10 : Coeficienții funcției discriminant nestandardizați

Canonical Discriminant Function
Coefficients
Function
1 2
Rata șomajului procent .044 .342
.000 .000
mil lei
Rata de ocupare a
resurselor de munca -.008 .046
procent
.002 .000
persoane
(Constant) -1.705 -4.866
Unstandardized coefficients
20
F1= -1,705+0,044*Rata șomajului+0,000*PIB-0,008*Rata de ocupare+0,002*Emigranți
F1: Dcâștig_sal_redus=-1,705+0,044*6,46+0,000*7278,92+0,008*65,5+0,002*219,1=-0,672
F1: Dcâștig_sal_mediu=-0,623
F1: Dcâștig_sal_ridicat=0,679
Tabel 11: Scorul mediu discriminant

Functions at Group Centroids
Function
catig_sal 1 2
castig_sal_redus -.672 .504
castig_sal_medi
-.623 -.475
u
castig_sal_ridica
.679 .010
t
Unstandardized canonical
discriminant functions evaluated at
group means
Diferența cea mai mare este pentru grupa cu un câștig salarial ridicat pe deoparte, și grupele cu
câștig salarial redus și mediu pe de altă parte.
h. Funcția de clasificare
Tabel 12: Clasificarea functiei
Classification Function Coefficients

catig_sal
21
castig_sal_re castig_sal_m castig_sal_ri
dus ediu dicat
Rata șomajului procent 1.266 .933 1.156
9.886E-5 7.982E-5 .000
mil lei
Rata de ocupare a
resurselor de munca .472 .426 .439
procent
.005 .005 .007
persoane
(Constant) -21.553 -16.828 -21.329
Fisher's linear discriminant functions
Câștig_sal_redus= -21,553+1,266*Rata șomajului +0,000*PIB+0,472*Rata de

ocupare+0,0005*Emigranți
i. Reprezentare grafică pe cele trei grupe
22
j. Rezultatele clasificării
Tabel 12 : Clasificarea Rezultatelor
Classification Resultsa
Predicted Group Membership
castig_sal_re castig_sal_m castig_sal_ri
catig_sal dus ediu dicat Total
Original Count castig_sal_redus 8 1 1 10
castig_sal_medi
4 6 1 11
u
23
castig_sal_ridica
5 4 11 20
t
% castig_sal_redus 80.0 10.0 10.0 100.0
castig_sal_medi
36.4 54.5 9.1 100.0
u
castig_sal_ridica
25.0 20.0 55.0 100.0
t
a. 61.0% of original grouped cases correctly classified.
61 % din cazuri au fost clasificate corect. În urma clasificării, aceasta nu poate fi folosită în scop
predictiv, deoarece unitățile statistice sunt mai mici de 70 %.
3. Concluzii
În urma analizei efectuate, putem extrage câteva concluzii cu privire la rezultatele afișate
cu ajutorul analizei Cluster și Discriminant.
Conform matricei de proximitate se pot observa unitățile statistice între care există cele
mai mici sau cele mai mari distanțe.
Cea mai mică distanță care se regăsește în matricea proximităților este între județele
Bihor-Mureș, Bihor-Maramureș, iar cea mai mare distanță este între Iași-Bihor, Iași -Maramureș,
Iași-Mureș.
Creșterea valorii în ceea ce privește distanța începe cu etapa 38 ceea ce ne arată că
numărul clusterelor în care pot fi grupate unitățile statistice este de patru clustere.
Putem afirma că între mediile variabilelor (rata șomajului, rata de activitate a resurselor
de muncă, rata de ocupare a resurselor de muncă, Produsul Intern Brut, câștigul salarial nominal
mediu net lunar, numărul de migranți definitivi, nivelul de studii și cheltuielile pentru formarea
profesională) există diferențe semnificative între clustere.
Cu ajutorul analizei discriminant am observat că prima funcție discriminant va explica
78,2% din varianța totală, iar a doua funcție explica 21,8 % din varianța totală.
După cum am precizat mai sus, factorii care influențează piața muncii din România sunt
Pib-ul și Rata șomajului care explică cel mai mult formarea celor două axe.
24
4. Bibliografie
1. CREȚOIU, GH., Economie politică, Ed., rev.,-București, Editura Universității Titu

Maiorescu, 2007;
2. PINTILESCU, C., Analiza statistică multivariată, Editura Universitatea Alexandru
Ioan Cuza, Iași, 2007;
3. ȘTIRBU, E., Economie, Editura Sedcom Libris, Iași, 2005;
4. Curs + Seminar Analiza CLUSTER și IERARHIZARE.
5. Anexe
25
Prior Probabilities for Groups
Cases Used in Analysis
catig_sal Prior Unweighted Weighted
castig_sal_redus .333 10 10.000

castig_sal_mediu .333 11 11.000
castig_sal_ridicat .333 20 20.000
Total 1.000 41 41.000
26

Proiect Analiza Discriminant Si Ierarhizare

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect Analiza Discriminant Si Ierarhizare

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA “ALEXANDRU IOAN CUZA’’ DIN IAȘI

FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR

MASTER DATA MINING

ANALIZA STATISTICĂ A PIEȚEI MUNCII ÎN ROMÂNIA

CLASIFICAREA IERARHICĂ ȘI ANALIZA DISCRIMINANT

Prof.univ.dr., Prodecan Carmen Pintilescu

Filimon Ioana-Cristina căs. Pașcău

Gheorghiță Ema-Paula căs. Nazare

 Principalele obiective pe care ni le-am propus prin acest studiu sunt:

 Descrierea particularităților pieței muncii pe clustere de județe;

Populația studiată cu scopul de a identifica profilului județelor României cu privire la

Tabel 1: Baza de date inițială

Metode statistice folosite în studiu

Ca metoda statistică am folosit analiza cluster (Clasificarea Ierarhică) cu scopul de a

1.1 Scopul metodei cluster

1.2 Demersul analizei

În urma prelucrării datelor în SPSS, folosind clasificarea ierarhică (Hierarchical Cluster),

b. Alegerea numărului optim de clustere

Valorile coeficienților de distanță din tabelul 2 ne permit să alegem numărul optim de

Sursa: Prelucrarea datelor în SPSS, versiunea 23.0

Figura 3: Arborele ierarhic

d. Deosebiri și asemănări între grupurile de județe prin prisma ocupării și șomajului

Evidențierea variabilelor care diferentiază cel mai mult unitățile statistice

2.1 Scopul analizei discriminant

2.2 Demersul analizei

În continuare vom prezenta în detaliu cele 2 ipoteze statistice, de normalitate si de omogenitate.

Această ipoteză o vom testa cu ajutorul testului Kolmogorov-Smirnov.

H0: ipoteza de normalitate

 Ipoteza de omogenitate (homoscedasticitate)

H0: ipoteza de homodcedasticitate

2.4 Rezultatele analizei discriminant

a. Mediile variabilelor cantitative pe cele trei grupe

Tabel 4: Indicatori ai statisticii descriptive

b. Testul de egalitate a mediilor pe grupe

Tabel 5 : Testul de egalitate a mediilor pe grupe

Tests of Equality of Group Means

H0: µ1= µ2= µ3

c. Valori proprii ale funcției discriminant

Tabel 6 : Valori proprii

Numărul de funcții discriminant este dat de:

d. Testul Wilk’s Lambda

Tabel 7 : Testul Wilk’s Lambda

H0: funcția discriminant nu este semnificativ statistic

e. Coeficienții funcției discriminant standardizați

Tabel 8 : Coeficieții standardizați

F1=0,113*Rata șomajului+0,877*PIB-0,090*Rata de ocupare+0,266*Emigranți

F2=0,881*Rata șomajului+0,178*PIB+0,544*Rata de ocupare-0,059*Emigranți

g. Coeficienții funcției discriminant nestandardizați

Tabel 10 : Coeficienții funcției discriminant nestandardizați

Tabel 11: Scorul mediu discriminant

Tabel 12: Clasificarea functiei

Classification Function Coefficients

Câștig_sal_redus= -21,553+1,266*Rata șomajului +0,000*PIB+0,472*Rata de

i. Reprezentare grafică pe cele trei grupe

Tabel 12 : Clasificarea Rezultatelor

1. CREȚOIU, GH., Economie politică, Ed., rev.,-București, Editura Universității Titu

Cases Used in Analysis

catig_sal Prior Unweighted Weighted

castig_sal_redus .333 10 10.000

S-ar putea să vă placă și

F1=0,113Rata șomajului+0,877PIB-0,090Rata de ocupare+0,266Emigranți

F2=0,881Rata șomajului+0,178PIB+0,544Rata de ocupare-0,059Emigranți

Câștig_sal_redus= -21,553+1,266Rata șomajului +0,000PIB+0,472*Rata de