Sunteți pe pagina 1din 22

FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR

SPECIALIZAREA STATISTICĂ ȘI PREVIZIUNE ECONOMICĂ

Analiza statistică a ocupării forței de muncă în


România
Proiect „Tabelare și data visualisation”

Student:
Sîrbu .E Alexandra-Cristina

IAȘI
2018
1. Introducere
Ocuparea forței de muncă constituie în orice societate, chiar și în țările dezvoltate, o
condiție esențială atât pentru asigurarea echilibrelor macroeconomice cât și pentru stabilitatea
socio-politică.

Analizând situaţia pieţei forței de muncă din România se observă că în ultimul timp
erodarea ocupării forței de muncă este un fenomen mult mai îngrijorător spre deosebire de
şomaj, diferite forme de ocupare precară şi de subocupare involuntară, cât și noi forme mixte
între slujba regulară şi raportul de muncă precar au apărut şi se dezvoltă. Totodată, natura
ocupării a suferit schimbări dramatice în ceea ce privește contractul de muncă cu normă
întreagă, acesta reducându-se la contract de muncă cu timp parţial, de la munca slab calificată
spre înalta calificare, de asemenea, este evidențiat și faptul că s-au înrăutăţit condiţiile de
muncă, încalcându-se anumite drepturi de bază ale angajatului.

Fenomenul ocupării forței de muncă este unul de actualitate, de interes major atât pentru
agenții economici cât și pentru partenerii sociali, dar și pentru prezentul și viitorul societății,
având, totodată, și variate implicații economice, psihosociale, educational-culturale, politice.
Creșterea gradului de ocupare al forței de muncă și diminuarea fenomenului șomajului sunt în
prezent obiective esențiale ale politicii economice ale tuturor țărilor, obiective ce sunt posibil de
realizat prin intermediul echilibrului dintre cererea și oferta de forță de muncă pe piața muncii.
Cu alte cuvinte, interesul nostru pentru acest studiu se bazează pe studierea aspectelor care au
influențat ocuparea forţei de muncă în Romania în anul 2014.

Obiectivul principal al lucrării de față se axează pe identificarea și explicarea factorilor


ce manifestă atât influențe negative, cât și influențe pozitive asupra fenomenului de ocupare la
nivelul României. Printre obiectivele urmărite în cadrul lucrării se numără și identificarea
corelațiilor dintre variabilele analizate, modelarea regresiei dintre rata ocupării și fiecare
variabilă independentă introdusă în model.

Pentru a îndeplini obiectivele menționate vom parcurge mai multe etape. Astfel,
pentru a descrie populația studiată vom analiza descriptiv și grafic variabilele, vor fi
identificați outlierii și se vor elimina din baza de date, dacă este cazul. De asemenea, pentru
variabilele categoriale vom realiza analiza de asociere cu ajutorul testului chi square, și se va
realiza, totodată, și analiza de concordanță.

Cu ajutorul analizei de corelatie vom identifica legăturile dintre variabilele studiate. In


cadrul analizei de regresie, vom realiza un model de regresie liniar simplu, dar și un model
multiplu. Se vor estima și testa mediile. Vom incepe prin a estima media prin interval de
incredere, se va testa diferența dintre două medii( fie cu eșantioane independente fie cu
eșantioane perechi), iar în cele din urmă se va testa diferența dintre trei sau mai multe medii.
Vom continua prin realizarea regresiei neliniare, iar în cele din urma vom compara
două modele de regresie, din care îl vom alege pe cel mai bun

2
2. Prezentarea bazei de date

Baza de date inițială cuprinde 41 de unități statistice ce sunt reperezente de județele


României,iar ca variabile conține rata de ocupare, produsul intern brut, câștigul salarial și
macroregiunea.

Întrucât pentru realizarea proiectului sunt necesare minim trei variabile numerice și două
nenumerice, vom obține cea de-a doua variabilă categorială prin transformarea variabilei
numerice rata de ocupare în nivelul de ocupare, această variabilă cuprinzând 3 niveluri de
ocupare: scăzut, mediu și ridicat.

3
Conform operațiilor preliminare din baza de date trebuie realizată o selecție care să
includă condiții pentru cel puțin două variabile, prin urmare s-a realizat o selecție asupra
județelor cu un nivel de ocupare scăzut sau ridicat și care să aibă totodată câștigul salarial mai
mare sau egal cu 1326 lei.

În urma selecției realizate, din baza initiala au fost eliminate 15 unități statistice, baza
finala cuprinzând 26 de unități statistice din cele 41.

Pasul ce se succede este de a exporta acest rezultat într-un nou document csv, dar nu
înainte de a verifica că variabilele categoriale au definite bine categoriile.

4
3. Analiza grafică și numerică a variabilelor analizate

3.1. Analiza descriptivă a variabilelor numerice și nenumerice


a) Variabile numerice

 Rata de ocupare

La nivelul județelor în anul 2014, rata de ocupare a înregistrat o valoare medie egală cu
63.50%, cele mai multe județe înregistrând o valoarea egală cu 63.5%. Se observă, de
asemenea, că valoarea minima înregistrată este egală cu 50.70%, la polul opus situându-se
valoarea de 78.40%.

Conform coeficientului de asimetrie Skewness, distribuţia ratei de ocupare


este o distribuţie asimetrică la dreapta, aceasta caracterizându-se printr-o concentrare a

5
frecvenţelor spre valorile mici ale variabilei, iar coeficientul de boltire evidențiază o
distribuție platicurtică.

 Produsul intern brut


La nivelul județelor în anul 2014, pib-ul a înregistrat o valoare medie egală cu
11741.092308 lei, cele mai multe județe înregistrând o valoarea egală cu 4617.2 lei.
Se observă că valoarea minima înregistrată a produsului intern brut este egală cu 4617.20
lei la polul opus situându-se valoarea de 23741.60 lei.

Conform coeficientului de asimetrie Skewness, distribuţia produsul intern brut este o


distribuţie asimetrică la dreapta, aceasta caracterizându-se printr-o concentrare a frecvenţelor
spre valorile mici ale variabilei, iar coeficientul de boltire evidențiază o distribuție
leptocurtică, având valori dispersate pe un interval mai mic în jurul mediei.

 Câștigul salarial

În anul 2014 la nivelul județelor României câștigul salarial a înregistrat o valoare medie
egală cu 1529.423077 lei, cele mai multe dintre județe având câștigul egal cu 1326 lei.
Valoarea minima înregistrată la nivelul anului 2014 a câștigului salarial este egală cu 1326 lei
la polul opus situându-se valoarea de 1897 lei.

Conform coeficientului de asimetrie, distribuţia câștigului salarial este o distribuţie asimetrică


la dreapta ce se caracterizează printr-o concentrare a frecvenţelor spre valorile mici ale variabilei,
mai exact este evidențiat faptul că la nivelul României, județele înregistrează un câștig salarial
scăzut, în timp ce coeficientul de boltire evidențiază o distribuție leptocurtică.

b) Variabile nenumerice

În urma realizării analizei descriptive asupra variabilelor nenumerice se observă faptul că


sunt înregistrate 19 județe cu un nivel de ocupare scăzut, iar 7 au un nivel de ocupare ridicat.

6
În ceea ce privește macroregiunile, observăm că 8 județe aparțin Macroregiunii patru, 7
Macroregiunii trei, 7 Macroregiunii doi și 4 Macroregiunii unu.

Din cele 19 județe cu nivelul de ocupare scăzut, 7 aparțin Macroregiunii doi, 5


Macroregiunii patru, 7 Macroregiunii trei, Macroregiunea unu neavând niciun județ cu un
nivel de ocupare scăzut. Cu privire la județele cu un nivel de ocupare ridicat, 3 aparțin
macroregiunii patru și 3 aparțin Macroregiunii unu, Macroregiunile doi și trei nu înregistrează
județe care să aibă nivelul de ocupare ridicat.

3.2. Analiza grafică a variabilelor numerice și nenumerice

a) Variabile numerice

 Rata de ocupare

Conform histogramei, cât și a coeficientului de asimetrie se observă că distribuţia ratei de


ocupare este o distribuţie asimetrică la dreapta, aceasta caracterizându-se printr-o concentrare
a frecvenţelor spre valorile mici ale variabilei
7
 Câștig salarial

Conform histogramei, dar și coeficientului de asimetrie se observă faptul că distribuţia


câștigului salarial este o distribuţie asimetrică la dreapta ce se caracterizează printr-o concentrare a
frecvenţelor spre valorile mici ale variabilei, mai exact este evidențiat faptul că la nivelul
României, județele înregistrează un câștig salarial scăzut.

 Produsul intern brut

Conform graficului realizat, cât și a coeficientului de asimetrie, distribuţia produsul intern


brut este o distribuţie asimetrică la dreapta, aceasta caracterizându-se printr-o concentrare a
frecvenţelor spre valorile mici ale variabilei

8
b) Variabile nenumerice
 Nivelul de ocupare

În urma realizării graficului, se observă faptul că la nivelul eșantionului predomină


județele cu un nivel de ocupare scăzut. Nivelul mediu nu înregistrează valori întrucât a fost
realizată selecția ce cuprindea doar județele cu un nivelul de ocupare scăzut dau ridicat.

 Macroregiunea

9
Se observă conform graficului că macroregiunea patru înregistrează valoarea cea mai
ridicată, macroregiunile doi și trei înregistrând aceeași valoare, iar macroregiunea
consemnează cea mai scăzută valoare.

3.3. Identificarea outlierilor si eliminarea acestora din baza

Indentificarea outlierilor se va realiza cu ajutorul boxploturilor .

10
În urma realizării boxploturilor se observă faptul că nu avem puncte extreme pentru
niciuna dintre variabilele analizate.

11
4. Analiza statistica a variabilelor categoriale

4.1. Tabelarea datelor

Se observă faptul că din totalul județelor din eșantion 7 sunt din Macroregiunea doi și au
nivelul de ocupare scăzut (0.368%), 8 aparțin Macroregiunii patru, 5 dintre acestea având
nivelul de ocupare scăzut (0.263%), în timp ce 3 județe înregistreză un nivel de ocupare
ridicat (0.42%). 7 județe sunt consemnate și în Macroregiunea trei, acestea având, de
asemenea, nivelul de ocupare scăzut (0.368%). Macroregiunii patru îi revin 4 județe cu un
nivel de ocupare ridicat (0.571%).

Din totalul județelor din eșantion 19 au nivelul de ocupare scăzut, respectiv 0.730%, iar
7 au un nivel de ocupare ridicat (0.269%).

12
În ceea ce privește variabila „macroregiune” se observă că macroregiunea doi cuprinde 7
județe din eșantion (0.26%), macroregiunea patru 8 județe (0.30% ), macroregiunea trei 7
județe (0.26%), iar macroregiunea unu 4 județe (0.15%).

4.2. Analiza de asociere

Ipoteze: H0: variabilele sunt independente


H1: variabilele sunt asociate

sig=0.0009 , α= 0.05=> sig < α => se respinge ipoteza H0

Interpretare: Cu o probabilitate de 95% garantăm că variabilele sunt asociate, respectiv


că macroregiunea are influență asupra nivelului de ocupare.

13
4.3. Analiza de concordanță

Ipoteze: H0: există concordanță între distribuția practică și cea teoretică


H1: nu există concordanță între distribuția practică și cea teoretică

sig= 8.7216088724560438e-12 , α= 0.05=> sig < α => se respinge ipoteza H0

Interpretare: Cu o probabilitate de 95% garantăm că nu există concordanță între


distribuția practică și cea teoretică.

14
5. Estimarea și testarea mediilor

5.1. Estimarea mediei prin interval de încredere

 Rata de ocupare

Interpretare: Cu o probabilitate de 95% estimăm că media ratei de ocupare ia valori cuprinse


în intervalul [60.374, 66.640]%.

 Produsul intern brut

Interpretare: Cu o probabilitate de 95% estimăm că media produsului intern brut ia valori


cuprinse în intervalul [9341.623, 14140.561]lei.

 Câștigul salarial

Interpretare: Cu o probabilitate de 95% estimăm că media caștigului salarial ia valori


cuprinse în intervalul [1456.5429, 1602.303]lei.

5.2. Testarea mediilor populatiei

5.2.1. Testarea unei medii cu o valoare fixă

Ipoteze: H0: µ = 1500;


H1: µ ≠ 1500.

Sig= 0.413 > α=0.05 => nu se respinge H0

Interpretare: Cu o probabilitate de 95% garantăm că media câștigului salarial înregistrat la


nivelul județelor României nu diferă semnificativ de valoarea 1500 lei.

15
5.2.2. Testarea diferenței dintre două medii

Ipoteze: H0: µ1=µ2


H1: µ1≠µ2

sig= 1.4660486837280701e-17 < α=0.05 => se respinge H0

Interpretare: Cu o probabilitate de 95% garantăm că cele două medii diferă semnificativ.

5.2.3. Testarea diferentei dintre trei si mai multe medii

Ipoteze: H0: µ1=µ2= µ3= µ4= µ5= µ6= µ7= µ8


H1: cel puțin o medie este diferită

sig= 0.000044 < α=0.05 => se respinge H0

Interpretare: Cu o probabilitate de 95% garantăm că regiunile României diferă semnificativ


în raport cu rata medie a ocupării forței de muncă, la nivelul anului 2014.

16
6. Analiza de regresie și corelație

6.1. Analiza de corelație

În urma identificării coeficientului de corelație Pearson dintre rata de ocupare și


produsul intern brut, se observă faptul că între cele două variabile există o corelație directă
și slabă.

 Testarea coeficientului de corelație Pearson:

Ipoteze: H0: ρ = 0;
H1: ρ ≠ 0.

sig= 0.4212 > α=0.05 => nu se respinge H0

Interpretare: Cu o probabilitate de 95% că între variabilele cercetate nu există o legatură


semnificativă, deci coeficientul de corelație nu este semnificativ statistic.

Conform coeficientului de corelație Pearson dintre rata de ocupare și


câștigul salarial, se observă faptul că între cele două variabile există o corelație directă
și slabă.

 Testarea coeficientului de corelație Pearson:



Ipoteze: H0: ρ = 0;
H1: ρ ≠ 0.
Sig= 0.786 > α=0.05 => nu se respinge H0

Interpretare: Cu o probabilitate de 95% că între variabilele cercetate nu există o legatură


semnificativă, deci coeficientul de corelație nu este semnificativ statistic.

În urma identificării coeficientului de corelație Pearson dintre câștigul salarial și


produsul intern brut, se observă faptul că între cele două variabile există o corelație directă și
foarte puternică.

17
 Testarea coeficientului de corelație Pearson:
Ipoteze: H0: ρ = 0;
H1: ρ ≠ 0.
Sig= 9.9899831736014022e-07< α=0.05 => se respinge H0

Interpretare: Cu o probabilitate de 95% că între variabilele cercetate există o legatură semnificativă,


deci coeficientul de corelație este semnificativ statistic.

6.2. Analiza de regresie

6.2.1. Regresie liniară simplă și mutiplă

a) Regresia liniară simplă


 Model fără constantă

 Model cu constantă

18
Ecuaţia modelului: Rata_ocupare = 40.1968 + 5.8056*pib

Interpretarea parametrilor ecuaţiei: Rata de ocupare este în medie de 40.1968%, atunci


când produsul intern brut este egal cu 0. De asemenea, la o creștere cu 1 leu a produsului
intern brut, rata de ocupare crește în medie cu 5.80%.

b) Regresia liniară multiplă


 Model fără constantă

 Model cu constantă

19
Ecuaţia modelului: Rata_ocupare = 33.6002 – 0.0072*Câștig_salarial + 10.1921*Pib

Interpretarea parametrilor ecuaţiei: Rata de ocupare este în medie de 33.6002%, în


condițiile în care variabilele independente sunt egale cu 0. De asemenea, pe de o parte, la o
scădere cu 1 leu a câștigului salarial, rata de ocupare scade în medie cu 0.0072%, fiind
considerată constată influența celorlalte variabile independente, iar pe de altă parte, la o
creștere cu o unitate a produsului intern brut pe locuitor rata de ocupare crește în medie cu
10.1921%, în condițiile în care se consideră constantă influența câștigului salarial.

6.2.2. Regresia neliniară

Pentru realizarea regresiei neliniare se realizează un model liniar semi-logaritmic cu


avriabila independentă logaritmată.

Ecuaţia modelului: Rata_ocupare = 31.0507 + 53.8204*(ln)Pib

Interpretarea parametrilor ecuaţiei: Rata de ocupare este în medie de 31.0507 %, atunci


când produsul intern brut este egal cu 1 leu. De asemenea, la o creștere cu 1 % a produsului
intern brut, rata de ocupare crește în medie cu 53.8204%.

20
6.2.3. Compararea a doua modele de regresie si alegerea celui mai bun
model

Determinarea celui mai bun model se realizează, pe de o parte, cu ajutorul valorilor


atribuite raportului de determinație ajustat, iar pe de altă parte, se urmărește ca parametrii
modelului de regresie sa fie semnificativi din punct de vedere statistic.

Pentru a alege cel mai bun model s-a comparat modelul de regresie liniar simplu cu
modelul liniar semi-logaritmic cu variabila independentă logaritmată.

Astfel, urmărind valorile înregistrate de către raportul de determinație ajustat pentru


fiecare model, se observă faptul că pentru ambele acesta înregistrează valori negative și foarte
scăzute. În ceea ce privește parametrii ambelor modele se observă că pentru un risc de 0.05 %
parametrii modelelor nu sunt semnificativi din punct de vedere statistic, în cele din urmă nu
putem concluziona că unul dintre cele două modele este mai bun decăt celălalt, însă daca am
analiza raportul de determinație observăm că modelul semi-logaritmic este mai bun decât cel
liniar.

Vom realiza și un model semi-logaritmic cu variabila dependentă logaritmată pentru a-l


compara cu cel simplu.

Observăm, de asemenea, că raportul de determinație ajustat pentru acest model


înregistrează o valoare negativă, în ceea ce privește parametrii observă că sunt nesemnificativi
din punct de vedere statistic, însă putem spunem că modelul liniar simplu este favorabil în
raport cu modelele semi-logaritmice.

21
7. Concluzii

 România a înregistrat la nivelul anului o rata medie de ocupare egală cu 63.50%.


Procentul minim înregistrat fiind de 50.70%, în timp ce procentul maxim a fost de
78.40%;

 Prin intermediul boxploturilor s-a observat faptul că nu există outlieri în rândul


valorilor ce compun variabilele analizate;

 Identificarea coeficienților de corelație evidențiază faptul că există corelații directe și slabe


între variabila dependentă rata de ocupare și varibilele independente reprezentate de
produsul intern brut și câștigul salarial;

 Analiza de asociere a evidențiat faptul că regiunea are influență asupra nivelului de


ocupare;

 S-a observat, de asemenea, că media câștigului salarial înregistrat la nivelul județelor


României nu diferă semnificativ de valoarea 1500 lei, acest fapt fiind garantat cu o
probabilitate de 95%;

 Regiunile României diferă semnificativ în raport cu rata medie a ocuparii forței de


muncă, la nivelul anului 2014, acestea putând fi garantate cu o probabilitate de 95%;

 Prin compararea modelului de regresie liniar simplu cu cu cele două modele semi-
logaritmice, s-a observat că modelul cel mai bun este cel liniar simplu.

22