Sunteți pe pagina 1din 23

Universitatea Alexandru Ioan Cuza Iasi Facultatea de Economie si Administrarea Afacerilor

PROIECT DE PRACTICA LA BAZELE STATISTICII

Cuprins
I. Obiectivul proiectului . II. Crearea bazei de date III. Descrierea statistic a variabilelor - Pentru variabile categoriale: proportii, valoarea dominanta, diagrama de structura, diagrama Pareto. - Pentru variabile numerice: nivelul mediu (media aritmetica, modul, mediana), dispersia (varianta, intervalul mediu de varietie, coeficientul de variatie), forma distributiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecventelor, box-plot, curba de concentrare) . IV. Inferenta statistica ... - Estimarea prin interval de incredere a unei medii. - Estimarea prin interval de incredere a unei proportii.. - Testarea unei valori medii cu o valoare fixa..
2

- Testarea unei proportii cu o valoare fixa.. V. Analiza statistica a legaturilor dintre variabile. - Analiza variantei (ANOVA) . - Analiza de corelatie si asociere - Analiza de regresie VI. Concluzii ... Bibliografie

CAPITOLUL I
Obiectivul proiectului

Obiectivul acestui proiect este de a-mi insusi abilitatile de realizare a demersului culegerii si prelucrarii datelor statistice prin creadea unei baze de date statistice si folosind analiza descriptive, reprezentarea grafica, indicatori ai
3

tendintei centrale, indicatori ai dispersiei, asimetriei si boltirii, inferenta statistica si analiza statistica a legaturilor dintre variabile. Realizarea acestui proiect are rolul de a ma initia in demersul statistic si in formarea unei gandiri statistice necesare intelegerii fenomenelor in timp, spatiu si masa. In vederea intocmirii acestui proiect am ales ca tema de studiu analizarea numarului de someri (variabila numerica) si a numarului de salariati (variabila categorila), din 40 de judete ale Romaniei. Am structurat acest proiect in 6 capitole, in care am urmrit alctuirea unei baze de date prin sistematizarea si prezentarea datelor intr-un tabel statistic si descrierea statistic a distribuiei.

CAPITOLUL II
Sistematizarea si prezentarea datelor statistice

Datele ca urmeaza a fi sistematizate sunt preluate din Anuarul Statistic al Romaniei, 2008. Sistematizarea datelor inregistrate presupune ordonarea acestora in functie de omogenitatea lor. Rezultatul sistematizarii se przinta intr-o forma usor de manevrat, prin serii, tabele si grafice. Sistematizarea datelor este prima faza a prelucrarii statistice si vizeaza obtinerea de distributii statistice.

Tabelul 1. Nr. de someri si nr de salariati in 40 de judete ale Romaniei

nr.crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

judet
Bacu Botoani Iai Neam Suceava Vaslui Brila Buzu Constana Galai Tulcea Vrancea Arge Clrai Dmbovia Giurgiu Ialomia Prahova Teleorman Dolj Gorj Mehedini Olt Vlcea Arad Cara-Severin Hunedoara Timi Bihor Bistria-Nsud Cluj Maramure Satu Mare Slaj Alba Braov Covasna Harghita Mure Sibiu Total

Variabila 1 (nr de someri) 10355 6391 17695 7800 9457 15619 5315 10604 10858 12589 3461 5658 12985 4965 11366 4090 7435 12124 12552 14347 8205 9959 8673 6123 4929 8967 10087 5487 6706 3105 10203 7068 4080 4739 10509 12603 6653 7163 10691 5806 347422

varibiala 2 (nr de salariati) 121838 57015 156881 85315 100279 57806 76612 85704 183586 122404 46810 60184 145895 46336 83318 33678 46427 184485 56900 133652 81548 48614 73312 83854 120358 63218 128671 209814 163325 59241 194239 94114 75246 46343 90316 163788 49788 64402 127953 116266 3939535

variabila 3 (medie someri) peste medie sub medie peste medie sub medie peste medie peste medie sub medie peste medie peste medie peste medie sub medie sub medie peste medie sub medie peste medie sub medie sub medie peste medie peste medie peste medie sub medie peste medie sub medie sub medie sub medie peste medie peste medie sub medie sub medie sub medie peste medie sub medie sub medie sub medie peste medie peste medie sub medie sub medie peste medie sub medie

CAPITOLUL III
7

Descrierea statistica a variabilelor


Pe un esantion de 40 de judete(Tabelul 1.), se observa numarul de someri. Gruparea pe interval de variatie se face dupa formula: l= unde l este marimea intervalului de variatie, iar k=5(grupe). Obtinem: l= Tabelul 2. Distributia pe judete dupa numarul somerilor. Nr. de someri Nr. de judete

3105-6023 6023-8941 8941-11859 11859-14777 14777-17695 TOTAL

10 12 9 7 2 40

3.Frecvinta relativa (fi)

Frecventa relativa se calculeaza ca un indicator relative de structura. Poate fi sub forma de coeficient, aratand de cate ori, fie sub forma procentuala, aratand cat la suta reprezinta partea considerata intr-un intreg. Frecventa relative procentuala se calculeaza dupa formula:

(rezultatele sunt afisate in Anexa 1)

3.1.Frecventa cumulata Frecventa poate fi cumulate atat in forma absoluta(Ni) cat si in forma relativa(Fi), si exprima numarul unitatilor, respectiv ponderile lor fata de total,cumulate pana la( ) sau peste( ) nivelul considerat al caracteristicii. a.)Frecventa cumulata in forma absoluta. Se calculeaza dupa formula:

Pentru intervalul: (8941-11859). Interpretare: -31 judete au pana la 11859 someri; -18 judete au peste 8941 someri.
9

(rezultatele sunt afisate in Anexa 1)

b.)Frecventa cumulate in forma relativa: Se calculeaza dupa formula:

Pentru intervalul: (8941-11859). Interpretare: -77.5% din judete au pana la 11869 someri; -45% din judete au peste 8941 someri.
(rezultatele sunt afisate in Anexa 1)

3.2.Indicatori ai tendintei centrale Scopul elaborarii tendintei centrale ai distributiei unei variabile discrete sau continue, este de a sintetiza datele, fiind necesara pentru a facilita manipularea si interpretarea informatiei. 3.2.1.Media aritmetica a unei distributii empirice reprezinta valoarea pe care ar purta-o fiecare unitate statistica daca distributia ar fi omogena. Media aritmetica se calculeaza dupa formula:

Interpretare: In medieun judet are 7841 someri in anul 2007.


10

3.2.2. Modul (Dominanta) este valoarea caractristicii cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante, de aici si denumirea de dominanta. Formula modului este: unde: iar: d= , reprezinta marimea intervalului modal. ).

Intr-o serie de interval, aflarea modului presupune depistarea valorii n si aflarea interalului modal ( n = Intervalul modal este: (6023-8941). Atunci:

Interpretare: La nivelul considerat, cele mai multe judete au 7190 someri. 3.2.3.Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau descrescator, pana la care si peste care sunt distribuite in numar egal unitatile colectivitatii observate: jumatate din unitati au valori mai mari decat media si jumatate au valori mai mici. Mediana se calculeaza dupa formula: unde: In cazul nostru: , reprezinta unitatea mediana.

11

Intervalul median corespunzator efectivului cumulate care verifica relatia : , este (6023-8941). Intrucat :

Interpretare: -50% din judete au pana la 8576 someri, iar 50% din judete au peste 8576 someri. 3.3.Indicatori ai dispersiei, asimetriei si boltirii 3.3.1.Indicatori simpli si sintetici ai dispersiei Dispersia exprima gradul de imprastiere a valorilor individuale ale unei distributii in jurul valorii central si este datorata influentei factorilor aleatori. A.)Indicatori simpli ai dispersiei masoara campul de imprastiere al caracteristicii, precum si imprastierea fiecarui nivel individual al caracteristicii fata de nivelul lor mediu. Indicatorii simpli ai dispersiei sunt : amplitudinea variatiei si abaterea individuala. a.)Amplitudinea variatiei Amplitudinea variatiei se poate calcula atat in marime absoluta ( ), cat si in marime relativa ( ), dupa relatiile: Atunci: Interpreatare: Campul de variatie al numarului de someri din cele 40 de judete ale Romaniei este de 14590. b.)Abaterea individuala

12

Abaterea individuala se poate calcula fie in marime absoluta ( ), fie in marime relativa ( ), dupa relatiile:

Astfel, in marime absoluta avem: iar in marime relativa:

B.)Indicatori sintetici ai dispersiei exprima , in mod sintetic, imprastierea tuturor nivelurilor individuale ale unei caracteristici fata de nivelul lor mediu. Ca indicatori sintetici ai dispersiei se calculeaza: abaterea medie liniara, variant (dispersia), abaterea medie patratica (deviatia standard) si coeficientul de variatie. a.)Abaterea medie liniara ( ) se calculeaza ca medie aritmetica a valorilor absolute ale abaterilor individuale | Se calculeaza dupa relatia: |.

Cu ajutorul elementelor de calcul din Anexa 1. obtinem: Interpretare: Pe ansamblul a 40 de judete se relizeaza un numar de someri care variaza in medie fata de nivelul mediu cu 3908, in sens pozitiv si negativ. b.)Varianta

13

-varianta ca indicator , se calculeaza ca medie aritmetica a patratelor valorilor abaterilor individuale fata de media lor, dupa relatiile: respectiv:

Conform elementelor de calcul din Anexa 1. Avem:

c.)Abaterea medie patratica (deviatia standard). Acest indicator sintetic al dispersiei se calculeaza ca medie patratica a abaterilor individuale. Se obtiner dupa relatia:

Atunci:

Interpretare: Pe ansamblul a 40 de judete se realizeaza numarul de someri care variaza in medie fata de nivelul mediu cu 4881 someri, in sens pozitiv si in sens negativ. ???????????????????????????????????????????? d.)Coeficientul de variatie este o masura relative a dispersiei . Se calculeaza ca raportul procentual intre abaterea medie liniara sau abaterea medie patratica si media aritmetica, dupa relatiile:

14

respectiv: Conform relatiilor avem : respectiv: Interpretare: Valoarea obtinuta pentru coeficientul de variatie . v62% >50%, arata o distributie eterogena si o medie nereprezentativa, respectiv o variatie mai intensa.

3.3.2.Indicatori ai asimetriei Asimetria reprezinta o deviatie de la forma simetrica de distributie. Indicatori ai asimetriei. Pornind de la definitia asimetrei si tinand seama de pozitia celor trei marimi fundamentale intr-o distributie statistica , asimetria poate fi apreciata in functie de relatia dintre medie si mod, respectiv dintre medie si mediana. A.)Asimetria in marime absoluta (As) Acest indicator se calculeaza dupa formula : Folosind prima formula, obtinem: Interpretare: Valoarea obtinuta pentru asimetrie (As=651)>0, arata o frecventa a extinderilor la dreapta. B.)Coeficientii de asimetrie Pearson a.)Coeficientul empiric de asimetrie Pearson (Cas)

15

-se calculeaza dupa formula: Cas= atunci:

Interpretare: Valoarea obtinuta , 0.12 >0 , arata ca distributia considerate este asimetrica la dreapta. b.)Coeficientul de asimetrie Pearson ( ) -se calculeaza pe baza momentelor centrate de ordin impar , dupa relatia: unde: , reprezinta momentele centrate de ordin doi,respective trei. (momentul centrat de ordin doi, respectiv varianta) (momentul centray de ordin trei) Cu ajutorul elementelor de calcul din Anexa 1.obtinem:

Coeficientul de asimetrie Pearson va fi:

Interpretare: Valoarea obtinuta =6.3 >0 si =72196561606, arata o distributie cu asimetrie moderata spre dreapta.

16

3.3.3.Boltirea Boltirea se defineste prin raportarea unei disrtibutii empiricela distributia normal sub aspectul variatiei variabilei de distributie X si a frecventei relative ( ). A.)Indicatori ai boltirii. Boltirea se masoara cu ajutorul coeficientilor de boltire. a.)Coeficientul de boltire Pearson( ) se calculeaza pe baza momentelor centrate , dupa relatia: unde: Cu ajutorul elementelor de calcul din Anexa 1, obtinem:

b.)Coeficientul de boltire Fisher ( ) masoara excesul fata de boltirea unei distributii normale. Stiind ca pentru o distributie normal =3, gradul de exces se calculeaza dupa relatia: Atunci:

Interpretare: Pentru ( =0.28)<3, respectiv ( =2.72)<0, arat o distributie usor platicurtica, dar foarte aproape de curba normala.

17

3.3.4 Initor ai concentrarii a.)Curba de concentrare este reprezentarea grafica a variabilei q in functie de variabila p . Valorile celor doua sunt definite de relatiile:

CURBA DE CONCENTRARE A SOMERILOR DIN 40 DE JUDETE ALE ROMANIEI -CONCENTRARE SLABA-

18

b.)Abaterea medial-mediana, simbolizata prin Mc, se afla dupa relatia: unde:

Intervalul medial corespunzator efectivului cumular care verifica relatia : ( =187944) ( =156821), este (8941-11859). Astfel:

Atunci: Interpretare: Valoarea abaterii mediala-mediana este 946.26, ceea ce arata o concentrare puternica. ???????????????????

c.)Coeficientul de concentrare relatia:

, se calculeaza dupa

unde:

Astfel avem:

19

Interpretare: Coeficientul de concentrare calculate arata o concentrare slaba a numarului de someri din cele 40 de judete ale Romaniei, si anume 6.49%.

CAPITOLUL IV
Inferenta statistica
In scopul realizarii eficiente a calculelor din acest capitol, se extrage din Anuarul Statistic al Romaniei pe 2007, numarul de someri din numai 20 de judete. Astfel avem urmatoarele date:

20

6106, 3105, 4739, 7163, 6391, 7800, 5315, 3461, 4965, 4090, 4965, 7435, 6123, 4929, 5487, 7435, 6706, 7068, 4080, 6653. Efectuam gruparea pe interval:

In urma efectuarii gruparii pe interval, vom obtine urmatorul table statistic: 3105-4044 4044-4983 4983-5922 5922-6861 6861-7800 TOTAL 2 6 2 5 5 20

4.Calculul mediei aritmetice:

4.1.Abaterea standard la nivelul esentionului :

La nivelul unui esantion extras aleator simplu repetat(n<30), se observa numarul de someri . Numarul mediu de someri este de 5687, iar abaterea standard la nivelul esantionului este de 692. Se considera un risc de 0.05.

21

4.1.1.Estimarea pe interval de incredere a unei medii Intervalul de incredere a unei medii se calculeaza dupa relatia: ,unde , este valoarea statisticii t care urm,eaza o distributie de probabilitate Studentcu (n-1) grade de libertate, tt(n-1). Cum riscul =0.05 si v=n-1=19 grade de libertate, se citeste din tabelul Student, valoarea statisticii .. Astfel intervalul de incredere va fi:

Interpretare: Cu o probabilitate de 0.95 se poate considera ca numarul mediu se someri la nivelul a 20 de judete este acoperit de intervalul (5392;5982). Ne asumam un risc de 0.05 sau 5% ca valoarea adevarata a numarului mediu de someri sa nu fie acoperita de acest interval.

4.1.2.Estimarea pe interval de incredere a unei proportii Cand volumul esantionului este n<30 si nu se cunoaste variant judetelor, atunci intervalul de incredere al proportiei la nivelul judetelor s calculeaza dupa relatia: unde: este valoarea statisticii. Proportia judetelor cu someri de pana la 5922, calculate la nivelul esantionului este:

22

Pentru un risc de 0.05, se citeste din tabelul Gauss Laplace valoarea statisticii pentru , si anume : . Intervalul de incredere este:

Interpretare: Cu o probabilitate de 0.95 se poate considera ca proportia judetelor cu someri pana la 5922, la nivelul judetelor este acoperita de intervalul (1%;21%).

23