Sunteți pe pagina 1din 37

Structura proiectului

I. Obiectivul proiectului
a. Verificarea existenei unei relaii ntre 2 variabile categoriale (de exemplu, forma de proprietate i domeniul de activitate unei firme) b. Verificarea existenei unei relaii ntre 2 variabile numerice (de exemplu, cifra de afaceri i numrul angajailor unei firme)

II. Crearea bazei de date


a. Se identific minim 4 variabiale statistice (2 numerice, 2 categoriale), conform obiectivului cercetrii b. Se definesc variabilele i se introduc datele n editorul de date folosind un program statistic (Excell, SPSS) c. Se verific datele introduse (outlieri, greeli, valori lips)

III. Descrierea statistic a variabilelor


a. Pentru variabile categoriale: proporii, valoarea dominant, diagrama de structur, diagrama Pareto b. Pentru variabile numerice: nivelul mediu (media aritmetic, modul, mediana), dispersia (variana, intervalul mediu de variaie, coeficientul de variaie), forma distribuiei (asimetrie, boltire), concentrare, grafice specifice (histograma, curba frecvenelor, box-plot, curba de concentrare)

IV. Inferenta statistic


a. Estimarea prin interval de ncredere a unei medii b. Estimarea prin interval de ncredere a unei proporii c. Testarea unei valori medii cu o valoare fix d. Testarea unei proporii cu o valoare fix

V. Analiza statistic a legturilor dintre variabile


a. Analiza varianei (ANOVA) b. Analiza de corelaie i asociere c. Analiza de regresie

VI. Concluzii Bibliografie


2

Cuprins

Cuprins ............................................................................................................................................ 3 Obiectivul proiectului ..................................................................................................................... 4 Crearea bazei de date ...................................................................................................................... 5 Descrierea statistica a variabilelor .................................................................................................. 7 Variabile categoriale ................................................................................................................... 7 Diagrama de structura ............................................................................................................. 9 Variabile numerice .................................................................................................................... 11 Nivelul mediu........................................................................................................................ 13 Dispersia ............................................................................................................................... 17 Forma distributiei .................................................................................................................. 19 Concentrarea. ........................................................................................................................ 23 Inferenta statistic ......................................................................................................................... 27 Estimarea prin interval de ncredere a unei medii .................................................................... 28 Estimarea prin interval de ncredere a unei proportii................................................................ 29 Testarea unei valori medii cu valoare fixa. ............................................................................... 31 Testarea unei proportii cu valoare fixa. ................................................................................... 32 Analiza statistica a legaturilor dintre variabile ............................................................................. 32 Analiza de corelatie si regresie ............................................................................................. 32 Concluzii ....................................................................................................................................... 37 Bibliografie ................................................................................................................................... 37

Obiectivul proiectului
In aceasta lucrare se propune o analiza a bibliotecilor prin numarul acestora din fiecare judet al Romaniei.Obiectivele propuse sunt urmatoarele:

1.Descrierea judetelor Romaniei dupa numarul bibliotecilor dar si dupa gradul de culturalizare.
Pentru atingerea acestui obiectiv s-a folosit statistica descriptiva pentru o variabila numerica si una categoriala, de asemenea grafice statistice dar si indicatori statistici.

2.Estimarea numarului bibliotecilor pentru un esantion de judetete extras din totalul judetelor Romaniei.
Pentru aceasta s-a folosit estimarea prin interval de incredere a numarului bibliotecilor si estimarea prin interval de incredere a unei proportii.

3.Studiul legaturii dintre numarul bibliotecilor si numarul volumelor de carti.


Pentru realizarea acestui obiectiv s-a folosit analiza de corelatie si regresie. Variabilele urmarite pe parcursul studiului sunt: numarul bibliotecilor, nuamarul volumelor, gradul de culturalizare si zona geografica.

In acest proiect analiza are la baza date statistice preluate din ANUARUL STATISTIC AL ROMANIEI pe anul 2007.
4

Crearea bazei de date


Tabelul 1. Numarul bibliotecilor din Romania pe fiecare judet in parte in anul 2007 . *
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. Judetul Numarul bibiotecilor (unitati) 383 230 420 350 229 222 253 227 199 270 404 219 425 266 563 333 333 307 197 319 329 312 162 242 103 391 549 196 369 165 170 416 283 379 Numarul volumelor (unitati) 4107 1819 10568 3412 2373 2140 2960 3617 1711 2946 4542 4014 4547 2933 8567 3447 5068 2731 1816 2515 4074 3288 1755 1901 691 37711 3891 1801 2637 1213 1607 4622 2259 5172 Gradul de culturalizare Ridicat Mediu Foarte ridicat Ridicat Mediu Mediu Mediu Mediu Scazut Mediu Foarte ridicat Mediu Foarte ridicat Mediu Foarte ridicat Ridicat Ridicat Ridicat Scazut Ridicat Ridicat Ridicat Scazut Mediu Scazut Ridicat Foarte ridicat Scazut Ridicat Scazut Scazut Foarte ridicat Mediu Ridicat Zona de dezvoltare Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Centru Centru Centru Centru Centru Centru Nord-Est Nord-Est Nord-Est Nord-Est Nord-Est Nord-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Bucuresti-Ilfov Bucuresti-Ilfov Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Vest

Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani Iasi Neamt Suceava Vaslui Braila Buzau Constanta Galati Tulcea Vrancea Ilfov Municipiul Bucuresti Arges Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj

35. 36. 37. 38. 39. 40. 41. 42.

Gorj Mehedinti Olt Valcea Arad Caras-Severin Hunedoara Timis

240 195 317 272 249 241 254 383

2588 1774 2363 2263 3039 2127 3213 6168

Mediu Scazut Ridicat Mediu Mediu Mediu Mediu Ridicat

Sud-Vest Sud-Vest Sud-Vest Sud-Vest Vest Vest Vest Vest

* in acest proiect analiza are la baza datele preluate din ANUARUL STATISTIC AL ROMANIEI din anul 2007

Dupa introducerea datelor in tabel si verificarea acestora s-au depistat urmatorii outlieri:

Tabelul 2. Valoartea outlierilor .


Nr.Crt. Judetul Numarul bibliotecilor (unitati) 563 549 103 Numarul volumelor (unitati) 8567 3891 691 Gradul de culturalizare Foarte inalt Foarte inalt Scazut Zona de dezvoltare Nord-Est Sud-Muntenia Bucuresti-Ilfov

1. 2. 3.

Iasi Arges Ilfov

Baza de date care rezulta dupa scoaterea outlierilor este:

Tabelul 3. Numarul bibliotecilor din Romania pe fiecare judet (fara uotlieri).Sursa datelor:calcule proprii.
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Judetul Numarul bibiotecilor (unitati) 383 230 420 350 229 222 253 227 199 270 404 219 425 266 Numarul volumelor (unitati) 4107 1819 10568 3412 2373 2140 2960 3617 1711 2946 4542 4014 4547 2933 Gradul de culturalizare Ridicat Mediu Foarte ridicat Ridicat Mediu Mediu Mediu Mediu Scazut Mediu Foarte ridicat Mediu Foarte ridicat Mediu Zona de dezvoltare Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Centru Centru Centru Centru Centru Centru Nord-Est Nord-Est

Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani

15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.

Neamt Suceava Vaslui Braila Buzau Constanta Galati Tulcea Vrancea Municipiul Bucuresti Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj Gorj Mehedinti Olt Valcea Arad Caras-Severin Hunedoara Timis

333 333 307 197 319 329 312 162 242 391 196 369 165 170 416 283 379 240 195 317 272 249 241 254 383

3447 5068 2731 1816 2515 4074 3288 1755 1901 37711 1801 2637 1213 1607 4622 2259 5172 2588 1774 2363 2263 3039 2127 3213 6168

Ridicat Ridicat Ridicat Scazut Ridicat Ridicat Ridicat Scazut Mediu Ridicat Scazut Ridicat Scazut Scazut Foarte ridicat Mediu Ridicat Mediu Scazut Ridicat Mediu Mediu Mediu Mediu Ridicat

Nord-Est Nord-Est Nord-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Bucuresti-Ilfov Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Vest Sud-Vest Sud-Vest Sud-Vest Sud-Vest Vest Vest Vest Vest

Descrierea statistica a variabilelor


Variabile categoriale
Din Tabelul 1 prezentat mai sus s-a putut determina gradul de culturalizare al judetelor Romaniei dupa cum urmeaza: 1.Scazut (sub 200 de unitati) 2.Mediu (intre 200 si 300 de unitati) 3.Ridicat (intre 300 si 400 de unitati) 4.Foarte ridicat (peste 400 de unitati) In tabelul urmator sunt prezentate proportiile judetelor dupa gradul de culturalizare: Tabelul 4. Prezentarea gradului de culturalizare al Romaniei, in anul 2007 dupa judete.Sursa datelor (Anuarul statistic pe anul 2007). Gradul de Numarul
7

culturalizare Scazut Mediu Ridicat Foarte ridicat Total

judetelor ( ) 7 15 13 4 39

0.1790 0.3850 0.3330 0.1030 -

17.90 38.50 33.30 10.30 -

Calculul frecventelor relative Frecventa relativa se calculeaza ca un indicator relativ de structura (ca raport intre parte si intreg).Poate fi exprimata fie sub forma de coeficient, aratand de cate ori, fie sub forma procentuala, aratand cat la suta reprezinta parte considerata intreg. In cazul seriilor univariate, frecventele relative sunt definite de relatia:

Pentru calcularea frecventelor relative procentuale se foloseste urmatoarea formula:

= 100.
0 = = = 0.3850 = 0.3330 = 0.1030 Interpretare
8

% = = = = 38.50 % = 33.30 % = 10.30 %

Conform calculelor facute s-a ajuns la concluzia ca 17.90% din judetele Romaniei in anul 2007 au un grad de culturalizare scazut, 38.50% din judete au un grad de culturalizare mediu, 33.30% din judete au un grad de culturalizare ridicat iar 10.30% din judetele Romaniei au un grad de culturalizare foarte ridicat.

Determinarea valorii dominante Aflarea valorii dominate pentru o serie X( ) cu i= presupune efectuarea urmatoarelor operatii: 1) Se gaseste in tabel frecventa maxima a seriei ( ); 2) Se citeste, in dreptul frecventei maxime, valoarea caracteristicii.

Conform datelor din Tabelul 4. frecventa maxima este egala cu 15 ceea ce corespunde unui grad de culturalizare mediu.In urma acestei observari putem afirma ca majoritatea judetelor Romaniei in anul 2007 au un nivel de culturalizare mediu.

Diagrama de structura

Construirea diagramelor de structura necesita gasirea relatiei de proportionalitate corespunzatoare intre volumul colectivitatii si suprafata figurii geometrice folosite.Volumul colectivitatii, egal cu 100%, se considera direct proportional cu suprafata figurii geometrice folosite in reprezentare. Grupele componente ale colectivitatii se reprezinta in interiorul figurii prin portiuni de suprafete, care se gasesc fata de suprafata totala in acelasi raport ca si elementele colectivitatii fata de volumul total al acesteia. Portiunile de suprafata se hasureaza sau coloreaza diferit, lasandu-se in mijlocul fiecareia un spatiu liber in care se trece ponderea partii reprezentate.Semnificatia hasururilor sau culorilor utilizate se prezinta in legenda graficului. Folosindu-se datele din tabelul 4. s-a construit diagrama de structura reprezentand ponderea gradului de culturalizare in procente din totalul de

100%.Diagrama de structura a fost creata cu ajutorul programului de calcul tabelar Microsoft Office Excel si este prezentata mai jos.

Gradul de culturalizare al Romaniei in anul 2007 pe judete.


Scazut Mediu Inalt Foarte inalt

10% 18%

33%

39%

10

Figura 1.Diagrama de structura reprezentand gradul de culturalizare al Romaniei in anul 2007, pe judete.Sursa datelor: calcule proprii.

Variabile numerice
Tabelul 5.Distributia bibliotecilor din Romania, in anul 2007, pe judete.Sursa datelor: calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total Numarul judetelor ( ) 7 15 13 4 39
-

150 250 350 450 -

1050 7 -136 3750 22 -36 4550 35 64 1800 39 164 11150 56

18496 1296 4096 26896 50784

129472 19440 53248 107584 309744

342102016 1679616 16777216 723394816 1083953664

Histograma

11

Fig.2. Distributia dupa numarul bibliotecilor pe judete din Romania in anul 2007 (histograma).Sursa datelor: calcule proprii.

Curba frecventelor cumulata crescator este reprezentata in urmatoarea figura:

12

Fig 3.Curba frecventelor ( ) cumulata crescator.Sursa datelor: calcule proprii.

Nivelul mediu Media aritmetica () a unei distributii reprezinta valoarea pe care ar purta-o fiecare unitate statistica daca distributia ar fi omogena, se calculeaza dupa formula:

= 285.89 286 (biblioteci)

Interpretare: Oricare din judetele Romaniei au un numar mediu de biblioteci in anul 2007 de 286 unitati. Modul (dominanta) este valoarea caracteristicii cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante, de aici si denumirea de dominanta.Aceasta se calculeaza dupa urmatoarea formula:

=
unde d =

+d

= =

Raportand la Tabelul 2 vom avea urmatoarele operatii: Se observa ca cele mai multe judete =15) au o frecventa cuprinsa intre 200 300 deci =200.

d= = = -

=300-200=100
= 15 7 = 8 = 15 13 = 2

+d

=200 + 100

=200 +80 =280 (biblioteci)

13

Interpretare: Cele mai multe judete din Romania aveau in anul 2007 un numar mediu de biblioteci de 280 unitati.

Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau descrescator, pana la care sunt distribuite in numar egal unitatile colectivitatii observate (jumatate au valori mai mici decat mediana iar jumatate au valori mai mari ca mediana).Se calculeaza dupa formula:

+d

Calculul ei presupune urmatorii pasi: 1)se determina frecventele cumulate: = 2)se calculeaza unitatea mediana ( ) si se gaseste locul ei in sirul frecventelor cumulate, respectand conditia: 3)se afla nivelul caracteristic egal cu , in dreptul frecventei cumulate egale sau mai mare cu .Pentru n<100 unitatea mediana se va calcula: . In cazul nostru

= 20 => =

= 19.5 20 => intervalul ( = 200 + 100 )=(200-300] iar =7

+d

=200 + 86.66 = 286.66 (biblioteci)

Interpretare: Jumatate din judetele Romaniei aveau in anul 2007 un numar de biblioteci de pana la 286.66 de unitati iar jumatate din judetele Romaniei aveau un numar de biblioteci de peste 286.66 de unitati.

Generlizarea medianei
Quantilele: Quartilele, decilele, centilele.
14

Quartilele sunt in numar de 3 si sunt notate , , .Se definesc ca valori ale caracteristicii care impart volumul colectivitatii in patru parti egale.Se determina dupa relatiile:

+d

, , =

+d

in care = unu, respectiv trei.

reprezinta unitatea quartilica

In cazul nostru quartilele vor avea urmatoarele valori: -pentru

= +d

=9.75

avem

= 200 +100

= 200 + 15 = 215 (biblioteci)

Interpretare: 25% din judetele Romaniei au un numar de pana la 115 de biblioteci.

=286.66287 (biblioteci)
Interpretare: 50% din judetele Romaniei au un numar de pana la 287 de biblioteci. -pentru

= +d

= 29.25 vom avea =300 + 55.76 =355.76356 (biblioteci)

=300+100

Interpretare: 75% din judetele Romaniei au un numar de pana la 356 de biblioteci iar 25% au un numar de peste 356 de biblioteci. Decilele sunt in numar de noua si impart populatia in 10 parti egale, ele sunt notate: , ,

Calculul decilelor se face dupa relatia:

= =

+d +d

, unde , unde

= =
15

pentru

= +d

=3.9

=100 + 100

Interpretare: 10% din judetele Romaniei au un numar de pana la 156 de biblioteci.

= = +d

= 35.1 = 400+100 =400+ 25=425

Interpretare: 90% din judetele Romaniei au un numar de pana la 425 de biblioteci iar 10% din judete au un numar de peste 425 de biblioteci.

Centilele sunt in numar de 99 si impart populatia in 100 de parti egale .

+d

, unde

Pentru prima centila:

= =

= +d

=0.39 =100+100 = 100+5.57=105.57

Interpretare:1% din numarul judetelor Romaniei au un numar de pana la 106 biblioteci. Restul centilelor se calculeaza in mod analog. Cu ajutorul rezultatelor obtinute in urma calcularii decilelor, a quartilelor si a centilelor s-a putut crea diagrama Box-Plot.
16

Fig 4.Diagrama box-plot pentru valorile centilelor si a decilelor calculate.Sursa datelor: calcule proprii. Dispersia Varianta (dispersia) . Varianta, ca indicator, se calculeaza ca medie aritmetica a patratelor valorilor individuale fata de media lor, dupa relatiile:

respectiv

Varianta empirica modificata, folosita in tratamentul datelor observate asupra unui esantion este definita de relatia:

=
s= =

= 1336.42

In cazul nostru varianta se calculeaza dupa urmatoarea formula:

17

= 7942.154

Abaterea medie patratica .Acest indicator sintetic al dispersiei se calculeaza ca medie patratica a abaterilor individuale.Se obtine dupa formula:

In cazul nostru abaterea medie patratica este egala cu:

= 89.11

Interpretare:Numarul bibliotecilor din judetele Romaniei se abat in medie de la nivelul mediu cu 89.11biblioteci . Intervalul mediu de variatie.Pe baza indicatorilor sintetici se poate calcula intervalul mediu de variatie.Acesta este definit de urmatoarele limite:

={

In cazul de fata intervalul mediu de variatie are urmatoarele limite: ={

Interpretare:In urma rezultatelor obtinute rezulta ca 68% (deoarece acest procentaj apare intr-o distributie normala standard) din numarul bibliotecilor din Romania sunt cuprinse intre 196.89 si 134.14 . Coeficientul de variatie( ) este o masura relativa a dispersiei. Se calculeaza ca raport procentual intre abaterea medie patratica si media aritmetica dupa relatiile:

18

, respectiv

Coeficientul de variatie poate lua valori cuprinse intre 0 < <100%.Cand tinde spre 0, se considera o variatie slaba si deci o colectivitate omogena iar media are un grad de reprezentativitate ridicat.Cu cat tinde spre 100%, cu atat variatia este mai intesa, colectivitatea mai eterogena, iar media are un nivel de reprezentativitate mai scazut.Ca urmare, coeficientul de variatie poate fi folosit ca test de semnificatie a reprezentativitatii mediei, considerandu-se urmatoarele praguri de semnificatie:

0 < <17% : 17%< <35%: 35%< <50%: >50%:

media este strict reprezentativa; media este moderat reprezentativa; media este reprezentativa in sens larg; media nereprezentativa.

In cazul de fata in urma calculelor se va obtine: = = 100= 31.15% Pentru 31.15% putem afirma ca coeficientul de variatie se afla in intervalul 17% si 35% ceea ce inseamna ca media este moderat reprezentativa.

Forma distributiei reprezinta o deviatie de la forma simetrica de distributie.Aprecierea grafica a acesteia se poate efectua folosind curba frecventelor si diagrama box-and-whisher. Daca: = = se poate spune ca distributia este simetrica; se poate vorbi de o distributie asimetrica la dreapta;
19

Asimetria

se poate vorbi de o distributie asimetrica la stanga. In cazul de fata avem urmatoarele valori: =286.66, =286, =280 Deci > > de unde rezulta ca o distributie asimetrica la stanga.

Indicatorii asimetriei 1.Asimetrie in marime absoluta (As) se poate calcula dupa urmatoarea relatie As = sau, pe baza relatiei dintre valorile centrale - =3( - ), mediana, , situandu-se aproximativ la treimea distantei dintre medie si mod, dupa formula: As =3 ( - ). Cand media aritmetica este valoarea centrala cea mai mica, asimetria este negativa (As<0), adica o extindere a frecventelor spre stanga, iar cand este valoarea centrala cea mai mare, asimetria este pozitiva (As>0), adica o extindere a frecventelor spre dreapta.

In cazul nostru asimetria in marime absoluta va avea urmatoarea valoare: As = = 286 280 = 6 de unde rezulta ca As > 0 ceea ce ne arata ca exista o extindere a frecventelor spre dreapta. 2.Asimetrie in marime relativa coeficienti de asimetrie. Coeficientul de asimetrie Yule ( ) masoara asimetria in functie de pozitia quartilelor ( ).Se calculeaza dupa relatia:

, unde
= .

Interpretare.Coeficientul de asimetrie Yule poate lua valori cuprins intre -1 si +1 ( ).


20

Daca =0, atunci distributia este simetrica, quartilele sunt echidistante. Daca >0, atunci distributia este asimetrica la dreapta. Daca <0, atunci distributia este asimetrica la stanga. Daca valorile se apropie de 0.1, distributia este moderat asimetrica, iar daca depasesc 0.3, distributia este pronuntat asimetrica. In cazul de fata avem urmatoarele valori calculate anterior: =475.15 .Se calculeaza coeficientul Yule: =115, =286.66,

>0

Interpretare.Rezultatul obtinut arata o distributie moderat asimetrica la dreapta. Coeficientul empiric de asimetrie Pearson ( ) se calculeaza ca raport intre marimea asimetriei (As) si dispersia distributiei, exprimata prin abaterea medie paratica ( ), dupa relatia:

Interpretare. Daca =0, distributia este simetrica; Daca >0, distrbutia este asimetrica la dreapta; Daca <0, distributia este asimetrica la stanga. In cazul de fata coeficientul empiric de asimetrie va avea urmatoarea valoare: = = = = 0.067 , >0 ceea ce ne arata faptul ca distributia este asimetrica la dreapta.

Boltirea (aplatizarea) se defineste prin raportarea unei distributii


empirice la distributia normala sub aspectul variabilei de distributie X si a frecventei relative ( = ).Aceasta apare cand distributia prezinta o variatie slaba a variabilei X insotita de o variatie puternica a frecventei relative ( si invers), in comparatie cu o distributie normala, de aceeasi medie si aceeasi dispersie. Aprecierea grafica a boltirii presupune compararea curbei frecventelor unei distributii empirice cu modelul corespunzator legii normale (clopotul GaussLaplace), de aceeasi medie si aceeasi dispersie.Aceasta poate fi de trei feluri: -curba mezocurtica (normala) atunci cand coincide cu modelul; -curba platicurtica atunci cand prezinta o varoatie puternica a variabilei X insotita de variatia slaba a frecventei ;
21

-curba lepticurtica atunci cand prezinta o variatie slaba a variabilei X insotita de o variatie puternica a frecventei . Indicatorii ai boltirii 1.Coeficientul de boltire Pearson ( centrate, dupa relatia: ) se calculeaza pe baza momentelor

unde: si -(varianta), respectiv momentul centrat de ordin patru si se calculeaza conform relatiilor:

(momentul centrat de ordin II)

(momentul centrat de ordin IV)

Interpretare.Pentru o distributie normala (curba Gauss-Laplace), coeficientul de boltire ia valoarea 3.Daca >3, atunci distributia este leptocurtica iar daca < 3, atunci distributia este platicurtica.

Tabelul 5.Distributia bibliotecilor in Romania, in anul 2007, pe judete.Sursa datelor:calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total

Numarul judetelor ( ) 7 15 13 4 39

129472 19440 53248 107584 309744

2394714112 25144240 218103808 2893579 5531591424

=7942.1

22

= =2.248579

=141835678

Interpretare.In urma calculelor efectuate s-a ajuns la rezultatul urmator 2.248579<3 ceea ce arata ca distributia este platicurtica.

Concentrarea. Prin concentrarese exprima aglomerarea unitatilor unei colectivitati sau valorilor globale ale unei distributii in jurul unei valori (de exemplu, a valorii centrale) a caracteristicii de grupare.Problema masurarii fenomenului de concentrare a fost formulata de statisticianul italian Corrado Gini, in anul 1912, in legatura cu analiza distributiei veniturilor unei populatii. Evaluarea concentrarii implica studierea comparata a structurii efectivului unei colectivitati si a structurii valorii globale pe aceleasi variante/intervale de variatie ale caracteristicii de grupare. S-ar pune astfel in evidenta atat inegalitatile dintre distributiile de structura comparate cat si concentrarea valorii globale pe un numar restrans de unitati ale colectivitatii observate. Dispartile dintre cele doua distributii de structura si concentrarea valorii globale s-ar putea interpreta, in esenta, astfel: cu cat sunt mai mari diferentele dintre cele doua distributii de structura cu atat sunt mai mari disparitatile dintre grupe, adica concentrarea tinde sa creasca si invers. Restrictii:Studierea concentrarii este aplicabila numai varibilelor continuue cu valori pozitive.Se poate extinde in domeniul seriilor calitative atibuite cu scopul stabilirii graduluide concentrare pe tipuri calitative (categorii).Concentrarea este aplicabila, in general, orcarui fenomen care poseda caracteristici susceptibile insumarii. Conditiile pentru analiza distributiilor statistice cu ajutorul concentrarii sunt: -sa aiba sens insumarea variabilei de distributie; -sa fie posibila impartirea valorii globale a variabilei intre unitatile colectivitatii.

23

Curba de concentrare. Curba de concentrare este reprezentarea grafica a variabilei q in functie de variabila p.Ca urmare, curba de concentrare, construita prin unirea punctelor de coordonate ( ), apare inscrisa intr-un patrat ABCD, cu latura egala cu 100%.Acesta este cunoscut sub denumirea de patratul lui Gini, iar suprafata definita de curba de concentrare si diagonala patratului se numeste suprafata de concentrare.Curba se situeaza sub diagonala patratului, deoarece ( ), sau se suprapune cu diagonala cand ( ), in cazul echirepartitiei. Daca curba de concentrare este mai apropiata de diagonala patratului atunci se poate vorbi de o concentrarea slaba iar daca curba de concentrare se indeparteaza de diagonala atunci putem vorbi de o concentrare puternica. Valorile celor doua variabile sunt definite de relatiile:

= =

, cu i=, unde

= =

+ ; + .

, cu i=, unde

In cazul de fata se reactualizeaza Tabelul 2 aparand urmatoarele valori:

Tabelul.6.Distributia bibliotecilor din Romania, in anul 2007, pe judete.Sursa datelor: calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total Numarul judetelor ( ) 7 15 13 4 39

150 250 350 450 -

1050 3750 4550 1800 11150

7 22 35 39 -

1050 4800 9350 11150 -

0.179487 0.564103 0.897436 1 -

0.09417 0.430493 0.838565 1 -

Se determina cele doua variabile dupa formulele prezentate mai sunt iar date sunt scrise in tabel.Cu ajutorul celor doua variabile determinate se reprezinta curba de concentrare.
24

Fig.5. Curba de concentrare pentru numarul biblioteilor a Romaniei, in anul 2007.Sursa datelor: calcule proprii. Conform graficului obtinut se poate deduce faptul ca in acest caz este vorba depre o concentrare slaba.

Procedee numerice de determinare a concentrarii.


Abaterea mediala- mediana, simbolizata prin , se afla dupa relatia:

si presupune urmatoarele operatii: 1) aflarea medianei ( ); 2) aflarea medialei ( ); 3)calcularea abaterii mediala-mediana ( ). Interpretare.Cu cat valoarea ( ) este mai mare cu atat concentrarea este mai puternica si invers.Daca ( ) atunci nu exista concentrare, doistributia reprezentand o echirepartitie (distributie egalitara).
25

Coeficientul de concentrare consta in compararea sub forma de raport a marimii abaterii mediala-mediana ( ) cu amplitudinea de variatie a caracteristicii de grupare ( ), dupa relatia:

100

Raportul poate lua valori in intervalul [0,100].Cu cat raportul tinde spre zero cu atat concentrarea este mai slaba, adica nu exista mari disparitati si, invers, daca valoarea raportului tinde spre 100, exista mari disparitati intre valorile globale pe clase de variatie. Pentru problema nostra vom calcula coeficientul de concentrare dupa cum urmeaza: 1. unitatea mediana abaterea media-la mediana si

=20 ;

2. se gaseste , si anume ; 3. se citeste intervalul median in dreptul lui si anume (200-300]; 4. in intervalul median se efectueaza interpolarea liniara , adica se calculeaza mediana (pentru cazul nostru calculata mai anterior si are valoare unitati); 5. se calculeaza unitatea mediala

= 5575

6. se gaseste , si anume =9350 7. se citeste intervalul median in dreptul si (300-400]; 8. mediala:

+d
:

= 300 -100 = -

=300 + 17.03=317.03 unitati; =500-100=400

9.se calculeaza 10.se calculeaza

=317.03-286.66= 30.37 unitati;

100=

100 =7.59 %

In cazul considerat, mediana fiind egala cu 286.66 unitati, iar mediala egala cu 317.03 unitati, rezulta o abatere mediala-mediana agala cu 30.37 unitati.In comparatie cu amplitudinea de variatie a caracteristicii =500-100=400), arata o concentrare slaba a numarului de biblioteci pe judete, si anume 7.59 % din numarul acestora, fapt observat si in figura 1

26

Inferenta statistic

A defini un interval de incredere inseamna a cauta limitele de incredere, =

si

= +

care acopera valoarea parametrului )=1adica I.C= [

, pentru un
],

coeficient de incredere: P(

unde:

-limitele de incredere: inferioara, respectiv superioara; )-probabilitatea cu care se garanteaza ca intervalul acopera valoarea adevarata a parametrului , in cazul unei probleme de estimatie, respectiv, valoarea unei statistici, in cazul unei probleme de distributie de selectie; -riscul, respectiv, probabilitatea ca intervalul nu contine valoarea cautata. Daca parametrul cautat ar fi - media unei populatii, iar - media de selectie, construirea intervalului de incredere pleaca de la o ipoteza asupra distributiei medie de selectie, deci si a abaterilor medii patratice ale acestora fata de media populatiei, respectiv, fata de media lor.Construirea intervalului de incredere poate prezenta doua situatii: cand se cunoaste varianta si cand aceasta nu e ste cunoscuta. Se extrage un esantion pe baza pasului de numarare dupa cum urmeaza: -din volumul N = 39 de judete se extrage un esantion de n = 13 judete conform unui pas de numarare calculat dupa urmatoarea formula: Pas de numarare (P) = = = 3 -se alege un numar aleator cuprins intre 1 si 3 (pasul de numarare) -se alege valoarea 1 (cea ce arata ca al doilea judet din baza de date va face parte din esantion ) la care se adauga pasul de numarare rezultand urmatorul judet care va face parte din esantion, la rezultatul obtinut se adauga din nou acelasi pas de numarare rezulta urmatorul judet; -acest proces se efectueaza pana sunt gasite toate cele 13 judete
27

0+ 1= 1 1+ 3= 4 4+ 3= 7 7 + 3 = 10 10 + 3 = 13 13 + 3 = 16 16 + 3 = 19 19 + 3 = 22 22 + 3 = 25 25 + 3 = 28 28 + 3 = 31 31 + 3 = 34 34 + 3 = 37

Estimarea prin interval de ncredere a unei medii

Tabelul 7.Prezentarea unui esantion din totalul judetelor Romaniei, dupa numarul bibliotecilor, in anul 2007.Sursa datelor: calcule proprii.
Nr. crt.

Judetul Bihor Maramures Alba Harghita Bacau Suceava Buzau Tulcea Calarasi Ialomita Dolj Olt Caras-Severin 28

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. TOTAL

Numarul bibliotecilor ) 383 350 253 270 425 333 319 162 196 170 379 317 241 3798


90.85 57.85 -39.15 -22.15 132.15 40.85 26.85 -130.15 -96.15 -122.15 86.85 24.85 -51.15 0.05

8253.73 3346.623 1532.723 490.6225 17649.12 1668.723 720.9225 16939.02 9244.822 14920.62 7542.923 617.5225 2616.323 85543.69

: 383, 350, 253, 270, 425, 333, 319, 162, 196, 170, 379, 317, 241. n = 13. In cazul de fata volumul esantionului n =13 este mai mic ca 30, intervalul de incredere al mediei numarului de biblioteci, cand nu se cunoaste varianta , este: ( ), unde =

=292.15 (media numarului bibliotecilor) = = 84.43 (estimatia abaterii standard)

s =

Esantionul fiind de volum mic (n=13), statistica urmeaza o lege Student. Pentru un risc si =n-1=12 grade de libertate se citeste in tabelul Student valoarea statisticii =2.179. Intervalul de incredere este: (292.15

) =(241.12 ; 343.18)

Interpretare:Cu o probabilitate de 0.95 se poate considera ca numarul mediu al bibliotecilor din fiecare judet al Romaniei este cuprins intre 241.12 de biblioteci si 343,18 biblioteci.Ne asumam un risc de 0.05 sau 5% ca valoarea adevarata a numarului mediu al bibliotecilor sa nu fie acoperita de acest interval.

Estimarea prin interval de ncredere a unei proportii.


Tabelul 8.Gradul de culturalizare al unui esantion de judete din totalul judetelor Romaniei, in anul 2007.Sursa datelor: calcule proprii. Gradul de culturalizare Scazut Mediu Ridicat Foarte ridicat Total Numarul judetelor ( ) 3 3 6 1 13 f 0.23 0.23 0.46 0.07 -

f=
29

In cazul de fata se propune estimarea, prin interval de incredere, a judetelor cu un grad mediu de culturalizare la nivelul intregii tari, considerand un risc =0.05. Intervalul de incredere in cazul esantionului de volum n=13, cand nu se cunoaste varianta, este definit de: (

= 0.23

f=

Intervalul de incredere este: (


) = (0.13 ; 0.33)

Interpretare: Cu o probabilitate de 0.95 se poate considera ca proportia judetelor cu un grad de culturalizare mediu la nivelul intregii tari este cuprinsa intre 0.13 sau 13% si 0.33 sau 33%.

Problemele unei testari statistice.


Demersul testarii unei ipoteze presupune parcurgerea unor etape si rezolvarea problemelor pe care le implica, si anume: 1.se formuleaza ipotezele, in functie de problema pusa, 2.se alege un test statistic in functie de distributia de selectie a statisticii considerate.Se alege un estimator al unui parametru de testat; 3.se alege un prag de semnificatie pentru test; 4.se stabilesc regulile de ecizie, definind regulile de acceptare si de respingere a ipotezei ; 5.se calculeaza valoarea statisticii test, folosind datele inregistrate prin sondaj; 6.se compara valoarea calculata a statisticii test cu valoarea teoretica; 7.se ia decizia de a nu respinge sau de a respinge ipoteza admisa.

30

Testarea unei valori medii cu valoare fixa.


Se propune verificarea ipotezei conform careia numarul bibliotecilor dintrun judet al Romaniei nu difera in mod semnificativ de numarul mediu al bibliotecilor ( ), considerand un risc . 1.Ipoteze statistice: : = : ; 2.Statistica test calculata este:

t=

3.Regula de decizie: |> Daca | => Se respinge ipoteza | Daca| => Se accepta ipoteza

si se accepta ipoteza .

1.Ipoteze statistice : = ( numarul bibliotecilor dintr-un judet nu difera in mod semnificativ de numarul mediu al bibliotecilor ) : ; (numarul bibliotecilor dintru-un judet difera in mod semnificativ de numarul mediu al bibliotecilor); 2.Statistica test calculata (in cazul de fata volumul esantionului n=13 <30, se va folosi statistica t Student ) :

= 0.518

Pentru un risc =0.05 si v = n-1=13-1=12 grade de libertate, se citeste in Tabela Student valoarea teoretica a statisticii t Student: =2.179 . 3.Regula de decizie: n urma prelucrrii datelor, s-a obinut c | =0.518| < | =2.179 |, ca urmare se accepta ipoteza . Interpretare:Cu o probabilitate de 0.95 se poate firma numarul judetelor dintr-un judet al Romaniei nu difera in mod semnificativ de numarul mediu de biblioteci.
31

Testarea unei proportii cu valoare fixa.


In cazul de fata se propune verificarea ipotezei conform careia proportia judetelor cu un grad mediu de culturalizare nu difera in mod semnificativ de proportia .Riscul asumat fiind de 0.05. 1.Ipotezele statistice: : = (proportia judetelor cu un grad mediu de culturalizare nu difera in mod semnificativ de proportia ) : ; (proportia judetelor cu un grad mediu de culturalizare difera in mod semnificativ de proportia ) 2.Statistica test.Volumul esantionului fiind n=13 se va alege statistica test t Student:

= 2.653

Pentru un risc =0.05 si v = n-1=13-1=12 grade de libertate, se citeste in Tabela Student valoarea teoretica a statisticii t Student: =2.17 n urma prelucrrii datelor, s-a obinut c | =2.653| > | =2.179 |, ca urmare se respinge ipoteza si se accepta ipoteza . Interpretare:Cu o probabilitate de 0.95 se poate afirma ca proportia judetelor cu un grad mediu de culturalizare difera in mod semnificativ de proportia .

Analiza statistica a legaturilor dintre variabile


Analiza de corelatie si regresie Regresia exprima o legatura de tip statistic si anume regresia in medie cu privire la comportamentul unor variabile. Corelatia exprima raporturi reciproce inre anumite caracteristici. Analiza de regresie este folosita pentru: -estimarea valorilor unei variabileconsiderand valorile altei variabile;
32

-evaluarea masurii in care variabila dependenta poate fi explicata prin variabilaindependenta, sau printr-un set de variabile independente; -indentificarea unui subset din mai multe variabileindependente care trebuie luat in calcul pentru estimarea variabilei dependente. In expresie generala, un model de regresie poate fi scris: Y=f( )+ in care: Y- variabila dependenta (rezultativa), aleatoare; -variabile independente (factoriale) nonaleatoare; - variabila aleatoare eroare sau reziduu. Modelul de regresie simplu liniar se poate scrie: Y= + X+ .

In cazul problemei de fata se propune o analiza pentru a se determina daca, intre numarul bibliotecilor si volumul acestora pentru fiecare judet in parte, exista legaturi de tip statistic. Tabelul 9.Prezentarea numarului de biblioteci si a volumului de carti din fiecare judet al Romaniei, in anul 2007.
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Judetul Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani Neamt Suceava Vaslui Braila Buzau Constanta Numarul bibiotecilor (unitati) 383 230 420 350 229 222 253 227 199 270 404 219 425 266 333 333 307 197 319 329 Numarul volumelor (unitati) 4107 1819 10568 3412 2373 2140 2960 3617 1711 2946 4542 4014 4547 2933 3447 5068 2731 1816 2515 4074

33

21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.

Galati Tulcea Vrancea Municipiul Bucuresti Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj Gorj Mehedinti Olt Valcea Arad Caras-Severin Hunedoara Timis

312 162 242 391 196 369 165 170 416 283 379 240 195 317 272 249 241 254 383

3288 1755 1901 37711 1801 2637 1213 1607 4622 2259 5172 2588 1774 2363 2263 3039 2127 3213 6168

Folosind datele din tabelul 9 s-a realizat o simulare cu ajutorul programului de calcul tabelar Microsoft Excel, obtinandu-se urmatoarele rezultate:
Regression Statistics Multiple R 0.426468854 R Square 0.181875683 Adjusted R Square 0.159764215 Standard Error 69.99218335 Observations 39 ANOVA df Regression Residual Total 1 37 38 Coefficients 260.3925601 0.00563891 SS MS F 40295.46236 40295.46236 8.225400648 181259.512 4898.90573 221554.9744 Standard Error t Stat P-value 13.774551 18.90388733 1.32718E-20 0.00196615 2.867995929 0.006783531 Significance F 0.006783531

Intercept X Variable 1

Lower 95% Upper 95% 232.4826689 288.3024513 0.001655112 0.009622709

Fig.6.Simularea in Microsoft Excel


34

Din figura de mai sus se pot face urmatoarele observatii: Y= + X Y = 260.39 + 0.0056X a = 20.3137 b = 0.7672 (232.48 ; 288.30) (0.00165 ; 0.00962) 13.774 = 0.0019 Raportul de corelatie: Raportul de determinatie: Pentru vom avea: = 0.4264 0.1818
=

1.Formularea ipotezei : : =0 0;

2.Alegerea si calcularea statisticii test -din figura 6 reiese ca valoarea statisticii test calculata este valoarea teoretica este egala cu = 1.960.

=18.903 iar

3.Regula de decizie Daca P-value (riscul asumat de 0.05) se accepta . Daca P-value (riscul asumat de 0.05) cu o probabilitate de 0.95 se respinge si se accepta . 4.Decizia statistica -in urma simularii datelor s-a obtinut P-value=1.32 > , deci se accepta ipoteza conform careia = 0. Pentru vom avea:

1.Formularea ipotezei
35

: :

=0 0;

2.Alegerea si calcularea statisticii test -din figura 9 reiese ca valoarea statisticii test calculata este teoretica este egala cu = 1.960.

=2.86 iar valoarea

3.Regula de decizie Daca P-value (riscul asumat de 0.05) se accepta . Daca P-value (riscul asumat de 0.05) cu o probabilitate de 0.95 se respinge si se accepta . 4.Decizia statistica -in urma simularii datelor s-a obtinut P-value=0.0067 < si se accepta ipoteza .

, deci se respinge ipoteza

Utilizand datele din tabelul 9 se poate realiza norul de puncte:

7000 6000 Numarul volumelor 5000 4000 3000 2000 1000 0 0 100 200 300 400 500 Numarul bibliotecilor

36

Concluzii
In acest studiu s-a propus analiza bibliotecilor Romaniei, in anul 2007 pe judete.Baza de date creata contine doua variabile numerice (numarul bibliotecilor si numarul volumelor de carti) dar si doua variabile categoriale (gradul de culturalizare si zona de dezvoltare specifica fiecarui judet). Conform calculelor efectuate s-a ajuns la concluzia ca 17.90% din judetele Romaniei, au in anul 2007 un grad de culturalizare scazut, 38.50% din judete au un grad de culturalizare mediu, 33.30% din judete au un grad de culturalizare ridicat iar 10.30% din judetele Romaniei au un grad de culturalizare foarte ridicat. Prin calculul abaterii medii patratice s-a putut ajunge la concluzia ca numarul bibliotecilor din fiecare judet al Romaniei se poate abate in medie de la nivelul mediu cu 89.11 biblioteci.Prin calculul coeficientului de variatie s-a putut afirma ca media este ponderat reprezentativa. Prin calculul quantilelor s-a putut repartiza in procente judetele, dupa cum urmeaza: -25% din judete au un numar de pana la 115 biblioteci; -50% din judete au un numar de pana la 287 de biblioteci; -75% din judete au un numar de pana la 356 de biblioteci iar 25% din judete au un numar de biblioteci de peste 356. Prin aflarea intervalului de incredere a unei proportii s-a ajuns la concluzia cu o probabilitate de 95%, proportia judetelor cu un grad de culturalizare mediu este cuprinsa in intervalul (0.13 ; 0.33). Pentru 31.15% putem afirma ca coeficientul de variatie se afla in intervalul 17% si 35% ceea ce inseamna ca media este moderat reprezentativa.

37

Bibliografie

1.Statistica-Elisabeta Jaba, Editia a III-a, Editura Economica, Bucuresti, 2002; 2.Analiza statistica cu SPSS sub Windows-Elisabeta Jaba,Editura Polirom, Iasi, 2004; 3.Statistica:Teste grile si probleme- Elisabeta Jaba si Carmen Pintilescu, Editura Sedcom Libris, revazuta, Iasi, 2007; 4.Bazele statisticii-Elisabeta Jaba, Editura Universitati Alexandru Ioan Cuza, Iasi, 2008; 5. www.insse.ro

38

S-ar putea să vă placă și