Documente Academic
Documente Profesional
Documente Cultură
Statistica Anul 1
Statistica Anul 1
I. Obiectivul proiectului
a. Verificarea existenei unei relaii ntre 2 variabile categoriale (de exemplu, forma de proprietate i domeniul de activitate unei firme) b. Verificarea existenei unei relaii ntre 2 variabile numerice (de exemplu, cifra de afaceri i numrul angajailor unei firme)
Cuprins
Cuprins ............................................................................................................................................ 3 Obiectivul proiectului ..................................................................................................................... 4 Crearea bazei de date ...................................................................................................................... 5 Descrierea statistica a variabilelor .................................................................................................. 7 Variabile categoriale ................................................................................................................... 7 Diagrama de structura ............................................................................................................. 9 Variabile numerice .................................................................................................................... 11 Nivelul mediu........................................................................................................................ 13 Dispersia ............................................................................................................................... 17 Forma distributiei .................................................................................................................. 19 Concentrarea. ........................................................................................................................ 23 Inferenta statistic ......................................................................................................................... 27 Estimarea prin interval de ncredere a unei medii .................................................................... 28 Estimarea prin interval de ncredere a unei proportii................................................................ 29 Testarea unei valori medii cu valoare fixa. ............................................................................... 31 Testarea unei proportii cu valoare fixa. ................................................................................... 32 Analiza statistica a legaturilor dintre variabile ............................................................................. 32 Analiza de corelatie si regresie ............................................................................................. 32 Concluzii ....................................................................................................................................... 37 Bibliografie ................................................................................................................................... 37
Obiectivul proiectului
In aceasta lucrare se propune o analiza a bibliotecilor prin numarul acestora din fiecare judet al Romaniei.Obiectivele propuse sunt urmatoarele:
1.Descrierea judetelor Romaniei dupa numarul bibliotecilor dar si dupa gradul de culturalizare.
Pentru atingerea acestui obiectiv s-a folosit statistica descriptiva pentru o variabila numerica si una categoriala, de asemenea grafice statistice dar si indicatori statistici.
2.Estimarea numarului bibliotecilor pentru un esantion de judetete extras din totalul judetelor Romaniei.
Pentru aceasta s-a folosit estimarea prin interval de incredere a numarului bibliotecilor si estimarea prin interval de incredere a unei proportii.
In acest proiect analiza are la baza date statistice preluate din ANUARUL STATISTIC AL ROMANIEI pe anul 2007.
4
Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani Iasi Neamt Suceava Vaslui Braila Buzau Constanta Galati Tulcea Vrancea Ilfov Municipiul Bucuresti Arges Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj
* in acest proiect analiza are la baza datele preluate din ANUARUL STATISTIC AL ROMANIEI din anul 2007
Dupa introducerea datelor in tabel si verificarea acestora s-au depistat urmatorii outlieri:
1. 2. 3.
Tabelul 3. Numarul bibliotecilor din Romania pe fiecare judet (fara uotlieri).Sursa datelor:calcule proprii.
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Judetul Numarul bibiotecilor (unitati) 383 230 420 350 229 222 253 227 199 270 404 219 425 266 Numarul volumelor (unitati) 4107 1819 10568 3412 2373 2140 2960 3617 1711 2946 4542 4014 4547 2933 Gradul de culturalizare Ridicat Mediu Foarte ridicat Ridicat Mediu Mediu Mediu Mediu Scazut Mediu Foarte ridicat Mediu Foarte ridicat Mediu Zona de dezvoltare Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Nord-Vest Centru Centru Centru Centru Centru Centru Nord-Est Nord-Est
Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani
15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.
Neamt Suceava Vaslui Braila Buzau Constanta Galati Tulcea Vrancea Municipiul Bucuresti Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj Gorj Mehedinti Olt Valcea Arad Caras-Severin Hunedoara Timis
333 333 307 197 319 329 312 162 242 391 196 369 165 170 416 283 379 240 195 317 272 249 241 254 383
3447 5068 2731 1816 2515 4074 3288 1755 1901 37711 1801 2637 1213 1607 4622 2259 5172 2588 1774 2363 2263 3039 2127 3213 6168
Ridicat Ridicat Ridicat Scazut Ridicat Ridicat Ridicat Scazut Mediu Ridicat Scazut Ridicat Scazut Scazut Foarte ridicat Mediu Ridicat Mediu Scazut Ridicat Mediu Mediu Mediu Mediu Ridicat
Nord-Est Nord-Est Nord-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Sud-Est Bucuresti-Ilfov Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Muntenia Sud-Vest Sud-Vest Sud-Vest Sud-Vest Sud-Vest Vest Vest Vest Vest
judetelor ( ) 7 15 13 4 39
Calculul frecventelor relative Frecventa relativa se calculeaza ca un indicator relativ de structura (ca raport intre parte si intreg).Poate fi exprimata fie sub forma de coeficient, aratand de cate ori, fie sub forma procentuala, aratand cat la suta reprezinta parte considerata intreg. In cazul seriilor univariate, frecventele relative sunt definite de relatia:
= 100.
0 = = = 0.3850 = 0.3330 = 0.1030 Interpretare
8
Conform calculelor facute s-a ajuns la concluzia ca 17.90% din judetele Romaniei in anul 2007 au un grad de culturalizare scazut, 38.50% din judete au un grad de culturalizare mediu, 33.30% din judete au un grad de culturalizare ridicat iar 10.30% din judetele Romaniei au un grad de culturalizare foarte ridicat.
Determinarea valorii dominante Aflarea valorii dominate pentru o serie X( ) cu i= presupune efectuarea urmatoarelor operatii: 1) Se gaseste in tabel frecventa maxima a seriei ( ); 2) Se citeste, in dreptul frecventei maxime, valoarea caracteristicii.
Conform datelor din Tabelul 4. frecventa maxima este egala cu 15 ceea ce corespunde unui grad de culturalizare mediu.In urma acestei observari putem afirma ca majoritatea judetelor Romaniei in anul 2007 au un nivel de culturalizare mediu.
Diagrama de structura
Construirea diagramelor de structura necesita gasirea relatiei de proportionalitate corespunzatoare intre volumul colectivitatii si suprafata figurii geometrice folosite.Volumul colectivitatii, egal cu 100%, se considera direct proportional cu suprafata figurii geometrice folosite in reprezentare. Grupele componente ale colectivitatii se reprezinta in interiorul figurii prin portiuni de suprafete, care se gasesc fata de suprafata totala in acelasi raport ca si elementele colectivitatii fata de volumul total al acesteia. Portiunile de suprafata se hasureaza sau coloreaza diferit, lasandu-se in mijlocul fiecareia un spatiu liber in care se trece ponderea partii reprezentate.Semnificatia hasururilor sau culorilor utilizate se prezinta in legenda graficului. Folosindu-se datele din tabelul 4. s-a construit diagrama de structura reprezentand ponderea gradului de culturalizare in procente din totalul de
100%.Diagrama de structura a fost creata cu ajutorul programului de calcul tabelar Microsoft Office Excel si este prezentata mai jos.
10% 18%
33%
39%
10
Figura 1.Diagrama de structura reprezentand gradul de culturalizare al Romaniei in anul 2007, pe judete.Sursa datelor: calcule proprii.
Variabile numerice
Tabelul 5.Distributia bibliotecilor din Romania, in anul 2007, pe judete.Sursa datelor: calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total Numarul judetelor ( ) 7 15 13 4 39
-
Histograma
11
Fig.2. Distributia dupa numarul bibliotecilor pe judete din Romania in anul 2007 (histograma).Sursa datelor: calcule proprii.
12
Nivelul mediu Media aritmetica () a unei distributii reprezinta valoarea pe care ar purta-o fiecare unitate statistica daca distributia ar fi omogena, se calculeaza dupa formula:
Interpretare: Oricare din judetele Romaniei au un numar mediu de biblioteci in anul 2007 de 286 unitati. Modul (dominanta) este valoarea caracteristicii cea mai frecvent observata intr-o distributie, adica valoarea ce corespunde frecventei dominante, de aici si denumirea de dominanta.Aceasta se calculeaza dupa urmatoarea formula:
=
unde d =
+d
= =
Raportand la Tabelul 2 vom avea urmatoarele operatii: Se observa ca cele mai multe judete =15) au o frecventa cuprinsa intre 200 300 deci =200.
d= = = -
=300-200=100
= 15 7 = 8 = 15 13 = 2
+d
=200 + 100
13
Interpretare: Cele mai multe judete din Romania aveau in anul 2007 un numar mediu de biblioteci de 280 unitati.
Mediana se defineste ca acea valoare a caracteristicii unei serii ordonate, crescator sau descrescator, pana la care sunt distribuite in numar egal unitatile colectivitatii observate (jumatate au valori mai mici decat mediana iar jumatate au valori mai mari ca mediana).Se calculeaza dupa formula:
+d
Calculul ei presupune urmatorii pasi: 1)se determina frecventele cumulate: = 2)se calculeaza unitatea mediana ( ) si se gaseste locul ei in sirul frecventelor cumulate, respectand conditia: 3)se afla nivelul caracteristic egal cu , in dreptul frecventei cumulate egale sau mai mare cu .Pentru n<100 unitatea mediana se va calcula: . In cazul nostru
= 20 => =
+d
Interpretare: Jumatate din judetele Romaniei aveau in anul 2007 un numar de biblioteci de pana la 286.66 de unitati iar jumatate din judetele Romaniei aveau un numar de biblioteci de peste 286.66 de unitati.
Generlizarea medianei
Quantilele: Quartilele, decilele, centilele.
14
Quartilele sunt in numar de 3 si sunt notate , , .Se definesc ca valori ale caracteristicii care impart volumul colectivitatii in patru parti egale.Se determina dupa relatiile:
+d
, , =
+d
= +d
=9.75
avem
= 200 +100
=286.66287 (biblioteci)
Interpretare: 50% din judetele Romaniei au un numar de pana la 287 de biblioteci. -pentru
= +d
=300+100
Interpretare: 75% din judetele Romaniei au un numar de pana la 356 de biblioteci iar 25% au un numar de peste 356 de biblioteci. Decilele sunt in numar de noua si impart populatia in 10 parti egale, ele sunt notate: , ,
= =
+d +d
, unde , unde
= =
15
pentru
= +d
=3.9
=100 + 100
= = +d
Interpretare: 90% din judetele Romaniei au un numar de pana la 425 de biblioteci iar 10% din judete au un numar de peste 425 de biblioteci.
+d
, unde
= =
= +d
Interpretare:1% din numarul judetelor Romaniei au un numar de pana la 106 biblioteci. Restul centilelor se calculeaza in mod analog. Cu ajutorul rezultatelor obtinute in urma calcularii decilelor, a quartilelor si a centilelor s-a putut crea diagrama Box-Plot.
16
Fig 4.Diagrama box-plot pentru valorile centilelor si a decilelor calculate.Sursa datelor: calcule proprii. Dispersia Varianta (dispersia) . Varianta, ca indicator, se calculeaza ca medie aritmetica a patratelor valorilor individuale fata de media lor, dupa relatiile:
respectiv
Varianta empirica modificata, folosita in tratamentul datelor observate asupra unui esantion este definita de relatia:
=
s= =
= 1336.42
17
= 7942.154
Abaterea medie patratica .Acest indicator sintetic al dispersiei se calculeaza ca medie patratica a abaterilor individuale.Se obtine dupa formula:
= 89.11
Interpretare:Numarul bibliotecilor din judetele Romaniei se abat in medie de la nivelul mediu cu 89.11biblioteci . Intervalul mediu de variatie.Pe baza indicatorilor sintetici se poate calcula intervalul mediu de variatie.Acesta este definit de urmatoarele limite:
={
Interpretare:In urma rezultatelor obtinute rezulta ca 68% (deoarece acest procentaj apare intr-o distributie normala standard) din numarul bibliotecilor din Romania sunt cuprinse intre 196.89 si 134.14 . Coeficientul de variatie( ) este o masura relativa a dispersiei. Se calculeaza ca raport procentual intre abaterea medie patratica si media aritmetica dupa relatiile:
18
, respectiv
Coeficientul de variatie poate lua valori cuprinse intre 0 < <100%.Cand tinde spre 0, se considera o variatie slaba si deci o colectivitate omogena iar media are un grad de reprezentativitate ridicat.Cu cat tinde spre 100%, cu atat variatia este mai intesa, colectivitatea mai eterogena, iar media are un nivel de reprezentativitate mai scazut.Ca urmare, coeficientul de variatie poate fi folosit ca test de semnificatie a reprezentativitatii mediei, considerandu-se urmatoarele praguri de semnificatie:
media este strict reprezentativa; media este moderat reprezentativa; media este reprezentativa in sens larg; media nereprezentativa.
In cazul de fata in urma calculelor se va obtine: = = 100= 31.15% Pentru 31.15% putem afirma ca coeficientul de variatie se afla in intervalul 17% si 35% ceea ce inseamna ca media este moderat reprezentativa.
Forma distributiei reprezinta o deviatie de la forma simetrica de distributie.Aprecierea grafica a acesteia se poate efectua folosind curba frecventelor si diagrama box-and-whisher. Daca: = = se poate spune ca distributia este simetrica; se poate vorbi de o distributie asimetrica la dreapta;
19
Asimetria
se poate vorbi de o distributie asimetrica la stanga. In cazul de fata avem urmatoarele valori: =286.66, =286, =280 Deci > > de unde rezulta ca o distributie asimetrica la stanga.
Indicatorii asimetriei 1.Asimetrie in marime absoluta (As) se poate calcula dupa urmatoarea relatie As = sau, pe baza relatiei dintre valorile centrale - =3( - ), mediana, , situandu-se aproximativ la treimea distantei dintre medie si mod, dupa formula: As =3 ( - ). Cand media aritmetica este valoarea centrala cea mai mica, asimetria este negativa (As<0), adica o extindere a frecventelor spre stanga, iar cand este valoarea centrala cea mai mare, asimetria este pozitiva (As>0), adica o extindere a frecventelor spre dreapta.
In cazul nostru asimetria in marime absoluta va avea urmatoarea valoare: As = = 286 280 = 6 de unde rezulta ca As > 0 ceea ce ne arata ca exista o extindere a frecventelor spre dreapta. 2.Asimetrie in marime relativa coeficienti de asimetrie. Coeficientul de asimetrie Yule ( ) masoara asimetria in functie de pozitia quartilelor ( ).Se calculeaza dupa relatia:
, unde
= .
Daca =0, atunci distributia este simetrica, quartilele sunt echidistante. Daca >0, atunci distributia este asimetrica la dreapta. Daca <0, atunci distributia este asimetrica la stanga. Daca valorile se apropie de 0.1, distributia este moderat asimetrica, iar daca depasesc 0.3, distributia este pronuntat asimetrica. In cazul de fata avem urmatoarele valori calculate anterior: =475.15 .Se calculeaza coeficientul Yule: =115, =286.66,
>0
Interpretare.Rezultatul obtinut arata o distributie moderat asimetrica la dreapta. Coeficientul empiric de asimetrie Pearson ( ) se calculeaza ca raport intre marimea asimetriei (As) si dispersia distributiei, exprimata prin abaterea medie paratica ( ), dupa relatia:
Interpretare. Daca =0, distributia este simetrica; Daca >0, distrbutia este asimetrica la dreapta; Daca <0, distributia este asimetrica la stanga. In cazul de fata coeficientul empiric de asimetrie va avea urmatoarea valoare: = = = = 0.067 , >0 ceea ce ne arata faptul ca distributia este asimetrica la dreapta.
-curba lepticurtica atunci cand prezinta o variatie slaba a variabilei X insotita de o variatie puternica a frecventei . Indicatorii ai boltirii 1.Coeficientul de boltire Pearson ( centrate, dupa relatia: ) se calculeaza pe baza momentelor
unde: si -(varianta), respectiv momentul centrat de ordin patru si se calculeaza conform relatiilor:
Interpretare.Pentru o distributie normala (curba Gauss-Laplace), coeficientul de boltire ia valoarea 3.Daca >3, atunci distributia este leptocurtica iar daca < 3, atunci distributia este platicurtica.
Tabelul 5.Distributia bibliotecilor in Romania, in anul 2007, pe judete.Sursa datelor:calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total
Numarul judetelor ( ) 7 15 13 4 39
=7942.1
22
= =2.248579
=141835678
Interpretare.In urma calculelor efectuate s-a ajuns la rezultatul urmator 2.248579<3 ceea ce arata ca distributia este platicurtica.
Concentrarea. Prin concentrarese exprima aglomerarea unitatilor unei colectivitati sau valorilor globale ale unei distributii in jurul unei valori (de exemplu, a valorii centrale) a caracteristicii de grupare.Problema masurarii fenomenului de concentrare a fost formulata de statisticianul italian Corrado Gini, in anul 1912, in legatura cu analiza distributiei veniturilor unei populatii. Evaluarea concentrarii implica studierea comparata a structurii efectivului unei colectivitati si a structurii valorii globale pe aceleasi variante/intervale de variatie ale caracteristicii de grupare. S-ar pune astfel in evidenta atat inegalitatile dintre distributiile de structura comparate cat si concentrarea valorii globale pe un numar restrans de unitati ale colectivitatii observate. Dispartile dintre cele doua distributii de structura si concentrarea valorii globale s-ar putea interpreta, in esenta, astfel: cu cat sunt mai mari diferentele dintre cele doua distributii de structura cu atat sunt mai mari disparitatile dintre grupe, adica concentrarea tinde sa creasca si invers. Restrictii:Studierea concentrarii este aplicabila numai varibilelor continuue cu valori pozitive.Se poate extinde in domeniul seriilor calitative atibuite cu scopul stabilirii graduluide concentrare pe tipuri calitative (categorii).Concentrarea este aplicabila, in general, orcarui fenomen care poseda caracteristici susceptibile insumarii. Conditiile pentru analiza distributiilor statistice cu ajutorul concentrarii sunt: -sa aiba sens insumarea variabilei de distributie; -sa fie posibila impartirea valorii globale a variabilei intre unitatile colectivitatii.
23
Curba de concentrare. Curba de concentrare este reprezentarea grafica a variabilei q in functie de variabila p.Ca urmare, curba de concentrare, construita prin unirea punctelor de coordonate ( ), apare inscrisa intr-un patrat ABCD, cu latura egala cu 100%.Acesta este cunoscut sub denumirea de patratul lui Gini, iar suprafata definita de curba de concentrare si diagonala patratului se numeste suprafata de concentrare.Curba se situeaza sub diagonala patratului, deoarece ( ), sau se suprapune cu diagonala cand ( ), in cazul echirepartitiei. Daca curba de concentrare este mai apropiata de diagonala patratului atunci se poate vorbi de o concentrarea slaba iar daca curba de concentrare se indeparteaza de diagonala atunci putem vorbi de o concentrare puternica. Valorile celor doua variabile sunt definite de relatiile:
= =
, cu i=, unde
= =
+ ; + .
, cu i=, unde
Tabelul.6.Distributia bibliotecilor din Romania, in anul 2007, pe judete.Sursa datelor: calcule proprii. Numarul bibliotecilor ( ] 100-200 200-300 300-400 400-500 Total Numarul judetelor ( ) 7 15 13 4 39
7 22 35 39 -
Se determina cele doua variabile dupa formulele prezentate mai sunt iar date sunt scrise in tabel.Cu ajutorul celor doua variabile determinate se reprezinta curba de concentrare.
24
Fig.5. Curba de concentrare pentru numarul biblioteilor a Romaniei, in anul 2007.Sursa datelor: calcule proprii. Conform graficului obtinut se poate deduce faptul ca in acest caz este vorba depre o concentrare slaba.
si presupune urmatoarele operatii: 1) aflarea medianei ( ); 2) aflarea medialei ( ); 3)calcularea abaterii mediala-mediana ( ). Interpretare.Cu cat valoarea ( ) este mai mare cu atat concentrarea este mai puternica si invers.Daca ( ) atunci nu exista concentrare, doistributia reprezentand o echirepartitie (distributie egalitara).
25
Coeficientul de concentrare consta in compararea sub forma de raport a marimii abaterii mediala-mediana ( ) cu amplitudinea de variatie a caracteristicii de grupare ( ), dupa relatia:
100
Raportul poate lua valori in intervalul [0,100].Cu cat raportul tinde spre zero cu atat concentrarea este mai slaba, adica nu exista mari disparitati si, invers, daca valoarea raportului tinde spre 100, exista mari disparitati intre valorile globale pe clase de variatie. Pentru problema nostra vom calcula coeficientul de concentrare dupa cum urmeaza: 1. unitatea mediana abaterea media-la mediana si
=20 ;
2. se gaseste , si anume ; 3. se citeste intervalul median in dreptul lui si anume (200-300]; 4. in intervalul median se efectueaza interpolarea liniara , adica se calculeaza mediana (pentru cazul nostru calculata mai anterior si are valoare unitati); 5. se calculeaza unitatea mediala
= 5575
+d
:
= 300 -100 = -
100=
100 =7.59 %
In cazul considerat, mediana fiind egala cu 286.66 unitati, iar mediala egala cu 317.03 unitati, rezulta o abatere mediala-mediana agala cu 30.37 unitati.In comparatie cu amplitudinea de variatie a caracteristicii =500-100=400), arata o concentrare slaba a numarului de biblioteci pe judete, si anume 7.59 % din numarul acestora, fapt observat si in figura 1
26
Inferenta statistic
si
= +
, pentru un
],
coeficient de incredere: P(
unde:
-limitele de incredere: inferioara, respectiv superioara; )-probabilitatea cu care se garanteaza ca intervalul acopera valoarea adevarata a parametrului , in cazul unei probleme de estimatie, respectiv, valoarea unei statistici, in cazul unei probleme de distributie de selectie; -riscul, respectiv, probabilitatea ca intervalul nu contine valoarea cautata. Daca parametrul cautat ar fi - media unei populatii, iar - media de selectie, construirea intervalului de incredere pleaca de la o ipoteza asupra distributiei medie de selectie, deci si a abaterilor medii patratice ale acestora fata de media populatiei, respectiv, fata de media lor.Construirea intervalului de incredere poate prezenta doua situatii: cand se cunoaste varianta si cand aceasta nu e ste cunoscuta. Se extrage un esantion pe baza pasului de numarare dupa cum urmeaza: -din volumul N = 39 de judete se extrage un esantion de n = 13 judete conform unui pas de numarare calculat dupa urmatoarea formula: Pas de numarare (P) = = = 3 -se alege un numar aleator cuprins intre 1 si 3 (pasul de numarare) -se alege valoarea 1 (cea ce arata ca al doilea judet din baza de date va face parte din esantion ) la care se adauga pasul de numarare rezultand urmatorul judet care va face parte din esantion, la rezultatul obtinut se adauga din nou acelasi pas de numarare rezulta urmatorul judet; -acest proces se efectueaza pana sunt gasite toate cele 13 judete
27
0+ 1= 1 1+ 3= 4 4+ 3= 7 7 + 3 = 10 10 + 3 = 13 13 + 3 = 16 16 + 3 = 19 19 + 3 = 22 22 + 3 = 25 25 + 3 = 28 28 + 3 = 31 31 + 3 = 34 34 + 3 = 37
Tabelul 7.Prezentarea unui esantion din totalul judetelor Romaniei, dupa numarul bibliotecilor, in anul 2007.Sursa datelor: calcule proprii.
Nr. crt.
Judetul Bihor Maramures Alba Harghita Bacau Suceava Buzau Tulcea Calarasi Ialomita Dolj Olt Caras-Severin 28
Numarul bibliotecilor ) 383 350 253 270 425 333 319 162 196 170 379 317 241 3798
90.85 57.85 -39.15 -22.15 132.15 40.85 26.85 -130.15 -96.15 -122.15 86.85 24.85 -51.15 0.05
8253.73 3346.623 1532.723 490.6225 17649.12 1668.723 720.9225 16939.02 9244.822 14920.62 7542.923 617.5225 2616.323 85543.69
: 383, 350, 253, 270, 425, 333, 319, 162, 196, 170, 379, 317, 241. n = 13. In cazul de fata volumul esantionului n =13 este mai mic ca 30, intervalul de incredere al mediei numarului de biblioteci, cand nu se cunoaste varianta , este: ( ), unde =
s =
Esantionul fiind de volum mic (n=13), statistica urmeaza o lege Student. Pentru un risc si =n-1=12 grade de libertate se citeste in tabelul Student valoarea statisticii =2.179. Intervalul de incredere este: (292.15
) =(241.12 ; 343.18)
Interpretare:Cu o probabilitate de 0.95 se poate considera ca numarul mediu al bibliotecilor din fiecare judet al Romaniei este cuprins intre 241.12 de biblioteci si 343,18 biblioteci.Ne asumam un risc de 0.05 sau 5% ca valoarea adevarata a numarului mediu al bibliotecilor sa nu fie acoperita de acest interval.
f=
29
In cazul de fata se propune estimarea, prin interval de incredere, a judetelor cu un grad mediu de culturalizare la nivelul intregii tari, considerand un risc =0.05. Intervalul de incredere in cazul esantionului de volum n=13, cand nu se cunoaste varianta, este definit de: (
= 0.23
f=
) = (0.13 ; 0.33)
Interpretare: Cu o probabilitate de 0.95 se poate considera ca proportia judetelor cu un grad de culturalizare mediu la nivelul intregii tari este cuprinsa intre 0.13 sau 13% si 0.33 sau 33%.
30
t=
3.Regula de decizie: |> Daca | => Se respinge ipoteza | Daca| => Se accepta ipoteza
si se accepta ipoteza .
1.Ipoteze statistice : = ( numarul bibliotecilor dintr-un judet nu difera in mod semnificativ de numarul mediu al bibliotecilor ) : ; (numarul bibliotecilor dintru-un judet difera in mod semnificativ de numarul mediu al bibliotecilor); 2.Statistica test calculata (in cazul de fata volumul esantionului n=13 <30, se va folosi statistica t Student ) :
= 0.518
Pentru un risc =0.05 si v = n-1=13-1=12 grade de libertate, se citeste in Tabela Student valoarea teoretica a statisticii t Student: =2.179 . 3.Regula de decizie: n urma prelucrrii datelor, s-a obinut c | =0.518| < | =2.179 |, ca urmare se accepta ipoteza . Interpretare:Cu o probabilitate de 0.95 se poate firma numarul judetelor dintr-un judet al Romaniei nu difera in mod semnificativ de numarul mediu de biblioteci.
31
= 2.653
Pentru un risc =0.05 si v = n-1=13-1=12 grade de libertate, se citeste in Tabela Student valoarea teoretica a statisticii t Student: =2.17 n urma prelucrrii datelor, s-a obinut c | =2.653| > | =2.179 |, ca urmare se respinge ipoteza si se accepta ipoteza . Interpretare:Cu o probabilitate de 0.95 se poate afirma ca proportia judetelor cu un grad mediu de culturalizare difera in mod semnificativ de proportia .
-evaluarea masurii in care variabila dependenta poate fi explicata prin variabilaindependenta, sau printr-un set de variabile independente; -indentificarea unui subset din mai multe variabileindependente care trebuie luat in calcul pentru estimarea variabilei dependente. In expresie generala, un model de regresie poate fi scris: Y=f( )+ in care: Y- variabila dependenta (rezultativa), aleatoare; -variabile independente (factoriale) nonaleatoare; - variabila aleatoare eroare sau reziduu. Modelul de regresie simplu liniar se poate scrie: Y= + X+ .
In cazul problemei de fata se propune o analiza pentru a se determina daca, intre numarul bibliotecilor si volumul acestora pentru fiecare judet in parte, exista legaturi de tip statistic. Tabelul 9.Prezentarea numarului de biblioteci si a volumului de carti din fiecare judet al Romaniei, in anul 2007.
Nr. crt. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. Judetul Bihor Bistrita-Nasaud Cluj Maramures Satu Mare Salaj Alba Brasov Covasna Harghita Mures Sibiu Bacau Botosani Neamt Suceava Vaslui Braila Buzau Constanta Numarul bibiotecilor (unitati) 383 230 420 350 229 222 253 227 199 270 404 219 425 266 333 333 307 197 319 329 Numarul volumelor (unitati) 4107 1819 10568 3412 2373 2140 2960 3617 1711 2946 4542 4014 4547 2933 3447 5068 2731 1816 2515 4074
33
21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39.
Galati Tulcea Vrancea Municipiul Bucuresti Calarasi Dambovita Giurgiu Ialomita Prahova Teleorman Dolj Gorj Mehedinti Olt Valcea Arad Caras-Severin Hunedoara Timis
312 162 242 391 196 369 165 170 416 283 379 240 195 317 272 249 241 254 383
3288 1755 1901 37711 1801 2637 1213 1607 4622 2259 5172 2588 1774 2363 2263 3039 2127 3213 6168
Folosind datele din tabelul 9 s-a realizat o simulare cu ajutorul programului de calcul tabelar Microsoft Excel, obtinandu-se urmatoarele rezultate:
Regression Statistics Multiple R 0.426468854 R Square 0.181875683 Adjusted R Square 0.159764215 Standard Error 69.99218335 Observations 39 ANOVA df Regression Residual Total 1 37 38 Coefficients 260.3925601 0.00563891 SS MS F 40295.46236 40295.46236 8.225400648 181259.512 4898.90573 221554.9744 Standard Error t Stat P-value 13.774551 18.90388733 1.32718E-20 0.00196615 2.867995929 0.006783531 Significance F 0.006783531
Intercept X Variable 1
Din figura de mai sus se pot face urmatoarele observatii: Y= + X Y = 260.39 + 0.0056X a = 20.3137 b = 0.7672 (232.48 ; 288.30) (0.00165 ; 0.00962) 13.774 = 0.0019 Raportul de corelatie: Raportul de determinatie: Pentru vom avea: = 0.4264 0.1818
=
1.Formularea ipotezei : : =0 0;
2.Alegerea si calcularea statisticii test -din figura 6 reiese ca valoarea statisticii test calculata este valoarea teoretica este egala cu = 1.960.
=18.903 iar
3.Regula de decizie Daca P-value (riscul asumat de 0.05) se accepta . Daca P-value (riscul asumat de 0.05) cu o probabilitate de 0.95 se respinge si se accepta . 4.Decizia statistica -in urma simularii datelor s-a obtinut P-value=1.32 > , deci se accepta ipoteza conform careia = 0. Pentru vom avea:
1.Formularea ipotezei
35
: :
=0 0;
2.Alegerea si calcularea statisticii test -din figura 9 reiese ca valoarea statisticii test calculata este teoretica este egala cu = 1.960.
3.Regula de decizie Daca P-value (riscul asumat de 0.05) se accepta . Daca P-value (riscul asumat de 0.05) cu o probabilitate de 0.95 se respinge si se accepta . 4.Decizia statistica -in urma simularii datelor s-a obtinut P-value=0.0067 < si se accepta ipoteza .
7000 6000 Numarul volumelor 5000 4000 3000 2000 1000 0 0 100 200 300 400 500 Numarul bibliotecilor
36
Concluzii
In acest studiu s-a propus analiza bibliotecilor Romaniei, in anul 2007 pe judete.Baza de date creata contine doua variabile numerice (numarul bibliotecilor si numarul volumelor de carti) dar si doua variabile categoriale (gradul de culturalizare si zona de dezvoltare specifica fiecarui judet). Conform calculelor efectuate s-a ajuns la concluzia ca 17.90% din judetele Romaniei, au in anul 2007 un grad de culturalizare scazut, 38.50% din judete au un grad de culturalizare mediu, 33.30% din judete au un grad de culturalizare ridicat iar 10.30% din judetele Romaniei au un grad de culturalizare foarte ridicat. Prin calculul abaterii medii patratice s-a putut ajunge la concluzia ca numarul bibliotecilor din fiecare judet al Romaniei se poate abate in medie de la nivelul mediu cu 89.11 biblioteci.Prin calculul coeficientului de variatie s-a putut afirma ca media este ponderat reprezentativa. Prin calculul quantilelor s-a putut repartiza in procente judetele, dupa cum urmeaza: -25% din judete au un numar de pana la 115 biblioteci; -50% din judete au un numar de pana la 287 de biblioteci; -75% din judete au un numar de pana la 356 de biblioteci iar 25% din judete au un numar de biblioteci de peste 356. Prin aflarea intervalului de incredere a unei proportii s-a ajuns la concluzia cu o probabilitate de 95%, proportia judetelor cu un grad de culturalizare mediu este cuprinsa in intervalul (0.13 ; 0.33). Pentru 31.15% putem afirma ca coeficientul de variatie se afla in intervalul 17% si 35% ceea ce inseamna ca media este moderat reprezentativa.
37
Bibliografie
1.Statistica-Elisabeta Jaba, Editia a III-a, Editura Economica, Bucuresti, 2002; 2.Analiza statistica cu SPSS sub Windows-Elisabeta Jaba,Editura Polirom, Iasi, 2004; 3.Statistica:Teste grile si probleme- Elisabeta Jaba si Carmen Pintilescu, Editura Sedcom Libris, revazuta, Iasi, 2007; 4.Bazele statisticii-Elisabeta Jaba, Editura Universitati Alexandru Ioan Cuza, Iasi, 2008; 5. www.insse.ro
38