Sunteți pe pagina 1din 22

ANALIZA STATISTICĂ

CUPRINS
1.Introducere.............................................................................................................................3

...............................................................................................................................................3

2. Prezentarea bazei de date.......................................................................................................4

3. Analiza grafica si numerica a variabilelor analizate...............................................................6

3.1. Analiza descriptiva a variabilelor numerice si nenumerice.............................................6

3.2. Analiza grafica a variabilelor numerice si nenumerice...................................................9

3.3. Identificarea outlierilor si inlocuirea lor cu valori lipsa................................................12

4. Analiza statistica a variabilelor categoriale..........................................................................12

4.1. Tabelarea datelor..........................................................................................................12

4.2. Analiza de asociere.......................................................................................................13

4.3. Analiza de concordanta.................................................................................................14

5.Analiza de regresie si corelatie.............................................................................................14

5.1Analiza de corelatie........................................................................................................14

5.2Analiza de regresie.........................................................................................................15

5.2.1. Regresie liniara simpla si mutipla.......................................................................................15


5.2.2. Regresia neliniara...............................................................................................................16
5.2.3Compararea a doua modele de regresie si alegerea celui mai bun model...........................17
6.Estimarea si testarea mediilor...............................................................................................18

6.1.Estimarea mediei prin interval de incredere...................................................................18

6.2. Testarea mediilor populatiei.........................................................................................19

6.2.1. Testarea unei medii cu o valoare fixa:...............................................................................19


6.2.2. Testarea diferentei dintre doua medii cu esantioane independente.................................19
6.2.3. Testarea diferentei dintre trei si mai multe medii..............................................................20
7. Concluzii.............................................................................................................................21
1.Introducere

Pentru realizarea acestei lucrări am ales prezentarea statisticilor naționale


ale diferitor regiuni, Africa, Asia, Caraibe, Europa, America Latina, America de
Nord, Atlantica de Nord, Oceania. , în special din 2009-2011. Sunt prezentate
statistici naționale privind sănătatea si bunastarea pentru 194 de țări, în mare
parte membre ONU, dar și alte zone precum Hong Kong, care nu sunt țări
independente.
Obiectivele analizei empirice sunt o parte a obiectivelor întregii lucrări
şi anume:
- prezentarea ţărilor în mare parte membre ONU, dar și alte zone
precum Hong Kong din punct de vedere al sanatății,
- analiza statistică a variabilelor ce influenţează bunastarea în aceste
zone,
- analiza legăturii dintre variabilele ce influenţează indicatorul
macroeconomic al fiecarei tari,
- identificarea ţărilor care înregistrează valori ridicate ale ratei de
fertilitate si a sperantei de viata la femei
- identificarea ţărilor care înregistrează valori ridicate ale procentului de
urbanizare și a mortalitații infantile
- obţinerea celui mai bun model de regresie liniar ce are ca variabilă
dependentă produsul intern brut
2. Prezentarea bazei de date

Baza de date utilizată conține 5 variabile care prezintă statistici nationale


pentru 194 de țări, in mare parte membre ONU, dar si alte zone precum Hong
Kong. Variabilele folosie în analiză sunt reprezentate de produsul intern brut
folosită ca variabilă dependentă. Iar ca variabile independente am folosit rata
fertilității și speranța de viață la femei. Cele 2 variabile categoriale au fost
transformate din variabie numerice in variabile nenumerice. Acestea fiind
procentul de urbanizare și mortalitatea iinfantilă.
Rata de fertilitate, cunoscută şi ca „indicatorul conjunctural al fertilităţii”,
reprezintă numărul mediu de copii pe care i-ar naşte o femeie în cursul vieţii
sale fertile, în condiţiile fertilităţii anului respectiv.
Produsul intern brut ( PIB) este un indicator macroeconomic care reflectă
suma valorii de piață a tuturor mărfurilor și serviciilor destinate consumului
final, produse în toate ramurile economiei în interiorul unei țări în decurs de un
an.
Speranța de viață  la femei este durata medie a vieții sau numărul mediu de
ani de viață rămași la o anumită vârstă. În țările cu mortalitate infantilă ridicată,
speranța de viață la naștere este foarte mult influențată de rata mortalității în
primii ani de viață.
Mortalitatea infantilă este un indicator de bază al stării economico-sociale
și de mediu al unei comunități umane, care ia în calcul decesele 0-1 an (de
la naștere la 364 de zile). Raportarea sa la 1000 născuți vii din aceeași perioadă.
Procentul de urbanizare se refera la procentul anual de crestere a populatiei
in zonele urbane ale unei tari.
Din baza initiala s-a realizat o selectie care sa include conditii pentru
doua variabile, rata defertilitate si speranta de viata. In urma selectiei au ramas
in baza doar tarile care au rata de fertilitate mai mica de 6,8% si cele cu speranta
de viata la femei egala cu 50 au fost eliminate. A dost eiminata o singura tara
din baza initiala.

Fiecare variabila nenumerica a fost transformata cu 3 categorii, procentul


de urbanizare (mic,mediu,mare), iar mortalitatea infantilă (mică, mare, foarte
mare).
baza$prurban.Cat<-cut(baza$prurban, 3, c("mic", "mediu", "mare"))
baza$mortinfant.Cat<-cut(baza$mortinfant, 3, c("mic", "mare", "fmare"))
În baza de date numele variabielor sunt :
"geo", "ratfert","pibdolar","sperviataF" ,"prurban.Cat", "mortinfant.Ca t"

Mai jos avem prezentată structura bazei de date , clasa acesteia și


descrierea acesteia în R:
3. Analiza grafica si numerica a variabilelor analizate

3.1. Analiza descriptiva a variabilelor numerice si nenumerice


Tabel nr. 1. Indicatorii statisticii descriptive pentru variabila rata de fertilitate

Rata de fertilitate la nivelul ţărilor este în medie de 2,78%, valorile


înregistrate variază în medie cu 1,35% faţă de nivelul mediu al distribuţiei,
mediana ne indică faptul că 50 % dintre ţări au nivelul ratei de fertilitate peste
valoarea de 2,26 %, iar 50 % au nivelul ratei de fertilitate peste valoarea de
2,26%. Coeficientul de variaţie este egal cu 48,56% ceea ce ne indică faptul că
distribuţia este una aproape eterogenă, cu o dispersie mare. Coeficientul de
asimetrie (SKEWNESS) este 1,03, ne indică faptul că distribuţia ţărilor din
punct de vedere al nivelului ratei de fertilitate este una asimetrică la dreapta, iar
din punct de vedere al coeficientului de boltire (KURTOSIS) este 0,05, ne
indică faptul că distribuţia este una platicurtică.

Tabel nr. 2. Indicatorii statisticii descriptive pentru variabila PIB si speranta de viata la
femei

Produsul intern brut la nivelul ţărilor este în medie de 12291.15 dolari,


valorile înregistrate variază în medie cu 17412.38 faţă de nivelul mediu al
distribuţiei, mediana ne indică faptul că 50 % dintre ţări au nivelul produsului
intern brut peste valoarea de 4495.8 , iar 50 % au nivelul produsului intern
peste valoarea de 4495.8. Coeficientul de asimetrie (SKEWNESS) este 2,21, ne
indică faptul că distribuţia ţărilor din punct de vedere al nivelului produsului
intern brut este asimetric la dreapta, iar din punct de vedere al coeficientului de
boltire (KURTOSIS) este 5,65, ne indică faptul că distribuţia este una
leptocurtica.
Speranta de viață la nivelul ţărilor este în medie de 71 de ani , valorile
înregistrate variază în medie cu 10 ani faţă de nivelul mediu al distribuţiei,
mediana ne indică faptul că 50 % dintre ţări au nivelul speranței de viață peste
valoarea de 75 de ani , iar 50 % au nivelul speraței de viață la femei peste 75
de ani. Coeficientul de variaţie este egal cu 14,19% ceea ce ne indică faptul că
distribuţia este una omogena , cu o dispersie mică și o medie reprezentativă.
Statistici descriptive pe grupuri

Tabel nr. 3. Indicatorii statisticii descriptive pentru variabila rata de fertilitate in functie de
procentul de urbanizare

Rata de fertilitate la nivelul ţărilor unde procentul de urbanizare este


mic inregistrează valorea medie de 3,94% , valorile înregistrate variază în
medie cu 1,49% faţă de nivelul mediu al distribuţiei, , in timp ce țările cu un
procent mare de urbanizare inregistrează o rată de fertilitate in medie de 2,07
%, valorile înregistrate variază în medie cu 0,66% faţă de nivelul mediu al
distribuţiei. Se observă o scadere a ratei de fertilitate in tările unde procentul
de urbanizare este mare.

Tabel nr. 4. Indicatorii statisticii descriptive pentru variabila speranta de viata la femei in
functie de procentul de urbanizare
Speranța de viață pentru femei la nivelul țărilor unde procentul de
urbanizare este mic inregistrează o valoare medie de 67 de ani , iar la nivelul
țărilor cu un procent de urbanizare mare ,speranța de viață pentru femei este
in medie de 75 de ani. Se observă o usoara crestere a sperantei de viață la
femei o data cu cresterea procentului de urbanizare.

3.2. Analiza grafica a variabilelor numerice si nenumerice


Fig.1. Analiza gravica a ratei de fertilitate

In histograma de mai sus avem prezentata rata de fertilitate care


prezinta o distributie asimetrica la dreapta si leptocurtica.Cea mai mare des
inregistrata valoare este de 2%, cu frecvența descrescătoare la valori mai
extreme.

Fig.2. Analiza grafica a sperantei de viata pentru femei

In histograma de mai sus avem prezentata speranta de viata la femei


care prezinta o distributie asimetrica la stanga

Fig3.Analiza grafica a produsului intern brut


In figura 3 avem reprezentarea grafica a produsul intern brut, se poate
observa o distribuie asimetrica la dreapta si leptocurtica.

Fig.4. Analiza grafica pentru variabilele numerice

In figura 4 avem prezentat boxplotul pentru rata de fertilitate, speranta


de viata la femei si produsul intern brut. Produsul intern brut inregistreaza
valori extreme care vor fi inlocuite cu valori lipsa.

Fig.5.Analiza grafica a densitatii ratei de fertilitate

In figura nr 5 se poate observa ca cea mai mare densitate se afla in


partea stanga a graficului .
Fig.6.QQ plot
In figura 6 se poate observa ca rata de fertilitate nu urmeaza o distribuie
normal.

3.3. Identificarea outlierilor si inlocuirea lor cu valori lipsa

Identificarea outlierilor din baza de date:

In baza de date pentru variabila produsul intern brut am identificat 24


de outlieri, acestia vor fi inlocuiți cu valori lipsa.
(baza$pibdolar <- ifelse(baza$pibdolar > 36326.8, NA,
baza$pibdolar)), celelalte variabile, speranța de viața la femei și rata de
fertilitate nu contin outlieri.

4. Analiza statistica a variabilelor categoriale


4.1. Tabelarea datelor

Frecvente marginale:
In outputul de mai sus se poate obserba ca 60 din tari au procentul de
urbanizare mare, iar 54 au procentul de urbanizare mic.
Frecvente partiale:

In outputul prezentat mai sus nici o tara nu inregistreaza valori foarte


mari pentru mortalitatea infantila si pentru procentul de urbanizare mare

Frecvente conditionate dupa prurban:

Se poate observa ca 95% din tarile cu procentul de urbanizare mare au


mortalitatea infantila mica, iar 25% din tarile cu procentul de urbanizare mic
au valori foaarte mari ale mortalitatii infantile.
Frecvente conditionate dupa mortinfant:

In output se poate observa ca 41% din tarile cu mortalitatea infantila


mica au un procent de urbanizare mare.

4.2. Analiza de asociere


Test de asociere

H0:cele doua variabie sunt asociate


H1: cele doua variabie nu sunt asociate
p-value= 1.357e-11 <α,
p-value= 1.357e-11 < 0,05

Se respinge ipoteza nula. Cele doua variabile nu sunt corelate


semnificativ statistic.

4.3. Analiza de concordanta

Testul de concordanta Chi-square

H0:exista asociere intre variabile


H1:nu exista asociere intre variabile ( distributia nu este uniforma)
p-value= 1.357e-11 <α,
p-value= 1.357e-11 < 0,05
Se respinge ipoteza nula, nu exista asociere intre variabile.Distributia
acestora nu este uniforma.

5.Analiza de regresie si corelatie


5.1Analiza de corelatie

Coeficientul de corelatie Pearson


Coeficientul de corelatie Pearson este egal cu -0,3205, de unde rezulta
ca exista o legatura indirecta si de intensitate mica intre rata de fertilitate si
speranta de viata la femei.
Coeficientul de corelare a rangurilor Spearman

Coeficientul de corelatie Spearman este egal cu 0,255 , de unde rezulta


ca exista o legatura directa si de intensitate mica intre produsul intern brut si
speranta de viata la femei.

Test de corelatie:

Coeficientul de corelatie este egal cu -0,3205, de unde rezulta ca exista


o legatura indirecta si de intensitate mica intre rata de fertilitate si speranta de
viata la femei.

5.2Analiza de regresie
5.2.1. Regresie liniara simpla si mutipla
Regresia iniara simpla:
Forma generala:Y=β0+βb1X+ε
Forma estimata:Y=-4210,9+160,4X
Β1= 160.4
La o crestere a sperantei de viata la femei cu 1 an, produsul intern brut
creste in medie cu 160.4 dolari.

Regresia liniara multipla:

Forma generala:Y=β0+β1X+β2 X 2 +ε

Forma estimata:Y=13115,25+40,52X-3043,28 X 2
β1: La o creştere a sperantei de viata la femei cu 1an, produsul intern
brut creşte în medie cu 40,52, în condiţiile în care rata de fertilitate ramane
constanta.

5.2.2. Regresia neliniara


Y=5.63967+ X 0,03483

La o crestere a sperantei de viata la femei cu un an, produsul intern brut


creste cu 0,03483 . Modelul de regresie este semnificativ din punct de vedere
statistic.

5.2.3Compararea a doua modele de regresie si alegerea celui mai bun model


Dintre cele doua modele de regresie liniara , al doilea model este
mai semnificativ statistic, adaugarea variabilei rata de fertilitate
imbunatateste modeulul de regresie. In urma estimării modelelor de regresie,
am constatat că la nivelul ţărilor analizate variaţia produsului intern brut poate
fi cel mai bine explicată de către variabilele: speranta de viata la femei si rata
de fertilitate

6.Estimarea si testarea mediilor


6.1.Estimarea mediei prin interval de incredere
Limita inferioara a intervalului de incredere pentru media ratei de fertilitate
este 2,588125.
Limita superioara a intervalului de incredere pentru media ratei de fertilitate
este 2,97478.
Cu o probabilitate de 95% garantam ca media ratei de fertilitate este
cuprinsa in intervalul [2,588125; 2,97478.]

6.2. Testarea mediilor populatiei

6.2.1. Testarea unei medii cu o valoare fixa:

p-value<2.2e-16 < α =0,05


Cu o ptobabilitate de 95% se poate garanta ca media ratei de fertilitate este
egala cu 4.

6.2.2. Testarea diferentei dintre doua medii cu esantioane independente


p-value<α
Cu probabilitate de 95% putem garanta ca exista diferente
semnificative intre media ratei de fertilitate pentru tarile cu procentul de
urbanizare mic si mare.

6.2.3. Testarea diferentei dintre trei si mai multe medii

Exista diferente semnificative intre cele 3 categorii. In output se


observa ca pentru tarile cu ponderea mica de urbanizare media ratei de
fertilitatre este 3,94.procentul de urbanizare mediu are ca efect reducerea
medie a ratei de fertilitate cu 1,415 fata de cei cu procentul de urbanizare
mic,iar tarile cu procentul de urbanizare mare are ca efect scaderea ratei de
fertilitate cu 1,866 , comparativ cu tarile cu procentul de urbanizare mic.
7. Concluzii

În această lucrare am realizat analiza statistică a ratei de fertilitate,


produsului intern brut, mortalitatea infantila, procentul de urbanizare si speranta
de fiata la femei pentru tarile membre ONU dar si din alte zone cum ar fi Hong
Kong. Aceste date sunt inregistrate pentru diferite regiuni, Africa, Asia,
Caraibe, Europa, America Latina, America de Nord, Atlantica de Nord,
Oceania.
Cu ajutorul analizei statistice s-a realizat atingerea obiectivelor propuse,
au fost descrise elementele conceptuale privind rata de fertilitate, produsul
intern brut si speranta de viata la femei. În urma studiului s-a obţinut că rata
de fertilitate la nivelul ţărilor este în medie de 2,78%, valorile înregistrate
variază în medie cu 1,35% faţă de nivelul mediu al distribuţiei.
Produsul intern brut la nivelul ţărilor este în medie de 12291.15 dolari,
valorile înregistrate variază în medie cu 17412.38 faţă de nivelul mediu al
distribuţiei. Speranta de viață la nivelul ţărilor este în medie de 71 de ani ,
valorile înregistrate variază în medie cu 10 ani faţă de nivelul mediu al
distribuţiei.
In urma estimării modelelor de regresie, am constatat că la nivelul
ţărilor analizate variaţia produsului intern brut poate fi cel mai bine explicată
de către variabilele: speranta de viata la femei si rata de fertilitate.

S-ar putea să vă placă și