Sunteți pe pagina 1din 24

STATISTIC CURS 1

STATISTICA studiaz fenomenele i procesele de mas, adic acelea care se produc ntr-un numr mare de cazuri i care variaz de la un caz la altul de aceea o lege sau legitate statistic se manifest la nivelul ntregului ansamblu i nu n fiecare caz n parte. ETAPELE UNEI CERCETRI STATISTICE: A. Observarea statistic etapa n care se culeg datele B. Prelucrarea statistic etapa n care se calculeaz indicatorii statistici C. Analiza i interpretarea datelor etapa n care sunt verificate ipotezele i sunt formulate concluziile NOIUNI DE BAZ: Colectivitate statistic (populaie): este un ansamblu de elemente care au o trasatur esential comun. Unitate statistic (de observare): este un element al populaiei. Variabil statistic (caracteristic statistic): este o nsuire comun tuturor unitilor i care variaz de la o unitate la alta. O variabil statistic se noteaz cu Xi i poate fi de 2 feluri: a) variabil numeric sau cantitativ sau msurabil atunci cnd fiecrei uniti i corespunde un numr care exprim madura sau valoarea; b) variabil numeric sau calitativ atunci cnd variabila se exprim prin cuvinte. varianta este nivelul variabilei sau modul su de prezentare. Frecvena absolut: este numrul unitilor la care se nregistreaz aceeai variant (f i , n i ; f i , ni ) Frecvena relativ: este ponderea unei frecvene absolute n totalul frecvenei. Frecvenele relative se pot exprima n 2 feluri: a) ca i coeficient unitar a cror suma este1; b) ca procente prin nmulirea coeficientului cu 100. Seria (distribuia statistic): este rezultatul sistematizrii datelor. POATE FI SUB 3 FORME: a) seria simpl (seria fr frecven) este atunci cnd valorile individuale sunt niruite i nu centralizate fiind puine; ex: 5 studeni au obinut notele 8, 9, 7, 10, 7 b) seria cu frecvene pe variante atunci cnd caracteristica este discret de regul sub forma numerelor ntregi; ex: 15 studeni au obinut 6, 9, 8, 10, 7, 8, 9, 10, 8, 6, 7, 6, 8, 9, 7 36 37 48 39 2 - 10

c) seria cu frecvene pe intervale cnd caracteristica este continu adic cnd poate lua orice valoare din scara de variaie. NOT: Atunci cnd este stabilit numrul notelor i se doresc intervale egale de grupare ; aceste intervale se stabilesc mprind amplitudinea numrului grupelor . AMPLITUDINEA: diferena dintre valoarea cea mai mare i cea mai mic. ex: 22 de studeni au obinut urmtoarele medii : 8,6 ; 7,2 ; 9 ; 6,7 ; 5,8 ; 8,3 ; 7,6 ; 8,1 ; 9,4 ; 6,8 ; 8,2 ; 7,6; 6,9 ; 8,3 ; 7,8 ; 8,1 ; 6,8 ; 7,2 ; 7,6 ; 6 ; 8,2 ; 9 - centralizai n 4 grupe cu intervale egale i calculai frecvenele relative D (diferena) 3,6 3,6 / 4 = 0,9 5,8 6,7 7,6 8,5 9,4 5,8 6,7 = 5,8 ; 6 ; 6,7 6,7 7,6 = 6,8 ; 6,8 ; 6,9 ; 7,2 ; 7,6 ; 7,6 ; 7,6 ; 7,2 7,6 8,5 = 7,8 ; 8,2 ; 8,1 ; 8,3 ; 8,2 ; 8,1 ; 8,3 8,5 9,4 = 8,6 ; 9 ; 9,4 ; 9 INDICATORII STATISTICI: Un indicator statistic este expresia numeric a unui proces sau fenomen. Indicatorii statistici pot fi de 2 feluri: - indicatori absolui sau primari care fie exprim nivelul fie variaia absolut obinut prin scderea a 2 niveluri; - indicatori derivai se obin prin derivarea celor primari i pot fi mrimi relative, medii ale variaiei, corelaiei sau altele. MRIMI RELATIVE SAU INDICATORI RELATIVI: O mrime relativ este un raport ntre 2 mrimi absolute. Mrimile relative sunt de 5 tipuri: 1. Mrimi relative de structur: - sunt calculate ntre parte i ntreg; - totalitatea mrimilor relative de structur red structura distribuiei. 2. Mrimi relative de intensitate: - sunt calculate ca raport ntre 2 indicatori cu coninut diferit Productivitatea muncii = nr. de lucratori Natalitatea =
nascuti vii nr. populatie

productie

3. Mrimi relative de coordonare: - se obin prin raportarea aceluiai indicator din 2 grupe diferite ntre ei fiind o relaie de ireversabilitate. 40F 20B 4. Mrimi relative ale dinamicii: - exprim variaia unei variabile ntre 2 momente diferite (vezi seriile cronologice). 5. Mrimi relative ale programului:
40 =2 20 20 = 0,5 4

2 * 0,5 = 1

- se refer la planificarea i realizarea unor obiecte. CONCLUZIE: Cnd mrimile relative se refer la 2 nivele ale aceluiai indicator situate pe aceeai treapt de agregare ele se numesc indicii. Din cele 5 tipuri de indicatori indici sunt 3, 4, 5.

STATISTIC CURS 2
INDICATORII TENDINEI CENTRALE: n funcie de modul lor de determinare indicatorii de tendin sunt: 1. Indicatori medii de calcul (media aritmetic, media geometric, media armonic, media patratic) 2. Indicatori medii de poziie (modul i mediana) 2.1 MEDIA ARITMETIC: - este o valoare reprezentativ tipic n jurul cruia se concentreaz valori individuale. - media aritmetic se exprim n unitatea de msur specific distribuiei. a) Media aritmetic pentru seriile simple: Xm =

X
n

X i = valori individuale n = sumele subiecilor EXEMPLU: 5 muncitori au realizat 8, 10, 7, 9 i respectiv 6 piese. Calculai media aritmetic. Media aritmetica: 8 b) Media aritmetic pentru o serie cu frecvene variate: X=

X f f
i i

EXEMPLU: Note: 6, 7, 8, 9, 10. Studeni care au luat aceste note: 20, 40, 90, 60, 30. Calculai media aritmetic. c) Media aritmetic cu o serie de frecvene pe intervale: Nr. piese Nr muncitori Xi X
f

5 15 15 25 25 35 35 45

10 20 60 40

10 20 30 40

Calculai media ponderat. Media ponderat se calculeaz ca i n cazul seriilor cu meniunea c X i este centrul intervalului. Omogenitatea distribuiei este condiia esenial pentru a asigura mediei un coninut real. 2.2. MODUL: - modul poate fi calculat i pentru o scal nominal (de citit nivelurile de msurare din carte). - este varianta care apare cel mai frecvent n cadrul unei distribuii. a) cnd seria este simpl, fiind puine cazuri de obicei nu se calculeaz modul. b) cnd seria este pe variante, modul este varianta cu frecvena cea mai mare. c) cnd seria este pe intervale, modul se calculeaz astfel:
1 k 1 + 2

M 0 = l inf +

l inf = limita inferioar a intervalului modal 1 = diferena dintre frecvena intervalului modal i cea a intervalului interior 2 = diferena dintre frecvena intervalului modal i cea a intervalului urmtor k = mrimea sau amplitudinea intervalului modal.
40 10 = 31,67 40 + 20

M 0 = 25 +

2.3 MEDIANA: - mediana poate fi folosit i pentru o serie de date ce compun o scal ordinal (care admite relaia <>); - este valoarea central a unei serii ordonate; subiectul median fiind punct de mijloc al seriei. a) cnd seria este simpl, mediana este valoarea din mijlocul seriei sau media celor 2 valori din mijloc atunci cnd nr. termenilor este 4. b) cnd seria este pe variante, se calculeaz mai nti frecvenele cumulate, adic att cele aferente unei variante sau unui interval cat i cele aferente variantelor sau intervalelor precedente. - se calculeaz apoi cota medianei (subiectul medianei).
n +1 2

C=

n = nr. subiecilor

c) cnd seria este pe intervale mediana se calculeaz astfel:

M 0 = l inf +

C fc k fi

l imf = limita inferioar a intervalului median; C = cota medianei f c = frecvena cumulat pn la intervalul median f i = frecvena intervalului median k = mrimea intervalului median

M 0 = 25 +

65 30 10 = 30 60

CONCLUZII: 1. Mediana se recomand atunci cnd seria este aproximativ normal distribuit (simetric); 2. Mediana cnd seria este profound asimetric sau exist valori extreme atipice sau cnd seria este ordinal; 3. Modul se utilizeaz atunci cnd intereseaz care este categoria cea mai important sub aspect numeric sau cnd seria este nominal; 4. Atunci cnd distribuia este absolut simetric cei 3 indicatori ai tendinei centrale (media, mediana, modul) au valori egale; 5. Mediana face parte din categoria QUARTILELOR adic acele puncte care mpart frecvenele n mai multe pri egale (QL = 130/4 pentru 4 pri)

STATISTIC CURS 3

INDICATORII VARIABILITII FA DE TENDIN - n statistic prin noiunea de variaie sau de mprtiere se au n vedere abaterile msurabile ale valorilor individuale fa de valoarea central a seriei. a) INDICATORII SIMPLI AI VARIAIEI: - aceti indicatori msoar fie cmpul de mprtiere a valorilor individuale (amplitudinea), fie mpratierea fiecrei valori individuale fa de nivelul mediu (abaterile individuale); - se pot exprima n mrimi absolute, relative (raportare la medie). b) INDICATORII SINTETICI AI VARIAIEI: - exprim mprtierea tuturor valorilor individuale fa de tendina central b1) DISPERSIA (D 2 ): - Seria simpl:

D2 =

( x

x)

x i = valorile individuale
x = media seriei n = nr. subiecilor

- Dispersia pentru distribuiile cu frecven: D xi 5 15 15 25 25 35 35 45


2

(x =

f
fi 10 20 60 40

x) f i
i

xi fi 100 400 1800 1600

(x i - x ) -20 -10 0 10
10000 = 76,92 130

(x i - x ) 2 400 100 0 100

(x i fi

)2

4000 2000 0 4000

Calculai dispersia:

D2 =

n b2) ABATEREA MEDIE PTRATIC (ABATERE STANDARD SAU DEVIAIE STANDARD): - se noteaz cu D = D 2 - ea se msoar n aceleai uniti ca i variabila studiat - pentru c se exprim n uniti de msur diferite abaterea medie ptratic nu poate fi comparat
b3) COEFICIENTUL DE OMOGENITATE SAU DE VARIAIE: - este o expresie standardizat a mprtierii - se calculeaz ca raport ntre abaterea medie ptratic i medie - se exprim n procente CV = CV =
D 100 X

Exsit i formule de calcul simplificat: D

x =

2 i

1,41 100 = 17,65% 8 8,77 100 = 29,22% CV = 40

CONCLUZII: 1. Cu ct coeficientul de omogenitate este mai apropiat de zero (0), cu att omogenitatea de distribuie este mai mare i n consecin media este mai reprezentativ. 2. Se consider un coeficient de variaie de pn n 35%, de aici rezult c distribuia este omogen.

3. Se pot utiliza 4 praguri de semnificaie: - coeficientul de variaie < 17% media este strict reprezentativ media este moderat reprezentativ - 17% < CV < 35% media este reprezentativ n sens larg - 35% < CV < 50% - CV > 50% media nu este reprezentativ b4) MEDIA I DISPERSIA UNEI CARACTERISTICI ALTERNATIVE SAU DIPOTOMICE: MEDIA: este data de proporia unitilor care conin caracteristica (prezeni, promovai) i se noteaz cu p DISPERSIA: este produsul dintre ponderea celor care dein caracteristica (p) i ponderea celorlali. q = 100 p pentru procente (%) pentru coeficient q=1p D2 =p

EXEMPLU: 1. Din 200 de studeni au promovat 140. Calculai media i dispersia. P=


140 100 = 70% 200

q = 100% - 70% = 30%

2. Din 300 de studeni au picat 120. Calculai media i dispersia. P=


180 100 = 60% 300

q = 100% - 60% = 40%

D 2 = p q D 2 = 60%

40% = 24%

3. Calculai indicatorii tendinei centrale, omogenitatea i structura distribuiei: NOTE 35 57 79 9 10 Total STUDENTI 40 60 80 20 200 xi fi 4 40 160 6 60 360 8 80 640 9,5 20 190 1350 = = = = xi -x - 2,75 - 0,75 1,25 2,75 (x i - x ) 2 7,56 0,56 1,56 7,56 (x i - x ) 2 fi 302,4 33,6 124,8 151,2 612

x f f
i i

1350 = 6,75 200

D2 = D= CV =

612 = 3,06 200


D 2 = 3,06 = 1,75

D 1,75 100 = 100 = 0,875% 200 X

STATISTIC CURS 4
INDICATORII ASIMETRIEI I INDICATORII CONCENTRRII a) INDICATORII ASIMETRIEI: - asimetria unei serii este o abatere de la forma simetric apreciat n funcie de relaia dintre indicatorii tendinei centrale; - n cazul unei distribuii absolut simetrice media, mediana, modul sunt egale; - dac o asimetrie moderat nu afecteaz serios msurile statistice n schimb o deviere pronunat de la distribuia normal mpiedic utilizarea metodelor parametrice (care se bazeaz pe medie i dispersie); - dac distribuia este bimodal serios asimetric, sau are alte mari neregulariti atunci nu se pot utiliza numeroase instrumente statistice; - dintre coeficineii de asimetrie vom folosi 2 dintre ei, bazai pe relaia dintre indicatorii tendinei centrale.
x Mod D

C as =

D = abaterea medie patratic x = media - aceti indicatori de asimetrie iau valori ntre [-1; +1] i cu ct este mai apropiat de 0 cu att asimetria este mai redus; - o valaore a coeficientului ntre [0; 0,3] implic o asimetrie moderat. C as =
3( x Mdn) D

- aceti indicatori iau valori ntre [-3;+3] i cu ct este mai apropiat de 0, asimetria e mai redus. PROBLEM: Calculai omogenitatea, asimetria i structura distribuiei. PUNCTAJE Frecvene fi fi * 06 10 (10:200) 100 = 5 6 12 30 (30:200) 100 = 15 12 18 90 (90:200) 100 = 45 18 24 50 (50:200) 100 = 25 24 30 20 (20:200) 100 = xi
0+6 =3 2

xi fi 3 10 = 30 9 30 270 15 90 1350 21 50 1050 27 20 =

xi 2 fi 3 30 = 90

fc 10

9 15 21 27

9 270 2430 = 15 1350 20.250 = 21 1050 22.050 = 27 540

= 30+10=40 = 90+40=130 = 50+130=180 = 20+180=200

10 TOTAL

200
i

100
i

540 3240
*

14.480
x

------

59.300
2 i

560

fi

fi

1. Pentru stabilirea structurii distribuiei frecvenelor dup punctajele obinute se calculeaz mrimile relative de structur (f * i ). fi
*

fi

100
i

f i - frecvena de apariie

Proprietate a mrimilor relative de structur este obligatoriu ca

* i

s fie 100 (%).

2. Stabilirea omogenitii distribuiei presupune calcularea coeficientului de variaie (coeficient de omogenitate). Acelai coeficient ne indic i dac media este sau nu reprezentativ. Coeficientul de variaie (C v sau v): v=
D 100 x

x=

x f f
i i

x = nota medie D = abatere medie patratic


D=
D
2

x f = f
2 i i

x2

D 2 = dispersie Pentru a calcula media se determin x i ca centru al fiecrui interval fiind considerat o medie aritmetic determinat cu ajutorul limitelor respectivelor intervale. v=
D 100 x

v =

5,84 100 = 36,05 % 16,2

[0;100%) 36,05% > 35% distribuia nu

este omogen (media nu este reprezentativ).

x f = 3240 = 16,2 200 f x f x = 59.300 (16,2) D2 = 200 f


x=
i i i
2 i i 2 i

= 296,5 262,44 = 34,06

D=

D 2 = 34,06

=5,84

v < 35% distribuia este omogen (media este reprezentativ) v > 35% distribuia nu este omogent (media nu este reprezentativ) 3. Msurarea asimetriei presupune interpretarea i determinarea coeficientului de asimetrie (Pearson: C as ; C as ).

C as =

x Mod D

Modulul se determin astfel: - se stabilete intervalul nemodal ca fiind acel interval cruia i corespunde frecvena maxim. Mod [12;18] deoarece frecvenei maxime 90 i corespunde intervalul [12;18]. - determinm modulul cu formula: Mod = lim inf + k
1 1 + 2

lim inf = limita inferioar a intervalului modal k = mrimea intervalului (18 12 = 6) 1 = diferena dintre frecvena maxim i frecvena anterioar (90 30 = 60) 2 = diferena dintre frecvena maxim i frecvena urmtoare (90 50 = 40) Mod = 12 + 6 C as =

(90 30) + (90 50) = 18 60 + 40 = 18 100 = 10,8

90 30

60

60

16,2 10,8 5,4 = = 0,925 5,84 5,84

C as =

3( x Mdn) D

Mediana se determin astfel: - se cumuleaz cresctor frecvenele (se ataeaz o coloan f c ) - se stabilete cota (locul) astfel: C=

+1

200 + 1 = 100,5 2

- se stabilete intervalul median ca fiind acel interval care satisface relaia: f c C; f c este prima valoare cumulat care este cu cota. mediana [12;18] f c C 130 > 100,5 - se calculeaz mediana: Mdn = lim inf + k

C fc fi

Mdn = 12 + 6

100,5 (30 + 10) 60,5 =12,09 = 18 90 90

f c = suma frecvenelor pn la intervalul median (30 +10 = 40) f i = frecvena care corespunde intervalului median (90)

C as =

3( x Mdn) 3(16,2 12,09) 12,33 = = = 2,11 D 5,84 5,84

C as [-1;1] C as = 0,925 (asimetrie pronunat de stnga) C as [-3;3] C as = 2,11 (asimetrie pronunat de stnga) b) INDICATORII CONCENTRRII: - redau gradul de cumulare a frecvenelor n cadrul unei sau unor grupe din distribuie; - vor fi prezentai 4 indicatori utilizai n cadrul seriilor atributive A) Energia informaional: E=

2 r

=1

f2 r = suma ptratelor frecvenelor relative - acest indicator ia valori ntre [ g ;1] unde g = nr. grupelor PROBLEM: 1. Calculai energia informaional. TIPUL LICEULUI 1 2 3 4 5 6 TOTAL fr = FRECVENE f i 240 30 90 20 30 10 420 fr 0,57 0,07 0,21 0,04 0,07 0,02 0.98 f2 r 0,3249 0,0049 0,0441 0.0016 0,0049 0,0004 0,3808
1

fi

=
i

240 = 0,57 420

E = 0,3808
1 1 0,3808 g 6 = 0,3808 0,1666 = 0,2142 = 0,257 = E = 1 1 1 0,1666 0,8334 1 1 g 6 E

B) COEFICIENTUL GINI: G=
E

C) COEFICIENTUL GINI AJUSTAT: G =


E'

D) INDICELE DE DIVERSIFICARE:

- este o valoare complementar la unitate a energiei informaionale ajustate. ID = 1 E - este folosit ca msur a dispersiei unei serii calitative, concentrarea fiind complementar dispersiei - ia valori ntre 0 (diversificare mic, adic omogenitate maxim) i 1 (diversificare mare, adic omogenitate mic). E) INDICELE VARIATIEI CALITATIVE: - are aceeai valoare cu indicele de diversificare.

STATISTIC CURS 5
ANALIZA DATELOR PROVENITE DIN SANDAJ SAU TESTAREA IPOTEZELOR STATISTICE Inferena statistica este extinderea datelor obinute din eantion asupra ntregii populaii investigate. Toate valorile obinute din eantion sunt de fapt estimatori ai parametrilor populaiei. Atunci cnd ne ntrebam ct de semnificativ este ceea ce am obinut n eantion, vrem de fapt s tim cat de aproape este msura obinuta de msura adevrata. SEMNIFICATIA UNEI MEDII SAU A UNUI PROCENT: EROARE STANDARD: ES = mari D = abatarea medie patratica n = volumul esantionului N = volumul populatiei EROARE LIMITA (MAXIMA): EL = Z
D n
D n 1 1 n N

ES =

D n

pentru esantioane

PROBLEME: 1. Stiind ca media unui esantion de 220 de studenti a fost de 8,25, iar dispersia de 0,64, sa se estimeze media reala. Rezolvare n = 220

x = 8,25 D 2 = 0,64 D = D2 D =
ES =

0,64

D = 0,8

D 0,8 0,8 = = 0,05 ES = 0,05 = n 220 14,832 D 0,8 =1,96 0,05 = 0,098 = 1,96 EL = Z 14 ,832 n

Media reala: 8,25 0,098 < x < 8,25 + 0,098 8,152 < x < 8,348 2. Stiind ca dintr-un esantion de 600 vizitatori s-au inregistrat 540. Sa se stabileasca intervalul n care se va cuprinde proportia reala a cumparatorilor (sa se extinda rezultatul). Rezolvare n = 600 p = 540 P=
p 540 100 = 100 = 0,9 100 = 90% n 600

p + q =100% q = 100% p q = 100% 90% q = 10% EL = Z


D =Z n

D2 =p q D 2 = 90% 10% D 2 = 900%


30 30 =Z = Z 1,225 = 1,96 1,225 = 2,401 24,49 600

D = D2 D = 900 D = 30

8,25 2,401 < x < 8,25 + 2,401 5,85 < x < 10,65 COMPARAREA MEDIILOR SAU PROPORTIILOR A 2 ESANTIOANE: Cnd se compara 2 sau mai multe msurtori provenite din eantioane se rspunde de fapt la ntrebarea dac diferena constatata se deosebete semnificativ de zero (0). Ipoteza nul afirm c nu exist o diferen semnificativ ntre valorile comparate (h 0 ). Ipoteza alternativa afirma ca exista o diferena semnificativa. Rezultatul obtinut din comparare numit valoarea calculata se compara cu valoarea tabelara (teoretica) a testului respectiv. Aceasta valoare tabelara este un barem de semnificatii: - dac valoarea calculata valoarea tabelara diferena este intamplatoare; - dac valoarea calculata > valoarea tabelara diferena este semnificativa i nu se accepta ipoteza nula. Pentru a compara mediile i proportiile a 2 esantioane mari se utilizeaz testul Z. COMPARAREA MEDIILOR A 2 ESANTIOANE MARI:

x1 x 2

Z=

2 D12 D2 + n1 n2

Z > 1,96 pentru ca diferena sa aiba semnificatie

PROBLEME: 1. Un esantion de 200 fete a obtinut media 8,3, iar unul de 180 baieti a obtinut 8,1; dispersiile fiind 1,8 i 1,6. Sunt egale rezultatele? Rezolvare n 1 = 200 n 2 = 180 x1 = 8,3 x 2 = 8,1 2 D1 =1,8 2 D 2 =1,6
8,3 8,1 = 0,2 0,018 = 0,2 = 1,49 < 1,96 0,134 ipoteza nula nu se respinge, deci mediile

Z= pot fie gale.

1,8 1,6 + 200 180

2. Aceleasi medii i aceleasi dispersii au fost obtinute din esantioane de cate 500 fete i 500 baieti. Sunt egale rezultatele? Rezolvare n 1 = 500 n 2 = 500
x1 = 8,3 x 2 = 8,1
2 D1 =1,8 2 D 2 = 1,6

8,3 8,1

Z = gale.

1,8 1,6 + 500 500

0,2 = 2,38 > 1,96 0,084 ipoteza nula se respinge, deci mediile nu pot fie

COMPARAREA A 2 PROPORTII A 2 ESANTIOANE MARI:


p1 p 2

Z=

p1 q1 p 2 q 2 + n1 n2

PROBLEM: 1. Dintr-o serie au promovat 160 din 200 de studenti, iar din alta 135 din 150. Sunt asemanatoare rezultatele?

Rezolvare n 1 = 200 n 2 =150 pv 1 =160 pv 2 =135


pv1 100 = 80% n1 pv 2 100 = 90% p2 = n2

p1 =

80 90

Z=

80 20 90 10 + 200 150

10 8+6

10 = 2,67 > 2,58 3,742 ipoteza nula se respinge, deci mediile

nu pot fi egale. p + q = 100 p 1 + q 1 = 100 q 1 = 100 p 1 q 1 = 100 80 q 1 = 20 p + q = 100 p 2 + q 2 = 100 q 2 = 100 p 2 q 2 = 100 - 90 q 2 = 10
x X D2 n

COMPARAREA MEDIEI ESANTIONULUI CU MEDIA POPULATIEI: Z =


p P

COMPARAREA A 2 PROPORTII: Z =

P Q n

STATISTIC CURS 6
COMPARAREA DISTRIBUIEI EANTIONULUI CU DISTRIBUIA POPULAIEI : 2 Compararea se realizeaz cu testul hip ptrat ( ) i are ca scop confirmarea reprezentativitii eantionului. Astfel ipoteza nul cost n similitudinea celor 2 distribuii 2 Testul se bazeaz pe diferenele dintre frecvenele absolute ale eantionului i cele ale populaiei sau cele teoretice.
2 =

( fe f p )2 fp

f e = frecvena eantionului f p =frecvena populaiei

Valoarea calculat se compar cu valoarea tabelar pentru (r-1) rnduri; (c-1) coloane; c grade de libertate. Aici nr. gradelor de libertate este nr. grupelor -1. 2 Valoarea testului hip ptrat ( ) se calculeaz numai din valori absolute. Exist 3 situaii n care poate fi utilizat acest test: 1. Cnd datele sunt prezentate n valori absolute: - n acest caz pentru ca datele s fie comparate, volumul populaiei se reduce la cel al eantionului pstrndu-i structura; PROBLEM: Eantionul este reprezentativ? GV A B C D TOTAL E 220 260 300 220 1000 P 45.000 43.000 74.000 38.000 200.000 P 225 215 370 190 1000 E P -5 45 -70 30 (E P) 2 25 2025 4900 900 (E P) 2 /P 0,11 9,418 3,24 4,74

GV = grupe de vrst E = eantion P = populaie


PA 45.000 = = 225 200 200 P 43.000 = 215 P B = B = 200 200 P 74.000 = 370 P C = C = 200 200 P 38.000 = 190 P D = D = 200 200

P=

P 200.000 = = 1000 200 200

nr. grad de libertate = 4 1 = 3

P A =

=
2

( fe f p )2 fp

( 220 225) 2 (260 215) 2 (300 370) 2 (220 190) 2 + + + 225 215 370 190

2 =

25 2025 4900 900 + + + = 0,11 + 9,42 + 13,24 + 4,74 225 215 370 190

2 = 27,51 > t2 = 7,82 eantionul nu este reprezentativ

2. Cnd datele sunt prezentate sub form de procente: - n acest caz valorile procentuale se transform n valori absolute, volumul populaiei fiind redus la cel al eantionului; PROBLEM:

ZG A B C D E TOTAL

E 15 24 18 16 27 100

P 14 27 17 18 24 100

E 150 240 180 160 270

P 140 270 170 180 240

E P 10 -30 10 -20 30

(E P)
2

(E P) 2 /P 0,71 3,33 0,58 2,22 3,75 10,6

100 900 100 400 900

Volumul eantionului = 1000 Volumul populaiei = 400.000 E = E% P= P%

nr. grad de libertate = 5 1 = 4

1000 = 15% 1000 = 14%

15 1000 = 150 100 14 1000 = 140 1000 = 100

1000 =

10,6 > 9,49 eantionul nu e reprezentativ

3. Cnd distribuia eantionului se compar cu o distribuie teoretic: PROBLEM: tiindu-se distribuia pe vrste a cumprtorilor s se verifice egalitatea segmentelor.

GR 1 2 3 4 5 6 TOTAL

C 240 270 280 250 220 240 1500

P 250 250 250 250 250 250 1500

PC 10 -20 -30 0 30 10

(C P) 2 100 400 900 0 900 100 2300

(C P) 2 /P 0,4 1,6 3,6 0 3,6 0,4 9,6

P=

C = 1500 = 250
6 5
( fe f p )2 fp =

nr. grad de libertate = 6 1 = 5

2 =

(240 250) 2 (270 250) 2 (280 250) 2 (250 250) 2 (220 250) 2 (240 250) 2 + + + + + 250 250 250 250 250 250

2 =

100 400 900 0 900 100 + + + + + = 9,6 < 11,07 250 250 250 250 250 250

STATISTIC CURS 7
ASOCIEREA VARIABILELOR SAU ANALIZA SERIILOR BIVARIATE Legtura dintre 2 sau mai multe variabile se poate studia folosind 2 tehnici: a) Corelaia: arat ct de puternic este aceast legatur; b) Regresia: explic un factor pe baza evoluiei unui alt factor considerat a fi cauza. Corelaia poate fi: PARAMETRIC: utilizat n cazul variabilelor cantitative; se bazeaz pe parametrii distribuiilor (medie i dispersie) NEPARAMETRIC: numit asociere utilizat atunci cnd cel puin una din variabile nu este numeric sau atunci cnd distribuiile nu sunt aproximativ normale. Coeficienii de corelaie iau valori ntre [-1;1]: Cu ct un coeficient de corelaie este mai apropiat de 0, cu att legtura (asociere, corelaie) este mai slab. Cu ct un coeficient de corelaie este mai apropiat de 1, cu att legtura este mai intens i direct. Cu ct un coeficient de corelaie este mai apropiat de -1, cu att legtura este mai intens, dar invers. CORELAIA PARAMETRIC PENTRU SERIILE SIMPLE: CP =

( x

x )( y i y ) nD x D y

EXEMPLU: x 9 8 7 6 10 8 48 y 10 8 7 5 8 4 42 (x i - x ) 1 -1 -2 2 0 (y i - y ) 3 1 -2 1 -3 0 (x i - x ) 2 1 1 4 4 10 (y i - y )
2

9 1 4 1 9 24

(x i - x ) (y i y) 3 4 2 9

x=

48 =8 n 6 yi = 42 = 7 y= n 6
i

2 x

( x =

x)2

10 = 1,67 6

Dx=

1,67

= 1,29
=
24 =4 6

2 DY =
Dy=

( yi y ) 2 n

4=2

CP =

( x

x )( y i y ) nD x D y

= 6 1,29 2 = 0,58 corelaie direct cu intensitate medie.

Exist i o formul de simplificat: CP =

[n x

n xy x y
2 2

( x ) n y 2 ( y )

][

EXEMPLU: x 9 8 7 6 10 8 48 y 10 8 7 5 8 4 42 xy 90 64 49 30 80 32 345 x2 81 64 49 36 100 64 394 y2 100 64 49 25 64 16 318

CP =

[n x

n xy x y
2 2

( x ) n y 2 ( y )
=

][

]
= 54 8640 = 0,58

CP =

[ 6 394 2304][ 6 318 1764]

6 345 48 42

2070 2016 60 144

STATISTIC CURS 8

1. SERII CRONOLOGICE: - seria cronoligica (seria dinamica): sir de valori care reflecta evolutia unei variabile statistice la anumite momente sau perioade succesive de timp; - indicatorii unei serii cronologice se pot obine folosind: O baza fixa: nivel de referinta neschimbat pentru intreaga perioada analizata (y t se compara cu y 1 ) O baza mobile (lant): baza de comparare este nivelul din perioada imediat anterioara (y t se compara cu y t 1 ) 2. SPORUL: - arata cu cat s-a modificat fenomenul fata de perioada de referinta; este o diferena ntre 2 nivele; S bf
bl

y t - y1 y t - y t 1

- suma sporurilor cu baza n lan este egala cu sporul n baza fixa a perioadei analizate; - indicele (I t ) arata de cate ori s-a modificat nivelul n comparative cu baza de raportare; - indicele (I t ) se exprima fie n coeficieni fie n procente. I t / 1 = y t / y1 I t / t 1 = y t / y t 1 - produsul indicelor cu baza n lant este egal cu indicele cu baza fixa al perioadei analizate.

It

3. RITMUL (R): - arata cu cat s-a modificat procentual nivelul fenomenului. R I t / 1 1 (100) I t / t 1 1 (100) INDICATORII MEDIEI: redau fie nivelul mediu, fie creterea sau descreterea mediei, adic modificarea mediei n timp a fenomenului. A. NIVELUL MEDIU ( y ): se calculeaz ca media aritmetic a nivelurilor anuale.

y=

y 1500 = = 300 n 5

B. SPORUL MEDIU ( S ): este media aritmetic a sporurilor cu baza n lant.

S =
S =

S bl 200 = = 50 nrS 4
y n y1 400 200 200 = = = 50 n 1 5 1 4

C. INDICELE MEDIU ( I ):
1 I t / t I = n 1

I = n 1

yn 400 4 =4 = 2 = 1,189 y1 200

se rezolva prin logaritmare


lg y n lg y1 n 1

lg I =

NOTA: Cnd numarul termenilor seriei este 5,9,17 etc., deci atunci cnd radicalul este de ordinul 4,8, indicele mediu se poate calcula direct prin apasarea tastei ( ) a calculatorului de 2 ori. MODELAREA SERIILOR CRONOLOGICE: - modelarea unei serii cronologice este operatiunea de inlocuire a termenilor seriei (y t ) cu t ) eliminand astfel influenta factorilor intamplatori. termenii teoretici ( y - se vor prezenta 3 modele de ajustare: a) Metoda sporului mediu: - se aplica atunci cnd sporurile cu baza n lant sunt relativ constante. - astfel primul termen rmane constant, apoi acestuia i se adauga un spor mediu de la un an la an. - pentru verificare ultimul termen ajustat este egal cu cel empiric.
t = y1 + (t 1) S y

b) Metoda indicelui mediu: - este preferata atunci cnd indicii cu baza n lant sunt aproximativ egali. - primul termen rmane constant, apoi acesta se inmulteste cu cate un indice mediu pentru fiecare an. - ultimul termen ajustat este egal cu cel empiric
t = y1 I ( t 1) y

c) Metoda functiilor de regresie (regresia liniara din carte): - calculul este similar celui utilizat n regresie, valorile lui x fiind inlocuite cu t. na + b x = y a x + b x 2 = xy na + b t = y a t + b t 2 = yt
y = a + bx

y = a + bt
y = 144 + 52t t = 1

y ec = 196

yt = 5020
n( n + 1) 5 6 = = 15 2 2 n( n + 1)(2n + 1) n2 = = 55 6 n =

5a +15b = 1500 15a + 55b = 5020 15(300-3b) +55b = 5020 4500 45b + 55b = 5020 10b = 520 b=
520 = 52 a = 144 10

a + 3b = 300 a = 300 3b

Suma valorilor ajustate este egala cu suma valorilor initiale

VERIFICAREA FIDELITATII AJUSTARII: - pentru ca un model sa fie bun (fidel) trebuie ca valorile ajustate sa fie cat mai apropiate de cele initiale. ) 2 tinde ctre 0 (zero) cu att metoda de ajustare este mai fidela. (y y - cu cat - exista un coeficient de fidelitate care masoara aceasta apropiere:
) ( y y n y
2

CF =

100

!!!!!! Se recomanda o valoare de 5%!!!!!!

(200 200) 2 + (240 250) 2 + (300 300) 2 + (360 350) 2 + (400 400) 2 C F1 = 5 100 300
200 C F1 = 40 6,325 5 100 = 100 = = 2,11 300 300 300 100

C F2

( 200 200) 2 + (240 238) 2 + (300 283) 2 + (360 336) 2 + ( 400 400) 2 = 5 100 300

869 C F2 = 173,8 13,183 5 100 = 100 = 100 = 4,39 300 300 300

(200 196) 2 + (240 268) 2 + (300 300) 2 + (360 352) 2 + (400 404) 2 C F3 = 5 100 300 880 C F3 = 176 13,266 5 100 = 100 = 100 = 4,42 300 300 300

t 1 2 3 4 5 15

S y 200 240 300 360 400 1500

Sporul bf -------40 40 100 60 160 60 200 40 500 200 bl

Indicele bf bl 1 1 1,2 1,2 1,5 1,25 1,8 1,2 2 1,11

S y

I y

ec y

200 250 300 350 400

200 238 283 336 400

196 268 300 352 404

bf 200 200 = 0 240 200 = 40 300 200 = 100 360 200 = 160 400 200 = 200 bf
240 = 1,2 200 300 = 1,5 200 360 = 1,8 200 400 =2 200

bl 200 200 = 0 240 200 = 40 300 240 = 60 360 300 = 60 400 360 = 40 bl
240 = 1,2 200 300 = 1,25 240 360 = 1,2 300 400 =1,11 360

S-ar putea să vă placă și