Documente Academic
Documente Profesional
Documente Cultură
CULEGEREA ŞI PRELUCRAREA
DATELOR DE SONDAJ
Conţinut:
Cuvinte cheie: populaţie statistică, sondaj simplu repetat şi nerepetat, sondaj stratificat tipic,
proporţional şi optim, indicatori de sondaj de repartiţie/evoluţie, indici statistici individuali şi
sintetici, estimaţie corectă şi absolut corectă, ipoteză simplă/compusă unilaterală şi bilaterală,
funcţia de putere a testului, interval de încredere, diferenţă limită.
Populaţia statistică este o mulţime de exemplare care aparţin aceleiaşi familii şi care fac
obiectul cercetării statistice.
Cercetarea statistică poate fi completă sau exhaustivă (pentru toate exemplarele populaţiei)
de tip referendum sau recensământ sau poate fi parţială sau selectivă de tip sondaj (eşantion,
probă, sondaj de opinie) (pentru o parte reprezentativă din exemplarele populaţiei).
54
Exemple de populaţii statistice în agricultură: plantele unei culturi într-o parcelă, animalele
unei ferme zootehnice, maşinile agricole care deservesc o suprafaţă arabilă, fermele vegetale sau
zootehnice dintr-un judeţ, unităţile de prelucrare a produselor agricole (mori, fabrici de ulei, zahăr,
produse lactate, mezeluri, abatoare etc.), magazinele care comercializează produse alimentare,
reţeaua de case de agroturism, reţeaua de unităţi de alimentaţie publică etc.
Fiecare exemplar al populaţiei statistice are o serie de însuşiri cantitative (măsurabile) sau
calitative (atributive) notate X, Y , Z, ... sau X 1, X 2, ..., X n pe care le vom numi în continuare şi
caractere.
Pentru populaţiile statistice din agricultură, însuşirile admit şi alte clasificări:
- după natură : însuşiri biologice, tehnologice, economice, ecologice;
- după modul de exprimare numerică : însuşiri bivalente (0 sau 1), întregi şi reale
(fracţionare);
- după modul de apreciere: însuşiri prim are (numai măsurabile) şi însuşiri derivate
(măsurabile sau calculabile);
- după gradul de generalitate: însuşiri individuale (proprii fiecărui element al populaţiei)
şi colective (proprii unor grupe de elemente ale populaţiei).
55
- Preţurile de vânzare ale producţiilor fizice principale şi secundare pe unitate, pentru o
societate agricolă într-un ciclu de producţie;
- Veniturile (producţii fizice înmulţite cu preţurile de vânzare) însumate pentru o
societate agricolă într-un ciclu de producţie;
- Profitul (venitul din care se scad cheltuielile totale cu resursele cât şi cele neproductive)
realizat de societatea agricolă într-un ciclu de producţie;
- R ata profitului (profitul împărţit la cheltuielile totale) realizată de societatea agricolă
într-un ciclu de producţie.
Pentru comparaţia între ele, însuşirile colective se raportează la un exemplar (lungime,
suprafaţă, volum, greutate, timp, unitate bănească etc.), obţinând însuşiri medii.
Exem ple: consumul mediu de motorină pe ha, consumul mediu de furaje pe cap de vacă,
profitul mediu pe lună al unei unităţi de agroturism etc.
În agricultură, omul nu poate controla în totalitate factorii de producţie sau de vânzare a
produselor agricole, de aceea însuşirile precedente sunt parţial sau total sub influenţa întâmplării
(hazardului) fiind de fapt în fiecare moment, variabile aleatoare iar în timp, procese aleatoare
(vezi cap. 1).
Acţiunea întâmplării asupra însuşirilor (caracterelor) în agricultură se concretizează în
variabilitatea valorilor acestora în spaţiu, timp, structură etc., variabilitatea poate fi accidentală
(involuntară) sau sistematică (cu o cauză precisă).
Variabilitatea accidentală este presupusă a fi o variab ilă norm ală cu media 0 şi abaterea
- standard O (vezi cap.1)
Exem plu:
Pe un ha cu porumb există N = 75.000 plante recoltabile din care extragem un sondaj de n =
75 plante reprezentative.
n 75
Cota de reprezentare este — = --------- 1 : 1 0 0 0 plante.
N 75000
Un sondaj se poate efectua în două feluri:
I. Static: se fac măsurători simultane la un moment dat pe n exemplare extrase din
populaţie obţinându-se astfel repartiţia în spaţiu a însuşirii X analizată prin datele de sondaj.
II. D inam ic: se fac măsurători consecutive în n momente de timp succesive pe acelaşi
exemplar al populaţiei statistice, obţinându-se astfel evoluţia în timp a însuşirii X analizată prin
datele de sondaj.
Tehnica de efectuare a unui sondaj, depinde de compoziţia populaţiei în raport cu însuşirea X.
Avem situaţiile:
56
a) Populaţia este omogenă în raport cu însuşirea X adică orice valoare a lui X este în mod
egal probabil proprie fiecărui exemplar al populaţiei.
În acest caz se efectuează un sondaj simplu repetat sau nerepetat.
Sondajul simplu repetat se efectuează prin extragerea succesivă a exemplarelor din
populaţie şi revenirea în populaţie a fiecărui exemplar după măsurarea însuşirii X (schema bilei
revenite). Avantajul acestui tip de sondaj este că extragerile din populaţie sunt independente iar
dezavantajul este că la controlul calităţii produselor, orice exemplar chiar dacă este rebut, trebuie
întors în populaţie.
Sondajul simplu nerepetat se efectuează prin extragerea simultană a exemplarelor din
populaţie şi revenirea acestora în populaţie (dacă nu sunt rebuturi) după efectuarea tuturor
măsurătorilor pe ele relativ la însuşirea X (schema bilei nerevenită).
Dezavantajul acestui tip de sondaj este că extragerile din populaţie sunt dependente. Dacă
volumul de sondaj n este relativ mare rezultatele obţinute prin sondajul simplu repetat sau nerepetat
sunt aproximativ aceleaşi.
b) Populaţia este neomogenă în raport cu însuşirea X dar se poate împărţi în k straturi
omogene în raport cu X, volumul straturilor fiind Ni, Nk. Evident avem Ni + ...+ Nk = N. În
acest caz se efectuează un sondaj stratificat care constă în k sondaje simple, repetate sau
nerepetate, din straturi cu volumele de sondaj din straturi n1, . , nk. Evident avem n1 + . + nk = n.
Prezentăm câteva tipuri de sondaj stratificat:
n
a. Sondaj tipic: n = ... = n k = —;
k
ni n N 1 Nk
b. Sondaj proporţional: ---- = — deci n = n — L , . . . , n k = n
Ni Nk N 1 N k N
n n
c. Sondaj optim. deci
Ni°i Nk°k
'k ^ k Z Nia t
n N iOi N kOk
,...,nk = n
Z N i Oi Z N i Oi
Aici O 1, ..., O k sunt abaterile standard ale exemplarelor din straturi în raport cu caracterul
X ca variabilă aleatoare (vezi cap. 2).
N
Observăm că pentru N 1 = ...= Nk = — sondajul tipic şi cel proporţional coincid iar pentru
k
O1 = .= O k = O sondajul proporţional şi cel optim coincid.
Ni N k
În cazul unei populaţii in fin ite --------> P i , . . . , ------ ^ Pk deci pentru tipurile de sondaj
N 1 N
stratificat precedent, avem:
n
a. Sondaj tipic: ni = ... = nk =
k
b. Sondaj proporţional. n1 = np1, . , nk = npk
p 1o 1 P k Ok
c. Sondaj optim . n i = n . . ,nk = n
Z Pi o i Z Pi o i
Exem plu:
O turmă de ovine de volum N = 1000 capete are structura N 1 = 700 mioare, N 2 = 250 miei,
N 3 = 50 berbeci.
57
Pentru analiza însuşirii X = lungimea firului de lână efectiv din sondaj de n = 60 ovine.
Ştiind că abaterile - standard în straturi sunt O 1 =1 cm; O 2 = 0.8 cm şi O 3 = 2 cm, se cer
volumele de sondaj din straturi pentru diferite tipuri de sondaj stratificat.
Soluţie:
a) Pentru sondajul tipic n1 = n/3 = 20 mioare; n2 n/3 = 20 miei; n3 = n/3 = 20 berbeci;
„„ . ^ 250 _ . . .
b) Pentru sondajul proporţional n 1 = 60 • 700 42 mioare, n2 = 6 0 ------- = 15 miei şi
1000 2 1000
n3 = n - n1 - n2 = 3 berbeci;
c) Pentru sondajul optim ENi O i 700x1 + 250 x 0.8 + 50x2 =1000 aşa că: n1 =
700 x1 _ 250 x 0.8
42 mioare; n2 6 0 ------------- 12 miei şi n3 = n - n1 - n2 = 6 berbeci.
1000 1000
X =M X = ^ A
n
Media de sondaj este centrul de greutate al datelor de sondaj x 1, ..., xn fiind cea mai
apropiată de ansamblul valorilor: SPA(x) = (x1 - x)2 + . + (xn - x)2 este minimă pentru x = x .
Aici SPA este prescurtarea pentru suma pătratelor abaterilor.
1
' x 2 + . . . + X 2n ^ 2
- media pătratică: X 2 =
n
J
II. M ediana Me este acea valoare faţă de care jumătate din numărul valorilor de sondaj sunt
mai mici ca ea şi cealaltă jumătate din numărul valorilor de sondaj sunt mai mari ca ea.
Aranjăm datele de sondaj în ordine crescătoare: x 1 < x2 < ... < xn.
f A
Dacă n număr par avem M e x k + x k-1 iar dacă n număr impar avem
V 2 ~T~ J
M e = X k +1 .
2
Mediana Me este mai stabilă faţă de media X la valori de sondaj foarte mici faţă de restul
valorilor de sondaj, deoarece ia în calcul numărul de valori de sondaj nu şi mărimea valorilor de
sondaj.
În plus, SMA(X) = |X i —X + . . . + |X n —X este minimă pentru X = Me.
Aici SMA este prescurtarea pentru suma modulelor abaterilor. Mediana primei jumătăţi a
datelor de sondaj crescătoare, se numeşte cuartila întâia Qi ' Me = Q2. Analog Q3 pentru a doua
jumătate a datelor.
Z (x i - x )2
S= este principalul indicator valoric al variabilităţii fiind o abatere
i n -1
mijlocie a datelor de sondaj faţă de media lor X .
Calităţi ale abaterii-standard
1) Abaterea standard este mărginită (cuprinsă între abaterea minimă amin şi cea maximă amax
a datelor de sondaj faţă de media lor X .
Defecte ale abaterii-standard
1) Abaterea standard S este legată de o unitate de măsură (aceeaşi ca şi pentru media X )
deci nu permite comparaţii între caractere.
Pentru comparaţii se poate folosi abaterea standard procentuală
Sp = amax ~ S e [0 ;l] .
a max _ a min
2) Abaterea standard este sensibilă la înmulţirea sau împărţirea datelor de sondaj conform
teoremei 1.2.
3) Abaterea standard singură nu poate aprecia intensitatea variabilităţii datelor de sondaj.
Dacă X 1, . , X n sunt depuse în celulele A 1:An din coloana A în E X C E L , variaţia pătratică
totală SPA este dată de funcţia E X C E L scrisă în celula B 7: = D EVSQ (A 1:An), varianţa V este dată
de funcţia E X C E L scrisă în celula B 8: = V A R (A 1:An) iar abaterea-standard S este dată de funcţia
E X C E L scrisă în celula B 9: = ST D EV (A 1 :An).
Valorile U; = (X ; - X )/S se numesc reduse sau normate. Avem: M (U;) = 0 şi V(U ;) = 1.
Funcţia E X C E L pentru calculul valorilor reduse are forma = ST A N D A R D ISE(X i, X , S).
V. Coeficientul de variabilitate
S
c = ■=■ • 100 este principalul indicator procentual al variabilităţii datelor de sondaj în jurul
X
mediei la X . El măsoară variabilitatea datelor luând ca unitate de măsură nu unitatea de măsură a
caracterului X ci media de sondaj X .
Calităţi ale coeficientului de variabilitate
60
a) Coeficientul de variabilitate c are o valoare mică. În acest caz variabilitatea datelor de
sondaj este mică, omogenitatea este mare şi media X este foarte bună;
b) Coeficientul de variabilitate c are o valoare mijlocie. În acest caz variabilitatea datelor de
sondaj este mijlocie, omogenitatea lor este mijlocie şi media X este bună;
c) Coeficientul de variabilitate c are o valoare mare. În acest caz variabilitatea datelor este
mare, omogenitatea este mică şi media X este satisfăcătoare.
De exemplu pentru agricultură cazurile precedente au forma:
a) c < 10% ; b) c e (10% ; 20]; c) c > 20%.
În cazul c) se pune problema existenţei unei cauze sistematice pentru variabilitatea mare a
datelor de sondaj.
Exem plu:
Fie o populaţie statistică de plante de porumb la recoltarea pe suprafaţa de 1 ha cu volumul
populaţiei N = 75000 plante recoltabile.
Fie X = greutatea boabelor pe plantă la recoltare (g).
O sinteză elegantă a acestor calcule este dată în foaia de calcul C 1 P 1.X L S aflată în Anexă.
61
Volum sondaj (n) Nr. clase de valori (k)
30 - 40 5
4 1 - 60 6
61 - 80 7
81 - 100 8
10 1 - 125 9
126 - 150 10
1 5 1 - 175 11
176 - 200 12
201 - 400 13
401 - 600 14
601 - 800 15
801 - 1000 16
10 0 1 - 2000 17
2001 - 3000 18
3001 - 4000 19
4001 - 5000 20
Xv max — X min
Lungim ea unei clase de valori este t =
nr. clase de valori k
Centrul clasei de valori Ci, notat cu x ;, este mijlocul clasei adică media aritmetică a
valorilor extremităţilor clasei Ci.
Centrul clasei x ; aproximează toate valorile de sondaj în clasa C ;, fiind reprezentantul
acestor valori.
Frecvenţa absolută ni a valorilor de sondaj într-o clasă de valori Q este numărul datelor de
sondaj care cad în clasa respectivă, valori aproximate prin centrul clasei x ;.
Frecvenţa relativă (procentuală) fi a valorilor de sondaj într-o clasă de valori Q este
ni
f = — . Alături de frecvenţele precedente se pot folosi frecvenţele cumulate calculate astfel:
n
Frecvenţele absolute cumulate: N * i = ni + n2 + ... + ni, (1 < i < n)
Frecvenţele relative cumulate: f * i = f 1 + f2 + ... + fi, (1 < i < n)
Datele grupate se pot prezenta grafic prin histograme în raport cu sistemul de axe (Q, ni),
poligonul frecvenţelor în raport cu sistemul de axe (x ;, ni) şi respectiv cum ulata în raport cu
sistemul de axe
Toate aceste operaţii de grupare, tabelare şi reprezentare grafică se pot face cu programul
C iG RU P sau cu E X C E L.
Pentru datele de sondaj grupate, indicatorii de sondaj de la punctele 5.2 I) - V) capătă
forma:
I) Media de sondaj.
_ 1 k k
X = - n iXi = ¿ fiXi
n i=i i=i
II) Mediana de sondaj:
62
III) M odul de sondaj.
C lasa m odală Mo este acea clasă Q cu n maxim. M odul Mo se determină grafic în clasa
modală cu ajutorul histogramei:
2
S= L £ n,(X,- x )2 = ^ t f i (X, - X):
n -1 i=1 n - 1i=
63
Datorită grupării în clase de valori şi a aproximării valorilor dintr-o clasă cu centrul clasei x i,
f
S suferă o eroare care se înlătură prin corecţia S heppard S ' ----- unde 1 este lungimea
12
claselor de valori.
S
V) Coeficientul de variabilitate de sondaj: c = • 100
X
1 f
x :t - x
VI) Coeficientul de asimetrie de sondaj: A = E n. =1 E n U
n i=i S n ,■=i
V)
4
1 Xt- X 1k
B - E nt = - T n tU4
n t=1 S n i=1
Dacă datele de sondaj negrupate X b ..., X n sunt depuse în celulele A 1 :An din coloana A în
E X C E L , coeficientul de asimetrie ajustat (numit skewness):
64
n
Skew .A
(n - l)(n - 2)
este dat de funcţia E X C E L scrisă în coloana B u : = SK E W (A i:A n), iar coeficientul de boltire ajustat
(numit Kurtozis):
„ n2(n - 1) 3(n - 1)2
(n - 1)(n - 2)(n - 3) (n - 2)(n - 3)
este dat de funcţia E X C E L scrisă în coloana B 12: = K U R T (A 1:An).
Exem ple:
1) Frecvenţele relative fu ..., fk ale datelor de sondaj de volum mare, grupate în clasele de
valori C 1, . , Ck cu centrele de clase x 1, . , xk definesc structura sondajului pe clase de valori.
2) Fie k ramuri ale unei unităţi economice şi fie C 1, . , Ck cheltuielile totale (productive şi
neproductive) anuale ale ramurilor. Cheltuielile totale anuale ale întregii unităţi sunt C = C 1 + . + Ck.
Numerele f 1 = C 1/ C , . , fk = C 1/C definesc structura de cheltuieli a unităţii pe ram uri.
În mod analog, fie V 1, . , V k veniturile totale anuale ale ramurilor şi fie V = V 1 + ...+ V k
total anual al unităţii.
Numerele f 1 = V 1/ V , . , fk = V k/V definesc structura de venituri a unităţii pe ram uri.
C oncentrarea unei structuri de date este tendinţa de creştere a ponderii fi a unei
componente în detrimentul celorlalte, inclusiv micşorarea numărului k de componente.
Concentrarea structurii este m axim ă dacă fi = 1 şi fj = 0 pentru j ^ i.
D iversificarea structurii de date este tendinţa de egalizare valorică a ponderilor f 1, . , fk
ale celor k componente ale structurii, inclusiv prin mărirea numărului k de componente.
Diversificarea structurii este m axim ă dacă f 1 = . = fk = 1/k.
Media valorilor f 1, . , fk este f = 1/k iar abaterea-standard a valorilor f 1, . ,fk este:
S
V k-1
deoarece Z f 1
1/2
Pentru concentrarea maximă avem S = 1/(k) iar pentru diversificarea maximă avem S = 0.
Abaterea-standard corectată:
kZ f 2 - 1
S * = 4 k .S
V k -1
g [0;1]
H = ~ T .fr J°g2 fr
1=1
Valorile lui - f.log2f se pot lua din tabela 16 din Anexă.
Avem H = 0 pentru concentrarea maximă şi H = log2 k pentru diversificarea maximă.
Entropia ajustată:
1 k
H* = ----- — T f £og 2 f
log2k t t Jl &2Jl
Legătura între cele două structuri se măsoară prin coeficientul de corelaţie liniară dat de
teorema 1.2:
k Z fiSi —1
R =■ e [—1;1]
p Z f ! - i)(k Z g2 -1 )
Conform teoremei 1 .1 , coeficientul de regresie liniară între cele două structuri are forma:
k Z f g , —i
kZ f —1
iar termenul liber al regresiei este:
Z f 2 —Z f g
S— ^
k Z f 2 —1
Conform teoremei 2.9, dacă |R| = 1 avem legătura funcţională liniară între cele două
structuri, dată de relaţia: g = B 0 + B 1.f
Avem R = 1 dacă B 1 > 0 şi R = -1 dacă B 1 < 0.
Dacă R = 0, cele două structuri nu sunt corelate liniar.
Exem plu:
Dacă (f1, . , fk) este structura de venituri sau cheltuieli a unei unităţi economice în anul de
bază şi (g1, . , gk) este structura de venituri sau cheltuieli a aceleiaşi unităţi în anul curent, R
măsoară gradul de stabilitate a structurii în timp.
Dacă caracterul X are numai valori întregi, datele de sondaj de volum mare (n > 30) se pot
grupa pe valori distincte Xi cu frecvenţele absolute ni sau se poate alege un număr de clase k astfel
ca lungimea l a claselor să fie număr întreg deci şi limitele claselor să fie numere întregi.
Exem plu:
Fie o populaţie statistică de plante de porumb la recoltare de pe 1 ha cu volumul populaţiei
N = 75000 plante recoltabile. Pentru a studia greutatea boabelor pe plantă X în grame, efectuăm un
n 50
sondaj reprezentativ de n 50 plante deci cota de reprezentare — = 1: 1500 plante.
75000
Date de sondaj în grame:
50; 45; 40; 48; 47; 53; 49; 56; 58; 60; 42; 48; 49; 5 1; 54; 53; 46; 49; 48; 46; 55; 59; 52; 44;
48; 43; 49; 5 1; 50; 52; 44; 55; 43; 49; 47; 50; 54; 56; 59; 49; 48; 5 1; 50; 5 1; 47; 46; 42; 53; 51.
Să se grupeze datele în k = 5 clase de valori, să se reprezinte grafic histograma, poligonul
frecvenţelor, cumulata şi să se calculeze indicatorii statistici de la punctul I) - VII).
Soluţie:
Numărul de clase este k 5, lungimea unei clase de valori este:
6 0 -4 0
4g.
5
66
Clase Centre clase Frecvenţe ni Frecvenţe Frecvenţe fi Frecvenţe
Xi n*i f*i
Sub 44 g 42 g 5 plante 5 plante 0.10 0.10
[44 - 48 g) 46 9 14 0.18 0.28
[48 - 52 g) 50 21 35 0.42 0.70
[52 - 56 g) 54 9 44 0.18 0.88
peste 56 g 58 6 50 0 .12 1.00
Graficele sunt:
Histograma:
Poligonul frecvenţelor:
67
Cumulata:
S= 1 5( 42 - 50.16)2 + 9(46 - 50.16)2 + 21(50 - 50.16)2 + 9(54 - 50.16)2 + 6 (58 - 50.16)2 = 4.5 g/plantă.
4.5
V) Coeficientul de variabilitate de sondaj: C = = 9%
50.16
VI) Coeficientul de asimetrie de sondaj:
1
A=- 5(42 - 50.16) + 9 (46 - 50.16) + 21(50 - 50.16) + 9 (54 - 50.16) + 6 (58 - 50.16) = 0.008
50 x 4.5'
VII) Coeficientul de boltire de sondaj:
1
B=■ 5 (42 - 50.16) + 9 (46 - 50.16) + 21(50 - 50.16) + 9 (54 - 50.16) + 6 (58 - 50.16) = 2.41
50 x 4.54 L
VIII) Coeficientul de concentrare de sondaj:
5 (0 .10 2 + 0 .18 2 + 0.422 + 0 .18 2 + 0 .12 2) - 1
S* = . = 28.6 %
1 5-1
Desigur indicatorii X , Me, S, c puteau fi calculaţi şi din cele n = 50 valori de sondaj înainte
de gruparea datelor.
Dacă X este însuşire calitativă (atributivă), facem convenţia:
68
f 1, Exemplarul i are însuşirea X
X =i
[0, in rest
Efectuăm un sondaj de volum n deci datele de sondaj vor fi un număr de n cifre egale cu 0
k r "I
sau cu 1. Fie k numărul cifrelor X; 1 (1 < k < n). Media de sondaj devine f = —e[0;lj ,
n
numindu-se frecvenţă de sondaj.
Indiferent de volumul de sondaj n, datele de sondaj se împart în 2 clase: C = {xi/xi = 1} cu
k valori şi C = {xi/xi = 0} cu n - k valori.
Exem plu:
Într-un miniincubator avem o populaţie statistică de N = 1000 ouă. Efectuăm un sondaj
reprezentativ de n = 50 ouă şi găsim k = 6 ouă neeclozionate. Să se calculeze frecvenţa de sondaj a
ouălor neeclozionate.
Soluţie:
f = - = — = 12%
n 50
Exemple de însuşiri calitative (atributive) în agricultură:
- ecloziune ouă culoare, culoare ouă, rezistenţa la manipulare ouă;
- viabilitate purcei sugari, pui de o zi;
- stare de gestaţie la animale;
- stare de profitabilitate a unei societăţi agricole.
Fie o populaţie statistică pe care o studiem din punct de vedere al însuşirii cantitative X.
Dacă însuşirea X ia valori întregi, datele unui sondaj extras din populaţie la momentele de
timp t1, t2, ..., tn sunt valori instantanee x 1, ..., xn măsurate în acele momente de timp.
Dacă însuşirea X ia valori reale, datele unui sondaj extras din populaţie în intervalele de
timp [t1, t2), [t2, t3), ..., [tn-1, tn] sunt valori medii x 1, ..., xn măsurate în acele intervale de timp cu
lungimile t2 - t 1, t3 - t2, . , t n - t n- 1.
Exem plu:
X = efectivul anual de vaci al unei ferme zootehnice se măsoară prin valori instantanee (la
3 1 decembrie al anului calendaristic).
X = producţia anuală de lapte al vacilor dintr-o fermă zootehnică se măsoară prin valori
medii pe perioada 1 ianuarie - 3 1 decembrie a anului calendaristic sau pe perioada medie de lactaţie
normală de 308 zile.
Măsurătorile sunt echidistante dacă t2 - t1 = t3 - t2 = ... = tn - tn-1 şi neechidistante în caz
contrar.
Exem plu de m ăsurători echidistante:
Producţia de lapte a vacilor se controlează echidistant din 28 în 28 zile astfel că într-o
lactaţie normală de 308 zile se efectuează 1 1 controale ale producţiei de lapte.
Prezentarea grafică a datelor de sondaj de evoluţie instantanee se face prin poligonul
valorilor în raport cu axele (ti, xi) iar a datelor de sondaj de evoluţie se face prin cronogram a în
raport cu axele ([ti, ti+1), x i).
69
Indicatori statistici de sondaj de evoluţie
I) M edia cronologică
Dacă X se măsoară prin valori instantanee x i , ..., x n la momentele de timp t i , ..., tn avem:
Xj + X2 + ..Xn _!
(3) Xc = respectiv:
n —1
X X
1 + X2 + ••• + Xn—1+
v _ 2 2 n 1 2
(4) Xm =
n —1
II) Ritm ul mediu valoric (absolut) de evoluţie
Abaterile valorice ale datelor de sondaj consecutive sunt D 1 = X 2 _ X 1, . , ; Dn_ 1 = X n _ X n_ 1.
Ritmul mediu valoric de evoluţie al datelor de sondaj va fi:
*n — *1
^ m (m — 1 ) ^ ^
m X i +---------------- - D = Q de unde
1 2
70
D - 2 X 1 + ^ ( D - 2 X 1 ) + 8D Q
m =
2D
adică numărul de perioade de timp în care se acumulează cantitatea finală Q a caracterului X
respectiv în care se consumă cantitatea iniţială Q a caracterului X.
f X V2 ^ ^ X- \h t2 f x Y" tn-1
(7) I =
vX y vX 2 y v X n-1 y
Dacă logaritmăm relaţia precedentă, obţinem:
(8) J J = (logX 2 - log X 1 ) ( t 2 - t 1 ) + ••• + (logX n - log X n -1 )( tn - t n -1 )
tn - t 1
deci logaritmul lui I este ritmul mediu valoric de evoluţie al valorilor de sondaj logaritmate.
Dacă măsurătorile sunt echidistante avem:
log X „ - log X !
t2 - ti = t3 - t2 = ... = tn - tn_ i = d iar tn - ti = (n - 1).d, deci avem: log I = adică:
n-1
f x„ x
(9) I =
vX y
Valorile aşteptate ale datelor de sondaj de evoluţie formează o progresie geometrică cu
raţia I: X i, X fI, ..., X i'In- 1.
Aceste valori aşteptate X i .Ij se apropie de cele observate Xj atunci când caracterul X
evoluează numai crescător sau numai descrescător în timp şi abaterile procentuale ale datelor
de sondaj consecutive, notate cu Ii, In - i sunt toate supraunitare sau toate subunitare şi
apropiate între ele ca valoare (caracterul X are o evoluţie exponenţială în timp).
În caz contrar se ajustează aceste abateri procentuale I i, ..., In - i cu o funcţie de regresie
neliniară în raport cu timpul ca în secţiunea 5.3
jm -1
I m- ! log ( I - 1 ) Q + 1
X
Dacă notăm X i + ... + X m= Q avem: X = Q de unde m = adică
~ log I I -1
numărul de perioade de timp în care se acumulează cantitatea finală Q a valorilor caracterului X
respectiv în care se consumă cantitatea iniţială Q a valorilor caracterului X.
Exem plu:
Fie X = greutatea porcilor la îngrăşat (kg).
Fie ti vârsta în zile a porcilor.
Se fac n = 10 controale echivalente din 28 în 28 zile.
7i
ti 28 56 84 112 140 168 196 224 252 280
Se cer X , D, I.
Soluţie:
Graficul perechilor de valori (x,z) are forma:
Seriesl
1 X + X 2 + ... + X M. + 1 X M
2 2 = 66.4 kg
n-1
Xn ~X!
D= 13 kg; log I = log Xn log X i = 0 .1 7 8 deci I = 10 0 178 = 1.57
n -1 n-1
Fie diviziunile de timp echidistante t1, ..., tn (cu t2 - t1 = t3 - t2 = ... = tn - tn- 1).
În cazul măsurătorilor echidistante, indicatorii D şi I nu depind de X 2, ..., X n -1, defect
care poate fi corectat prin metoda uniformizării înclinării dinţilor de fierăstrău ai seriei
cronologice X 1, . , X n, după cum urmează:
a) Corecţia lui D
Avem diferenţele de ordin I: Di = X i+1 - X i.
Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 - t1 = t3 - t2 = ... = tn - tn - 1 = 1
atunci Di este înclinarea (panta) segmentului care uneşte punctele (ti, X i) şi (ti+1, X i+1) cu ti+1 - ti = 1.
Dacă Di < 0, avem X i > X i+1 deci pe tronsonul [ti; ti+1] caracterul X are variaţie
descrescătoare.
Dacă Di = 0, avem X i = X i+1 deci pe tronsonul [ti; ti+1] caracterul X este staţionar.
Dacă Di > 0, avem Xi < Xi+1 deci pe tronsonul [ti; ti+1] caracterul X are variaţie crescătoare.
Vom înlocui pe D cu ritmurile medii valorice (absolute) R V 1 şi R V 2 care urmează: R V 1 < 0
este media aritmetică a diferenţelor Di < 0 iar R V 2 > 0 este media aritmetică a diferenţelor Di > 0.
Valorile lui X 1, . , X n vor fi ajustate cu ajutorul lui R V 1 şi R V 2 astfel:
XV, = X 1
X + RV dacă X > Xi+l
XVi X dacă X = XM (1 < i < n-1)
X + RV2 dacă X < Xi+l
72
Variaţia pătratică totală a lui Y este: SPAT = 2 (X . —X )2 iar variaţia pătratică reziduală
valorică a lui X este: SPA V = E (X i - X V i )2.
Dacă SPA V < SPAT, raportul de corelaţie valorică are forma:
RV = V1—SPAV/ SPAT e [0;1]
Prognoza valorii necunoscute X n+1 se face cu valoarea:
Xn + RV dacă ne aşteptăm ca X să scadă.
X V .n+1 X. dacă ne aşteptăm ca X să fie staţionar.
Xn+ RV dacă ne aşteptăm ca X să crească.
b) Corecţia lui I
Avem rapoartele de ordin I: R i = X i+1/Xi.
Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 - t1 = t3 - t2 = ... = tn - tn- 1 = 1,
atunci R i este înclinarea (panta) segmentului care uneşte punctele (ti, logXi) şi (ti+1, logX i+1) cu ti+1 -
ti = 1.
Dacă R i < 1, avem X i > X i+1 deci pe tronsonul [ti; ti+1] caracterul logX are variaţie
descrescătoare.
Dacă R i = 1, avem X i = X i+1 deci pe tronsonul [ti; ti+1] caracterul logX este staţionar.
Dacă R i > 1, avem X i < X i+1 deci pe tronsonul [ti; ti+1] caracterul logX are variaţie
crescătoare.
Vom înlocui pe R cu ritmurile medii procentuale (relative) R P 1 şi RP2 care urmează: R P 1 < 1
este media geometrică a rapoartelor R i < 1 iar RP2 > 1 este media geometrică a rapoartelor R i > 1.
Valorile lui X 1, . , X n vor fi ajustate cu ajutorul lui R P 1 şi R P2 astfel:
XP = X i
X * RP, dacă X > Xi+l
XP = Xt dacă X = Xi+l (1 < i < n-1)
[X i * RP2 dacă X i < X i+1 _
Variaţia pătratică totală a lui Y este: SPAT = 2 ( X . —X ) 2 iar variaţia pătratică reziduală
procentuală a lui X este: SPAP = E (X i - X P i)2.
Dacă SPAP < SPAT, raportul de corelaţie procentuală are forma:
RP = V1 —SPAP / SPAT e [0;1]
Prognoza valorii necunoscute X n+1 se face cu valoarea:
Xn * RP dacă ne aşteptăm ca X să scadă.
XP„n+1 <X dacă ne aşteptăm ca X să fie staţionar.
X * RP2 dacă ne aşteptăm ca X să crească.
Exem plu:
Fie X nivelul apei unui râu din România măsurat la miră (m) în n = 10 zile consecutive.
Măsurătorile şi calculele conform formulelor precedente figurează în tabelul următor:
73
Xi Diferenţe Di XVi Di R apoarte R i XPi DPi
6.5 0 6.5 0 1 6.50 0
6.8 0.3 6.8 0 1.05 6.79 0.01
6.6 - 0.2 6.6 0 0.97 6.60 0
6.6 0 6.6 0 1 6.60 0
7.0 0.4 6.9 0.1 1.06 6.90 0.10
7.2 0.2 7.3 - 0.1 1.03 7.30 - 0.10
7.2 0 7.3 - 0.1 1 7.30 - 0.10
6.9 - 0.3 7.0 - 0.1 0.96 7.00 - 0.10
6.8 - 0.1 6.7 0.1 0.99 6.70 0.10
6.6 - 0.2 6.6 0 0.97 6.60 0
68.2 R V = - 0.2; R V 2 = 0.3 X X R P 1 = 0.971; R P 2 = 1.045 X X
Rezultate:
Graficul perechilor (x, y) are forma:
Prognoză valorică:
X10 + RVl=6.6-0.2=6.4m dacă ne aşteptăm ca X să scadă.
XVn = <X10=6.6m dacă ne aşteptăm ca X să fie staţionar.
X10 + RV2=6.6+0.3=6.9m dacă ne aşteptăm ca X să crească.
74
Prognoză procentuală:
X10 * Rp =6.6*0.971=6.41m dacă ne aşteptăm ca X să scadă.
X P11 <X10=6.6m dacă ne aşteptăm ca X să fie staţionar.
X10 * RP2=6.6*1.045=6.89m dacă ne aşteptăm ca X să crească.
Pentru evoluţia caracterului X în timp avem pentru exemplarul de sondaj numărul i media de
evoluţie:
75
abaterea - standard de sondaj globală: S = ^ I ( X c , - X )2
\ m - 1 , =1
S
coeficientul de variabilitate de sondaj global: C = = ■ 10 0 (%)
X
Exem plu:
X = greutatea porcilor la îngrăşat (kg).
Fie tj numărul de zile trecute de la data fătării porcilor până la data controlului numărul j.
Se fac n = 10 controale echidistante de 28 zile la m = 5 porci. Data de sondaj:
Medii
28 56 84 112 140 168 196 224 252 280 cronologice
Repetiţia C X Ci
1 3 12 26 42 60 78 94 104 117 120 66.4
2 3 13 27 43 61 78 94 106 115 118 66.4
3 3 12 25 41 59 77 94 109 118 122 66.4
4 4 13 27 43 61 77 92 104 112 115 65.4
5 3 12 25 41 59 78 96 111 12 1 125 67.4
Medii 3.2 12.4 26 42 60 77.6 94 107.4 116.6 120 = 66.4
sondaj X j X c= 6c 4 \ ^
Soluţie:
_ + X 2 + ••• + X „-1 + ^ r
Media cronologică globală: X c = ; = 66.4 kg.
n-1
X - X
Ritmul mediu valoric global: D 1 = 1 3 kg.
n -1
I. În multe situaţii întâlnim caractere Z compuse din produse ale altor caractere X, Y :
Z = X .Y cu valori diferite: Z 0 = X 0.Y 0 respectiv Z 1 = X 1.Y 1.
Exem ple:
- Cheltuielile cu o resursă = consumul de resursă x costul unităţii de resursă;
- Venitul din vânzarea unui produs agricol = producţia fizică x preţul de vânzare;
- Venitul din muncă = productivitatea muncii (venit pe muncitor) x nr. muncitori.
În acest caz putem calcula: D(Z) = Z 1 - Z 0; I(Z) = Z 1/Z0; R(Z) = D(Z)/Z0.
Avem relaţiile: I(Z) = I(X .Y ) = I(X).I(Y); R(Z) = R (X .Y ) = I(X).I(Y) - 1
Avem şi mărimile:
- produsul mediu : PM(Z) = Z 0 = X 0.Y 0
- produsul m arginal: PD(Z) = (X 1 - X 0).(Y 1 - Y 0) = D (X).D (Y)
- elasticitatea produsului: EP(Z) = PD(Z)/PM(Z) = R (X ).R (Y)
II. În multe situaţii întâlnim caractere Z compuse din rapoarte (rate) ale altor caractere X, Y :
Z = X /Y cu valori diferite: Z 0 = X 0/Y0 respectiv Z 1 = X 1/Y 1.
Exem ple:
- Rata profitului = Profit/Cheltuieli;
- Costul unităţii de produs = Cheltuieli cu produsul/Producţia fizică;
- Rata şomajului = Număr şomeri/Număr persoane active.
În acest caz putem calcula: D(Z) = Z 1 - Z 0; I(Z) = Z 1/Z0; R(Z) = D(Z)/Z0.
Avem relaţiile: I(Z) = I(X/Y) = I(X)/I(Y); R(Z) = R(X /Y) = I(X)/I(Y) - 1
Avem şi mărimile:
- rata medie: PM(Z) = Z 0 = X 0/Y 0
- rata m arginală: PD(Z) = (X 1 - Xo)/(Y 1 - Yo) = D(X)/D(Y)
- elasticitatea ratei: EP(Z) = PD(Z)/PM(Z) = R(X)/ r (y )
Indicii statistici sunt numere relative rezultate din compararea valorilor unui indicator
statistic la diferite momente de timp, în locuri diferite sau în categorii diferite în raport cu un
criteriu.
Indicii calculaţi la momente diferite de timp, se numesc indici ai dinamicii.
Indicii calculaţi în locuri diferite, se numesc indici teritoriali.
Indicii calculaţi în categorii diferite în raport cu un criteriu, se numesc indici calitativi.
În calculul indicilor se aleg două momente de timp/locuri/categorii:
1) Momentul de timp/locul/categoria de bază (de referinţă), notată cu 0.
2) Momentul de timp/locul/categoria curentă, notată cu 1.
Pentru elemente omogene se calculează indici elementari (individuali) iar pentru elemente
neomogene se calculează indici sintetici (de grup).
77
Exem plul 1
Fie trei resurse R i (motorină în litri/ha), R 2 (îngrăşăminte chimice N PK în Kg/ha) şi R 3 (apă
de irigaţie în m3/ha).
Baza este anul 2000 iar anul curent este anul 2003.
Qi (unităţi de resursă/ha) este consumul de resursă Ri, Ci (lei/unitate de resursă) este costul
resursei R i iar CHi = Qi .Ci (milioane lei/ha) este suma cheltuită cu resursa R i.
A. Indici individuali:
- pentru consumuri:
I q(R i ) = Q 11/Q10 = 110 /12 0 = 0.92
I q(R 2) = Q21/Q20 = 220/210 = 1.05
I q(r 3) = Q31/Q30 = 800/1000^ = 0.80____________
I q = [Iq(R1). I q(R2). I q(R3)]1/3 = 0.916
- pentru costuri:
I c(R 0 = C 11/C 10 = 18000/12000 = 1.50
I c(R 2) = C 21/C 20 = 8000/6000 = 1.33
I c(r 3) = C 31/C 30 = 500/300 = 1.60______________
I c = [Ic(R1). I c(R2). Ic(R3)]1/3 = 1.494
- pentru cheltuieli:
I ch(R1) = (Q11C11)/(Q10C10) = 1.98/1.44 = 1.375
I ch(R2) = (Q21C21)/(Q20C20) = 1.76/1.26 = 1.40
I ch(R3) = (Q31C31)/(Q30C30) = 0.40/0.30 = 1.33
I cH = [Î cH ( R ^
78
O bservaţii:
i) Indicele Laspeyres este medie aritmetică ponderată a indicilor individuali I(R¡) cu ponderile:
Ui = (QicCio)/(EQioCio), deci S U = 1:
- pentru consumuri:
I l (Q) = SlQ(Ri).Ui
- pentru costuri:
I l (C) = SIc(Ri).Ui
ii) Indicele Paasche este medie armonică ponderată a indicilor individuali I(R i) cu ponderile:
Vi = (QiiCii)/(SQiiCii), deci SVi = 1:
- pentru consumuri:
[1/I p(Q)] = S[1/lQ(Ri)]. Vi
- pentru costuri:
[1/I p(C)] = S[1/lC(Ri)]. Vi
iii) Indicele total este produsul indicilor Laspeyres şi Paasche:
I t(CH)= I l (Q )I p(C) = Il (C).I p(Q)
O bservaţii:
iv) Pentru indicii 7) - 9) avem relaţia: ISV = I sf.Ivs
v) Cu notaţiile W i0 = C i0/(SCi0), deci SW i0 = 1 respectiv Wi1 = C i1/(SCi1), deci SW
7) - 9) capătă forma de indici agregaţi:
I sv = (SQi1Wi1)/(SQi0Wi0) analog cu indicele total I t de la punctul 1)
I sf = (SQi1Wi1)/(SQi0Wi1) analog cu indicele Paasche I p(Q) de la punctul 3)
I vs = (SQi0Wi1)/(SQi0Wi0) analog cu indicele Laspeyres I l (C) de la punctul 2)
Cheltuielile CH sunt un indicator complex bifactorial de forma CH = Q.C
Variaţia cheltuielilor în timp este absolută: A(CH) = SQ i1C i1 - SQ i0C i0 sau relativă:
I t(CH) = (SQi1Ci1)/SQioCi0
Aceste variaţii absolute sau relative, se pot descompune în componente cu metoda
restului/câtului nedescompus.
V ariaţiile absolute sunt:
A(CH) = SQi1Ci1 - SQioCio = 1.14
A(Q) = SQi1Ci0 - SQioCio = - 0 .12
A(C) = SQioCi1 - SQioCio = 1.34
A(Q n C) = (SQi1Ci1 - SQi1Ci0) - (SQioCi1 - SQioCio) = - 0.08
V erificare: A(CH) = A(Q) + A(C) + A(Q n C)
Exem plul 2
Fie trei produse: T i (Grâu); T2 (Porumb); T3 (Floarea soarelui).
Baza este anul 2000 iar anul curent este 2003.
Y i este producţia fizică a produsului Ti (Kg/ha), Di este preţul de vânzare al unităţii de
producţie fizică a produsului Ti (lei/kg) iar V i = Y i • Di este venitul obţinut din vânzarea produsului
Ti (milioane lei/ha).
A) Indici individuali:
- pentru producţii:
I y (T i ) = Yii/Yi0 = 3500/3000 = i .i 7
I y (t 2) = Y2i/Y20 = 6000/5000 = i.20
I y (t 3) = Y 3i/Y30 = 2000/i800 = i.ii
I y = [Iy (T i ) • Iy (T2) • I y (T3)]i/3 = i.i5 9
- pentru venituri:
I v (T i ) = YiiDii/Yi0D i0 = i4/6 = 2.33
I v (T2) = Y2iD2i/Y20D20 = 24/i2.5 = i.92
I v (T3) = Y3iD3i/Y30D30 = 24/i8 = i.33
I v = [Iv (T i ) • Iv (T2) • I v (T3)]i/3 = i.8 i4
80
B) Indici sintetici pentru venituri ca indici agregaţi:
1) Indicele total:
I t(V) = (EYi1Di1)/(EYi0Di0) = 62/36.5 = 1.70
2) Indicele Laspeyres:
- pentru producţii:
I l (Y) = (£Yi1Di0)/(£Yi0Di0) = 42/36.5 = 1.15
- pentru preţuri de vânzare:
I l (D) = (£Yi0Di1)/(£Yi0Di0) = 53.6/36.5 = 1.47
3) Indicele Paasche:
- pentru producţii:
I p(Y) = (E Y uDi1)/(EYi0Di1) = 62/53.6 = 1.48
- pentru preţuri de vânzare:
I d = (TYi1Di1)/(2Yi1Di0) = 62/42 = 1.48
4) Indicele Fisher:
- pentru producţii:
I f(Y) = [Il (Y) • I p(Y )]1/2 = 1.15 5
- pentru preţuri de vânzare:
I f(D) = [Il (D) • I p(D)]1/2 = 1.475
Exem plul 3
Fie trei societăţi comerciale: S 1 (Vegetală); S2 (Zootehnie); S3 (Procesare produse
agrozootehnice).
Baza este anul 2ooo iar anul curent este 2oo3.
Ni este numărul de muncitori în ramura Si, Pi este productivitatea muncii în ramura Si
(milioane lei venit/muncitor) iar Wi = N i • Pi este venitul din forţa de muncă în ramura Si (milioane
lei/an).
A) Indici individuali:
- pentru număr de muncitori:
In(S 1) = N u /N 1o = 8 / 1 o = o.8o
In(S 2) = N 21/N2o= 12/15 = o.8o
IN(S3) = N 31/N3o= 16/2Q = Q.8Q________
In = [In(S1) • In(S2) • In(S3)]1/3 = o.8oo
- pentru productivităţi:
I p(S 1) = P n/P1o = 15/1o = 1.5o
I p(S2) = P 21/P2o = 7/6 = 1 .1 7
I p(S3) = P 31/P3o = 12/1P = 1 .2 o_________
I p = P p(S 0 • Ip(S2) • I p(S3)]1/3 = 1.2 8 1
- pentru venituri:
I v (S 1) = N nPn/N 1oP1o = 1 2 o/1 oo = 1 .2 o
I v (S 2) = N 21P 21/N2oP2o = 84/9o = o.93
I v (S3) = N 31P31/N30P3o = 192/2PP = P.96
I w = [Iw(S 1) " I w(S 2) " Iw(S3)]1/3 = 1.o24
82
B) Indici sintetici pentru venituri ca indici agregaţi:
1) Indicele total:
I t(W)= (ENiiPii)/(ENioPio) = 396/390 = 1.02
2) Indicele Laspeyres:
- pentru numărul de muncitori:
I l (N) = (£NiiPio)/(£NioPio) = 312/390 = 0.80
- pentru productivităţi:
I l (P) = (£NioPii)/(£NioPio) = 495/390 = 1.27
3) Indicele Paasche:
- pentru numărul de muncitori:
I p(N) = (£NiiPii)/(£NioPii) = 396/495 = 0.80
- pentru productivităţi:
I p (P)= (ENiiPii)/(ENiiPio) = 396/3i2 = i.2 7
4) Indicele Fisher:
- pentru numărul de muncitori:
I f(N) = [Il (N) • Ip(N)]i/2 = 0.80
- pentru productivităţi:
I f(P) = [Il (P) • I p(P)]i/2 = i.27
Exem plu: In grupa produselor alimentare avem de exemplu subgrupa carne şi produse din carne în
care avem de exemplu produsul carne de porc în care avem de exemplu sortimentul pulpă de porc
cu os.
Etape de calcul:
1) Se calculează preţul/tariful mediu lunar PMjk pentru fiecare sortiment j din cele 2000 şi pentru
fiecare centru de culegere k din cele 68.
2) Se calculează preţul/tariful mediu lunar PMj pentru fiecare sortiment j din cele 2000 şi pentru
toate cele 68 centre de culegere, atât pentru momentul bază (0) cât şi pentru momentul
current (i).
84
3) Se calculează indicele individual de preţ Ij = PM j (1)/PM j (0) pentru fiecare sortiment j din
cele 2000.
- pe produs . _ Z V U T Z , u("'
(0)
' p
Z U( U
t
Z I • u (0) z I • u (0)
- pe subgrupă : Is = Z p (0)p - Z p (0) p •
Zu u:
Z i • u (0) Z i • u (0)
- pe grupă : I = (0) - (0) •
Zu U
Z I • u (0)
5) Calculul IPC ' IPC = ^ g (0)g
Z Ug
IPC se utilizează în aprecierea inflaţiei, în politica monetară şi fiscal (masa monetară, rata
dobânzii), în stabilirea drepturilor băneşti (salarii, pensii, alocaţii, burse) pentru menţinerea puterii
de cumpărare, a salariului real şi a veniturilor reale ale populaţiei.
Fie o populaţie statistică de volum N, care este normală N(p, o) în raport cu însuşirea X.
— Z
Efectuăm un sondaj de n valori independente x 1, ..., xn care au media de sondaj X = — — şi
xi
n
—
2) M (S 2 )= o 2 ; V ( S 2 )=
2n
De asemenea M (S2) = o2; lim V (S 2) = 0 , deci S este o estimaţie absolut corectă pentru c.
2 N
corectă pentru u. De asemenea M(S2) = —N— —2; lim V( S ) = 0, deci S este estimaţie corectă
N —1 n^-<»
pentru c.
85
Pentru populaţii infinite (N ^ rc>), expresiile precedente în cazul sondajului simplu repetat
de la punctele 1), 2) coincid cu cele din cazul sondajului nerepetat de la punctele 3), 4). Dacă X este
însuşire calitativă, X = f (frecvenţa valorii X în sondaj) se schimbă de la un sondaj la altul şi
p (1 —p)
M(f) = p; V(f) = ---------- , deci f este o estimaţie absolut corectă pentru p.
n
În cazul sondajului stratificat se efectuează sondaje simple (repetate sau nerepetate) de
volume n1,..., nk (n1 +...+ nk = n) din straturile numărul 1,..., k de volume N 1,..., Nk; (N1 + ......+ Nk = N),
găsindu-se mediile de sondaj din straturi X 1,..., X k.
n x i + .......+ nkXk
5) Media sondajului stratificat va fi: X =
n
1 ^ N fa f
6) În cazul sondajelor simple repetate din straturi avem: V (x )= — - Z
N 2 s=1 ni
7) În cazul diferitelor tipuri de sondaj stratificat înlocuim pe ni în relaţiile 5) - 7) astfel:
n
a) Pentru sondajul tipic: nt = —, (i = 1,..., k);
k
N.
b) Pentru sondajul proporţional: nt = n — , (i = 1,..., k);
N
N a
c) Pentru sondajul optim: nti = n k ■ , (i = 1,..., k).
Z N a,
i=1
În cazul sondajului stratificat optim avem V( X ) = minim.
N.
8) Dacă populaţia este infinită, ^ p i , deci indiferent dacă sondajele simple în straturi
v (x ) = Z •
s=1 ni
Trebuie rezolvate două probleme:
I. Estim area lui u şi c prin intervale de încredere pe baza lui X şi S;
II. Testarea de valori concrete un şi c n pentru u şi c pe baza lui X _şi S.
86
Decizia despre H ^ H este adevărată H este falsă
Ipoteza H i
H este adevărată 1-a A
H este falsă ß 1-ß
Pentru ipoteza nulă H:p = p0 faţă de ipoteza alternativă H :p ^ po funcţia de putere a testului
are graficul:
87
Testul cu funcţia de putere n(W , 9) = maximă, se numeşte cel mai puternic test.
Se demonstrează:
Teorem a 2 .1
X - y
Mărimea t = - \fn este variabilă Student cu n - 1 grade de libertate.
S
Demonstraţie:
x 1, ..., xn fiind valori de sondaj independente extrase dintr-o populaţie normală N(p, o) faţă
de însuşirea cantitativă X , se poate arăta cu teoremele 2.2, 2.3, 3.7 că X = —xx + ...... + —x K este o
n n
variabilă normală cu media: M ( X ) = —M ( x : ) + ...... + —M ( x n) = — ^ + ........ + — n = ^ şi varianţa:
n n n n
1 1 1 , l , —
V ( X ) = - j . V (*1) + ...... + — V ( * ) = -2- a 2 + ....... + — a 2 = — .
n n n n n
88
X -y (n - 1)S 2
Mai departe, 4 n fiind variabilă N(0, 1) şi conform teoremei 1.2 de mai jos,
a a
(n - 1)S 2
a X -y
fiind variabilă X cu n - 1 grade de libertate, variabila t = --------Vn = yfn este
a n -1 S
variabilă Student cu n - 1 grade de libertate. Q.E.D.
Din teorema 3 .1 rezultă:
P(~ta 2 ^ t < ta 2 ) = 1 —a , adică intervalul de încredere pentru u:
Din tabela 2 din Anexă, conform relaţiei P (|t|>ta/2) = a , pe linia a n - 1 grade de libertate şi
f ) . e [X - ^2.5% ;X + ^2.5%]
cu încrederea 95%;
2) . e [ X - ^ 0 .5 % 5 X + ^ 0 .5%]
cu încrederea de 99%;
3) u e [ X —^0.05% 5X + ^0.05% ]
cu încrederea de 99.9%.
Ipoteza H:p = po se acceptă dacă ju0 e X _ S 25 o/o; X + 525„/o şi se respinge în caz contrar astfel:
y G X ^ 0 . 05 % ,X 5„/o
<5q.5% U X + SQ , X + ô0105%
:
c) u ^ U foarte semnificativ dacă: u 0 < X —c>005„/o sau u 0 > X + â0l
105%•
Teorem a 2.2
(n - 1)S 2
Mărimea % = este variabilă hi pătrat cu n - 1 grade de libertate.
a
Dem onstraţie:
2
( n - 1) S 2 fx - X^ f x - X^ — —X
Avem %2 = •+ şi cum u = --------
sunt variabile
v a a J v a J a
N(0, 1), independente câte două, X este variabilă hi pătrat cu n - 1 grade de libertate (căci avem
—_
relaţia de dependenţă —------- +...... + —n------- = 0). Q .E.D.
89
Din teorema 2.2 rezultă:
f 2 ^
2 (« - 1) S 2
P A7 a <~ ------------<
2 ~ 7A = 1 - a , adică intervalul de încredere pentru o:
1 (T
V 2 2 J
f
(2 ) P T G h - 1S; n - 1 S = 1- a .
7 a \l 7 a
2 JJ
Reciproc, dându-se:
rezultă:
f ¿ V f A" V
°a /2 %t/2
•7a2/2 + 1 Şl «2 .7 \-a/2 + 1
S j S J
Din tabela 3 din Anexă, conform relaţiei p {^ 2 > %2) = a , pe linia a n - 1 grade de libertate
şi pe coloanele a = 0.05; a = 0.01; a = 0.001 găsim valorile %2a iar pe coloanele 1 - a = 0.95; 1 - a
2
= 0.99; 1 - a = 0.999 găsim valorile x a cu ajutorul cărora găsim trei intervale de încredere pentru o
2
de forma:
1)t g
4 - L s IJ L -L s
7 0.025% V7 0.975%
cu încrederea de 95%;
2) t g " - 1 .S; n - 1 S
I7 0.005 i 7 0.995
cu încrederea de 99%;
3)t g .S ; .S
I f 1- 7 1
cu încrederea de 99.9%.
90
b) a ^ a 0 distinct semnificativ dacă totuşi:
n-1
^0 G
n - 1 S' n z i s 2 ’4 S
V %0.0005 %0.005 %0.995 \ %0.9995
c) a ^a 0 foarte semnificativ dacă:
n-1 n-1
a 0 <. S sau a > S .
%0.0005 %0.9995
Exem plu:
Fie X greutatea viţeilor (kg). Dintr-un sondaj de n = 50 viţei găsim X = 64.9 kg; S = 2.33 kg.
a) Se cer intervale de încredere cu riscurile a = 5%; 1% ; 0 .1% pentru g şi testarea ipotezelor
H :g = 65 kg; H :g = 67 kg.
b) Se cer intervale de încredere cu riscurile a = 5%; 1% ; 0 .1% pentru o şi testarea ipotezelor
H:o = 2.5 kg; H:o = 3.3 kg.
Soluţie:
a) Pe linia a n - 1 = 49 G L şi coloanele a = 0.05; a = 0.01; a = 0.001 găsim în tabela 2 din
Anexă, valorile critice t25% = 2 .0 1; t05% = 2.68; t0 05% = 3.50 deci înlocuind în formula (1)
găsim intervalele de încredere pentru g:
1) ^ e [64.2Kg;65.6Kg]
2) ^ e [6 4 K g ;6 5 .8 K g ]
3) ^ e [63. 8 Kg; 6 6 K g ]
r\ r\ r\ d
Anexă: x o.999 = 24.70; x o.995 = 27.99; x o.975 = 32.36 iar pe coloanele — = 0.025; 0.005;
0.001 găsim: x20.025 = 71.42; x20.005 = 79.49; x20.001 = 86.70, deci înlocuind în formula (2),
găsim intervalele de încredere pentru o:
1) a e [2Kg ; 2 9Kg ]
cu o încredere de 95%;
2) a e [1.9 K g ;3.2K g ]
cu o încredere de 99%;
3) a e [1.8 K g;3.4K g]
cu o încredere de 99.9%.
91
De exemplu pentru intervalul mic cu 1 - a = 95% avem concluzia:
Abaterea standard o necunoscută a greutăţii tuturor viţeilor din care fac parte cei 50 viţei ai
sondajului, este cuprinsă între 2 kg şi 2.9 kg cu încrederea de 95%.
Există semiriscul 2.5% ca această abatere standard o să fie mai mică ca 2 K g atunci când cei
50 viţei ai sondajului au fost aleşi cei mai neomogeni ca greutate.
Concluzia este simetrică pentru cazul o > 2.9 kg.
Ipoteza H:o = 2.5 kg se acceptă deoarece 2.5 e [2;2.9] iar ipoteza H:o = 3.3 kg se respinge
(o ^ 3.3 kg distinct semnificativ deoarece 3.3 e [3.2;3.4]).
O sinteză elegantă a acestor calcule este dată în foaia de calcul C 1 P 1.X L S aflată în Anexă.
2.5.2 Estimaţii/teste pentru param etrul p al unui caracter calitativ într-o populaţie
norm ală
Fie o populaţie statistică normală în care însuşirea calitativă X are probabilitatea de apariţie
p. Efectuăm un sondaj simplu repetat de n valori independente x 1s ..., xn unde:
xi = 1 dacă exemplarul i are însuşirea X
x i = 0 în rest
Dacă k din cele n exemplare de sondaj au valoare 1, media de sondaj X devine frecvenţa de
k
sondaj f = —, (0 < k < n).
n
Teorem a 2.3
f —p
Pentru n ^ œ, mărimea u = . = este variabilă normală redusă N (0.1)
p ( l —p )
n
Demonstraţie:
u„g!2
n = f (1 - f ).
V^a/2 J
92
D in t a b e la 1 d in A n e x ă , c o n fo r m re la ţie i: p(u\ < u a/ 2 ) = 1 —a , a v e m u 2.5% = 1 .9 6 ; u 0.5% =
cu În c re d e re a de 95% ;
2) P e [ f - S 55%;f + 0 8 0 55 %]
cu în c re d e re a d e 99% ;
3) p e [ f —¿0.05%; f + ¿0.05%]
c u î n c r e d e r e a d e 9 9 .9 % .
I p o te z a H :p = p 0 se a c c e p tă d a c ă p 0 e [ f —J 25%; f + £ 2 5 „/o ] şi se r e s p in g e î n c a z c o n tr a r
a s tfe l:
a) p ^ p 0 s e m n if ic a tiv d a c ă to tu ş i:
A i G [./ - ; / - ^2.5% ] U [ / + 5„/o; / + 805„/o];
b) p ^ p 0 d is tin c t s e m n if ic a tiv d a c ă to tu ş i:
c) p ^ p 0 f o a r te s e m n if ic a tiv d a c ă :
p 0 < f —¿ 0.05% s a u p 0 ^ f + ¿ .05% 0
Exem plu:
Fie X = ecloziunea ouălelor de găină la incubator. Se face un sondaj simplu repetat de
n = 1600 ouă, găsindu-se frecvenţa ouălelor eclozionate f = 95%. Se cer intervalele de încredere
pentru probabilitatea p de ecloziune pentru toate ouălele din care fac parte cele 1600 din sondaj şi să
se testeze ipotezele H:p = 96% şi H:p = 90%.
Soluţie:
Avem u25% = 1.96; u05% = 2.58; u0.05% = 3.29, deci formula (3) dă intervalele de încredere
pentru p:
1) p e [93.5% ;96 .5%]
cu o încredere de 95%;
2) p e [93.1% ;96.8% ]
cu o încredere de 99%;
3) p e [92.7% ;97.2% ]
cu o încerede de 99.9%.
2.5.3 Estimaţii/teste pentru param etrii u2 - ui, g2/g1 ai unui caracter cantitativ în două
populaţii normale
Fie două populaţii statistice normale N (p1, o 1) şi respectiv N(p2, o2) faţă de caracterul
cantitativ X.
93
Extragem un sondaj simplu repetat de ni exemplare din prima populaţie cu ni valori de
__ 1 ni
sondaj independente X u , X 12,..., X ln şi calculăm media de sondaj X = — V X h respectiv abaterea
1 n ,.=!
n
TT 1
X2= - S X2
n2 ,=1
^2 =
¿ Ţ - T S (- - * 2Î
2
(ni - 1)ST + (n , - l)S
Fie S =
n + n2 - 2
rs2 s 2^ 2 i rs v 1 {s í v
şi n* = — + — +- deci min (n - 1 ; n2 - l) - n* - n + n2 - 2 .
V ni n2 J n - 1 VnTJ n2 - 1 Vn 2 J
Teorem a 2.4
(X 2 - X , ) - ( h - h )
Dacă o 1 = o2 mărimea t = -----------, ------- este variabilă Student cu n1 + n2 - 2 grade
s . T +-i
X n2
de libertate.
Dacă o 1 ^ a 2 mărimea:
(X 2 —X , ) —(^2 —M )
t=
sí S2
V — +—
n n2
este aproximativ variabilă Student cu n grade de libertate.
Demonstraţie:
X 2 - X i este variabilă normală cu media: M ( x 2 - X 1) = M ( x 2) - M ( x 1) = h - M
_ _ _ _ ^2 ^2
şi varianţa V ( X 2 - X 1 ) = V ( X 2 ) + V ( X 1 ) = — H— - deoarece cele două sondaje se presupun
v / v / v / n w2
independente deci şi X 1 , X 2 sunt variabile aleatoare independente.
(x 2 - X ! ) - ( m - M )
Rezultă că u = este variabilă N(0; 1). Înlocuind pe o 1 = o2 cu S,
n„
* 2 - X , ) - ( m -Mr )
conform teoremei 1 1A’ t = (----------- , =------- este o variabilă Student cu ni + n2 - 2 grade de
s.-L * -i
libertate. Cea de-a doua afirmaţie din enunţ o admitem fără demonstraţie. Q.E.D.
94
Din teorema 2.4 rezultă: P ( —ta// 2 < t < ta 2 ) = 1 - a adică in tervalu l de în cred ere pentru
^2 - PL
M - M e [[ X [ ~ X i ) - # 4 [ ; ( X X 1 ) + 5^ = 1-a
p (; z l - L - J
cu încrederea de 95%;
P (m - Ml e d - 5 a 2 ; d + 5 a 2]) = 1 - a
S
unde Sa 2 = —j=ta/ 2 este d iferen ţa lim ită.
dn
Din tabela 2 din Anexa conform relaţiei P(t| > ta/ 2) = a găsim ta/2 pentru n - 1 G L pentru
a = 5%; 1% ; 0.1% , deci trei intervale de încredere pentru p2 - p1 ca mai sus. Ipoteza H :p1 = p2 se
verifică ca mai sus.
T eorem a 2.5
_2 o2
S-,
Mărimea F = —|- : —y este variabilă Fisher cu (n1 - 1;n 2 - 1) grade de libertate.
S1
D em onstraţie:
(n i-l)S l
Conform teoremei 2.2 %x =■ 2 este variabilă hi pătrat cu n 1 - 1 G L iar
2 2 2 o 2
2 _ (n2 - 1 ) S 2
X2 = este variabilă hi pătrat cu n2 - 1 G L deci F = X l . %2 _ ®2^2 ' S 2
o2
este
n - 1 n - 1 c Sj
variabilă Fisher cu (ni - 1; n2 - 1) GL. Q .E .D .
Din teorema 2.5 rezultă P(0 < F < F a ) = 1 - a adică in tervalu l de în cred ere p entru — :
95
o
( 5 ) P E o, = 1-a .
V0 1 Jy
Din tabelele 4, 5, 6 din Anexă, conform relaţiei P(F > Fa ) = a găsim F a pentru (ni - 1; n2 -1)
o
G L pentru a = 5%; 1% ; 0 .1% deci trei intervale de încredere pentru — cu încrederile 1 - a = 95%;
o
99%; 99.9%:
1 )0 1 e [0 ; — ^ . ^ / F T ]
o —
cu încrederea de 95%;
2 ) 0 e [0 , - ^ ^ / F 1 % ]
0 1 S 1
cu încrederea de 99%;
3 )0 e [ 0 ,- ^ . , F % ]
0 1 S 1
cu încrederea de 99.9% .
Exem plu:
X = greutatea viţeilor (kg). Populaţia 1: Brună. Populaţia 2: Bălţată cu negru. Se cântăresc
n1 = 20 viţei din populaţia 1, găsind X 1 = 60.1kg şi S 1 = 2.5 kg. Se cântăresc n2 = 30 viţei, găsind
X 2 = 62.2kg şi S2 = 2.8 kg.
a) Să se găsească intervale de încredere pentru p,2 - ^1 cu riscuri a = 5%; 1% ; 0.1% şi să se
testeze ipoteza H :^1 = ^2.
b) Să se găsească intervale de încredere pentru g2/g 1 cu riscuri a = 5%; 1% , 0 .1% şi să se
testeze ipoteza H : g 1 = g 2.
Soluţie:
a) În ipoteza g 1 g 2 care va fi verificată la punctul b), calculăm:
2
(»1 - 1)—12 + (« 2 - 1—
S = adică S 2.42 kg.
» + »2 - 2
96
Din tabela 2 din Anexă, pe linia a 20 + 30 - 2 = 48 G L şi coloanele lui a = 0.05; 0.01; 0.001
2) a e [0 ;1.83]
a1
cu încrederea de 99%;
3) a e [0; 2.16]
a1
cu încrederea de 99.9% .
De exemplu pentru intervalul mic cu 1 - a = 95% avem concluzia:
a
Raportul abaterilor standard — al tuturor viţeilor bălţată cu negru din care provin cei 30 de
a
viţei faţă de toţi viţeii brună din care provin cei 2 0 viţei este cuprins între 0 şi 1 .8 8 ori în favoarea
rasei bălţată cu negru.
Există semiriscul 2.5% ca acest raport să fie mai mare de 1.58 ori în favoarea bălţatei cu
negru, atunci când sondajul 1 a fost ales cel mai omogen iar al II-lea cel mai omogen.
97
Ipoteza H : g 1 = o2 se acceptă deoarece 1 e [0;1.58]. Această ipoteză a stat la baza calculelor
de la punctul a).
O sinteză elegantă a acestor calcule este dată în foaia de calcul C 1P 2 .X L S aflată în Anexă.
Fie două populaţii statistice normale în care însuşirea calitativă X apare cu probabilităţile p 1
Şi p2.
Efectuăm două sondaje simple repetate de volume n1 şi n2. Fie k 1 exemplare din primul
sondaj în care însuşirea X are valoarea 1 şi k2 exemplare din al doilea sondaj în care însuşirea X are
ki respectiv f kn
valoarea 1 deci avem frecvenţele de sondaj f =— 2 =— .
nlf l + n j 2
Frecvenţa sondajelor reunite este f =
n + n2
Teorem a 2.6
Demonstraţie:
ki şi k2 sunt valori ale unor variabile binomiale iar
fk i i
M ( f i ) = M — = — M (k i ) = — • niPi = Pi
v ni ) ni i
Şi analog M ( f 2 ) = P 2 aşa că M ( f 2 - f i ) = M ( f 2 ) - M ( f i ) = P 2 - P l .
De asemenea V ( f ) = V — = -l V (k ) = ^ - n P i (l - Pi ) = —— aşa că
v nl ) nl
vf - f )= vf ) + Vf , )
= + .
n n2
Conform teoremei-limită centrală 1.14 din secţiunea 1.3, variabila normată:
f - f, ) - - f ) ( f - f ) - ( p , - p ,)
u=
^ (/2 - f l) Pl (l - Pl ) , P2 (l - P2 )
n,
este variabilă normală redusă N(0, 1). Q. E.D.
Din teorema 2.6 rezultă: p ( - ua/ 2 < u < ua/ 2) = 1 - a deci un interval de încredere pentru
P2 - P l:
(6) P ( P 2- P l ^ \ { f 2 - f l ) - 5a¡ 2 ( f 2 - ( )+ ( 2] ) = 1 - a
98
1)P2 - Pl G [(f 2 - f l) - S2.5% - f i ) + 52.5%]
cu încrederea de 95%;
2) P l - Pi e [(f 2 - f l) - S0.5%;(f 2 - f l) + ¿ 0.5%]
cu încrederea de 99%;
3) P2 - Pl e [(f2 - f i) - ¿ 0.05%;( f 2 - f i) + ¿ 0.05%]
cu încrederea de 99.9%.
Ipoteza H:p 1 = p2 se acceptă dacă: 0 e f f - f ) - ¿ 25%( / 2 - f ^ ¿ 2s% ] În caz contrar
ipoteza H se respinge după cum urmează:
a) p 1 ^ p2 semnificativ dacă totuşi:
0 G [ ( / 2 - fl ) ~ ¿ 0 .5 % ; ( f l - fl ) ~ ¿ 2 .5 % ] U [ ( / 2 - f ) + ¿ , 5% ; ( / 2 - / ) + ¿ „ .5 % ]
b) p 1 ^ p2 distinct semnificativ dacă totuşi:
0 G [ ( / 2 - fl ) ~ ¿ 0 .0 5 % A f l - f ) - ¿ 0 .5 % ] U [ ( / 2 - f ) + ¿ 0, % i ( / 2 - / ) + ¿ „ .0 5 % ]
E xem plu:
Fie X = ecloziunea ouălelor de găină la incubator. Se fac măsurători pe două rase de găini,
găsindu-se la primul sondaj de n1 = 3000 ouă din prima rasă, frecvenţa ouălelor eclozionate f 1 = 85%
şi la al doilea sondaj de n1 = 2000 ouă din a doua rasă, frecvenţa ouălelor eclozionate f2 = 90%.
Să se găsească intervale de încredere pentru diferenţa p 1 - p2 a probabilităţilor de ecloziune
pentru toate ouălele din care fac parte cele 3000 ouă din primul sondaj faţă de toate ouălele din care
fac parte cele 2000 ouă din al doilea sondaj şi să se testeze ipoteza H:p1 = p2.
Soluţie:
¿a 2 =■ > 0.87(l - 0.87)1 —l— + —l ~ ]• ua 2 = 0.0097ua, 2 şi cum U2.5% = 1.96 ; uo.5% = 2.58;
a 2 \ \ 3000 2 0 0 0 ) a 2 a 2
99
2 .6 T E S T E N E P A R A M E T R I C E ÎN P O P U L A Ţ I I N O R M A L E
Fie o populaţie normală în raport cu însuşirea (caracterul) X a exem plarelor sale şi fie un
sondaj de volum mare (n > 30) cu datele de sondaj independente şi grupate în clasele de valori
C 1, ..., Ck cu centrele de clase x 1, ..., xk şi frecvenţele valorilor în clase n 1, ..., nk (n 1 + ... + nk = n).
D acă există ni < 5, clasele cu aceste frecvenţe se grupează cu clasele vecin e pent ru a avea
ni > 5 . Forma poligonului frecvenţelor observate în sistemul de axe (xi, ni) arată că X este o
variabilă aleatoare clasică (cap. 1 ) cu frecvenţele aşteptate n 'j = n p (0) unde p (0) = P ( X e C j ) ;
(i = 1 , ..., k).
D orim să verificăm ipoteza H: p i = p (0) ,...,p k = p (0) a con cord an ţei prob ab ilităţilor
T eorem a 2.7
Pentru n ^ ro, mărimea:
( n - n ' ) 2 _ ^ (f - p(0))
z 2 = z =n
,(0 )
i=1 n i i i
D em onstraţie:
Valorile n 1, ..., nk sunt pentru n ^ ro, valori ale unor variabile aleatoare Poisson (secţiunea
1.4.3) independente, cu m ediile şi varianţele egale cu n = n p ( 0) , . . . , n (0) deci variabilele normate
(0 )
n i - nP i nk n Pk0)
Ui ,...,u k sunt variabile independente între ele cu m edia 0 şi
(0 )
nP1 V npk0)
varianţa 1 .
Conform teoremei lim ită centrală 1.14, pentru n ^ ro, variabilele aleatoare independente
între ele, u 1, . , uk tind către variabila normală redusă N (0, 1) deci la limită, mărimea:
k k (n - n ) k ( f - p î(0))
X 2 = V u 2 = V ------ ;----- = n V -------- —----- este variabilă hi pătrat cu k - 1 grade de
i=1 i=1 ni i=1 Pi
libertate (se pierde un grad de libertate datorită relaţiei de dependenţă n 1 +. + nk = n).
Uneori numărul de grade de libertate este mai m ic decât k - 1: dacă X este variabilă
binomială sau Poisson avem k - 2 grade de libertate, datorită relaţiei de dependenţă n 1 + ... + nk = n,
n 1x 1 + ... + nk x k = n ' X iar la variabila X = N (0, 1) avem k - 3 grade de libertate, datorită
relaţiilor de dependenţă n 1 + ... + nk = n, n 1x 1 + ... + nk x k = n ' X , n 1(x 1 - X ) 2 + ... + nk (x k - X ) 2 =
(n - 1) . S 2 . Q .E.D .
D in teorema 2.1 rezultă testu l hi p ătrat de con cord an ţă în tr-o p op ulaţie n o rm a lă :
Comparăm mărimea:
2 ^ (n - n ' ) ^ ( f ■p (0) )
z = Z 7 = n T —
i=1 i 1
P
ii
(0)
2 2
cu variabile critice X 0.05 5 X oi; Xo ooi extrase în tabela 6 pe linia a k - 1 grade de libertate.
2 2 (0)
D acă X < Xo 05 , H se acceptă deci pi concordă cu valorile ipotetice p .
100
În caz contrar H se respinge după cum urmează:
2 _ 2 2 \ (0 )
a) D acă X e _ X 0.0 5 ;X 0.01 j atunci p i ^ p i semnificativ;
E xem plu:
Încrucişând după schem a alăturată un soi
de porumb de floricele Pi cu boabe albe şi netede Pi P2
cu un soi P 2 cu boabe albastre şi zbârcite, s-au
obţinut în generaţia F 2 665 boabe albastre şi netede
210 boabe albastre şi zbârcite, 240 boabe albe şi
Fi
netede şi 85 boabe albe şi zbârcite. Bi B2
Să se testeze raportul de segregare 9 : 3 : 3:1
1
al combinaţiilor de caractere precedente.
F2
Soluţie:
Numărul total de boabe este n = 665 + 210 + 240 + 85 = 1200.
Frecvenţele aşteptate sunt n ’i = n ' pi
9
n ’i = 12 0 0 ' — boabe albastre şi netede
16
3
n ’ 2 = 12 0 0 ' — boabe albastre şi zbârcite
16
9
n ’ 3 = 12 0 0 ' — boabe albe şi netede
16 ş
1
n ’ 4 = 12 0 0 ' — boabe albe şi zbârcite
16
9 3
A vem ipoteza H: pi = — , pi = P3 =— , P4
16 16 16
* (n - n ' j 2
X = ------ ;— — devine pentru k = 4:
2=1 n
2 2 2
2 (665 - 675j 2 (2 1 0 - 2 2 5 j2 (2 4 0 - 2 2 5 j2 (85 - 75)
% 1 I ^ 3.48
675 225 225 75
xx 0
2.05 = 7 .881-
1; X2
x 0.01= 11 34-4 ; X2
1 1.3 x 0.001= 16 3 00
1 6 .3
Cum X = 3 .8 4 < X 005 = 7 .8 1 rezultă că ipoteza H se acceptă deci se confirmă raportul
de segregare 9 : 3 : 3 : 1.
În cazul în su şirii X calitative, avem două clase: C în care însuşirea X este prezentă cu
frecvenţa n 1 = n f şi C în care X este absentă cu frecvenţa n 2 = n ( 1 - f).
A vem frecvenţele aşteptate n ’ 1 = np şi n ’ 2 = n(1 - p) aşa că:
101
2 (n ~ n '1 ) 2 | (n - n '2 ) 2 n (/ - P )2
X cu k 2- 1 1 GL. De aici rezultă testu l hi
n' n' P (1 - P )
E xem plu:
Fie X = leucoza vacilor. Într-o fermă cu n = 100 vaci s-a găsit f = 2%. Să se testeze ipoteza
H: p = 1 % faţă de H :p^ 1%
Soluţie:
Pentru n = 100; f= 0 .0 2 ; p0 = 0 .0 1 găsim:
, ( 0 .0 2 - 0 .0 1 )°
= 1 0 0 . - --------- - ----------------A r 1 .0 1 <Zoo5 = 3 84 deci se acceptă ipoteza H: p 1% a incidenţei
0 .0 1 ( 1 - 0 .0 1 )
leucozei pentru toate vacile din care provin cele n = 100 vaci.
Y n. nk Sume
X linii
Ci n mv Si
Ch nh1 nhk Sh
Sume ti ................. tk n
coloane
102
Verificăm ipoteza H: X , Y = independente faţă de alternativa H : X , Y = dependente.
Ca şi teorema 2.7 se demonstrează:
Teorem a 2.8
2 ^
^ (n - n , ) 2
X = ^ ^ ------- ;------ este variabilă hi pătrat cu (h - 1) (k - 1) GL.
i=i -=i n-
De aici rezultă testul hi pătrat de independenţă al însuşirilor X , Y într-o populaţie
norm ală:
Comparăm pe x din enunţul teoremei 2 .8 cu Xoos; xlo\; Xoooi extrase din tabela 3 a
Anexei, pe linia a (h - 1) ' (k - 1) G L şi deci avem:
Dacă x 2 < Xo05 se acceptă ipoteza H: X, Y = independente. În caz contrar respingem
ipoteza H după cum urmează:
a) Dacă x 2 G [Xo os; X°oi), X, Y sunt dependente semnificativ;
Exem plul 1
Fie X = înălţimea la greabăn a viţeilor (cm) şi Y = greutatea viţeilor (kg). Se face un sondaj
de n = 50 viţei şi perechile de date obţinute se clasifică după X, Y în h = k = 3 clase de valori
obţinând tabela de contingenţă 3x3:
Clase X
Viţei scunzi 20(12.5) 5(7.5) 0(5) 25
Viţei potriviţi 10(5) 1 0 (6 ) 5(4) 20
Viţei înalţi 0(2.5) 0(1.5) 5(1) 5
Sum a coloană 25 15 10 n = 50
Soluţie:
s j.
Frecvenţele aşteptate n’ j din paranteze au fost calculate cu relaţia n.. = — -
n
^ , . 25 x 25
De exemplu nxx = ---------= 12.5
50
2
(20 - 12 .5 ) 2 (5 - 7.5 ) 2 (0 - 5 ) 2 (5 - 10 ) 2 (10 - 6)
Avem x 2 = ■+ ■+ +- ■+
12.5 7.5 5 10 6
\2 >2 /- „ „ \2 / „ „\2
+ ( 5 - 4 Ţ + ( 0 - 2 3 Ţ + ( 0 - i l 5 Ţ + ( 5 Z 1 )1 = 3 , . ,
4 2 .5 1 .5 1
Din tabela 3 a Anexei, pe linia cu (h - 1)(k - 1) = (3 - 1)(3 - 1) = 4 G L şi coloanele a =
0,05; 0,01; 0,001 găsim valorile critice: x 0205 = 9 49; X 0201 = 13.28; x 02001 = 18.50 .
103
C um x 2 = 3 5 .8 > Xoooi re z u ltă că H se re s p in g e deci X , Y su n t d e p e n d e n te fo a rte
s e m n ific a tiv .
E xem p lu l 2
F ie X = c u lo a r e o u g ă in ă ; Y = g r e u ta te o u g ă in ă . S e e f e c tu e a z ă u n s o n d a j d e n = 6 0 o u ă c a r e
se g ru p e a z ă în h = 2 c la s e X ( o u ă a lb e şi o u ă b e j) şi k = 3 c la s e Y o b ţin â n d tab ela de con tin gen ţă
2x3:
C lase X
O uă albe 1 0 ( 7 .5 ) 1 5 (1 5 ) 5 ( 7 .5 ) 30
O uă bej 5 ( 7 .5 ) 1 5 (1 5 ) 1 0 ( 7 .5 ) 30
Sum a coloană 15 30 15 n = 60
X
2 (1 0 - 7 .5 ) 2 (1 5 - 1 5 )2 (5 - 7 .5 ) 2 (5 - 7 .5 ) 2 (1 5 - 1 5 )2 ( 1 0 - 7 .5 ) 2
3 .3 3
7 .5 15 7 .5 7 .5 15 7 .5
D in ta b e la 3 a A n e x e i, p e lin ia c u (h - 1 )(k - 1) = (2 - 1 )(3 - 1) = 2 G L şi c o lo a n e le a =
C um x 2 = 3 . 3 3 < X o 05 = 5 9 9 , i p o t e z a H se a c c e p tă d e c i X , Y s u n t in d e p e n d e n te .
E xem p lu l 3
F ie X = le u c o z a v a c ilo r, Y = tra ta m e n t p e n tru le u c o z ă v a c i, se fa c e u n so n d a j în tr - o fe rm ă c u
n = 1 0 0 v a c i, d a te le o b ţin u te se c la s ific ă d u p ă X , Y şi se o b ţin e tab ela de con tin gen ţă 2x2:
C lase X
V aci vin d ecate 8 8 (8 1 ) 2 (9 ) 90
2 (S S -S 1)2 + ( 2 - 9 )2 | ( 2 - 9 )2 | ( 8 - 1)2
X 6 0 .5
81 9 9 1
D in ta b e la 3 a A n e x e i, p e lin ia a (h - 1 )(k - 1) = (2 - 1 )(2 - 1) = 1 G L şi c o lo a n e le a = 0 .0 5 ;
s e m n ific a tiv .
104
Testarea normalităţii populaţiei faţă de însuşirea X se poate face pentru sondaje de volum
mare (n > 30) şi cu ajutorul coeficienţilor de asimetrie şi boltire ale căror valori critice sunt date în
tabela 9.
y n , (x , - X ) 3
Coeficientul de asimetrie este A = ------------ --------- şi dă gradul de asimetrie pe orizontală
nS3
n —
al poligonului frecvenţelor relative observate fi = — faţă de curba normală N( X , S) adică poziţia
n
relativă a tendinţei centrale dată de media X faţă de tendinţa dominantă dată de modul M 0 (vezi
secţiunea 2 .2 .2 )
y ni (x , - X)4
Coeficientul de boltire este B = şi dă gradul de concentrare pe
nS4
verticală a poligonului frecvenţelor relative observate f , = — faţă de cu rb a norm ală N( X , S)
n
(vezi secţiunea 2.2.2).
Avem B > 1.
Exem plu:
Fie X = greutatea viţeilor (kg)
Avem un sondaj de n = 50 viţei cu media X = 64.9 kg, abaterea standard S = 2.3 kg. Datele
se grupează în k = 5 clase de valori C i cu centrele de clasă X i şi frecvenţele absolute în clase ni:
Ci Xi ni
Sub 62 61 kg 7
[62 - 64) 63 10
[64 - 6 6 ) 65 18
[6 6 - 6 8 ) 67 9
peste 6 8 kg 69 6
105
7 (6 1 - 6 4 . 9 ) 3 + 1 0 (6 3 - 6 4 . 9 ) 3 + 1 8 (6 5 - 6 4 . 9 ) 3 + 9 (6 7 - 6 4 . 9 ) 3 + 6 (6 9 - 6 4 .9 ) 3
Avem: A 50 x 2.33
= 0 .0 2
1
B= ■ 7 (6 1 - 6 4 . 9 ) 4 + 1 0 (6 3 - 6 4 . 9 ) 4 + 1 8 (6 5 - 6 4 .9 ) 4 + 9 (6 7 - 6 4 .9 ) 4 + 6 (6 9 - 6 4 .9 ) 4
50 x 2 .3 4 L
= 2 .4 6
Din tabela 9 a Anexei, pentru n = 50 avem valorile critice A 0.05 = 0.5 3 3; A 0.01 = 0.787
Avem A = 0.02 < A 005 = 0.533 deci populaţia din care a fost extras sondajul, este normală
pe orizontală.
Din tabela 9 a Anexei, pentru n = 50 avem valorile critice B 0 99 = 1.95; B 095 = 2 .13 respectiv
B 0.05 = 4.01; B 0.01 = 4.92
Avem B = 2.46 e [B 0 95; B 0 05] deci populaţia din care a fost extras sondajul, este normală pe
verticală.
2.7 REZUMAT
În acest capitol se prezintă tehnicile de sondaj în populaţii statistice omogene şi
neomogene, calculul şi interpretarea indicatorilor de sondaj de repartiţie şi evoluţie precum şi
calculul şi interpretarea indicilor statistici individuali şi sintetici.
În continuare se prezintă conceptele de estimaţie corectă şi absolut corectă a parametrilor
pentru una sau două populaţii (medii, abateri-standard şi probabilităţi), de ipoteză statistică simplă
sau compusă, unilaterală sau bilaterală.
Se prezintă metoda de estimare prin intervale de încredere pentru parametrii precedenţi, testul
hi pătrat de concordanţă, de independenţă a două caractere X, Y şi de normalitate a unei populaţii
în raport cu un caracter.
2.8 ÎNTREBĂRI
1. Clasificaţi sondajele în populaţii statistice omogene şi neomogene.
2. Ce semnificaţie au indicatorii de sondaj de repartiţie?
3. Ce semnificaţie au indicatorii de sondaj de evoluţie?
5. Ce semnificaţie au indicii statistici individuali şi sintetici?
6. Ce este o estimaţie corectă respectiv absolut corectă a unui parametru din populaţie?
7. Ce este o ipoteză statistică simplă sau compusă, unilaterală sau bilaterală?
8. Ce este funcţia de putere a testului?
9. Ce este un interval de încredere?
10. Cum se aplică testul hi pătrat de concordanţă în genetica mendeliană?
11. Cum se folosesc tabelele de contingenţă în testarea independenţei a două caractere?
12. Cum se testează normalitatea unei populaţii în raport cu un caracter prin asimetrie şi boltire?
2.9 BIBLIOGRAFIE
1. D. Ene, M. Drăghici, I.N. Alecu: “ Statistică aplicată în agricultură” , Ed. Ceres, 2003
2. M. Iosifescu şi col.: “ Mică enciclopedie de statistică” , Ed. Ştiinţif. şi Enciclop., 1985
3. Anuarul statistic al României, 1990 - 2009
106