Sunteți pe pagina 1din 37

UNIVERSITATEA DE ȘTIINȚE AGRONOMICE ȘI

MEDICINĂ VETERINARĂ DIN BUCUREȘTI


FACULTATEA DE MANAGEMENT SI DEZVOLTARE
RURALA

INFORMATICĂ SI NOȚIUNI
DE STATISTICĂ

Coordonator științific:
Prof. univ. dr. DUMITRU ENE

Student:
CRĂCIUN VASILE MDR

BUCUREȘTI - Ianuarie 2022

-0-
CUPRINS

I. DIGITALIZAREA ANALIZEI STATISTICO-ECOOMICE A


AGRICULTURII ROMANESTI CU PRODUSUL INFORMATIC EXCEL... 2

Introducere................................................................................................................................2
1. Foi de calcul statistic în EXCEL...................................................................................2
2. Funcții EXCEL.............................................................................................................3
3. Baze de date în EXCEL................................................................................................5
4. Diagrame în EXCEL.....................................................................................................5

II. ROLUL STATISTICII ÎN ANALIZA SI PROGNOZA PRODUCTIEI


AGRICOLE LA NIVEL MICRO SI MACRO IN ROMANIA......................... 6

III. BIBLIOGRAFIE..................................................................................... 28

1
DIGITALIZAREA ANALIZEI STATISTICO-ECOOMICE A
AGRICULTURII ROMANESTI CU PRODUSUL
INFORMATIC EXCEL

Introducere

Evenimentele se pot impartii in doua mari categorii:


 Evenimentele deterministe sunt cele care se realizează totdeauna sau niciodată.
 Evenimentele aleatoare (întămplătoare) sunt cele care se realizează într-o proporție
oarecare (cuprinsă între 0 % și 100 % ) fiind parțial sau total sub influența
întămplării sau hazardului.

Natura și mediul de afaceri sunt dominate de evenimente aleatoare.


Statistica este partea aplicată a fenomenelor aleatoare, studiază colectivități nu exemplare
izolare și are ca scop luarea unor decizii rapide și corecte bazate pe culegerea și prelucrarea
datelor reale din teren.
Rapiditatea deciziei este asigurată de folosirea computerelor, iar corectitudinea deciziei este
dată de folosirea metodelor eficiente ale statisticii (corelații și regresii, analiza varianței, etc.).

MicroSoft Office cuprinde pe langa editorul de text Word, programul de prezentare


Power Point, programul de email OutLook si programul de Calcul Tabelar EXCEL cu
ajutorul caruia, se pot lua decizii când trebuie și cu intensitatea care trebuie privind
cantitatea, calitatea și vandabilitatea produselor agroalimentare pentru piața internă și la
export.
EXCEL este cel mai cunoscut produs de calcul tabelar şi dispune de pachete de funcţii diverse,
poate gestiona baze de date si are posibilităţi de reprezentări grafice.

1. Foi de calcul statistic în EXCEL

Pentru a efectua Calcule statistice cu opţiunea DATA ANALYSIS trebuie activata opţiunea
Add- Ins din meniul TOOLS si apoi sunt disponibile urmatoarele:
 Analiza varianţei monofactorială (ANOVA:single factor);
 Analiza varianţei bifactorială cu interacţiuni (ANOVA :two factor with replication);

2
 Planul blocurilor complete randomizate (ANOVA :two factor without replication);
 Calculul coeficientului de corelaţie liniară (Correlation);
 Calculul covarianţei (Covariance);
 Statistică descriptivă (Descriptive statistics);
 Regresie exponenţială (Exponential Smoothing);
 Testul F pentru varianţe în două sondaje (F-Test : two sample for variance);
 Analiză Fourier (Fourier analysis);
 Histograme (Histogram);
 Medii mobile (Moving average);
 Generarea de numere aleatoare (Random number generation);
 Rang şi percentile (Rank and percentile);
 Calculul coeficientului de regresie liniară şi al termenului liber al regresiei (Regression);
 Eşantionare (Sampling);
 Testul t pentru medii în observaţii-perechi (t –test: paired two sample for means);
 Testul t pentru medii în două sondaje cu varianţe egale în populaţii (t – test : two sample
assuming equal variances);
 Testul t pentru medii în două sondaje cu varianţe neegale în populaţii (t – test :
two sample assuming unequal variances);
 Testul z pentru medii în două sondaje din populaţii normale (z – test : two sample
for means)
O foaie de calcul statistic conţine celule cu :
 text,
 litere cu notaţia mărimilor,
 valori numerice observate,
 valori numerice calculate prin formule proprii şi/sau cu funcţii EXCEL.
Celulele care conţin valori numerice calculate vor date în liste care urmează după foaia de
calcul cu formulele aferente.

2. Funcții EXCEL

Funcţii EXCEL care apar în formule sunt de mai multe tipuri:


2.1. Funcții matematice

3
2.2. Funcții statistice:

= MAX(A1:An) valoarea cea mai mare dintre numerele din celulele A1,…,An.
= MIN(A1:An) valoarea cea mai mică
= AVERAGE(A1:An) mediei aritmetice
= GEOMEAN(A1:An) valoarea mediei geometrice
= HARMEAN(A1:An) valoarea mediei armonice.
= MEDIAN(A1:An) valoarea medianei
= MODE(A1:An) valoarea modului numerelor din celulele A1,…,An cu condiţia ca cel puţin
două din aceste numere să fie egale între ele.
= QUARTILE(A1:An ; Q) valoarea quartilei Q1 pentru Q=1 ; Q2(mediana) pentru Q = 2 ; Q3
pentru Q = 3 a numerelor din celulele A1,…,An .
= VAR(A1:An) valoarea varianţei numerelor din celulele A1,…,An .
= STDEV(A1:An) valoarea abaterii-standard a numerelor din celulele A1,…,An .
= COVAR((A1:An),(B1:Bn)) covarianţei numerelor din celulele A1,…,An cu numerele din
celulele B1,…,Bn .
= CORREL((A1:An),(B1:Bn)) valoarea coeficientului de corelaţie liniară al numerelor din celulele A1,
…,An cu numerele din celulele B1,…,Bn .
= SLOPE((A1:An),(B1:Bn)) valoarea coeficientului de regresie liniară al numerelor din celulele
A1,…,An cu numerele din celulele B1,…,Bn .
= INTERCEPT((A1:An),(B1:Bn)) valoarea termenul liber al regresiei liniare a numerelor din
celulele A1,…,An cu numerele din celulele B1,…,Bn dacă regresia liniară este cu termen liber
nenul.
= NORMDIST(u) funcţiei de repartiţie normale reduse ( valori care se pot găsi şi în tabela 1)
= CHIINV(P,GL) valoarea 2 pentru care P(2 > 2) =  la GL grade de libertate(valori care
se pot găsi şi în tabela 3)
= TINV(P,GL) valoarea t/2 pentru care P(t > t/2 la GL grade de libertate(valori care se
pot găsi şi în tabela2)
= FINV(P,GL1,GL2) valorile F pentru care P(F> F) =  la (GL1,GL2) grade de libertate (
valori care se pot găsi şi în tabelele 4,5,6 pentru  = 0.05; 0.01; 0.001.
Alte funcţii statistice : TREND, FORECAST, LINEST, LOGEST, RAND.
2.3. Funcții logice: AND, OR, .... .

4
Baze de date în EXCEL

Bazele de date sunt colecţii de date eterogene, organizate pe câmpuri omogene.


Ansamblul câmpurilor defineşte structura bazei de date şi se găseşte pe prima linie a tabelului
matricial care defineşte baza. Celelalte linii ale tabelului sun ocupate de articolele bazei cu
valori în câmpurile bazei. Ansamblul articolelor bazei defineşte conţinutul bazei.
2.4. Funcţii EXCEL pentru baze de date

= DCOUNT(A1:An , ”Nume câmp”,An+1,An+2 ) Se numără cîte valori din celulele A1,…,An


îndeplinesc un criteriu pentru câmpul numeric specificat între ghilimele; în celula An+1 este
numele câmpului iar în celula An+2 este criteriul după care se face numărătoarea .
= DSUM(A1:An , ”Nume câmp”,An+1,An+2 ) Se calculează suma valorilor din celulele
A1,…,An pentru câmpul numeric specificat între ghilimele; în celula A n+1 este numele
câmpului iar în celula An+2 este criteriul după care se face suma .
= DMAX(A1:An , ”Nume câmp”,An+1,An+2 ) Se calculează valoarea maximă din celulele A1,
…,An pentru câmpul numeric specificat între ghilimele; în celula An+1 este numele câmpului
iar în celula An+2 este criteriul după care se calculează maximul .
= DMIN(A1:An , ”Nume câmp”,An+1,An+2 ) Se calculează valoarea minimă din celulele A1,
…,An pentru câmpul numeric specificat între ghilimele; în celula An+1 este numele câmpului
iar în celula An+2 este criteriul după care se calculează minimul .
= DAVERAGE(A1:An , ”Nume câmp”,An+1,An+2 ) Se calculează valoarea medie din celulele
A1,…,An pentru câmpul numeric specificat între ghilimele; în celula An+1 este numele
câmpului iar în celula An+2 este criteriul după care se calculează media .
= DVAR(A1:An , ”Nume câmp”,An+1,An+2 ) calculează varianţa valorilor din celulele A1,
…,An pentru câmpul numeric specificat între ghilimele; în celula An+1 este numele câmpului
iar în celula An+2 este criteriul după care se calculează varianţa . = DSTDEV(A1:An
, ”Nume câmp”,An+1,An+2 ) Se calculează abaterea-standard a valorilor din celulele A1,…,An
pentru câmpul numeric specificat între ghilimele; în celula An+1 este numele câmpului iar în
celula An+2 este criteriul după care se calculează abaterea-standard.

4.1. Diagrame în EXCEL


Produsul informatic EXCEL oferă şi facilităţi de reprezentare grafică a unuia sau a

5
mai multe cămpuri ale unei baze de date prin diagrame plane(2-D) sau spaţiale (3-D).

6
Pentru aceasta se selectează cîmpurile pe care le vom reprezenta grafic şi se deschide
butonum CHART din bara de butoane standard cu clic stânga pe mouse sau se alege comanda
CHART din meniul INSERT si se parcurg paşii următori:
 Se alege tipul şi subtipul de diagramă;
 Se selectează domeniile de date (dacă nu au fost selectate anterior) şi se precizează
orientarea seriilor de date pe linii sau coloane,
 Se precizează elementele diagramei: titlu, denumiri axe, legendă, grilaje, etichete, tabel de
date,
 Se plasează diagrama pe foaia de calcul existentă sau pe altă foaie de calcul,
 Trecerea de la un pas la altul se face cu butonul NEXT,
 se încheie cu butonul FINISH.

Tipuri de diagrame
I) Diagrame plane (2-D)
1) Linie (Line),
2) Puncte(Scatter),
3) Arii (Area),
4) Bare orizintale (Bar),
5) Bare verticale (Columns),
6) Sectoare de cerc (Pie),
7) Coroane circulare (Doughnut),
8) Radiale (Radar),
9) Combinate (Combination).
II) Diagrame spaţiale (3-D)
10) Suporafeţe (3-D Area),
11) Benzi spaţiale (3-D Line),
12) Paralelipipede orizontale (3-D Bar),
13) Paralelipipede verticale (3-D Column),
14) Sectoare de cilindru (3-D Pie),
15) Relief (3-D Surface).

7
ROLUL STATISTICII ÎN ANALIZA SI PROGNOZA
PRODUCTIEI AGRICOLE LA NIVEL MICRO SI MACRO
IN ROMANIA

Prelucrand datele din Anuarul Statistic al Romaniei pe anii anteriori care cuprinde informatii
despre resurse mecanice, producții la diferitele culturi, efective de animale si productiile
animaliere, precipitatiile si temperaturile medii lunare, etc. se pot obtine prognoze si evolutii
privind productiile viitoare din agricultura tarii noastre.

Un experiment este aleator dacă rezultatele sale nu pot fi prevăzute cu exactitate, fiind sub
influenţa întâmplării. Totalitatea rezultatelor posibile ale unui experiment aleator se numeşte
spaţiu de evenimente elementare şi se notează cu Ω. Dacă mulţimea Ω este finită sau
numărabilă (şir), orice submulţime A  Ω se numeşte eveniment. Evenimentele A, B sunt
incompatibile dacă nu se realizează simultan, în caz contrar A şi B se numesc compatibile.
[VC1]

Populaţii statistice şi sondaje

Populaţia statistică este o mulţime de exemplare care aparţin aceleiaşi familii şi care fac
obiectul cercetării statistice. Cercetarea statistică poate fi completă sau exhaustivă (pentru
toate exemplarele populaţiei) de tip referendum sau recensământ sau poate fi parţială sau
selectivă de tip sondaj (eşantion, probă, sondaj de opinie) (pentru o parte reprezentativă
din exemplarele populaţiei).

Exemple de populaţii statistice în agricultură: plantele unei culturi într-o parcelă, animalele
unei ferme zootehnice, maşinile agricole care deservesc o suprafaţă arabilă, fermele vegetale
sau zootehnice dintr-un judeţ, unităţile de prelucrare a produselor agricole (mori, fabrici de
ulei, zahăr, produse lactate, mezeluri, abatoare, etc.), magazinele care comercializează
produse alimentare, reţeaua de case de agroturism, reţeaua de unităţi de alimentaţie publică,
etc.
Fiecare exemplar al populaţiei statistice are o serie de însuşiri cantitative (măsurabile) sau
calitative (atributive) notate X, Y, Z, … sau X1, X2, …, Xn pe care le vom numi în continuare
şi caractere.

8
Pentru populaţiile statistice din agricultură, însuşirile admit şi alte clasificări:
 după natură: însuşiri biologice, tehnologice, economice, ecologice,
 după modul de exprimare numerică: însuşiri bivalente (0 sau 1), întregi şi
reale (fracţionare),
 după modul de apreciere: însuşiri primare (numai măsurabile) şi însuşiri derivate
(măsurabile sau calculabile),
 după gradul de generalitate: însuşiri individuale (proprii fiecărui element
al populaţiei) şi colective (proprii unor grupe de elemente ale populaţiei).

Exemple de însuşiri individuale:


 talia plantei,
 suprafaţa foliară a plantei,
 greutatea şi densitatea plantei,
 dimensiunile fructelor,
 greutatea şi densitatea fructelor,
 numărul de boabe din fruct,
 dimensiunile boabelor,
 greutatea şi densitatea boabelor,
 conţinutul în substanţe nutritive al fructelor sau boabelor.

Exemple de însuşiri individuale la animale:


 înălţimea la greabăn,
 înălţimea la crupă,
 lungimea corpului,
 circumferinţa toracică,
 greutatea şi densitatea corpului,
 dimensiunea organelor interne (ficat, inimă, rinichi, creier, etc.),
 greutatea şi densitatea organelor interne,
 greutatea şi densitatea produselor zootehnice (lapte, grăsime şi proteină în lapte,
carne, etc.),
 conţinutul în substanţe nutritive al produselor zootehnice.

Însuşirile individuale precedente devin colective dacă se însumează pentru plantele unei
culturi de pe o parcelă dată sau pentru animalele dintr-o fermă zootehnică dată.

9
 Menţionăm şi următoarele însuşiri colective:
 Consumul de resurse (forţă de muncă, forţă mecanică, energie, îngrăşăminte, apă,
furaje, medicamente etc.) pentru o societate agricolă (vegetală, zootehnică, de
prelucrare produse agricole, de comercializare produse alimentare, de
agroturism) într-un ciclu de producţie,
 Costul resurselor pe unitate de resursă pentru o societate agricolă într-un ciclu de
producţie,
 Cheltuielile cu resurse (consumuri înmulţite cu costurile) însumate pentru o societate
agricolă într-un ciclu de producţie,
 Cheltuielile neproductive (TVA, taxe, impozite etc.) ale unei societăţi agricole într-un
ciclu de producţie,
 Producţii fizice principale şi secundare ale unei societăţi agricole într-un ciclu de
producţie,
 Preţurile de vânzare ale producţiilor fizice principale şi secundare pe unitate, pentru o
societate agricolă într-un ciclu de producţie,
 Veniturile (producţii fizice înmulţite cu preţurile de vânzare) însumate pentru o
societate agricolă într-un ciclu de producţie,
 Profitul (venitul din care se scad cheltuielile totale cu resursele cât şi cele
neproductive) realizat de societatea agricolă într-un ciclu de producţie,
 Rata profitului (profitul împărţit la cheltuielile totale) realizată de societatea
agricolă într-un ciclu de producţie.

Pentru comparaţia între ele, însuşirile colective se raportează la un exemplar, lungime,


suprafaţă, volum, greutate, timp, unitate bănească, etc.) obţinând însuşiri medii.
Exemple: consumul mediu de motorină pe ha, consumul mediu de furaje pe cap de
vacă, profitul mediu pe lună al unei unităţi de agroturism, etc.
În agricultură, omul nu poate controla în totalitate factorii de producţie sau de vânzare a
produselor agricole, de aceea însuşirile precedente sunt parţial sau total sub influenţa
întâmplării (hazardului) fiind de fapt în fiecare moment, variabile aleatoare iar în timp,
procese aleatoare .
Acţiunea întâmplării asupra însuşirilor (caracterelor) în agricultură se concretizează în
variabilitatea valorilor acestora în spaţiu, timp, structură, etc. variabilitatea poate fi
accidentală (involuntară) sau sistematică(cu o cauză precisă).

1
Variabilitatea accidentală este presupusă a fi o variabilă normală cu media 0 şi abaterea –
standard σ.
Exemple de surse de variabilitate:
 variabilitatea genotipică a plantelor şi animalelor,
 condiţiile pedoclimatice,
 atacul buruienilor, bolilor şi dăunătorilor,
 conjunctura economică (raport ofertă/cerere) pe piaţa produselor agroalimentare.

Fie o populaţie statistică de volum N pe care dorim să o studiem din punct de vedere al
însuşirii (caracterului) X pe care o posedă exemplarele populaţiei.
Din cauza volumului mare N al populaţiei, nu vom face măsurători complete în toată
populaţia ci vom extrage o parte reprezentativă din exemplarele populaţiei, numită sondaj
(eşantion, probă) pe care vom face măsurători relativ la însuşirea (caracterul) X.
n
Volumul sondajului se notează cu n iar raportul (%) se numeşte cotă de reprezentare
N
sau factor de sondaj.

Indicatori de sondaj de repartiţie

Cazul sondajului de volum mic (n < 30)

În acest caz datele nu se grupează în clase de valori, prelucrarea la


statistică reducându-se la calculul următorilor indicatori statistici:
I. Media de sondaj

X  MX 
 xi
n
Media de sondaj este centrul de greutate al datelor de sondaj x1, …, xn fiind cea
mai apropiată de ansamblul valorilor: SPA(x) = (x1 – x)2 +…+ (xn – x)2 este minimă pentru

x= x.
Aici SPA este prescurtarea pentru suma patratelor abaterilor.

Calităţi ale mediei

a)
Este o valoare mărginită: X [x min; x max];

1
b)
Nivelează diferenţele între valori: suma abaterilor valorilor de sondaj faţă de

media lor este zero (xi - X ) = 0;


c)
Este reprezentantul întregului pachet de date de sondaj: suma valorilor de

sondaj este media lor înmulţită cu numărul lor (xi = n . X ).


Defecte ale mediei
d)
Prin nivelare, media nu dă informaţii despre variabilitatea datelor de sondaj.
Acest defect se remediază prin folosirea indicatorilor statistici de variabilitate între
care cităm abaterea standard S şi coeficientul de variabilitate c ,care vor fi prezentaţi mai
jos.
e)
Media este legată de o unitate de măsură deci nu permite comparaţii între caractere.

Pentru comparaţii se poate folosi media Xp  Xmax  X 0;1.


procentuală
Xmax  Xmin
f)
Media este sensibilă la valori de sondaj mult mai mici sau mult mai mari ca restul
datelor de sondaj. Acest defect se remediază fie eliminând aceste valori din rândul datelor de
sondaj ca valori străine fie folosind mediana prezentată mai jos.
g)
Media este sensibilă la codificarea datelor. Conform teoremei 6.1 orice
operaţie aritmetică efectuată cu datele de sondaj, trebuie efectuată şi asupra mediei de
sondaj.
Dacă sondajul a fost stratificat, datele de sondaj au forma:

x11, …, x1,n1 extrase din stratul 1 şi cu media de sondaj X

Xk1, …, Xk,nk extrase din stratul k şi cu media de sondaj X k.

Volumul sondajului stratificat este n = n1 + … + nk iar media de sondaj X a

sondajului stratificat este medie


n1 X 1  ...  nk Xk
X
ponderată: n1  ...  nk
Media de sondaj de la punctul 1) se mai numeşte şi medie aritmetică de sondaj.
Se folosesc în anumite cazuri şi alte medii:
1
- media Xg  x1x 2 ...xn de unde
geometrică:
n

log Xg  log X1  ...  log X n


n
1
1  ...  1
1 X Xn
- media armonică:  1
Xa n

 X2  ...  X2 12
-pătratică:
media
X2   1 n 

n 
 
Avem X a ≤ X g ≤ X .
II. Mediana Me este acea valoare faţă de care jumătate din numărul valorilor de
sondaj sunt mai mici ca ea şi cealaltă jumătate din numărul valorilor de sondaj sunt mai mari
ca ea.
Aranjăm datele de sondaj în ordine crescătoare: x1 < x2 < … < xn.
1
Dacă n = număr par avem Me  
   x k1  iar dacă n = număr impar avem

2
 2 2 
Me  X k 1
.
2

Mediana Me este mai stabilă faţă de media X la valori de sondaj foarte mici faţă de
restul valorilor de sondaj, deoarece ia în calcul numărul de valori de sondaj nu şi mărimea
valorilor de sondaj.
În plus, SMA(X) X1  X  ... Xn  X este minimă pentru X = Me.
=

Aici SMA este prescurtarea pentru suma modulelor abaterilor. Mediana primei
jumătăţi a datelor de sondaj crescătoare, se numeşte cuartila întâia Q1 . Me = Q2. Analog Q3
pentru a doua jumătate a datelor .
Media şi mediana au fost indicatori de poziţie pentru datele de sondaj.
Urmează indicatori de variabilitate pentru datele de sondaj.

III. Varianţa (dispersia)


  X 2
 X
2  xi  
VS 2
xi 
 n 

1
este aţia atică totală SPA
vari pătr =
n1 n1
(xi - X )2 raportată la numărul gradelor de libertate GL = n – 1.
Datele de sondaj X1, …, Xn sunt independente dar satisfac o relaţie de dependenţă:

1
xi = n . X şi de aceea avem GL = n – 1 .
IV. Abaterea - standard

S  xi X 2 este principalul indicator valoric al variabilităţii fiind o abatere


n1
mijlocie a datelor de sondaj faţă de media lor X .
Calităţi ale abaterii-standard
1)
Abaterea standard este mărginită (cuprinsă între abaterea minimă amin şi cea
maximă amax a datelor de sondaj faţă de media lor X .
Defecte ale abaterii-standard
2)
Abaterea standard S este legată de o unitate de măsură (aceeaşi ca şi pentru media

X ) deci nu permite comparaţii între caractere.


Pentru comparaţii se poate folosi abaterea standard procentuală

Sp 
a max  0;1.
S
a max  a min
3)
Abaterea standard este sensibilă la înmulţirea sau împărţirea datelor de
sondaj conform teoremei 6.2.
4)
Abaterea standard singură nu poate aprecia intensitatea variabilităţii datelor de
sondaj.

Valorile Ui = (Xi - X )/ S se numesc reduse sau normate. Avem :


M(Ui) = 0 şi V(Ui)= 1.

V. Coeficientul de variabilitate
S
c 100
X este principalul indicator procentual al variabilităţii datelor de sondaj în

jurul mediei la X . El măsoară variabilitatea datelor luând ca unitate de măsură nu unitatea de


măsură a caracterului X ci media de sondaj X .

Calităţi ale coeficientului de variabilitate

1
1) Coeficientul de variabilitate c este o valoare mărginită (cuprins a min
între 100
Xmax
amax
şi 100 ).
Xmin
2) Coeficientul de variabilitate c nu are unităţi de măsuri, deci permite comparaţii
între caractere.
3) Coeficientul de variabilitate c poate aprecia cu ajutorul unor praguri intensitatea
variabilităţii datelor de sondaj în jurul mediei lor.
În raport de valorile coeficientului de variabilitate c avem cazurile:
a) Coeficientul de variabilitate c are o valoare mică. În acest caz

variabilitatea datelor de sondaj este mică, omogenitatea este mare şi media X este
foarte bună;
b) Coeficientul de variabilitate c are o valoare mijlocie. În acest caz variabilitatea

datelor de sondaj este mijlocie, omogenitatea lor este mijlocie şi media X este bună;
c) Coeficientul de variabilitate c are o valoare mare. În acest caz

variabilitatea datelor este mare, omogenitatea este mică şi media X este


satisfăcătoare.
De exemplu pentru agricultură cazurile precedente au forma:
a) c < 10%; b) c  (10%; 20]; c) c > 20%.
În cazul c) se pune problema existenţei unei cauze sistematice pentru variabilitatea
mare a datelor de sondaj.

Exemplu Fie o populaţie statistică de plante de porumb la recoltarea pe suprafaţa de 1 ha cu


volumul populaţiei N = 75000 plante recoltabile. Fie X = greutatea boabelor pe plantă la
recoltare (g).

1
Efectuăm un sondaj de n = 10 plante reprezentative deci cota de reprezentare este
n
 1 : 7500 plante.
N
Xi Xi- (Xi- X Xi  X
Datele de sondaj se aranjează în ordine X )2 S
crescătoare în tabelul alăturat.
40 -10 100 -1.43
Avem indicatorii de sondaj:
42 -8 64 -1.14
500
I) X  50 g/plantă 45 -5 25 -0.71
10 45 -5 25 -0.71
II) Me ϵ [48; 51] deci
48 -2 4 -0.29
51 1 1 0.14
Me = 49.5 g/plantă 54 4 16 0.57
448 57 7 49 1.00
III) S 
2
 49.8g 2 58 8 64 1.14
10 1 60 10 100 1.43
IV) S  49.8  7g / plantă 500 0 448 -
7
V) C  14%
50
Cazul sondajului de volum mare (n > 30)

În acest caz se face gruparea datelor de sondaj în clase de valori astfel: se fixează
numărul k de clase de valori care nu trebuie să fie nici prea mic, deoarece se şterg trăsături
esenţiale ale datelor de sondaj, nici prea mare, deoarece se pun în evidenţă trăsături
neesenţiale ale datelor de sondaj.
Acest număr k de clase de valori se poate calcula cu una din formulele k < 5 log n, k =
1 + 3.322 log n sau se folosesc recomandabil orientative de mai jos.

Volum sondaj (n) Nr. clase de valori (k)


30 – 40 5
41 – 60 6
61 – 80 7
81 – 100 8
101 – 125 9
126 – 150 10
151 – 175 11

1
176 – 200 12
201 – 400 13
401 – 600 14
601 – 800 15
801 – 1000 16
1001 – 2000 17
2001 – 3000 18
3001 – 4000 19
4001 – 5000 20
X max  X min
Lungimea unei clase de valori este  .
nr. clase de valori k
Centrul clasei de valori Ci , notat cu xi, este mijlocul clasei adică media aritmetică a
valorilor extremităţilor clasei Ci.
Centrul clasei xi aproximează toate valorile de sondaj în clasa Ci, fiind reprezentantul
acestor valori.
Frecvenţa absolută ni a valorilor de sondaj într-o clasă de valori Ci este numărul
datelor de sondaj care cad în clasa respectivă, valori aproximate prin centrul clasei xi.
Frecvenţa relativă (procentuală)fi a valorilor de sondaj într-o clasă de valori Ci este

ni
f 
i . Alături de frecvenţele precedente se pot folosi frecvenţele cumulate calculate
n
astfel: Frecvenţele absolute cumulate:
n*i = n1 + n2 + … + ni (1 < i < n)
Frecvenţele relative cumulate:
f*i = f1 + f2 + … + fi (1 < i < n)
Datele grupete se pot prezenta grafic prin histograme în raport cu sistemul de axe (Ci,
ni), poligonul frecvenţelor în raport cu sistemul de axe (xi, ni) şi respectiv cumulata în
 * 
raport cu sistemul de axe x
 i  ; n i  .
 2 
Toate aceste operaţii de grupare, tabelare şi reprezentare grafică se pot face cu
programul C1GRUP sau cu EXCEL.
Pentru datele de sondaj grupate, indicatorii de sondaj de la punctele 5.2 I) – V) capătă
forma:

1
I) Media de sondaj:

1
1 k k
X 
n  nixi   fixi
i1 i1

II) Mediana de sondaj:

Me se determină grafic cu ajutorul cumulatei fiind abscisa de pe


axa
xi 
2

cosespunzătoare ordonatei ni* = n /2

III) Modul de sondaj:


Clasa modală Mo este acea clasă Ci cu ni maxim. Modul Mo se determină grafic în clasa
modală cu ajutorul histogramei :

Spre deosebire de media X care dă tendinţa centrală a datelor de sondaj ,modul Mo dă


tendinţa sa principală ,numindu-se din acest motiv, valoare dominantă sau principală.
Există date de sondaj cu mai multe moduri(plurimodale).
Dacă datele de sondaj negrupate X1,…,Xn sunt depuse în celulele A1: An din
coloana în EXCEL şi cel puţin două din aceste valori sunt egale ,modul Mo este

2
dat de funcţia EXCEL scrisă în celula B10: = MODE (A1:An ).

IV) Abaterea standard de sondaj:

1 k n k
niiX  X  f X  X
2 2
S 
n1 n 1 ii
i 1 i1

Datorită grupării în clase de valori şi a aproximării valorilor dintr-o clasă cu centrul


2
clasei xi, S suferă o eroare care se înlătură prin corecţia S2 
S' 12 unde l este
Sheppard

lungimea claselor de valori.


S
V) Coeficientul de variabilitate de sondaj: c  100
X
3
1 X X
k
1k
VI) Coeficientul de asimetrie de sondaj: A   n  i   n U 3
i i
n i1 i  S  n i1

Acest coeficient evaluează deplasarea pe orizontală a poligonului frecvenţelor faţă de

graficul funcţiei de repartiţie N( X , S) conform figurii :

V) Coeficientul de boltire de sondaj:


1
B k  Xi  X 
1n 4
k
nU4
  i i
 i
n i1  S n i1

Acest coeficient evaluează deplasarea pe verticală a poligonului frecvenţelor faţă de

graficul funcţiei de repartiţie N( X , S) conform figurii :

2
Se numeşte structură de date cu k componente ansamblul de numere
f1,…,fk care îndeplinesc condiţiile :
0≤ fi ≤ 1 (1≤ i ≤ k ) şi f1 +…+ fk = 1 (f1,
…,fk) se numeşte vectorul structurii .

Exemple
1) Frecvenţele relative f1,…,fk ale datelor de sondaj de volum mare,grupate în clasele de
valori C1,…,Ck cu centrele de clase x1,…,xk definesc structura sondajului pe clase de
valori .
2) Fie k ramuri ale unei unităţi economice şi fie C1,…,Ck cheltuielile totale
(productive şi neproductive) anuale ale ramurilor.Cheltuielile totale anuale
ale întregii unităţi sunt C = C1+…+Ck
Numerele f1=C1/ C ,…,fk = C1/ C definesc structura de cheltuieli a unităţii pe ramuri .
In mod analog, fie V1,…,Vk veniturile totale anuale ale ramurilor şi fie
V = V1+…+Vk total anual al unităţii .
Numerele f1 = V1/ V ,…, fk = Vk/ V definesc structura de venituri a
unităţii pe ramuri .
Concentrarea unei structuri de date este tendinţa de creştere a ponderii
fi a unei componente în detrimentul celorlalte,inclusiv micşorarea numărului k de
componente .
Concentrarea structurii este maximă dacă fi = 1 şi fj = 0 pentru j≠ i.
Diversificarea structurii de date este tendinţa de egalizare valorică a

2
ponderilor f1,…,fk ale celor k componente ale structurii, inclusiv prin mărirea numărului k
de componente .
Diversificarea structurii este maximă dacă f1=…= fk = 1/k .
Media valorilor f1,…,fk este f‾ = 1/k iar abaterea-standard a valorilor
f1,…,fk este :

S  f 1
2
i deoarece
k1
f i 1

Pentru concentrarea maximă avem S= 1 / (k)1/2 iar pentru diversificarea


maximă avem S = 0 .
Abaterea-standard corectată :


S  k .S 
1 i 2
kf
[0;1]
k1

este un indicator al concentrării structurii pe componente şi se poate exprima în


procente.
Entropia structurii este dată de relaţia:
H   f .og
i=1
k
i
2 fi

Valorile lui - f.log2f se pot lua din tabela 16 din secțiunea Tabele statistice .
Avem H=0 pentru concentrarea maximă şi H= log2 k pentru diversificarea maximă .
Entropia ajustată :
k
1
H   f .og f
og k i12
i
2 i

este indicator al diversificării structurii pe componente şi se poate exprima în procente .


Fie două structuri de date cu vectorii de structură (f1,…,fk) şi (g1,…,gk)
Mediile lui f1,…,fk şi respectiv g1,…,gk sunt f = g = 1/k .
Legătura între cele două structuri se măsoară prin coeficientul de corelaţie
liniară R :

k  fi gi 1 [1;1]
R
 i 2 1)
(kf1)(kg i
2

Coeficientul de regresie liniară între cele două structuri are forma :

2
k  fi gi  1
B1 
k fi 1
2

iar termenul liber al regresiei este :

B
f gB. B 1   f  f g2

1 i i

k  f i 1
0 1 2
k
Dacă | R | =1 avem legătura funcţională liniară între
cele două structuri ,dată de relaţia: g = B0 + B1.f
Avem R=1 dacă B1>0 şi R=-1 dacă B1<0 .
Dacă R = 0 ,cele două structuri nu sunt corelate liniar .
Exemplu
Dacă (f1,…,fk) este structura de venituri sau cheltuieli a unei unităţi
economice în anul de bază şi (g1,…,gk ) este structura de venituri sau cheltuieli a aceleiaşi
unităţi în anul curent, R măsoară gradul de stabilitate a structurii în timp .
Dacă caracterul X are numai valori întregi, datele de sondaj de volum mare (n > 30)
se pot grupa pe valori distincte Xi cu frecvenţele absolute ni sau se poate alege un număr de
clase k astfel ca lungimea l a claselor să fie număr întreg deci şi limitele claselor să fie
numere întregi.

Exemplu

Într-un miniincubator avem o populaţie statistică de N = 1000 ouă. Efectuăm un


sondaj reprezentativ de n = 50 ouă şi găsim k = 6 ouă neeclozionate. Să se calculeze
frecvenţa de sondaj a ouălor neeclozionate.

Soluţie

k 6
f   12%
n
50
Exemple de însuşiri calitative (atributive) în agricultură
- ecloziune ouă, culoare ouă, rezistenţa la manipulare ouă;
- viabilitate purcei sugari, pui de o zi;
- stare de gestaţie la animale;
- stare de profitabilitate a unei societăţi agricole.

2
3.3 Indicatori de sondaj de evoluţie

2
În secțiunea 3.2 a fost studiată o populație statistică pe care am studiat-o din punct
de vedere al repartiției în spațiu prim măsurători simultane în locuri diferite a valorilor
îsușirii cantitative sau calittative X.Din acest motiv valorile lui X au fost abordate în orice
ordine dorim.
Fie o populaţie statistică pe care o studiem din punct de vedere al evoluției
în timp prim măsurători consecutive în același loc a valorilor însuşirii cantitative Y.
Momentele de timp în care se măsoară valorile lui Y sunt date de variabila poxitivă
crescătoareX. Din acest motiv valorile lui Y sunt abordate în ordinea în care au culese în
timp.
Dacă însuşirea Y ia valori întregi, datele unui sondaj extras din populaţie la
momentele de timp t1, t2, …, tn sunt valori instantanee y1, …, yn măsurate în acele momente
de timp.
Dacă însuşirea Y ia valori reale, datele unui sondaj extras din populaţie în intervalele
de timp [t1, t2), [t2, t3), …, [tn-1, tn] sunt valori medii y1, …, yn măsurate în acele intervale de
timp cu lungimile t2-t1, t3-t2, …, t n – t n – 1 .
Exemplu
Y = efectivul anual de vaci al unei ferme zootehnice se măsoară prin valori
instantanee (la 31 decembrie al anului calendaristic).
Y = producţia anuală de lapte al vacilor dintr-o fermă zootehnică se măsoară prin
valori medii pe perioada 1 ianuarie – 31 decembrie a anului calendaristic sau pe perioada
medie de lactaţie normală de 308 zile.
Măsurătorile sunt echidistante dacă t2–t1 = t3–t2 = … = tn-tn-1 şi neechidistante în caz
contrar.
Exemplu de măsurători echidistante :
Producţia de lapte a vacilor se controlează echidistant din 28 în 28 zile astfel că într-o
lactaţie normală de 308 zile se efectuează 11 controale ale producţiei de lapte.
Prezentarea grafică a datelor de sondaj de evoluţie instantanee se face prin poligonul
valorilor în raport cu axele (ti, yi) iar a datelor de sondaj de evoluţie se face prin cronograma
în raport cu axele ([ti, ti+1), yi).
Indicatori statistici de sondaj de evoluţie

I) Media cronologică

2
Dacă Y se măsoară prin valori instantanee y1, …, yn la momentele de timp t1, …, tn
avem:
y1 t2  t1   y2 t3  t2   ...  yn1 tn 
(1) Y C
 tn1  tn  t1

Dacă Y se măsoară prin valori medii y1, …,yxn în intervalele de timp [t1, t2), [t2, t3),
…, [tn-1, tn] avem:
y2  y3 yn1  yn
y1  y2 t  t   ...  t t 
t t
2
(2) Y  2 1
3 2 n n1
m 2 2
tn  t1

În cazul măsurătorilor echidistante în timp, avem t2 - t1 = t3 – t2 =, …,= t n – t n – 1 = d


şi t n – t1 = (n – 1 ).d deci :

y1  y2  ... 
(3) Y C respectiv:
yn1 n  1

y1 yn
 y  ...  

2
n1 2
(4) Y m 2
yn

1

II) Ritmul mediu valoric (absolut) de evoluţie

Abaterile valorice ale datelor de sondaj consecutive sunt D1 = Y2 – Y1, …,


Dn – 1 = Y n – Y n – 1 . Ritmul mediu valoric de evoluţie al datelor de sondaj va fi:

(5) D   y2  y1 t2  t1    y3  y2 t3  t2   ...   yn  yn1 tn  tn1 


tn  t1

În cazul măsurătorilor echidistante avem t2 = t1 + r, t3 = t1 + 2r, …, tn = t1 + (n – 1)r


deci:

(6) Y Y
D  nn  11

Valorile aşteptate ale datelor de sondaj de evoluţie formează progresia aritmetică cu


2
raţia D:
Y1, Y1 + D, …, Y1 + (n – 1)D

2
Aceste valori aşteptate Y1 + (i-1.D se apropie de cele observate Yj atunci când
caracterul Y evoluează numai crescător sau numai descrescător în timp şi abaterile
valorice ale datelor de sondaj consecutive D1 ,…,D n – 1 sunt toate pozitive sau toate
negative şi apropiate între ele ca valoare (caracterul Y evoluează liniar în timp).
In caz contrar se ajustează aceste abateri valorice D1,…,D n – 1 cu o funcţie de
regresie neliniară în raport cu timpul .
Pe durata a m perioade de timp, variaţia valorică a caracterului Y va fi
P
P = y1 + (m – 1)D –yy1 = (m – 1) D deci Y variază valoric cu cantitatea P. în m  1
D
perioade de timp.
Dacă notăm y1 + … + ym = Q avem:

mY1  m m 1 D  de unde


Q
2

D  2Y1  D  2Y1   8DQ


m
2D
adică numărul de perioade de timp în care se acumulează cantitatea finală Q a
caracterului Y respectiv în care se consumă cantitatea iniţială Q a caracterului Y.

III) Ritmul mediu procentual(relativ) de evoluţie

Abaterile procentuale ale datelor de sondaj consecutive sunt:

I1  y2 y3
, I  , ..., I y
2
y n-  yn
y1 2
1
n1

Ritmul mediu procentual de evoluţie a datelor de sondaj va fi:


 y
1
tn tn 1
t2 t3
 y   tn t1
t1
 y 
t2
(7) I   2
 ...   n  
 3

y y  yn1 
 1   2  

Dacă logaritmăm relaţia precedentă, obţinem:

(8) log I  logy2  log y1 t2  t1   ...  logyn  log yn1 tn  tn1 
2
deci logaritmul lui I este ritmul mediu valoric de evoluţie al valorilor de sondaj
logaritmate.

3
Dacă măsurătorile sunt echidistante avem:
t2 - t1 = t3 – t2 = … = t n – t n – 1 = d iar tn – t1 = (n – 1).d deci avem :

log yn  log y1
log I  n1 adică :
1
(9) y  n1
I  n
y
 1
Valorile aşteptate ale datelor de sondaj de evoluţie formează o progresie geometrică
cu raţia I: y1,y1.I, …, y1 .I n – 1
Aceste valori aşteptatey1.Ij se apropie de cele observate yj atunci când caracterul Y
evoluează numai crescător sau numai descrescător în timp şi abaterile procentuale ale
datelor de sondaj consecutive, notate cu I1,…,I n – 1 sunt toate supraunitare sau toate
subunitare şi apropiate între ele ca valoare (caracterul Y are o evoluţie exponenţială în
timp ).
In caz contrar se ajustează aceste abateri procentuale I1,…,I n – 1 cu o funcţie de
regresie neliniară in raport cu timpul .
Pe durata a m perioade de timp variaţia procentuală a lui Y va fi

y 1Im1
P  I m1 deci Y variază procentual cu valoarea P în m  log P  1 perioade de timp.
y1
log I
Im1
Dacă notăm Y1 + … + Ym = Q avem: y1  de unde
I1
Q
 Q 
log  I  1  1
y
m  1
adică numărul de perioade de timp în care se acumulează

log I
cantitatea finală Q a valorilor caracterului Y respectiv în care se consumă cantitatea iniţială Q
a valorilor caracterului X.
Fie diviziunile de timp echidistante t1,…,tn (cu t2 – t1 = t3 – t2 = … = tn – tn - 1 ).
În cazul măsurătorilor echidistante, indicatorii D şi I nu depind de y2,…, yn -1, defect
care poate fi corectat prin metoda uniformizării înclinării dinţilor de ferăstrău ai seriei
cronologice y1,…, yn , după cum urmează :
a) Corecţia lui D
Avem diferenţele de ordin I: Di = xi+1 – xi .

3
Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 – t1 = t3 – t2 = … = tn – tn - 1
=1 atunci Di este înclinarea(panta) segmentului care uneşte punctele ( ti, yi ) şi (ti+1, yi+1) cu
ti+1 – ti = 1.
Dacă Di < 0, avem xi > xi+1 deci pe tronsonul [ ti; ti+1] caracterul Y are variaţie
descrescătoare.
Dacă Di = 0, avem yi = yi+1 deci pe tronsonul [ ti; ti+1] caracterul Y este staţionar.
Dacă Di > 0, avem xi < xi+1 deci pe tronsonul [ ti; ti+1] caracterul Y are variaţie
crescătoare.
Vom înlocui pe D cu ritmurile medii valorice (absolute) RV1 şi RV2 care urmează :
RV1 < 0 este media aritmetică a diferenţelor Di < 0 iar RV2 > 0 este media aritmetică
a diferenţelor Di > 0 .
Valorile lui y1,…, yn vor fi ajustate cu ajutorul lui RV1 şi RV2 astfel :
YV1  x1
 yi  RV1 dacă yi  yi1
YV  y dacă y  y (1  i  n-1)
i  i i i1
y  RV dacă y  y
 i 2 i i1

Variaţia pătratică totală a lui Y este :

SPAT  ( x  Y )2
iar variaţia pătratică reziduală valorică a lui Y este :
i
SPAV = (yi – YVi )2
.
Dacă SPAV < SPAT, raportul de corelaţie valorică are forma :

RV  1  SPAV / SPAT [0;1]


Prognoza valorii necunoscute yn+1 se face cu valoarea :
 yn  RV1 dacă ne aşteptăm ca Y să scadă.
YVn1 
 y dacă ne aşteptăm ca Y să fie staţionar.
n
  RV dacă ne aşteptăm ca Y să crească.
 yn 2

b) Corecţia lui I
Avem rapoartele de ordin I: Ri = yi+1 / yi .
Dacă diviziunile de timp echidistante au lungimea 1 adică: t2 – t1 = t3 – t2 = … = tn – tn - 1
=1 atunci Ri este înclinarea(panta) segmentului care uneşte punctele ( ti, logyi ) şi
(ti+1, logyi+1) cu ti+1 – ti = 1.
Dacă Ri < 1, avem yi > yi+1 deci pe tronsonul [ ti; ti+1] caracterul logy are variaţie

3
descrescătoare.

3
Dacă Ri = 1, avem yi = yi+1 deci pe tronsonul [ ti; ti+1] caracterul logy este staţionar.
Dacă Ri > 1, avem yi < yi+1 deci pe tronsonul [ ti; ti+1] caracterul logy are variaţie
crescătoare.
Vom înlocui pe R cu ritmurile medii procentuale (relative) RP1 şi RP2 care urmează :
RP1 < 1 este media geometrică a rapoartelor Ri < 1 iar RP2 > 1 este media geometrică
a rapoartelor Ri > 1 .
Valorile lui y1,…, yn vor fi ajustate cu ajutorul lui RP1 şi RP2 astfel :
yP1  y1
 yi  RP1 dacă yi  yi1
yP  y dacă y  y (1  i  n-1)
i  i i i1
y  RP dacă y  y
 i 2 i i1

Variaţia pătratică totală a lui Y este :

SPAT  ( y  Y
iar variaţia pătratică reziduală procentuală a lui Y este :
)2 i

SPAP = (yi – yPi )2 .


Dacă SPAP < SPAT, raportul de corelaţie procentuală are forma :

RP  1  SPAP / SPAT [0;1]


Prognoza valorii necunoscute yn+1 se face cu valoarea :
 yn  RP1 dacă ne aşteptăm ca Y să scadă.
yPn 
 y dacă ne aşteptăm ca Y să fie staţionar.
1
n
  RP dacă ne aşteptăm ca Y să crească.
 yn 2

Cercetarea statistică reprezintă o lucrare complexă de culegere, prelucrare, analiză şi


diseminare a datelor cu privire la starea şi evoluţia fenomenelor şi proceselor economice şi
sociale. Cercetarea statistică se realizează pe bază de proiecte în care sunt definite concepte
generale, scopul cercetării şi instrumentarul statistic cestă la baza acesteia (modul de
organizare a cercetării: chestionarul, clasificările, nomenclatoarele, normele, instrucţiunile
etc.). Potrivit criteriului sferei de cuprindere, datele din Anuarul Statistic au fost
determinate pe baza a două tipuri de cercetări statistice:

Cercetare statistică exhaustivă (totală). În cadrulacestui tip de cercetare datele sunt


înregistrate de la toate unităţile populaţiei statistice, denumită şi colectivitate statistică, bine
delimitată. Populaţia statistică desemnează totalitatea elementelor supuse observării statistice,
de aceeaşi natură, asemănătoare sau omogene din punctul de vedere al anumitor criterii. Prin
3
astfel de cercetări statistice exhaustive se obţin rezultate detaliate în diferite structuri
administrative, geografice, grupări pe activităţi.
Cele mai cunoscute cercetări exhaustive sunt recensămintele populaţiei şi ale locuinţelor,
recensământul produselor şi serviciilor industriale, recensământul general agricol.

Cercetare statistică prin sondaj. În cadrul acestuitip de cercetare, datele sunt înregistrate
doar de la o parte a populaţiei statistice, numită eşantion. Eşantionul este determinat pe baza
criteriilor de reprezentativitate, prin utilizarea unor metode probabiliste, ale căror rezultate
sunt extinse laîntreaga populaţie statistică.

3
Bibliografie

1. Notite de Curs 2020-2021 – Informatica si Notiuni de Statistica – prof. Univ. Dr.


Dumitru Ene

2. Anuarul Statisti al Romaniei 2020 – Institutul National de Statistica

S-ar putea să vă placă și