Sunteți pe pagina 1din 28

3.

BAZA STATISTICA A MASURATORILOR


Distributia, propagarea si estimarea erorilor

3.1. Indicatori (parametrii) statistici


- sunt definiți pentru a analiza variații de manifestare a unor valori masurate
pentru fenomene și procese și care necesita elaborarea unor metodologii și
tehnici de transformare și aplicare a unor operații speciale de calcul pentru
obținerea unor determinari cantitativ-numerice.
- Indicatorul statistic, în forma sa generala, este expresia numerica a
manifestarilor unor fenomene, procese, activitati sau categorii economice si
sociale, delimitate în timp, spatiu. Pentru cunoasterea proceselor si
fenomenelor, indicatorii statistici îndeplinesc mai multe functii si anume: de
masurare; de comparare; de analiza sau de sinteza; de estimare; de verificare
a ipotezelor si/sau de testare a semnificatiei parametrilor utilizati.
Daca se consideră că am efectuat în condiții similare o
analiză/o măsurare utilizând aceeași metodă, același principiu
și obținem un număr n de rezultate sau date experimentale,
atunci totalitatea datelor obținute alcătuiește o populație de
date sau o populație statistică.
Populația statistică se definește ca fiind o mulțime definită
de obiecte de aceeași natură. Elementele populației se
numesc unități statistice sau indivizi.
Numărul elementelor definesc volumul sau efectivul
populației.
O submulțime de elemente a populației constutuie un
eșantion. În tratarea statistică a datelor se utilizează o serie de
parametrii care caracterizează tendința de centrare sau
împrăștiere a datelor experimentale.
• Indicatorii statistici se pot grupa în:
➢ Indicatori primari (mărimi absolute) – exprimă direct valori
initiale (măsuratori) pentru obiectivele cercetate; se pot obţine prin
înregistrarea directă, centralizarea datelor sau prin însumarea parţială
sau totală a datelor individuale; prezintă o capacitate relativ limitată
de descriere a fenomenului/procesului analizat, şi nu permite
realizarea unor aprecieri calitative;

➢ Indicatori derivaţi – se obţin prin prelucrarea indicatorilor


primari şi fac posibilă analiza aspectelor calitative ale fenomenelor şi
proceselor analizate (ex: mărimi relative, mărimi medii indicatori ai
variaţiei, indici, indicatori ai corelaţiei etc).
3.1.2. Indicatori ai tendinței de centare a datelor

În general, indicatorii tendinţei centrale se determină ca indicatori


medii sau indicatori de poziţie (ai localizării), în funcţie de natura
caracteristicilor urmărite în colectivitatea investigată, de scopul
investigaţiei. Sunt multe situaţiile când tendinţa centrală se caracterizează
printr-un anumit tip de medie (aritmetică, armonică, pătratică,
geometrică), dar şi situaţii de utilizare a indicatorilor sintetici de poziţie
(localizare: modul, cuantile).
1. Media aritmetica – valoarea medie a rezultatului.
𝒊=𝒏
𝟏
ഥ = ෍ 𝒙𝒊
𝒙𝒎 = 𝒙
𝒏
𝒊=𝟏
- Estimeaza tendința de centrare a datelor, dar este puternic influențata de valorile
extreme.
𝑚𝑖𝑛𝑥𝑖 ≤ 𝑥ҧ ≤ 𝑚𝑎𝑥𝑥𝑖
i i
Media aritmetică are o mare importanță în estimarea preciziei
măsurărilor când nu se cunoaște valoarea exactă a mărimii
fizice măsurate.
2. Media armonică – se definește ca valoare inversă a mediei
aritmetice a inverselor valorilor elementelor individuale înregistrate;
𝑛
𝑚𝑎 =
1
σ𝑛𝑖=1
𝑥𝑖

Media armonică este folosită numai în anumite situaţii, şi anume


atunci când valorile/seturile de date sunt alcătuite din valori
exprimate sub formă de rapoarte, cum ar fi preţurile vitezele (în
mp/h), preţurile (în u.m./kg), sau productivitatea (produse/oră-
om).
3. Media geometrică – acea valoare a caracteristicii
observate care dacă ar înlocui fiecare valoare individual din
serie, produsul acestora nu s-ar modifica
1
𝑛 𝑛
𝑚𝑔 = ෑ 𝑥𝑖
𝑖=1

• În cazul în care în șirul de date apar elemente care se repetă, este


definită noțiunea de frecvență ca fiind numărul de repetiție al acesteia în
cadrul populației obținute în urma măsurătorii.
• Frecvența relativă – raportul dintre frecvența individual și suma
frecvențelor individuale a tuturor datelor (Media ponderată).
𝑖=𝑛
𝑓𝑖 ∙ 𝑥𝑖
𝑥𝑚 = 𝑥ҧ = ෍
𝑓𝑖
𝑖=1

Într-o colectivitate statistică, suficient de mare (n mare), unde de


obicei, multe valori prezintă o anumită frecvenţă de apariţie, media
aritmetică se calculează ca o medie ponderată.
3.1.3. Indicatori de poziție

• 1. Mediana (valoarea de mijloc) – se obține prin ordonarea


crescatoare a datelor și identificarea datei situate la mijlocul seriei.

𝑥1 ≤ 𝑥2 ≤……………..≤𝑥𝑚 ≤………….≤ 𝑥𝑛

𝑥1 , 𝑥2 , … … … … … … 𝑥𝑚 , … … … … . 𝑥𝑛 daca n este impara n=2k+1 m=(n+1)/2

Me=𝑥𝑚

𝑥1 , 𝑥2 , … … … … … … 𝑥𝑚 , 𝑥𝑚+1 … … … … . 𝑥𝑛 daca n este para n=2k m=n/2

(𝑥𝑚 + 𝑥𝑚+1 )
𝑀𝑒 =
2
Indicatorii de poziţie calculează şi se identifică în cadrul unui set de valori cu
câte o variantă reală, care posedă o anume proprietate, conform căreia
respectiva variantă oferă o informaţie satisfăcătoare despre setul de valori
studiat:

Mediana (Median) – Me, reprezintă valoarea centrală a unei serii de date


aranjate crescător sau descrescător, şi are proprietatea că împarte seria în 2
grupuri egale, astfel încât jumătate din valori sunt mai mici decât mediana şi
jumătate sunt mai mari decât mediana. Este cuartila de mijloc, cuartilele fiind
valori care împart seria în 4 grupe, sau este percentila de mijloc, percentilele
fiind valori care împart seria în 10 grupe egale.

In cazul in care aceasta serie contine un numar impar de date, mediana va fi


considerata valoarea situate la mijlocul seriei. In cazul in care aceasta serie
contine un numar par de date, mediana va fi considerata media aritmetica a
celor doua date situate la mijlocul seriei. Mediana nu mai este influentata de
catre valorile extreme.
2. Modulul (moda de sondaj)– valoarea care apare cu
frecvența cea mai mare.
Valoarea modală se utilizează ca indicator al tendinţei centrale
atunci când media nu se poate calcula sau nu are sens să fie
calculată.Valoarea modală este cea mai frecventă valoare dintr-o
mulţime de valori.

Functie de acest parametru populatia de date poate fi clasificata


in unimodală sau polimodală . O functie polimodala arata
neomogenitatea datelor, adica arata faptul ca datele obtinute nu
fac parte din aceesi populatie.
• Unimodală

- ex: pentru șirul de date: 1,2,3,4,5,5,5,6,7,8,9

modulul este Mo = 5.

• Polimodală

- ex: pentru șirul de date:


1,2,3,4,5,5,6,7,7,7,7,7,8,9 cele două module sunt:
Mo1 = 7 și Mo2 = 5.
3.1.4. Indicatori ai tendinței de împraștiere a datelor
• 1. Amplitudinea sau domeniul datelor (indice de dispersie) –
diferența dintre cea mai mare și cea mai mica valoare. Cu cât
amplitudinea va fi mai mica, cu atât valorile vor fi mai
apropriate și frecvența de apariție a unei valori individuale mai
mare.
A = 𝑥𝑛 − 𝑥1

Oferă o imagine a răspândirii datelor, dependentă însă de


numărul de valori observate. Cu cât se măsoară mai multe
elemente, cu atât şansa de a observa valori mai depărtate creşte,
deci şansa de a obţine o amplitudine mai mare.
2. Abaterea medie (Mean Deviation) – deviația sau abaterea
medie reprezinta media abaterilor valorilor individuale fața de
valoarea medie:
𝑛
1
𝐷𝑀 = ෍(𝑥𝑖 − 𝑥)ҧ
𝑛
𝑖=1

3. Abaterea medie pătratică (abaterea standard sau deviația


standard – Standard Deviation) – parametrul principal care
exprimă împrăștierea rezultatelor în jurul valorii medii, fiind un
indicator al preciziei. De asemenea, abaterea standard este un
indicator de punere în evidență a erorilor întâmplătoare care
afectează procesul de analiză.
• În cazul unei distribuții normale a datelor, se calculează cu
formula:
σ𝑖=𝑛
𝑖=1 (𝑥𝑖 − 𝑥𝑚 )
2
𝑠=
𝑛−1
4. Dispersia (varianța – Variance) – pătratul abaterii
standard și măsoară gradul de împrăștiere a eșantionului în
jurul mediei de sondaj.

• Dacă există n elemente în eșantion, cu valorile

{x1, x2, …, xn }, având media M = (x1 + x2 + …+ xn)/n,


atunci dipersia este:

[(𝑥 − 𝑀) 2 + (𝑥 − 𝑀)2 + ⋯ + 𝑥 − 𝑀 2 ]
1 2 𝑛
𝑠2 =
(𝑛 − 1)
• 5. Deviația medie a datelor - media aritmetică a valorilor
absolute a deviațiilor individuale a datelor în jurul valorii medii.
Deviația individuală reprezintă valoarea absolută a diferenței între
valoarea individuală și valoarea medie aritmetică a acestor valori.

𝑑𝑖 = 𝑥𝑖 − 𝑥𝑚

σ𝑖=𝑛
𝑖=1 𝑥𝑖 − 𝑥𝑚
𝑑𝑚 =
𝑛

Suma deviatiilor calculate in valori reale si nu absolute este


nula. In acest caz deviatiile pozitive vor anula deviatiile negative
ale valorilor individuale fata de valoarea medie aritmetica.
• 6. Coeficientul de variație (coeficientul lui Pearson) – este utilizat în
scopul stabilirii gradului de omogenitate a unui eșantion și se obține prin
raportarea abaterii standard la media eșantionului. Rezultatul obținut se
raportează în procente. 𝑆
𝑉= ∙ 100
𝑥𝑚

Interpretarea coeficientului de variație se face în funcție de valorile obținute:


- dacă este cuprins între 0 și 15%, înseamnă că împrăștierea datelor este foarte mica, iar
media este reprezentativă, deoarece eșantionul măsurat este omogen;
- dacă valoarea lui este între 15 și 30%, împrăștierea datelor este mijlocie, media fiind
încă suficient de reprezentativă;
- dacă coeficientul depășește 30%, media aritmetica nu este reprezentativă pentru
eșantionul în cauza, fiind recomandată utilizarea medianei din cauza lipsei de omogenitate a
grupului.
3.2. Distributia, propagarea si estimarea erorilor
• Erorile aleatoare (accidentale) produc efecte asupra preciziei datelor si
rezultatelor. Acestea nu sunt corelate și afecteaza valorile masurate și se
considera ca pentru masuratori de volum foarte mare (n tinde catre ꝏ) aceste
erori sunt realizari ale unei variabile aleatoare normale (distribuția normala
Gauss) X. Principala proprietate a acestei distrubuții de probabilitați este
aceea ca valorile masurate se distribuie aleator la stânga și la dreapta fața de
valoarea medie, adica satisface legea densitații de probabilitate Gauss
(Clopotul lui Gauss), distribuția normal standard N(0,1), având media 0 și
dispersia 1:
ℎ −ℎ2 ∙𝑥 2 1
𝑓 𝑥 =𝜋∙𝑒 , 𝑥 ∈ −∞, +∞ , ℎ = 𝜎 (precizia),
2

𝑠𝑖 lim 𝑓 𝑥 = lim 𝑓(𝑥) = 0


𝑥→−∞ 𝑥→+∞∞

Erorile aleatoare de măsurare sunt caracterizate de o lege de repartitie


determinata. Existenta legii de repartitie poate fi stabilita repetind masurarea unei
marimi fizice, in conditii identice, pentru un numar n de masurari suficient de
mare.
Daca se fac n masurari, iar intr-un anumit interval cad m masurari, pentru n
suficient de mare, se poate considera ca frecventa relativa de cadere in
intervalul considerat (m/n) este o cantitate constanta caracteristica intervalului.
Se poate considera ca probabilitatea ca variabila aleatoare z sa ia valori intr-un
anumit interval (𝑧1 < 𝑧 < 𝑧2 ), notata 𝑃(𝑧1 < 𝑧 < 𝑧2 ), este aproximativ egala
cu frecventa relativa. Modelul probabilistic teoretic admite faptul ca erorile
aleatoare z si prin urmare insasi rezultatele masurarilor x sunt variabile
ce pot lua orice valoare reala, deci sunt definite pe intervalul (- ∞, + ∞).

Regula care permite ca pentru fiecare interval (𝑧1 , 𝑧2 ) sa se


gaseasca probabilitatea 𝑃(𝑧1 < 𝑧 < 𝑧2 ) se numeste legea de repartitie a
variabilei aleatoare z. Graficul densitatii de repartitie se numeste curba de
repartitie.
În figură este prezentat graficul densităţii de probabilitate pe intervalul [-
2,2] realizat (pasul discretizării/diviziunii p=0.1) cu programul Excel.
- curba prezintă un maxim de coordonate: x=x barat și fmax = functia
de pe grafic.

- pentru x→±∞, curba tinde asimptotic spre zero;

- în punctele de abscise: x = x +σ şi x = x −σ , curba are puncte de inflexiune;

- curba este simetrică în raport cu ordonata ridicată normal pe axa Ox în punctul


x = x barat.

- aria suprafeţei delimitate de graficul funcţiei f (x) între punctele x = x ±σ


este 0,683, ceea ce înseamnă că 68,3% din măsurători cad în intervalul x = x ±σ ;

- mărimea σ determină forma curbei.


Distribuția normala (Normal Distribution – ND)
- Densitatea de probabilitate Gauss
• Prin definitie, o variabila aleatoare. X are o repartitie normala cu
parametrii µ si s, daca densitatea sa de probabilitate este
- mărimea σ determină forma curbei; în figura se arată curbele de distribuţie
pentru două seturi de măsurători, cu acelaşi număr de valori, asupra aceleeaşi
mărimi fizice, în aceleaşi condiţii de laborator; abaterea medie pătratică
pentru primul set este mai mică decât pentru cel de-al doilea set σ1 < σ2 ; în
primul caz curba de distribuţie are un maxim pronunţat iar valorile
experimentale se grupează în jurul mediei şirului de valori; pentru cazul
doi maximul este aplatizat iar valorile măsurate sunt dispersate; de
exemplu, dacă rezistenţa electrică a aceluiaşi rezistor este măsurată, in
aceleaşi condiţii, de către doi experimentatori cu experienţă diferită este
posibil ca cel mai priceput să obţină curba dată de valoarea σ1 a parametrului
abaterea medie pătratică;
- mărimea x determină deplasarea curbei pe axa absciselor; în figura
se arată curbele de distribuţie pentru două seturi de măsurători, cu
acelaşi număr de valori, măsurand dar în condiţii de laborator
schimbate.
Este remarcat faptul că pentru o curbă a distribuţiei erorilor cu o medie
dată σ şi cu diverse dispersii σ1 ,σ2 şi σ3 crescătoare, atunci cele trei
curbe au “baza” crescătoare aşa cum se vede în figura de mai sus.
Modelul teoretic al distribuţiei erorilor (curba lui Gauss: distribuţia
normal standard) se referă la un număr infinit de măsurători pentru
valorile măsurate (observate).
Modelul teoretic al distribuţiei erorilor (curba lui Gauss: distribuţia normal
standard) se referă la un număr infinit de măsurători pentru valorile măsurate
(observate). În practică, numărul observaţiilor este finit, şi uneori acest număr este
mic aşa cum este cazul domeniilor chimie, fizică etc. Să presupunem că se fac
măsurători pentru mărimea Y. Dacă se repetă măsurarea mărimii Y în condiţii
identice se constată că valorile măsurate diferă între ele, şi atât pentru un număr
foarte mare de măsurători (teoretic infinit), cât şi pentru un număr mic de măsurători
(finit) se obţin două şiruri (seturi) distincte de valori măsurate. Dacă pentru ambele
seturi de valori măsurate se reprezintă grafic frecvenţele de apariţie (distribuţia
probabilităţilor) a valorii măsurate în funcţie de valorile măsurate, se obţin două
curbe diferite (a se vedea figura de mai sus).
Eroarea sistematică (obiectivă) este dată de diferenţa dintre
media valorilor măsurate pentru un număr infinit de măsurători
şi valoarea adevarată a mărimii Y, adică m - Yr . Eroarea
aleatoare (accidentală) este dată de diferenţa dintre media
valorilor măsurate pentru un număr finit de măsurători şi
media valorilor măsurate pentru un număr infinit de
măsurători, adică Y - m.
• Propagarea (distribuția) erorilor
• Atunci când un rezultat experimental depinde de mai multe masuratori
nesigure, este necesar sa se analizeze propagarea erorilor acestor masuratori
în rezultatul final al cercetarii experimentale.
• Daca X este o variabila aleatoare data, ce are o distribuție cunoscuta a
erorilor și asupra ei acționeaza un sistem de prelucrare, se dorește sa se
cunoasca propagarea erorilor (distribuția erorilor) pentru variabila aleatoare
rezultata Y:

Trebuie să se determine distribuţia funcţiei de ieşire pentru variabila Y, adică


Y = f(X), unde f este cunoscută şi distribuţia erorilor pentru varaiabila aleatoare X
este cunoscută.

S-ar putea să vă placă și