1 - Curs - Elemente Generale de Statistica Matematica Aplicata PDF

S-ar putea să vă placă și

Descărcați ca pdf sau txt
Descărcați ca pdf sau txt
Sunteți pe pagina 1din 22

CONTROLUL STATISTIC

AL ALIMENTELOR
Curs 1

Elemente generale de statistică


matematică aplicată
1.1 Populaţia şi probele statistice
O populaţie statistică definineşte totalitatea fenomenelor sau obiectelor
calitativ omogene având una sau mai multe caracteristici comune.
Iată câteva exemple:
a) un lot de 10 000 dopuri de plastic (au toate acelaşi scop);
b) rezultatele unei serii de analize (toate sunt obţinute prin aceeaşi
metodă de analiză);
c) parametrii unui proces tehnologic elaborat în fază experimentală.

O proprietate a unei populaţii statistice se apreciază pe baza unei părţi din


colectivitate, denumită probă.

PROBA trebuie să îndeplinească condiţia să fie luată din populaţie în aşa fel
încât fiecare element din populaţie să aibă aceeaşi probabilitate de a face
parte din probă. Astfel de probe se numesc probe reprezentative.
Variabile - independente sunt cele care sunt manipulate;
- dependente sunt cele a caror valoare este masurata, determinata.
Scări de măsură
Variabilele diferă între ele si prin “Cât de bine” pot fi ele măsurate.
Este clar că în orice măsurătoare este implicată o anumită eroare, aceasta determina
“cantitatea de informatie pe care o putem obţine”.
Exista mai multe tipuri de scări de măsură ceea ce determina si tipuri de variabile:
nominale – permit doar clasificarea calitativă. Putem sa spunem ca termenul respectiv
apartine unei anumite categorii dar nu putem spune cit de mult apartine. (ex. gen: masculin
feminin; rasa, oras, etc.);
ordinale – permit clasificarea calitativa si o ordonare a claselor fara insa o masura precisa. Ex.
de astfel de variabila este nivelul socioeconomic al unei familii. Daca o incadram in clasa
mjlocie-inalta stim ca este o clasa deasupra clasei mijlocii dar nu putem spune ca este cu 18%
mai mult (de ex.). Putem spune ca variabilele ordinale asigura mai multa informatie decât
variabilele nominale.
Variabile tip interval – permit nu numai ordonarea variabilelor masurate dar si cuantificarea
diferentelor dintre ele. Pentru aceasta se defineste o scala si apoi se realizeaza masuratoare in
raport cu aceasta scala. De ex. scara temperaturilor Celsius. Putem spune ca o temp. de 400C
este mai mare decit una de 300C si mai putem spune ca o crestere de temp. de la 20 la 40 0C
este de doua ori mai mare decit o crestere de temperatura de la 30 la 400C.
Variabile tip raport – sunt foarte similare cu cel tip interval dar implica in mod suplimentar un
punct de zero absolut. Exemple de astfel de scări sunt temp Kelvin, spatiu, timpul. Pe o astfel
de scara putem stabili si corelatii intre valorile absolute ale variabilelor.
1.2 Mărimi fizice, unităţi de măsură
O mărime fizică trebuie sa fie definită
- calitativ (prin natura ei)
Identificarea calitativă a unei mărimi fizice se face prin senzații
vizuale, auditive, tactile, termice sau kinestezice şi conduce la
stabilirea naturii ei (ex.: timp, masa, lungime).
- cantitativ (prin valoarea numerică) pentru a fi măsurabilă.
Valoarea numerică a unei mărimi fizice se determină ca raport între
mărimea ei şi o altă mărime considerată drept referinţă( unitatea de
măsură). Pe baza unităţii de măsură şi a valorilor pe care le poate lua o
mărime fizică se poate construi o scară de măsurare. Există mărimi fizice
aditive (masa) şi mărimi fizice neaditive (pH, presiunea, temperatura).
Pentru mărimile fizice neaditive, scara de măsură este aleasă prin
convenţie, de obicei prin definirea unui interval între două valori.
În funcţie de proprietăţi, se poate face urmatoarea clasificare a mărimilor fizice:
- extensive - prezintă proprietăţi de ordonare şi sumabilitate
- intensive - prezintă doar proprietăţi de ordonare
- scalare - sunt determinate doar de valoarea lor numerică
- vectoriale - care asociază fiecărei coordonate câte un vector (forţa)
Mărimile fizice de bază numite şi mărimi fizice fundamentale sunt mărimi
independente alese într-un mod convenţional.

Ele sunt (conform Sistemului Internaţional de Unităţi):

1. Lungimea (simbol l, unitate de măsură un metru, 1 m)


2. Masa (simbol m, unitate de măsură un kilogram, 1 kg)
3. Timpul (simbol t, unitate de măsură o secundă, 1 s)
4. Temperatura absolută (simbol T, unitate de măsură un Kelvin, 1 K)
5. Intensitatea radiată a fluxului de lumină (simbol J, unitate de masură o
candelă, 1 cd)
6. Intensitatea curentului electric (simbol I, unitate de masură un Amper, 1 A)
7. Cantitatea de substanță (simbol N, unitate de masură un mol, 1 mol)

Mărimile fizice derivate se definesc pe baza celor fundamentale şi se obţin cu


ajutorul mărimilor fundamentale
1.3 Tipuri de erori
Dintr-o experienta oarecare nu se obtine valoarea matematic
precisa a marimii masurate, ci numai un interval mai larg sau mai
ingust, in interiorul caruia se gaseste valoarea „reala” masurata.
Cunoasterea acestui interval este necesara pentru a aplica cu
suficienta siguranta datele experimentale in calculele numerice si a
compara intre ele diferite metode si procese.

erori personale (grosolane);


Determinate (sistematice) erori ale metodei;
În funcţie de natura lor, erori instrumentale;
erorile pot fi: erori de procedura.

Nedeterminate (întâmplătoare) erori personale


(subiective);
1.4 Parametrii statistici

Având la dispoziţie un număr de date înregistrate, denumite date primare,


pentru a putea trage concluzii valabile asupra problemei cercetate, datele
trebuie caracterizate.

Pentru caracterizarea populaţiei se folosesc parametrii statistici care:


media aritmetică,
- caracterizează distribuţia datelor mediana,
modulul;

intervalul de variaţie al datelor,


deviaţia standard,
- indică tendinţa de
dispersia,
împraştiere a datelor
deviaţia medie,
variabilitatea;
Media aritmetică ( x )

Media aritmetica a unui set de măsurători suma _ rezultatelor


x=
repetate, reprezintă tendinţa valorii măsurate n
n
de a se apropia de o valoare centrală şi poate fi
x1 + x2 + x3 + ... + xi + ...xn ∑
xi
determinată ca medie aritmetică: x= = i =1
n n

Exemplu:
x se calculeze media aritmetica a
Se dau urmatoarele date: 4, 1, 5, 9, 2, 4, 7, 3, 12, 4, 6. Sa
acestor date.
Rezolvare:
Se calculează media aritmetică a acestor date ca fiind = 57 / 11 = 5,18

FUNCŢIA EXCEL ce poate fi folosita pentru calculul mediei unui set de date este:

AVERAGE (numar1, numar2, ….)

Calculeaza media aritmetica a unei probe formate din: numar1, numar2, ….


Mediana (Me)
Mediana sau valoarea de mijloc se obţine prin ordonarea crescătoare a datelor şi
identificarea datei situate la mijlocul seriei.
x1 ≤ x2 ≤ ................... ≤ xm ≤.......≤ xn
În cazul în care această serie conţine În cazul în care această serie conţine
un număr impar de date, mediana va fi un număr par de date, mediana va fi
considerată valoarea situată la mijlocul considerată media aritmetică a celor
seriei: două date situate la mijlocul seriei:
x1, x2,.............xm,...........xn x1, x2,.............xm, xm+1,...........xn
daca n este impară n=2k+1 şi daca n este pară n=2k şi m = n/2
m=(n+1)/2 iar Me = xm iar Me = (xm + xm+1)/2
Exemplu:
Se dau aceleaşi date utilizate la calculul mediei: 4, 1, 5, 9, 2, 4, 7, 3, 12, 4, 6. Sa se
indice mediana acestui set de date.
Rezolvare:
Se ordonează crescător datele: 1 ≤ 2 ≤ 3 ≤ 4 ≤ 4 ≤ 4 ≤ 5 ≤ 6 ≤ 7 ≤ 9 ≤ 12
Se identifică valoarea din mijlocul seriei ordonate ca fiind mediana seriei: Me = 4
Se poate observa că mediana nu mai este influenţată de către valorile extreme.
EXCEL: MEDIAN (numar1, numar2, ….)
Calculeaza mediana unei probe formate din: numar1, numar2, ….
Modulul (Mo)
Modulul reprezintă valoarea care apare cu frecvenţa cea mai mare. Funcţie de
acest parametru populaţia de date poate fi clasificată în unimodală sau polimodală.
O funcţie polimodală arată neomogenitatea datelor, adică arată faptul că datele
obţinute nu fac parte din aceeaşi populatie
Exemplu: Mo = 4
3
Sa se determine modulele pentru urmatoarele seturi de
date si sa se reprezinte grafic frecventa de aparitie a 2

frecventa
datelor:
1
a) 1, 4, 3, 7, 4, 9, 2, 4, 8, 6, 4
b) 1, 6, 3, 4, 9, 5, 6, 2, 6, 8, 7, 4, 6 0
1 2 3 4 5 6 7 8 9
Rezolvare: date
a) se ordoneaza crescator şirul de date: 3
Mo1 = 6

1,2,3,4,4,4,5,6,7,8,9; Mo2 = 4
2

frecventa
modulul este valoarea care se repeta cu frecventa cea mai
mare: Mo = 4 1
b) se ordoneaza crescator şirul de date::
1,2,3,4,4,5,6,6,6,6,7,8,9 0
1 2 3 4 5 6 7 8 9
cele două module sunt: Mo1 = 6 şi Mo2 = 4 date

EXCEL: MODE (numar1, numar2, ….)


Calculeaza modulul unei probe formate din: numar1, numar2, ….
Intervalul de variaţie al datelor (sau amplitudinea) (A)
Intervalul de variaţie al datelor reprezintă diferenţa dintre cea mai mare şi cea mai
mică valoare. Cu cât intervalul de variaţie va fi mai mic cu atât valorile vor fi mai
apropiate şi frecvenţa de apariţie a unei valori individuale mai mare:
A = xmax –xmin
Exemplu:
Sa se determine intervalul de variatie pentru urmatorul set de date:
1, 4, 3, 7, 4, 9, 2, 4, 8, 6, 4
Rezolvare:
se ordoneaza crescator şirul de date: 1,2,3,4,4,4,5,6,7,8,9;
intervalul de variatie va fi; A = xmax –xmin= 9 – 1 = 8

FUNCŢIA EXCEL ce poate fi folosita pentru calculul intervalului de variatie al unui set
de date este:

MAX (numar1, numar2, ….) - MIN (numar1, numar2, ….)


Calculeaza intervalul de variatie al unei probe formate din: numar1, numar2, ….
Deviaţia standard (abaterea medie pătratică) (s)
Deviaţia standard este parametrul principal care exprimă împrăştierea rezultatelor
în jurul valorii medii, fiind un indicator al preciziei (al reproductibilităţii
rezultatelor). Deasemenea, deviaţia standard este un indicator de punere în
evidenţă a erorilor întâmplătoare care afectează procesul de analiză. În cazul unei
distribuţii normale a datelor, se calculează cu formula:

1 n
s= ∑ i
n − 1 i =1
( x − x ) 2

Exemplu:
Sa se determine deviatia standard pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: x= (2+4+3+6) / 4= 3,75
Se calculeaza deviatia standard a setului de date cu ajutorul mediei aritmetice
calculata anterior:
1 n ( 2 − 3.75) 2 + ( 4 − 3.75) 2 + (3 − 3.75) 2 + (6 − 3.75) 2
s= ∑
n − 1 i =1
( xi − x ) 2 =
3
= 1.71

EXCEL: STDEV (numar1, numar2, …)


Calculeaza deviatia standard a unei probe formate din: numar1, numar2,….
Dispersia (varianţa) (s2)
Dispersia sau varianţa reprezintă pătratul deviaţiei standard şi măsoară gradul de
împrăştiere a eşantionului în jurul mediei de sondaj. Presupunând că există n
elemente în eşantion, cu valorile x1, x2, . . . , xn având media:
n

x + x2 + x3 + ... + xi + ... xn ∑x
i =1
i
x= 1 =
n n
atunci dispersia este:
1 n 1 n
2 1 n
2
s = ∑
n − 1 i =1
2
( xi − x ) = [ ∑ xi − ( ∑ xi ) 2 ]
n − 1 i =1 n i =1

Exemplu:
Sa se determine dispersia pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: x = (2+4+3+6) / 4= 3,75
Se calculeaza dispersia setului de date cu ajutorul mediei aritmetice calculata
anterior: 2 1 n ( 2 − 3.75) 2 + ( 4 − 3.75) 2 + (3 − 3.75) 2 + (6 − 3.75) 2
s = ∑(x
n − 1 i =1
2
i − x) =
4
= 2.92

EXCEL: VAR (numar1, numar2, …)


Calculeaza dispersia unei probe formate din: numar1, numar2,….
Deviaţia medie a datelor (dm)
Deviaţia medie a datelor reprezintă media aritmetică a valorilor absolute a
deviaţiilor individuale a datelor în jurul valorii medii. Deviaţia individuală
reprezintă valoarea absolută a diferenţei între valoarea individuală (xi) şi valoarea
mediei aritmetică ( x ) a acestor valori.
n

∑x
i =1
i −x
dm =
n

Exemplu:
Sa se determine deviatia medie pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: = (2+4+3+6) / 4= 3,75
Se calculeaza deviatia standard a setului de date cu ajutorul mediei aritmetice
calculata anterior: n

∑x
i =1
i −x
2 − 3.75 + 4 − 3.75 + 3 − 3.75 + 6 − 3.75
dm = = = 1.25
n 4

EXCEL: AVEDEV (numar1, numar2, …)


Calculeaza deviatia medie a unei probe formate din: numar1, numar2,….
Variabilitatea (coeficientul de variaţie al lui Pearson) (V)
Variabilitatea este utilizată în scopul stabilirii s
gradului de omogenitate a unei probe şi se V = × 100 %
obţine prin raportarea procentuala a deviaţiei
standard la media probei:
x
Exemplu: Rezolvare:
Se dau urmatorele 3 seturi de date: set 1 set 2 set 3
set 1 set 2 set 3 media 80.25 80.25 80.25
82.35 68.67 35.67 deviatia standard 1.86 13.08 31.38
80.24 75.34 124.358 variabilitatea 2.32 16.30 39.10
78.38 62.59 118.63
Interpretarea variabilităţii se face în funcţie
77.78 95.84 46.38
de valorile obţinute:
83.59 91.27 106.56
V(set 1) = 2.32% - este cuprinsă între 0 şi 15%, înseamnă că
80.83 75.85 58.93
împrăştierea datelor este foarte mică, iar media este
79.58 92.59 69.58 reprezentativă, deoarece proba măsurată este omogenă;
80.56 66.59 86.59 V(set 2) = 16.30% - este între 15 şi 30%, împrăştierea
datelor este mijlocie, media fiind încă suficient de
Sa se calculeze media, deviatia standard
reprezentativă;
si variabilitatea pentru fiecare set si sa
V(set 3) = 39.10% - depăşeşte 30%, media aritmetică nu
se interpreteze valorile obtinute. este reprezentativă pentru proba în cauză, fiind
recomandată utilizarea medianei din cauza lipsei de
omogenitate a grupului de valori.
EXCEL: STDEV (numar1, numar2, …) / AVERAGE (numar1, numar2, …) * 100
1.5 Acurateţea
Într-un laborator chimic obişnuit multe din rezultatele experimentale sunt cantitative.
Valorile numerice pentru experimentari repetate sunt obţinute prin proceduri analitice
pentru care un experimentator atent trebuie sa aibe informaţii despre acurateţe şi
precizie.
Acurateţea este o măsură a apropierii determinărilor experimentale de “valoarea
adevarată”. În anumite experimente, studenţii primesc o probă de compoziţie
“necunoscută”. De fapt compoziţia este necunoscută doar de către student, cel mai
adesea instructorul are aceasta informatie. În alte cazuri există probe cu compoziţie
precis cunoscută care sunt livrate de companii care furnizeaza tabele cu “valori
adevarate” ale compoziţie probei ce urmează a fi analizată. Aceste rezultate au fost
obţinute de către chimişti experimentaţi ce au utilizat metode de încredere şi un
număr mare de experimentări repetate.
În continuare, ne vom referi la o valoare adevarată cum este media populaţiei (µ).
Presupunerea de “adevarată” înseamnă că această valoare a fost obţinută printr-un
număr foarte mare de experimentări (250 sau mai multe). Valoarea absolută a
diferenţei dintre media populaţiei (µ) şi media unei probe de doar câteva
experimentări ( )x se numeşte eroare absolută (EA) şi este o măsură a acurateţii
experimentului.

EA = µ − x
Exemplu:
Un student obţine, la analiza concentraţiei unei soluţii de sulfat, următoarele
rezultate: 14,78%; 14,86% şi 14,69%. Profesorul îi spune că valoarea reală µ a probei de
analizat este 14,81%. Care este eroarea absolută ?

Rezolvare:
Media valoarilor studentului este: x = (14,78 + 14,86 + 14,69)/3 = 14,78;
Eroarea absoluta este: EA = | 14,81% - 14,78| = 0,03%

Reacţia intuitivă a studentului faţă de această valoare este să spună că rezultatul său
este bun; dar în continuare, el nu are nici un mijloc de a dovedi aceasta.
În continuare, vom descrie posibilităţile de a folosi statistica pentru a estima
acurateţea rezultatului şi a prezice dacă este ceva gresit cu un rezultat. Erorile
determinate care fac ca valoarea practic obţinută să difere de valoarea absolută µ
sunt clasificate în trei tipuri: erori personale, erori ale metodei şi erori instrumentale.
O anumită eroare face ca rezultatul experimental sa fie mai mic sau mai mare decât
cel obţinut în absenţa ei.
1.6 Precizia
Precizia este raspândirea unui set de rezultate obţinute în acelaşi experiment
În primul exemplu din secţiunea precedentă, rezultatele celor trei probe variază putin
unele faţă de altele. Aceasta este de asteptat. Ar trebui să fii mult mai surprins dacă ai
obţine rezultate identice deoarece oricât de grijuliu ai fi nu se poate repeta experimentul
în mod identic de fiecare dată. Să ne imaginam un chimist perfect care foloseşte o
metodă de încredere absolută şi nişte aparate perfecte. Daca acesta repetă analiza de
300 de ori va putea el obţine pentru toate rezultatele sale o valoare unică de 14,81% ?
Intuiţia noastră despre măsurători repetate ne spune că nici în această situaţie ideală,
acest lucru nu este posibil. Chiar şi în absenţa unor erori determinate ne aşteptăm să
găsim o valoare medie apropiată de 14,81% şi numere egale de masurători deasupra şi
dedesuptul acestei valori. Tipul de eroare care cauzează o astfel de distribuţie se
numeşte eroare nedeterminată sau întâmplatoare. Ea este întotdeauna prezentă în
orice experiment şi nu poate fi atribuită unei cauze specifice. Mărimea erorii
întâmplatoare este o estimare a preciziei experimentului.
În cazul (descris mai sus) al chimistului profesionist care face sute de experimentari ale
aceleiaşi probe, parametrul statistic care măsoară precizia măsuratorilor se numeşte
deviaţia standard (σ). O estimare a acestui parametru poate fi obţinută dintr-un număr
redus de experimentări ( se notează cu s).
1.6 Precizia

Intervalul de variaţie (diferenţa dintre cea mai mare şi cea mai mică valoare) este o altă
masură a preciziei unui set de date, dar el este mai puţin folosit în tratamentul statistic al
datelor.
Noţiunile de medie universală şi de deviaţie standard menţionate în paragraful de mai sus
sunt foarte importante. Un set de rezultate al unui experiment “perfect” repetat de sute de
ori produce o populaţie de rezultate. Această populaţie conţine toate rezultatele teoretic
posibile pentru valoarea masurată cu presupunerea că apar doar erori întamplatoare. Cu
cât este mai mare numărul de măsurători (n) cu atât distribuţia rezultatelor va fi mai
aproape de distribuţia teoretică.
Estimari ale mediei şi deviaţiei standard pot fi obţinute din orice număr de valori. Pentru un
număr mic de valori ele vor fi denumite media probei ( ) deviaţia standard a probei (s) şi
x
asta deoarece setul de valori (xi) utilizat pentru calcul este doar o probă oarecare din toate
rezultatele care ar fi teoretic posibil să fie obţinute. Pe măsură ce n creşte valorile calculate
ale mediei () şi deviatiei standard (s) se apropie de valorile populaţiei μ şi σ. Unul din
scopurile acestui curs este de a utiliza valorile şi s obţinute din rezultate experimentale şi
chiar valorile μ şi σ (dacă se cunosc) pentru a estima
x probabilitatea prezenţei erorilor
determinate în rezultatele noastre.
1.7 Determinarea numărului de cifre semnificative (eroarea standard)
Parametrii statistici ai unei probe ( x şi s) se bazează pe un număr mic de valori din
mulţimea rezultatelor posibile (acestea formează o populaţie) şi deci sunt doar o estimare
brută a valorilor populaţiei μ şi σ care reprezintă întreaga distribuţie.
Să ne imaginăm că fiecare student dintr-o grupă de 15 studenţi repetă experimentul
utilizând aceeaşi pipetă automată. Să presupunem de asemenea că echipamentul este
curat şi în stare bună de funcţionare şi nu apar erori determinate în rezultatele studenţilor.
Ne asteptăm oare ca mediile lor individuale să fie identice? Este posibil ca mediile să fie
foarte aproape unele faţă de altele dar dacă utilizăm o reprezentare tip histogramă vom
observa distribuţia datelor experimentale. Să ne imaginăm că un număr n de 300 de
studenţi fac fiecare câte un număr de 3 experienţe. Oare cum va arăta distribuţia celor
300 de valori medii ( x )? Dacă avem de-a face cu o distribuţie normală a valorilor la care
sunt prezente doar erori nedeterminate atunci valorile mediilor vor forma şi ele o
distribuţie normală.
Ce se obţine dacă se calculează deviaţia standard a valorilor medii? Aceasta va
reprezenta precizia valorilor medii şi va fi o caracteristică a curbei (fig. 1) determinată
de lăţimea distribuţiei. Această deviaţie standard a grupului de medii este denumită
eroarea standard a mediilor (ES ( x )) şi este de folos în estimarea preciziei mediilor sau
în decizia referitoare la numărul de cifre semnificative ce trebuie reţinute în valoarea
medie obţinută din cele n valori.
Se poate dovedi că eroarea standard a mediilor se poate calcula în funcţie de deviaţia
standard a tuturor probelor:
s
ES ( x ) = EXCEL: ES = STDEV(..)/SQRT(n)
n
Nedeterminarea în media x este exprimată de această eroare standard, adică poziţia
primei cifre diferită de zero a ES ne va preciza unde este ultima cifră semnificativă în
valoarea mediei.
Exemplu:
Utilizând datele din exemplul 1, să se calculeze ES ( ) şi să se rotunjească valoarea
medie la numărul potrivit de cifre semnificative. x

Rezolvare: ± 2,1 * 10 −4 g
–4 ES ( X ) = = ±1,2 * 10 − 4 g = ±0,00012 g
s = ±2,1 * 10 g şi N = 3, deci: 3
Deci media calculată va fi prezentată cu 4 zecimale.
1 – Se poate adopta convenţia că deviaţia standard şi eroarea standard se vor raporta
cu 2 cifre zecimale;
2 – Dacă se cunoaşte valoarea σ a populaţiei atunci aceasta trebuie folosită în locul
valorii s a probei.

S-ar putea să vă placă și