Documente Academic
Documente Profesional
Documente Cultură
1 - Curs - Elemente Generale de Statistica Matematica Aplicata PDF
1 - Curs - Elemente Generale de Statistica Matematica Aplicata PDF
1 - Curs - Elemente Generale de Statistica Matematica Aplicata PDF
AL ALIMENTELOR
Curs 1
PROBA trebuie să îndeplinească condiţia să fie luată din populaţie în aşa fel
încât fiecare element din populaţie să aibă aceeaşi probabilitate de a face
parte din probă. Astfel de probe se numesc probe reprezentative.
Variabile - independente sunt cele care sunt manipulate;
- dependente sunt cele a caror valoare este masurata, determinata.
Scări de măsură
Variabilele diferă între ele si prin “Cât de bine” pot fi ele măsurate.
Este clar că în orice măsurătoare este implicată o anumită eroare, aceasta determina
“cantitatea de informatie pe care o putem obţine”.
Exista mai multe tipuri de scări de măsură ceea ce determina si tipuri de variabile:
nominale – permit doar clasificarea calitativă. Putem sa spunem ca termenul respectiv
apartine unei anumite categorii dar nu putem spune cit de mult apartine. (ex. gen: masculin
feminin; rasa, oras, etc.);
ordinale – permit clasificarea calitativa si o ordonare a claselor fara insa o masura precisa. Ex.
de astfel de variabila este nivelul socioeconomic al unei familii. Daca o incadram in clasa
mjlocie-inalta stim ca este o clasa deasupra clasei mijlocii dar nu putem spune ca este cu 18%
mai mult (de ex.). Putem spune ca variabilele ordinale asigura mai multa informatie decât
variabilele nominale.
Variabile tip interval – permit nu numai ordonarea variabilelor masurate dar si cuantificarea
diferentelor dintre ele. Pentru aceasta se defineste o scala si apoi se realizeaza masuratoare in
raport cu aceasta scala. De ex. scara temperaturilor Celsius. Putem spune ca o temp. de 400C
este mai mare decit una de 300C si mai putem spune ca o crestere de temp. de la 20 la 40 0C
este de doua ori mai mare decit o crestere de temperatura de la 30 la 400C.
Variabile tip raport – sunt foarte similare cu cel tip interval dar implica in mod suplimentar un
punct de zero absolut. Exemple de astfel de scări sunt temp Kelvin, spatiu, timpul. Pe o astfel
de scara putem stabili si corelatii intre valorile absolute ale variabilelor.
1.2 Mărimi fizice, unităţi de măsură
O mărime fizică trebuie sa fie definită
- calitativ (prin natura ei)
Identificarea calitativă a unei mărimi fizice se face prin senzații
vizuale, auditive, tactile, termice sau kinestezice şi conduce la
stabilirea naturii ei (ex.: timp, masa, lungime).
- cantitativ (prin valoarea numerică) pentru a fi măsurabilă.
Valoarea numerică a unei mărimi fizice se determină ca raport între
mărimea ei şi o altă mărime considerată drept referinţă( unitatea de
măsură). Pe baza unităţii de măsură şi a valorilor pe care le poate lua o
mărime fizică se poate construi o scară de măsurare. Există mărimi fizice
aditive (masa) şi mărimi fizice neaditive (pH, presiunea, temperatura).
Pentru mărimile fizice neaditive, scara de măsură este aleasă prin
convenţie, de obicei prin definirea unui interval între două valori.
În funcţie de proprietăţi, se poate face urmatoarea clasificare a mărimilor fizice:
- extensive - prezintă proprietăţi de ordonare şi sumabilitate
- intensive - prezintă doar proprietăţi de ordonare
- scalare - sunt determinate doar de valoarea lor numerică
- vectoriale - care asociază fiecărei coordonate câte un vector (forţa)
Mărimile fizice de bază numite şi mărimi fizice fundamentale sunt mărimi
independente alese într-un mod convenţional.
Exemplu:
x se calculeze media aritmetica a
Se dau urmatoarele date: 4, 1, 5, 9, 2, 4, 7, 3, 12, 4, 6. Sa
acestor date.
Rezolvare:
Se calculează media aritmetică a acestor date ca fiind = 57 / 11 = 5,18
FUNCŢIA EXCEL ce poate fi folosita pentru calculul mediei unui set de date este:
frecventa
datelor:
1
a) 1, 4, 3, 7, 4, 9, 2, 4, 8, 6, 4
b) 1, 6, 3, 4, 9, 5, 6, 2, 6, 8, 7, 4, 6 0
1 2 3 4 5 6 7 8 9
Rezolvare: date
a) se ordoneaza crescator şirul de date: 3
Mo1 = 6
1,2,3,4,4,4,5,6,7,8,9; Mo2 = 4
2
frecventa
modulul este valoarea care se repeta cu frecventa cea mai
mare: Mo = 4 1
b) se ordoneaza crescator şirul de date::
1,2,3,4,4,5,6,6,6,6,7,8,9 0
1 2 3 4 5 6 7 8 9
cele două module sunt: Mo1 = 6 şi Mo2 = 4 date
FUNCŢIA EXCEL ce poate fi folosita pentru calculul intervalului de variatie al unui set
de date este:
1 n
s= ∑ i
n − 1 i =1
( x − x ) 2
Exemplu:
Sa se determine deviatia standard pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: x= (2+4+3+6) / 4= 3,75
Se calculeaza deviatia standard a setului de date cu ajutorul mediei aritmetice
calculata anterior:
1 n ( 2 − 3.75) 2 + ( 4 − 3.75) 2 + (3 − 3.75) 2 + (6 − 3.75) 2
s= ∑
n − 1 i =1
( xi − x ) 2 =
3
= 1.71
x + x2 + x3 + ... + xi + ... xn ∑x
i =1
i
x= 1 =
n n
atunci dispersia este:
1 n 1 n
2 1 n
2
s = ∑
n − 1 i =1
2
( xi − x ) = [ ∑ xi − ( ∑ xi ) 2 ]
n − 1 i =1 n i =1
Exemplu:
Sa se determine dispersia pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: x = (2+4+3+6) / 4= 3,75
Se calculeaza dispersia setului de date cu ajutorul mediei aritmetice calculata
anterior: 2 1 n ( 2 − 3.75) 2 + ( 4 − 3.75) 2 + (3 − 3.75) 2 + (6 − 3.75) 2
s = ∑(x
n − 1 i =1
2
i − x) =
4
= 2.92
∑x
i =1
i −x
dm =
n
Exemplu:
Sa se determine deviatia medie pentru urmatorul set de date: 2, 4, 3, 6
Rezolvare:
Se calculeaza mai intai media aritmetica a setului de date: = (2+4+3+6) / 4= 3,75
Se calculeaza deviatia standard a setului de date cu ajutorul mediei aritmetice
calculata anterior: n
∑x
i =1
i −x
2 − 3.75 + 4 − 3.75 + 3 − 3.75 + 6 − 3.75
dm = = = 1.25
n 4
EA = µ − x
Exemplu:
Un student obţine, la analiza concentraţiei unei soluţii de sulfat, următoarele
rezultate: 14,78%; 14,86% şi 14,69%. Profesorul îi spune că valoarea reală µ a probei de
analizat este 14,81%. Care este eroarea absolută ?
Rezolvare:
Media valoarilor studentului este: x = (14,78 + 14,86 + 14,69)/3 = 14,78;
Eroarea absoluta este: EA = | 14,81% - 14,78| = 0,03%
Reacţia intuitivă a studentului faţă de această valoare este să spună că rezultatul său
este bun; dar în continuare, el nu are nici un mijloc de a dovedi aceasta.
În continuare, vom descrie posibilităţile de a folosi statistica pentru a estima
acurateţea rezultatului şi a prezice dacă este ceva gresit cu un rezultat. Erorile
determinate care fac ca valoarea practic obţinută să difere de valoarea absolută µ
sunt clasificate în trei tipuri: erori personale, erori ale metodei şi erori instrumentale.
O anumită eroare face ca rezultatul experimental sa fie mai mic sau mai mare decât
cel obţinut în absenţa ei.
1.6 Precizia
Precizia este raspândirea unui set de rezultate obţinute în acelaşi experiment
În primul exemplu din secţiunea precedentă, rezultatele celor trei probe variază putin
unele faţă de altele. Aceasta este de asteptat. Ar trebui să fii mult mai surprins dacă ai
obţine rezultate identice deoarece oricât de grijuliu ai fi nu se poate repeta experimentul
în mod identic de fiecare dată. Să ne imaginam un chimist perfect care foloseşte o
metodă de încredere absolută şi nişte aparate perfecte. Daca acesta repetă analiza de
300 de ori va putea el obţine pentru toate rezultatele sale o valoare unică de 14,81% ?
Intuiţia noastră despre măsurători repetate ne spune că nici în această situaţie ideală,
acest lucru nu este posibil. Chiar şi în absenţa unor erori determinate ne aşteptăm să
găsim o valoare medie apropiată de 14,81% şi numere egale de masurători deasupra şi
dedesuptul acestei valori. Tipul de eroare care cauzează o astfel de distribuţie se
numeşte eroare nedeterminată sau întâmplatoare. Ea este întotdeauna prezentă în
orice experiment şi nu poate fi atribuită unei cauze specifice. Mărimea erorii
întâmplatoare este o estimare a preciziei experimentului.
În cazul (descris mai sus) al chimistului profesionist care face sute de experimentari ale
aceleiaşi probe, parametrul statistic care măsoară precizia măsuratorilor se numeşte
deviaţia standard (σ). O estimare a acestui parametru poate fi obţinută dintr-un număr
redus de experimentări ( se notează cu s).
1.6 Precizia
Intervalul de variaţie (diferenţa dintre cea mai mare şi cea mai mică valoare) este o altă
masură a preciziei unui set de date, dar el este mai puţin folosit în tratamentul statistic al
datelor.
Noţiunile de medie universală şi de deviaţie standard menţionate în paragraful de mai sus
sunt foarte importante. Un set de rezultate al unui experiment “perfect” repetat de sute de
ori produce o populaţie de rezultate. Această populaţie conţine toate rezultatele teoretic
posibile pentru valoarea masurată cu presupunerea că apar doar erori întamplatoare. Cu
cât este mai mare numărul de măsurători (n) cu atât distribuţia rezultatelor va fi mai
aproape de distribuţia teoretică.
Estimari ale mediei şi deviaţiei standard pot fi obţinute din orice număr de valori. Pentru un
număr mic de valori ele vor fi denumite media probei ( ) deviaţia standard a probei (s) şi
x
asta deoarece setul de valori (xi) utilizat pentru calcul este doar o probă oarecare din toate
rezultatele care ar fi teoretic posibil să fie obţinute. Pe măsură ce n creşte valorile calculate
ale mediei () şi deviatiei standard (s) se apropie de valorile populaţiei μ şi σ. Unul din
scopurile acestui curs este de a utiliza valorile şi s obţinute din rezultate experimentale şi
chiar valorile μ şi σ (dacă se cunosc) pentru a estima
x probabilitatea prezenţei erorilor
determinate în rezultatele noastre.
1.7 Determinarea numărului de cifre semnificative (eroarea standard)
Parametrii statistici ai unei probe ( x şi s) se bazează pe un număr mic de valori din
mulţimea rezultatelor posibile (acestea formează o populaţie) şi deci sunt doar o estimare
brută a valorilor populaţiei μ şi σ care reprezintă întreaga distribuţie.
Să ne imaginăm că fiecare student dintr-o grupă de 15 studenţi repetă experimentul
utilizând aceeaşi pipetă automată. Să presupunem de asemenea că echipamentul este
curat şi în stare bună de funcţionare şi nu apar erori determinate în rezultatele studenţilor.
Ne asteptăm oare ca mediile lor individuale să fie identice? Este posibil ca mediile să fie
foarte aproape unele faţă de altele dar dacă utilizăm o reprezentare tip histogramă vom
observa distribuţia datelor experimentale. Să ne imaginăm că un număr n de 300 de
studenţi fac fiecare câte un număr de 3 experienţe. Oare cum va arăta distribuţia celor
300 de valori medii ( x )? Dacă avem de-a face cu o distribuţie normală a valorilor la care
sunt prezente doar erori nedeterminate atunci valorile mediilor vor forma şi ele o
distribuţie normală.
Ce se obţine dacă se calculează deviaţia standard a valorilor medii? Aceasta va
reprezenta precizia valorilor medii şi va fi o caracteristică a curbei (fig. 1) determinată
de lăţimea distribuţiei. Această deviaţie standard a grupului de medii este denumită
eroarea standard a mediilor (ES ( x )) şi este de folos în estimarea preciziei mediilor sau
în decizia referitoare la numărul de cifre semnificative ce trebuie reţinute în valoarea
medie obţinută din cele n valori.
Se poate dovedi că eroarea standard a mediilor se poate calcula în funcţie de deviaţia
standard a tuturor probelor:
s
ES ( x ) = EXCEL: ES = STDEV(..)/SQRT(n)
n
Nedeterminarea în media x este exprimată de această eroare standard, adică poziţia
primei cifre diferită de zero a ES ne va preciza unde este ultima cifră semnificativă în
valoarea mediei.
Exemplu:
Utilizând datele din exemplul 1, să se calculeze ES ( ) şi să se rotunjească valoarea
medie la numărul potrivit de cifre semnificative. x
Rezolvare: ± 2,1 * 10 −4 g
–4 ES ( X ) = = ±1,2 * 10 − 4 g = ±0,00012 g
s = ±2,1 * 10 g şi N = 3, deci: 3
Deci media calculată va fi prezentată cu 4 zecimale.
1 – Se poate adopta convenţia că deviaţia standard şi eroarea standard se vor raporta
cu 2 cifre zecimale;
2 – Dacă se cunoaşte valoarea σ a populaţiei atunci aceasta trebuie folosită în locul
valorii s a probei.