Documente Academic
Documente Profesional
Documente Cultură
16 20 37 19C3-C5-Informatica PDF
16 20 37 19C3-C5-Informatica PDF
In sens larg cuvantul eroare inseamna greseala, incertitudine, nesiguranta, etc. Prin
greseala intelegem un fapt realizat de om in activitatea profesionala, sociala, economica,
etc. privind un rationament gresit, o metoda aplicata gresit, un instrument utilizat gresit, o
atitudine ce contrazice regulile morale, sociale sau legistative, neintelegeri ale unor
notiuni, termeni sau concepte din limbajul stiintific, economic, social, etc. Prin
incertitudine se intelege lipsa de certitudine, indoiala asupra unor rationamente, calcule,
sau experimente, iar in domeniul social poate reprezenta starea unei persoane lipsite de
siguranta, de hotarare. In doate domeniile exista incertitudini, de exemplu in domeniul
stiintific s-au dezvoltat diverse teorii care controleaza incertitudinile:
logica matematica bivalenta (cu 2 valori: true, false; logica propozitiilor, logica
predicatelor, logica relatiilor) ofera metode si tehnici certe (logica matematica are
aplicatii in electrotehnica-studiul schemelor cu relee, al schemelor electronice-, in
cibernetica-teoria automatelor, tehnica programarii-, in neurofiziologie-modelarea
sistemelor neuronale-, lingvistica - lingvistica matematica, etc.); sistemele de
calcul folosesc limbajul binar pentru procesarea informatiilor; pentru rezolvarea
diverselor probleme complexe a fost necesara conceperea unor teorii de logica
matematica trivalente si cu mai multe valori (primele sisteme de logica
polivalenta au fost construite de J. Lukasiewicz (1920), E. Post (1921) si de
Grigore C. Moisil (1963)); n limbajul de manipulare a datelor SQL (Structured
Query Language), o stare de adevr TRUE pentru o expresie (de exemplu ntr-o
clauz WHERE) iniializeaz o aciune pe un rnd (returneaz un rnd), n timp ce
o stare de adevr UNKNOWN sau FALSE nu face acest lucru. n acest fel, logica
trivalent este implementat n SQL, i se comport ca logic bivalent pentru
utilizatorul SQL; limbajul Prolog (programare in logica), limbaj al Inteligentei
artificiale este conceput si elaborat avand la baza logica de ordinul I
(cuantificatorii oricare( ) si exista ( ) opereaza doar asupra variabilelor).
teoria logicii si multimilor fuzzy (suport pentru studiul incertitudinii si
impreciziei; aplicatii in analiza fenomenelor si proceselor, fiabilitatea sistemelor,
uzura produselor, gradul de utilizare a produselor sau masinilor, procesarea
imaginilor, etc.). Incompletitudinea unei informaii/date se exprim pe dou scri:
scara incertitudinii se refer la ncrederea care i se acord informaiei (dac sursa
de informaie, instrumentul de msur sau expertul sunt siguri, demni de
ncredere, informaia este cert), scara impreciziei se refer la coninutul
1
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Sunt cunoscute exemple de oameni de stiinta din matematica, fizica, chimie, etc. ce au
facut greseli in cercetarile/teoriile lor (exista cazuri cand s-au facut descoperiri stiintifice
in mod intamplator, de ex. razele X, Penicilina, Viagra, etc.):
exemple relevante pentru matematica sunt prezentate in Alexandru Froda (1894-
1973), Eroare i paradox n matematic, Editura Enciclopedic Romn, 1971.
sute de lucrari stiintifice sunt retrase in fiecare an, din cauza documentarilor
superficiale, plagiatului sau analizelor gresite; de exemplu: Apendicita se
trateaz cu antibiotice. The Journal of Gastrointestinal Surgery a publicat n
2009 un studiu al unor cercettori indieni care susineau c antibioticele sunt o
metod mai sigur dect ndeprtarea chirurgical a apendicelui. Ei au fost
contestai de chirurgi italieni, iar studiul a fost retras din publica ie pe motiv de
plagiat. (Sursa: LiveScience);
inventii atribuite gresit - Conceptul de computer desktop-"oficial": Microsoft
(prin Windows), real: Xerox PARC; Razele X- Inventator "oficial": Thomas
Edison, real: Wilhelm Rontgen; Becul- Inventator "oficial": Thomas Edison, real:
Sir Humphry Davy; Radioul- Inventator "oficial": Guglielmo Marconi, real:
Nikola Tesla (Sursa: http://www.descopera.ro/)
propunem sa examinam n acest capitol att sursele de erori ct si modul n care acestea
influenteaza rezultatele finale.
TIPURI DE ERORI
Eroarea reala este definita ca diferenta dintre valoarea reala (corecta) a unei
marimi y si valoarea masurata (aproximativa) y ' a marimii, adica y y y ' .
In cazul in care y ' < y, marimea respectiva este aproximata prin lipsa, altfel
aproximatia este prin exces sau adaos.
Eroarea absoluta - uneori nu se cunoaste semnul erorii y y y ' , de aceea se
foloseste notiunea de eroare absoluta care este definita prin relatia y | y y ' | .
Eroarea relativa se defineste ca raportul dintre eroarea absoluta si valoarea
absoluta a marimii exacte, adica
.
Eroarea absoluta limita in cazul in care valoarea marimii y nu este cunoscuta,
se introduce notiunea de eroare absoluta limita y corespunzatoare valorii
aproximative y ' ; valoarea acestei erori reprezinta cel mai mic numar pozitiv care
4
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
contine una sau mai multe cifre semnificative, ales n asa fel, nct sa putem fi
siguri ca eroarea absoluta comisa, n cazul respectiv, nu depaseste acest
numar; prin urmare avem urmatoarea relatie
y | y y ' | y , adica y ' y y y ' y ,
ceea ce inseamna ca valoarea y este aproximata prin lipsa, respectiv adoaos.
Incertitudine de masurare ( ) reprezinta intervalul n care se estimeaza, cu o
anumita probabilitate, ca se afla valoarea adevarata a marimii y;
Eroarea conventionala - n realitate valoarea adevarata a unei marimi nu poate fi
cunoscuta, de aceea este necesar sa se adopte o valoare de referinta, care are un
caracter conventional. Se defineste astfel eroarea conventionala ca diferenta dintre
valoarea masurata si valoarea de referinta y conv admisa adica y conv y conv y ' .
O y' y y conv
5
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
trebuie sa se calculze suma seriei pana la n=99 (trunchiere de rang 99). In practica, exista
alte reprezentari care sunt mai eficiente decat cazul n=99, si anume trunchierea se
realizeaza la un rang mai mic. Ex.: Calculul valorii sin(2) cu eroarea 10-7 este 0.909297.
Folosind programul Excel se obtine valoarea 0.909297427, cu 9 zecimale exacte si
valoarea 0.909297426825682, cu 15 zecimale exacte.
Programul EXCEL ofera pentru calcule si reprezentarea valorilor reale urmatoarele formate:
Number decimal places, de exemplu 345.67845634322 cu p=11 zecimale
exacte;
Scientific forma exponentiala xE nm , unde nm reprezinta exponentul lui 10,
adica x10 nm , de exemplu 3.45678456343E+02;
Fraction forma fractionala de diverse tipuri, de exemplu 345 211/311 .
f (i) (x0)
Rn(x) (xx0)i .
in1 i!
Restul seriei Taylor de ordinul n se poate reprezenta sub forma Lagrange, adica
f n1 ( )
Rn ( x) ( x x0 ) n1 , unde ( x0 , x) sau ( x , x0 ) .
(n 1)!
Functiile elementare (sin, cos, ln, etc.) sunt functii reale analitice ce au proprietatea ca
restul seriei lui Taylor tinde la 0. Mai jos sunt exemple de dezvoltari de tip Mac-Laurin
pentru x0 0 .
Tabelul de mai jos exemplifica cei patru parametri (baza, precizia, valorile limita ale
exponentului) ce caracterizeaza reprezentarea n virgula mobila n diverse sisteme(IEEE-
Institute of Electrical and Electronics Engineers):
Un numar real cu mai multe cifre semnificative este rotunjit la numarul de cifre maxim. Acest
lucru se realizeaza prin rotunjirea mantisei. Alte rotunjiri se efectueaza n decursul operatiilor.
Aproximarea unui numar real cu cele doua forme de reprezentare se numeste tehnica de
rotunjire ce introduce eroarea de rotunjire. Exista mai multe modalitati de rotunjire:
Exista cazuri in (in chimie, fizica, etc.) in care trebuie sa se lucreze in calcule cu numere
foarte mari. In acest caz, trebuie sa se cunoasca foarte bine limitele oferite de calculatoare
privind reprezentarea numerelor si modul de calcul pentru toate operatiile. Pe langa
teoriie (aritmetica modala) ce se ocupa de aceste aspecte, exista diverse implementari de
algoritmi pentru astfel de situatii. Un alt exemplu este lucrul cu tablouri foarte mari de
date (tablouri de tip masive). In acest caz este vorba de matricele rare. Matricele rare i
gsesc aplicabilitatea n modelarea unor procese biologice, neoronale, de natur
industrial, economic, tehnic, social, etc.
a) Utilizarea programului Excel. (Puterile 2k, k > 30). Pentru k > 30 s se determine
numrul cifrelor i cifrele puterii 2 k (de exemplu, s se verifice ca 2100 are 31 de cifre i
2100 = 1267650600228229401496703205376 , iar 2 1000 are 302 cifre).
8
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Evident, problema ar fi simpla (fr sens) dac s-ar rezolva printr-o singur instruciune
scrisa intr-un limbaj de programare. Acest lucru se poate realiza doar dac ar exista
restricia k < 31. innd seama de reprezentarea tipului integer n memoria intern a
calculatorului, astazi microprocesoarele i limbajele de programare pot stoca/reprezenta
o valoare ntreag doar pe 4 bytes (32 bii). Prin urmare 231-1 = 2147483647 este cea
mai mare valoare ntreag pe care o poate stoca. Este necesar s concepem un algoritm
pentru calculul puterilor 2k, k>30. Vom lua in consideratie urmtorul tabel (generat
printr-un simplu program, sau folosind facilitile unor programe de calcul, de exemplu
programul Excel inclus n pachetul Microsoft Office, vers. 2003-2007 ; vers. 2010 ofera
precizie mai mare) :
K 1 2 3 4 5 6 7 8 9 10 11 12 13 14
k
2 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384
Folosind programul Excel (ce ofer funcia Power i operaia de putere ^ ) se poate
constata c 236= 68719476736 (dac se utilizeaz pentru celule formatul General) este
puterea maxim ce se poate calcula, i 249= 562949953421312 (dac se utilizeaz pentru
celule formatul Number cu 0 zecimale) este puterea maxim ce se poate calcula.
K= 1 2 K = 28 268435456
2 4 29 536870912
3 8 30 1073741824
4 16 31 2147483648
5 32 32 4294967296
6 64 33 8589934592
7 128 34 17179869184
8 256 35 34359738368
9 512 36 68719476736
10 1024 37 EROARE 1.37439E+11
11 2048 38 2.74878E+11
12 4096 39 5.49756E+11
13 8192 40 1.09951E+12
14 16384
15 32768
16 65536
Corect
17 131072
49 562949953421312
18 262144
50 1125899906842620
19 524288
51 2251799813685250
20 1048576
52 4503599627370500
21 2097152
53 9007199254740990
22 4194304
54 18014398509482000
23 8388608
55 36028797018964000
24 16777216
56 72057594037927900
25 33554432
57 144115188075856000
26 67108864
58 288230376151712000
27 134217728
Rezultate eronate !
9
268435456
536870912
1073741824
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
De la k=50 rezultatele sunt eronate (versiunea Excel 2010 ofera precizie mai mare in
acest caz), si anume se poate observa ca ultimele cifre din dreapta sunt eronate: ptr.
k=50, prima cifra din dreapta, ptr. k=51, ultimele 2 cifre, s.a.m.d.
2100=1267650600228229401496703205376
2300=2037035976334486086268445688409378161051468393665936250636140449354
381299763336706183397376
10
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Sa presupunem ca trebuie sa se reprezinte grafic functia f(x) = x*sin (x), unde x apartine
intervalului [-50,50]. Evident functia este o compunere de functii, o dreapta si o
sinusoida. Metoda matematica invatata de elevi la liceu nu este chiar comoda in acest caz.
Nici nu se recomanda se se utilizeze procedura rezultata din metoda matematica. Nici
studentul de anul I nu se gandeste mai inainte la metoda matematica. Stie si intuieste ca
sunt foarte multe programe care ofera posibilitatea reprezentarii grafice a functiilor.
Probleme este aceea a alegerii unui astfel de program tinand seama de licenta de utilizare
si functiile acelui produs software. Majoritatea programelor stiintifice (2D si 3D) ofera
aceasta posibilitate.
a) cazul programului Excel
Pentru testarea modului de a utiliza programul Excel in cazul reprezentarii grafice a
functiilor, condideram exemplu doar pentru funtia g(x)=sin(x) pe intervalul [-50,50]. La
activitatile practice de Laborator am avut posibilitatea in ultimii ani sa realizez un sondaj
in acest caz. S-a dovedit faptul ca din 20 de studenti, au fost cazuri cand nici un student
nu a obtinut rezultatul corect, dar au fost cazuri cand doar unul sau doi au obtinut
rezultatul corect. Acest lucru dovedeste ca intelegerea notiunilor, conceptelor si relatiilor
intre diversi termeni lasa de dorit la multi studenti din anul I.
Probabil cauzele sunt in invatamantul general si mediu cu multa teorie si cunostinte
multiple, fara activitati demonstrative si practice care sa determine obtinerea unor
competente utile, importante
si oportune. Tot pentru un 1.50000
2, 3, ... , 30 pentru -0 . 5 0 0 0 0
argumentul x. Evident ca va
rezulta graficul unei linii -1 . 0 0 0 0 0
11
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Sistemul de diviziuni (proces de discretizare) din calculul integral este analog rezoluiei
(matricea de pixeli; un pixel este unitatea grafic indivizibil a unui display grafic) oferite
de un display grafic (CRT sau LCD). Aceast structur de pixeli reprezint n
informatic, ceea ce reprezint calculul integral n analiza matematic (Newton,
Riemann, Darboux, Leibniz etc.). Cu cat rezolutia este mai mare cu atat reprezentarea
este de buna calitate. Mai jos este rezolutia oferita de un ecran grafic.
Odat cu apariia display-ului grafic (Graphic Display), n anul 1953, s-a trecut la o
nou etap n dezvoltarea i rspndirea calculatorului. Utilizarea bit-ului prin
organizarea eficient a memoriei calculatorului, nu oferea nici hardware, nici software
posibilitatea de modelare spaial a ieirilor (OUTPUT). Reprezentrile grafice folosind
caractere (numerice sau alfanumerice) nu era o soluie care s realizeze o reprezentare
fidel a obiectelor reale. Suportul hardware fiind inventat, n perioada 1960-1980 au fost
nevoie de cercetri i experimente, modele, algoritmi si programe care s foloseac
12
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
12 litri dintr-un lichid a crui concentraie n alcool este de numai 40 %. Dup cte
zile concentraia lichidului din vas ajunge la 50 % ?
In cele ce urmeaza vom aborda 3 variante de rezolvari pentru aceasta problema pentru a
evidentia atat evolutia metodelor si tehnicilor de rezolvare (teorii si metode numerice),
cat si obstacole in utilizarea diverselor metode (de exemplu, problema propagarii
erorilor in calcule) :
1. Modelarea matematica-metoda matematica modelarea matematica va
reprezenta o ecuatie funtionala ce se poate aborda ca o ecuatie cu diferente finit
de orinul I neomogena;
2. Algoritm de calcul-program intr-un limbaj de programare conceperea
procesului de calcul ce realizeaza un proces iterativ al operatiilor pentru
rezolvarea problemei;
3. Rezolvare cu programul EXCEL se vor utiliza faciltatile programului Excel si
forma algoritmica oferita de metoda algorimica.
Problema este prezentat n [1], enunul ei , aparent este al unei probleme simple, dar
interesant din punctul de vedere a rezolvrii ei, deoarece problema a fost menionat la
vremea respectiv chiar de GAUSS. n [2] apare rezolvarea problemei cu calculatorul.
Rezolvarea problemei nu este evident, dup cum se va vedea n cele ce urmeaz. Din
punct de vedere matematic, rezolvarea necesit noiuni i concepte de matematic
superioar din domeniul ecuaiilor funcionale, i anume a ecuaiilor cu diferene finite
de ordinul I neomogene. n dou articole tiinifice, problema a fost rezolvat de ctre
W. LOREY ( 1935 ) i A. WALTHER ( 1936 ). Din punct de vedere numeric, rezolvarea
problemei necesit cunoaterea metodelor numerice specifice rezolvrii ecuaiilor cu
diferene finite. De altfel, W. LOREY a i utilizat o main de calcul pentru rezolvarea
numeric a unui ecuaii cu diferene finite, aceasta deoarece a sesizat faptul c soluia se
obine dup un numr considerabil de iteraii.
Pentru a face comparaia dintre soluia algoritmic obinut pentru calculator i soluia
analitic, prezentm succint rezolvarea dat de A. WALTHER. Vom considera problema
n cazul general, de accea vom face urmtoarele notaii :
14
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
y(x) - cantitatea de alcool pe litru a lichidului din vas dup x operaii de nlocuire a
lichidului.
i) ( a - bx + cx ) y(x)
unde cazul ii) se obine adunnd cantitatea de alcool din lichidul rmas n vas dup (x-1)
zile, din care s-au scot b litri, cu cantitatea de alcool a celor c litri care se adaug.
unde
este funcia lui Euler dat de relaia:
n cazul particular a=2000, b=15, c=12, y0=0.8, yp=0.4, y(x) este un polinom de
gradul IV :
15
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
de unde, prin aproximare se deduce c y(194) = 0.50048, y(195) = 0.49963, prin urmare
dup x=195 zile se ajunge la concentraia de 0.5.
algorithm Gauss;
int x;
float a,b,c,y0,yp,yf,z,t;
begin // main
read a,b,c ; //liquid quantities
read y0,yp,yf; //concentrations
// initializations
x1; z(a-b)*y0+c*yp;
ta-b+c
while yf < z/t do
begin
xx+1;
y0 z/t; //concentration
z(t-b)*y0+c*yp;
tt-b+c;
end
write x; // solution
end
Referinte
16
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
[2] MARIN VLADA, O problem a lui K.F. Gauss rezolvat cu calculatorul, Gazeta
Matematic, nr. 5/1995.
Pentru a realiza in Excel calculul iterativ din algoritmul de mai sus vom introduce mai
inainte, in celulele corespunzatoare valorile datelor cunoscute:
a b c y0 yp yf
2000.000 15.000 12.000 0.800 0.400 0.500
x ycurent z t
0 0.800 1600.000 2000.000
1 0.800 1592.800 1997.000
2 0.798 1585.636 1994.000
3 0.795 1578.508 1991.000
20
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
CONCLUZII.
Din analiza celor 3 rezolvari ale problemei lui Gauss se poate exprima concluzia ca
metoda matematica (rezolvarea unei ecuatii functionale) este laborioasa si incomoda,
iar metoda algoritmica sustinuta de un program scris intr-un limbaj de programare este
cea mai comoda si eficienta. De asemenea, rezolvarea folosind facilitatile programului
Excel este comoda si eficienta, in primul pentru ca se bazeaza pe procesul de calcul
iterativ din metoda algoritmica. Incovenientele (eliminate in cazul programului scris intr-
un limbaj de programare) apar atunci cand in vas cantitatea de lichid este foarte mare
(5000, 10000, etc.), caz in care tabelul de calcul necesita dimensiuni mari. Mai jos vom
exemplifica printr-o situatie modul in care propagarea erorilor pot denatura obtinerea
rezultatului corect in cazul acestei probleme.
Pentru cantitatea de lichid de 2000, numarul de iteratii este considerabil (x=195, solutia)
si pot determina procesul de propagare a erorilor. Formula variabilei/parametrului z din
algoritmul de calcul, utilizeaza valoarea concentratiei de la pasul precedent
z(t-b)*ycurent + c*yp .
Vom modifica formula astfel ca sa se utilizeze valoare concentratiei la momentul curent,
adica formula C8 = (D7-B$4)*B8+C$4*E$4 va fi modificata astfel:
C8 = (D7-B$4)*B7+C$4*E$4.
In urma refacerii calculelor obtinem rezultatele de mai jos:
Rezultate eronate !
Solutia, in acest caz are valoare mai mare decat valoarea corecta. Influenta propagarii
erorilor a determinat obtinerea unor rezultate eronate.
21
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Indicatori statistici
x1 x 2 ... x n xi
x , sau x i 1
, si avem min xi x max xi .
n n i i
22
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
fx i i n
x i 1
n
, unde fi reprezint frecvena valorii x i , i avem
i 1
fi n .
f i
dup relaia: ma , i 1
1 n
i 1 x i
fi
Indicatori de poziie
Mediana (Median)- Me, aceasta reprezint valoarea central a unei serii de date
aranjate cresctor sau descresctor, si are proprietatea ca imparte seria in 2
grupuri egale, astfel incat jumatate din valori sunt mai mici decat mediana si
jumatate sunt mai mari decat mediana. Este cuartila de mijloc, cuartilele fiind
valori care impart seria in 4 grupe, sau este percentila de mijloc, percentilele fiind
valori care impart seria in 10 grupe egale. Pentru o serie cu numar impar de
valori, valorile seriei sunt in ordine crescatoare si valoarea care imparte seria in
doua parti egale este mediana. Valoarea de mijloc a unei distribuii, este definit
drept cel mai mic numr astfel nct jumtate dintre valori s nu fie mai mari
dect el. Cu alte cuvinte, jumtate dintre valori sunt mai mici sau egale cu
23
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
mediana, jumtate sunt mai mari dect mediana. De remarcat c, dei este utilizat
n general ca un indicator de tendin central, mediana ofer mai degrab
informaii asupra repartizrii observaiilor (indicator de mprtiere). De regul,
mediana este raportat mpreun cu quartilele distribuiei n aa-zisa rezumare
prin cinci valori. Dac x1, x2, . . . , xn sunt valorile observate, mediana este
calculat, dup ordonarea cresctoare a valorilor, x(1) <= x(2)<= . . . <= x(n), prin
Funcie Excel:
MEDIAN(number1,number2,...)
24
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Number1, number2, ... are 1 to 30 arguments for which you want to calculate
the mode. You can also use a single array or a reference to an array instead of
arguments separated by commas. :
1 n
DM ( x x x )
n i 1
x
n
2
i x
s X i 1
(in Excel este functia STDEV sau
n 1
STDEVP).
Variana (Variance) sau dispersia este ptratul abaterii medii ptratice,
V x x2 (in Excel este functia VAR sau VARP).
Intervalul de confidenta (Confidence interval) interval de incredere (numar de
valori in intervalul de incredere) pentru estimarea unui parametru (ex. media,
dispersia, etc) in cazul unei distributii normale Gauss:
a) x x cu probabilitate de 0.682
b) x x 2 cu probabilitate de 0.954
c) x x 3 cu probabilitate de 0.997
h 2
x 2 ) 1
f (x) e ( h , x (,) , h (precizia),
2
si lim f (x) lim f (x) 0 . Mai jos este graficul densitatii de probabilitate pe intervalul
x x
[-2,2] realizat (pasul discretizarii/diviziunii p=0.1) cu programul Excel.
1.2
0.8
0.6 f(x)
y
0.4
0.2
0
-2 .7 .4 .1 .8 .5 .2 1 4 7 1 3 6 9
-1 -1 -1 -0 -0 -0 0. 0. 0. 1. 1. 1.
x
f(x)
1
max f (x) f ()
x(,) 2
- -3 -2 - =0 + +2 +3 +
68.3%
aria 0.341
95.5%
aria 0.477
99.7%
aria 0.499
27
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
1
,
f ( x ) dx 1, max f ( x ) f ( )
x( , ) 2
P(a < (X-m)/s < b) = aria de sub curba normal standard delimitat de x = a i x = b
28
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Modelul teoretic al distributiei erorilor (curba lui Gauss: distributia normala standard)
se refera la un numar infinit de masuratori pentru valorile masurate (observate). In
practica, numarul observatiilor este finit, si uneori acest numar este mic asa cum este
cazul domeniilor chimie, fizica, etc. Sa presupunem ca se fac masuratori pentru marimea
Y. Daca se repeta masurarea marimii Y in conditii identice se constata ca valorile
masurate difera intre ele, si atat pentru un numar foarte mare de masuratori (teoretic
infinit), cat si pentru un numa mic de masuratori (finit) se obtin doua siruri (seturi)
distincte de valori masurate. Daca pentru ambele seturi de valori masurate se reprezinta
grafic frecventele de aparitie (distributia probabilitatilor) a valorii masurate in functie de
valorile masurate, se obtin doua curbe diferite (a se vedea figura de mai jos). Vom nota:
Eroarea sitematica (obiectiva) este data de diferenta dintre media valorilor masurate
pentru un numar infinit de masuratori si valoarea adevarata a marimii Y , adica m - Yr .
Eroarea aleatoare (accidentala) ) este data de diferenta dintre media valorilor masurate
29
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
pentru un numar finit de masuratori si media valorilor masurate pentru un numar infinit
de masuratori, adica Y - m.
Propagarea erorilor
Atunci cnd un rezultat experimental depinde de unul sau mai multe masuratori nesigure,
este necesar s se analizeze propagarea erorilor (incertitudinile: propagation of error or
propagation of uncertainty) acestor msurtori n rezultat final al cercetarii
(experimentului).
In sens statistic, daca X este o variabila aleatoare data ce are o distributie cunoscuta a
erorilor si asupra ei actioneaza un sistem de prelucrare (experiment system), se doreste sa
sa cunoasca propagarea erorilor (distributia erorilor) pentru variabila aleatoare rezultat Y:
30
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Pentru cazul general cand avem n varaibila aleatoaea la intrare (input) X 1 , X 2, ... Xn ,
avem urmatoarea schema generala:
In acest caz avem Y = f (X1 , X 2, ... Xn), unde X1 , X 2, ... Xn sunt variabile aleatore de
intrare (input) avand distributia normala N(i , i), unde i 1,2,..., n .
In acest caz, reprezentarea lui Y sub forma dezvoltatii in serie Tayloy de ordinul I (se
utilizeaza doar deriva de ordinul I)) in punctul (1 , 2, ... , n ) este
31
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Daca pentru medie utilizam notatia din statistica (probabilitati), E ( . ), atunci avem
urmatoarele calcule:
, cu notatiile
Vom presupune ca functia f este liniara si astfel Y este o variabila aleatore distribuita
normal N(y , y) cu media y si abaterea standar y . sa calculam y si y2 :
adica
Pentru exemplificare vom da cateva exemple de operatii asupra intrarilor. Calculul erorii
rezultatului final va fi analilat in cele ce urmeaza.
32
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
2 x = a * b/c
3 x = abc
De exemplu, se poate calcula eroarea la etalonul de curent pe baza legii lui Ohm, sau in
general la masurarea indirecta a curentului, prin masurarea caderii de tensiune pe o
rezistenta etalon. In Chimie si Fizica sunt diverse formule de calcul pentru care trebuie sa
se calculeze eroarea.
33
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Y Y
X X
a) asociere liniara pozitiva b) asociere liniara negativa
Y Y
X X
c) fara (nu exista) asociere d) asociere neliniara (curbilinie)
Y f(x) = ax + b
X
Figura 27. Dreapta de regresie in cazul a)
34
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Distanele yi f(xi), i=1,,n sunt considerate ca erori (reziduuri) intre valorile masurate
si valorile estimate. Dreapta de regresie f(x) = ax + b realizeaz valoarea minim a
ptratelor erorilor (parametri dreptei a si b urmeaza a fi determinati prin MCMMP),
n
S [ y i f ( xi )] 2
i 1
n sensul c orice alt dreapt produce o sum de ptrate mai mare. Este de amintit c o
proprietate a mediei aritmetice este aceea c suma ptratelor diferenelor de la medie are
o valoare minim. Astfel se poate spune c dup cum media reprezint punctul de
echilibru pentru o distribuie univariat de scoruri, la fel dreapta de regresie reprezint
punctul de echilibru ntr-o distribuie bivariat. Utilitatea dreptei de regresiei este aceea
c servete ca baz pentru predicia valorilor lui Y asociate valorilor lui X.
In cazul asocierii neliniare (curbilinie), curba care estimeaza asocierea dintre varabilele
Y si X va fi exprimata prin intermediul unor parametri ce urmeaza a fi determinati prin
MCMMP. In practica, in functie de natura datelor experimentale si procesul analizat
trebuie sa se determine evolutia procesului pe baza datelor experimentale. Aceasta este
reprezentata si estimata de modele matematice date de functii liniare sau neliniare
(curbe).
Modele teoretice
Exemple.
a) Legea densitatii de probabilitate Gauss privind distributia erorilor de masurare (numita
si clopotul lui Gauss), distributia normala standard N(0,1), avand media 0 si dispersia 1:
h 2
x 2 ) 1
f (x) e ( h , x (,) , h (precizia),
2
tranziie de nalt energie. Modelul dat de ecuaia Eyring este folosit n studiul gazelor
prin reacii condensate i mixte (Sursa: Peter Keusch, University of Regensburg,
http://www.demochem.de/eyr-e.htm):
, unde
variabila dependenta k este functie de temperatura T si de parametri S (entropia de
activare), H (entalpia de activare) si
kB = Boltzmann's constant [ 1.381 10 -23 J K -1 ]
T = absolute temperature in degrees Kelvin [ K ]
h = Pank constant [ 6.626 10 -34 J s ]
R = Universal Gas Constant = 8.3144621 [ J mol -1 K -1 ]
S = activation entropy [ J mol -1 K -1 ]
H = activation enthalpy [ kJ mol -1 ]
Observatii:
(forma liniara)
36
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Coeficientul de corelaie (Pearson) este o msur a asocierii liniare dintre dou variabile,
cu alte cuvinte a gradului n care reprezentarea bivariat sub forma unei diagrame de
mprtiere se apropie de o dreapt. Notnd cu X i Y cele dou variabile i cu xi, yi,
i=1,,n, valorile variabilelor, formula de calcul este
37
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
X Y
12.6 0.42365
12.7 1.692047
12.8 2.963326
12.9 4.22442
13 5.462171
13.1 6.663465
13.2 7.81537
13.3 8.905278
13.4 9.921037
13.5 10.85109
13.6 11.6846
13.7 12.41158
13.8 13.023
13.9 13.5109
14 13.8685
14.1 14.09026
14.2 14.17198
14.3 14.11084
14.4 13.90547
14.5 13.55598
14.6 13.06395
14.7 12.43248
14.8 11.66613
14.9 10.77093
15 9.754318
Varianta a) 0.775901
Varianta b) 0.775901 Valori
Varianta c) 0.775901 identice!
Corelatia
(X,Y)
Medie X Medie Y
13.8 10.03771
38
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
A B C D E
-1.2 -9.61406 11.53687 1.44 92.43017
-1.1 -8.34566 9.180231 1.21 69.65011
-1 -7.07439 7.074386 1 50.04693
-0.9 -5.81329 5.231962 0.81 33.79435
-0.8 -4.57554 3.660432 0.64 20.93556
-0.7 -3.37425 2.361972 0.49 11.38554
-0.6 -2.22234 1.333405 0.36 4.938799
-0.5 -1.13243 0.566217 0.25 1.282406
-0.4 -0.11667 0.04667 0.16 0.013613
-0.3 0.813378 -0.24401 0.09 0.661584
-0.2 1.646889 -0.32938 0.04 2.712245
-0.1 2.373869 -0.23739 0.01 5.635252
0 2.985289 0 0 8.91195
0.1 3.473193 0.347319 0.01 12.06307
0.2 3.830792 0.766158 0.04 14.67496
0.3 4.052551 1.215765 0.09 16.42317
0.4 4.134267 1.653707 0.16 17.09216
0.5 4.073128 2.036564 0.25 16.59037
0.6 3.867761 2.320656 0.36 14.95957
0.7 3.518267 2.462787 0.49 12.3782
0.8 3.02624 2.420992 0.64 9.158127
0.9 2.394767 2.15529 0.81 5.734909
1 1.628419 1.628419 1 2.651749
1.1 0.733221 0.806543 1.21 0.537613
1.2 -0.28339 -0.34007 1.44 0.080312
A X X ; B Y Y ; C A B ; D A2 ; E B 2
39
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
A B
Cazul c). Calculul coeficientul de corelaie al celor doi vectori de date se poate exprima si
folosind formula de mai jos:
Cov ( X , Y )
rXY ,
S X SY
unde Cov(X,Y) este covarianta celor doi vectori X si Y, iar SX , SY sunt abaterile standard
x y
n n
2 2
i x i y
pentru X, respectiv Y. Avem: S X si S Y
i 1 i 1
..
n n
Covariana (Covariance)
x
n
i x yi y
Cov X , Y i 1
, unde x i y reprezint mediile vectorilor X i Y.
n
Calculul covarianei folosind funcia statistic din Excel, se face prin apelul functiei
40
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
41
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
42
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
ofera pentru o foaie de calcul (sheet) cu dimensiunea mult mai mare 1048576R x 16384C
si extensia sub forma. .xlsx. Referitor la formatul acestei extensii, trebuie sa facem
observatia ca in practica, un utilizator care lucreaza cu versiunea veche Excel 2003-2007
si deschide un fisier cu acest format, trebuie sa se asigure ca in versiunea noua Excel
2007-2010 este neaparat necesar sa se salveze pentru versiunea Excel 2003-2007.
Control: File
MeniulPORNIRE
Meniul INSERARE
43
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Meniul DATE
Date fiind valorile observate pentru dou variabile aleatoare X i Y, fie acestea (xi,yi),
i=1,,n, prin funcie de regresie se va nelege acea funcie Y = f(X) care aproximeaz
cel mai bine setul de date observate. De regul, criteriul ales este dat de metoda celor mai
mici ptrate (MCMMP), adic acea funcie f pentru care se minimizeaz suma patratelor
erorilor intre valorile masurate si cele estimate (procedeu de fitare), adica suma
n
S [ yi f (xi )]2
i1
Dac f este o funcie liniar, atunci se obine regresia liniar, reprezentat grafic printr-o
dreapt (dreapta de regresie). Dreapta de regresie, mpreun cu abaterile standard ale
variabilelor X i Y, sau cu coeficientul de corelaie, pot constitui o rezumare rezonabil a
distribuiei comune a celor dou variabile X si Y. Adecvana modelului liniar este mai
bun atunci cnd diagrama de mprtiere are form de elips.
S considerm, cazul general cnd avem p parametri, si astfel vom nota dependena
funcional prin
y = f(x; a0, a1, ..., ap)
Parametri a0, a1,..., ap nu se pot determina exact pe baza valorilor empirice y1, y2,...,yn
ale funciei, deoarece acestea din urm conin erori aleatoare. Problema reprezint
obinerea unei estimari "suficient de bune".
45
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Formularea problemei
Dac toate msurtorile valorilor varabilei Y sunt y1, y2,...,yn, atunci estimaiile
parametrilor a0, a1,..., ap se determin din condiia ca suma ptratelor abaterilor valorilor
msurate yk de la cele calculate f(xk; a0, a1,..., an) s ia valoarea minim, adic sa fie
minim expresia
n
S [yk f (xk ;a0, a1,...,ap )]2
k1
.
Consideraia formulat se pstreaz i n general, pentru determinarea parametrilor unei
funcii de mai multe variabile (2, 3, etc.), adica o variabila dependenta (efect) si mai
multe variabile independente (cauze). De exemplu, pentru variabila Z (efect) ce depinde
de dou variabile independente (cauze) X i Y, adic Z=f(X,Y), estimaiile parametrilor
a0, a1,..., ap se determin din condiia ca expresia
n
S [ z k f ( x k , y k ; a 0 , a1 ,..., a p )] 2
k 1
s fie minim.
Determinarea valorilor parametrilor a0, a1,..., ap, se face prin aplicarea condiiilor de
obtinere a valorii minime in derivatele partiale ale funciei S considerat n variabilele a0,
a1,..., ap , adic funcia cu p variabile S(a0, a1,..., ap). Obinerea acestor valori nseamn
rezolvarea sistemului de p ecuaii cu p necunoscute.
S S S
0, 0 ,, 0.
a0 a1 ap
Dreapta de regresie
n cazul modelului liniar (cel mai simplu) se studiaz numai dou variabile X (cauza),
Y(efect) i se dorete gsirea dependenei Y = f(X), unde f(x) = ax + b este o dependenta
liniara (functie de gradul I) cu p=2 parametri a si b.
n urma celor n probe (masuratori, observatii) se cunosc datele (xi ,yi), i=1,..., n i trebuie
s se determine coeficienii a i b astfel nct suma
n
S y i (ax i b)
2
i 1
s fie minim. Condiiile de obinere a parametrilor a i b sunt:
S
a 0
, ceea ce conduce la sistemul de 2 ecuatii cu 2 necunoscute:
0S
b
n n n n
i
2 y (ax i b) ( x i ) 0 i i
2 x y 2 ax 2
i 2 bx i 0
i 1 i 1 i 1 i 1
n n n n
2 y (ax b) 0 2 y 2 ax 2 b 0
i 1 i i
i 1 i i 1
i
i 1
46
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
n n n n
Se noteaz: x i y i Sxy
i 1
x 2i Sxx
i 1
x i Sx
i 1
y
i 1
i Sy si sistemul de ecuaii
devine:
S xy aS xx bS x 0
. Se obin urmatoarele expresii pentru cei doi parametri a si b:
S y aS x nb 0
S x S y nS xy 1
a
(S x ) nS xx
2
i b
n
S y aS x
Cei doi parametri ai funciei model f(x) = ax + b reprezint:
a - panta dreptei de regresie, adic a=tg(), unde este unghiul dintre graficul
funciei f si axa OX (absciselor);
b - valoarea pe axa OX unde graficul funciei f intersecteaz axa OY
(ordonatelor).
[ y i f ( xi )] 2
1 n
R2 1 n
i 1
, unde E ( f ( x)) f ( xi ) .
n i 1
[ E ( f ( x)) f ( x )]
i 1
i
2
O valoare 1 pentru acest coeficient are semnificaia c funcia model f explic ntreaga
variabilitate (dependent) a lui y, iar valoarea 0 c nu exist nici o relaie liniar ntre
variabila Y i variabila X. O valoare de 0.5 a lui R 2 poate fi interpretat n sensul c
aproximativ 50% din variaia variabilei Y poate fi determinata de ctre variabila
independent X.
EXEMPLE
Exemplul 1.
Intr-o foaie de calcul Excel presupunem ca apar valorile masurate pentru variabilele X si
Y. Pentru obtinerea dreptei de regresie si a coeficientului de determinare R2 , trebuie sa se
parcurga urmatorii pasi:
47
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Dreapta de regresie
1320
1310
1300
1290
1280
1270 Y
Y
1260
1250
1240
1230
1220
0 0.2 0.4 0.6 0.8 1 1.2
X
48
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
49
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Dreapta de regresie
1320
y = -83.636x + 1317.6
1310
X Y R2 = 0.999
1300
0.1 1310
1290
0.2 1300
0.3 1293 1280
Series1
0.4 1283 1270
Y
Linear (Series1)
0.5 1276 1260
0.6 1267 1250
0.7 1260
1240
0.8 1251
1230
0.9 1243
1220
1 1233
0 0.2 0.4 0.6 0.8 1 1.2
X
Trebuie sa precizam ca programul Excel ofera prin Trandine mai multe tipuri de regresii
(modele liniare si neliniare):
Linear modelul liniar (regresia simpl), y = a + bx.
Polynomial modelul polinomial de ordin 2, 3, 4, 5, sau 6,
y a 0 a1 x a 2 x 2 a k x k .
Logarithmic modelul logaritmic, y = a + b ln x.
Exponential modelul exponenial, y = aebx
Power modelul putere, y = a xb.
Moving Average modelul de tip MA (medii glisante), n care se calculeaz o serie
nou cu valori obinute ca medie aritmetic a valorilor din seria iniial:
yn = (xn + xn-1 + + xn-k+1)/k, unde k este ordinul modelului. Este modelul prin care
se elimin influenele pe termen foarte scurt sau scurt. Pentru o alegere corect se
poate utiliza informaia cunoscut din cercetri anterioare sau cea furnizat vizual de
aspectul norului de puncte.
Exemplul 2.
Pentru dozarea unui antibiotic ntr-un lichid biologic se propun dou metode: o metod
radio-imunologic (R-I) i o metod imuno-enzimatic (I-E). Se se realizeaz testarea
50
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
comparativ a celor dou metode. Datele pentru cele doua metode sunt prezentate n tabelul
de mai jos. Coeficientul de corelaie intre vectorii R-I (X) i I-E (Y). Dreapta de regresie i
coeficientul de determinare.
X Y C o m p a ra tia m e to d e lo r R -I s i I-E
0.56 0.60
0.65 0.67 4
1.11 1.08 3 .5
1.29 1.25
3
1.42 1.44
M e to d a I-E : Y
2 .5
1.52 1.53
1.84 1.96 2 S e rie s 1
2.18 2.21 1 .5
2.19 2.23
1
2.40 2.44
0 .5
3.01 2.95
3.21 2.25 0
0 1 2 3 4
3.57 3.71
M e to d a R -I: X
3.70 3.46
4
y = 0.8983x + 0.146
3.5
R2 = 0.9308
3
2.5
Metoda I-E: Y
Series1
2
Linear (Series1)
1.5
0.5
0
0 1 2 3 4
Metoda R-I: X
51
Conf. Dr. Marin Vlada, Universitatea din Bucureti, 2012
Exemplul 3.
Pentru studierea efectului unei anumite substane medicamentoase se injecteaz aleator cu
diferite doze 15 oareci. Se urmrete numrul de zile de supravieuire la soareci. Analiznd
datele, se poate trage concluzia c rata de supravieuire crete liniar n funcie de doza
injectat? Sa se studieze reprezentarea norului de puncte si sa se compare modelul liniar si
modelul exponential.
Rezolvare.
Rata de supravietuire
Doza(X) Zile(Y)
14
1 8
1 7.8 12
1 8.2
2 8.8 10
Zile (supravietuire)
2 9
8
2 9.2
Series1
3 9.8 6
3 9.5
3 9.9 4
4 11
2
4 10.8
4 11.5 0
5 12 0 1 2 3 4 5 6
5 12.2 Doza (mg/L)
5 11.9
R a t a d e s u p r a v ie t u ir e
14
y = 1.0167x + 6.9233
12
Z i l e (s u p r a v i e tu i r e )
R 2 = 0.9754
10
8 S e rie s 1
L in e a r (S e rie s 1 )
6 L o g . (S e rie s 1 )
y = 2 . 4 3 8 3 L n (x ) + 7 . 6 3 8 7
4 R 2 = 0.9064
0
0 2 4 6
D o z a (m g / L )
Bibliografie
53