3 Statistica 1

PRELUCRAREA REZULTATELOR EXPERIMENTALE I.
ORIGINEA ERORILOR, EXACTITATE I PRECIZIE TIPURI DE ERORI,
Valoarea adevrat, , a unei mrimi msurate, valoare care se presupune c exist i este unic, nu se poate cunoate niciodat. n practic este mai corect s se lucreze cu noiunea de valoare considerat a fi adevrat (de exemplu, concentraia unei soluii standard). Exist numeroase cauze ce modific valoarea adevrat a unei mrimi i care au ca rezultat obinerea unor valori observate distincte, x. Diferena dintre valoarea observat i cea adevrat poart numele de eroare E: E=x- [ 1]
O msurtoare va fi cu att mai exact cu ct eroarea ei este mai mic. Presupunem, de exemplu, c msurnd dou lungimi diferite se obin rezultatele l1 = 2,4 0,1 m, l2 = 240,3 0,1 m. Cele dou msurtori au aceeai eroare, dar a doua msurtoare pare evident mult mai exact dect prima. De aceea, s-a introdus eroarea relativ Er definit conform relaiei: E x Er = = [ 2] care se exprim, de regul, n procente: x Er ( % ) = 100 [ 3] Se poate admite c o msurtoare este cu att mai exact cu ct eroarea relativ este mai mic. n exemplul anterior :
Er1 = 0,1 0,1 100 4%; E r2 = 100 0,04% 2,4 240,3
Se definesc astfel: o Exactitatea - criteriul care msoar abaterea valorii msurate de la valoarea adevrat. o Precizia criteriul care msoar repetabilitatea msurtorii. Dac diferena ntre valorile unor msurtori repetate este mare, precizia este mic. O precizie bun nu nseamn ns i exactitate deoarece este posibil s se fac mereu aceeai greeal. Un aspect deosebit de important al unui experiment tiinific const n identificarea surselor de erori, micorarea efectelor acestora i determinarea validitii rezultatului final. Tipuri de erori: erori instrumentale (de scal); erori determinate (sistematice); erori nedeterminate (accidentale, aleatorii, ntmpltoare). Erorile instrumentale: Se refer la limitele de msurare ale oricrui instrument de msur. Nu exist un instrument perfect, orice aparat lucreaz cu o anumit eroare de msurare specificat de productor. Aceast eroare poate fi privit ca o caracteristic intrinsec a aparatului i nu poate fi micorat n timpul experimentului. Verificarea i calibrarea aparatelor urmresc aducerea erorii acestora n limitele specificate de productor.
Erorile sistematice: Se mai numesc erori determinate deoarece se refer la acele erori care depind (sunt determinate) de modul n care a fost proiectat i realizat experimentul. Aceste erori, odat produse, afecteaz msurtorile ntr-un mod constant, sistematic (se perpetueaz de-a lungul experimentului cu aceeai mrime), dar pot fi nlturate. Analiznd atent procesul de msurare se poate detecta prezena acestor tipuri de erori, experimentatorul avnd obligaia de a face aceast analiz. Sursele acestor erori sunt datorate: - instrumentelor defectuos calibrate sau manipulate de ctre analist; - impuritilor din reactivii utilizai: - modului de lucru i de calcul defectuos; - metodologiei de lucru incorect ntocmit (exemplu: se lucreaz cu o substan sensibil la lumin i n metodologia de lucru nu se iau msuri care s limiteze efectul luminii, cum ar fi utilizarea de baloane cotate brune i manipularea substanei n spaii ferite de lumina direct a soarelui); - alte tipuri de erori sistematice, diferite de cele operaionale, apar datorit incapacitii persoanei care opereaz de a face observaii exacte. De exemplu, orice persoan este incapabil de a observa exact cu ochiul schimbarea intensitii unei culori i ntotdeauna schimbarea se poate observa numai spre punctul final al experimentului cnd se pune problema egalrii a dou cmpuri luminoase. n general aceste erori fiind aceleai pentru o persoan, pot fi incluse ntr-o "ecuaie personal" a observatorului. Erorile ntmpltoare: Se datoreaz fluctuaiilor ntmpltoare ale diferitelor variabile ale experimentului. Aceste erori sunt imprevizibile, nu se pot controla i din aceast cauz pentru a obine un rezultat ct mai aproape de valoarea adevrat este nevoie ca analiza unei probe s fie repetat de cel puin 3 ori, n calcul lundu-se media acestor msurtori. Datorit caracterului lor aleatoriu, erorile ntmpltoare se pot trata statistic, n sensul de a demonstra c influena acestora este nesemnificativ. n practica laboratoarelor de analiz, un rezultat este obinut pe baza mai multor msurtori efectuate, notate xi, abaterea mediei acestora, notatx, fa de valoarea adevrat, , fiind o msur a exactitii mediei msurtorilor, iar mprtierea valorilor individuale xi n jurul medieix caracterizeaz precizia experimentului (exprimarea cantitativ a acestor mrimi este descris ulterior). Msurtorile sunt acceptate dac au att exactitate, ct i precizie. Media i precizia se apreciaz ca fiind corespunztoare dac se ncadreaz ntre anumite limite de acceptan specifice fiecrui domeniu de activitate (de exemplu, n analiza i controlul medicamentelor aceste limite sunt de 2%) n general, erorile accidentale sunt mai mari dect cele instrumentale (figura 3). Dac se face un numr mare de msurtori i instrumentul lucreaz conform specificaiilor de productor, erorile accidentale se micoreaz i pot fi inferioare celor instrumentale. n condiiile n care instrumentul de msur se afl n parametri normali de lucru, eroarea lui de scal nu depinde de numrul de msurtori. Eroarea sistematic poate fi mai mare sau mai mic dect erorile anterioare i nu depinde de numrul de msurtori (o eroare sistematic se propag cu aceeai mrime). Deoarece cele trei tipuri de erori sunt tratate independent, eroarea total a unei msurtori este dat de suma valorilor absolute ale celor trei: total = scala + intamplato are + sistematice [4]
Noiuni de baz n statistic

Statistica studiaz semnificaia diferenelor pentru a vedea ct de mult aceste diferene se datoreaz ntmplrii i ct unor factori determinani. Pentru o nelegere mai bun a metodelor statistice, sunt definite n continuare cteva mrimi de baz ale acestora. Se consider dispersia valorilor experimentale x n jurul valorii adevrate datorat doar erorilor ntmpltoare. Frecvena de apariie y a unei valori experimentale x urmeaz n acest caz legea de distribuie normal a lui Gauss i depinde de deviaia standard a valorilor experimentale: 1 y= e ( x ) / 2 [ 5] 2 unde y este frecvena de apariie a fiecrei valori, x - diferena dintre valoarea x i valoarea adevrat (eroarea), deviaia standard, e = 2,7183 (baza logaritmilor naturali), = 3,14159. Curba distribuiei normale este prezentat n figura 4. Aria de sub ntreaga curb, cuprins ntre x = - i x = + este egal cu unitatea. Limea picului indic repetabilitatea msurtorilor (dac limea este mic, repetabilitatea este bun). Dac suprafaa de sub curba normal se mparte cu ajutorul a dou ordonate (una la plus i a doua la minus fa de mijloc), aria dintre ordonate reprezint fraciunea din numrul total de msurtori care se gsete ntre cele dou limite alese prin cele dou ordonate. Ea este echivalent cu probabilitatea ca experimentul s dea valori ntre aceste limite. Valorile ariilor se gsesc date n tabele statistice, iar coninutul tabelelor este prezentat ntr-o form aproximativ n figura.
2 2
Frecvena (y)
68,26% din msurtori
95,46% din msurtori
99,74% din msurtori x -2 - 0 -1 0 1 + +2 +3
-3
-3 -2
+
2 3
E=x- z = (x - ) /
Curba lui Gauss
De exemplu probabilitatea exprimat n procente ca valoarea s se gseasc n domeniul descris de limitele este 68,26% unde este deviaia standard pentru o populaie infinit. Valoarea cea mai frecvent (corespunztoare maximului curbei) corespunde mediei aritmetice x a celor N msurtori xi :
xi xi [ 6] x1 + x 2 + .... + x N i =1 x= = = N N N n teoria erorilor, media aritmetic este valoarea reprezentativ a unei variabile msurate (nlocuiete valoarea adevrat). n practic, numrul de msurtori nu poate fi infinit i erorile nu sunt perfect aleatorii. De aceea, x este o aproximare a valorii adevrate cu att mai bun cu ct se fac mai multe msurtori. Forma curbei este un indicator al repetabilitii sau preciziei msurtorilor. n statistic se lucreaz cu diverse mrimi de baz care vor fi prezentate n continuare.
Domeniul R reprezint diferena dintre rezultatul cel mai mic i cel mai mare dintr-un set de valori: R = x mare x mic [ 7] Deviaia di a unui rezultat xi este definit ca diferena absolut dintre rezultat i medie i este: d i = xi x [ 8] Deviaia medie d este media aritmetic a deviaiilor tuturor msurtorilor fa de valoarea medie:
d=
x
i =1
[ 9]
Deviaia (abaterea) standard pentru un numr mic de msurtori ( < 30), s sau DS, se definete ca:
s=
(x
N i =1
[10]
N 1
i reflect dispersia tuturor valorilor individuale n jurul valorii medii. Ptratul deviaiei standard, s2, se numete varian. Pentru un calcul mai rapid al varianei i al deviaiei standard, se folosesc urmtoarele relaii:
s =
2
x
i =1
2 i
Nx
Pentru un numr mare de msurtori deviaia standard este definit ca:
N 1
x
N
2 i
( x )
i
N 1
2
[11]
(x )
i =1 i
[12]
De fapt, experimental se determin numai deviaia standard s, pentru c deviaia standard a unei populaii nu poate fi determinat cu un numr finit de determinri. Valoarea s se poate folosi pentru estimarea lui i este cu att mai apropiat de cu ct numrul de determinri crete: s cnd N Media unei serii de N determinri luate dintr-o populaie infinit va prezenta o mprtiere mai mic fa de valoarea adevrat dect pentru o singur msurtoare. Cu ct N va fi mai mare, media se va apropia de i se poate admite c media rezultat n urma unui numr de N msurtori va fi de N ori mai corect dect o singur msurtoare. Se folosete atunci deviaia standard a mediei (sau eroarea standard) dat de:
sx =
s = N
(x
N i =1
xi
N ( N 1)
[13]
n loc de a folosi valori absolute ale erorilor, domeniului i abaterilor, care se exprim n aceleai uniti de msur ca msurtorile, se folosesc mrimi relative ca: Eroare relativ E r = E / [14]
Domeniu relativ Rr = R / x [15] Deviaia medie relativ d r = d / x [16] Deviaia standard relativ, sr sau DSR, s r = s / x [17] Aceste mrimi cantitative nu au uniti de msur i multiplicate cu 10 2, 3 10 , 106 sau 109 vor da exprimri n procente (%), pri la mie (), pri pe milion (ppm) sau pri pe bilion (ppb). Deviaia standard relativ, DSR, se mai numete coeficient de variaie CV i indic ct de bun este precizia msurtorilor. Eroarea relativ a mediei exprim exactitatea setului de msurtori.
Aplicaii ale metodelor statistice

Statistica permite un studiu cantitativ al erorilor ntmpltoare. Cum n determinrile analitice se fac n mod obinuit numai cteva msurtori pentru fiecare prob sau pe un set de probe, metodele statistice folosite n acest caz sunt aplicate specific. Dac se consider unul sau mai multe seturi de msurtori, acestea au anumite caracteristici care rezid din rspunsurile unor ntrebri: a) Dac s-a calculat media, x , i abaterea standard, s, care este probabilitatea ca valoarea adevrat s fie ntr-un anumit interval n apropierea lui x ? b) Dac se cunoate abaterea standard, s, de cte ori trebuie repetat o msurtoare ca s se gseasc cu o probabilitate mare ntr-un interval n apropierea lui x ? c) Dac dou seturi formate din N1 i N2 msurtori au dat mediile x1 ix2, ct de mare trebuie s fie diferena x1 x 2 pentru a putea fi considerat ca semnificativ (nu este datorat ntmplrii)? d) Se pune aceeai ntrebare i dac se compar rezultatele obinute prin dou metode diferite sau prin dou analize. e) Dac n urma efecturii unei serii de msurtori n aceleai condiii, unul sau mai multe rezultate au valori mult diferite de restul rezultatelor, ct de mari pot fi aceste diferene pentru ca acele valori s nu modifice rezultatul? f) Dac deviaiile standard s1 i s2 pentru dou seturi de msurtori obinute folosind dou metode separate sunt diferite, ct de mare poate fi aceast diferen ca s se poat trage concluzia c ea este semnificativ cu un anumit grad de ncredere? LIMITELE DE NCREDERE I INTERVALUL DE NCREDERE Limitele de ncredere sunt valorile extreme n jurul lui x care definesc intervalul de ncredere. Intervalul de ncredere este intervalul n care ne putem atepta ca valoarea adevrat s fie gsit cu o anumit probabilitate sau grad de ncredere. Aceast probabilitate se exprim n mod obinuit n procente i definete nivelul de ncredere. Dac se dorete o interpretare la un nivel de ncredere din ce n ce mai ridicat, aproape de 100%, intervalul de ncredere trebuie s fie din ce n ce mai larg ca s includ valoarea adevrat . Un nivel de ncredere de 99% sau 95% este considerat satisfctor, iar n unele cazuri se consider suficient i unul de 90%. Diferena (100 - nivelul de ncredere) reprezint probabilitatea de eroare, p, i d probabilitatea ca valoarea s fie n afara intervalului de ncredere calculat. Observaie: deseori p se exprim ca (1 nivel de ncredere/100).
Cunoscnd i numrul de msurtori N, se poate calcula intervalul de ncredere cu relaia: = x ( z ) / N [18] unde z este o variabil care msoar deviaia lui x fa de n uniti de abatere standard , deci z = (x - ) / . Dac nu este cunoscut, limitele de ncredere se calculeaz cu expresia: = x (t s ) / N [19] unde t este o variabil a crei valoare crete cu creterea nivelului de ncredere i descrete cu numrul de grade de libertate ( = N - 1).
Tabelul 1. Valorile lui t pentru diferite grade de libertate i niveluri de ncredere1
=N-1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 25 30 0
50 1,00 4 0,81 6 0,76 5 0,74 1 0,72 7 0,71 8 0,71 1 0,70 6 0,70 3 0,70 0 0,69 7 0,69 5 0,69 4 0,69 2 0,69 1 0,68 7 0,68 5 3 1 1 2 6 2 3 0 5 3 5 2 3 0
Nivel de ncredere (%) 90 95 99 6,31 12,70 63,65 6 7 2,92 4,30 9,92 3 5 2,35 3,18 5,84 2 1 2,13 2,77 4,60 6 4 2,01 2,57 4,03 1 2 1,94 2,44 3,70 7 7 1,89 2,36 3,50 5 0 1,86 2,30 3,35 6 5 1,83 2,26 3,25 2 0 1,81 2,22 3,16 8 9 1,79 2,20 3,10 1 6 1,78 2,17 3,05 9 5 1,77 2,16 3,01 0 2 1,76 2,14 2,97 5 7 1,75 2,13 2,94 1 7 1,72 2,08 2,84 6 5 1,70 2,06 2,78
99,9 636,61 9 31,59 8 12,94 1 8,61 0 6,85 9 5,95 9 5,40 5 5,04 1 4,78 1 4,58 7 4,43 7 4,31 8 4,22 1 4,14 0 4,07 3 3,85 0 3,72
Pentru un numr infinit de msurtori t = z.
=N-1
4 3 4
50
Nivel de ncredere (%) 90 99,9 95 99 8 0 7 5 0,68 1,69 2,04 2,75 3,64 7 2 0 6 0,67 1,64 1,96 2,57 3,29 5 0 6 1
TESTE STATISTICE DE SEMNIFICAIE Datele experimentale sunt de foarte puine ori aceleai cu cele ateptate pe baza modelului teoretic. n plus, dac se compar dou seturi de date experimentale se observ de regul c valorile nu sunt aceleai. n aceste cazuri diferena poate fi atribuit erorilor i verificarea semnificaiei diferenelor observate se realizeaz cu teste statistice speciale. n statistic se urmrete respingerea ipotezei nule H0. Conform ipotezei H0 nu exist diferen semnificativ statistic ntre cantitile numerice care vor fi comparate, de exemplu,x i , saux1 ix2, sau s1 i s2, diferenele observate fiind datorate erorilor ntmpltoare. Pentru a verifica ipoteza se calculeaz probabilitatea ca diferenele observate s fie rezultatul erorilor ntmpltoare. n mod obinuit dac diferena observat este egal sau mai mic fa de diferena ateptat n 95% din cazuri (nivel de ncredere 95%), ipoteza nu poate fi respins i se poate admite c diferena este statistic nesemnificativ. Testul Student sau testul t a) Compararea mediei unui set de date experimentale x cu valoarea adevrat . Testarea validitii unei metode analitice se poate face prin folosirea acestei metode pentru analizarea unor probe standard i compararea valorii medii obinutex cu . Dac diferena: x - > (t s)/ N sau x - > (z ) / N se presupune cx difer semnificativ de , la un nivel de ncredere predeterminat. Pe de alt parte, dac: x - < (t s)/ N sau x - < (z ) / N se presupune c nu exist o diferen semnificativ ntre x i , dei ele nu sunt egale. Mediax este "egal" cu n limite destul de largi (tabelul 1), ceea ce nsemn c valoareax poate fi diferit fa de i totui se presupune c nu exist o diferen semnificativ ntre x i . O diferen semnificativ la un nivel de ncredere dat se poate admite c se datoreaz existenei unor erori determinate i nu a celor ntmpltoare. O comparaie ntrex i se mai poate face i astfel. Se calculeaz valoarea lui t cu ajutorul expresiei [19]: x N [20] t=
s
i apoi se compar cu valoarea teoretic a lui t, care este calculat statistic (tabelul 1) pentru un nivel de ncredere predeterminat: - dac texp > tteor, se admite c exist o diferen semnificativ (erori determinate) ntrex i ;
dac texp < tteor diferena este considerat nesemnificativ i este atribuit erorilor ntmpltoare.
b) Compararea a dou medii experimentalex1 ix2 (testul t) Compararea datelor obinute prin dou metode sau de ctre dou persoane sau de aceeai persoan n condiii experimentale diferite este indispensabil pentru testarea validitii unei analize. n acest sens se compar cele dou medii experimentale folosind testul t. O comparaie similar se poate face dac se dorete s se stabileasc dac dou materiale sunt identice sau nu. Valoarea lui t se calculeaz cu ajutorul relaiei: x x2 N1 N 2 t= 1 [21] s12 N1 + N 2 unde s1-2 reprezint abaterea standard a oricrei valori individuale din cele dou seturi de date, care se calculeaz cu expresia:
s12 =
( xi1 x1 ) 2 + ( xi 2 x2 ) 2 N1 + N 2 2
[22]
Dac N1 = N2 = N ecuaia cu care se lucreaz este: x x2 N t= 1 [23] s12 2 Apoi valoarea calculat t este comparat cu valoarea teoretic t dat n tabele pentru N1 + N2 - 2 grade de libertate i un nivel de ncredere predeterminat, exact ca n cazul n care se compar o mediex cu o valoare adevrat. Observaie: Testul t se aplic la compararea mediilor a dou seturi de date (distribuii) dac deviaiile standard ale celor dou distribuii nu difer semnificativ. Pentru a compara dou deviaii standard se folosete testul F. Testul F de compararea a preciziei Testul F se folosete pentru a compara dac exist o diferen semnificativ ntre preciziile cu care se fac dou serii de msurtori. Se calculeaz paramaterul F definit prin:
s12 F= 2 s2
[24]
unde s1 i s2 sunt deviaiile standard pentru cele dou seturi de date ( s1 > s2). Valorile lui F se scot din tabele statistice (tabelul 2) pentru cele dou grade de libertate 1 i 2 (numere diferite de determinri prin fiecare metod) i la diferite niveluri de ncredere. Interpretare: - dac Fexp > Fteor nseamn c s1 este diferit din punct de vedere statistic de s2; - dac Fexp Fteor nu exist diferene semnificative ntre s1 i s2. Tabelul 2 Valorile lui F pentru diferite grade de libertate i niveluri de ncredere Nivel de ncredere ,% 90 95
1 2 2
2 9,00 19,0
3 9,16 19,1
4 9,24 19,2
5 9,29 19,3
6 9,33 19,3
10 9,39 19,3
9,49 19,5
1 2 3 4 5 6 10
2 0 99,0 0 5,46 9,55 30,8 2 4,32 6,94 18,0 0 3,78 5,79 13,2 7 3,46 5,14 10,9 2 2,92 4,10 7,56 2,30 3,00 4,61
3 6 99,1 7 5,39 9,28 29,4 6 4,19 6,59 16,6 9 3,62 5,41 12,0 6 3,29 4,76 9,78 2,73 3,71 6,55 2,08 2,60 3,78
4 5 99,2 5 5,34 9,12 28,7 1 4,11 6,39 15,9 8 3,52 5,19 11,3 9 3,18 4,53 9,15 2,61 3,48 5,99 1,94 2,37 3,32
5 0 99,3 0 5,31 9,01 28,2 4 4,06 6,26 15,5 2 3,45 5,05 10,9 7 3,11 4,39 8,75 2,52 3,33 5,64 1,85 2,21 3,02
6 3 99,3 3 5,28 8,98 27,9 1 4,01 6,16 15,2 1 3,40 4,95 10,6 7 3,05 4,28 8,47 2,46 3,22 5,39 1,77 2,10 2,80
10 7 99,3 6 5,23 8,78 27,2 3 3,92 5,96 14,5 4 3,30 4,74 10,0 5 2,94 4,06 7,87 2,32 2,97 4,85 1,60 1,83 2,32
0 99,5 0 5,13 8,53 26,1 2 3,76 5,63 13,4 6 3,10 4,36 9,02 2,72 3,67 6,88 2,06 2,54 3,91 1,00 1,00 1,00
Nivel de ncredere ,% 99 90 95 99 90 95 99 90 95 99 90 95 99 90 95 99 90 95 99
Testul Q pentru eliminarea unor date Dac ntr-un set de date exist unele valori care difer considerabil de majoritatea, ndeprtarea unora sau reinerea altora se face pe baza testului Q. Acest test poate fi folosit n cazul n care exist un numr mic de msurtori. Se definete parametrul Q: valoare suspecta valoare apropiata R
Q=
[25]
Parametrul Q se definete ca raportul dintre diferena ntre valoarea suspect i valoarea cea mai apropiat de ea i diferena dintre valoarea cea mai mare i cea mai mic a msurtorilor (deci domeniul). Valoarea statistic a lui Q se regsete n tabelul 4. Tabelul 4. Valorile teoretice Q pentru diferite niveluri de ncredere Rezultat Q N Q0,90 Q0,95 Q0,99 suspect
10
Valoarea cea mai mic x1 Valoarea cea mai mare xN
Q=
x 2 x1 x N x1 x N x N -1 x N x1
Q=
3 4 5 6 7 8 9 10
0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41
0,97 0,83 0,71 0,62 0,57 0,53 0,49 0,47
0,99 0,93 0,82 0,74 0,68 0,63 0,60 0,57
Dac Qexp > Qteor, rezultatul suspect poate s nu mai fie luat n calcul. Dac exist mai mult de o valoare suspect, numerele se aranjeaz n ordine cresctoare x1, x2 ... xN-1, xN i nu se ine cont de valoarea cea mai mic x1 i cea mai mare xN. Valoarea lui Qexp va fi mai mic ca unitatea. Testul Q nu poate fi aplicat n cazul n care din 3 valori dou coincid, pentru c n acest caz Qexp =1 i valoarea suspect trebuie neglijat.
II.

ANALIZA DE CORELAIE (REGRESIE)
Analiza de corelaie urmrete: stabilirea gradului de legtur dintre variabilele analizate determinarea adecvanei modelului matematic, adic a gradului n care ecuaia Y = f(X) atribuit legturii ntre Y i X reprezint datele experimentale Modele matematice uzuale: a) Liniare b) Logaritmice c) Exponeniale Cea mai utilizat regresie este regresia celor mai mici ptrate care presupune gsirea celei mai bune curbe pentru care suma ptratelor rezidualilor (diferena dintre valoare recalculat pe baza ecuaiei modelului matematic i valoarea teoretic) s fie minim. Metode de analiz de corelaie: a) Covariana mrimilor (x,y) b) Coeficientul de corelaie r c) Coeficientul de determinare d) Testul Fisher Covariana (x,y) - Este o msur a gradului de legtur ntre dou variabile individuale - Se definete: ( xi x)( yi y ) cov( x, y ) = N 1 - Interpretare: o Valoarea 0 nu exist nici o corelaie; o Valori 0 exist corelaie Coeficientul de corelaie r - Compar abaterile variabilelor - Exprim abaterile de la valoarea medie aritmetic n uniti de abateri medii ptratice - Se calculeaz cu formula: ( xi x)( yi y ) r= ( xi x) 2 ( yi y ) 2 Interpretare: o r = 0 ntre variabile nu exist nici o corelare sau c relaia dintre variabile nu este liniar sau parabolic
11
o r -1 sau +1 exist corelaie liniar sau parabolic Coeficientul de determinare r2 indic partea din variaia variabilei dependente y care poate fi explicat prin variaia variabilei independente x Dac r sau r2 au valori mici, se procedeaz astfel: Repetarea experienelor n vederea reducerii erorilor; Reanalizarea modelului matematic. Testul Fisher F Neadecvana unui model matematic provine n principal din cauza erorilor de experien i a formei ecuaiei aleas ca model matematic. Testul F compar dispersia datelor experimentale recalculate pe baza modelului matematic cu dispersia datelor experimentale datorat erorilor de experien:
s12 F= 2 s2
n vederea aplicrii testului F, se repet experimentul de j ori n condiii identice pentru fiecare din cele k grupe de valori (x,y), n total fiind n determinri. De exemplu n cazul unei curbe de calibrare, k este numrul de soluii standard cu concentraii diferite folosite la obinerea curbei de calibrare, fiecare concentraie fiind realizat de j ori. Dac Fcalc Ftabel, atunci modelul matematic de corelaie a fost ales corect.
III.
LINEARITATE SI COEFICIENT DE CORELARE
n vederea realizrii determinrilor cantitative se utilizeaz cel mai adesea metoda curbei de calibrare. Modelul de calibrare cel mai frecvent este cel liniar. O dreapt de calibrare este descris de o ecuaie de ordinul I: y = ax + b [26] unde y este valoarea variabilei dependente (mrimea msurat) pentru o variabil independent x dat, a este panta dreptei liniare, iar b valoarea intercepiei dreptei cu axa Oy (valoarea lui y pentru x = 0)2. n general, pentru trasarea ct mai corect a acestei drepte se apeleaz la metoda celor mai mici ptrate 3. Metoda are la baz principiul c dreapta care aproximeaz cel mai bine punctele este aceea pentru care suma tuturor ptratelor deviaiilor de la aceast dreapt este minim. Suma este dat de relaia:
S = ( axi + b y i )
i =1
[27]
Prin calcul diferenial se obin:
a=
b=
N xi y i xi y i
Pe baza valorilor calculate a i b, dreapta y = ax + b construit d cea mai bun aproximare a linearitii datelor.
2
x y x x y N x ( x )
2 i i i i 2 i 2 i
N x i2 ( x i )
[28]
i
[29]
n unele situaii, ntre mrimea msurat i cea determinat nu exist o dependen liniar. Ecuaia care descrie aceast dependen se transform pe baza operaiilor matematice (logaritmare, de exemplu) ntr-o ecuaie liniar. 3 Metoda se aplic n anumite condiii: valoarea msurat y corespunde valorii determinate x (fr eroare); eroarea valorilor y (exprimat ca variana lui y) este independent de mrimea lui x; linia dreapt trebuie s fie o aproximare satisfctoare a modului n care y depinde de variabila x.
12
Practic pentru orice serie de date se poate construi o funcie de corelare, fie ea liniar sau de alt natur. De aceea este nevoie de stabilirea unor criterii pe baza crora o dreapt de regresie construit pe baza datelor obinute cu o metod dat este acceptabil sau nu sau dac dou metode sunt comparabile etc. Un criteriu necesar, dar nu suficient, de apreciere a linearitii unei drepte de calibrare este coeficientul de corelare Pearson, r. Acesta este o msur a corelaiei ntre dou variabile, x i y, i este dat de relaia:
r= xi y i N x y ( x i2 N x
2
r=
Coeficientul de corelare poate varia ntre 1 i +1. O valoare pozitiv a lui r indic o corelare pozitiv ntre dou variabile (valori mari ale lui y corespund unor valori x mari), n timp ce o valoare negativ indic o corelare negativ. Dac r = +1 exist o corelare perfect pozitiv, dac r = -1 corelarea este perfect negativ, iar dac r = 0 nu exist nici o corelare (figurile 6a i 6b) .
10 9 8 7 6 5 4 3 2 1 0 0 2 4 x 6 8 r = -1 y y 10 9 8 7 6 5 4 3 2 1 0 0 2 4 x 6 8 r = +1
[ N xi2 ( xi ) 2 ][ N y i2 ( y i ) 2 ]
N xi y i xi y i
)( y i2 N y
[30] [31]
a) b) Figura 7. Corelaie perfect pozitiv (a) i perfect negativ (b)
Coeficient de corelare versus reprezentare grafic Dac r > 0,99 aceasta indic o linearitate bun. O valoare mai mare dect 0,999 poate fi obinut n condiiile efecturii experimentului cu mare atenie (valorile lui r se exprim cu nc o zecimal dup ultimul 9).
13
Ptratul coeficientului de corelare, notat r 2 (sau R2), poart numele de coeficient de determinare i este ntotdeauna un numr pozitiv. O valoare R 2 > 0,98 indic o bun corelare. Simpla calculare a coeficientul r nu este suficient pentru a afirma faptul c ntre variabilele y i x exist o corelaie bun. Dup cum se observ n figura 8, punctelor experimentale le corespunde un coeficient r = 0,994. Dar nu se poate spune c ntre y i x exist o corelaie linear deoarece punctele experimentale nu sunt uniform distribuite n intervalul pe care se apreciaz linearitatea. De aceea, ori de cte ori se face o analiz de corelaie este nevoie s se reprezinte grafic punctele pentru a vedea nu numai evoluia punctelor, dar i distribuia acestora. Se verific apoi distribuia rezidualilor, definii ca: Rezidual % =
xcal x y b 100 xcal = (din ecuaia y = ax + b) a x
Distribuia trebuie s fie ntmpltoare n jurul unei valori medii (s nu aib o tendin de cretere sau scdere cu x) i s se ncadreze ntre anumite limite specifice metodei experimentale alese.
14

3 Statistica 1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

3 Statistica 1

Încărcat de

Drepturi de autor:

Formate disponibile

PRELUCRAREA REZULTATELOR EXPERIMENTALE I.

ORIGINEA ERORILOR, EXACTITATE I PRECIZIE TIPURI DE ERORI,

Noiuni de baz n statistic

68,26% din msurtori

95,46% din msurtori

99,74% din msurtori x -2 - 0 -1 0 1 + +2 +3

Curba lui Gauss

Pentru un numr mare de msurtori deviaia standard este definit ca:

Aplicaii ale metodelor statistice

Tabelul 1. Valorile lui t pentru diferite grade de libertate i niveluri de ncredere1

Pentru un numr infinit de msurtori t = z.

Valoarea cea mai mic x1 Valoarea cea mai mare xN

0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41

0,97 0,83 0,71 0,62 0,57 0,53 0,49 0,47

0,99 0,93 0,82 0,74 0,68 0,63 0,60 0,57

ANALIZA DE CORELAIE (REGRESIE)

LINEARITATE SI COEFICIENT DE CORELARE

Prin calcul diferenial se obin:

a) b) Figura 7. Corelaie perfect pozitiv (a) i perfect negativ (b)

xcal x y b 100 xcal = (din ecuaia y = ax + b) a x

S-ar putea să vă placă și